Download - Confiabilidad y validez de los instrumentos
Validez y Confiabilidad de las pruebas.
Toda medición o instrumento de recolección de los datos debe
reunir dos requisitos esenciales: confiabilidad y
validez.
Validez y Confiabilidad de las pruebas.
La confiabilidad de un instrumento de medición se refiere al grado en que su aplicación repetida al mismo sujeto u objeto, produce iguales resultados.
CONFIABILIDAD
CONFIABILIDAD PRECISIÓN
¿Qué es la Confiabilidad de un instrumento psicométrico?
Es un índice de la calidad de la
técnica de evaluación.
Todo usuario de técnicas debe comprender y
valorar la confiabilidad.
Los cálculos y estimaciones
están a cargo de quien elabora el
instrumento.
¿Qué es la Confiabilidad de un instrumento psicométrico?
Es la Seguridad y Consistencia en las puntuaciones
Se relaciona con la consistencia en la puntuación, al margen de lo que se mida. Una medición puede ser confiable pero no válida.
Una prueba confiable genera la misma puntuación o similar en el caso de un individuo. La calificación puede replicarse o reproducirse, al menos con cierto margen de error.
Depuración Secundaria – Estudios de Confiabilidad
Se refiere a la consistencia en las puntuaciones. Los puntajes obtenidos por las mismas personas cuando son evaluadas con una misma técnica:
En situaciones diferentes
Con técnicas equivalentes
Depuración Secundaria – Estudios de Confiabilidad
El valor de la Confiabilidad es el resultado de correlacionar dos puntuaciones
obtenidas de manera independiente
CONFIABILIDAD
CONFIABILIDAD
ERROR DE MEDICIÓN
CORRELACIÓN (r)
Tipos de error
1- ERRORES SISTEMÁTICOS
2- ERRORES ASISTEMÁTICO
S
Tipos de errorSistemáticos: incluye
una constante que se suma o resta al valor verdadero en
cada medición.
Asistemáticos: Impredecibles, aleatorios, no
pueden ser controlados.
Depuración Secundaria – Estudios de Confiabilidad
Varianza de error verdadera: debida a la variable que intento medir
Varianza de error aleatoria: debida a situaciones externas:
Entrevistado
Entrevistador
Situación de evaluación
Depuración Secundaria – Estudios de Confiabilidad
Una puntuación en una prueba refleja tanto la puntuación verdadera de la capacidad que se está midiendo, de quien la responde como también el error de la medición.
CORRELACIÓN
Grado de correspondencia, relación o covariación entre dos conjuntos de puntuaciones.
El coeficiente de confiabilidad asume valores entre 0 y 1.
Dos conjuntos de medidas de los mismos sujetos.
Lectura del coeficiente de confiabilidad
r Lectura de r Lectura coeficiente
+1.00 Perfecta Nunca alcanza este valor
+0.90 Muy fuerte Muy confiable
+0.75 Considerable Adecuada
+0.50 Media Regular
+0.10 Débil Baja confiabilidad
0.00 Ausencia de correlación No confiable
Estudios de Confiabilidad:Dos administraciones
FORMAS PARALELAS (CON INTERVALO)
TEST – RE TEST
Estudios de Confiabilidad:Una administración
ENTRE EVALUADORES
COEFICIENTE ALFA DE CRONBACH
FÓRMULAS KUDER RICHARDSON
FORMAS PARALELAS
DIVISIÓN POR MITADES
Estudios de Confiabilidad – Dos administraciones
Prueba y Posprueba o Test – Retest
Usar el mismo instrumento para medir los mismo en dos puntos diferentes en el tiempo
Se correlacionan pares de puntuaciones obtenidas de las mismas personas en dos administraciones diferentes
IMPORTANTE: utilizar cuando lo que se pretende medir es relativamente estable en el tiempo como por ejemplo, un rasgo de personalidad. Si la característica fluctúa en el tiempo no tiene sentido. El intervalo de tiempo no debería superar los seis meses y no debe haber mediado nada significativo (por ejemplo aprendizaje, tratamiento, traumas, etc)
Estudios de Confiabilidad – Dos administraciones
APLICAR Y EVALUAR LA TÉCNICA A UNA MUESTRA DE SUJETOS
LAPSO DE TIEMPO
APLICAR POR SEGUNDA VEZ LA TÉCNICA A LA MISMA MUESTRA
CALCULAR r ENTRE LAS PUNTUACIONES OBTENIDAS EN AMBAS OCASIONES
INTERPRETAR EL COEFICIENTE
Ejemplo correlación Test - RetestCorrelations
1 ,945**,000
750 50,945** 1,000
50 50
Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N
Puntuación total 8 items
Retest punt total 8 items
Puntuacióntotal 8 items
Retest punttotal 8 items
Correlation is significant at the 0.01 level (2-tailed).**. Correlations
1 ,978**,000
106 106,978** 1,000106 106
Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N
puntuación total
total retest
puntuacióntotal total retest
Correlation is significant at the 0.01 level (2-tailed).**.
Estudios de Confiabilidad – Dos administraciones
Formas Paralelas o Formas Equivalentes
Son dos versiones diferentes de una prueba que se ha construido con el fin de ser equivalentes
Para cada una de las dos versiones son iguales las medias y las varianzas de las puntuaciones observadas
Son equivalentes con respecto al contenido, a la cantidad de ítems, a la dificultad
Pueden aplicarse en sucesión inmediata si son relativamente breves y poco exigentes. De lo contrario, se debería emplear un tiempo similar al de la confiabilidad de Test- Retest
IMPORTANTE: Consume mucho tiempo y es muy costoso económicamente elaborar la forma alterna o equivalente
Formas paralelas
Administrar una forma del test a una muestra de sujetos
Lapso de tiempo
Administrar la forma paralela del test a los mismos sujetos
Calcular el r entre ambas versiones de la prueba
Interpretar el coeficiente
Estudios de Confiabilidad – Una administración
División por mitades
Se obtiene correlacionando dos pares de puntuaciones obtenidas de mitades equivalentes de una sola prueba administrada una sola vez
Implica tres pasos:
Dividir la prueba en mitades equivalentes
Calcular una r de Pearson entre las puntuaciones obtenidas en cada mitad
Ajustar la confiabilidad de la mitad de la prueba usando la fórmula de Spearman - Brown
¿Cómo dividir la prueba en mitades equivalentes?
Nunca dividir la prueba por la mitad exacta ya que aumentaría o disminuiría el
coeficiente de confiabilidad debido a factores como cantidades diferentes de
ansiedad, dificultad en el reactivo, cansancio, etc.
Se puede asignar al azar los reactivos para cada una de las mitades
Se puede designar los reactivos nones a una mitad y los reactivos pares a la otra
mitad
Una tercera forma, es dividirla por el contenido de los items
Lo que se intenta obtener es una valor de la consistencia interna de la prueba
(Alpha de Cronbach) es decir, el grado de correlación entre todos los reactivos de
un instrumento. Es un indicador de la homogeneidad de la prueba, si los
reactivos intentan medir un solo rasgo, si son unifactoriales.
Ejemplo Correlación División por mitades
Reliability Statistics
,7273a
,7893b
6
,405
,576,576
,575
ValueN of Items
Part 1
ValueN of Items
Part 2
Total N of Items
Cronbach's Alpha
Correlation Between Forms
Equal LengthUnequal Length
Spearman-BrownCoefficient
Guttman Split-Half Coefficient
The items are: Conocimientos, claridad, eficacia exposición(pedag- didáct).
a.
The items are: uso auxiliares didácticos, modulación tonos devoz, ejemplificaciones, casuística.
b.
Estudios de Confiabilidad – Una administración
Medida de Confiabilidad entre evaluadores
Es el grado de acuerdo o consistencia que existe entre dos o más evaluadores, jueces o calificadores
Es una prueba que se administra a un grupo y se la califica dos o más veces.
CONFIABILIDAD ENTRE EVALUADORES
ADMINISTRAR LA TÉCNICA A UNA MUESTRA DE SUJETOS
EVALUAR LA TÉCNICA (EVALUADOR A)
EVALUAR LA TÉCNICA (EVALUADOR B)CALCULAR LA r ENTRE LOS PUNTAJES ASIGNADOS POR EVALUADOR A Y BINTERPRETAR EL COEFICIENTE
VALIDEZ DE UN INSTRUMENTO
QUÉ MIDE LA
TÉCNICA
CÓMO LO MIDE
VALIDEZ DE UNA TÉCNICA
Pruebas empíricas que hayan verificado si el instrumento representa al constructo que intenta medir
¿Qué es la Validez de un instrumento psicométrico?
Es un juicio concerniente a lo bien que mide una prueba lo que pretende medir.
Es un juicio basado en evidencia sobre lo apropiado de las inferencias extraídas de las puntuaciones de una prueba.
Es un juicio de validez se encuentra presente un juicio de utilidad.
¿Qué es la Validez de un instrumento psicométrico?
Ejemplos: Una prueba destinada a medir
inteligencia debe medir inteligencia y no memoria.
Una prueba sobre conocimientos de historia
debe medir esto y no conocimientos de literatura
histórica
No hay que plantear preguntas generales como
¿es válido el WISC?, si preguntar específicamente:
¿es válido el subtest Analogías como medida del
pensamiento abstracto?
Implicaciones del término ValidezÁrea de contenid
o
Área empírica
Área teórica
Área Formal
Evidencia relacionada con la apariencia – Validez de Facies o Aparente
Facies: rostro o cara en latín
Está en relación con que el instrumento resulte válido a los ojos del examinado
Los materiales, las consignas, el estilo de respuestas o las
condiciones propuestas dejan de ser adecuadas a la
edad o las características personales del sujeto se verá
afectada su actitud de respuesta.
Evidencia relacionada con la apariencia – Validez de Facies o Aparente
Se relaciona más con lo que la prueba parece medir que con lo que en realidad mide.
Es un juicio concerniente a los relevantes que parecen ser los reactivos de la prueba.
Son evidencias de validez que tienen más relación con las personas que responden el cuestionario y no con el administrador.
Cuando sometemos nuestra prueba a juicio experto y a la prueba piloto, estamos dando evidencia de este tipo de validez.
La simple apariencia de validez, no es una base aceptable para hacer inferencias interpretativas (APA, 1974).
Validez Aparente
Validez Aparente
Evidencia relacionada con el Contenido – Validez de Contenido
Es el grado en que la medición refleja y representa al concepto o variable medida
Un instrumento necesita tener representados a todos o la mayoría de los componentes del dominio de contenido de las variables a medir
Evidencias de validez de Contenido
El dominio de contenido de una variable es definido o
establecido por la literatura (teoría y estudios previos)
Cuando someto al instrumento al juicio
experto, se está dando cuenta de la validez de
contenido
Evidencia relacionada con el Contenido – Validez de Contenido
Asegurarnos que la muestra de ítems incluida en el test
cubra todos los aspectos o
dimensiones relevantes de la
variable en estudio.
Deberán elegirse reactivos claros, de
buena calidad psicométrica y que
sean representativos del universo de ítems
posibles de ser abarcados.
Evidencias de validez de Contenido – juicio experto
Vigilar activamente que todas las dimensiones de la variable a ser medida estén cubiertas, con el peso y la importancia que la teoría asigna a cada
una.
Validez Empírica o de criterio
Validez Concurrente
Validez Predictiva
Validez Retrospectiva
Evidencias de validez empírica o de criterio
Tres aspectos:
En base a estudios de
campo. Rigor metodológico.
Personas concretas.
CRITERIO EXTERNO: una medida de la
variable que el instrumento
intenta medir pero obtenida
de forma independiente
.
Coeficiente de correlación ®
Evidencia de Validez Concurrente
Se establece al validar un instrumento de medición al
compararlo con algún criterio externo que pretende medir lo
mismo
Ese criterio externo puede ser otro instrumento que mida el
mismo constructo, una historia clínica, un diagnóstico
psicológico, el registro de notas académicas, etc.
Marcos teóricos iguales y operacionalizados de manera
similar.
Evidencia de Validez Concurrente
Coeficiente de correlación positivo y elevado: Ambas mediciones (instrumento y
criterio) concurren.
La información obtenida mediante el instrumento es
reemplazable o intercambiable por la
información brindada por el criterio.
Ejemplo Validez Concurrente
Correlations
1 ,939**,000
750 50,939** 1,000
50 50
Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)N
Puntuación total 8 items
criterio externo 10 valores
Puntuacióntotal 8 items
criterioexterno 10
valores
Correlation is significant at the 0.01 level (2-tailed).**.
Ejemplo Validez Concurrente
Resultados:
Existe una asociación, estadísticamente significativa, entre
el desempeño de los estudiantes universitarios en las habilidades
verbales y abstractas, y el rendimiento académico de los mismos (relevado a través de
criterios como cantidad de materias aprobadas por promoción sin
examen final, cantidad de aplazos, cantidad de materias libres).
Ejemplo Validez Concurrente
Abreviamos la tarea docente y le brindamos información comparable a la derivada de la observación en un lapso mucho menor y con menos
esfuerzo.
Diseño de escala psicométrica que evalúe la potencialidad académica de cada estudiante.
Docente: observación sistemática de los alumnos en la tarea escolar cotidiana y toma en cuenta cada evaluación y trabajo encomendado.
Evidencias de validez predictiva
Validez concurrente:
momento presente
Validez predictiva: a futuro y con
criterio a predecirse
Evidencia de Validez Predictiva
Intenta definir con cuánta precisión las puntuaciones de la prueba predicen alguna medida criterio
Las puntuaciones de prueba pueden obtenerse en un momento y las medidas criterio obtenerse en un momento futuro, después de que ha tenido lugar algún evento intermedio (capacitación, experiencia, terapia, medicación o solo paso del tiempo)
Ejemplo Evidencias de Validez Predictiva
Se correlacionará las puntuaciones obtenidas en la escala con el promedio de las asignaturas.
Se administra la prueba a los ingresantes a 1 año y cuando ellos concluyan el 3 año se obtendrá el promedio de sus calificaciones en asignaturas en las
que predominen contenidos verbales.
Prueba de capacidad de aprendizaje de contenidos verbales con el objeto de predecir el rendimiento futuro de alumnos de escuela media.
Evidencias de Validez Retrospectiva
Correlación verificada entre los resultados en un test y un criterio medido con antelación, aún años antes.
Útil para la prevención en salud pública o en la clínica individual.
Evidencias de validez teórica, estructural o de constructo
Evidencia empírica de la adecuada
operacionalización de una variable a partir del
modelo teórico propuesto
Validez de Constructo
Es la más importante de todas las evidencias de validez
Demuestra si empíricamente, se refleja lo que se propone desde la teoría
Validez de Constructo
Estudios evolutivos
Estudios clínicos
Análisis Factorial
Evidencia relacionada con el Constructo – Análisis Factorial
Son procedimientos matemáticos que intentan identificar factores o variables que son atributos, características o dimensiones en las que pueden diferir las personas
Identifica variables latentes o dimensiones que subyacen a la variable única que estoy evaluando
Se utiliza fundamentalmente, en técnicas que intentan medir personalidad e inteligencia
Los resultados del análisis factorial suelen representarse a manera de matriz factorial, lo cual muestra el peso que tiene cada una de las variables originales en los factores establecidos. Los pesos son en realidad correlaciones entre las variables y los factores
Evidencia relacionada con el Constructo – Análisis Factorial
Si la cantidad de factores identificados y sus contenidos coinciden con la
propuesta del modelo teórico entonces se considera adecuada la
operacionalización de la teoría.
Ejemplos de Matriz FactorialComponent Matrixa
,713 ,211 -,078
,710 ,413 -,081
,735 ,376 -,035
,643 ,289 ,170
,616 ,248 ,211
,743 -,489 -,037
,704 -,553 -,040
,774 -,399 -,022
-,028 -,090 ,960
Valoración sabor de lacomidaValoración temperaturade la comidaValoración aspecto de lacomidaValoración del tiempo deesperaValoración de cordialidaden la atención delpersonalValoración del confortedilicioValoración de la limpiezadel localValoración del nivel deruidos en el localValoración de clima ycontaminación en el local
1 2 3Component
Extraction Method: Principal Component Analysis.3 components extracted.a.
KMO and Bartlett's Test
,836
1828,71836
,000
Kaiser-Meyer-Olkin Measure of SamplingAdequacy.
Approx. Chi-SquaredfSig.
Bartlett's Test ofSphericity
Evidencias de Validez Convergente Los resultados de un estudio de validez de
constructo convergen en un mismo sentido, verificando la relación entre
constructos vinculados
teóricamente.
Evidencias de Validez Discriminante
Correlaciones bajas entre constructos diferentes