8 ½ parámetros de la prueba enlace copia

Los parámetros de las prueba ENLACE

Se describen los parámetros empleados para reportar la calidad de los ítems

del banco para ENLACE.

Dificultad con modelo clásico

La dificultad de los ítems (o índice de dificultad I.D.) se determina con el modelo

clásico como proporción de aciertos:

p= respuestas correctasN

; 0≤p≤1

Donde N es el número de personas que contestan el ítem. Para el diseño de las

pruebas ENLACE son aceptables los ítems en el intervalo [0.1,0.9]. El análisis

clásico se realiza con el programa comercial ITEMAN.

Correlación punto-biserial

Para evaluar la calidad de los ítems en relación con su pertinencia para una

dimensión o variable a medir, se emplea en ENLACE la Correlación Punto-

Biserial, que es una forma particular de la correlación de Pearson, cuando una

de las variables es continua y la otra es dicótoma:

rpbis=Mp−MqSt

√ pq ; 0≤rpbis≤1

donde:

rpbis = Correlación Punto-Biserial, igual a la correlación producto-momento de

Pearson.

Mp = Media de puntuaciones de los sujetos que contestan correctamente al

ítem

Mq = Media de puntuaciones de los sujetos que contestan incorrectamente al

ítem

St = Desviación estándar de las puntuaciones de los sujetos

p = proporción de respuestas correctas en el ítem, igual a la proporción de

casos que están en el grupo superior en el ítem

q = proporción de respuestas incorrectas en el ítem (q=1-p), igual a la

proporción de casos que están en el grupo inferior en el ítem.

pq = varianza del ítem

No debe confundirse esta correlación con rbis, correlación biserial, que se

emplea cuando una de las variables se hace dicótoma en forma artificial, en

función de un punto de corte en una distribución normal.

Puede demostrarse que el valor mínimo aceptable para rpbis es 0.196 o, más

usualmente, 0.2. Un valor inferior a 0.2 indica posible azar en el patrón de las

respuestas de los estudiantes por lo que se trata de reactivos desechables.

Esta correlación no mide la discriminación del ítem sino su validez dentro de

una prueba para formar parte de una misma dimensión o constructo.

Cuando se calcula esta correlación excluyendo el aporte del ítem al total de la

prueba, se denomina Correlación punto-biserial modificada y proporciona un

valor un poco más pequeño al descontar dicho aporte que beneficia a la

correlación. Una expresión aproximada para la correlación es:

rpbiscorregida=Mp−Mq−1

St√ pq

Dependiendo de la cantidad de ítems y de la escala, el valor corregido con esta

fórmula puede diferir del valor correcto eliminando al ítem del total de

respuestas de las personas, hasta en un 15%, siendo menor su efecto

conforme se incrementa el número de ítems.

Proporción de

aciertos prpbis Comentario sobre el ítem

0.10 p <

0.90 0.196

ACEPTABLE.

No se tiene un patrón de azar en las

respuestas.

Si al revisar se identifican opciones

ineficientes, el ítem será desechado.

0.10 p <

0.90< 0.196

A REVISAR.

Muestra patrón de respuestas similar al azar.

Si al revisar se identifican opciones ineficientes

o que propician respuestas por azar, el ítem

deberá desecharse.

Para cualquier

p≤ 0

DESECHABLE.

Respondido por pocas personas.

Discrimina poco y muestra patrón de

respuestas azaroso.

Debe ser revisado, deberá desecharse si no se

hay evidencias de que funcionen bien el

enunciado y las opciones

p < 0.10

ó p > 0.90

Para

cualquier

valor

Para el dictamen de los ítems de ENLACE, se decidió usar como valor de

referencia rpbiscorregida 0.3. Valores inferiores a 0.3 deben revisarse. Esta

correlación se calcula con el programa comercial ITEMAN en el caso del

modelo clásico y BILOG en el caso del modelo logístico.

Estimador Brogden-Clemans

Como complemento para analizar la calidad de los ítems se ha planteado en

este Manual Técnico el uso del estimador Brogden-Clemans (1949), que

originalmente fue propuesto como una solución del problema de que la

correlación biserial produzca valores superiores a 1 en función de la distribución

de los datos. Se emplea porque permite establecer la proporción de rpbis

respecto del máximo para una dificultad dada. Este estimador toma valores

entre -1 y +1, utilizando la expresión:

BrCl= M+−M−

Mmax−M min

= Xp−XqXpmax−Xqmin

donde:

M+ = Xp = media de los valores X (variable 1) para los sujetos que están en el

grupo superior de la variable dicotomizada (variable 2)

M- = Xq = media de los valores X (variable 1) para los sujetos que están en el

grupo inferior de la variable dicotomizada (variable 2)

Mmax = Xpmax = media de los puntajes de las Np personas superiores al punto de

dicotomización

Mmin = Xqmin = media de los puntajes de las Nq personas inferiores al punto de

dicotomización

Esta formulación en términos de la correlación punto-biserial es:

BrCl= rpbisMax(rpbis )

El máximo de rpbis depende de la proporción de aciertos del ítem y

corresponde con una elipse en el plano rpbis vs. dificultad. Al establecer como

mínimo aceptable a rpbis = 0.2 se define una elipse en el plano dificultad-

Correlación Punto-Biserial, siendo aceptables todos los ítems cuyo estimador

BrCl se encuentre por arriba de la elipse interna mostrada en la figura.

Correlación punto-biserial para las opciones

En ENLACE se ha propuesto el uso de la correlación punto-biserial a nivel de

los distractores de un ítem de opción múltiple, como una alternativa para

analizar su calidad donde la respuesta correcta se espera que correlacione

positivamente con el constructo global de una prueba, contrariamente a los

distractores que se espera que correlacionen negativamente. Esta práctica

puede ser discutible (Attali y Fraenkel, 2000), pero es muy empleada en

programas comerciales (como por ejemplo ITEMAN).

Discriminación del ítem

El índice de discriminación del ítem (Disc.) se estima por medio de ITEMAN

como la diferencia de la proporción de respuestas correctas entre los dos

grupos extremos al 27% de la distribución.

Disc = p(GS) – p(GI)

Donde GS y GI representan los grupos extremos. Se esperan valores positivos

para que el ítem sea aceptable. Esta función está acotada en su valor superior,

representándose como un trapecio en el primer cuadrante del plano dificultad-

discriminación (Tristán, L.A, 1998) . Sin especificar todas las zonas que pueden

identificarse en el trapecio, se puede utilizar una norma discriminativa de

ecuación ND=0.6x I.D., por arriba de la cual los ítems son aceptables si además

están entre 27 y 73% de respuestas correctas. Los ítems fuera de esta zona se

deben revisar. Los ítems con discriminación nula o negativa deben desecharse.

El criterio de aceptación se trabajó con la correlación punto-biserial, por lo que

no se presentan en este Manual Técnico estas gráficas, pero los valores son

proporcionados por ITEMAN y se consideraron en la toma de decisiones.

Confiabilidad por consistencia interna

Como medida de la calidad de una prueba, se exige que tenga una alta

confiabilidad, que se refiere a que en mediciones repetidas se tengan

resultados similares o que la medición se realice con la mayor precisión posible.

Es práctica común emplear la correlación entre mitades de una prueba, lo cual

se denomina “consistencia interna”, que busca determinar si las respuestas de

los sujetos son consistentes a lo largo de la prueba.

El coeficiente alfa de Cronbach es la expresión de propósito general más

empleada en la práctica y es la que se emplea en ENLACE. Esta fórmula

generaliza la fórmula de Kuder y Richarson KR20 (para ítems dicótomos) o

KR21 (aproximación a KR20):

α=N

N−1(1−

∑ Vi

Vk)

donde

N = número de ítems

Vi = varianza del ítem i

Vk = varianza de los puntajes brutos de los sujetos

El coeficiente alfa, como medida de la consistencia interna de las respuestas de

los sujetos, toma valores entre [-∞, 1] (tiende a -∞ si N=1; adquiere el valor de 1

cuando N tiende a +∞, independientemente de la calidad de los ítems, y

también cuando los ítems son idénticos o muy homogéneos,

independientemente de su número).

Este coeficiente mide qué tan repetitivos son los resultados y se esperan

valores “altos”. Se sugieren valores de 0.7 a 0.9 en algunas referencias. Para

las pruebas matriciales que tienen unos 20 ítems, puede demostrarse que el

valor esperado para alfa está alrededor de 0.64, con fluctuaciones de ±0.1, por

lo que se consideran aceptables los valores entre 0.55 y 0.75 para cada prueba

matricial. En cada aplicación de ENLACE se debe llevar el registro de los

valores de alfa.

Error estándar de medida

El error estándar de medida ESM se determina a partir de la aplicación, en

función de la desviación estándar de las puntuaciones de los sujetos y del

coeficiente alfa, con la expresión:

ESM=s√1−αEl error estándar de medida es un valor prácticamente constante para un

número de ítems dado en una prueba. Para pruebas de 100 ítems, el valor

esperado es aproximadamente de 4%, debiendo multiplicarse por el valor crítico

Zc del intervalo de confianza, generalmente aceptado al 5% de significancia,

(Zc=1.96)

Covarianza ítem-prueba

Para seleccionar a los ítems que debían pertenecer a la prueba definitiva del

siguiente año, se decidió emplear la covarianza ítem-prueba, definida por:

Co var ianza=r pbis σ i St=r pbis √ pq StDonde rpbis es la correlación punto biserial del ítem i, s i la varianza del ítem, St

la desviación estándar de las puntuaciones de los sujetos.

Se eligen los valores con mayores covarianzas, pudiendo alcanzar valores de -

1.0 a +1.0, solo son aceptables las covarianzas positivas y superiores a 0.25.

Modelo logístico

Se calibran los ítems con el modelo de tres parámetros de la Teoría de la

Respuesta al Ítem (TRI), que proporciona la probabilidad de respuesta de una

persona de medida q, ante un ítem de dificultad b, con discriminación a y

parámetro de adivinación sistemática c:

p=c+ 1−c

1+e−1.7 a(θ−b )

La gráfica de la probabilidad p se denomina curva característica del ítem, que

se espera sea monótona creciente.

Para el ajuste del modelo de la TRI a los datos observados, se reporta el valor

p(c2,n) = a, donde c2 (o CHI2 en el gráfico) es el modelo de ajuste de la curva

teórica a los datos, n es el número de grados de libertad (DF en el gráfico) y a

es la significancia del ajuste (o PROBABILITY en el gráfico).

El proceso de cálculo para determinar el ajuste y las calibraciones de los ítems

y las medidas de las personas se realiza con el programa comercial BILOG.

Los criterios para rechazar un ítem son:

Los ítems cuya curva característica no presenta un comportamiento

razonable (pendiente negativa o alguna tendencia dudosa), a criterio del

revisor.

Los que tienen un desajuste por c2 mayor a la significancia de 5%. Se

revisan cuando se tiene una significancia hasta 10%.

Los que producen una medida logística superior a 10 o inferiores a -3.

Generalmente no se encuentran ítems con medida inferior a -3.

El parámetro a debe ser mayor a 0.1 y el parámetro c inferior a 0.2 para

ser aceptable.

Por tener una correlación punto-biserial negativa (dada por BILOG)

En las figuras se muestran curvas de escaso ajuste o de pendiente muy baja.

Correlaciones pretest-posttest

Para la fase de revisión de las pruebas piloto y la aplicación definitiva se

considera un modelo de correlación entre pretest y posttest. Se esperan

correlaciones de 0.98 en las puntuaciones y de 0.9 en las medidas de los ítems,

los ítems que afecten estas correlaciones (como el que se muestra en la figura

con el número 50) se retiran del conjunto.

La figura muestra otro caso donde se tiene una correlación de 0.953, con una

distribución aceptable en los ítems.

Esquema de calificación

Los puntajes de cada alumno evaluado se reportan por cada asignatura-grado.

La escala de puntajes tiene una media de 500 puntos y una desviación estándar

de 100 puntos, tomando como base la primera aplicación. En este caso la

referencia es del año 2006 para Español y Matemáticas; 2008 para Ciencias.

Para obtener los puntajes de cada alumno en la aplicación de 2008 se

realizaron los siguientes pasos:

Se calibran los reactivos que intervienen en la prueba (no se consideran

los que están para calibración en la muestra controlada) y, en su caso, se

eliminan los que no son aceptables de acuerdo con los criterios de

dictamen.

Con los reactivos calibrados se califican los registros de los alumnos que

presentaron la prueba, con el programa informático Bilog. La calificación

se realiza para cada asignatura por separado para cada alumno.

Con la medida estimada para alumno en una escala de -3 a 3 lógitos que

proporciona BILOG se cubre al 99.9 % de los registros. El resto de

estudiantes queda por debajo y arriba de este rango.

La medida estimada se transforma a un puntaje en la escala de media

500 y desviación estándar 100, utilizando la función de transformación:

PuntajeESCALA 500=100 ( X−ab )+500

donde:

X = medida estimada del sujeto producida por BILOG

a = media de referencia

b = desviación estándar de referencia

Los valores a y b de las pruebas de Español y Matemáticas se presentan en la

tabla.

El puntaje obtenido es el que se reporta finalmente para cada estudiante

Referencia bibliográfica:

Brogden, H.E. (1949) A new coefficient: application to biserial correlation and to

estimation of selective efficiency. Psychometrika, 14, 169-182.

Attali Y. y Fraenkel T. (2000) The point-biserial as a discrimination index for

distractors in multiple-choice items: deficiencies in usage and an

alternative. Journal of Educational Measurement. Spring. Vol. 37, N.1, pp.

77-86

Tristán, L.A. (1998) The Item Discrimination Index: Does it Work? Rasch

Measurement Transactions, 1998, 12:1 p. 626.

Bibliografía

Secretaria de Educación Pública (2008). Manual Técnico ENLACE. Ciudad de

México, DF.

Brogden, H.E. (1949) A new coefficient: application to biserial correlation and to

estimation of selective efficiency. Psychometrika, 14, 169-182.

Attali Y. y Fraenkel T. (2000) The point-biserial as a discrimination index for

distractors in multiple-choice items: deficiencies in usage and an

alternative. Journal of Educational Measurement. Spring. Vol. 37, N.1, pp.

77-86

Tristán, L.A. (1998) The Item Discrimination Index: Does it Work? Rasch

Measurement Transactions, 1998, 12:1 p. 626.

8 ½ parámetros de la prueba enlace copia

Documents