métodos y procesos para el desarrollo y construcción de exámenes

Métodos y procesos para el Métodos y procesos para el desarrollo y construcción de desarrollo y construcción de

exámenesexámenesTaller para la Universidad del Valle de GuatemalaTaller para la Universidad del Valle de Guatemala

Antonio MagriñáDirector Ejecutivo

División de Medición e Investigación

12 de junio de 2007

Quienes somosQuienes somos

• Somos una asociación educativa sin fines de lucro que aboga por la excelencia educativa para todos los estudiantes a través de la colaboración continua de sus miembros que incluyen las escuelas secundarias, instituciones universitarias, sistemas de educación y organizaciones educativas.

Quienes somosQuienes somos M Miembrosiembros

• La participación activa de los miembros en los procedimientos es lo que garantiza la adecuada respuesta a sus necesidades y constituye una de las características excepcionales de los programas.

• Participan:• En la Junta de Síndicos: 28 miembros electos por los

representantes de las instituciones que componen y rigen la asociación. Los síndicos designan el presidente del College Board.

• En las Juntas asesoras o consultivas: funcionarios directivos, profesores, profesionales de orientación y de ayuda económica procedentes de las instituciones miembros trabajan en cada programa de importancia.

• En las asambleas anuales y regionales en Juntas, congresos técnicos, conferencias, comités y grupos de trabajo: Los representantes de las instituciones miembros hacen aportaciones, evaluaciones, revisiones, y comparten sus experiencias y conocimientos con colegas y expertos en las materias.

Dirección electrónica:Dirección electrónica:

Objetivos del primer dia Objetivos del primer dia Analizar algunos conceptos fundamentales de la evaluación

del aprendizaje con exámenes- Construcciones lógicas y tipos de examen

• Ventajas y limitaciones de un examen estandarizado• exámenes estandarizados y exámenes con referencia a

criterio (criterion referenced)

• Presentar un modelo de desarrollo sistemático de un examen

ObjetivosObjetivos• Usos de exámenes en la evaluación de la Aptitud y el

aprovechamiento• Modelo de desarrollo de un examen

– Desarrollo de especificaciones y alineamiento con los objetivos de enseñanza-aprendizaje

– Redacción de ítems• Teoría general de medición• Uso de índices psicométricos y estadísticos• Análisis estadísticos de ítems• Construcción del examen: formas experimentales y formas

operacionales• Desarrollo de Escalas:

– Diseños y metodos de calibracion, igualacion y equiparacion• Interpretación de los resultados• Estudios de validez y otras investigaciones

CONSTRUCCIONES CONSTRUCCIONES LOGICASLOGICAS

• APTITUD:– DEFINICIONES DEL DICCIONARIO DE LA

LENGUA ESPAÑOLA DE LA REAL ACADEMIA (Ed.Espasa Calpe, 2001):

“Capacidad para operar competentemente en una determinada actividad.”

“ Capacidad o disposición para el buen desempeño o ejercicio de un negocio, de una industria, de un arte, etc.”

CONSTRUCCIONES CONSTRUCCIONES LOGICAS:LOGICAS:

• Pruebas de:– APTITUD: Teoría cognoscitiva – procesos

• Lo que la persona hace con lo que sabe, como aplica sus conocimientos

• APTITUD: Capacidad para desempeñarse competentemente en actividad:

– CIENTÍFICA – MUSICAL– MECÁNICA– Etc.

• APTITUD ACADÉMICA

– Razonamiento Verbal– Razonamiento Matemático

CONSTRUCCIONES CONSTRUCCIONES LÓGICASLÓGICAS

Pruebas de Aptitud vs ConocimientoPruebas de Aptitud vs Conocimiento• Conocimiento:

– Teoría = Currículo

• Conocimiento NO es MEMORIA unicamente– Taxonomía cognitiva de Bloom:

• MEMORIA: aprendizaje y recuerdo de términos y conceptos• COMPRENSIÓN: comparar, extrapolar, organizar ideas• APLICACIÓN: uso del conocimiento• ANÁLISIS: extraer y organizar información para hacer inferencias y

apoyar generalizaciones• SÍNTESIS: derivar relaciones abstractas, proponer planes y

operaciones eficientes• EVALUACIÓN: opiniones y juicios informados; juicios sobre

validez en función a criterios internos y externos

Cuestionamientos frecuentes Cuestionamientos frecuentes al examen estandarizadoal examen estandarizado

• Influencia excesiva en la toma de decisiones administrativas y educativas

• No evalúan niveles superiores de conocimiento y destrezas de pensamiento

• No evalúan adecuadamente la capacidad de integrar, sintetizar, encontrar soluciones innovadoras, crear, imaginar

• Se le da mucha importancia en perjuicio de otras formas de evaluar mas ligadas al proceso de enseñanza-aprendizaje

• Disonancia entre los objetivos propuestos y la realidad de los estudiantes

• Disonancia entre los objetivos propuestos y la realidad de la docencia

• La inclinación a “enseñar para el examen” puede restarle amplitud, espontaneidad y creatividad al proceso de enseñanza-aprendizaje

Modelo para el Desarrollo Modelo para el Desarrollo de un Examende un Examen

Justificación o necesidad para el examen

Etapa de planificación

Etapa de diseño

Etapa experimental - prepruebas

Etapa operacional

Etapa de investigación

Fundamento teórico (validez de construcción)Criterios y estándares curricularesTipo de examen/ítemsEspecificaciones

Redacción de itemsAnálisis PsicométricosRevisión/evaluación

Recursos humanosRecursos económicosCalendarioInfraestructuraConsideraciones políticas, técnicas y prácticas

Modelo del proceso de desarrollo de un examen Modelo del proceso de desarrollo de un examen

Por qué el examenPara qué el examenPara quién el examen

AdministraciónAnálisis psicométricos (controles de calidad)Desarrollo de escalas o métricas y calificación Informes e implantación

Validación y SeguimientoFormas nuevas, equiparación

Evaluación y revisión

Evaluación

Revisión

Justificación o necesidad Justificación o necesidad para el examenpara el examen

• Propósito educativo: ¿Por qué se quiere un examen?, ¿Cuál es el propósito?, ¿Cuál es la necesidad o problema que espera resolver?

• Uso: ¿Para qué se usará el examen?– Diagnóstico individual– Diagnóstico sistémico– Promoción de un nivel educativo a otro– Ingreso a universidad – Graduación (salida)– Certificación de competencias profesionales

• Población: ¿Para quién será el examen? – Población a la que va dirigido– Nivel que se interesa evaluar– Toda la población del nivel seleccionado o una muestra

Etapa de planificaciónEtapa de planificación• Recursos humanos disponibles

– ¿Quiénes desarrollarán el examen?: centro profesional de evaluación de la institución; grupo adhoc de docentes con asesoría especializada; organismo externo; combinación de los componentes anteriores

– Asignación y distribución de los recursos humanos

• Recursos económicos– Cuánto dinero habrá disponible para el desarrollo, operación y mantenimiento del

examen– Quién pagará el examen: universidad, estudiantes, otros recursos

• Infraestructura– Equipo– Espacio

• Calendario: – Para cuándo se quiere el examen

Consideraciones políticas, Consideraciones políticas, técnicas y prácticastécnicas y prácticas

• Políticas: Impacto y aceptación de los distintos sectores universitarios: recintos, administración, facultad, estudiantes; probabilidad de continuidad más allá de cambios administrativos

• Técnicas: Tipo de examen que se requiere para el uso; contenido; tipos de ítems; análisis estadísticos requeridos; nivel de dificultad; tiempo; comparabilidad

• Prácticas: Tiempo para el desarrollo e implantación; recursos económicos y humanos; infraestructura para el desarrollo, aplicación y calificación

Etapa de diseñoEtapa de diseño

• Fundamento teórico: Teorías, modelos y marco conceptual para fundamentar el examen; tipos de examen; formatos de ítems

• Criterios y estándares curriculares: en los que se sustentará el examen

• Determinación del tipo de examen e ítems • Determinación de las especificaciones: contenidos,

cantidad de ítems total y para cada área, dificultad, niveles de abstracción de los ítems, destrezas evaluadas, especificaciones estadísticas

Proceso de desarrolloProceso de desarrollo• Selección y adiestramiento de los redactores • Redacción de ítems• Revisión y edición de ïtems: diversas revisiones internas y

externas, revisión de contenido, de lenguaje, de estereotipos, de formato

• Construcción de prepruebas • Administración de prepruebas: Selección de muestra

representativa, adiestramiento, diseño de materiales administrativos

• Análisis estadísticos y psicométricos de los ítems: dificultad, discriminación, confiabilidad, ajuste, etc.

• Evaluación y revisión de los ítems• Selección de los ítems que conformarán la versión operacional

Aspectos de control de calidad a Aspectos de control de calidad a considerar:considerar:

• I- Selección de los comités de examinadores, redactores y otro personal experto

• II- Desarrollo de las pruebas• III- Materiales de apoyo y procesos de aplicación

de las pruebas• IV- Controles de calidad estadísticos y

psicométricos• V- Controles de calidad de calificación e informes de

resultados

I-I- Selección de los comités de Selección de los comités de examinadores, redactores y otro examinadores, redactores y otro

personalpersonal

• Trabajo en equipo de– especialistas en contenido específico, redactores y

editores especializados

– expertos en desarrollo de pruebas, psicómetras, expertos en medición, estadísticas y evaluación.

– Personal o servicios de apoyo: sistemas de información, personal clerical y secretarial, artistas gráficos, personal de imprenta y otros

I-I- Selección de los comités de examinadores, Selección de los comités de examinadores, redactores y otro personalredactores y otro personal

• Comités de examinadores:– Expertos o conocedores de la materia

• En el caso del comité de la Prueba de Aptitud Académica se seleccionan especialistas en diversidad de áreas:

– Linguística o literatura– Filosofía – Matemáticas y Ciencias– Ingeniería– Psicología y psicometría– Educación

– Representatividad:• Balancear proporcionalmente:

– Género y edad– Área académica– Geográfica e Institucional– Rotación de miembros del comité

FUNCIONES Y DEBERES DEL COMITÉ DE EXAMINADORES DE FUNCIONES Y DEBERES DEL COMITÉ DE EXAMINADORES DE LA PRUEBA DE APTITUD ACADÉMICA (PAA)LA PRUEBA DE APTITUD ACADÉMICA (PAA)

• Analizar los ofrecimientos académicos para los estudiantes a quienes se dirige la prueba.– Para la PAA, estudiantes de primer ingreso a nivel postsecundario

y los ofrecimientos a nivel secundario, a la luz de la política de admisión de las instituciones postsecundarias latinoamericanas.

• Participar en el análisis de los desarrollos del programa de pruebas de admisión postsecundaria, así como del uso y los efectos de éstos en el proceso de admisión.

• Evaluar el uso de resultados de la prueba.• Revisar las Especificaciones del contenido y nuevos enfoques

de la Prueba.

{1 de 2}

FUNCIONES Y DEBERES DEL COMITÉ DE EXAMINADORES DE LA PRUEBA FUNCIONES Y DEBERES DEL COMITÉ DE EXAMINADORES DE LA PRUEBA DE APTITUD ACADÉMICA (PAA)DE APTITUD ACADÉMICA (PAA)

• Recomendar y ponderar cambios que la Prueba amerite.• Ayudar en la preparación de las guías para los redactores.• Revisar o ayudar en la definición de los procedimientos y la

preparación de las guías de los examinadores.• Revisar los ejercicios que preparen los redactores y, de ser

necesario, redactar otros para cumplir con las Especificaciones de la Prueba.

• Examinar el modelo de la prueba que se administrará a los estudiantes.

• Participar en el análisis de documentos y artículos pertinentes.• Revisar el material de divulgación para los estudiantes y la

Guía de Estudio para tomar las Pruebas.

(2 de 2)

Selección de redactores de reactivosSelección de redactores de reactivos• Como redactores participan expertos de contenido, usualmente

facultad universitaria.• Se adiestran por personal especializado en el desarrollo de pruebas

en talleres de 1 a 3 días dependiendo de la experiencia previa de los redactores y las necesidades operacionales.

• Se aplican criterios de representatividad análogos a los usados para el comite examinador (género, edad, etc.)

• La labor del redactor se evalúa mediante:• Evaluación del coordinador del programa de pruebas quien preselecciona

el material para someter al comité examinador• La evaluación a que se somete el material nuevo en el comité de

examinadores• Evaluación por editores de reactivos y de pruebas quienes han sido

previamente redactores con experiencia y producción de calidad.• Evaluación estadística y psicométrica

Desarrollo de las PruebasDesarrollo de las Pruebas• Desarrollo de especificaciones:• CONTENIDO:

– CONCEPTUALIZACIÓN, TEORÍA O CURRÍCULO

– Consideraciones del comité examinador • AREAS• IMPORTANCIA• PESO• DIFICULTAD

– VALIDACIÓN DE ESPECIFICACIONES

• Análisis de validez de contenido• PSICOMÉTRICAS

• PARALELISMO • DISTRIBUCIÓN DE DIFICULTADES DE LOS EJERCICIOS• DISCRIMINACIÓN• AJUSTE A MODELOS DE MEDICIÓN

– UNIDIMENSIONALIDAD– Independencia local

• VALIDEZ DE CONSTRUCCIÓN LÓGICA:– CONSIDERACIONES ESTRUCTURALES

Análisis de sensibilidad:

• información o descripciones que puedan afectar a algún grupo (social, religioso o étnico).

• material (lecturas, vocabulario, etc.) con estereotipos• efectos de contexto que se pueda prestar a diferentes interpretaciones

– El contenido de un ejercicio aparece aislado y no dentro del contexto del material lo cual afecta la interpretación correcta

• material que se considere sensitivo, polémico o controvertible debe excluirse de la prueba

– Redactores, comités, editores y personal especializado toma en consideración estos aspectos al momento de desarrollar y seleccionar material para preprueba.

Consideraciones cualitativas en el desarrollo y Consideraciones cualitativas en el desarrollo y evaluación de los ejercicios:evaluación de los ejercicios:

• Perspectiva cognoscitiva/afectiva – Estas dos dimensiones deben considerarse cuando se evalúan textos, en las pruebas, que hagan referencia a sectores específicos de una sociedad o cultura.– Ejemplo:

• dimensión cognoscitiva: presentar datos que confirmen que un determinado sector social tiene un mayor índice de criminalidad

• dimensión afectiva: información que pueda herir la sensibilidad de un grupo.



• Investigaciones (Englehard, et.al.,1990) sugieren que es más fácil identificar deficiencias o vicios culturales en los reactivos y más difícil estimar deficiencias técnicas como:– Nivel de dificultad del reactivo

– Estimado de discriminación

– Dependencia o independencia del reactivo

– Contribución del reactivo a la estructura factorial

(Englehard, G,. Hansche, L., & Rutledge, K. E. Accuracy of bias review judges in identifying differential item functioning on teacher certification tests. Applied Measurement in Education, 1990,3, 347-360. )

Algunas consideraciones en la redacción Algunas consideraciones en la redacción y evaluación de ejercicios:y evaluación de ejercicios:

• Se requiere que los ejercicios sean independientes unos de otros– Un ejercicio no debe proveer o sugerir la solución a otro– Los ejercicios que forman parte de un grupo, como los ejercicios

de lectura, tabla con datos para interpretación, etc., han de hacer referencia a la información presentada, pero no deben depender uno del otro.

• Los ejercicios han de adaptarse a las características de la poblacion a la que van dirigidos:

• Vocabulario o léxico• Nivel de dificultad• Niveles de desarrollo humano (edad, etc)

Algunas consideraciones en la redacción y Algunas consideraciones en la redacción y evaluación de ejercicios:evaluación de ejercicios:

• El enunciado ha de presentar solamente un problema central

– Si al leer la frase principal del enunciado, ocultando las opciones, se puede entender de qué trata el problema o pregunta, el ejercicio cumple con este requisito.

• El problema ha de expresarse con precisión – El ejercicio debe redactarse con sencillez y corrección – No se debe incluir más información de la necesaria para

contestar.

Algunas consideraciones en la redacción y Algunas consideraciones en la redacción y evaluación de ejercicios:evaluación de ejercicios:

• Un ejercicio se puede presentar tanto de forma negativa como positiva, es preferible la forma positiva. Los ejercicios con situaciones o problemas presentados en forma negativa tienden a confundir al examinando

– Si es necesario emplear una forma negativa, la palabra negativa debe presentarse en mayúsculas, es decir, MENOS, EXCEPTO, NO, etc.

Algunas consideraciones en la redacción Algunas consideraciones en la redacción y evaluación de ejercicios:y evaluación de ejercicios:

• Las opciones han de ser tan breves como sea posible. Cuando las opciones son excesivamente largas, casi siempre incluyen problemas adicionales al expuesto en el enunciado.

– Las opciones que son mucho más cortas o más largas que las demás tienden a ser obviamente correctas o incorrectas

Ensamblaje de la prueba:Ensamblaje de la prueba:• Selección de ejercicios de acuerdo a especificaciones de contenido

y psicométricas– Contenido

• ÁREAS• IMPORTANCIA• PESO

– Características estadísticas y psicométricas en la selección de los reactivos o ejercicios individuales

• Dificultad y su distribución– Observada y calibrada

• Discriminación• Ajuste estadístico (INFIT y OUTFIT)• Tiempos asignados a las secciones y por ejercicio • ESTRUCTURA FACTORIAL• PARALELISMO con formas anteriores

Ensamblaje paralelo:Ensamblaje paralelo:

• Es necesario que distintas versiones midan la misma construcción lógica– Estructuras factoriales similares

– Procedimiento: creación de especificaciones que detallen las construcciones lógicas representadas en la prueba

• Identificar los reactivos por construcción lógica ayuda a desarrollar versiones paralelas

Consideraciones adicionales en el Consideraciones adicionales en el desarrollo de las pruebas:desarrollo de las pruebas:

• Desarrollo de hojas de claves de respuesta– Descripción de contenido y estadísticas de ejercicios que consituirán la

prueba– Edición de claves– Mascarillas de respuesta

• controles de calidad mediante calificación manual– Contraste con calificación computadorizada

• Consideraciones de estilo y formatos de presentación• Uso de mayúsculas, tipos (fonts), tamaño de letra, etc.

• INSTRUCCIONES A LOS ESTUDIANTES EN EL EXAMEN• FORMATOS DE INSTRUCCIONES• DESARROLLO DE EJEMPLOS DE TIPOS DE EJERCICIO EN CADA SECCIÓN

• INSTRUCCIONES EN EL MANUAL DEL EXAMINADOR– CONCORDANCIA ENTRE MANUAL, EXÁMEN y HOJA DE RESPUESTA

III-III- Materiales de apoyo y procesos de Materiales de apoyo y procesos de aplicaciónaplicación

• Desarrollo y controles de calidad de las hojas de respuesta– Diseño concorde a estructura del examen– Campos de identificación

• Número único de identificación, códigos de barra, etc.– Coordinación con sistemas de información

• INSTRUCCIONES– En el manual del examinador:

• Funciones del examinador y examinador auxiliar• Desarrollo de instrucciones específicas ‘verbatim’

– A ser leídas a los estudiantes en la administración del examen– A ser leídas y estudiadas por los examinadores previo a la

administración de examen

III-III- Materiales de apoyo y procesos de Materiales de apoyo y procesos de aplicaciónaplicación

• Desarrollo de Guías para el estudiante con pruebas o ejemplos de ejercicios

• Desarrollo o revisión de materiales de inscripción con información de:– Calendario de pruebas

– Costos o cuotas

– Formularios de inscripción, cuestionarios, etc.

Materiales de apoyo y procesos de aplicaciónMateriales de apoyo y procesos de aplicación

• Lectura y controles de calidad de las hojas de inscripción para tomar la prueba– Preparación y envío de boletos de inscripción

• Directores de Centros de Examen:– Organización administrativa mediante reuniones de

orientaciónReciben adiestramiento que a su vez transmitirán,

junto a materiales de apoyo (manuales, instrucciones, etc) a los examinadores y sus auxiliares


• Procesos de control de distribución de exámenes– Diseño de ‘spiralling’

• Representatividad de subformas de preprueba y subformas de calibración

– Implicaciones para impresión y distribución de folletos


• Desarrollo y controles de calidad de matriculados o inscritos en el examen

• Métodos de corroboración de identidad• Preparación y distribución de boletos de admisión individual al

salón de examen• Desarrollo y distribución de listas de inscritos para los centros de

examen:– Para el Director de Centro– Para los examinadores (por salón, etc.)

• Materiales para el control de distribución y recogido de exámenes– Hojas de cotejo y conteo para el director de centro de examen

Hojas de cotejo y conteo para los examinadoresInformes de examinadores y hojas de irregularidades

• Control extricto de distribución y recopilación de folletos de examen y otros materiales

IV-IV- Controles de calidad Controles de calidad estadísticos y estadísticos y psicométricospsicométricos

• Los resultados de análisis estadísticos y psicométricos se utilizan para:– La evaluación de las características y calidad de versiones nuevas de

las pruebas y de los nuevos ejercicios de preprueba – El desarrollo del banco de ejercicios y de pruebas nuevas– Operacionalización de los procesos de calificación

• Controles de calidad de los procesos de calificación• Calibración, equiparación y desarrollo de escalas

– Ensamblar pruebas nuevas• Controles de calidad de los reactivos o ejercicios que consituyen

las nuevas versiones de prueba• Calidad de la prueba como unidad total de medición• Desarrollo de versiones paralelas

Psicometría:Psicometría:

• AREA ESPECIALIZADA DE INVESTIGACIÓN PARA EL ANÁLISIS DEL DESARROLLO,

CONFIABILIDAD Y VALIDACIÓN DE INSTRUMENTOS DE MEDICIÓN

Dos conceptos psicométricos Dos conceptos psicométricos fundamentales:fundamentales:

• Dos objetivos principales de los procesos de desarrollo psicométrico de las pruebas son lograr:– Confiabilidad– Validez

• Para que un instrumento sea válido tiene que ser confiable

» Validez < (confiabilidad)

» Ej: confiab.=0.80: validez < 0.64

2

Que es una medida:Que es una medida:

• una VARIABLE que define cuantitavamente una propiedad o característica

• medir es asignar numeros a las cantidades de las propiedades de los objetos

• se mide de acuerdo a reglas cuya validez puede ser sometida a prueba empírica

Niveles de medición y estadísticas descriptivas Niveles de medición y estadísticas descriptivas (1 (1 de 3)de 3)

• Medición: asignación de símbolos a eventos de acuerdo a reglas– Las reglas varían en complejidad

– cada nivel de complejidad lleva implícito un nivel de medición distinto

– la complejidad difiere con respecto a la CANTIDAD de INFORMACION que representan los números

– una escala de medición consiste de:• un conjunto de reglas de acuerdo al nivel de medición• una definición operacional de los atributos o eventos a medirse

Niveles de medición y estadísticas descriptivas Niveles de medición y estadísticas descriptivas (2 (2 de 3) de 3)

– Nominal- clases discretas de eventos

– Ordinal- clases discretas ordenadas por rango; provee el orden de los objetos en la escala (mayor que, menor que)

– Intervalo- medición ordinal con distancias iguales entre las clases discretas; provee información de las magnitudes de las diferencias y no solo del orden o rango

– Razón- medición de intervalo con un cero no arbitrario; tiene unidades iguales a traves de la variable; NO necesita referencias externas a la medida misma ya que utiliza el cero como referencia

Niveles de medición y estadísticas descriptivasNiveles de medición y estadísticas descriptivas (3 de 3)(3 de 3)

Nivel de Medición

Tendencia Central

Variabilidad

Posición Individual

Intervalo y Razón

Promedio Varianza Desviación Estándar

Puntuaciones Estándar

Ordinal

Mediana

Alcance

Rangos y Porcentiles

Nominal

Moda

Número de clases

Unicidad

Requisitos basicos para medición:Requisitos basicos para medición:

• requiere localizar un objeto en un punto de un continuo abstracto

• reducción de la experiencia a una abstracción de una sola dimensión

• comparación de más (+) o menos (-)

entre A y B (B=personas; A=ítemes)– interacción de personas e ítemes para producir información útil

• magnitud y dirección linear inherente en la ubicación de objetos en una línea

Otros requisitos para mediciónOtros requisitos para medición

• aditividad- significa que personas e ítemes se definen linealmente y se puede diferenciar entre habilidad de las personas y dificultad de los ítemes

– para lograr aditividad es necesario separar parámetros de ítemes y parámetros de personas

• suficiencia estadística- implica separabilidad: capacidad del modelo para factorizar como producto (multiplicación) cada parámetro y las estadísticas asociadas al mismo- debe resumir la información relevante que suple la muestra

• objetividad específica: requiere que las diferencias entre pares de objetos o medidas (calibraciones) sean independientes de las muestras;

– la medida provee la localización de objetos en el continuo

– la misma escala (métrica) se usa para definir la localización de diversos objetos (ítemes o personas en el modelo Rasch)

ANÁLISIS PSICOMÉTRICOS ANÁLISIS PSICOMÉTRICOS

De los ítemes• dificultad observada y

calibrada• discriminación de cada

opción• factor de corrección por

respuestas al azar• ajuste del ítem al modelo

psicométrico• curvas características del

ítem

De la prueba• confiabilidad alpha de

Cronbach y de Teoría de Respuesta al Ítem

• dificultad observada y calibrada

• discriminación de la prueba total

• error de medición• análisis factorial

Análisis de itemesAnálisis de itemes

• Estimados de dificultad– Modelos clasicos

– Modelos IRT

• Estimados de discriminación– Biserial

– “Infit”

– Otros

ESCALA DELTA ESCALA DELTA

• Porcientos de respuesta correcta por ítem o ejercicio presenta limitaciones por ser medidas ORDINALES, no lineales

• PARA ESTIMAR DIFICULTAD SE UTILIZA UNA ESCALA– ALCANCE: 6 A 20

– ALCANCE OPERACIONAL: 8 A 18

– PROMEDIO 13.0

• NIVELES DE DIFICULTAD:• FÁCIL: 10.9 o menos (más de 67% )

• MEDIANA: 11 a 13.9 (67% a 43%)

• DIFICIL: 14+ (menos de 43% )

Discriminación de ítemesDiscriminación de ítemes

• Definición- estimado de la capacidad del ítem para separar personas por niveles del constructo (por niveles de habilidad o conocimiento)– Se estima mediante la correlación del ítem con la prueba total

• (en TRI : correlación del ítem con el constructo)

– Métodos de estimación:

• Correlación biserial

• Métodos iterativos –modelos TRI-

– discriminación considerada adecuada: entre 0.30 y 0.65

• Correlación Biserial (índice de discriminación): El índice de discriminación provee una correlación entre los ejercicios o ítemes y la prueba total. El alcance de la correlación biserial es de -1 a +1. – Este índice debe estar entre .30 y .60 para proveer información

adecuada.

– Un índice biserial menor de .30:• indica que los ejercicios o ítemes de la prueba NO diferencian significativamente

entre los distintos niveles de habilidad de la población examinada

• reduce la confiabilidad del instrumento de medición y añade error a los estimados de las puntuaciones

• Una correlación biserial extremadamente baja (menor de .10) o negativa es índice de problemas significativos en los ítemes

Una correlación biserial mayor a .65 puede indicar que:

– existe una distribución irregular (ej. bimodal, sesgada por variables extrínsecas a las pruebas, etc.)

– las respuestas pueden estar diferenciadas por variables externas a la prueba o a lo que se intenta medir con la misma

– los ítemes de la prueba resultan extremadamente redundantes en lo que miden

CORRELACION BISERIALCORRELACION BISERIAL

ParParámetros de dificultad y discriminación para el ámetros de dificultad y discriminación para el modelo clásicomodelo clásico

• Dificultad – ALCANCE 0 A 100

• Ensamblaje – 10% dificultad máxima– 90% dificultad mínima

– DELTA: ALCANCE 6 A 20• Ensamblaje:

– Máxima 18– Mínima 8

– Biserial : ALCANCE -1.0 A +1.0• Ensamblaje:

– Máxima 0.65– Mínima 0.30

» (0.25 para bancos nuevos o con recursos escasos)

Item Statistics Alternative Statistics ----------------------- -----------------------------------Seq. Scale Pcnt Disc. Pcnt Endorsing No. -Item Correct Index Biser. Alt. Total Low High Biser. Key---- ----- ------- ------ ------ ----- ----- ---- ---- ------ ---

22 1-22 53 .51 .42 A 10 12 5 -.26 B 19 26 6 -.35 C 53 33 84 .42 * D 15 25 6 -.43 Other 2 0 0 -.44

23 1-23 24 .29 .30 A 20 23 15 -.23 B 23 29 18 -.22 C 31 31 25 -.17 D 24 12 41 .30 * Other 3 0 0 -.44

GEMA 1200


23 1-22 83 .29 .45 A 10 18 4 -.46 B 83 66 96 .45 * C 1 3 0 -.47 D 5 12 0 -.58 Other 0 0 0 -.42

25 1-23 40 .37 .32 A 18 28 7 -.44 B 25 22 29 -.04 C 16 28 7 -.45 D 40 20 57 .32 * Other 1 0 0 -.61

ESPAÑOL


22 1-22 22 .05 -.04 A 22 19 23 -.04 * B 18 24 13 -.24 C 13 14 11 -.19 D 46 40 50 -.02 Other 2 0 0 -.26

23 1-23 67 .28 .20 A 67 51 80 .20 * B 25 40 14 -.42 C 6 7 5 -.17 D 1 1 1 -.04 Other 0 0 0 -.38

Dos ejercicios de preprueba rechazados:

AnAnálisis de 40 estudiantes y 5 álisis de 40 estudiantes y 5 reactivos o itemsreactivos o items

n=10 bajos n=10 altos

# item: TOTAL 25% bajo 25% alto2 36 9 91 36 7 104 28 2 93 20 6 75 12 1 6

CUARTILES:

# item: % total 25% bajo 25% alto2 90 89 911 90 65 1004 70 20 853 50 60 655 30 10 60

PORCIENTOS

Limitaciones del análisis clásico de ítemesLimitaciones del análisis clásico de ítemes

• los estimados de dificultad y discriminación dependen de las características de las muestras o poblaciones de las que fueron obtenidos

• la confiabilidad queda definida en terminos de formas paralelas y esta igualmente atada a las características de las muestras o poblaciones examinadas

• no provee fundamento para establecer el nivel de ejecución del examinado con respecto al reactivo o ítem

• asume que los errores de medición son iguales para todos los examinados (el error de medición es un promedio de error en el análisis clásico)

• no provee información de la localización de los ítemes en la escala total

TEORIA DE RESPUESTA AL ITEM (TRI) TEORIA DE RESPUESTA AL ITEM (TRI) (1 de 5)(1 de 5)

• La TRI usa modelos matemáticos para desarrollar funciones matemáticas que relacionan razgos o estimados de habilidad con la ejecución en los ítemes y en las pruebas como unidades de medición– los modelos de TRI especifican una relación entre la ejecución

observable y las habilidades subyacentes a la ejecución en la prueba

– los razgos se estiman de la ejecución que se observa en un conjunto de ítemes que cumplan con unos supuestos del modelo matemático

– la TRI basa sus modelos en supuestos estadísticos robustos

Objetivos de la TRIObjetivos de la TRI (2 de (2 de 5)5)

• Proveer estadísticas de ítemes invariantes• Proveer estimados de habilidad invariantes

.

EJ:LA DIFICULTAD DE CADA ITEM CON RESPECTO A LOS DEMAS ITEMES DE LA MISMA DIFICULTAD, EN UN BANCO CALIBRADO

EJ: SI 2 ITEMES DIFIEREN ENTRE SI EN 3 DELTAS, ESTA DIFERENCIA ES COMPARABLE A LA DE OTROS 2 ITEMES CON DIFERENCIA DE 3 DELTAS.

SUPUESTOS DE MAS PESO EN LOS SUPUESTOS DE MAS PESO EN LOS MODELOS DE TRI:MODELOS DE TRI:

• UNIDIMENSIONALIDAD– UN COMPONENTE O FACTOR DOMINANTE EN LA

EJECUCION

INDEPENDENCIA LOCAL– LAS RESPUESTAS A LOS ITEMES SON

ESTADISTICAMENTE INDEPENDIENTES

– PUEDE EXISTIR CORRELACION ENTRE PATRONES DE RESPUESTA A ITEMES DE UNA MISMA PRUEBA PERO NO EN EL MISMO NIVEL DE HABILIDAD

TEORIA DE RESPUESTA AL ITEM (3 de 5)TEORIA DE RESPUESTA AL ITEM (3 de 5)

• para someter a prueba la validez y adecuación del modelo de TRI se le aplican pruebas de ajuste (“fit”)

• si los datos corroboran ajuste al modelo TRI:– los parámetros de los ítemes son independientes del grupo de

examinados para el cual se diseña la prueba

– los estimados de habilidad de los examinados son independientes de los ítemes particulares debidamente calibrados

– la precisión y el error de los estimados de habilidad se obtienen para cada puntuación

Teoría de respuesta al ítem (4 de 5)Teoría de respuesta al ítem (4 de 5)

• La relación de la ejecución en el ítem y el razgo o característica que mide el ítem es descrita por una función de incremento monotónica llamada función característica del ítem (“item characteristic function” que genera una “curva característica del ítem” o ICC):– ICC: especifica la probabilidad de responder

correctamente en función a la habilidad en los distintos puntos de la escala

• función no-linear de regresión del ítem en la habilidad medida por la prueba

Análisis de un mismo reactivo en la PAA Análisis de un mismo reactivo en la PAA y el SATy el SAT

(reactivo de preprueba rechazado)(reactivo de preprueba rechazado)

Análisis de un mismo reactivo en la PAA Análisis de un mismo reactivo en la PAA y el SATy el SAT

(reactivo de preprueba aceptado)(reactivo de preprueba aceptado)

Teoría de respuesta al ítem Teoría de respuesta al ítem (5 de 5)(5 de 5)

• CURVA CARACTERISTICA DE LA PRUEBA (“Test Characteristic Curve” - TCC)

• CURVA DE INFORMACION DEL ITEM ( “ITEM INFORMATION CURVE”)

– capacidad del item para reducir error en los distintos niveles de habilidad

• CURVA DE INFORMACION DE LA PRUEBA Y ERROR ESTANDAR CONDICIONAL (TEST INFORMATION CURVE - TIF)

– suma de la información de los ítemes

Modelo de un parámetro (Rasch)Modelo de un parámetro (Rasch)

• modelo iterativo que separa la variación y error de las personas de la variación y error de los ítemes– estima independientemente los parámetros de ítemes y personas

– al calibrar ítemes se remueve toda la variación que proviene de las personas

– al calibrar las personas se remueve toda la variación que proviene de los ítemes

• las puntuaciones totales que se derivan del modelo para las personas y para los ítemes, contienen toda la información modelada de las personas y las calibraciones de los ítemes

Modelo de Rasch: Análisis de Modelo de Rasch: Análisis de los patrones de respuestalos patrones de respuesta

• el patrón de respuestas de los ítemes se calibra y se somete a pruebas de ajuste

• el patrón de respuestas de las personas se calibra y se somete a pruebas de ajuste

Estadísticas tradicionales y el modelo RaschEstadísticas tradicionales y el modelo Rasch

• expresa la dificultad como una proporción, porciento o punteo estandarizado atado a una población particular en una escala ordinal

• error estándar es binomial

• transforma p a un valor lineal (ln(1-p)/p) este nuevo valor tiene propiedades de escala de intervalo- equidistancia entre magnitudes iguales

b=M+((1+S2/2.89).5 (ln(1-p)p))

• error estándar se corrige utilizando la muestra de calibración

• estima el error de calibración

TRADICIONALES RaschDIFICULTAD

Contraste de biserial (modelo Contraste de biserial (modelo clásico) con análisis de ajuste clásico) con análisis de ajuste

(TRI):(TRI):

• Biserial : correlaciona el item con los resultados de la población en la prueba total

• “ Infit” y ‘outfit’ : contrasta los patrones de respuesta observados contra los supuestos del modelo de medición

Análisis de TRIAnálisis de TRI

• Dificultad calibrada– Curvas características del item

• Punto de inflexión = dificultad• RESIDUAL E ‘INFIT’

– “MEJOR” ESTIMADO QUE LA DISCRIMINACIÓN– ‘MEAN SQR DEL RESIDUAL ESTANDARIZADO:

» PROVEE INFORMACIÓN DE AJUSTE DEL ITEM AL MODELO DE MEDICIÓN SIN AFECTARSE POR LAS CARACTERÍSTICAS DE LA POBLACIÓN PARTICULAR EXAMINADA

• “Displace” (“targeting”) – para estimar efectos del ‘guessing’ en el estimado de dificultad

ParParámetros de dificultad y discriminación para el ámetros de dificultad y discriminación para el modelo de TRImodelo de TRI

• Dificultad – ALCANCE -4.0 A +4.0 (delta 6 a 20)

• Ensamblaje – Máxima 18– Mínima 8

– MNSQ INFIT: ALCANCE 0 a 9.9• Ensamblaje:

– Máxima 1.20– Mínima .80

» (0.75 para bancos nuevos o con recursos escasos)

• Mientras más cerca de 1.0 esté el valor de INFIT mejor estimado (más se cumplen los supuestos del modelo de la TRI)

Interpretación de los ‘mapas’ Interpretación de los ‘mapas’ de dificultad/habilidadde dificultad/habilidad

Nov 19 14:39 2004 INPUT: 25713 PERSONS 60 ITEMS ANALYZED: 25707 PERSONS 60 ITEMS 2 CATEGORIES------------------------------------------------------------------------------------------------------------ MAP OF PERSONS AND ITEMSMEASURE | MEASURE --------------------- PERSONS-+- ITEMS --------------------- 21.0 . + 21.0 . | 20.0 . + 20.0 . | 19.0 . + 19.0 .# | X 18.0 .## + X 18.0 .### | X 17.0 .##### + X 17.0 .######## | XX 16.0 .############ + XXXX 16.0 ################# | XXX 15.0 .###################### + XXX 15.0 .######################### | XXXX 14.0 .########################### + XXXXX 14.0 .############################# | XX 13.0 .########################## + XXXXXXXX 13.0 .######################## | XXXXX 12.0 .################### + XXXXX 12.0 .############# | XXX 11.0 .######### + XXXXX 11.0 .##### | X 10.0 .### + XXXX 10.0 .# | X 9.0 . + X 9.0 . | 8.0 . + 8.0 . | 7.0 . + 7.0 . | 6.0 + 6.0 --------------------- PERSONS-+- ITEMS --------------------- EACH '#' IN THE PERSON COLUMN IS 97 PERSONS; EACH '.' IS 1 TO 96 PERSONS

RAZONAMIENTO VERBAL

TABLE 3.1 AOPR15V-Aptitud Verbal-Oct.2004 Nov 19 14:39 2004 INPUT: 25713 PERSONS 60 ITEMS ANALYZED: 25707 PERSONS SUMMARY OF 25707 MEASURED (NON-EXTREME) PERSONS+-----------------------------------------------------------------------------+| SCORE COUNT MEASURE ERROR MNSQ INFIT MNSQ OUTFIT ||-----------------------------------------------------------------------------|| MEAN 30.6 55.3 13.73 .65 1.02 .0 1.08 .0 || S.D. 9.6 7.0 1.87 .09 .18 .9 .44 .8 ||-----------------------------------------------------------------------------|| RMSE .66 ADJ.S.D. 1.75 PERSON SEP 2.66 PERSON SEP REL. .88 |+-----------------------------------------------------------------------------+ LACKING RESPONSES: 6 PERSONS SUMMARY OF 60 MEASURED (NON-EXTREME) ITEMS+-----------------------------------------------------------------------------+| SCORE COUNT MEASURE ERROR MNSQ INFIT MNSQ OUTFIT ||-----------------------------------------------------------------------------|| MEAN 13108.0 23678.7 13.30 .03 1.01 .1 1.08 .4 || S.D. 5358.3 1900.1 2.23 .00 .09 1.0 .21 .8 |-----------------------------------------------------------------------------

Nov 19 14:35 2004 INPUT: 25712 PERSONS 50 ITEMS ANALYZED: 25678 PERSONS 50 ITEMS 2 CATEGORIES------------------------------------------------------------------------------------------------------------ MAP OF PERSONS AND ITEMSMEASURE | MEASURE --------------------- PERSONS-+- ITEMS --------------------- 21.0 .# + 21.0 .# | 20.0 . + 20.0 .# | X 19.0 .# + 19.0 .## | 18.0 .### + X 18.0 .#### | X 17.0 .###### + X 17.0 .######## | X 16.0 .########### + XX 16.0 .############## | X 15.0 .################# + XXX 15.0 .#################### | XXX 14.0 .######################## + XXXXXXX 14.0 .############################ | XXXXX 13.0 .############################# + 13.0 .############################# | XXXXXXX 12.0 .############################ + XXX 12.0 .######################### | XX 11.0 .################### + XXXXXX 11.0 .############## | X 10.0 .######### + X 10.0 .###### | 9.0 .### + 9.0 .## | XX 8.0 .# + X 8.0 . | X 7.0 . + 7.0 . | 6.0 . + 6.0 --------------------- PERSONS-+- ITEMS --------------------- EACH '#' IN THE PERSON COLUMN IS 80 PERSONS; EACH '.' IS 1 TO 79 PERSONS

RAZONAMIENTO MATEMÁTICO

AOPR15M Aptitud Matem.-Oct.2004 Nov 19 14:35 2004 INPUT: 25712 PERSONS 50 ITEMS ANALYZED: 25678 PERSONS --------------------------------------------------------------------------------- SUMMARY OF 25678 MEASURED (NON-EXTREME) PERSONS+-----------------------------------------------------------------------------+| SCORE COUNT MEASURE ERROR MNSQ INFIT MNSQ OUTFIT ||-----------------------------------------------------------------------------|| MEAN 24.1 45.5 13.22 .74 1.05 .1 1.20 .1 || S.D. 8.9 5.1 2.32 .14 .28 .9 .85 .7 ||-----------------------------------------------------------------------------|| RMSE .76 ADJ.S.D. 2.20 PERSON SEP 2.91 PERSON SEP REL. .89 |+-----------------------------------------------------------------------------+ MAXIMUM EXTREME SCORE: 23 PERSONS LACKING RESPONSES: 11 PERSONS SUMMARY OF 50 MEASURED (NON-EXTREME) ITEMS+-----------------------------------------------------------------------------+| SCORE COUNT MEASURE ERROR MNSQ INFIT MNSQ OUTFIT ||-----------------------------------------------------------------------------|| MEAN 12369.8 23386.8 13.10 .03 1.03 .2 1.23 .5 || S.D. 5379.0 2709.1 2.48 .01 .10 .9 .40 .7 ||-----------------------------------------------------------------------------|

Criterios para suficiencia de tiempo:Criterios para suficiencia de tiempo:

• Porciento que completa la prueba o sección – debe ser mayor al 80%

• Porciento que completa el 75% de la prueba o sección– debe ser mayor al 95%

• Número de ítemes alcanzados por el 80% de los candidatos– el 80% o + de los candidatos debe contestar la totalidad ( el

100%) de los ítemes

Confiabilidad:Confiabilidad:

• INDICA LA PRECISIÓN O CONSISTENCIA DE UN INSTRUMENTO DE MEDICIÓN

• MAYOR CONFIABILIDAD SIGNIFICA MENOR ERROR EN LA PUNTUACIÓN

• EL ÍNDICE DE CONFIABILIDAD TIENE UN ALCANCE 0 A 1 (-1 a +1 si se usan correlaciones)– 0.75+ : ADECUADO PARA LA MAYOR PARTE DE LAS

PRUEBAS DE HABILIDAD O CONOCIMIENTO– .80 A .95 : MUY BUEN ESTIMADO – MAS DE 0.97 : PUEDE INDICAR DEMASIADA

UNIDIMENSIONALIDAD EN UNA PRUEBA DE HABILIDAD O CONOCIMIENTO

• DEMASIADO ESPECÍFICO PARA SER UNA MEDIDA UTIL COMO INSTRUMENTO VÁLIDO DE CONOCIMIENTO O HABILIDAD

ASPECTOS QUE AFECTAN LOS ESTIMADOS DE ASPECTOS QUE AFECTAN LOS ESTIMADOS DE CONFIABILIDADCONFIABILIDAD EN PRUEBAS DE CONOCIMIENTO O EN PRUEBAS DE CONOCIMIENTO O

HABILIDAD:HABILIDAD:

• EXTENSIÓN Y TIEMPO DE LA PRUEBA• PROPIEDADES DE MEDICIÓN DE LOS ITEMES• DISTRIBÚCIÓN DE LA DIFICULTAD • VICIOS DE CONSTRUCCIÓN (“ITEM BIAS”)• COMPLEJIDAD DE CONSTRUCCIÓN LÓGICA• VARIABILIDAD EN LA POBLACIÓN• FALTA DE ESTANDARIZACIÓN ADMINISTRATIVA• OTRAS VARIABLES EXTERNAS A LA PRUEBA

Error estándar de medición: Este índice ofrece un estimado del error en la puntuación observada. La puntuación verdadera ("true score") del candidato se encuentra a más o menos puntos del error de medición. Por ejemplo, si una prueba tiene un ERROR DE MEDICIÓN de 7 puntos y un candidato obtiene 104 en la puntuación a escala, podemos esperar que su puntuación fluctúe entre 97 y 111 puntos. Si el candidato repite la prueba en diversas ocasiones bajo las mismas condiciones, se puede esperar que su puntuación fluctúe alrededor de ese intervalo. El error estándar de medición tiende a ser mucho más estable que la confiabilidad.

Error estándar de Error estándar de mediciónmedición

derivación:derivación:• CONFIABILIDAD: rtt= 1 - (S2e / S2t)• VARIANZA ATRIBUIBLE A ERROR:

S2 e= S2t (1 - rtt)

• ERROR ESTANDAR DE MEDICION:

Se = St 1 - rtt

Estadísticas tradicionales y el modelo RaschEstadísticas tradicionales y el modelo Rasch

• Coeficiente alpha (Vi/Vt) o KR20

• provee un “promedio” de confiabilidad y un solo error de medición

• Indice de separación (“person/item separation index”: PSI=1-(MSE/SDp2)

• permite un estimado de confiabilidad y de error para cada puntuación y para cada ítem

CONFIABILIDAD

TRADICIONAL Rasch

Desarrollo de especificaciones psicométricas Desarrollo de especificaciones psicométricas (1 de (1 de 2)2)

• Distribución de la dificultad– Representar el alcance de los niveles de dificultad (cada nivel delta o cada

nivel de la escala)

– Incluir mayor número de ejercicios con los niveles de dificultad adecuada a los niveles de habilidad correspondientes a la población

– Para cada area principal del bosquejo de especificaciones de contenido deben proveerse diversos niveles de dificultad

– Si se van a informar puntuaciones por areas, además de la puntuación total, debera representarse el alcance de los niveles de dificultad de dicha area

– Informar las medidas de tendencia central y de dispersión de las dificultades, tanto para la prueba total como para las puntuaciones por area

– Si no es la primera versión, el ensamblaje se realiza con dificultades calibradas

Desarrollo de especificaciones psicométricas Desarrollo de especificaciones psicométricas (2 de (2 de 2)2)

• Distribución de la discriminación– proveer los alcances de la discriminación para cada nivel de dificultad

– observar niveles de discriminación apropiados en los límites de dificultad

– computar medidas de tendencia central de las discriminaciones para la prueba total y las areas de contenido

• De usarse un modelo de TRI:– proveer los parámetros de ajuste al modelo

– proveer curva de las característica de la prueba (TCC)

– proveer curvas de información de la unidad total de medición (TIC)

• Una vez aplicada la prueba corroborar los parámetros de ensamblaje con los parámetros observados

Algunas estadíAlgunas estadísticas de dificultad y sticas de dificultad y discriminacióndiscriminación

PRUEBA DE RAZONAMIENTO VERBALPRUEBA DE RAZONAMIENTO VERBAL

Oct-99 AJPR25 27,708 60 53.7 12.6 2.6 13.0 2.4 0.49

Oct-00 AKPR15 27,270 60 52.9 12.7 2.5 13.0 2.4 0.52

Oct-01 ALPR15 25,155 60 53.0 12.7 2.5 13.0 2.5 0.44

Oct-02 AMPR15 26,218 60 52.0 12.8 2.6 13.0 2.4 0.40

FECHA Versión NNItems

% CORREC

DELTA OBSERV

PROM DE

DELTA CALIBR

PROM DE BISER.

Algunas estadíAlgunas estadísticas de dificultad y sticas de dificultad y discriminacióndiscriminación

PRUEBA DE RAZONAMIENTO MATEMÁTICOPRUEBA DE RAZONAMIENTO MATEMÁTICO

FECHA Versión NNItems

% CORREC

DELTA OBSERV

PROM DE

DELTA CALIBR

PROM DE BISER.

Oct-99 AJPR25 27,708 50 49.4 13.1 2.7 13.1 2.8 0.54

Oct-00 AKPR15 27,270 50 43.9 13.8 2.5 13.5 2.5 0.49

Oct-01 ALPR15 25,155 50 47.8 13.3 2.3 13.1 2.1 0.47

Oct-02 AMPR15 26,218 50 45.9 13.5 2.2 13.1 2.1 0.44

RAZONAMIENTO VERBAL CONFIABILIDAD Y ERROR DE MEDICIÓN Fecha de Examen: Confiabilidad* Error

de Med. octubre 1999 0.91 3.28 octubre 2000 0.92 3.27 octubre 2001 0.91 3.28 octubre 2002 0.90 3.31 octubre 2003 0.91 3.35 octubre 2004 0.90 3.32 octubre 2005 0.91 3.34

*Coeficiente Alfa de Cronbach

RAZONAMIENTO MATEMÁTICOCONFIABILIDAD Y ERROR DE MEDICIÓN Fecha Examen: Confiabilidad* Error

deMed. octubre 1999 0.91 2.92 octubre 2000 0.89 2.98 octubre 2001 0.91 3.02 octubre 2002 0.90 3.06 octubre 2003 0.90 2.99 octubre 2004 0.91 2.98 octubre 2005 0.90 3.01

*Coeficiente Alfa de Cronbach

Desarrollo de versiones Desarrollo de versiones nuevasnuevas

• Formas nuevas• Formas paralelas• Formas equivalentes

Desarrollo y mantenimiento de escalas• Equiparación (equatings)

Puntuaciones finales Puntuaciones finales expresadas en una escala expresadas en una escala

comúncomún• Deseabilidad de expresar las puntuaciones

en una escala común

• Las puntuaciones a escala se estandarizan, calibran y equiparan mediante procesos estadísticos

Escala en que se informan las puntuacionesEscala en que se informan las puntuacionesde la Prueba de Aptitud Académica:de la Prueba de Aptitud Académica:

– Promedio Teórico = 500– Desviación Estándar = 100

– Puntuación Máxima = 800– Puntuación Mínima = 200

• Las puntuaciones a escala son estandarizadas, calibradas y equiparadas mediante procesos estadísticos.

Por qué informarPor qué informar puntuaciones a escala puntuaciones a escala

• Algunos problemas que resuelve el proceso de calibración y equiparación de escalas:– DIFERENCIAS EN EXTENSIÓN DE LAS PRUEBAS

– DIFERENCIAS EN DIFICULTAD

– DIFERENCIAS EN HABILIDAD O CONOCIMIENTO DE LAS POBLACIONES

– ERROR DE MEDICIÓN COMPARABLE PARA DIFERENTES VERSIONES

– INTERPRETACIÓN DE RESULTADOS • CONSISTENCIA

• COMPARACIÓN DE PUNTUACIONES

Controles de calidad de Controles de calidad de calificación e informes de calificación e informes de

resultadosresultados• PRODUCCIÓN DE INFORMES DE RESULTADOS:

– INDIVIDUALES

– INSTITUCIONALES

• RESÚMENES ESTADÍSTICOS

– POR UNIDAD ACADÉMICA

» ESCUELA DE PROCEDENCIA

» UNIVERSIDAD O INSTITUCIÓN POSTSECUNDARIA

– GÉNERO

– OTRAS VARIABLES

Controles de calidad de Controles de calidad de calificación e informes de calificación e informes de

resultadosresultados

– Las investigaciones de validez como criterio de calidad• ESTUDIO DE VALIDEZ PREDICTIVA

– INSTITUCIÓN PROVEE CALIFICACIONES, USUALMENTE DE PRIMER AÑO UNIVERSITARIO

» CALIFICACIONES = VARIABLE DEPENDIENTE– PARA PAA: SE CORRELACIONAN LAS

CALIFICACIONES DE ÚLTIMO AÑO DE PREPARATORIA Y LOS RESULTADOS DE LAS PRUEBAS (PAA) DE RAZONAMIENTO (VARIABLES INDEPENDIENTES) CON LAS CALIFICACIONES DE PRIMER AÑO UNIVERSITARIO (VARIABLE DEPENDIENTE)

DEFINICIÓN DE VALIDEZ:DEFINICIÓN DE VALIDEZ:

– EL GRADO EN QUE LA EVIDENCIA EMPÍRICA Y LOS RAZONAMIENTOS TEÓRICOS APOYAN LA ADECUACIDAD Y PROPIEDAD DE LAS CONCLUSIONES QUE SE DERIVAN DE UNA EVALUACIÓN, MEDICIÓN O INSTRUMENTO

• (“ THE DEGREE TO WHICH EMPIRICAL EVIDENCE AND THEORETICAL RATIONALES SUPPORT THE ADEQUACY AND APPROPRIATENESS OF CONCLUSIONS DRAWN FROM AN ASSESSMENT, MEASURE OR INSTRUMENT”)

– (VEA: MESSICK, S. (1995) . Validity of Psychological Assessment: Validation of inferences from persons’ responses and performance as scientific inquiry into score meaning. American Psychologist, 50 p741-749)

TIPOS DE VALIDEZTIPOS DE VALIDEZ– TIPO

• CONSTRUCCIÓN LÓGICA:– Convergente

• Discriminante

• – CONTENIDO........................

– CRITERIO.........................

– APARENTE

– PROBLEMA QUE INVESTIGA

• SIGNIFICADO

– RED NOMOLÓGICA

– REPRESENTATIVIDAD

– PREDICCIÓN

– APARIENCIA

InvestigaciónInvestigación

• Seguimiento a los resultados: alumnos, recintos, grupos; reflexión crítica sobre proceso de enseñanza-aprendizaje, cambios curriculares y metodológicos, estudios de validez, etc.

métodos y procesos para el desarrollo y construcción de exámenes

Documents