las pruebas excale para educación básica - | fmrizo.net 58 2015 las pruebas excale para eb.pdf ·...

160
Las pruebas EXCALE para educación básica Una evaluación para el Instituto Nacional para la Evaluación de la Educación ANEXO

Upload: others

Post on 09-Oct-2020

8 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

Las pruebas EXCALE para educación básica

Una evaluación para el Instituto Nacional para la Evaluación de la Educación

ANEXO

Page 2: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo
Page 3: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

ANEXOCuaderno de investigación

Felipe Martínez RizoCoordinador

Luis Ángel Contreras Niño • Eugenio GonzálezJesús M. Jornet Meliá • Ma. Regina Martínez Casas

J. Felipe Martínez Fernández • Francisco E. Reyes JiménezLucrecia Santibáñez • Guillermo Solano Flores Marianne Sandy Taut • Agustín Tristán López

Universidad Autónoma de Aguascalientes

40

Las pruebas EXCALE para educación básica

Una evaluación para el Instituto Nacional para la Evaluación de la Educación

Page 4: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

D.R. © Instituto Nacional para la Evaluación de la EducaciónBarranca del Muerto 341, Col. San José Insurgentes, Del. Benito Juárez; C.P. 03900 México, D.F.

EditoraMaría Norma Orduña Chávez

Corrección de estiloHugo Soto de la Vega

FormaciónHeidi Puon Sánchez

Impreso y hecho en México. Distribución gratuita. Prohibida su venta.

Consulte el catálogo de publicaciones en línea: www.inee.edu.mx

La elaboración de esta publicación estuvo a cargo de la Dirección General de Difusión y Fomento de la Cultura de la Evaluación. El contenido, la presentación, así como la disposición en conjunto y de cada página de esta obra son propiedad del INEE. Se autoriza su reproducción parcial o total por cualquier sistema mecánico o electrónico para fines no comerciales y citando la fuente de la siguiente manera:

Martínez Rizo, F. (Coord.) (2015). Las pruebas EXCALE para educación básica. Una evaluación para el Instituto Nacional para la Evaluación de la Educación. México: INEE.

Las pruebas EXCALE para educación básicaUna evaluación para el Instituto Nacional para la Evaluación de la EducaciónPrimera edición, 2015ISBN: En trámite

CoordinadorFelipe Martínez Rizo

Luis Ángel Contreras Niño, Eugenio González, Jesús M. Jornet Meliá, Ma. Regina Martínez Casas, J. Felipe Martínez Fernández, Francisco E. Reyes Jiménez, Lucrecia Santibáñez, Guillermo Solano Flores, Marianne Sandy Taut, Agustín Tristán López

Page 5: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

5

Índice

Presentación .................................................................................................................. 7

Introducción ................................................................................................................ 11

Alineación a los referentes ......................................................................................... 15Aspectos psicométricos .............................................................................................. 44Atención a la diversidad cultural ............................................................................... 65Aplicaciones ................................................................................................................ 76Usos y consecuencias .................................................................................................. 94

Conclusiones y recomendaciones ............................................................................ 120

Referencias bibliográficas ......................................................................................... 125

Anexos1. Criterios y subcriterios de evaluación .......................................................................................... 1302. Microanálisis de reactivos de EXCALE .......................................................................................... 1393. Resultados de encuesta de autoridades estatales ....................................................................... 1544. Lista de estudios que utilizan datos de EXCALE ........................................................................... 1575. Cobertura de prensa 2010-2013 ................................................................................................ 159

Page 6: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

DIRECTORIO

JUNTA DE GOBIERNO

Silvia Irene Schmelkes del ValleCONSEJERA PRESIDENTA

Eduardo Backhoff EscuderoCONSEJERO

Gilberto Ramón Guevara NieblaCONSEJERO

Margarita María Zorrilla FierroCONSEJERA

Teresa Bracho GonzálezCONSEJERA

Page 7: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

7

Presentación

En diciembre de 2009 la Universidad Autónoma de Aguascalientes (UAA) y el Instituto Nacional para la Evaluación de la Educación (INEE) firmaron un convenio que establece las bases para que ambas instituciones se apoyen en el cumplimiento de sus objetivos para el mejora-miento de la calidad de la educación en México, en actividades de investigación, evaluación y difusión de resultados. En ese marco, el INEE encomendó a la UAA la realización del Estudio de validación de las pruebas ENLACE y EXCALE de educación básica, para lo cual el 1 de octubre de 2013 se firmó un Anexo de Ejecución del convenio mencionado.

Dicho anexo precisa que el estudio de validación de las pruebas ENLACE y EXCALE de educación básica analizará varios aspectos de la calidad de dichas pruebas, con base en la documenta-ción que sobre su diseño, aplicación, resultados y la utilización y consecuencias de los mismos aporten la SEP y el INEE y, en la medida en que sea necesario, en información adicional propor-cionada por personas de la SEP, el INEE y los sistemas educativos de las entidades federativas del país, en relación con aspectos de los que no haya elementos suficientes en la información documental que se recabe.

El estudio incluirá recomendaciones que tengan en cuenta las mejores prácticas internaciona-les… de manera que el desarrollo del sistema nacional de evaluación de México, en lo relativo a educación básica, incluya evaluaciones de aprendizajes en gran escala que, por la calidad de su diseño y aplicación, así como por el uso que se haga de sus resultados, contribuyan en la mayor medida posible al propósito de mejorar la calidad de la educación mexicana.

Se precisa que el Estudio deberá comprender al menos cinco aspectos:

1. La alineación al currículo de la educación básica de México, revisando el grado en que las pruebas atienden adecuadamente y según la naturaleza de una evaluación en gran escala, los campos formativos, las asignaturas y los niveles de demanda cognitiva consi-derados en los planes y programas de estudio de la educación básica nacional.

2. Los aspectos técnicos de las pruebas, como la calidad de los reactivos que las integran, la de las versiones de las pruebas, las escalas y modelos psicométricos utilizados, y las técnicas de equiparación, entre otros.

3. La forma en que las pruebas atienden las diferencias culturales y lingüísticas que hay entre los estudiantes de un sistema educativo de grandes dimensiones, en un país que se define como multicultural, y las implicaciones de lo anterior.

4. La forma en que se llevan a cabo las aplicaciones de las pruebas, tanto censales como muestrales, y las implicaciones que tienen para la calidad de los resultados.

5. La forma en que se difunden los resultados de las pruebas, los análisis de factores aso-ciados y el uso que se hace de dichos resultados, así como las consecuencias que ha traído consigo su utilización en el sistema educativo.

Page 8: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

8

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

El trabajo contemplado en el Anexo de Ejecución comprendía cuatro etapas, pero en abril de 2014 el INEE solicitó a la UAA incluir en el estudio las pruebas ENLACE de educación media superior; en junio de 2014 se suscribió una modificación del mencionado anexo, con lo que el trabajo pasó a comprender cinco etapas. La tercera etapa correspondía al informe relativo a las pruebas EXCALE de educación básica, cuya entrega se fijaba para el 21 de julio de 2014; las dos restantes, que corresponderían al informe sobre ENLACE de educación media superior y a las conclusiones y recomendaciones generales, deberían entregarse en octubre y diciembre de 2014, respectivamente.

Los cinco apartados principales de este documento presentan el análisis de las pruebas EXCALE sobre los aspectos antes mencionados, cada uno a cargo de dos de los diez especialistas involu-crados. El análisis se hizo entre abril y junio de 2014, e implicó las siguientes actividades:

• Como insumos para el informe relativo a ENLACE de educación básica, pero también para el que ahora se presenta sobre EXCALE, entre enero y marzo de 2014 personal de la UAA transcribió las entrevistas a funcionarios de las secretarías de educación de diez estados de la república y el Distrito Federal, así como de las instancias de la SEP y el INEE a cargo de ENLACE y EXCALE; se procesaron las respuestas a los cuestionarios enviados a los responsables de educación básica y de planeación y evaluación de todas las entidades federativas, se revisaron diarios de circulación nacional y se rescataron notas sobre la difusión de resultados de EXCALE.

• En abril y mayo de 2014 cada par de especialistas trabajó en la revisión de la documenta-ción sobre EXCALE proporcionada por INEE, cuyo detalle se presentó en el primer informe de este proyecto, entregado el 30 de noviembre de 2013.

• Entre el 31 de mayo y el 4 de junio los subgrupos de especialistas enviaron al coordinador una primera versión del análisis de EXCALE basado en los criterios que les correspondieron.

• El coordinador conjuntó los avances recibidos en un documento integrado, que se envió al grupo el 7 de junio.

• La primera versión del texto integrado se discutió en reunión presencial de todos los miembros del grupo el día 16 de junio, en la cual los especialistas pudieron dar su opinión sobre los aspectos considerados en la validación de las pruebas EXCALE de educación básica.

• Durante el resto del mes de junio se preparó una segunda versión del análisis de EXCALE respecto de los criterios correspondientes a cada subgrupo, y en la semana del 30 de junio al 4 de julio los especialistas enviaron sus respectivos productos al coordinador.

• El equipo coordinador elaboró una versión integrada del tercer informe, que envió a los especialistas el 5 de julio.

• El 12 de julio, en una reunión virtual los especialistas hicieron observaciones a la versión integrada.

• El coordinador incorporó las observaciones y las que hicieron llegar los miembros del grupo y con ello integró esta versión del tercer informe, que se envía al INEE el 21 de julio de 2014.

El anexo 1 incluye la relación de los criterios y subcriterios de evaluación que se utilizaron. El ane-xo 2 se refiere al apartado de validez cultural y contiene microanálisis de ítems de matemáticas y español de EXCALE. Los tres anexos restantes se refieren al apartado de usos y consecuencias de EXCALE, y presentan los resultados de la encuesta que se aplicó en línea a autoridades estata-les, la relación de los estudios que utilizan datos de EXCALE, e información sobre la cobertura de prensa relativa a EXCALE entre 2010 y 2013.

Page 9: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

9Presentación

Cuando se entregó la versión inicial de este informe, en julio de 2014, se señalaba que no era el texto definitivo del análisis de las pruebas EXCALE encomendado al grupo de autores, por lo que sus conclusiones tenían un carácter inicial, y podrían ser precisadas cuando se entregara el reporte final del proyecto, en el mes de diciembre. Esta nueva versión retoma la presentada en julio con ligeras modificaciones, como se preveía. Las más importantes se refieren a los aparta-dos I y II, como resultado del ajuste que se hizo de los criterios y subcriterios correspondientes, por lo que en esta versión algunos puntos de dichos apartados se han reubicado.

Reiteramos que los análisis y valoraciones se refieren siempre a nuestro objeto de estudio —en este informe las pruebas EXCALE— y de ninguna manera a las numerosas personas involucradas en su desarrollo, su aplicación y el procesamiento de resultados. También señalamos que este informe es producto del trabajo colectivo del grupo, si bien cada par de especialistas tuvo una participación principal en el apartado que le correspondía. Los momentos de discusión colectiva permitieron enriquecer las aportaciones de cada persona con la visión del resto, lo que llevó a un grado de consenso considerable, aunque no absoluto. En caso de creerlo necesario, en el informe final cada especialista expresa puntos de vista personales no necesariamente compartidos por el conjunto.

Felipe Martínez RizoAguascalientes, diciembre de 2014

Page 10: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo
Page 11: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

11

Introducción

Los dos informes anteriores del proyecto incluyeron sendos apartados en los que se precisa la noción de validación, confiabilidad y validez, y los criterios de evaluación que se utilizan en el análisis encomendado. En este tercer informe no consideramos necesario reiterar la presentación de dichas nociones, que se retomarán con algunas precisiones en el informe final del proyecto. Los criterios de evaluación utilizados se presentan a continuación en forma sintética, y pueden verse in extenso en el anexo 1.

En el primer informe, a partir de una revisión de la literatura especializada, se llegaba a la pro-puesta de 72 criterios particulares, sin contar tres criterios adicionales de carácter general, que serían la base para llevar a cabo el estudio. De esos criterios, 11 se referían a la alineación de las pruebas al currículo; 16 a aspectos psicométricos de las pruebas; 12 a la atención a la diversidad; 16 tenían que ver con las aplicaciones; y 17 se referían a usos y consecuencias de las pruebas. A lo largo del trabajo el listado de criterios definido inicialmente se modificó, con 59 criterios y 102 subcriterios. Con el ajuste final se llegó a un conjunto de 58 criterios y 97 subcriterios para las cinco áreas que cubrió el estudio, distribuidos como sigue:

Áreas Criterios Subcriterios

Alineación a los referentes 11 25

Aspectos psicométricos 8 33

Atención a la diversidad 12 —

Aplicaciones 16 39

Usos y consecuencias 11 —

TOTALES 58 97

Tabla 1 Criterios y subcriterios utilizados

La lista de los 58 criterios es la siguiente:

ALINEACIÓN A LOS REFERENTES

1. Se cuenta con un documento que revisa la teoría del contenido (curricular u otro) y es el marco teórico que orienta el desarrollo de la prueba.

2. Se presenta evidencia de la forma en que se definen las especificaciones de la prueba en términos de objetivos, competencias u otro referente.

3. Se explica el procedimiento usado para determinar la importancia relativa de los con-tenidos que se decidió evaluar, o se incluye un análisis de unidades del dominio y su densidad diferencial.

4. Se asegura la representatividad de los ítems y las subescalas respecto de los subdomi-nios y el dominio definidos.

Page 12: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

12

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

5. Se cuida la alineación en cuanto a la complejidad cognitiva del contenido.6. Existe un documento, manual o guía de redacción o diseño de reactivos en el que se

especifican y justifican los procedimientos para formularlos.7. Los reactivos son diseñados por un comité que se selecciona teniendo en cuenta la

especialización académica, laboral y su representatividad respecto de la diversidad del país, y está coordinado por una persona calificada.

8. Existe un manual o guía para el análisis de reactivos que señala los criterios de acepta-ción, revisión y modificación.

9. Hay un comité de revisión calificado para aplicar lo que define el manual.10. La revisión de ítems incluye análisis de calidad técnica, congruencia ítem-contenido,

posibles fuentes de sesgo y concordancia de juicio de revisores. 11. Se cuida la alineación de la prueba en general.

ASPECTOS PSICOMÉTRICOS

1. Se documentan las evidencias relativas a los diversos tipos de validez que usualmente se consideran en la medida en que éstos sean aplicables.

2. Se cuenta con análisis integrales de los procesos y métodos utilizados para desarrollar las pruebas, definiendo equivalencia y periodicidad.

3. Se documentan los procedimientos utilizados para la calibración de las pruebas y para el análisis psicométrico.

4. Se ofrece información sobre la confiabilidad de las pruebas.5. Se documentan los procedimientos para el análisis psicométrico de los ítems y para el

cuidado de su calidad.6. Se ofrecen evidencias sobre la calidad de los bancos de ítems.7. Se informa sobre los procedimientos seguidos para la calificación de los sujetos que

responden las pruebas.8. Se justifica lo relativo al establecimiento de los niveles de desempeño y la interpretación

de resultados de las pruebas.

ATENCIÓN A LA DIVERSIDAD

1. El marco conceptual de la prueba toma en cuenta cómo la efectividad en el aprendizaje, la enseñanza y la evaluación de un contenido están influidos por la experiencia socio-cultural del estudiante y su familiaridad con la lengua y el dialecto en que se administran las pruebas.

2. Como parte del desarrollo de la prueba se establecen las características de la población objetivo, que consideran la diversidad cultural y lingüística del país y los múltiples con-textos y escenarios culturales y ambientales.

3. Como parte del desarrollo se usan referentes teóricos y conceptuales sobre cultura y lengua y se establecen procedimientos para tomar en consideración la diversidad cultu-ral, lingüística y socioeconómica del estudiantado.

4. Los documentos que establecen tipos y formatos de los ítems proporcionan lineamientos para asegurar que la información gráfica y contextual incluida en los ítems sea familiar para la mayoría del estudiantado y reflejen una amplia variedad de contextos culturales.

5. Los equipos a cargo de desarrollar ítems son multidisciplinarios; además de expertos en contenido incluyen a profesionales con especialidades en el área de la cultura (antropó-

Page 13: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

13Introducción

logos, lingüistas) y maestros de minorías culturales y lingüísticas, así como de escuelas rurales y de nivel socioeconómico bajo.

6. Las muestras de estudiantes con las que se pilotean versiones preliminares de la prueba incluyen submuestras representativas de las minorías culturales, lingüísticas y socioeco-nómicas del país.

7. El desarrollo de la prueba incluye entrevistas cognitivo-culturales a alumnos de diversos grupos culturales, lingüísticos y socioeconómicos, para investigar si interpretan igual el contenido de muestras representativas de los ítems.

8. El proceso de revisión con jueces considera fuentes de sesgo cultural, lingüístico y so-cioeconómico en muestras representativas de los ítems.

9. Se hacen análisis de funcionamiento diferencial de una muestra de ítems para diversos grupos: estudiantes de distintos grupos indígenas, de nivel socioeconómico bajo y de zonas rurales.

10. Se hacen análisis con la Teoría de la Generalizabilidad para determinar la confiabilidad y validez de las generalizaciones de calificaciones obtenidas con el mismo conjunto de ítems para distintos grupos de estudiantes definidos por grupo étnico, localidad y nivel socioeconómico.

11. Los tiempos y calendarios de las actividades que buscan tomar en cuenta la diversidad cultural, lingüística y socioeconómica, son razonables y factibles.

12. El desarrollo de las pruebas incluye mecanismos de corrección y mejora con base en la información obtenida al realizar la validación cognitivo-cultural, la revisión, los análisis de sesgo y los estudios de generalizabilidad.

APLICACIONES

1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicación censal o como marco muestral.

2. Cuando procede, las muestras se establecen utilizando diseños sólidos; los estratos se definen con base en argumentos teóricos.

3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que se planificó.

4. Se verifica que la muestra obtenida concuerde con la planificada dentro de márgenes aceptables.

5. Se planifica todo lo necesario para estandarizar la aplicación, con formas y materiales que aseguren la comparabilidad de los datos.

6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la recolec-ción de datos, en todos los niveles de operación.

7. Se fijan límites de tiempo realistas para que la carga de responder pruebas y cuestiona-rios de contexto no sea excesiva para los sujetos.

8. Se busca motivar a sujetos para que no respondan preguntas a la ligera.9. Se desarrollan procedimientos para lidiar con la no respuesta o rechazo a responder

a la prueba y se entrena al personal de aplicación para ello.10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de fraude

y se entrena al personal de aplicación para seguirlos.11. Se manejan procedimientos para asegurar la calidad de las aplicaciones.12. Existen manuales que detallan aspectos a cuidar para crear archivos según normas in-

ternacionales: introducción de datos; identificadores de alumnos, maestros o escuelas;

Page 14: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

14

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

variables a incluir, códigos válidos, de datos faltantes o respuestas no aplicables; forma-to, estructura de archivos, limpieza, etcétera.

13. Se cuenta con personal calificado para manejar los datos y se le entrena en todos los aspectos del trabajo, asegurando que esté familiarizado con procedimientos aceptados y que comprende la importancia de recolectar y capturar la información con el cuidado necesario para que los análisis posteriores se hagan sobre información de la mejor cali-dad posible

14. Se llevan a cabo procedimientos para maximizar la calidad de las bases de datos que concentran los resultados de la aplicación.

15. Existen procedimientos para asegurar que la lectura de respuestas y todos los pasos del procesamiento y verificación de los datos son confiables

16. La coordinación del estudio es notificada de cualquier inconsistencia en los datos. Toda modificación que resulte de la resolución de inconsistencias deberá ser aprobada y do-cumentada.

USOS Y CONSECUENCIAS

1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalde los usos y consecuencias previstas y se evita sugerir otros que no tengan apoyo teórico o empírico suficiente.

2. Se documenta y evalúa el grado en que se producen las consecuencias previstas o de-seables de la prueba.

3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanis-mos de difusión y acceso para distintos usuarios sin discriminación.

4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la ade-cuada interpretación y utilización de los resultados.

5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que pue-de o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e información suficiente sobre la adecuada interpretación de los resultados.

6. Se utiliza un lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos técnicos en lenguaje claro y comprensible.

7. Se ofrece el marco normativo para evaluar el desempeño de los examinados. Se descri-be el perfil y características de la población de referencia.

8. Se da información para minimizar la posibilidad de interpretaciones incorrectas. Se se-ñalan limitaciones y errores comunes al comparar años, dominios, grupos o niveles de agregación. Se usan categorías precisas que no estigmaticen.

9. Se advierte sobre usos para los que no existe suficiente evidencia de validez. Si bien no pueden preverse todos los usos o interpretaciones inapropiadas, se busca identificar y acotar los más comunes.

10. Se documenta la existencia de usos o consecuencias imprevistas, ya sean adecuadas/positivas, o inadecuadas/negativas.

11. Cuando existe evidencia confiable de usos inapropiados, éstos se investigan en grado y de-talle adecuado. Si persisten se informa a los usuarios y se intenta tomar acciones correctivas.

La lista completa de criterios y subcriterios pude verse en el anexo 1.

En las siguientes páginas se presentan los análisis hechos por los pares de especialistas, aplican-do los criterios anteriores.

Page 15: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

15

1 Alineación a los referentes

En el apartado relativo al análisis de las pruebas ENLACE presentamos el modo en que trabajó el comité, así como los aspectos teórico-metodológicas que motivaban la consideración de cada criterio de evaluación utilizado. Por este motivo, si bien matizaremos aquellos aspectos que sean propios de la tipología de prueba analizada, remitimos al lector al apartado mencio-nado con el fin de no ser reiterativos. En esta sección nos centraremos en las valoraciones que podemos emitir a partir del análisis de la documentación aportada por el INEE respecto a las pruebas EXCALE.

CONSIDERACIONES PREVIAS

El análisis se ha llevado a cabo teniendo en cuenta los siguientes aspectos:

• Las pruebas muestrales son aquellas que se diseñan para informar acerca del sistema educativo a partir de una muestra representativa de sujetos, en contraposición con las denominadas censales que se aplican a toda la población. A diferencia de ENLACE, que evalúa a todos los sujetos de manera individual, éstas no proveen información particular lo suficientemente fiable como para imputar una calificación por alumno.

• Sin embargo, en su diseño se enfatiza la representatividad del Dominio Educativo (DE) a evaluar. Así, tienen por objeto establecer una valoración lo más exhaustiva posible acerca del D E o universo de medida evaluado. Por ello, es prioritario disponer de un banco de reactivos muy amplio que recorra toda la extensión del DE.

• De este modo, lo habitual es realizar el análisis del DE de manera muy pormenorizada y, para cada unidad de DE crear las tablas de especificaciones que guiarán el diseño de reactivos. No hay pues, una limitación en cuanto al número de ítems a diseñar. Por ello, es frecuente que cuando se elabora una prueba referida a una materia de un curso (un DE extenso) se disponga al concluir este proceso de un número elevado de reactivos.

• Es obvio que, si por ejemplo, disponemos de un banco de 350 reactivos que represen-tan bien todas las unidades del DE a evaluar, éstos no pueden aplicarse a cada una de las personas que componen la muestra. Sería inviable no sólo por la logística (tiempos excesivos de aplicación), sino también porque la realización de una prueba de estas características sería desmesuradamente laboriosa para el alumnado evaluado y el nú-mero de factores de invalidez se multiplicarían, partiendo del indudable cansancio, y la desmotivación progresiva.

• Por ello, la estrategia de elaboración de este tipo de pruebas (las que finalmente recibe cada sustentante) se basan en el Muestreo de Matrices. En esta estrategia, se elaboran bloques de reactivos de las dimensiones de las pruebas, y se componen cuadernillos equivalentes en dificultad, que están basados en normas de muestreo muy precisas de integración de los bloques de reactivos.

Page 16: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

16

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

• Las pruebas matriciales ofrecen una opción de desarrollo que influye de manera clara en la representatividad del dominio curricular que pretenden evaluar. Ello es así debido a que la lógica de su diseño implica que puedan ser pruebas de una longitud muy amplia, de manera que se cubra una muestra del dominio curricular más completa, particularmente cuando se les compara con pruebas muestrales o censales que están basadas en formas o versiones de la prueba.

• En las pruebas matriciales, la distribución de cuadernillos de prueba en un salón de clase o escuela implica que a partir de esta unidad de análisis (el aula/escuela) pueda establecerse una inferencia acerca del nivel de logro que el alumnado de un salón de clase o escuela tiene del DE.

• Si pretendiéramos con este tipo de pruebas evaluar a cada persona, las puntuaciones individuales implicarían un elevado nivel de error. Por este motivo se trabaja con diversas puntuaciones plausibles para la representación de los niveles de logro individual.

• En definitiva, las claves que deben considerarse respecto a este apartado se basan en la calidad del análisis que se realiza del DE a evaluar, los factores de validez que lo apoyan, su alineación y grado de representatividad respecto al currículo, la adecuación de la es-trategia de muestreo de matrices desarrollada para componer los cuadernillos de prueba, y su equivalencia.

• En este caso, para el análisis nos basaremos en las evidencias documentales, tanto las referidas a los marcos de referencia de las pruebas, los manuales técnicos de diseño y desarrollo de las mismas, así como los informes técnicos de los procesos llevados a cabo.

• Las pruebas EXCALE se han desarrollado desde 2004 y hasta el 2014. Aunque durante ese periodo se aprecia una evolución importante en sus procesos metodológicos, en este apartado no se busca valorar el desarrollo histórico de su diseño, sino comprobar el nivel de calidad que la prueba ha alcanzado en la actualidad.

ANÁLISIS DEL CURRÍCULO CUYO DOMINIO SE EVALÚA

1. Se cuenta con un documento que revisa la teoría del contenido curricular y es el mar-

co teórico que orienta el desarrollo de la prueba.

El documento incluye un análisis de las áreas del currículo que evaluará la prueba, que precise los subdominios y contenidos, así como competencias y niveles de demanda cognitiva que deberán cubrirse.

Las pruebas EXCALE, al igual que las ENLACE, se refieren al currículo mexicano. En este sentido, valgan aquí las consideraciones que realizamos respecto a ENLACE, en relación con la inesta-bilidad del currículo y las consecuencias indeseadas que ello tiene para disponer de pruebas totalmente representativas en un momento dado. De hecho, esta falta de estabilidad es un reto para cualquier prueba de referencia criterial que pretenda alinearse al currículo, por lo que se reconoce que ha constituido una situación desfavorable para los constructores de EXCALE.

Así, en el periodo 2004-2014, que cubre el lapso en que se han desarrollado las pruebas, el currí-culo nacional de la educación básica experimentó continuas transformaciones y en cada ocasión

Page 17: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

17Alineación a los referentes

ello impuso retos importantes al grupo de trabajo de la Dirección de Pruebas y Medición (DPM) INEE. Como se comentó para el caso de los desarrolladores de ENLACE, los autores de EXCALE fueron conscientes de dichas transformaciones y dieron cuenta de ellas en la documentación que entregaron; pero a diferencia de aquellos, no delegaron en los desarrolladores del currículo de la SEP el análisis de las dimensiones explícitas e implícitas que se evalúan en las asignaturas de español, matemáticas, ciencias naturales, ciencias sociales y formación cívica y ética, sino que llevaron a cabo un análisis curricular propio.

La documentación revisada da cuenta de varios productos derivados del análisis independiente que realizó la DPM, entre los que destacan dos:

a) El modelo de logro educativo que desarrolló, el cual propone como eje organizador al currículo, entendido en una acepción amplia que incluye no solo el que establece la SEP, sino también el que adaptan las autoridades educativas estatales y enriquecen las escue-las al imprimirle su sello particular, así como el que implementan en las aulas los profeso-res y el que aprenden los estudiantes; es decir el logro que se evalúa en las pruebas (Plan General de Evaluación, 2005: 13-14); y

b) Las retículas que diseñó para analizar y representar gráficamente los contenidos del currí-culo, a fin de detectar el contenido importante a evaluar en los EXCALE. Los especialistas de la DPM construyeron, para cada asignatura y materia evaluadas, ediciones diferentes de retículas en las que estructuraron los contenidos y otros elementos del currículo vi-gente, a medida que se daban los cambios curriculares antes mencionados. Por ejemplo, a partir del último cambio que introdujo la SEP para articular la educación básica del país (SEP, Acuerdo 592, 2011), surgieron elementos curriculares inéditos como estándares, aprendizajes esperados, ejes o ámbitos de formación, prácticas sociales de lenguaje y otros más que, junto con los contenidos propios de cada asignatura y materia, fueron relacionados entre sí y con otros para integrar las retículas.

Una característica fundamental de las pruebas EXCALE es que su desarrollo ha sido el resultado de un proceso de planeación a largo plazo. Así, la DPM del INEE siguió una estrategia evaluativa plasmada en sus planes maestros de desarrollo institucional del cuatrienio 2002-2006 y del pe-riodo 2007-2014 con sus etapas de 2007 a 2010, y de 2011 a 2014 (Plan Maestro de Desarrollo 2007-2014, 2006), y particularmente en su plan general de evaluación de aprendizaje (Plan General de Evaluación, 2005).

Es justamente en este último documento donde se establece el marco de referencia que orienta el desarrollo de las pruebas, y en el cual se adscribe a un desarrollo de instrumentos de gran escala, de referencia criterial alineados al currículo oficial y con un diseño matricial; se definen los dominios curriculares que evaluará y los dominios cognitivos que servirán de referencia para el desarrollo de las pruebas, así como los tipos de ítems que se elaborarán y la periodicidad de las evaluaciones.

Otro rasgo distintivo de las pruebas EXCALE es que su proceso de planeación, construcción y validación ha sido acompañado por un considerable número de expertos nacionales e inter-nacionales, quienes en el contexto de seminarios, talleres y otros eventos han participado con el personal del INEE responsable de las pruebas, a lo largo del proceso de desarrollo. Ello ha traído consigo además, la transferencia de tecnología psicométrica y evaluativa, así como la formación permanente del personal involucrado en el proceso, que lo ha hecho cada vez más independiente y competente.

Page 18: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

18

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

En consecuencia, la estrategia de desarrollo y administración de pruebas siempre ha estado dirigida por su Plan General de Evaluación del Aprendizaje, que incluye un cronograma que permite abordar los diseños de prueba con un orden alterno, de forma que los cambios curricu-lares pueden atenderse con mayor oportunidad y precisión que si se realizaran bajo el esquema de aplicación anual de cada materia/curso. Al respecto puede consultarse Backhoff et al., 2005: 19 (en http://publicaciones.inee.edu.mx/detallePub.action?clave=P1C117), así como los ma-nuales técnicos http://www.inee.edu.mx/index.php/bases-de-datos/bases-de-datos-excale/marcos-de-referencia/95-publicaciones/de-pruebas-y-medicion-capitulos/468-plan-general-de-evaluacion-del-aprendizaje-proyectos-nacionales-e-internacionales

La tabla 1.1 recoge la planeación del diseño y aplicación de las pruebas EXCALE.

Las pruebas EXCALE toman como punto de partida un marco metodológico que orienta todos los procesos de elaboración, así como los marcos de referencia específicos para cada prueba. Así, la previsión de los procesos a abordar se basa en un análisis detallado que se realiza desde la DPM del INEE, con apoyo del Consejo Técnico. En la misma publicación se reseñan todos los elementos metodológicos a tener en cuenta en el diseño de las pruebas EXCALE. Asimismo, se cuenta con un marco de referencia inicial acerca de los procesos de validación que deberán con-siderarse (realizado en 2005 por Ruiz-Primo, Jornet y Backhoff, y publicado en 2006 en: http://publicaciones.inee.edu.mx/detallePub.action?clave=P1C120

De igual modo, para cada prueba (materia/nivel) existe documentación en donde se recoge el marco de referencia así como las evidencias empíricas en que se ha apoyado su desarrollo, tal como puede observarse en http://www.inee.edu.mx/index.php/proyectos/excale/excale-documentos-tecnicos

Tabla 1.1 Programa de Evaluación del Aprendizaje del INEE

Años escolares

Grados 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016

3° de preescolar E, M E, M E, M

3° de primariaE, MN, S

E, MN, S

E, MN, S

6° de primaria E, M E, ME, MN, S

E, ME, MN, S

E, M

3° de secundaria E, ME, MN, S

E, ME, MN, S

E, ME, MN, S

3° de bachillerato

E, ME, MN, S

Evaluaciones especiales

PEMPECL

E = EXCALE-Español; M = EXCALE-Matemáticas; N = EXCALE-Ciencias Naturales; S = EXCALE-Ciencias Sociales; PEM= Pruebas de Estándares Nacionales de Matemáticas; PECL = Pruebas de Estándares Nacionales de Comprensión Lectora.Fuente: Backhoff et al., 2005, pág. 20.

Page 19: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

19Alineación a los referentes

Sin pretender ser reiterativos, y para seguir el mismo proceso de análisis que seguimos en este Informe respecto a las pruebas ENLACE, nos referiremos ahora al segundo elemento clave para valorar el modo en que se ha asegurado, por parte de los diseñadores de EXCALE, que la prue-ba representa adecuadamente los subdominios curriculares y los niveles de demanda cognitiva que representan para el alumnado, el cual se encuentra en la metodología que se ha utilizado. Tomamos las mismas referencias metodológicas que mencionamos en el caso de ENLACE, las cuales se identifican en la literatura y se postulan como requerimientos metodológicos para este cometido bajo el ámbito del desarrollo de pruebas referidas a un criterio (Hambleton, 1994; Nitko, 1995; Li & Sireci, 2005; Cizek, 2007; Sireci, 2009).

Revisadas todas las evidencias accesibles a través de la página del INEE, así como la documen-tación interna aportada al respecto, podemos indicar que:

• Los manuales técnicos de EXCALE se ajustan a un proceso riguroso de carácter metodoló-gico, en el que se establecen y realizan las etapas de diseño que la literatura especializada menciona como necesarias en el diseño de pruebas para asegurar la validez (ver más adelante la tabla 1.2, en la que únicamente se seleccionan las etapas que se refieren a la validación que es objeto de este apartado del informe).

• Los análisis reticulares realizados permiten establecer las relaciones entre las unidades del currículo y los diferentes niveles de demanda cognitiva que deben plantearse en el diseño de tablas de especificaciones y reactivos en cada materia/nivel (ver figura 1.1).

• Por otra parte, hay que señalar que se observa una elevada unicidad en los procesos me-todológicos, tanto en el diseño de pruebas referidas a una materia en diferentes niveles, como entre pruebas. No obstante, en los marcos metodológicos específicos se advierte el modo en que se atienden las especificidades de cada una de las materias/nivel. Se explici-tan los resultados de análisis reticulares, tablas de especificaciones, etcétera.

• Respecto a los comités de análisis del Dominio Curricular, que deberían actuar de modo independiente y sucesivo, que mencionamos como estrategia fundamental para la va-lidación de este tipo de pruebas, puede observarse que se aporta la documentación necesaria para comprobar que este modo de actuación se ha seguido en el desarrollo de todas las pruebas desarrolladas.

En síntesis, la situación descrita se ajusta a las prácticas de análisis curricular y detección y es-tructuración del contenido importante a evaluar en una prueba de estas características. Por ello consideramos que el procedimiento seguido para el diseño de los EXCALE permite asegurar la representatividad del contenido a evaluar.

Page 20: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

20

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Fases EtapasParticipantes

externosProcedimientos Productos

I.Planeación general1

1. Diseño del Plan General de Evaluación

• Consejo Técnico• Asesores

en medición y validación

1. Documentación2. Seminarios3. Trabajo colegiado4. Trabajos

por encargo

1. Plan General de Evaluación del Aprendizaje (con el Marco de Referencia de los EXCALE)

2. Manual General de Procedimientos3. Manual Técnico para el Diseño Matricial4. Manual Técnico para el Escalamiento de

Puntuaciones y Niveles de Competencias5. Marco Teórico de Validación

de los EXCALE

2. Diseño y elaboración de cuestionarios de contexto

• Especialistas en diseño de cuestionarios

• Especialistas en evaluación del aprendizaje

6. Marco de Referencia de los Cuestionarios de Contexto

7. Cuestionarios de Contexto del alumno, docente y director

3. Diseño y desarrollo del sistema informático

• Especialistas en bases de datos y sistemas de información

8. Sistema de bases de datos de reactivos9. Documento que describe la estructura

y funcionamiento de la base de datos2

II.Estructuración de los EXCALE

4. Diseño de las pruebas

• Comités Académicos (uno por prueba)

1. Documentación2. Capacitación3. Preparación

de materiales4. Trabajo colegiado

10. Manual Técnico para el Diseño de las pruebas nacionales

11. Retícula curricular de cada prueba12. Tabla de Contenidos de cada prueba

5. Especificación de reactivos

• Comités Elaboradores de Especificaciones de Reactivos (uno por prueba)

13. Manual Técnico para la Elaboración de Especificaciones

14. Especificaciones de reactivos de cada prueba

15. Dos revisiones por especificación de reactivos

III. Construcción de reactivos de los EXCALE

6. Elaboración de reactivos

• Comités Constructores de Reactivos (uno por prueba)

1. Documentación2. Capacitación3. Trabajo individual

y colegiado

16. Manual Técnico para la Construcción de Reactivos

17. Tres reactivos por especificación18. Dos revisiones por reactivo construido

7. Validación de reactivos

• Comités de Validación y Sesgo (uno por prueba)

19. Manual Técnico para la Validación de Reactivos

20. Dos reportes de validación por cada reactivo

8. Piloteo de reactivos y cuestionarios de contexto

• Algunas Coordinaciones Estatales de Evaluación

1. Muestreo para el piloteo

2. Pre-edición de reactivos e impresión de cuadernillos

3. Capacitación

21. Manual Técnico para el Piloteo de Reactivos

22. Muestra poblacional23. Manual Técnico para la Edición

de Reactivos24. Cuadernillos de prueba y Cuestionarios

de Contexto impresos25. Base de datos con resultados

de pilotaje

IV.Conformación de los EXCALE

9. Selección de reactivos e integración de bloques y formas

• Asesores en medición

1. Documentación2. Análisis

de reactivos

26. Manual Técnico para el Análisis Psicométrico de Reactivos

27. Informe de Estimadores Estadísticos de Reactivos.

28. Bloques de reactivos29. Estructura de formas

(combinación de bloques)

10. Edición, armado e impresión

• Imprenta contratada 1. Edición de cuadernillos y cuestionarios de contexto

30. Manual Técnico para la Edición de Reactivos y Cuadernillos

31. Cuestionarios de Contexto impresos32. Cuadernillos de los EXCALE impresos

Tabla 1.2 Proceso general de diseño, construcción y validación de los EXCALE.

1 Fase general para la nueva generación de los EXCALE.2 A partir de la cuarta etapa, el sistema informático se irá alimentando con la información que se produzca a lo largo de todo el proceso.

Fuente: Backhoff et al., 2006, págs. 5-6.

Page 21: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

21Alineación a los referentes

72

ANEXOS Anexo I. Análisis reticular

Figura 1.1 Ejemplo de análisis reticular para diseñar la evaluación (Español 6º Primaria).

Fuente: Anexo B_Diseño de las pruebas. 6_Retículas. Proporcionado por el INEE.

Page 22: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

22

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

ALINEACIÓN DE LA PRUEBA CON EL CURRÍCULO

Como señalamos en el apartado referido al análisis de las pruebas ENLACE:

Otro factor imprescindible que permite trabajar en favor de la consecución de la validez de contenido es el análisis del dominio educativo, tanto en su estructura (subdominios que lo integran), como en relación con las especificaciones de contenido que permiten orientar el diseño de reactivos. Esta estrategia es habitual en pruebas referidas al currículo. Debe incluir, por tanto, dos tipos de información: estructural de la prueba, y especificaciones de unidades del dominio. Eso permite obtener una visión precisa del universo de medida, a partir del cual, posteriormente, se podrá orientar el muestreo de contenidos (Jornet y Suárez, 1989). Orienta pues, las dimensiones o subdimensiones implicadas (un diseño curricular no necesariamente es unidimensional, y poderse representar en una prueba), la densidad diferencial del dominio (cantidad y relevancia de elementos observables…).

En el diseño de EXCALE se dio este modo de trabajo. Se muestran evidencias en:

http://www.inee.edu.mx/index.php/bases-de-datos/bases-de-datos-excale/marcos-de-referencia/95-publicaciones/de-pruebas-y-medicion-capitulos/470-manual-tecnico-diseno-de-examenes-de-la-calidad-y-el-logro-educativos-excale

http://www.inee.edu.mx/index.php/bases-de-datos/bases-de-datos-excale/marcos-de-referencia/95-publicaciones/de-pruebas-y-medicion-capitulos/471-manual-tecnico-especificaciones-de-reactivos

En la documentación existente se aprecia un elevado grado de coherencia con los procesos previstos y desarrollados, de acuerdo con las prácticas metodológicas recomendadas para el diseño de este tipo de pruebas. En la figura 1.1 del apartado anterior, presentamos un ejemplo de análisis reticular destinado a identificar la estructura del DE, proceso que constituye el ori-gen de cada prueba, tal como hemos comprobado en la documentación aportada por el INEE. Puede observarse que en cada prueba se trabaja con un comité que realiza el análisis reticular, tomando como referencia los textos normativos del currículo oficial, así como libros de texto.

Respecto a otras consideraciones metodológicas a tener en cuenta para valorar este criterio, valgan aquí las expuestas en el apartado equivalente de ENLACE. Las pruebas EXCALE presentan evidencias acerca de que todo el proceso de definición del contenido a evaluar se ha ajustado a los requisitos metodológicos necesarios para asegurar la validez. Así, se trabajó con comités de juicio que valoraron si la estructura de la prueba representaba la del DE; dichos comités estaban compuestos por especialistas que contaban con el perfil apropiado, y se ajustaron a valorar

2. Se presentan evidencias de la forma en que se definieron las especificaciones de la

prueba en términos de objetivos, competencias u otro referente curricular.

tt Se presenta la estructura del dominio curricular completo —de donde se muestrea el conteni-do de la prueba— así como la estructura del dominio curricular evaluado.

Page 23: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

23Alineación a los referentes

cada prueba en cuanto a un protocolo de actuación previamente definido y homogéneo en el conjunto de las pruebas. También hay que destacar que las pruebas miden el contenido curri-cular completo, si bien la medida se basa, tal como indicamos anteriormente, en el muestreo de matrices.

3. Se explica el procedimiento usado para determinar la importancia relativa de conte-

nidos cuyo dominio se decidió evaluar, o se incluye un análisis de las unidades del

dominio curricular y su densidad diferencial.

Como señalamos en el informe anterior respecto a las pruebas ENLACE:

La composición de cualquier prueba referida a un diseño curricular se debe apoyar en cri-terios de selección de los contenidos, que reflejen la importancia diferencial de los mismos, como expresión de la relevancia de los aprendizajes logrados. Este aspecto, que común-mente se identifica en la literatura como densidad diferencial del dominio curricular es difícil de llevar a la práctica. De hecho, aunque se ha formulado como concepto desde hace años (Jornet y Suárez, 1989a), bien es cierto que existen pocas aproximaciones metodoló-gicas que lo resuelvan de manera satisfactoria.

Generalmente, se basan en valoraciones que realizan comités de especialistas que indican el peso diferencial que cada área del dominio curricular debería tener en la prueba, y ello sirve para seleccionar la cantidad de reactivos que se utilizan al respecto. Recientemente se han propuesto alternativas de indicadores de síntesis (Viveros, Contreras & Caso, 2013) que permiten acercarse a una valoración de estas características, y orientar de una manera más eficiente la estructuración de la prueba en relación al universo de medida.

Así, la determinación de la importancia relativa de los contenidos curriculares es un proce-dimiento crucial para definir el dominio a evaluar en una prueba. Diversos autores (Sireci, 2009; Cizek, 2007; Pope, citado por Cizek, 2007; Li & Sireci, 2005; Haynes, Richard & Kubany, 1995; Nitko, 1994; Guion, 1977) enfatizan la necesidad de identificar blancos cu-rriculares de primer orden, dada la imposibilidad de evaluar en una sola ocasión (examen) el dominio de todo lo que se debió haber aprendido (currículo), ni siquiera todo lo que es relevante. De ahí la importancia de seleccionar una muestra de contenido que represente el dominio curricular, especialmente lo que es más significativo en él, desde el punto de vista de la formación pretendida. Los autores destacan también la necesidad de que un co-mité independiente de especialistas, con un perfil similar a los que se mencionaron antes, convalide las decisiones que adoptaron quienes decidieron lo que es importante evaluar; y que para ello examinen los criterios y procedimientos que siguieron para arribar a tales conclusiones.

Hay varios procedimientos, materiales y características de las pruebas EXCALE que permiten obser-var la manera en que se determinó la importancia relativa de los contenidos a evaluar. A conti-nuación se comentan los principales:

• Por una parte, a diferencia de las pruebas como ENLACE donde este asunto es muy relevante pues están basadas en versiones de un test con un número necesariamente re-ducido de ítems, en las pruebas matriciales como EXCALE este aspecto tiene un impacto

Page 24: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

24

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

menos severo, pues su desarrollo permite contar con pruebas de una longitud muy am-plia, que garantizan una mejor representatividad del dominio curricular que pretenden evaluar. Esta característica determina también que pueda cubrirse una amplia gama de contenidos que comprenden diferentes grados de importancia relativa.

• Por otra parte, en las casi 40 retículas que pudimos revisar de todas las materias de las asignaturas evaluadas en cada nivel educativo, y en otros documentos relacionados, se identifica una taxonomía que clasifica aquellos contenidos que se consideraron como: a) esenciales, b) muy importantes o c) importantes, en función de criterios como el número y tipo de servicios que se dan entre sí los contenidos, entre otros criterios de clasificación que se mencionan (por ejemplo, se habla de contenidos fuente de servi-cios, contenidos de enlace o contenidos de carácter sintético). Además, en las retículas se identifican con claridad aquellos que no son evaluables, independientemente de su importancia relativa en el contexto del currículo, por referirse a competencias cuya evaluación requiere de ítems de ejecución u otros diferentes de los de opción múltiple utilizados en general en las pruebas EXCALE. Una vez hecha esta definición, ya no apa-recen en las tablas de contenidos cuyo dominio se evalúa en cada prueba.

• Finalmente, en los manuales técnicos, marcos de referencia y documentos internos de EXCALE, hay claras evidencias que muestran que estos aspectos quedan satisfechos en su totalidad, por lo que entendemos que se trata de una fortaleza de las pruebas. Para ilustrar este punto obsérvense la tabla 1.2 y la figura 1.2 que aparece enseguida. En las tres primeras fases que corresponden al diseño y construcción de los EXCALE puede verse que en las etapas 1, 4, 5, 6 y 7 el personal de la DPM, los cuerpos colegiados del INEE y los diferentes comités externos de especialistas, diseñan, desarrollan o validan tanto las pruebas como las especificaciones de ítems y los propios reactivos. Además, los comités de especialistas son capacitados específicamente para llevar a cabo las funciones técni-cas que les corresponde y para ello se emplean manuales diseñados ex profeso. Para más detalles sobre este punto, véanse por ejemplo los documentos: “4 Manual técnico para el diseño de las pruebas”, “8 Manual técnico para el desarrollo de especificaciones de reactivos”, “Manual Técnico Validación Items”.

• Se justifican técnicamente ajustes a la ponderación de ítems y subescalas.

No se dispone de esta información desde el punto de vista técnico; las escalas y subes-calas quedan como producto del software de calificación pero no se reportan. Las pon-deraciones son definidas en forma apriorística por consideraciones de los especialistas en las reuniones de comités de validación, lo cual implica que, de acuerdo con el modelo utilizado para la asignación de los puntos de corte, siempre se obtiene el consenso total de los especialistas, por lo que no se dispone del número de casos, ni las frecuencias de dichos acuerdos al definir las ponderaciones.

No hay estudios experimentales para realizar ajustes o demostrar la pertinencia de los valores propuestos por los especialistas. Por ejemplo, se podría realizar análisis factorial o ecuaciones estructurales para disponer de un análisis factorial confirmatorio u otro tipo de estudio. Los análisis con estas técnicas se han realizado en otro tipo de trabajos para proyectos del INEE diferentes a EXCALE.

Page 25: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

25Alineación a los referentes

• Se justifica metodológicamente el tamaño de la prueba y sus partes (número de reacti-vos), cumpliendo la ponderación indicada en las tablas de especificaciones. Si se maneja una justificación administrativa esta debe definirse claramente.

El tamaño de la prueba se justifica metodológicamente con base en dos dimensiones. La pri-mera es la de los contenidos a cubrir en la evaluación; su tamaño se justifica con base en los análisis de contenidos y curriculares que se llevaron a cabo a fin de seleccionar los tópicos de la prueba y desarrollar los reactivos que la conformarán. La segunda dimensión se relaciona con la cantidad de preguntas o reactivos que son aplicados a cada uno de los individuos. En particular, dado que la cantidad de preguntas necesarias para cubrir los contenidos de la prueba son muchos más de los que pueden ser aplicados dentro del esquema del horario escolar, y ser respondidos por los estudiantes sin elevar los niveles de fatiga o bajar el nivel de interés, se optó por utilizar un diseño matricial por medio del cual se dividieron las preguntas en varios bloques, y cada estudiante respondió a solo un par de de ellos. El diseño matricial fue elaborado de manera que cada cuadernillo de preguntas sea distinto de otros aunque con preguntas compartidas, lo que permite reportar los resultados en una métrica común utilizando procedimientos basados en la Teoría de Respuesta al Item (TRI), en particular con el modelo de Rasch. No se presenta un estudio específico sobre fatiga de los estu-diantes que se relacione directamente con el tamaño de la prueba.

11

DISEÑO Y CONSTRUCCIÓN COLEGIADA DE LOS EXÁMENES PARA LA CALIDAD Y EL LOGRO EDUCATIVOS

Como se muestra en la figura 1, el proceso de desarrollo de los Excale consta de siete fases y 16 etapas básicas.

Figura 1. Proceso de desarrollo de los Excale

Figura 1.2 Sección del proceso de diseño, construcción, aplicación y validación de los EXCALE.

Fuente: Manual técnico para el diseño de las pruebas, pág. 11.

Page 26: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

26

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Tal como en el caso de ENLACE, el análisis de reactivos se orienta desde dos perspectivas: lógica y empírica. La revisión lógica la llevan a cabo comités de jueces especialistas en contenido, cu-rrículo, cognición y docentes frente a grupo, entre otros, quienes deben valorar características del ítem tales como su representatividad respecto del contenido a evaluar, su calidad técnica (independencia de errores sistemáticos), su independencia de sesgo, etcétera. Por ello dicha revisión afecta de manera directa la validez de contenido de la prueba. Por su parte, la revisión empírica busca informar si los ítems se comportan de acuerdo con la estructuración dimensional teórica que orientó el desarrollo de la prueba. Se solapa, en parte, con el análisis que deviene de los ensayos piloto y la aplicación a gran escala.

A este respecto, y centrándonos en la revisión lógica, hay que señalar lo siguiente:

• Tanto el diseño como la validación de reactivos lo realizan docentes en servicio, selec-cionados según la modalidad educativa, e intentando representar la diversidad socio-cultural y económica del país.

• Se especifica la metodología de jueceo que siguieron los comités de revisión lógica.• La estrategia de diseño de la prueba, desde el análisis reticular, la especificación de tablas

de contenidos y especificaciones de ítems, yel diseño de reactivos aporta garantías sufi-cientes respecto a la representatividad de las subescalas o subdominios de la prueba en relación al DE. Se incluyen informaciones específicas en cuanto al número de ítems que se destinan a la evaluación de cada subdominio y el nivel de demanda cognitiva asignado.

No obstante, como se observó en el segundo subcriterio del criterio anterior, la representati-vidad de ítems y escalas respecto a los subdominios y el dominio curricular completo —cuya valoración se basó en operaciones de juicios—, pudo haberse complementado con estudios empíricos y estadísticos como el análisis factorial confirmatorio o el modelamiento de ecuacio-nes estructurales, a fin de observar la pertinencia de la estructura de contenidos propuesta por los especialistas.

4. Se asegura la representatividad de los ítems y las subescalas respecto a los subdo-

minios y al dominio curricular definidos.

tt Para especificar el dominio a evaluar se presenta un análisis lógico y empírico de la represen-tación de ítems y subescalas respecto a los subdominios evaluados y al dominio curricular completo.

5. Se cuida la alineación en lo relativo a la complejidad cognitiva del contenido.

tt Se utilizan taxonomías u otros sistemas de clasificación de la demanda cognitiva de los ítems, en relación con lo establecido en el currículo.

tt Se refiere el uso de protocolos verbales con examinados para verificar que la complejidad cognitiva real corresponda a la esperada.

tt Para especificar el dominio a evaluar se presenta un análisis lógico y empírico de la represen-tación de ítems y subescalas respecto a los subdominios evaluados y al dominio curricular completo.

Page 27: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

27Alineación a los referentes

En las pruebas de logro académico es fundamental el uso de un modelo taxonómico o sistema de clasificación que facilite establecer el grado de demanda cognitiva que supone para el alum-nado cada reactivo.

Para el desarrollo de las pruebas EXCALE, el INEE declara en principio que:

Es muy difícil establecer una taxonomía única para todas las disciplinas, por lo que corres-ponderá a los grupos de especialistas adaptar o establecer un esquema propio de clasifi-cación para asegurar que los ítems se construyan en forma equilibrada. Dichos esquemas deberán contar, al menos, con dos ejes para poder especificar las competencias escolares a evaluar: 1) el de los propios contenidos de la disciplina y 2) el de las habilidades cogniti-vas sobre las que operan los contenidos. (Documento: 1. Plan General de Evaluación del Aprendizaje: 23).

En consecuencia, en varios documentos se comenta el uso de diferentes sistemas para clasificar distintos niveles de complejidad cognitiva a los que deben apelar los ítems que se especifican y desarrollan.

Por ejemplo, en el documento “8 Manual técnico para el desarrollo de especificaciones de re-activos” se considera la posibilidad de emplear taxonomías como la de Bloom y la de Gagne (p. 20, y p.p. 35-37), y en el documento antes mencionado se aclara que “sólo con el propósito de ilustrar una clasificación utilizada para la evaluación de las ciencias naturales, nos referiremos a la propuesta por Solano-Flores (2004), en la cual se hace una relación entre los tipos de cono-cimientos y los requerimientos cognoscitivos” (Documento: 1. Plan General de Evaluación del Aprendizaje: 23). (Ver tabla 1.3)

Tabla 1.3 Relación entre tipos de conocimientos y requerimientos cognoscitivos, según Solano-Flores (2004)

Conocimiento declarativo

(qué)

Conocimiento procedimental

(cómo)

Conocimiento esquemático

(por qué)

Conocimiento estratégico (cómo, cuándo, dónde

y por qué)

Demandas en las tareas

Definir, comparar, ejemplificar, describir, proveer términos.

Aplicar procedimientos o algoritmos (p.ej., colectar información o resultados)

Explicar, dar razones, justificar, predecir, hipotetizar, formar patrones.

Identificar y representar problemas, formular preguntas, aplicar conocimientos en un nuevo contexto, transferir.

Requerimiento cognoscitivo

Recuperar/recordar información, hechos, vocabulario, términos, símbolos, oraciones

Ejecutar procedimientos, secuencias, acciones más o menos rutinarias, operaciones mecánicas.

Razonar e interpretar usando modelos mentales, principios o teorías

Usar el conocimiento (seleccionar estrategias) de una nueva manera (creativa) para identificar un problema o producir una solución.

Apertura y complejidad

• Tareas muy estructuradas-tareas poco estructuradas• Inclusión de información relevante e irrelevante• Descripciones largas, demandas de lectura diferentes• Respuestas involucradas que contradicen creencias de la vida diaria

Fuente: Plan General de Evaluación del Aprendizaje, pág. 23.

Page 28: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

28

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Por otra parte, en los Marcos de Referencia de las pruebas EXCALE, en las distintas materias y niveles, así como en el documento “Manual técnico para la construcción de reactivos” (Pág. 9) y en el documento “Manual técnico para la validación de ítems” (Pág. 8), se presenta un sistema taxonómico simple que orienta a los diseñadores de reactivos (ver tabla 1.4).

Tabla 1.4 Relación entre contenidos y estrategias cognoscitivas

ContenidosEstrategias cognoscitivas

TotalConocimiento Comprensión Aplicación Análisis

Números decimales 3 5 3 3 14

Regla de tres 4 2 3 2 11

Área de rectángulo 2 3 3 2 10

Decimales y fracciones 3 3 3 1 10

Total 12 13 12 8 45

Fuente: Manual técnico para la validación de ítems, pág. 8.

En cuanto al uso de protocolos verbales con examinados, no se encontraron referencias en la documentación revisada de que se hayan llevado a cabo.

ESPECIFICACIÓN, GENERACIÓN Y ESCRITURA DE ÍTEMS

6. Existe un documento manual o guía de redacción o diseño de reactivos en el que se

especifican y justifican los procedimientos para formularlos.

Este objetivo se cumple si existen evidencias de que se ha estructurado el procedimiento de escritura de ítems. Así, debe atenderse que los reactivos:

a) representan el contenido a evaluar, y b) se adaptan al nivel de desempeño que se espera pueda darse en la enseñanza, como

expresión de las oportunidades de aprendizaje que se brindan a los alumnos.

Ello implica que existan manuales de referencia, hechos expresamente para el tipo de pruebas a desarrollar y que se realice una capacitación adecuada para los diseñadores de especificaciones de ítems y los escritores de reactivos.

Para analizar el grado de cumplimiento de este criterio, como para el caso de las pruebas ENLACE, hemos tenido en cuenta los aspectos que se comentan a continuación.

tt El manual describe y da ejemplos de todos los tipos de reactivos que tendrá la prueba, indi-cando cómo clasificarlos y justificarlos y haciendo referencia a la relevancia de las respuestas de los examinados para el dominio pretendido.

Page 29: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

29Alineación a los referentes

Diversos documentos explicitan el modo de diseño y corrección de reactivos de las pruebas EXCALE; destacan:

• 4 Manual técnico para el diseño de las pruebas• 8 Manual técnico para el desarrollo de especificaciones de reactivos• Manual Técnico Validación Items• 13 Manual técnico para la construcción de reactivos• 17 Manual técnico de validación de reactivos

En estos documentos se describen y proporcionan ejemplos de todos los tipos de reactivos que tendrá cada tipo de prueba EXCALE y se justifican al hacer referencia a la relevancia de las res-puestas de los examinados para el dominio pretendido. Al respecto, en el “Manual técnico de validación de reactivos” se hacen las siguientes declaraciones (págs. 11-12):

… Para los EXCALE de primaria, secundaria y bachillerato, los reactivos serán siempre es-critos y requerirán respuesta escrita, ya sea de opción múltiple o de respuesta construida. El formato de los reactivos de los EXCALE de preescolar se ajustará a las necesidades de la edad, tipo de competencia y grado evaluados… Los reactivos más comunes son los de op-ción múltiple, ya que pueden ser utilizados en distintos contextos y con diversos propósitos. Sirven para evaluar conocimiento factual (puramente memorístico), habilidades intelec-tuales de alto orden o disposiciones actitudinales y valorativas. Si son bien utilizados, con este tipo de preguntas se pueden medir una gran cantidad de atributos sofisticados de los estudiantes. Por lo anterior, son los reactivos más utilizados en los EXCALE… Las preguntas de respuesta construida son aquellas que solicitan al alumno “producir” libremente sus respuestas. Hay situaciones educativas donde es imperativo utilizar este tipo de preguntas, por ejemplo cuando se requiere evaluar la habilidad de escribir ensayos, cartas personales, composiciones, etc. Sin lugar a dudas, los reactivos de respuesta construida representan la única posibilidad razonable para evaluar la habilidad de escribir, así como otras compe-tencias escolares, como la originalidad, las operaciones intelectuales complejas, la solución de ciertos tipos de problemas, etcétera… los reactivos diseñados para evaluar las compe-tencias de los estudiantes de preescolar no utilizan preguntas en formato escrito, dado que muchos de los escolares aún no tienen desarrolladas por completo las habilidades de lecto-escritura… se utilizan consignas (instrucciones verbales por parte del evaluador) a las cuales debe responder el escolar. Éstas pueden tomar la forma de preguntas, instrucciones o enunciados, según se requiera; y pueden estar acompañadas de ilustraciones u otro material pertinente…

Como puede observarse, hay evidencia suficiente de que se dan pautas a los diseñadores de especificaciones de ítems y por ende a los elaboradores de reactivos tanto para para elaborar-los, justificarlos y clasificarlos, como respecto al modo en que se evidencie la relevancia de las respuestas de los examinados.

tt El manual usa tablas o modelos de especificaciones precisas como guía para homogeneizar el diseño de los tipos de ítems: formato o documento donde los diseñadores de reactivos hagan la captura y la modificación.

Tanto en el Marco de referencia, como en los manuales técnicos e informes disponibles, las ta-blas de contenido y las especificaciones de ítems están claramente definidas, de manera que se homogeneiza todo el proceso de determinación de las unidades a evaluar. De hecho, podemos

Page 30: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

30

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

afirmar que el modelo para especificar los ítems de EXCALE es bastante detallado (por ejemplo dos de las especificaciones que revisamos tienen cinco y nueve páginas respectivamente, para especificar un solo ítem) e incluye procedimientos y formatos particulares para contextualizar el contenido cuyo dominio se evalúa; la revisión de los documentos que justifican su selección para formar parte del examen (entre ellos la tabla de contenidos de la que forma parte); el análisis del contenido para determinar la estrategia evaluativa apropiada, ya sea que se trate del dominio de un concepto o de un procedimiento; así como el desarrollo propiamente de la especificación. Este último incluye secciones específicas para consignar la identificación del con-tenido a evaluar; para describir el contenido curricular que se evalúa; la plantilla para especificar el ítem; un ítem muestra que ilustre la correcta aplicación de la especificación; y la bibliografía consultada para apoyar el rigor conceptual y disciplinario, así como el apego al currículo oficial.En la figura 1.3 que se muestra a continuación, se ilustran algunos de estos componentes o secciones de ellos, que aparecen en el documento denominado “8_Manual técnico para el desarrollo de especificaciones de reactivos” (Págs. 18 a 25), y que dejan ver también parte de la estructura del formato para elaborar las especificaciones de ítems de las pruebas.

Figura 1.3 Muestras de elementos de la especificación de ítems de EXCALE

18

Ejemplo 2.

Identificación del contenido a evaluar (Matemáticas 6° grado, Educación Primaria)

a. Eje temático: Los números, sus relaciones y sus operaciones

b. Tema:Números decimales

c. Contenido:Resolución de problemas con números decimales. d. Especificación general como aparece en la tabla de contenidos: Resolución de problemas de suma y resta con números decimales (hasta milésimos) en diversos contextos.

3.2 Descripción del contenido curricular a evaluar

Según el diseño que le es propio a un Excale en particular y a la naturaleza del contenido a evaluar, esta sección, en general, incluye los siguientes aspectos:

a. Interpretación del sentido del contenido que se deberá evaluar. Este rubro contempla una descripción detallada de lo que se pretende que los estudiantes sepan hacer a partir del estudio de este contenido.3 Dentro de este mismo apartado, podrá incluirse un breve resumen de los resultados de la revisión teórica de este contenido en particular, a partir de preguntas como las siguientes: • ¿Qué significado tiene el contenido dentro de la disciplina y desde el enfoque curricular? • ¿Qué dificultades implica el aprendizaje o la evaluación de este contenido? • ¿Qué dificultades manifiestan los estudiantes en el estudio de este contenido? • ¿Cuáles son las principales concepciones erróneas o errores más comunes de que se tiene registro

en el estudio de este contenido? b. Importancia del contenido en el contexto del currículo. En este apartado se deberá hacer explícito el

papel que juega el contenido para alcanzar las metas curriculares de la asignatura a evaluar.

Dicho de otra manera, en función del contenido a evaluar, este apartado responde a la pregunta o preguntas que describen y clarifican su importancia curricular: • Desde el punto de vista de la enseñanza y aprendizaje, ¿qué referencias hay del contenido a

evaluar dentro de los materiales proporcionados por la SEP?, ¿cuáles son las estrategias curriculares plasmadas en los libros de texto y demás materiales educativos para la adquisición de este conocimiento?, ¿qué aporta el estudio de este contenido en la evolución del conocimiento de la disciplina?

• ¿Cómo se retoma este contenido en los libros de texto? ¿con qué grado de complejidad se trabaja este contenido?

• Desde el punto de vista pedagógico, ¿qué papel juega el estudio de este contenido en el currículo del grado o nivel educativo?

• Desde el punto de vista del desarrollo de habilidades o competencias para la vida, ¿qué aporta el estudio de este contenido en la formación de los educandos?

c. Delimitación de contenido a evaluar. Este rubro consiste en la identificación clara del dominio o área de

contenido que se desea medir y se hace una acotación precisa del contenido a evaluar, va de lo amplio a lo específico.

3 Para el caso de Español dicha descripción también deberá contemplar la estrategia o habilidad lectora, o de reflexión sobre la lengua, que será evaluada a partir de dicho contenido.

MANUAL TÉCNICO ESPECIFICACIONES DE REACTIVOS

21

Ejemplo 2.

Descripción del contenido curricular a evaluar (Matemáticas 6º grado, Educación Primaria)

a. Interpretación del sentido del contenido que se deberá evaluar:

Es importante que en la resolución de problemas el alumno determine cómo están relacionados los datos que se proporcionan

y la operación que permite resolver el problema (en este caso, suma y resta), así como interpretar el resultado.

b. Importancia del contenido en el contexto del currículo:

La resolución de problemas de suma y resta con decimales es útil en la vida cotidiana y en aplicaciones de otras asignaturas;

por ejemplo, en contextos de proporcionalidad, en la lectura de información de tablas o gráficas, en interpretación de medidas,

etcétera.

Por otro lado, el uso de los decimales en sumas y restas contribuye a seguir construyendo el concepto de número, en general, y de números con punto decimal, en particular, así como a profundizar en la comprensión del sistema decimal de numeración.

Además, los decimales hacen más sencillos los cálculos con números menores a la unidad.

La introducción de sumas y restas de números con punto decimal inicia en cuarto grado con el planteamiento de problemas en

contextos de medición (Libro de Texto 4° grado, Bloque 4, Lección 7) y de relación dinámica. Una particularidad en este grado

escolar es ayudar al alumno planteando la suma con el punto alineado.

En quinto y sexto grados los alumnos resuelven problemas, generalmente de tipo estático y con la lectura de tablas, en los que deben elegir los datos y colocarlos de manera que sumen décimos con décimos, centésimos con centésimos y milésimos con milésimos.

c. Delimitación del contenido a evaluar:

Resolución de problemas de suma y resta con números enteros y decimales hasta milésimos; los números pueden o no tener parte entera.

Para el planteamiento de la base del reactivo es necesario considerar la estructura del problema de acuerdo con la relación de los datos, la posición del dato que se pregunta, el contexto que se empleará y la presentación de los datos.

1) Por la relación de los datos:

a. Problemas que implican una relación dinámica.

Por ejemplo: Juan tenía $12.50, su papá le dio $15.30. ¿Cuánto tiene ahora?

b. Problemas que implican una relación estática.

Por ejemplo: Juan tiene $12.50, Paco tiene $15.30. ¿Cuánto tienen entre los dos?

Cabe aclarar que la mayoría de los problemas de suma y resta que se incluyen en los libros de texto se refieren a una relación estática. (Libro de Texto 4° grado, páginas 164, 175, 176 y 177; en 5° grado, páginas 90 y 114) No obstante, hay también de relación dinámica. (4° grado, página 141; 5° grado, páginas 34, 42 y 90)

2) Por la posición de la incógnita de los problemas dinámicos:

a. En el estado inicial.

Por ejemplo: Juan tenía cierto dinero, su papá le dio $15.30, ahora tiene $27.80. ¿Cuánto tenía al principio?

b. En el estado final.

Por ejemplo: Juan tenía $12.50, su papá le dio $15.30. ¿Cuánto tiene ahora?

c. En el operador.

Por ejemplo: Juan tenía $12.50, su papá le dio dinero y ahora tiene $27.80. ¿Cuánto le dio su papá?

Si se tiene que elegir entre las posiciones de la incógnita, se sugiere dar prioridad a las que están en el estado final o en el operador. Se sabe que los problemas de incógnita en el estado inicial son más difíciles para los alumnos. (Puig, 1995, p. 108)

No se recomienda plantear problemas de comparación (por ejemplo: “Luis tiene $4.75 y Ana tiene $2.50. ¿Cuánto más tiene Luis que Ana?”) porque las investigaciones demuestran que su dificultad radica más en la comprensión del texto que en el problema mismo y en la operación que lo resuelve. (Martínez, 2000, p. 127)

Page 31: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

31Alineación a los referentes

MANUAL TÉCNICO ESPECIFICACIONES DE REACTIVOS

23

A continuación se muestran dos ejemplos de esta sección de la especificación.

Ejemplo 1. Plantilla (Español 6° grado, Educación Primaria)

Estructura de la base del reactivo:

La base del reactivo se conformará de los siguientes elementos: instrucción para la lectura + texto requerido (fábula) +

enunciado del reactivo a manera de afirmación.

Instrucción: directa, clara y concisa para que el alumno realice la lectura del texto. La redacción debe ser en modo

imperativo.

Texto: fábula de no más de 500 palabras

Enunciado del reactivo:

Elige (selecciona) la opción que (exprese, indique, señale…) cuál es (la enseñanza, la moraleja) de la fábula.

Estructura y descripción de la respuesta correcta:

A. Moraleja de la fábula (textual o parafraseada).

Estructura y descripción de las opciones consideradas incorrectas:

B. Opción plausible: Sustitución del sujeto de la oración que expresa la moraleja, a fin de modificar su sentido pero

manteniendo coherencia en la proposición resultante.

C. Opción plausible: Proposición relacionada con el contenido de la fábula.

D. Opción plausible: Proposición relacionada con el contenido de la fábula (distinta al distractor C).

Ejemplo 2. Plantilla (Matemáticas 6° grado, Educación Primaria)

Estructura de la base del reactivo:

Problema de suma o resta con enteros y decimales (hasta milésimos); estos últimos pueden o no tener parte entera.

Debe preguntarse por el estado final y la relación puede ser estática o dinámica (ver apartado 2).

En el caso de la suma, puede incluirse un máximo de tres sumandos; en el caso de la resta, sólo un minuendo y un sustraendo.

Deben utilizarse contextos de dinero o medida. Los contextos de medida deben referirse a longitudes, pesos o capacidades.

Todos los datos deben estar en la misma unidad de medida.

Ilustraciones o texto adicional: Si se desea y es adecuado para el contexto elegido, los datos para el problema pueden

ser presentados en una tabla.

Respuesta correcta:

Es el resultado de resolver correctamente el problema, debe estar en la misma unidad a la que se refieren los datos.

Distractores:

Para que los distractores den cuenta de los principales errores que suelen cometer los alumnos, se recomienda elegir algunos de los siguientes (según se ajusten al problema planteado):

MANUAL TÉCNICO ESPECIFICACIONES DE REACTIVOS

25

A continuación se muestran dos ejemplos de esta sección de la especificación.

Ejemplo 1. Peculiaridades de la plantilla (Español 6° grado, Educación Primaria)

Pecularidades de:

• la información textual, gráfica o tabular que se presenta

Excluir la moraleja de la fábula en caso de que esté escrita en la versión original.

• el vocabulario empleado

El estipulado en el documento de Normas para la construcción de reactivos.

Ejemplo 2. Peculiaridades de la plantilla (Matemáticas 6° grado, Educación Primaria)

Peculiaridades de:

• la información textual, gráfica o tabular que se presenta: Si se desea, puede hacerse uso de información (con decimales) presentada en tablas o gráficas, debido a que esto es muy común en las lecciones del libro de texto, por lo que se supone que el alumno está familiarizado con problemas de este tipo.

• el vocabulario empleado: Se debe usar sólo vocabulario al alcance del alumno, sin palabras o frases innecesarias. También es necesario evitar palabras clave, como “sumar”, “añadir”, etcétera. (Hart 1981, citado por Puig, 1995, p. 84)

• Peculiaridades de la respuesta correcta: La respuesta correcta debe plantearse en la misma unidad de medida que fue presentada en la base del reactivo, debido a que no se está evaluando si sabe hacer conversiones, sino la resolución de problemas de suma y resta con números decimales.

3.5 Reactivo muestra

En este apartado se presenta un reactivo-tipo de la especificación elaborada. Con este ejemplo se espera que el Comité Elaborador de Reactivos tenga una mejor idea de la clase de reactivos que pueden construirse a partir de la especificación proporcionada.

A continuación se dan dos ejemplos de reactivos que integran todas las características descritas en los apartados anteriores de la especificación.

Ejemplo 1. Reactivo muestra (Español 6° grado, Educación Primaria)

Lee la siguiente fábula.

La liebre y la tortuga

En cierta ocasión, la liebre presumía ante los demás animales de su gran velocidad en las carreras.

—Nadie me ha ganado jamás cuando corro con todas mis fuerzas –decía–. Desafío al que quiera probarlo.

—Acepto el desafío —dijo la tortuga tranquilamente.

—¡Qué gracia tienes! Soy capaz de danzar a tu alrededor durante el camino —dijo la liebre.

—No presumas de algo, hasta no ser vencedora —le contestó la tortuga.

Se fijaron las condiciones de la carrera y comenzó la prueba. La liebre desapareció a toda velocidad. De pronto se detuvo y, despreciando a la tortuga, se puso a descansar y se quedó dormida.

La tortuga avanzaba hacia la meta sin prisa. Cuando la liebre despertó, la tortuga estaba tan cerca de la meta que ya no pudo alcanzarla.

Fuente: Manual técnico para desarrollo de especificaciones de reactivos, págs. 18- 25.

El manual fue desarrollado especialmente para la prueba de que se trate y tiene en cuenta sus particularidades; no es aceptable un manual genérico o tomado de otro sistema de evaluación.En el caso de las pruebas EXCALE todos los manuales de referencia fueron desarrollados ad hoc, de manera expresa para las pruebas, incluidos los cuestionarios de contexto utilizados en el plan de evaluación junto a las pruebas de logro; se desarrollan a partir de las directrices ge-néricas que dan marco al al proyecto de pruebas EXCALE, con lo que se evidencia una unicidad en el cuidado de los procedimientos en el conjunto de pruebas, a la par que se reconocen sus especificidades. Al inicio del presente apartado ya fueron mencionados los manuales técnicos que incluyen información relativa a las especificaciones. Enseguida se ilustrarán detalles sobre la elaboración de los reactivos con base en esas especificaciones.

Page 32: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

32

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

7. Los reactivos son diseñados por un comité seleccionado teniendo en cuenta la espe-

cialización académica, laboral y su representatividad respecto a la diversidad del país,

y es coordinado por una persona calificada en medición y evaluación.

Las características de los miembros de los comités que proponen autores como Guttman (1969), Bormuth (1970), Hively (1974), Roid & Haladyna (1982) y Tiemann & Markle (1990), Solano-Flores (1993, 2004), Downing & Haladyna (2006), son las mismas que mencionamos para el caso de ENLACE. Aquí solo recapitularemos que se trata de especialistas en currículo, docencia, lingüística, cognición, evaluación, la disciplina que se evalúa así como representantes de los grupos socioculturales que potencialmente pueden ser afectados por la evaluación.

tt El comité fue formado específicamente para realizar su labor, considerando todos los ele-mentos característicos del tipo de prueba a diseñar

En los manuales técnicos se indica la composición del comité de diseñadores de ítems, y los informes internos muestran evidencias documentales acerca de las personas que los integraron, y la entidad federativa e institución de donde provienen, detallando su área de especialización y aspectos de su currículo. En general quienes elaboran los ítems y quienes después los validan son docentes de distintos estratos y modalidades educativos, y son coordinados por el respon-sable académico de la prueba.

La capacitación de los elaboradores de ítems implica revisar los productos de la planeación y diseño de las pruebas que fueron elaborados previamente, como las retículas, tablas de con-tenido y las especificaciones de ítems que delimitan el dominio de la prueba. También incluye considerar los tipos de ítems que se utilizan en los EXCALE y la estructura de cada especificación de ítems, en particular la plantilla del ítem donde consignan su trabajo. Además, la capacitación incluye revisar cinco anexos con materiales para apoyar el trabajo posterior de elaboración de los ítems: a) Formato de la especificación de ítems; b) Normas para la construcción de reactivos (relativas a la congruencia con su especificación, formato, contenido, uso del lenguaje, redac-ción técnica, figuras y tablas a emplear, a cada tipo de ítem y de los ítems particulares para ma-temáticas, español, ciencias naturales y ciencias sociales); c)Reglas para la generación de ítems (transformaciones lingüísticas, facetas y análisis de contenido de conceptos y procedimientos); d) Protocolo de revisión de reactivos; y e) formato de entrega de reactivos.

tt La capacitación de los redactores de ítems incluyó procesos metodológicos y referencias a las taxonomías o sistemas de clasificación cognitiva usados para especificar el dominio a evaluar.

En el apartado 5 (véase la Tabla 1.4), señalamos que se utilizó un sistema de clasificación cogni-tiva fácil de aplicar por los participantes. Por su parte, las tablas de especificaciones de la prueba y el apartado del manual de diseño de reactivos incluyen los niveles de demanda cognitiva que corresponden a cada contenido y tarea. Además, el formato de especificación de ítems incluye el nivel de demanda que corresponderá a cada uno, denominándose ahí “actividades cognos-citivas involucradas en la contestación correcta del reactivo”. Estos materiales son revisados por los elaboradores de ítems durante su proceso de capacitación.

Page 33: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

33Alineación a los referentes

CONTROL DE LA CALIDAD DE LOS ÍTEMS POR EL COMITÉ DE REVISIÓN

En el apartado correspondiente del informe referido a ENLACE señalábamos que la validación de ítems mediante juicios de expertos es una etapa que ha sido bien documentada por auto-res como Hambleton y Jones, (1993), Nitko (1994), Popham (1980), Jornet y Suárez (1990) y Solano-Flores (2004), quienes definen un perfil de especialistas similar al de quienes desarrollan los ítems, y que en conjunto representen a la disciplina, al currículo y su operación en las aulas, la lingüística, la teoría cognitiva, la psicometría y los grupos socioculturales que puedan verse afectados por el tratamiento que se dio a los ítems.

Tales especialistas deben valorar el alineamiento de cada reactivo elaborado con la correspon-diente especificación de ítems, la correspondencia de ambos con el blanco curricular pretendido y con los demás productos de la planeación del examen. También deberán detectar en cada ítem errores conceptuales, fallas en la redacción técnica, sesgos, complejidad cognitiva innece-saria, falta de representatividad curricular y otros problemas que pueden presentar, así como sugerir modificaciones en los reactivos que permitan mejorarlos.

Así pues, se trata de un comité independiente que revisa los reactivos con el propósito de libe-rarlos de posibles errores sistemáticos.

8. Existe un manual o guía para el análisis de reactivos que señala los criterios de acep-

tación, revisión y modificación.

Para capacitar a los jueces que evalúan los ítems y posteriormente orientar sus actividades, se requiere un manual que incluya protocolos y criterios para revisar aspectos técnicos de orden conceptual y procedimental sobre validación de ítems, como los tipos de evidencias relaciona-das con dicho proceso y los métodos que pueden emplearse para obtener tales evidencias; la estructura del formato de evaluación que emplearán; los lineamientos normativos que seguirán y los procedimientos que utilizarán para llevar a cabo la evaluación.

tt Presenta la estructura con las funciones representadas en el comité evaluador.

En la tabla I2, la etapa 7 ubica la participación de los comités de validación y sesgo quienes, previa capacitación apoyada por el manual correspondiente y un sistema informático ad hoc, desarrollan un trabajo tanto individual como colegiado al evaluar los reactivos de EXCALE. Los jueces deben hacer dos revisiones por reactivo construido y dos reportes de validación por cada reactivo. Entre las funciones que desempeñan los jueces, establecidas en el manual, están revisar la retícula, la tabla de contenidos, las especificaciones de ítems, los reactivos elaborados y las normas para su construcción que elaboró el INEE, las claves y en su caso las rúbricas de califica-ción de ítems de ejecución. Desde luego, la principal función de los comités es llevar a cabo la validación técnica y cultural de los reactivos, lo que incluye revisar el grado en que los reactivos del examen representan el dominio curricular a evaluar, juzgar la correspondencia con la especi-ficación que produjo al ítem, evaluar el sesgo cultural y de género y detectar posibles problemas técnicos de construcción como errores conceptuales, redacción compleja o proporcionar infor-mación innecesaria, entre otros.

Page 34: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

34

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

tt El manual describe procedimientos/criterios para revisar ítems por jueceo.

Como ya se mencionó, los jueces llevan a cabo primero una evaluación individual de los ítems. La figura 1.4 sintetiza los pasos que se siguen al efectuar ese jueceo:

Figura 1.4 Síntesis del jueceo individual de los ítems de EXCALE

VALIDACIÓN DE REACTIVOS

• Telesecundarias: Secundarias públicas que imparten su enseñanza vía telecomunicaciones.

• Privadas: Secundarias de sostenimiento privado.

Para el trabajo de validación, los docentes trabajarán en grupos de acuerdo a los contenidos de los Excale, a saber: Español, Matemáticas, Ciencias Naturales y Ciencias Sociales. Si fuera necesario, los grupos se pueden subdividir atendiendo a las necesidades temáticas de los Excale (por ejemplo, en Ciencias Sociales: Historia, Geografía y Educación Cívica).

Por lo general, se trabajará en grupos constituidos por ocho personas, procurando que haya equilibrio entre hombres y mujeres. Dado que sería muy oneroso contar para cada prueba con representantes de los ocho estratos escolares y modalidades educativas, de las 32 entidades federativas, la asignación de los docentes a cada grupo de evaluadores se hace en forma completamente aleatoria.

2.3 Procedimiento para la validación de reactivos

Tomando en cuenta la gran cantidad de reactivos que conforman los Excale, se diseñó un pro-cedimiento práctico y eficiente que se sustenta en dos etapas de trabajo sucesivas. La primera de ellas consiste en el trabajo individual que realizan los docentes con los reactivos; la segunda consiste en el trabajo colegiado que realiza el grupo de docentes con respecto al trabajo individual previamente elaborado. Veamos con mayor detenimiento el proceso completo de validación.

Una vez conformados los grupos que validarán los reactivos de los Excale, a cada docente se le entregará un conjunto de reactivos que tendrá que validar individualmente en un formato diseñado ad hoc (ver anexo D), siguiendo la guía para validar reactivos (ver anexo E). En este formato se presenta el reactivo a evaluar, la especificación del reactivo, distintas características que se deben de evaluar de cada reactivo y un espacio para hacer observaciones o aclaraciones de aquellos aspectos del reactivo que se consideran no deseados.

En síntesis, la evaluación individual consiste de los siguientes pasos:

Paso 1. Leer cuidadosamente la especificación del reactivo: Es muy importante conocer con precisión el contenido (conocimientos, habilidades o competencias escolares) que el reactivo pretende evaluar, para poder juzgar su pertinencia y validar la alineación especifi-cación-reactivo. Si no existe esta alineación, el reactivo no es válido para el propósito que se le desea dar en la prueba.

Paso 2. Leer el reactivo y responderlo: Lo anterior se debe hacer sin conocer la respuesta correcta, como si el docente fuera el estudiante. El propósito de este ejercicio es conocer las habilidades y conocimientos que son necesarios para responder correctamente un reactivo en particular, y con ello poder juzgar la competencia escolar que se evalúa, la dificultad de la pregunta, y su pertinencia para la asignatura y grado correspondientes.

Paso 3. Responder los apartados del formato de validación de reactivos: Esta es la parte fundamental del proceso de validación, que se enfoca a identificar problemas o errores del reactivo como fuentes de invalidez. Como se mencionó anteriormente, el reactivo es evaluado en tres grandes aspectos: el grado en que el reactivo representa el contenido curricular especificado, la ausencia de sesgo y de género, y los problemas técnicos de construc-ción. Para responder a las preguntas, los docentes tienen que hacer uso de la normatividad para la construcción de pruebas del INEE, así como de su conocimiento pedagógico y expe-riencia profesional.

Paso 4. Justificar los errores o problemas identificados en el reactivo: Cada problema que se identifique en el reactivo debe ser documentado, de tal forma que la esencia del problema y la forma de corregirlo sean entendibles.

23

VALIDACIÓN DE REACTIVOS

Paso 5. Agregar señalizaciones, correcciones o comentarios al cuerpo del reactivo: En algunos casos será necesario que en el cuerpo del reactivo mismo se hagan los señala-mientos necesarios para ubicar con mayor facilidad los errores, tal es el caso de problemas gráficos u otros que sean difíciles de describir.

Cada reactivo deberá ser evaluado por dos jueces de manera independiente. Se trabajará por rondas de reactivos (por ejemplo, de diez en diez) para que posteriormente se revisen las evaluaciones realizadas por los docentes de forma colegiada por los ocho profesores.

En caso de que las evaluaciones de un reactivo no coincidan en lo fundamental, el grupo de do-centes analizará, discutirá el caso y llegará a un consenso sobre la evaluación del reactivo. Por el contrario, si la evaluación de ambos docentes coincide, la evaluación del reactivo se consignará tal cual, sin mayor análisis, a menos que cualquier miembro del grupo solicite revisarlo.

Para realizar el trabajo colegiado se contará con un formato electrónico que contiene la infor-mación de los reactivos y los indicadores para su validación. En el siguiente capítulo revisaremos con mayor detalle sus características técnicas.

24

Fuente: Manual técnico de validación de reactivos, págs. 23-24.

Cada reactivo es evaluado por dos jueces de manera independiente, quienes trabajan por ron-das de reactivos antes de proceder a las evaluaciones colegiadas realizadas por los ocho profe-sores que integran el comité.

En cuanto a la fase de la evaluación grupal, para facilitar la revisión colegiada de los ítems el INEE desarrolló un programa informático con un formato electrónico de cinco páginas que contienen los datos de los reactivos y los indicadores para su validación; además, creó una página más para el caso de la educación preescolar. Tres de dichas páginas se ilustran en la figura 1.5 que se presenta en la página siguiente.

9. Hay un comité de revisión calificado para aplicar lo que define el manual.

Otro factor clave para trabajar en pro de la validez de los reactivos y la prueba, es la cualificación de los integrantes de los comités de revisión.

Page 35: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

35Alineación a los referentes

Figura 1.5 Programa informático para el jueceo grupal de los ítems

Página del reactivo

Página de evaluación del reactivo

Página de la especificación del reactivo

Fuente: Manual técnico de validación de reactivos, págs. 25-28.

Page 36: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

36

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

La cualificación se apoya, al menos, en tres factores:

a) profesional (dependiendo de la tarea a realizar, deberían ser especialistas en currículo, pro-fesorado frente a grupo —con experiencia y formación evaluativa—, lingüistas, etcétera);

b) diversidad geográfica (como garantía para representar la diversidad de situaciones socio-culturales, económicas y escolares de México); y

c) diversidad en cuanto a modalidad educativa en que realizan su trabajo, en el caso de profesorado frente a grupo (como garantía para representar adecuadamente los factores característicos que pueden influir o darse en cada modalidad).

Los criterios de selección de revisores deberían contemplar al menos los factores mencionados.

tt Se utilizaron criterios de selección de jueces con un perfil académico y laboral preciso y con representatividad de la diversidad del país.

Los miembros del Comité de validación técnica y cultural tienen un perfil similar al de los elabo-radores de ítems. En el manual técnico de validación de reactivos que aportó el INEE, se explican los criterios para conformar los grupos de jueces. Se trata de especialistas en la enseñanza de las distintas disciplinas que están implicadas en las pruebas que se elaboran y en su totalidad están formados por docentes en ejercicio que provienen de las 32 entidades federativas, repre-sentando distintos estratos y modalidades escolares; se procura que en su participación haya un equilibrio de género.

Cada comité está constituido por ocho personas. Para el nivel de primaria los docentes deben representar a escuelas urbanas públicas, rurales públicas, de educación indígena y privadas mientras que para la secundaria a generales, técnicas, telesecundarias y privadas.

Además, para incorporarse al trabajo de los comités, los miembros deben contar con carac-terísticas, algunas indispensables y otras deseables, mismas que se describen en la figura 1.6.

tt El comité de revisión está formado por jueces diferentes al del de escritura de ítems.

Existe documentación específica que avala el cumplimiento de este criterio. Incluso es posible identificar a los participantes de cada comité y conocer sus características.

tt Se detalla el procedimiento que se siguió para capacitar a los evaluadores.

Tanto el proceso de capacitación de diseñadores como el de revisores de reactivos se han estan-darizado como un protocolo de trabajo —que se basa en una guía— indispensable para el dise-ño de todas las pruebas. Un ejemplo de la guía, puede observarse en el Manual Técnico de Vali-dación de reactivos (págs. 43-46). La capacitación incluye, además de revisar la documentación elaborada por los comités académico, elaborador de especificaciones de ítems y elaborador de los reactivos, la detallada revisión de los componentes de la guía, los cuales incluyen detectar problemas asociados al contenido curricular, al sesgo en los ítems así como a su construcción técnica, a las ilustraciones que se emplean en los reactivos, a la situación comunicativa que se plantea en el ítem, a la forma de calificación y a la categoría “Otros” para consignar problemas adicionales que pueden identificarse. La Figura 1.7 ilustra una sección de dicha guía.

Page 37: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

37Alineación a los referentes

VALIDACIÓN DE REACTIVOS

2.2 Conformación de los grupos de jueces

Una característica del trabajo del INEE respecto al diseño, desarrollo y validación de los Excale es el trabajo colegiado de diversos expertos y especialistas en la enseñanza de las distintas disciplinas de interés para evaluar la calidad del Sistema Educativo Nacional. En la etapa de la validación de reactivos, este grupo está conformado en su totalidad por docentes en ejercicio.

Como es indispensable que el trabajo de validación lo realicen los docentes que tengan el mejor perfil profesional posible, a continuación se enlistan las características idóneas de los profesores que son invitados a validar los reactivos de los Excale, las cuales se pueden clasificar en dos tipos: las indispensables y las deseables.

Las características indispensables de los miembros de los CVS son las siguientes:

• Ser profesor en ejercicio, con experiencia mínima de cinco años frente a grupo

• Ser normalista, con especialidad en la asignatura y grado a evaluar

• Tener interés en participar en los trabajos de validación de las pruebas nacionales

• Tener gran conocimiento del currículo nacional de la asignatura y grado a evaluar

Asimismo, es deseable aunque no indispensable que los docentes cumplan con las siguientes características:

• Estar inscrito en el programa de Carrera Magisterial

• Contar con altas calificaciones en el Pronap

• Tener gran prestigio como docente, entre sus colegas y alumnos

• Tener conocimiento y experiencia en evaluación de gran escala

Los grupos de evaluadores estarán representados por docentes provenientes de las 32 entidades federativas, representando a los distintos estratos y modalidades escolares, procu-rando que haya un equilibrio de género. Para el nivel de primaria docente representarán a escuelas:

• Urbanas públicas: Escuelas públicas ubicadas en comunidades con una población mayor a cinco mil habitantes.

• Rurales públicas: Escuelas públicas ubicadas en comunidades con una población menor a dos mil quinientos habitantes.

• Educación indígena: Escuelas públicas ubicadas en localidades de población indígena, donde se imparte educación bilingüe bicultural.

• Privadas: Escuelas de sostenimiento privado.

Se omiten los docentes de los cursos comunitarios porque representan a menos del 1% de la población estudiantil de primaria y por la dificultad de su traslado al Distrito Federal.

Igualmente, para el caso de los Excale de secundaria se buscan docentes de las cuatro modalidades educativas:

• Generales: Secundarias públicas con un currículo comprensivo.

• Técnicas: Secundarias públicas con un currículo comprensivo, que además ofrecen capaci-tación técnica.

22

Fuente: Manual técnico de validación de reactivos, pág. 22.

Figura 1.6 Características indispensables y deseables de los miembros de los comités de validación de reactivos de EXCALE

Figura 1.7 Sección de la guía para validación de reactivos de EXCALE

Fuente: Manual técnico de validación de reactivos, pág. 43.

VALIDACIÓN DE REACTIVOS

Anexo V. Guía para validar reactivos

Esta guía tiene la intención de orientar al Comité de Validez y Sesgo de los Excale sobre la uti-lización de los códigos que tendrán que registrar en los formatos de evaluación de los reactivos. Dependiendo de la gravedad de los problemas detectados en los reactivos, se determinará su descarte, modificación o su verificación.

Primaria y Secundaria

Problemas de contenido curricular

1. Falta de alineamiento curricular Evalúa conocimientos ajenos al currículo y/o los libros de texto

2. No corresponde a la especificación Puede ser resuelto sin los conocimientos y habilidades que se supone evalúa y que se señalan

en la especificación del reactivo.

3. Reactivo demasiado difícil Tiene un alto nivel de dificultad el cual es inapropiado para el grado escolar de los alumnos.

4. Reactivo demasiado fácil Tiene un bajo nivel de dificultad el cual es inapropiado para el grado escolar de los alumnos.

5. Cobertura Evalúa conocimientos que no se enseñan en mi escuela y que yo no enseño en mi aula.

Problemas de sesgo

6. Vocabulario y/o redacción Usa palabras cuyo significado es diferente entre los grupos sociales evaluados y/o está escrito de

modo que puede ser interpretado de manera distinta por individuos de grupos sociales diversos.

7. Situación Contiene situaciones poco cercanas a la cotidianeidad de los alumnos de algún grupo social.

8. Estereotipos Refleja concepciones sociales fijas asociadas a las características de algunos grupos sociales.

Problemas técnicos de construcción

9. Errores conceptuales Tiene errores respecto a los principios teóricos de la disciplina científica en que se fundamenta.

10. Contexto inapropiado El contexto que se presenta no se considera apropiado para los alumnos del grado escolar evaluado.

11. Texto inapropiado (Español) La lectura no se considera apropiada para los alumnos del grado escolar evaluado.

12. Redacción compleja Está redactado en forma compleja que innecesariamente dificulta entender el problema de la

base. La redacción debe ser simple.

13. Redacción y ortografía Tiene errores de redacción y de ortografía como puntuación, acentuación, uso de mayúsculas,

etcétera.

43

VALIDACIÓN DE REACTIVOS

Anexo V. Guía para validar reactivos

Esta guía tiene la intención de orientar al Comité de Validez y Sesgo de los Excale sobre la uti-lización de los códigos que tendrán que registrar en los formatos de evaluación de los reactivos. Dependiendo de la gravedad de los problemas detectados en los reactivos, se determinará su descarte, modificación o su verificación.

Primaria y Secundaria

Problemas de contenido curricular

1. Falta de alineamiento curricular Evalúa conocimientos ajenos al currículo y/o los libros de texto

2. No corresponde a la especificación Puede ser resuelto sin los conocimientos y habilidades que se supone evalúa y que se señalan

en la especificación del reactivo.

3. Reactivo demasiado difícil Tiene un alto nivel de dificultad el cual es inapropiado para el grado escolar de los alumnos.

4. Reactivo demasiado fácil Tiene un bajo nivel de dificultad el cual es inapropiado para el grado escolar de los alumnos.

5. Cobertura Evalúa conocimientos que no se enseñan en mi escuela y que yo no enseño en mi aula.

Problemas de sesgo

6. Vocabulario y/o redacción Usa palabras cuyo significado es diferente entre los grupos sociales evaluados y/o está escrito de

modo que puede ser interpretado de manera distinta por individuos de grupos sociales diversos.

7. Situación Contiene situaciones poco cercanas a la cotidianeidad de los alumnos de algún grupo social.

8. Estereotipos Refleja concepciones sociales fijas asociadas a las características de algunos grupos sociales.

Problemas técnicos de construcción

9. Errores conceptuales Tiene errores respecto a los principios teóricos de la disciplina científica en que se fundamenta.

10. Contexto inapropiado El contexto que se presenta no se considera apropiado para los alumnos del grado escolar evaluado.

11. Texto inapropiado (Español) La lectura no se considera apropiada para los alumnos del grado escolar evaluado.

12. Redacción compleja Está redactado en forma compleja que innecesariamente dificulta entender el problema de la

base. La redacción debe ser simple.

13. Redacción y ortografía Tiene errores de redacción y de ortografía como puntuación, acentuación, uso de mayúsculas,

etcétera.

43

Page 38: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

38

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

10. El sistema de revisión lógica de cada ítem incluye:

tt Análisis de calidad técnica: claridad en la formulación, adecuación al marco de prueba.tt Análisis de la congruencia ítem-contenido o ítem-objetivo (subdominio).tt Análisis de posibles fuentes de sesgo de cada reactivo: género, diversidad cultural, entre otras.tt Análisis de concordancia de juicio para la selección de reactivos o procedimientos para esti-

mar la confiabilidad de los juicios de los evaluadores.

La revisión lógica de reactivos es un procedimiento clave para asegurar la validez. Su aplicación está orientada a detectar y eliminar posibles errores sistemáticos en los ítems, antes de proceder a su pilotaje. La revisión de los reactivos puede llevarse a cabo de manera analítica o sintética.

A diferencia de ENLACE, las pruebas EXCALE pueden considerarse, en términos de Madaus y Kellaghan (1992), de bajo impacto, ya que con ellas no se pretende aportar una evaluación de personas, que oriente decisiones o afecte a su imagen individual.

La revisión se guía en este enfoque aportando criterios específicos sobre los cuáles los revisores deben centrar su atención. Así, se atienden tanto características de calidad técnica (formula-ción, base del ítem, existencia de respuesta correcta, calidad de distractores, etcétera), como su adecuación a la unidad del dominio curricular que pretende medir, y la posibilidad de detectar elementos socioculturales y lingüísticos que puedan constituir posibles fuentes de funciona-mientos diferenciales de ítems (DIF) y, en su caso, puedan considerarse sesgos (como factores indeseables en las pruebas que afectan a la justicia y equidad de la evaluación).

En el caso de EXCALE, los componentes de la guía para validar reactivos que mencionamos en el criterio 9, y en particular los que se ilustran en la figura 1.7, satisfacen los requerimientos enunciados en los subcriterios ya referidos. De hecho, al revisar la documentación y manuales técnicos, se observa que hay una atención muy específica respecto a la revisión lógica de los re-activos. Se aportan guías concretas para tal cometido, definidas para diferentes tipos de ítems, sean de alternativas, o bien de respuesta construida, así como a la categorización o calificación de estos últimos.

Una vertiente de nuestra valoración bajo este criterio evaluativo, considera los análisis que se realizan sobre el sesgo a través de varios procedimientos. El primero —descrito en el manual del plan general de evlauación y realizado por comités específicos para cada prueba—, señala que se hace predominar el aspecto criterial y de contenido más que los aspectos cuantitativos pro-cedentes del análisis psicométrico. Este análisis de sesgo se realiza hasta alcanzar un consenso entre especialistas con base en su experiencia y criterio. El segundo procedimiento está indica-do en el manual de validación de reactivos con criterios específicos para determinar el sesgo por diseño (lenguaje, estereotipos, descalificación, género, etcétera.). En el caso de diferencias culturales se plantea una metodología de comparación de muestras de grupos focales; este aspecto es analizado y discutido en otra sección por el equipo encargado del análisis de validez cultural. El tercer procedimiento para abordar el problema de sesgo se refiere al control que se establece en el diseño de las muestras. La documentación aclara que al diseñar la muestra se tiene cuidado de no inducir sesgos por diversas razones, las cuales no están explícitas en sus tipos ni en las formas de determinarlos.

Page 39: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

39Alineación a los referentes

Por otra parte, se proporcionaron distintas referencias respecto del análisis de funcionamiento diferencial de ítems y personas, además de algunos estudios de sesgo. Por ejemplo, los estadísti-cos de las pruebas piloto son presentados y analizados por distintos grupos, aunque no se hace referencia específica al tipo de acción que se toma al encontrar funcionamiento diferencial de las preguntas. Se incluye también un documento que explicita el procedimiento para evaluar el fun-cionamiento diferencial de los ítems. En particular, se establece que se realizarán estudios de funcionamiento diferencial de las preguntas con base en género, grupos de edad, edad normativa y modalidad educativa. Si bien existe la documentación técnica que norma la realización de este tipo de estudios, no se presentan evidencias de que en realidad se hizo con las pruebas operativas, aunque sí se observa que se generaron algunas de estas estadísticas con las pruebas piloto.

Además, los manuales de elaboración de los reactivos dedican una sección a la forma de evitar el funcionamiento diferencial de los ítems. El procedimiento se basa en 1) proporcionar a los ela-boradores de las preguntas un conjunto de lineamientos claros sobre la elaboración de los ítems a fin de minimizar el funcionamiento diferencial, y 2) establecer distintas fases de evaluación de los reactivos previos a su utilización en una aplicación piloto u operativa. No obstante, no pudimos observar evidencia sobre la aplicación o confirmación de que estos principios fueron aplicados y que se probó que resultaran efectivos en la prueba operativa utilizada para presen-tar resultados públicos.

Adicionalmente, se reporta un estudio de validación del EXCALE 00 de preescolar aplicada en castellano y en maya (Backhoff, Contreras y Solano, 2012). Si bien no se trata de un análisis di-ferencial de las preguntas, estudios de este tipo ayudan a informar los procesos de elaboración de preguntas y contribuyen a minimizar —o hasta cierto punto controlar— la presencia del funcionamiento diferencial, al resaltar la posibilidad de efectos en el desempeño en las pruebas debidos a razones culturales y de lenguaje.

Con relación específica al análisis de funcionamiento diferencial de los reactivos, se cuenta con el reporte técnico: “Modelo para detección de funcionamiento diferencial de reactivos (DIF) en pruebas INEE” (González-Montesinos, 2010) donde se presenta el procedimiento de determina-ción de DIF proporcionado directamente por el programa Winsteps® para distinguir la diferen-cia de funcionamiento en subgrupos en todo el dominio a medir. En el manual de Winsteps® se explica la forma en que el programa lleva a cabo este análisis con base en las medidas del mo-delo de Rasch y una implementación del esquema de Mantel-Haenszel. Puede interpretarse que este análisis se realiza desde 2010 y que, en principio, se aplica a todas las pruebas de EXCALE, pero no se dispone de publicaciones con estos resultados para todas las pruebas.

Por otra parte, hay varios estudios sobre las diferencias observadas en los resultados entre estados o grupos (especialmente tipos de escuela y género), pero no se presentan asociados explícitamente al análisis que hace Winsteps® del funcionamiento específico de los reactivos (por ejemplo: El aprendizaje en tercero de preescolar en México, Backhoff, Andrade, Sánchez y Peon, 2008; El aprendizaje en sexto de primaria en México, Sánchez y Andrade, 2013).

En otros documentos como “Adaptación lingüística y cultural de pruebas de logro académico” (Solano, 2011, en INEE una década de evaluación) se cita la importancia del DIF, y se cuenta con resultados y comentarios en Pertinencia de la traducción y adaptación de los Exámenes para la Calidad y el Logro Educativos (EXCALE) de preescolar a la lengua maya (Backhoff, Con-treras y Solano, 2012). Estos casos serán discutidos más adelante por el grupo que examinó la validez cultural.

Page 40: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

40

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Más allá de estos ejemplos, no se cuenta con un manual o nota técnica adicional sobre DIF, salvo una mención en la tabla de desarrollo del proyecto que aparece en Plan general de eva-luación del aprendizaje. Proyectos nacionales e internacionales (Backhoff y Díaz, 2005), por lo que resultará importante el desarrollo de dicho manual.

Finalmente, en los reportes que presentan resultados estadísticos de las aplicaciones se incluyen tablas con valores del estadístico que mide sesgo (posiblemente el sesgo a3 de Pearson aunque no está explícitamente indicado), lo cual implica asimetría en la distribución. Este sesgo puede estar asociado parcialmente con problemas de diseño, funcionamiento diferencial de los ítems, aspectos de aplicación y diferencias reales entre grupos.

Como hemos visto, las explicaciones y detalles presentados al valorar este criterio demuestran que el análisis de sesgo, así como las previsiones para identificarlo, reducirlo o controlarlo, cons-tituyen un aspecto atendido con mucho cuidado por parte del INEE.

En síntesis, hallamos que la evidencia documental sobre los aspectos valorados en este criterio es suficiente, e incluye elementos tanto de una revisión sintética como analítica. Por ello, enten-demos que es una fortaleza en el diseño de la prueba.

11. Se cuida la alineación de la prueba en general.

Tal como lo mencionamos al valorar ENLACE, el alineamiento de la prueba al currículo, así como la relevancia y representatividad del conjunto de ítems que la integran respecto al mismo, son los criterios fundamentales para asegurar evidencias de validez relacionadas con el contenido; de ahí que constituyan los principales referentes para guiar su desarrollo pero también, como en este caso, su valoración. La idea de alineamiento de la prueba tiene que ver con la correspon-dencia con el referente curricular, e igualmente con el ajuste o armonización entre los productos de su planeación y desarrollo.

De este modo, al evaluar el alineamiento de la prueba se busca, en particular, identificar la correspondencia y ajuste de cada ítem con la especificación que lo produjo; de estos dos com-ponentes con el contenido cuyo dominio se juzgó importante evaluar; y de los tres elementos con el subdominio en que se ubica el blanco curricular cuyo dominio se evalúa. En general, se pretende determinar si el conjunto de ítems desarrollados se corresponden y armonizan con el conjunto de especificaciones a partir de las cuales se generaron; si ambos componentes permi-ten dar cuenta del dominio del universo de medida que llamamos prueba; y si, a su vez, tales componentes y relaciones constituyen un cúmulo de evidencias que permiten hacer inferencias válidas acerca del dominio del universo de contenido que llamamos currículo.

Pasamos a emitir las valoraciones respecto a este criterio.

tt Tras analizar los ítems del pilotaje y desechar los que no cumplan los criterios, se verifica que el contenido de las pruebas a aplicar corresponda al dominio curricular en todos los aspectos y niveles de demanda cognitiva planeados.

En el Manual de Procedimiento de la Dirección de Pruebas y Medición se detallan las fases y tareas a realizar para la elaboración de los EXCALE, tal como puede observarse en:

Page 41: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

41Alineación a los referentes

http: //www.inee.edu.mx / images /stories /Publicaciones /Documentos_tecnicos /De_pruebasymedicion/Procedimientos/Completo/procedimientos_pruebasa.pdf

En dicho documento se aprecian las garantías que se establecen y que, posteriormente se ob-servan en los Manuales de Técnicos de las pruebas.

Con propósitos ilustrativos, en la figura 1.8 se muestran las fases del proceso general de desa-rrollo de las pruebas que se relacionan con la valoración que hemos hecho sobre la alineación de EXCALE a sus referentes.

Figura 1.8 Fases del desarrollo de los EXCALE relacionadas con la alineación de las pruebas con sus referentes

22

2.4 Diagrama del procedimiento para el diseño y edición de los Excale

1

3

4

5

2

Inicia

Termina

Director de Pruebasy Medición

Subdirectoresde Pruebas

Área de Diseñoy Edición

Director deRelaciones

Nacionales yLogística

Autoriza elExcale

Entrega losreactivos

Edita losExcale

Autoriza laedición delos Excale

Entrega el Excaleal proveedor

Revisa los hard copy

Proveedor

¿Hayobservaciones?

Imprime los hardcopy de los Excale

Recibe loshard copy

¿Hay cambios?

Informa alproveedor de los

cambios queefectuará

Entrega los hardcopy para la

impresión de lospositivos

de los Excale

Entrega alproveedor los hard

copy para laimpresión de los

positivos

Recibe los hardcopy e imprime los

positivos delos Excale

Realiza respaldo,genera y actualizalas bases de datos

No

No

Fuente: Manual de Procedimientos de la Dirección de Pruebas y Medición del INEE

Page 42: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

42

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

tt Se cuida la alineación ítems-test-currículo, ítems-test-estándares de interpretación y, de ser posible, ítems-test-enseñanza e ítems-test-evaluación en aula.

En general, todos los manuales que hacen explícito el marco de referencia, así como los ma-nuales técnicos de las pruebas EXCALE, se ajustan al proceso general de diseño que, implícita y explícitamente, propone un método de trabajo que permite asegurar la alineación la prueba y sus reactivos con el dominio educativo.

En cuanto a los métodos de determinación de estándares utilizados (derivados del método Bookmark) no implican necesariamente que se haya dado dicha alineación, pues constituye un procedimiento de ordenamiento por dificultad en una escala unidimensional.

No obstante, no se aportan estudios específicos acerca de si la alineación se da o no, o, en todo caso, en qué grado, en ninguna de las restantes referencias mencionadas en el criterio. De este modo, no se incluyen evidencias acerca de que se haya estudiado la alineación de la formula-ción de reactivos con los modos en que se trabaja en el aula, ni en cuanto a la enseñanza, ni en relación al modo en que son habitualmente evaluados los estudiantes.

Así, podemos concluir que un factor que garantiza la validez de contenido de EXCALE es la metodología de diseño de la prueba, desde el análisis reticular hasta el diseño y revisión de reactivos. No obstante, un factor de debilidad, en este sentido, es la falta de información acerca de las distancias entre los enfoques metodológicos didácticos usuales y los modos de evaluación en el aula, los que pueden ser factores que expliquen diferencias en cuanto al desempeño del alumnado. Esta es una fuente de invalidez que no está controlada.

tt Se dispone de una metodología para demostrar la validez de contenido (cualitativa y cuan-titativa) de la prueba.

Si se considera que la validez de contenido no se “demuestra”, en el sentido de que no es un proceso con resultado binario, puede afirmarse que al concentrar la documentación relacio-nada con los procesos a seguir para la elaboración de los reactivos en particular, y el diseño y estructuración de la prueba en general, al igual que los estadísticos calculados y presentados para documentar la confiabilidad y dimensionalidad de la prueba, se han encontrado suficientes evidencias tanto cualitativas como cuantitativas respecto a la validez de contenido de la prueba.Un dato faltante dentro de la documentación proporcionada es el resultado final de la compo-sición de la prueba operativa y el conjunto de estadísticos (por reactivo y por prueba) utilizando la aplicación final. Al respecto, cabe señalar que solo se proporcionan estadísticos con base en las aplicaciones piloto.

Para justificar la validez de contenido fue realizado un análisis factorial de componentes princi-pales sobre los residuos del modelo utilizado, proporcionado por el software Winsteps® con el modelo de Rasch. En esencia, se espera que dichos residuos estén aleatoriamente distribuidos. Los resultados de los análisis de los datos del levantamiento de 2005 mostraron que la mag-nitud de los factores en los residuos estaba dentro del umbral de ‘ruido’ de los datos, por lo que era plausible el análisis de ambos aspectos como uno solo. Adicionalmente, una evidencia directa es el estudio relativo al desarrollo de las retículas que fue realizado por el INEE al inicio del programa de pruebas, el cual podría considerarse una ”demostración” de dicha validez.

Page 43: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

43Alineación a los referentes

tt Se muestran evidencias para fundamentar la validez de contenido.

Se dispone de evidencia documental sobre los estudios de análisis curricular, el armado de las tablas de especificaciones y la construcción de las especificaciones de ítems que se siguen al momento de elaborar preguntas para las pruebas. En tales casos, los procedimientos se descri-ben minuciosamente y se recauda abundante información en los formularios utilizados por los distintos comités evaluadores de las preguntas, a fin de determinar su pertinencia en cuanto al constructo que se quiere medir.

CONCLUSIÓN

En términos generales, puede afirmarse que existen evidencias suficientes acerca de que las pruebas EXCALE se han ajustado a los requerimientos metodológicos necesarios para asegurar una suficiente validez de contenido y representatividad de las mismas respecto al currículo de referencia.

Los elementos fundamentales sobre los que se sustenta nuestra apreciación residen en las evi-dencias de que existe un marco de referencia de desarrollo de las pruebas que guía todos los procesos, dotando al proyecto de pruebas de unicidad; a la par que se atienden las especifici-dades que devienen de las características propias de las materias a que se refiere cada prueba.Otra de las fortalezas encontradas es que los manuales y protocolos de trabajo para cada fase se han desarrollado ad hoc, de manera específica para cada tarea a realizar en el diseño de las pruebas, desde los marcos de referencia, tablas de especificaciones, niveles de demanda cog-nitiva, entre otros componentes del desarrollo de las EXCALE como la composición de comités de análisis del dominio educativo y los de desarrollo de especificaciones, diseño y revisión de reactivos. En todos los casos se ajustan a las pautas internacionales reconocidas como de cali-dad metodológica, exigibles para el diseño de esta tipología de pruebas.

No obstante, aún son necesarios estudios que se refieren a: 1) los análisis de los especialistas que llevan a cabo operaciones de juicios, mismos que deben documentarse para mostrar los grados de acuerdo y su posterior dictamen con algún modelo de medición de consenso entre jueces o con el uso de un análisis de facetas; 2) análisis de tipo factorial (exploratorio, confir-matorio u otro equivalente) donde se observen “agrupaciones” de reactivos de alguna manera similares a las áreas o a los temas propuestos; 3) atender la debilidad observada en cuanto a la carencia de estudios empíricos específicos acerca de la alineación de las pruebas respecto a las metodologías didácticas y evaluativas que habitualmente se desarrollan en las aulas, lo que puede crear un factor de error no controlado.

Con todo, estimamos que se aportan evidencias suficientes para asegurar un grado elevado de validez de contenido.

Una sugerencia puntual a los desarrolladores de las pruebas, es que elaboren un manual técnico compacto y actualizado para cada edición de EXCALE. Ello facilitaría que otros especialistas y personas interesadas pudieran disponer de las evidencias sobre su calidad técnica en un docu-mento integrado, mismo que podría remitir a los manuales técnicos específicos y otros escritos que tratan la información de manera más detallada.

Page 44: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

44

2 Aspectos psicométricos

Como ya se ha visto en el capítulo anterior, la prueba EXCALE es producida por el INEE con el propósito de apoyar al diagnóstico del desempeño de los estudiantes de manera grupal, y no individual y brindar una evaluación del estatus educativo a nivel nacional. Se trata de un propósito a nivel macro del país, que puede incidir en las políticas públicas, la actualización y adecuación de los planes de estudio y las mediaciones psicopedagógicas, la definición de pro-gramas de formación, apoyo, promoción de actividades académicas, y la vida de estudiantes, docentes, padres de familia y las autoridades. Para cumplir con sus objetivos, el proyecto debe contar con documentación que lo respalde, para garantizar la calidad del proceso. Es por ello que debe reforzarse el gran esfuerzo desarrollado por el INEE al producir y publicar manuales, guías, normativas, estudios e investigaciones.

El primer documento de base con que cuenta el Instituto es el Plan General de Evaluación, que si bien tiene el valor de ser una guía general del proyecto, desde su edición inicial no se ha puesto al día, por lo que representa una laguna en la documentación, al carecerse de un mate-rial integrador y actualizador de la información y que presente los cambios a través del tiempo. Con este antecedente, puede decirse que la cantidad de informes y documentos es tan vasta que se vuelve complicado identificar los datos pertinentes para cada criterio de evaluación. Hay numerosos estudios sobre ciertos temas —a veces en abundancia— de gran interés, frente a otros que no han recibido la misma atención.

Por el tipo de prueba de que se trata —muestral, matricial, de bajo impacto—, EXCALE no tiene problemas por usos inapropiados a nivel individual o del grupo escolar, lo cual lo ha permitido que el proyecto haya avanzado de forma segura y contundente hasta convertirse en una fuente de información debidamente alineada a los fines propuestos.

A lo largo de este capítulo se detallan los puntos medulares que atiende cada criterio y junto con las conclusiones se señalan las fortalezas y debilidades del proyecto.

CRITERIOS TÉCNICOS SOBRE LA CALIDAD DE LAS PRUEBAS

1. Evidencias técnicas de validez de las pruebas.

tt Se describe el procedimiento seguido para el análisis de validez de criterio, al menos en una de sus formas (predictiva, concurrente, discriminante, etcétera.) y se reportan los valores obtenidos en los estudios de validez de criterio.

Page 45: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

45Aspectos psicométricos

Solo se presenta un estudio realizado para comparar los resultados de las pruebas EXCALE con los de la prueba PISA. Se preguntó a los responsables de la SEP si contemplaron la factibilidad de aprovechar los resultados escolares de los estudiantes para hacer comparaciones entre asig-naturas y con los resultados de la prueba ENLACE, y respondieron que este estudio no puede concretarse fácilmente a corto plazo, porque hay deficiencias en los datos disponibles en la base de ENLACE, en particular aparecen divergencias en nombres y en la CURP, lo que fue comentado con los responsables de la prueba ENLACE durante las reuniones de análisis para su dictamen.

Dentro de la documentación suministrada solo se presenta un estudio en el que se comparan los resultados de las pruebas EXCALE 09 de Matemática y Español contra los resultados obteni-dos de las pruebas de PISA.

En cualquier caso, dentro de la documentación no se presentan coeficientes de correlación que pudieran interpretarse como coeficientes de validez de criterio que hubieran resultado de este estudio.

tt Hay evidencia documental del análisis de la validez de escala de la prueba y su pertinencia en relación con el constructo y el modelo del perfil a evaluar.

En los materiales proporcionados para este estudio, se presentan diversos documentos en los que se describen los procedimientos establecidos por el INEE para desarrollar la prueba y con los cuales se sustenta la validez de la escala. Entre estos documentos puede mencionarse el mismo Plan General de Evaluación del INEE, además de ejemplos de tablas de contenidos de las pruebas, manuales técnicos para la elaboración de reactivos, formatos de especificación, plantillas de reactivos, ejemplos de listados de comités de elaboración de reactivos, entre otros. Desde el punto de vista conceptual, la validez de escala de la prueba reposa en buena medida (aunque no de forma exclusiva) en la calidad y distribución de los ítems. Por ello, resultaría de particular importancia que en el manual técnico de validación de reactivos del INEE se describie-ran detalladamente los procesos para validar los reactivos de las pruebas.

Por otra parte, se documentó el desarrollo del software para almacenar y controlar el contenido de los reactivos, junto con las opiniones de los jueces que los validan, y se presentaron algunos ejemplos de su funcionamiento, con lo que este requisito quedó parcialmente cubierto. Para completarlo, hubiera sido de utilidad tener, por ejemplo, acceso a las bases de datos en las que se guarda esa información para contar con evidencia suficiente de que se han seguido los pro-cedimientos al pie de la letra.

Otra laguna se refiere a los reportes sobre la escala que proporciona el software Winsteps® pero que no se entregaron en la documentación. Estos reportes contienen la distribución de los ítems y la escala ítems-medida que permite estimar la medida de una persona a partir de un número dado de ítems contestados correctamente. Por tratarse de salidas estándar proporcio-nadas por el software puede considerarse que aunque sí fueron calculados los datos de salida contenidos en estos reportes, se tiene una omisión importante al no incluirlos en la documenta-ción disponible. Este tipo de salidas no es exigible en el caso de ENLACE porque dependen del modelo de tres parámetros de la TRI; a estas pruebas se les solicitan otros elementos informati-vos, como se indica en el análisis respectivo.

Page 46: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

46

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

tt Se presenta documentación que muestra cómo se realizó el proceso para analizar la validez de constructo de la prueba y se presentan los resultados.

No se presentan este tipo de evidencias, aunque puede considerarse que se realizó como pre-rrequisito para la producción de las especificaciones con las que se diseñan los ítems.

2. Análisis integral de los procesos y métodos para el desarrollo y construcción de las

pruebas, definiendo equivalencia y periodicidad.

tt Se indica el procedimiento seguido para construir las pruebas a partir de las especificaciones y del banco de ítems.

El manual técnico “Diseño de exámenes de la calidad y el logro educativos” plantea, entre otros aspectos para la construcción de las pruebas, los siguientes: a) los procedimientos para la defini-ción del objeto de medida; b) las especificaciones propuestas para la definición de los dominios; c) el análisis reticular del currículo educativo en el nivel focal de la prueba; d) los criterios para elegir a los miembros de los comités para cada dominio a evaluar; e) modelos de especificacio-nes de tablas de ponderación de contenidos con objeto de dimensionar las pruebas y dirigir el diseño de los ítems.

En el Cuaderno 17 del INEE (Backhoff, E. y col. 2005), se presenta la tabla I: “Proceso de diseño construcción, aplicación y validación de los EXCALE”, donde se indican las fases para la pro-ducción de las pruebas. En este documento se describe el procedimiento metodológico para la construcción de formas equivalentes a partir de los mejores ítems del banco. En particular se cita la forma de considerar los bloques para garantizar su equivalencia en contenido, extensión, varianza y tiempo de respuesta.

Sin embargo, la documentación disponible no incluye ninguna referencia específica al software que se utiliza para lograr el diseño de la prueba con las especificaciones propuestas o los re-sultados finales de su armado y su correspondencia con las tablas de especificaciones. Dada la magnitud de la tarea involucrada en EXCALE para el diseño de la prueba operativa y los módulos matriciales, puede pensarse que este trabajo de construcción no es realizado en forma manual, pero falta información a este respecto.

tt Se reportan pasos para producir formas o versiones de la prueba y delimitar su vigencia en el tiempo o según sedes o localidades.

En la documentación disponible del INEE se tienen ejemplos de tablas de validez de contenido, cuyo objetivo es establecer las equivalencias entre versiones. Con relación a los reactivos, el detalle de las especificaciones se presenta en un formato que hace explícitos los requerimientos de diseño, justificaciones, referencias y relación con el programa de estudio. Para la calibración inicial de los reactivos se utilizan los resultados de las aplicaciones piloto realizadas con muestras de estudiantes de la población focal en una fracción de los estados de la república, como se desarrolla en los modelos muestrales que se explican a continuación.

A partir de la información disponible, puede afirmarse que los diseños muestrales de EXCALE han pasado por dos modelos en etapas diferentes: la primera etapa siguió un modelo ad hoc

Page 47: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

47Aspectos psicométricos

y la segunda etapa fue planteada en concordancia con el enfoque de la prueba PISA, como se explica en seguida.

En la primera etapa el modelo se planteó siguiendo indicaciones dadas por el asesor internacio-nal Richard Wolfe, que aparecen en el Manual Técnico para el Muestreo Poblacional del INEE (Juárez y col., 2006). Por otra parte, en el documento de 2012 (Diseño muestral para tercero de secundaria 2011-2012) se indica lo siguiente: “La cantidad de alumnos en la muestra se basa en las cuotas establecidas por el Dr. Richard Wolfe (Ontario Institute for Studies in Education) quien diseñó la muestra de EXCALE 09 (2005); estas cuotas también fueron empleadas en EXCALE 09 (2008), el cual fue revisado por el Dr. Ignacio Méndez Ramírez”. Hasta los EXCALE 09 (2012) se propone “continuar con estas cuotas como base para el estudio con el fin de conservar el margen de error estándar obtenido en estudios internacionales”. Fuera de estas citas, no se proporcionó un documento concreto donde se explique el diseño de la muestra.

En la segunda etapa ocurrida en 2013, se tiene un cambio de modelo muestral cuya justificación no queda clara, salvo que se indica: “con la finalidad de mejorar la eficiencia de los estimado-res se propuso combinar la estratificación que ha manejado EXCALE en los levantamientos de datos anteriores con la estratificación que emplea la prueba PISA” (Diseño muestral para sexto de primaria 2012-2013). De nuevo, se carece de un documento técnico donde se justifique la metodología para llegar a la muestra.

Puede comentarse que un aspecto criticable del primer diseño es la forma en que se abordaba el problema de atrición o merma en la cantidad de personas en la muestra. El modelo consis-tente en un muestreo bietápico (escuelas-estudiantes) planteaba la forma de contender con los casos de unidades faltantes sustituyéndolas por otras equivalentes previa autorización del INEE; este procedimiento quedaba a criterio no sistemático que pudiera incidir en deficiencias muestrales. Desde 2011 se logró una mejora al perfilar la muestra tomando en cuenta la tasa de no respuesta y produciendo una lista de escuelas desde el diseño (Diseño muestral para el levantamiento de datos de los EXCALE 00, 3° de Preescolar, mayo 2011).

tt Se cuenta con la metodología de diseño que se utilizó para obtener versiones equivalentes y reportar los valores de diseño y experimentales que demuestren dicha equivalencia. No es aceptable reportar los resultados de la prueba sin evidencias de equivalencia entre versiones o formas.

En el manual técnico y en los otros documentos disponibles sobre el diseño de las pruebas de EXCALE se establece el modelo matricial y la forma de construir cada instrumento a partir de los reactivos del banco. El modelo garantiza la equivalencia de contenidos y especificaciones en número y tipo de ítems para cada uno de los bloques que ocupan las “celdas” de la matriz. En un principio no se tuvo en cuenta el propósito de hacer equivalente la escala desde el diseño, debido a que pudo dejarse esta equivalencia a cargo del proceso que realiza el programa Wins-teps® de análisis de Rasch. De acuerdo con el planteamiento del modelo de Rasch y siguiendo la misma consideración que se hace en la TRI, la escala carece de un origen fijo, lo cual obliga a definirlo utilizando criterios razonables en función de los ítems o de las personas; el criterio más utilizado y que utiliza Winsteps® por omisión consiste en centrar la escala en 0 lógitos (logits) en la media de las dificultades de los ítems.

Finalmente, el programa de calificación se encarga de realizar las operaciones matemáticas necesarias para lograr la equivalencia entre formas con base en ítems de anclaje. Esto implica la

Page 48: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

48

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

necesidad de reactivos ancla y utilizar uno de los bloques del diseño matricial como ancla entre versiones lo cual se explica en el documento sobre diseño de la prueba matricial. La ubicación del cero de la escala utilizando anclaje ya no corresponde con la media de dificultades de los ítems y por ello debe hacerse un análisis cuidadoso de los resultados para interpretar correcta-mente las medidas de los ítems y de las personas.

Para la metodología de construcción de las pruebas se consideran reactivos de respuesta cerra-da y de respuesta construida, estos últimos se califican con rúbricas con base en el modelo de crédito parcial que realiza el programa Winsteps®.

En el caso de las pruebas de lenguaje y matemáticas de 2008 se indican los principales criterios de rediseño de las pruebas: a) alinear la prueba a planes y programas de estudio; b) utilizar la mayor parte de los reactivos de versiones previas eliminando o modificando los que presentaron alguna dificultad en su validez de contenido y c) adicionar algunos reactivos de aspectos no explorados en versiones previas.

Si bien no queda del todo claro lo que se entiende por “dificultad en la validez de contenido”, al parecer el documento del INEE pretende indicar que en algunos reactivos se tuvieron dificul-tades para identificar los elementos de validez por parte de los responsables del diseño de los bancos y de las prueba y posiblemente es el sentido más apropiado para este criterio.

El manual de procedimientos dice que la subdirección de Pruebas se encarga de construir las versiones que se envían a impresión. Posiblemente la descripción más detallada se tiene en el documento “Propuesta de piloteo de reactivos 2005” donde se indica el procedimiento estadís-tico de asignación aleatoria en las versiones (sin embargo, no se encuentra referencia al proceso de selección de reactivos para la prueba ni tampoco al software para integrar las versiones).

El criterio principal apunta a garantizar los aspectos de contenido y las cualidades definidas por los especialistas, para comprobar que los ítems elegidos tienen parámetros aceptables; sin em-bargo, se recomienda que la media de dificultades de los bloques sea similar para garantizar la equivalencia métrica de las escalas de las versiones. No es explícito que esto se haga en forma automatizada ni sistemática y seguramente debe ser controlado por el responsable de la prueba de parte del INEE.

Los manuales técnicos de diseño y validación de ítems especifican las etapas requeridas para la producción de los reactivos y su validación por especialistas y muestran los formularios de verificación de los jueces y los criterios de aceptación.

tt La periodicidad de las aplicaciones se justifica con criterios teórico-metodológicos o logísti-cos sustantivos, distinguiéndolos de criterios políticos o de opinión.

De hecho, la vigencia de las versiones y los rediseños se asocia con los programas de estudio y se ha enriquecido a partir de los dominios de español y matemáticas, con otras áreas:

• Lectura (L)• Reflexión sobre los códigos escritos (C)• Redacción (R)• Matemáticas (M)• Civismo (V)

Page 49: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

49Aspectos psicométricos

• Geografía (G)• Historia (H)• Ciencias Naturales (N)

Sin considerar el caso de las pruebas de lenguaje y matemáticas, no es completamente evidente la lógica de la periodicidad de las aplicaciones, y la selección de las otras asignaturas a evaluar. Algunas de ellas se han aplicado una sola vez, por lo que se supone fines en cierto sentido exploratorios o experimentales, y han servido para responder a determinadas preguntas en el tiempo.

tt Se especifica y justifica el marco metodológico que integra en forma coherente los procesos y métodos que guían el desarrollo de la prueba.

En el documento del Plan General de la Evaluación se especifica el marco metodológico que integra los procesos y métodos que guiarán el desarrollo de la prueba. En documentos subsi-guientes también se presentan de manera coherente los procesos de desarrollo de la prueba que están esencialmente basados en el propósito de la evaluación. Cabe señalar que la docu-mentación requiere actualizarse a fin de reflejar cambios en los procesos.

Es de mencionar la coherencia del propósito de la prueba, puesta en evidencia en los distintos documentos proporcionados, y la consistencia de los procesos a fin de cumplir dicho propósito. Por ejemplo, la mayoría de los documentos técnicos y manuales de procedimientos comienzan explicitando los propósitos de las pruebas y la justificación de los procesos; esta información permite aclarar a los usuarios el porqué de los procesos, además de que ayuda a centrar a los lectores alrededor de los propósitos de la prueba.

tt Se especifica y justifica el modelo psicométrico usado para guiar desarrollo de la prueba.

Aunque los modelos psicométricos utilizados para el desarrollo de la prueba pueden inferirse a partir de los distintos materiales presentados, no existe un documento propiamente dicho en el que se describan los procedimientos psicométricos utilizados para el desarrollo y calificación de la prueba.

Es evidente que el modelo preponderante es el de Rasch, con uso de valores plausibles. En alguna parte del modelo se considera también la Teoría Clásica (TC), con énfasis en la dificultad como proporción de aciertos correctos y la correlación punto-biserial para estimar la discrimina-ción del ítem. Se sugiere contar con una versión actualizada de manual técnico general u otro documento específico para cubrir este criterio.

Al utilizarse el modelo de Rasch se tiene una aproximación diferente de la que se sigue en las pruebas ENLACE para las que se usa el modelo de tres parámetros. En una visión global de las tres pruebas, las agencias evaluadoras podrían justificar el uso de estos modelos diferentes por tratarse de pruebas censales en ENLACE y muestrales en EXCALE, pero seguramente debe analizarse la pertinencia de los modelos y plasmar el análisis en un documento aclaratorio para todos los usuarios.

tt Hay manuales técnicos que orientan de manera detallada todos los procesos involucrados en el desarrollo de la prueba.

Page 50: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

50

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Dentro de la documentación proporcionada existen manuales puntuales que detallan algunos de los procesos del desarrollo de la prueba. Entre los manuales proporcionados se encuentran: 1) desarrollo de reactivos; 2) establecimiento de niveles de rendimiento; (3) selección de las muestras; 4) impresión de cuadernillos de evaluación; 5) impresión de las pruebas; y 6) captura de datos.

No se presentaron guías o manuales que describan cómo fueron analizados los datos tanto del piloto como de la prueba operativa o que indiquen cómo se armaron las pruebas finales en base a los análisis y resultados de las aplicaciones piloto (criterios de selección de preguntas). Tampoco se presentaron manuales —generalmente conocidos como “Guía de usuario de da-tos”— que ayuden a un investigador a utilizar los datos, pese al el uso potencial de los mismos con fines de investigación.

3. Calibración y análisis psicométrico de las pruebas.

tt Se presentan los procedimientos psicométricos utilizados para determinar sesgo, funciona-miento diferencial e impacto adverso de la prueba.

Este es uno de los temas que cuenta con mayor documentación, especialmente en lo relativo a sesgo de la prueba y, en menor medida, sobre funcionamiento diferencial de los reactivos. Esta es una fortaleza de EXCALE y constrasta con ENLACE que no hace este tipo de análisis de forma sistemática y respecto del cual no cuenta con documentación.

En el último criterio de la sección 4 de este capítulo se presenta el detalle de los análisis de funcionamiento diferencial de los ítems (DIF), para este criterio interesa el funcionamiento de la prueba en su conjunto. Puede anotarse que hay estudios técnicos para el análisis de DIF desde 2010 y varios estudios sobre diferencias observadas en los resultados entre estados o grupos (especialmente tipos de escuela y género), pero no se presentan asociados explíci-tamente al análisis de funcionamiento específico de los reactivos que hace Winsteps® (por ejemplo: El aprendizaje en tercero de preescolar en México, Backhoff, Andrade, Sánchez y Peón, 2008; El aprendizaje en sexto de primaria en México, Sánchez y Andrade, 2013).

En otros documentos como por ejemplo “Adaptación lingüística y cultural de pruebas de logro académico” (Solano, 2011, en INEE una década de evaluación) se cita la importancia del DIF y se cuenta con resultados y comentarios en Pertinencia de la traducción y adaptación de los Exá-menes para la Calidad y el Logro Educativos (EXCALE) de preescolar a la lengua maya (Backhoff, Contreras y Solano, 2012). Estos casos son discutidos por el grupo de validez cultural en esta evaluación.

Más allá de estos casos, no se cuenta con un manual técnico o una nota técnica general y bien detallada sobre funcionamiento diferencial de ítems, salvo una mención en la tabla de desarrollo del proyecto que aparece en “Plan general de evaluación del aprendizaje. Proyectos nacionales e internacionales” (Backhoff y Díaz, 2005), por lo que resultará de importancia de-sarrollar dicho manual.

Otra vertiente respecto de las diferencias de funcionamiento de las pruebas en grupos espe-cíficos de personas, se presenta con los análisis de sesgo a través de varios procedimientos.

Page 51: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

51Aspectos psicométricos

El primero es realizado por comités específicos para cada prueba, como se describe en el manual del plan general de evaluación, que presenta claramente la constitución de comités de validación por sesgo; se señala que se hace predominar el aspecto criterial y de contenido más que el de los aspectos cuantitativos procedentes del análisis psicométrico. Este análisis de sesgo se realiza hasta alcanzar un consenso entre especialistas con base en experiencia y criterio propios. El segundo procedimiento está indicado en el manual de validación de reactivos con criterios específicos para determinar el sesgo por diseño (lenguaje, estereotipos, descalificación, género, etcétera.). En el caso de diferencias culturales se plantea una metodología de comparación de muestras de grupos focales; este aspecto es analizado y discutido en esta evaluación por el equi-po encargado del análisis de validez cultural.

El tercer procedimiento para abordar el problema de sesgo se refiere al control que se establece en el diseño de las muestras. La documentación aclara que al diseñar la muestra se tiene cui-dado de no inducir sesgos por diversas razones, las cuales no están explícitas en sus tipos ni en las formas de determinarlos.

Finalmente, en los reportes que presentan resultados estadísticos de las aplicaciones se incluyen tablas con valores del estadístico que mide sesgo (posiblemente el sesgo a3 de Pearson aunque no está explícitamente indicado),1 lo cual implica asimetría en la distribución. Este sesgo puede estar asociado parcialmente con problemas de diseño, funcionamiento diferencial de los ítems, aspectos de aplicación y diferencias reales entre grupos.

Todas estas explicaciones y detalles demuestran que el análisis de sesgo, así como las previsio-nes para identificarlos, reducirlos o controlarlos, constituyen un aspecto atendido con mucho cuidado por parte del INEE y la mejora en la documentación seguramente es una tarea relativa-mente sencilla para los responsables del proyecto.

tt Se describen los análisis efectuados para detectar influencias de factores diversos en la calidad de la medición, como la habilidad de lectura o escritura, la comprensión espacial, la ansiedad, etcétera.

Aunque se cuenta con algunos elementos de base, este es un punto a mejorar. Por ejemplo, no se reportan resultados sobre los tiempos de respuesta en las prueba piloto, pero sí se encuentra prescrita la necesidad de contar con este tipo de estudios en el Plan General y en proyectos nacionales e internacionales de EXCALE. En dicho plan se menciona que se realizarían estudios de laboratorio para explorar la velocidad con la que se contestan los reactivos.

Lo que se controla con detalle se refiere a las aplicaciones piloto que se realizan con base en un modelo muestral descrito detalladamente en cuanto a número de sujetos y entidades federati-vas, que debe efectuarse en condiciones similares a las de la aplicación definitiva.

1 Hay diversas medidas de sesgo: a) diferencia de media y moda respecto de la desviación estándar; b) diferencia de

media y mediana respecto de la desviación estándar; c) sesgo en función de cuartiles; d) sesgo en función de percenti-

les 10 y 90; e) sesgo a3 de Pearson en función del tercer momento respecto de la media, como relación adimensional

respecto del cubo de la desviación estándar Se pueden definir otras medidas de sesgo en función del área de la curva

normal ajustada a los datos y la diferencia entre la distribución observada y la esperada teórica. Ninguna de estas

medidas se asocia con DIF. No se especifica en la documentación cuál modelo o parámetro se utiliza y la interpretación

difiere en función del coeficiente o modelo utilizados. Una referencia clásica de medidas de sesgo se tiene en: Spiegel,

M.R. y Stephens, L.J. (2008) Schaum’s outline of theory and problems of statistics. McGraw Hill. NY. Cap. 5.

Page 52: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

52

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Hay reportes y estudios sobre la influencia del conocimiento del idioma en el caso de la validez cultural, pero no se tienen trabajos específicos para poblaciones con discapacidad, ni estudios sobre copia, ansiedad, fatiga, etcétera. No se presenta un estudio propiamente dicho sobre la influencia de estos factores que se relacione directamente con el tamaño de la prueba.

Finalmente, se cuenta con normativas de aplicación y administración de las pruebas que se en-cargan de reducir o eliminar cualquier deficiencia en las condiciones de aplicación y que pudieran inducir diferencias en las respuestas de los estudiantes. A este respecto, EXCALE no tiene referen-cias explícitas a problemas de copia, como en el caso de ENLACE. Seguramente esto es debido a que como prueba muestral no tiene el mismo impacto en los evaluados que la prueba censal.

4. Confiabilidad de las pruebas.

tt Se describen los procedimientos usados para calcular la confiabilidad de las subescalas y versiones de la prueba. En particular se reportan los resultados del cálculo de consistencia interna de la prueba y sus subescalas.

El análisis completo del instrumento detalla los valores de alfa de Cronbach que se reportan en todos los casos, siendo valores superiores a 0.8 para la variable medida. No se reporta la separación logística que produce Winsteps® y solo se indica el alfa que también es proporcio-nado por el programa, equivalente a la expresión de Kuder y Richardson 20, en el caso de ítems dicótomos. Debe advertirse que el programa Winsteps® produce dos valores equivalentes para alfa (para personas y para ítems), pero solo el valor de alfa para las personas es el que debe reportarse; el alfa para los ítems es deficiente y carece de sentido en pruebas como las que se están analizando. Puede suponerse que el valor de alfa para las personas es el que se reporta por parte del INEE.

Los valores superiores a 0.8 son esperados para el tipo de prueba y el tamaño muestral. Debe tomarse en cuenta que se trata de conjuntos grandes de ítems, independientemente de que no todos los temas sean contestados por todos los estudiantes. La ausencia de respuestas no es una “omisión” sino una condición de “no administrado” o “no aplicado” a la persona; esta condición no es un problema para su tratamiento estadístico y es factible de analizarse con ayuda del software Winsteps® usado por el INEE, utilizando comandos de control específicos para este caso.

No se cuenta con información detallada de la escala general de la prueba ni de sus subescalas. Debido a que EXCALE no se centra en determinar medidas individuales, no se ha considerado la necesidad de reportar la escala ítems-medida que se obtiene con Winsteps® ni se muestran las distribuciones de los ítems en cada versión o bloque o en el total de bloques, no obstante, esta información está disponible al término de la corrida de este software y debería proporcionarse, como se indicó en un criterio previo, porque es información que puede ser útil en proyectos de investigación.

No se presentan evidencias de la confiabilidad de las pruebas finales. Si bien hay documenta-ción extensa acerca de los estadísticos calculados con base en las aplicaciones piloto, no se pre-senta esta información en el caso de las pruebas finales y operativas que son las que permiten reportar los resultados.

Page 53: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

53Aspectos psicométricos

En cuanto a los estadísticos de consistencia interna presentados, se hace uso extenso de los de ajuste de las preguntas (INFIT y OUTFIT). Debe anotarse que estos no son estadísticos de con-sistencia interna, sino que proveen información acerca de si la pregunta se ajusta al modelo y, por consiguiente, a una variable unidimensional medida por ella, lo que se puede entender (con mucha flexibilidad) como una medida de consistencia de la pregunta con respecto al resto de las preguntas en la prueba; de hecho el software Winsteps® provee la correlación punto-biserial que es la apropiada para estimar la relación entre el ítem y el resto de la prueba. Ahora bien, estos estadísticos solo se presentan para las aplicaciones piloto, y no para las aplicaciones ope-rativas. Aunque se supone que procedimientos análogos son utilizados para evaluar las pruebas finales y operativas, no se presentan evidencias al respecto.

Se reporta en numerosos documentos el valor de alfa de Cronbach y se asume a la correlación punto-biserial como evidencia de la validez del ítem dentro de un conjunto. El uso de la teoría G se cita en los casos de validez cultural, pero no se muestran resultados. El software Winsteps® permite obtener la separación logística que está relacionada con alfa de Cronbach, pero los valo-res de separación no se reportan. Dado el uso de valores plausibles, un estadístico no reportado es el error de medida.

tt Se dispone de resultados de correlación con aplicaciones repetidas.

No se presentaron evidencias de aplicaciones repetidas enfocadas a realizar estudios de con-fiabilidad. Dado que se utilizan modelos de prueba matricial, puede afirmarse que el uso de bloques en aplicaciones consecutivas constituye una situación de aplicación repetida, por lo que es importante presentar información respecto al funcionamiento de bloques en las distintas ins-tancias en las que se ha utilizado, a fin de comprobar que el bloque en cuestión, y las preguntas que lo conforman siguen funcionando de la manera esperada.

Un estudio cercano a lo que se pide en este criterio puede hallarse un estudio “puente” que se realizó cuando se decidió cambiar el esquema de composición de la pruebas y se presentan análisis detallados al respecto.

tt Hay un reporte con valores de separación del modelo logístico empleado.

No se presentan estas evidencias, tampoco se muestran resultados de la prueba operativa en cuanto a valores de separación del modelo logístico empleado. El dato de la separación es proporcionado directamente por Winsteps®, por lo que es claro que fue calculado, pero no se incluye en los reportes.

• Se reporta la metodología para el cálculo del error de diseño de la prueba y de sus subes-calas, o de sus partes o secciones y se reportan los resultados obtenidos en las aplicaciones.

Se incluye un documento en el que se explica la utilidad y la lógica de los valores plausibles para obtener estimados poblacionales. En esa documentación se describe como se calculan los errores de medición.

Además en los documentos acerca del diseño de la muestra, se muestran cálculos de los errores estándar esperados en base a la estructura de la muestra. Los errores estándar son calculados utilizando aproximaciones lineales de Taylor, y estos se combinan con los estimados de los erro-res de medición debido a la imputación de los valores plausibles.

Page 54: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

54

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Fuera de los documentos citados, no se proporciona más información acerca del cálculo de errores de la prueba operativa y tampoco se presentan estimados del error estándar en los resultados de las pruebas operativas.

tt Se presenta la metodología usada para análisis de funcionamiento diferencial y de sesgos asociados con las personas, con las pruebas y con las sub-escalas. Se reportan los resultados de los estudios realizados para determinar posibles sesgos.

Ya se apuntó en el primer criterio de la sección 3 de este capítulo, que el análisis de sesgo y de funcionamiento diferencial es —con la reserva de la conveniencia de mejorar la docu-mentación— una de las fortalezas de EXCALE. Se proporcionaron distintas referencias con respecto al análisis de funcionamiento diferencial de ítems y personas, además de algunos estudios de sesgo.

Con relación al análisis de funcionamiento diferencial de los reactivos se cuenta con el reporte técnico: “Modelo para detección de funcionamiento diferencial de reactivos (DIF) en pruebas INEE” (González-Montesinos, 2010) donde se presenta el procedimiento de determinación de DIF proporcionado directamente por el programa Winsteps® para distinguir la diferencia de funcionamiento en subgrupos a lo largo de las medidas en todo el dominio de medidas. En el manual de Winsteps® se explica la forma en que el programa hace este análisis con base en las medidas del modelo de Rasch y una implementación del esquema de Mantel-Haenszel. Puede interpretarse que este análisis se realiza desde 2010 y que, en principio, se aplica a todas las pruebas de EXCALE, sin embargo, no se dispone de análisis similares para todas las pruebas.

Los estadísticos de las pruebas piloto son presentados y analizados por distintos grupos, aun-que no se hace referencia específica al tipo de acción que se toma al encontrar funcionamiento diferencial de las preguntas. Se incluye también un documento en el que se explicita el proce-dimiento para evaluar el funcionamiento diferencial de los ítems. En particular se establece que se realizarán estudios de funcionamiento diferencial de las preguntas en base a 1) género, 2) grupos de edad, 3) edad normativa y 4) modalidad educativa. Si bien existe la documentación técnica de que esto debe hacerse, no se presentan evidencias que en realidad se hizo con las pruebas operativas, aunque puede verse que se generaron algunas de estas estadísticas con las pruebas piloto.

Los manuales de elaboración de los reactivos dedican una sección a la forma de evitar el fun-cionamiento diferencial de los ítems. El procedimiento se basa en 1) proporcionar a los elabo-radores de las preguntas un conjunto de lineamientos claros sobre la elaboración de los ítems a fin de minimizar el funcionamiento diferencial, y 2) establecer distintas fases de evaluación de los reactivos previos a su utilización en una aplicación piloto u operativa. Se carece en este mo-mento de evidencia sobre la aplicación y confirmación de que estos principios fueron aplicados en la prueba operativa utilizada para presentar resultados a nivel público.

Conviene mencionar que se cuenta con un documento en el que se reporta un estudio de validación de algunas preguntas de la prueba aplicada en castellano y en maya. Si bien este no es un análisis diferencial de las preguntas propiamente dicho, estudios de este tipo ayudan a informar los procesos de elaboración de preguntas y, a fin de cuentas, contribuyen a minimizar —o hasta cierto punto controlar— la presencia del funcionamiento diferencial, al resaltar la posibilidad de los efectos por razones culturales y de lenguaje en el desempeño en las pruebas.

Page 55: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

55Aspectos psicométricos

CRITERIOS TÉCNICOS SOBRE LA CALIDAD DE LOS ÍTEMS Y DE LOS BANCOS DE REACTIVOS

5. Análisis psicométrico y de calidad de los ítems.

Modelo calibración y criterios p. aceptar, modificar, etcétera. (12.1)

tt Se cuenta con un documento que describe el modelo de calibración de reactivos y los crite-rios para su aceptación, revisión y modificación.

El análisis de reactivos se realiza de forma central y exclusiva con ayuda del software de análisis de Rasch: Winsteps®. El modelo es ampliamente conocido y se refiere en varios documentos técnicos del INEE, pero no hay un manual específico que presente de manera formal el modelo de calibración de reactivos. En algunos documentos se cita el uso de Winsteps®, donde se indican valores de cotejo (por ejemplo: El aprendizaje de la expresión escrita en la educación básica en México. Sexto de primaria y tercero de secundaria, de Backhoff, Peón, Andrade y Rivera, 2006; Factores asociados al aprendizaje de estudiantes de 3º de primaria en México de Backhoff, Bouzas, González, Andrade, Hernández y Contreras, 2008).

No se cuenta por lo tanto con un documento tipo “manual técnico” para la aceptación de los valores procedentes del análisis, en particular en cuanto a medida y ajuste al modelo y se dejan al uso “generalmente aceptado” de los parámetros en la práctica habitual. Queda claro, sin embargo, que los análisis se realizan dentro de cada variable y no en forma globalizada para toda la prueba. Esto es especialmente importante para medir la correlación punto biserial como medida de homogeneidad o de pertenencia como evidencia de validez del ítem respecto del conjunto o dominio del cual forma parte.

En otras publicaciones acerca de los resultados de EXCALE se señala que se utiliza ConQuest para producir los valores plausibles, pero en la documentación revisada no se hace mención explícita al uso de este software para el análisis y calibración de los ítems.

tt Se explicitan los procedimientos utilizados para efectuar el análisis de ítems (dificultad, dis-criminación, ajuste (fit), distractores, dimensiones, etcétera.)

Como extensión del punto anterior, los procedimientos quedan a cargo del software Wins-teps®, por lo que los interesados se ven obligados a referirse al manual de usuario de dicho programa. Es correcto referir al lector al manual del software, pero esto no es pertinente para garantizar la conveniencia de las interpretaciones, de ahí la necesidad de que el INEE disponga de un documento propio donde se indique el compromiso que se tiene con el análisis de ítems.

Se sabe que por su propósito así como por las características de diseño (modelo matricial, aplicación muestral), EXCALE no tiene la pretensión de emitir resultados particulares por cada estudiante, ni pretende describir los resultados para todas las escuelas. En consecuencia se incorpora en la producción de los reportes y de sus interpretaciones la técnica de valores plausi-bles, de manera similar a la prueba PISA entre otras. Esta metodología difiere significativamente de las pruebas ENLACE aplicadas por la SEP en forma censal.

Page 56: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

56

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Con el uso de los valores plausibles se pretende reducir o evitar sesgos para la apreciación de los grupos específicos que intervienen en la aplicación. Solo hay dos documentos donde se hace mención a su uso, así como a referencias de autores como Wu y Adams que han trabajado con esta técnica en el caso de las pruebas PISA. Por otra parte, el software ConQuest que permite producir las salidas de los valores plausibles, solo es citado en una ocasión como parte de las referencias, sin presentar los valores obtenidos ni su uso específico. Es de observar que las aplicaciones de los valores plausibles aparecen en otros proyectos del INEE pero no en el caso de EXCALE.

6. Calidad y gestión de los bancos de reactivos.

Se cuenta con una normativa para revisar, corregir y desechar reactivos en función de los re-sultados de la calibración, tomando en cuenta un conjunto de varios parámetros y evidencias.

Aunque en el Plan General (Backhoff y Díaz, 2005) se cita la existencia del “Manual técnico so-bre el análisis psicométrico de los ítems” no se contó con dicho manual dentro de la documen-tación entregada ni se encontró en el sitio del INEE. En cambio, se tienen diversos documentos (como los citados en la sección previa) donde se describe el uso del software Winsteps® de análisis de Rasch, así como la interpretación general de los parámetros para la aceptación de los reactivos al banco.

Los criterios para conservar o desechar ítems están citados en algunos de los estudios, es decir, forman parte de reportes técnicos e informes. La normatividad para la revisión o validación de los reactivos se presenta en un manual desarrollado con claridad para los evaluadores pero no se pide que los revisores interactúen específicamente con los parámetros estadísticos del mo-delo de Rasch.

Los valores de referencia generales indican el intervalo de aceptación para el valor esperado del ajuste al modelo de Rasch. En particular se utiliza la media cuadrática de INFIT o de OUTFIT, dos de los parámetros de ajuste de Winsteps® que tienen un valor esperado de 1.0; en algunos de los documentos se establece un intervalo de aceptación de 0.7 a 1.3, mientras que en otros el intervalo corre de 0.8 a 1.3. Para la aceptación de la correlación punto biserial, EXCALE exige valores superiores a 0.15 o 0.2, independientemente de que el ítem sea dicotómo o policótomo.

tt Es posible revisar los inventarios del banco de reactivos, debidamente clasificados y con valores psicométricos o edumétricos. No es aceptable que la prueba carezca de inventario o que haya reactivos sin calibración.

Los inventarios de reactivos están disponibles y se cuenta con una muestra de ellos acompa-ñados de sus datos psicométricos. En lugar de contarse con ese tipo de guías, el INEE produce numerosos estudios, publica investigaciones y reporta varios trabajos que permiten interpretar los resultados con gran impacto en la sociedad y en los grupos de interés.

Page 57: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

57Aspectos psicométricos

tt Se cuenta con una normativa para el uso de los reactivos, indicando su vigencia en el banco o en las versiones, forma de almacenamiento en medio informático o físico y forma de ac-tualización para uso posterior.

No se tiene un documento en este sentido, pero queda la intención de conservar los ítems para una aplicación y se renuevan cuando hay rediseño de versiones, aunque no se indica específi-camente una vigencia para fines del banco. La forma de almacenamiento en la base de datos implica que una vez que el reactivo ha sido revisado y admitido en el banco, no se tiene que va-lidar sino hasta que se desarrolle una nueva versión, cuando todos los reactivos que participan en dicha versión son revisados en conjunto.

- En los citados inventarios aparece el contenido de trabajo del ítem con los datos procedentes del análisis de Rasch: Medida (en lógitos) y ajuste (INFIT, media cuadrática).

- También se tiene la correlación punto biserial global y para cada opción.- Finalmente se presenta la gráfica de distribución de respuestas observadas y la curva del modelo de Rasch.- En la parte inferior se presenta un dictamen final del reactivo

Page 58: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

58

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

CRITERIOS TÉCNICOS SOBRE LA CALIFICACIÓN Y LOS NIVELES DE DESEMPEÑO

7. Calificación de los estudiantes.

tt Está disponible el documento que explica la forma en que se asignó calificación a estudian-tes (normativa, criterial u otra).

Para la calificación se trabaja con el modelo de Rasch, utilizando ConQuest, traduciendo la medida en lógitos a una escala en el intervalo de 200 a 800 puntos, centrada en 500 puntos y con una desviación de 100 puntos

Al usar el modelo de Rasch se está trabajando con un modelo invariante que asigna las puntua-ciones a partir del número de aciertos, es decir, dos estudiantes que tienen el mismo número de aciertos en un mismo subconjunto de ítems tienen la misma medida, independientemente de cuáles ítems hayan contestado. Ahora bien, el cálculo de los puntajes basados en un modelo Rasch está modificado con el uso de valores plausibles, que introducen el uso de las variables de contexto en el cálculo de los puntajes individuales.

Este modelo de calificación difiere del de ENLACE, en donde no se utilizan valores plausibles, y la relación entre la habilidad del individuo y la respuesta al ítem es definida en función a tres características de los ítems: dificultad, discriminación y adivinación.

Además del puntaje de calificación, cada medida tiene asociado un nivel de desempeño. Por tratarse de una prueba referida a criterio, se encarga a un grupo de especialistas el análisis de los ítems para establecer los puntos de corte y los niveles de desempeño. Para ello se sigue una metodología de tipo “bookmark”, como se describe en “Manual técnico para establecimiento de niveles de competencia”, que consiste en analizar cada dominio por un grupo de especialis-tas que toman decisiones en forma colegiada apoyándose en los resultados psicométricos de los reactivos analizados.

tt Se cuenta con la explicación del diseño de la escala de la prueba y la forma de calcular los puntajes en dicha escala (por modelo clásico o logístico), con penalización o sin corrección por azar, entre otros posibles criterios.

La construcción de la escala no está explícita en la documentación y tampoco los valores reque-ridos para hacer el escalamiento (corrimiento de la media y escala para la desviación estándar), porque se trata de una operación matemática que realiza el software de manera directa, como se explica en los documentos descriptivos del proceso de calificación en varios estudios. Debe recordarse que el procedimiento por omisión consiste en ubicar el cero de la escala en la media de dificultades de los ítems.

Al usar modelos de TRI, queda implícito que no se considera ninguna penalización ni corrección por respuestas incorrectas, y que en el modelo se considera nulo el parámetro de adivinación sistemática (o de pseudo azar).

Page 59: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

59Aspectos psicométricos

tt Se explica el procedimiento para obtener la calificación global como combinación de diver-sos instrumentos o partes de la prueba. No es aceptable la asignación global como prome-dio de promedios.

No es propósito del proyecto obtener un valor único de medida de los estudiantes y no existe lo que podría llamarse una calificación global de la persona. De entrada, el análisis de los puntos de corte se realiza con las calificaciones obtenidas por separado para cada dominio cognosci-tivo, lo cual responde al modelo matricial. Se cuenta con una normatividad o recomendación que establece que debe garantizarse que la prueba que recibe cada estudiante solo presenta los reactivos que definen un contexto acotado lo más posible al bloque matricial que debe resolver, con objeto de disponer de resultados unidimensionales tanto como sea posible, dentro de las limitaciones propias que se tienen en los instrumentos de medición.

8. Niveles de desempeño e interpretación de resultados

tt Existe el marco teórico-metodológico basado en currículo que justifica la organización en niveles de desempeño como estándares o sistema de interpretación de puntajes, junto con el procedimiento de asignación del valor del punto de corte en la escala.

En la documentación de las pruebas EXCALE se encuentra un manual dedicado al establecimieto de los niveles de competencia, en el cual se detalla el procedimiento para establecer los niveles de logro, incluyendo los pasos a seguir para la selección de los jueces y su entrenamiento, la forma-ción de distintos comités para el establecimiento de los niveles de logro, y la secuencia de pasos que deben seguirse en las sesiones donde los especialistas deben definir los niveles de competen-cia. De particular interés son las etapas explicitadas para la validación del proceso para establecer los niveles de logro y su utilidad.

El establecimiento de los niveles de competencia se basa en un estudio cuidadoso de los fines y usos de las pruebas, un análisis detallado de las preguntas, la elaboración de los descriptores de niveles y la selección de los puntos de corte que corresponden a cada uno de los niveles con base a las instrucciones proporcionadas.

De acuerdo con la documentación, las pruebas EXCALE evalúan los conocimientos y habilidades escolares de mayor énfasis en el currículo nacional. Su interés primordial es explorar los resultados de los currículos formal e implementado por mediación del currículo logrado. Así, se entiende que la selección de los puntos de corte se define atendiendo las expectativas curriculares; expertos curriculares y profesores en ejercicio son seleccionados para establecer los descriptores de nivel así como los puntos de corte.

tt Se dispone de respaldo documental que especifica el procedimiento (criterial o mixto) para determinar los niveles de desempeño o estándares.

Se especifica un procedimiento combinado en el que se reúne a expertos en la materia a quie-nes se pide primeramente describir los niveles de desempeño deseados. Estas descripciones se toman como insumo por un segundo comité que trabaja con base en un procedimiento que modifica y combina los métodos de “bookmark” y Angoff, para determinar los puntos de corte que definen los niveles de desempeño en la prueba. Los jueces encargados de establecer estos

Page 60: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

60

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

puntos de corte reciben datos empíricos con base en los resultados de las pruebas, lo que les permite refinar o revisar su selección. Por separado, se dispone de un segundo grupo de exper-tos que se encarga de revisar y evaluar la idoneidad de los puntos de corte seleccionados por el primer grupo de expertos. Este procedimiento mixto de selección permite revisarlos y refinarlos, además de añadir procesos de verificación de los puntos de corte con la ayuda de varios comités de especialistas.

Dado el procedimiento utilizado se hace explicita la relación entre las puntuaciones y las cate-gorías de dominio o niveles de desempeño. Específicamente, con el procedimiento de “book-mark” se convoca a un conjunto de jueces a quienes se les proporciona un cuaderno de ítems ordenados por dificultad; se les pide escoger el ítem o reactivo al que una persona del nivel X pueda responder correctamente, entendido esto como si la mayoría de los sujetos de dicho nivel pudieran responderlo correctamente, tomando como referencia una probabilidad de al menos 67% de dichas personas.

Ahora bien, las instrucciones que se presentan en la documentación del procedimiento deben mejorarse porque parecen un poco confusas al indicar que “el cambio de nivel de logro se producirá cuando surge un reactivo del que se entiende es razonable que un sujeto del nivel actual no lo pueda responder.” En este sentido, lo “razonable” seria en sí que la probabilidad de resolverlo sea menor a 67%.

tt Los estándares desarrollados a partir de comités de jueces, cuentan con el análisis del do-minio curricular o tienen en cuenta consecuencias empíricas de la identificación de puntajes de corte.

Como ya se señaló, en la documentación proporcionada por el INEE se describen en detalle los procedimientos a seguir a fin de establecer los puntos de corte. Los estándares son definidos por comités de jueces expertos con diversas credenciales, entre los que se encuentran profe-sores en ejercicio, expertos curriculares, investigadores educativos, al igual que el responsable encargado de la prueba por el INEE.

Durante el proceso de selección de los puntos que limitan los intervalos, los jueces que escogen los puntos de corte reciben retroalimentación respecto a las consecuencias empíricas de su elec-ción. Esto permite utilizar un esquema de rondas que posibilita a los jueces revisar o modificar sus decisiones, hasta lograr cierto nivel de acuerdo entre ellos.

Es importante mencionar que la elección de puntos de corte para los estándares no es un pro-ceso exacto,sino de revisión de opiniones a fin de lograr un consenso entre los participantes. En particular se trata de definir la forma en que los puntos escogidos representan la intención de la prueba y proveen una clasificación de los estudiantes; la utilidad de estos puntos depende de su correspondencia con la intención curricular y con la representación “gruesa” de la evaluación de los resultados de la instrucción.

tt Los puntos de corte se validan con procesos de juicio o mixto (juicio-empírico); se demuestra experimentalmente su ubicación y se reporta el intervalo de confianza correspondiente.

No se presentan los puntos de corte finales de las pruebas, pero sí se describe el procedimiento mediante el cual se validan por medio de juicios empíricos, para lo cual se proporciona a los jueces información respecto a los resultados de su elección de los puntos de corte específicos y

Page 61: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

61Aspectos psicométricos

se les presenta información comparativa de dicha elección, al igual que la variabilidad de éstos. Hubiese sido ideal revisar resultados específicos de una de las pruebas EXCALE a fin de analizar la evidencia de que fueron seguidos fielmente los procedimientos delineados en el manual técnico.

No se dispone de documentación sobre los valores del error estándar, ni sobre los intervalos de confianza de los puntos de corte. Esta información es importante porque permite reforzar la toma de decisiones por parte de los jueces y documentar el proceso.

tt Hay evidencia empírica de que los niveles de desempeño están bien graduados y discriminan bien en relación a contenido de prueba.

Dentro de la información suministrada para la elaboración de este reporte no se presentan re-sultados específicos de alguna prueba, y por consiguiente no se dispone de evidencia empírica de la graduación y discriminación de los puntos de corte utilizados.

Sería de utilidad presentar información acerca de la cantidad de reactivos o preguntas clasifi-cadas dentro de cada uno de los niveles de competencia definidos; ello permitiría estimar la capacidad de la prueba de discriminar a los estudiantes en cada uno de los niveles reportados.

tt Se cuenta con la metodología y evidencia del proceso realizado para describir el significado de los niveles de desempeño o del conjunto de competencias por nivel en términos de los puntos de corte.

Existe un manual técnico para el establecimiento de los niveles de competencias y la elaboración de los descriptores de niveles en el que se describen en detalle los procedimientos a seguir y los roles de los distintos actores en el proceso.

Si bien existe un documento general que asumimos se debe seguir en todas y cada una de las pruebas EXCALE, no se presentan evidencias del proceso específicamente realizado en ninguna de ellas.

tt Se tiene el documento que detalla los desempeños por nivel para las competencias y con-tenidos propuestos en la prueba, así como otras interpretaciones pertinentes a partir de los resultados de las pruebas.

Se presentan lineamientos generales a seguir en cada una de las pruebas, pero no se proporcio-na evidencia de que el procedimiento se ha llevado a cabo tal cual lo especificado.

A pesar de eso, se sobreentiende que se utilizan la misma cantidad y descriptores de niveles en todas las materias y grados de las pruebas EXCALE, lo que facilita la comparación y descripción de los resultados independientemente de la prueba en cuestión.

Específicamente se utilizan estas categorías para definir niveles de desempeño:

1. Por debajo del nivel básico: indica carencias importantes en el dominio curricular de los conocimientos, habilidades y destrezas escolares que expresan una limitación para seguir progresando satisfactoriamente en la materia.

Page 62: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

62

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

2. Básico: indica el dominio imprescindible suficiente, mínimo, esencial, fundamental, o elemental de conocimientos, habilidades y destrezas escolares necesarias para seguir progresando satisfactoriamente en la materia.

3. Medio: indica un dominio sustancial (adecuado, apropiado, correcto o considerable) de conocimientos, habilidades y destrezas escolares, que pone de manifiesto un buen aprovechamiento de lo previsto en el currículo.

4. Avanzado: indica un dominio muy elevado (intenso, inmejorable, óptimo o superior) de conocimientos, habilidades y destrezas escolares que refleja el aprovechamiento máximo de lo previsto en el currículo.

tt Los integrantes de los comités encargados de definir niveles de desempeño son selecciona-dos por sus perfiles académicos o laborales y por su representatividad dentro de la diversi-dad cultural del país; dichos integrantes pasan por un proceso de capacitación orientado al manejo de la metodología a utilizar.

No se presentan ejemplos o listados de los integrantes de los comités de niveles de logro, aun-que se señala que se cuenta con dos comités para el establecimiento y definición de los niveles. El primero, Comité de Niveles de Logro, (CNL), se encarga de la elaboración de descriptores, mientras que el segundo, Comité de identificación de Puntuaciones de Corte, (CPC) se encarga de identificar los reactivos que pueden servir de “punto de inflexión” entre dos niveles de logro, los cuales dirigen la identificación de las puntuaciones de corte que los separan.

El CNL está compuesto por un número reducido de especialistas en currículo y en investigación educativa, así como por el coordinador(a) de cada prueba, que actúa como conductor(a) del comité; intervienen también profesores en ejercicio, conocedores del funcionamiento real de la materia y de los alumnos tipo. El CNL debe ser independiente del CPC que posteriormente trabaje en la identificación de puntuaciones de corte. El número de miembros del comité será de cinco participantes.

En el manual técnico para el establecimiento de los niveles de competencia se establecen linea-mientos específicos sobre el entrenamiento de los jueces y de los comités que determinan los puntos de corte. El entrenamiento se lleva a cabo en varias etapas en las que los miembros del comité tienen la oportunidad de escoger puntos de logro y recibir retroalimentación respecto a su selección. En total se prevén tres rondas de prácticas antes de realizar la selección final de los puntos de corte.

CONCLUSIONES

EXCALE se ha revelado como un proyecto de varias pruebas que se enfoca a diagnosticar el estatus del sistema educativo nacional, por medio de un modelo muestral. Con base en este objetivo y debido a las implicaciones y el impacto que tienen los resultados de las pruebas, la mayoría de los usos son pertinentes para los fines propuestos, con lo que se favorece que el proyecto cuente con más ventajas que ENLACE.

Una de sus principales fortalezas es la gran cantidad de estudios y materiales informativos producidos por el INEE. Sin embargo, un área de oportunidad es la producción de un manual

Page 63: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

63Aspectos psicométricos

técnico actualizado, coherente y debidamente documentado que sirva como fuente única de referencia. La fundamentación de EXCALE con base en el Plan General de la Evaluación sirve de base principal para la mayoría de los documentos técnicos y los manuales de procedimientos del INEE, porque todos utilizan dicho Plan para definir los propósitos de las pruebas y la justificación de los procesos.

Otra fortaleza relativa al diseño de las pruebas es el uso del modelo matricial que equivale a contar con una batería de instrumentos que permiten cubrir una gama muy amplia de conteni-dos y competencias, facilitan el piloteo, la equiparación, las comparaciones y las descripciones del sistema educativo nacional, estatal y en otros niveles de agregación.

Al tratarse de pruebas aplicadas a muestras de la población en EXCALE se trabaja con el modelo de Rasch y la técnica de valores plausibles. Otro aspecto notable es que cuenta con numerosas revisiones y justificaciones sobre sesgos donde se presentan datos de gran relevancia, reflejan-do aproximaciones metodológicas a través de comités de validación, definición de criterios para revisar sesgos de diseño, comparación entre grupos focales y otros enfoques.

Una fortaleza más es el desarrollo de las especificaciones de los ítems, que describen detallada-mente los elementos requeridos para dar calidad a la elaboración de las preguntas, su ubicación en los constructos y el desempeño medido. Sin embargo, esta descripción parece ser demasia-do exhaustiva y podría reducirse un poco para agilizar su uso entre los diseñadores y analistas que lo requieran. En cambio, parece importante que se complemente la descripción sobre los constructos de cada subescala, detallando el procedimiento mixto y los resultados disponibles con aplicaciones empíricas. El INEE cuenta con documentos normativos para el diseño, revisión y validación de reactivos de utilidad para los especialistas miembros de comités. Por ejemplo, es importante el marco teórico-metodológico que justifica niveles de desempeño o de compe-tencia desarrollados con apoyo de grupos de expertos, con esquemas de tipo “bookmark” y Angoff o con base en los resultados de las pruebas.

Dentro de los puntos a mejorar está la actualización del manual técnico, que fue producido en una versión inicial y no se ha puesto al día. Hace falta una nueva edición con los avances y resultados obtenidos, para mostrar la evolución y los elementos más vigentes con base en las es-pecificaciones propuestas. El manual técnico deberá recopilar y organizar la información que en este momento está contenida en trabajos de investigación, documentos específicos, informes, estudios de funcionamiento diferencial de ítems y análisis comparativos para diversos grupos socioeconómicos y culturales. Del mismo modo, en el manual debe describirse el diseño de las muestras o la especificación para seleccionar los reactivos para los bloques en el diseño matri-cial. Conviene llevar a cabo el análisis de diversos factores que inciden en el dimensionamiento de las pruebas y en los resultados, como la fatiga en los estudiantes, entre otros aspectos. El diseño muestral debe mejorarse o detallarse claramente, ya que la información disponible es limitada, máxime el cambio de modelo que se dio desde 2013, sin una justificación clara.

Debe contarse con un manual específico o, por lo menos, con un capítulo en el manual técnico que haga explícitos los criterios de aceptación de los ítems utilizando el modelo de Rasch y el modelo clásico, evitando que se tengan que encontrar en documentos variados no integrados. Además, será de utilidad contar con los datos métricos de las subescalas aprovechando los reportes que produce el software de análisis de Rasch y precisiones sobre la confiabilidad obte-nida con el modelo logístico.

Page 64: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

64

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

El INEE podrá realizar otros trabajos de investigación citados en el Plan General de Evaluación, entre los que pueden mencionarse:

a) Estudios:

• Análisis de constructos en función de los niveles de desempeño.• Análisis factoriales para identificar constructos y dimensiones métricas de las pruebas

y de las subescalas.• Validez de criterio con respecto de otras pruebas.• Error de medida como información necesaria sobre la precisión de las pruebas,

pudiendo calcularse con modelo clásico o con TRI. • Equiparación entre versiones de un mismo año y en pruebas longitudinales. En este

caso se trataría de sistematizar la información para disponer de documentos integra-dores que faciliten las comparaciones.

• Análisis multinivel para describir los conjunto de variables explicativas donde se in-volucren los anidamientos por salón, escuela, entidad, entre otros posibles niveles.

b) Manuales

• Diseño muestral.• Sistema informático para la administración de los bancos de reactivos, su almacena-

miento y la generación de pruebas.

Page 65: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

65

3 Atención a la diversidad cultural

Validez cultural se define como el grado en que el diseño, el proceso de desarrollo y el contenido de una prueba toman en consideración la forma en que factores culturales, lingüísticos y socioeconómicos no relacionados con los constructos de interés influyen en la ma-nera en que los estudiantes interpretan el contenido de los ítems y la forma en que responden a ellos (Solano-Flores, 2013; Solano-Flores y Nelson-Barber, 2001).

La evaluación de la validez cultural de las pruebas EXCALE se efectuó con base en los doce cri-terios que los autores de este reporte propusieron el 25 de octubre de 2013: 1) Marco concep-tual de la prueba; 2) Especificación de las poblaciones; 3) Estrategia para considerar diversidad cultural, lingüística y socioeconómica; 4) Especificación de ítems; 5) Profesionales involucrados en el desarrollo de los ítems; 6) Representación de poblaciones diversas en las muestras de es-tudiantes piloto; 7) Validación cognitivo-cultural; 8) Revisión; 9) Análisis de sesgo; 10) Estudios de generalizabilidad; 11) Tiempos y calendarios; y 12) Mecanismos de corrección.

Este informe reporta los resultados del análisis de la documentación de las pruebas EXCALE. Los materiales revisados incluyeron toda la documentación de la prueba que el INEE puso a disposición de los miembros del comité, vía su sitio web, la cual incluyó los manuales técnicos de las pruebas, bases de datos, reportes de estudios especiales, y presentaciones a diversas audiencias de las características de la prueba. Dichos documentos abarcan un período de seis años: de 2007 a 2012.

Además de la revisión de los documentos mencionados, los autores de este reporte efectuaron el microanálisis de una muestra aleatoria de ítems de matemáticas y de español, de acuerdo con la metodología descrita por Solano-Flores y Trumbull (2003). Tal análisis pretende identifi-car los aspectos gramaticales y pragmáticos que, desde una perspectiva no empírica, pueden afectar negativamente la manera en que los estudiantes interpretan los ítems.

Los ítems fueron seleccionados aleatoriamente por personal del INEE, de acuerdo con las espe-cificaciones proporcionadas por los evaluadores. En lo que se refiere a matemáticas, se analiza-ron tres ítems de tercero de primaria, otros tantos de sexto de primaria y cuatro de tercero de secundaria, para un total de 10. En lo que se refiere a español, se revisaron también tres ítems de tercer grado de primaria y tres de sexto de ese nivel, pero sólo dos de tercero de secundaria, para un total de ocho en esta materia, y un gran total de 18 ítems analizados.

En el anexo 2 de este informe puede verse el análisis de esos 18 ítems, en el que se apoya un segmento de este apartado.

Page 66: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

66

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

1. Marco conceptual de la prueba. Considera cómo la efectividad en el aprendizaje,

la enseñanza y la evaluación de un contenido están influidos por la experiencia

socio-cultural del estudiante y su familiaridad con la lengua y el dialecto en que se

administran las pruebas.

El INEE ha producido una gran variedad de documentos que norman el proceso de desarrollo de las pruebas EXCALE. Además de los documentos internos diseñados para guiar el trabajo de los constructores de las pruebas, se han generado otros que presentan las bases conceptuales del proceso de construcción de pruebas. Adicionalmente, el INEE ha comisionado una serie de estudios técnicos relacionados tanto con sus pruebas nacionales como su participación en pruebas internacionales.

Como un todo, estas acciones y esta diversidad documental han generado una normatividad institucional necesaria para el desarrollo sistemático de las pruebas EXCALE. Tres documentos producidos por el INEE presentan información relevante a la conceptualización de las pruebas: el primero presenta sus características (Backhoff et al., 2005); el segundo describe los proyectos nacionales e internacionales (INEE 2005b); el tercero presenta el Plan Maestro de Desarrollo para el período 2007-20014 (INEE, 2006).

En el documento, Exámenes de la Calidad y el Logro Educativos (EXCALE), se ofrecen los razo-namientos que dan sustento conceptual y metodológico a las pruebas. El documento también reporta el trabajo organizativo para su diseño, construcción y validación.

En la descripción de los proyectos nacionales del plan general de pruebas, se presenta una discusión general de la intersección de los tipos de conocimiento (e.g., declarativo, procedi-mental, esquemático y estratégico) y las características de las tareas (e.g., demandas de las tareas, requerimiento cognitivo y apertura y complejidad). También se documentan los pasos que se siguieron para determinar los contenidos de las pruebas y los criterios para revisar la calidad técnica de las mismas. Estos criterios incluyen: alineamiento con el currículo nacional, calidad del contenido, complejidad cognitiva, evaluación significativa, propiedad del lenguaje, transferencia y generalización, y consecuencias pretendidas. Más aún, el documento refleja una preocupación por examinar validez, especialmente a través de las acciones que se toman durante el proceso de construcción de pruebas y de los estudios especiales comisionados por el Instituto.

El Plan Maestro identifica una serie de criterios constituyentes de un sistema educativo, mismos que han de orientar los esfuerzos evaluativos del Instituto. Junto con los criterios de pertinencia, relevancia, eficacia interna y externa, suficiencia y eficiencia, se identifica el criterio de equidad. Esta dimensión se refiere al grado con que la evaluación “[c]onsidera la desigual situación de alumnos y familias, de las comunidades en que viven y las escuelas mismas, y ofrece apoyos es-peciales a quienes lo requieren, para que los objetivos educativos sean alcanzados por el mayor número posible.” (INEE, 2006, p. 17).

Aunque hay claridad institucional acerca de las bases conceptuales y metodológicas para el desarrollo de las pruebas, su revisión, y su validación, hay tres observaciones importantes que plantear.

Page 67: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

67Atención a la diversidad cultural

La primera es que no existe un documento que presente formal y específicamente el marco conceptual de cada una de las pruebas EXCALE. La información y los razonamientos que se emplean para su desarrollo se encuentra esparcida en distintos documentos generados por el INEE. Basándose en la experiencia de sistemas de pruebas a gran escala, tales como NAEP, PISA y TIMSS, idealmente, debiera existir un documento titulado “Marco Conceptual de la Prueba EXCALE” para cada una de las áreas de contenido evaluadas. Dicho marco conceptual debiera presentar una visión del contenido en términos de los conceptos y las habilidades a evaluar, para cada uno de los grados.

A diferencia de NAEP, PISA y TIMSS, el desarrollo de las pruebas EXCALE ha contado con la ventaja de que en México existe un currículo común oficial (aunque éste bien puede ser muy diferente del implementado). En virtud de esta circunstancia, el trabajo conceptual para la iden-tificación de los contenidos y habilidades a evaluar se facilita en gran medida por la existencia de documentos curriculares oficiales. De hecho, el Instituto ha generado 30 análisis reticulares del contenido que permiten identificar las líneas evaluativas de las pruebas (véase, por ejemplo, INEE, 2011). Sin embargo, la ausencia de un documento conceptual integrador para cada área de contenido puede limitar la memoria institucional a largo plazo.

La segunda observación se desprende de la primera: en ausencia de un documento que pre-sente específicamente el marco conceptual para las pruebas correspondientes de cada área de contenido, no es posible discutir la relación entre los contenidos y factores lingüísticos y socio-culturales. ¿Cómo la forma en que un reactivo está escrito puede determinar diferentes interpretaciones entre distintos grupos lingüísticos y experiencias socioculturales? ¿De qué ma-nera el estilo de redacción de una prueba y los contextos que ésta usa en sus reactivos pueden estar sesgados en favor de un segmento poblacional específico? ¿Qué es lo que determina que un contexto sea igual o diferencialmente significativo para diversos grupos poblacionales? Estas son preguntas que debieran hacerse continuamente durante el proceso de desarrollo de pruebas. El marco conceptual es el documento clave para que los constructores de pruebas las tomen en consideración.

La tercera observación es que en gran parte debido a la ausencia de marcos conceptuales de las distintas pruebas EXCALE, no se proporcionan suficientes elementos conceptuales o meto-dológicos para el propio tratamiento de la diversidad. Ello a pesar de que en los documentos revisados se reconoce la importancia de la diversidad cultural y lingüística.

3. Especificación de las poblaciones. Como parte del desarrollo de la prueba se estable-

cen las características de la población objetivo que consideran la diversidad cultural

y lingüística del país y los múltiples contextos y escenarios culturales y ambientales.

Los documentos generados por el INEE en relación con las pruebas EXCALE, incluyendo los reportes técnicos, consideran cinco tipos de escuelas: urbanas públicas, rurales públicas, de educación indígena, cursos comunitarios, y privadas. El documento, Exámenes para la Calidad y el Logro Educativos, EXCALE, Sexto Año de Primaria 2012-2013: Diseño Muestral (INEE, 2014), contiene los razonamientos con base en los cuáles se han tomado muestras poblacionales por estado y tipo de escuela.

Page 68: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

68

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Globalmente, considerando la proporción de la población indígena con respecto al total de la población mexicana, los números incluidos en las muestras para los estudiantes indígenas son razonablemente altos. Sin embargo, debe notarse que el marco conceptual no hace un desglose por grupos indígenas o por grupos lingüísticos. Mejores generalizaciones de los resultados de las pruebas EXCALE podrían hacerse si los resultados pudieran desagregarse por grupo etnolin-güístico, en vez o además de hacerlo por entidad y por la categoría genérica indígena. Como ya se ha señalado, las implicaciones que conlleva el uso de una sola categoría para caracterizar la diversidad lingüística y cultural en México impide conocer el impacto real de las peculiaridades de cada una de las lenguas nacionales en su uso dentro y fuera del ámbito escolar.

Sin embargo, es importante mencionar que recientemente el INEE comisionó la elaboración de un estudio para determinar la pertinencia de la inclusión de poblaciones indígenas en las prue-bas EXCALE (Backhoff, Solano-Flores y Contreras-Niño, 2012). Dicha investigación ha examinado la validez de traducciones y adaptaciones de pruebas a las lenguas y los contextos indígenas y el tipo de acciones que se requerirían para hacer tales adaptaciones apropiadamente. El estudio revela que hay aspectos lingüísticos y culturales muy sutiles que son relevantes a la evaluación válida y equitativa, y que no pueden ser generalizados necesariamente para todos los grupos indígenas. Debido a la alta tasa de reemplazo por el español, muchas lenguas indígenas son muy inestables y los grupos que las hablan son lingüísticamente muy heterogéneos. Debido a esta inestabilidad, a fin de atender propiamente los aspectos de validez para los grupos indíge-nas, el diseño muestral de las pruebas EXCALE debiera desglosar a la población de las escuelas indígenas por grupo lingüístico, ya que casi todas las entidades federativas pueden tener varios grupos etnolingüísticos distintos tanto por su origen histórico como por migración.

El diseño de EXCALE toma en cuenta la diversidad socioeconómica de los estudiantes, aunque en el documento Acerca de la Validación de los EXCALE (p. 7) la unidad mínima de análisis es la escuela y no los alumnos. También menciona que se consideran factores como el género. Sin embargo, no es claro cómo se tomó en cuenta dicho criterio si la unidad de análisis es la escuela. El documento menciona:

Otro elemento sustancial de la validez es la consideración de las diferentes variables que pueden afectar al programa evaluado y, por ello, deben ser atendidas como elementos de contextualización. Los EXCALE deben aportar una información precisa y equiparable para todo el sistema educativo acerca de la calidad del aprendizaje de los estudiantes. Así, la representatividad muestral, el sistema de muestreo, los estratos a considerar en la confi-guración y definición de la muestra, entre otros elementos resultan clave en el proceso de validez. Asimismo, los EXCALE deben actuar sobre un estudio muestral convenientemente ajustado, no sólo en el diseño de la muestra, sino también en la muestra extraída. (Acerca de la Validación de los EXCALE, p. 11).

El mismo documento, en su página 12, menciona lo siguiente: ¿La muestra sobre la que se va a recoger información incluye alumnos representativos de todas las situaciones sociales, culturales y educativas que pueden darse en el sistema educativo mexicano y en la proporción adecuada a cada estrato?

Este estudio es solo un marco de referencia para futuras investigaciones sobre la validez de la prueba, por lo que concluye que:

Page 69: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

69Atención a la diversidad cultural

Hasta ahora es claro que la validación de los EXCALE comenzó desde su diseño, desarrollan-do un modelo en el que se han tenido en cuenta diversos elementos dirigidos a asegurar su validez. No obstante, esta tarea de validación es una tarea compleja, que deberá llevarse a cabo durante toda la vida útil de los EXCALE en el sistema de evaluación que realiza el INEE, sustentada en un plan completo de investigación evaluativa, como el que aquí se sugiere. (Ruiz-Primo, Jornet y Backhoff, 2006, Acerca de la Validación de los EXCALE, p.28).

En los cuestionarios sobre contexto, un estudio previo plantea que:

En esta línea, hay que señalar que son precisamente las informaciones relativas a la entrada (condiciones de la oferta educativa: recursos materiales, humanos, características de la población que atiende la escuela) y las de proceso (estilo de la enseñanza, estrategias y me-todología didáctica, clima social en el aula, violencia escolar, multiculturalidad…) las peor resueltas en este tipo de evaluaciones. En consecuencia la utilidad final que pueden aportar estas evaluaciones al funcionamiento escolar está muy limitada. Por otra parte, es evidente que cuando establecemos los perfiles personales o de grupo de los alumnos resulta inevita-ble hacer alusión a estas variables contextuales, procedentes del ámbito familiar, sociocul-tural, del grupo de iguales… (Informe sobre cuestionarios de contexto, INEE 2012, p. 11).

Este mismo estudio señala que:

Por otra parte, los aspectos sobre los que se recoge información, en muchos casos, puede considerarse que el alumnado no es la mejor fuente de información. Así, informaciones de contexto (como por ejemplo, la estratificación socio-ocupacional o el capital económico…) es posible conjeturar que no estén adecuadamente informadas por el alumnado. (Informe sobre cuestionarios de contexto, INEE 2012, p. 15).

Según dicha investigación, en los diferentes tipos de cuestionarios de contexto se recaba infor-mación referente a la condición étnica de los estudiantes y los docentes e información socioeco-nómica de los estudiantes y otras variables como necesidades especiales. Desafortunadamente, la adecuación de las generalizaciones de la información socioeconómica y el capital cultural está limitada cuando se depende casi exclusivamente del auto-reporte del estudiante.

En la revisión documental no se encontró evidencia de que se recabe información sobre el grado de bilingüismo y el tipo de lengua o lenguas que se manejan tanto en el ámbito extra-escolar de los estudiantes como dentro de las aulas (p. 21). Al respecto dicho estudio reconoce que:

Buena parte de las informaciones que pretendemos recabar a partir de cuestionarios de contexto presentan como debilidad inicial el hecho de que se extrae la información a partir de “informadores débiles”; por ejemplo, las informaciones socio-demográficas de las fa-milias del alumnado que atiende una escuela suelen pedirse al alumnado. Entre ellas, los estudios de los padres, o la situación laboral (que se han manifestado como indicadores de gran interés en estudios realizados a partir de diversos proyectos evaluativos, como por ejemplo, el Informe PISA) podría ser una información más fiable y válida si se recabara a partir de bancos de datos del INEE desarrollados en colaboración con las administraciones públicas de los Estados (en las escuelas, en el proceso de matrícula se pueden recabar estas informaciones). (p. 54).

Page 70: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

70

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Con base en esta revisión, es claro que existe la necesidad de recolectar más información sobre los factores socio-económicos que caracterizan a las diferentes escuelas. Tal información inclu-ye las características lingüísticas predominantes en el ámbito escolar (por ejemplo, las lenguas presentes en la escuela) y el grado de bilingüismo de los alumnos.

3. Estrategia para considerar diversidad cultural, lingüística y socio-económica. Como

parte del desarrollo de la prueba se hace uso de referentes teóricos y conceptuales

sobre cultura y lengua y se establecen procedimientos para tomar en consideración

la diversidad cultural, lingüística y socioeconómica del estudiantado mexicano.

Como se mencionó en la sección anterior, EXCALE está diseñado desde sus orígenes como una prueba muestral que considera el posible sesgo por origen socioeconómico, género, capacida-des especiales y condición lingüística. Sin embargo no se encontraron entre los documentos disponibles, estudios que examinen sistemáticamente las diferencias entre estos grupos.

4. Especificación de ítems. Los documentos que establecen los distintos tipos y forma-

tos de los ítems a incluir en la prueba proporcionan lineamientos para asegurar que la

información gráfica y contextual incluida en los ítems sea familiar para la mayoría del

estudiantado y reflejen una amplia variedad de contextos culturales.

Existe un manual técnico para la construcción de reactivos (INEE, 2005a). Adicionalmente, di-versos documentos sobre las características de las pruebas EXCALE (i. e. Backhoff et al., 2005) presentan información detallada sobre los procedimientos seguidos para el desarrollo de las pruebas.

Los formatos para crear reactivos y los ejemplos de especificación de reactivos en apoyo a esos formatos son especialmente demostrativos del trabajo al respecto. Los primeros promueven entre los constructores de las pruebas el desarrollo sistemático de ítems y la fundamentación de ese desarrollo. Los segundos ilustran el tipo de producto que se debe crear con esos formatos.

Aunque estos documentos consideran los posibles retos que el vocabulario empleado en la re-dacción de ítems puede plantear para que el alumno entienda su contenido, el tratamiento de estos retos es superficial. Los textos no proporcionan una base conceptual para profundizar en una serie de aspectos lingüísticos tales como: el registro y el lenguaje académico, las diferencias de dialecto y el sesgo debido al uso de formas de lenguaje específicas a un grupo determinado (e.g., clase media, medio urbano, centro del país) de la población mexicana. Tampoco toman en cuenta el tipo y grado de bilingüismo presente en los distintos planteles de las escuelas del subsistema de educación indígena.

5. Profesionales involucrados en el desarrollo de los ítems. Los equipos de profesionales

a cargo de desarrollar los ítems son multidisciplinarios; además de los expertos en

contenido, dichos equipos incluyen a profesionales con especialidades en el área de

la cultura e idioma (por ejemplo antropólogos y lingüistas) y a maestros de minorías

culturales y lingüísticas y de escuelas rurales y de nivel socioeconómico bajo.

Page 71: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

71Atención a la diversidad cultural

Los documentos de desarrollo de las pruebas EXCALE describen la participación de varios espe-cialistas en el personal de planta que desarrolla las pruebas y en los grupos de profesionales que realizan estudios comisionados o que forman parte de su consejo externo. Como ya se mencio-nó, estos especialistas incluyen maestros, especialistas en las áreas de contenido de las pruebas, psicólogos, pedagogos, especialistas en medición educativa, antropólogos y lingüistas.

Una observación en relación con este criterio es que debiera haber acciones apropiadas para asegurar que los profesionales de las ciencias del lenguaje y la cultura participen más activamen-te en todas las etapas del proceso de desarrollo de las pruebas, especialmente en las de control del desarrollo de los reactivos.

6. Representación de poblaciones diversas en muestras de estudiantes para piloto. Las

muestras de estudiantes con los que se pilotean versiones preliminares de la prueba

incluyen submuestras representativas de las minorías culturales, lingüísticas y socioe-

conómicas del país.

Como ya se señaló en las dos primeras secciones de este documento, EXCALE considera, desde sus orígenes, la necesidad de incluir muestras de todos los tipos de escuelas que existen en Mé-xico y toma en cuenta la diversidad social, cultural y lingüística (Ruiz-Primo, Jornet y Backhoff, 2006). Sin embargo no se explicita si durante el piloteo de los reactivos se incluyó a todos los diferentes tipos de escuela y a los distintos grupos etnolingüísticos del país.

Entre los documentos sobre piloteo disponibles (Piloteo 2005, Propuesta 2do. borrador; EXCALE 09: 2008; Cómo elegir escuelas; EXCALE-06 2013: Piloteo Especificaciones de Selección de Mues-tra; EXCALE 03 2010: Propuesta de Piloteo de instrumentos; EXCALE 03 2006: Diseño Muestral para el Piloteo de Reactivos), no se encontró evidencia de que ese piloteo se realice con diversas comunidades lingüísticas y diferentes tipos de escuelas. Tampoco se encontró evidencia de que la información colectada con estos grupos y escuelas haya influido en el proceso de refinamiento de las características de los ítems.

7. Validación cognitivo-cultual. Como parte del desarrollo de la prueba se efectúan en-

trevistas cognitivo-culturales para investigar si estudiantes de diversos grupos cultu-

rales, lingüísticos y socioeconómicos interpretan de la misma manera el contenido

muestras representativas de los ítems de la prueba.

No se encontró documentación de que se efectúen entrevistas o protocolos verbales para efectuar la validación cognitivo-cultural de las pruebas EXCALE. Las entrevistas cognitivas y los protocolos verbales figuran actualmente como parte de la familia de procedimientos para la validación de pruebas, que se emplean con muestras de ítems en los sistemas evaluativos más importantes del mundo.

En un futuro inmediato, a fin de estar a la par con las normas de desarrollo de pruebas, EXCALE deberá incluir dichas entrevistas. La diferencia entre la naturaleza “cognitivo-cultural” y la sim-plemente “cognitiva” de tales entrevistas radica en el contenido. Las entrevistas cognitivo-

Page 72: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

72

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

culturales tienen el mismo contenido que las entrevistas cognitivas, pero incluyen aspectos que permiten evaluar el grado en que el contexto socio-cultural de los estudiantes moldea la forma en que entienden los reactivos y por ende, su efecto en las pruebas. El uso y desarrollo de instrumentos para la validación cognitivo-cultural no es más caro ni toma más tiempo que el de instrumentos para la validación cognitiva. En contraparte, contar con información cogni-tivo-cultural permitirá elaborar mejores diagnósticos sobre las distintas modalidades educativas existentes en México y valorar el peso específico de las particularidades sociolingüísticas en el rendimiento de pruebas muestrales.

8. Revisión. Hay un proceso de revisión con jueces que considera fuentes de sesgo cultu-

ral, lingüístico y socioeconómico en muestras representativas de los ítems de la prueba.

Aunque los documentos de especificación de ítems contienen información para su revisión, no se ha desarrollado una metodología para la exploración formal de sesgo cultural, lingüístico y socioeconómico. Hambleton y Jones (1994) distinguen entre los procedimientos empíricos y los procedimientos basados en juicio para la revisión de sesgo. Idealmente, dichos procedimientos debieran usarse de manera mutuamente complementaria pero sistemática. Los primeros co-rresponden a las técnicas basadas en el funcionamiento diferencial de los ítems. Los segundos corresponden a las revisiones hechas por evaluadores que los examinan, y pueden conducir a la identificación de aspectos lingüísticos, contextuales y culturales que podrían afectar adversa-mente a algunos segmentos de la población.

A pesar de que existe un proceso de revisión de los ítems EXCALE, en aspectos lingüísticos, contextuales y culturales, tales aspectos no se tratan con profundidad. La implementación de procedimientos para atenderlos no sería difícil, dado el alto nivel de organización logística, como lo reflejan los documentos operativos publicados por el INEE (i.e. INEE, 2013). Es impor-tante que se incluya este tipo de revisión no sólo con fines diagnósticos, sino también para contar con información de primera mano sobre el rendimiento de las diferentes modalidades de escuela en pruebas muestrales (Evaluación de la Educación Pre-escolar Evepre, Reporte Técnico de la Aplicación Piloto, 2011).

9. Análisis de sesgo. Se efectúa el análisis del funcionamiento diferencial de una muestra

representativa de ítems para diversos grupos focales: estudiantes de distintos grupos

indígenas, estudiantes de distintas zonas geográficas, de nivel socioeconómico bajo

y de zonas rurales.

Se encontró documentación de análisis de los reactivos utilizando la TRI y TC para distintas subpoblaciones (véase, por ejemplo, INEE, 2012 a,b). Estas subpoblaciones incluyen: global (se-cundarias generales, técnicas, telesecundarias y privadas), secundarias generales, secundarias técnicas, telesecundarias, secundarias privadas, hombres, y mujeres. Tales análisis se efectúan como parte del piloteo de los ítems.

Sin embargo, no se encontró documentación de análisis de sesgo basado en el funcionamiento diferencial de los ítems. Es importante mencionar que, aunque entre los documentos que se pusieron a la disposición de los revisores está el titulado Modelo para la Detección de DIF en las

Page 73: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

73Atención a la diversidad cultural

pruebas del INEE, en realidad contiene un duplicado de un memorándum sobre la comparabili-dad de pruebas de lenguaje y comunicación.

La ausencia de una práctica rutinaria de análisis de sesgo de ítems EXCALE limita las posibili-dades de una evaluación justa y válida. También limita oportunidades para refinar los proce-dimientos de desarrollos de pruebas. Se recomienda que se establezcan los procedimientos para el análisis sistemático de sesgo, y que estos análisis incluyan género, grupo socioeco-nómico, tipo de escuela, región (rural vs. urbana), grupo etnolingüístico, y tipo y grado de bilingüismo.

10. Estudios de generalizabilidad. Se efectúan análisis de generalizabiliad para determinar

la confiabilidad y validez de las generalizaciones de calificaciones obtenidas con el

mismo conjunto de ítems para distintos grupos de estudiantes definidos por grupo

étnico y lingüístico, localidad y nivel socioeconómico.

No se encontró evidencia de que se efectúen estudios de generalizabilidad con conjuntos de ítems. Estos estudios permiten evaluar el grado en que la validez de las calificaciones puede variar entre grupos poblacionales así como cualquier diferencia importante en el tamaño de muestras de reactivos necesarios para poder hacer generalizaciones válidas de las calificaciones de las pruebas EXCALE.

11. Tiempos y calendarios. Los que se refieren a actividades que tienen como objetivo con-

siderar la diversidad cultural, lingüística y socioeconómica son razonables y factibles.

No se encontró en la documentación disponible para los evaluadores evidencia de que los tiempos necesarios para adaptar instrumentos o dar atención a las necesidades especiales de grupos marginados sean tomados en consideración en el diseño de los tiempos y calendarios. Ello no quiere decir que los tiempos y calendarios para el desarrollo de las pruebas EXCALE sean inadecuados. Sin embargo, de alguna manera debiera hacerse explícita la consideración de los grupos especiales como base para el establecimiento de tiempos y calendarios. En particular, resalta el hecho de que no se tomaran en cuenta este tipo de factores y, en cambio sí se men-cionara la posibilidad de encontrar escuelas en paro para el ajuste de las muestras.

12. Mecanismos de corrección. El proceso de desarrollo de pruebas incluye mecanismos

de corrección y mejoramiento de las pruebas con base en la información obtenida

respecto a validación cognitivo-cultural, la revisión, los análisis de sesgo y los estu-

dios de generalizabilidad de los ítems.

No se encontró en la documentación evidencia de mecanismos formalmente establecidos para dar atención a sesgo de ítems o fuentes de invalidez cultural. La ausencia de evidencia con res-pecto a este criterio, es resultado de que actualmente el desarrollo de las pruebas EXCALE no incluye estudios de validación cognitivo-cultural, procesos formales de revisión de ítems, análisis de sesgo y estudios de generalizabilidad de los ítems.

Page 74: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

74

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

CONSIDERACIONES FINALES

El sistema EXCALE cuenta con un conjunto de procedimientos y documentos normativos que le han permitido el desarrollo sistemático de sus pruebas. En términos generales, la documenta-ción revisada es evidencia de un trabajo cuidadoso para el desarrollo de pruebas y la toma de acciones básicas necesarias para asegurar que las pruebas desarrolladas tienen un mínimo de propiedades técnicas aceptables.

A pesar de estos logros, las acciones tomadas no incluyen los aspectos culturales y lingüísticos de manera suficiente y sistemática. Aunque la documentación revisada refleja el interés por considerar diferencias entre grupos etnolingüísticos, no se han tomado acciones para especifi-car poblaciones de grupos vulnerables con un grado de precisión mayor que el nivel socioeco-nómico o los grupos indígenas. Entre estas acciones podría estar la desagregación de los análisis por grupo etnolingüístico. Tampoco se efectúan análisis específicos de sesgo con tales grupos, ni el piloteo de los ítems parece incluir sistemáticamente comunidades lingüísticas diversas.

El conjunto de prácticas relacionadas con la generación de ítems y su evaluación reflejan que se consideran seriamente la estructura y la organización de los contenidos y la correspondencia de las características de los ítems con esos contenidos. Sin embargo, no existen documentos formales que desglosen los marcos conceptuales de las pruebas ni sobre la especificación de los ítems. La ausencia de esos documentos impide que se establezcan principios de generación de ítems de extrema importancia para dar atención a los aspectos culturales y lingüísticos de las pruebas.

Afortunadamente, existe un conjunto de prácticas a partir de las cuáles es posible elaborar esos documentos formales y establecer prácticas adicionales que en el futuro tomen en cuenta todos los criterios de validez cultural.

Los resultados de microanálisis de la muestra de reactivos revela que algunos de los reactivos presentan problemas tanto de forma (redacción poco clara o uso de términos infrecuentes en el español de México), como de contenido. Estos resultados también revelan que en algunos casos los ítems no tenían una respuesta correcta defendible. En general, se observa buen cuidado en la redacción de los reactivos, pero no todos parecen haber sido elaborados en apego a los lineamientos a los que se hizo referencia en el cuarto criterio.

CONCLUSIÓN

El INEE deberá crear un documento formal del marco conceptual y un documento de especifi-caciones de ítems de las dos áreas de contenido. También deberá crear un documento formal del marco muestral de la población estudiantil mexicana. Estos documentos deberán abordar explícitamente la diversidad étnica, lingüística, cultural y socioeconómica de la población por medio de tres aspectos básicos del desarrollo de pruebas: la especificación de las poblaciones estudiantiles, el análisis del error de medición resultante de la heterogeneidad poblacional, y la generalización de los resultados de las pruebas.

Page 75: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

75Atención a la diversidad cultural

La implementación adecuada de tales acciones implica la inclusión adecuada de diversas mues-tras de los grupos indígenas y de grupos sociales marginados en todo el proceso de desarrollo de la prueba, la realización de estudios de generalizabilidad en los que se examine el grado en que las calificaciones en las pruebas varían como efecto de la diversidad mencionada, y la des-agregación por grupos étnicos, lingüísticos y socioeconómicos en los análisis de confiabilidad y validez.

Lo autores de este informe están conscientes de que, en virtud de la gran diversidad cultural y lingüística de la población mexicana y las limitaciones de recursos, es imposible incluir en los estudios piloto, muestras de estudiantes pertenecientes a todos los grupos étnicos y lingüísticos del país. Adicionalmente, se hace hincapié en que la atención adecuada de la diversidad lingüís-tica no debe entenderse como la traducción de las pruebas EXCALE a lenguas indígenas. No sólo el proceso de traducción es largo, costoso, y muy difícil de implementar adecuadamente, adicio-nalmente, existe evidencia de que la mayoría de los estudiantes indígenas no reciben instrucción en su lengua materna aun cuando asistan a escuelas del subsistema de educación indígena y que muchos maestros en escuelas bilingües no hablan la lengua materna de sus estudiantes indígenas. De tal suerte, evaluar a estudiantes indígenas en su lengua materna sería una política inadecuada. Estrategias más idóneas para evaluar a minorías culturales y lingüísticas deberán basarse en la identificación y selección de un número reducido de grupos étnicos y lingüísticos que sean representativos de la totalidad de los que existen en México, y el conocimiento actual de las principales familias lingüísticas del país.

Más específicamente, a fin de dar atención adecuada a la diversidad cultural y lingüística, el INEE deberá realizar estudios especiales cuya última finalidad sea la de desarrollar modelos evaluativos y estrategias muestrales basados en teorías socioculturales y lingüísticas y en el conocimiento actual de las características de los grupos étnicos y lingüísticos del país. Podría ini-ciarse con estudios de una o dos lenguas de cada una de las principales familias lingüísticas para determinar si existe alguna influencia de la gramática de estos sistemas en la manera en que los estudiantes construyen el conocimiento socializado en el espacio escolar. Otra vertiente podría consistir en incluir a comunidades con diferentes tipos y grados de bilingüismo y así explorar el impacto de la escolarización en el uso de las distintas lenguas en espacios escolares bilingües.

Page 76: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

76

4 Aplicaciones

La aplicación de las pruebas es un paso crucial dentro del proceso de desarrollo (Downing, 2010). Es en esta etapa en la que se hacen llegar a los sustentantes los cuadernillos con los ítems generados, se promueve su respuesta, se recolecta la información y se realizan análisis sobre el comportamiento de los ítems. De la manera en la cual se realice esta etapa, dependerá la validez de los puntajes y la utilidad que tengan para el cumplimiento de los propósitos con los que la prueba fue creada (Downing, 2010).

Con el fin de controlar la mayor cantidad de variables extrínsecas que puedan afectar las res-puestas de los sustentantes se recomienda la estandarización de las aplicaciones. Esto implica-que se ha definido e implementado un mismo procedimiento relacionado con las “indicaciones, condiciones de la prueba y su calificación” (AERA, APA, & NCME, 2014, p. 111). La estandari-zación es de gran importancia para asegurar que los sustentantes tienen la misma oportunidad de demostrar su talento al momento de responder la prueba. Las limitaciones relativas a este aspecto pueden poner en riesgo la generación de puntajes comparables, la medición del cons-tructo y, por lo tanto, la utilidad e interpretación de los puntajes (AERA et al., 2014). Algunos autores señalan que “condiciones laxas, inseguras, o no estandarizadas de administración de una prueba pueden invalidar la interpretación de los puntajes para algunos o todos los examina-dos y estropear el trabajo realizado en las otras etapas del proceso de desarrollo de la prueba” (Downing, 2010, p. 163).

En general, se busca que en esta etapa se eliminen las condiciones que podrían invalidar los resultados, sus interpretaciones y su uso para el cumplimiento de los propósitos de la prueba. Esto comprende procesos que se llevan a cabo antes, durante y después de la aplicación.

Antes de la aplicación, es importante que se garantice que se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicación censal o como marco muestral; que las mues-tras estén basadas en diseños sólidos, y en las que los estratos hayan sido definidos con base en argumentos teóricos defendibles; y, que se hayan diseñado procedimientos para verificar que los sustentantes a los que se aplica la prueba sean los que se planificaron. Además es ne-cesario que se lleve a cabo un minucioso proceso de planeación de la aplicación, incluyendo la generación de manuales que hayan sido probados en campo, la definición de un cronograma detallado, la identificación del personal de las escuelas que participará en la aplicación, la pre-cisión de requisitos y procedimientos para garantizar confidencialidad y seguridad de materiales de evaluación así como de las respuestas de los sustentantes, y los mecanismos para controlar la calidad de la aplicación. Finalmente, en esta etapa se selecciona y capacita al personal de apli-cación, esto involucra: la definición de criterios estandarizados para su reclutamiento, selección y entrenamiento; la definición de procedimientos de entrenamiento que aseguren el adecuado conocimiento de los materiales y el dominio de las funciones que realizarán en campo, la docu-mentación de estos procesos, y la definición de procedimientos para monitorear la aplicación.

Page 77: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

77Aplicaciones

Durante la aplicación de las pruebas se busca que no haya irregularidades que puedan afectar las respuestas de los alumnos. Esto implica, principalmente: motivar la respuesta de los alum-nos; contar con procedimientos estandarizados para lidiar con la no respuesta y prevenir y enfrentar la copia o cualquier tipo de fraude; implementar mecanismos de control de calidad que permitan asegurar que las condiciones de administración de la prueba sean estandariza-das, que se realicen conforme a lo planificado y se aseguren los materiales y las respuestas de los alumnos.

Después de la aplicación, es importante que se establezcan y lleven a cabo procedimientos siste-matizados para la preparación del procesamiento de datos que retomen las experiencias y prác-ticas internacionales. También requiere asegurar que se cuenta con personal calificado para el manejo de los datos que haya sido entrenado en todos los aspectos de su trabajo, asegurando que esté familiarizado con los procedimientos técnicos aceptados para el manejo de los datos y que comprende su importancia, para que los análisis posteriores se hagan sobre información de la mejor calidad posible. La conformación y verificación de las bases de datos es crucial en esta etapa, focalizando en su estructura, la asignación de identificadores a los sustentantes, y el comportamiento de sus respuestas a cada uno de los ítems. Finalmente, la documentación de los procesos y la definición de procedimientos para notificar y documentar irregularidades son fundamentales para la validación del proceso de aplicación.

En este capítulo se presentan los principales hallazgos del análisis sobre la validez de las aplica-ciones de EXCALE, de acuerdo con los diferentes momentos del proceso de administración de las pruebas:

Antes de la aplicación

• Selección de la muestra• Planeación de las aplicaciones• Selección y capacitación del personal de aplicación

Durante la aplicación

• Minimización de carga, motivación, no respuesta y fraude• Procedimientos para el control de calidad de las aplicaciones

Después de la aplicación

• Preparación del procesamiento de datos• Procesamiento y verificación de datos• Notificación de irregularidades

Para la valoración de los criterios se utilizó información de diferente naturaleza. En primer lugar se revisaron los documentos electrónicos proporcionados por el INEE. Se condujeron entrevistas semi-estructuradas en diez entidades federativas (Aguascalientes, Colima, Distrito Federal, Du-rango, Estado de México, Guanajuato, Nuevo León, Veracruz, Yucatán y Zacatecas) y se aplicó un cuestionario en línea dirigido a los responsables de las Áreas Estatales de Evaluación de todo el país que fue respondido por un total de 31 informantes de 26 entidades. La información recuperada se incorporó también en la valoración de los criterios.

La creciente participación de diversos países latinoamericanos en las principales evaluaciones estandarizadas internacionales ha posibilitado comparar las prácticas nacionales en la materia, compartir experiencias, adoptar criterios de calidad relativamente homogéneos e identificar oportunidades de mejora.

Page 78: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

78

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

CRITERIOS DE VALIDEZ ANTES DE LA APLICACIÓN

Selección de muestra

1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicación

censal o como marco muestral.

El marco muestral se construye a partir de la Estadística Educativa (forma 911) del ciclo escolar anterior. Durante la validación de la muestra se detectan y subsanan las inconsistencias acerca del número de grupos, docentes, alumnos, ubicación y demás datos requeridos para adelantar la aplicación.

Las respuestas del cuestionario en línea, dejaron ver que para la mayoría de las entidades la actua-lización de las bases de datos es adecuada (21 entidades de 26 que respondieron el cuestionario afirmaron estar de acuerdo o totalmente de acuerdo con que “el nivel de actualización de las bases de datos de escuelas y estudiantes [censo escolar, forma 911] sobre las cuales se basa el INEE para llevar a cabo la aplicación, es adecuado”). En tres entidades los informantes estuvieron en desacuerdo, aludiendo en un caso a la falta de actualización en cuanto a domicilios de los planteles, claves y fusiones de escuelas dadas de baja; en otro caso, señalaron que en el periodo establecido para validar las bases de datos aún no se cuenta con estadísticas oficiales actualizadas.

Las sugerencias de mejora que mencionaron algunos informantes en el cuestionario en línea con respecto a las bases de datos, incluyeron: envío oportuno a las entidades para realizar el proceso de validación; considerar la inclusión de un proceso de validación en campo; y ac-tualizar la forma 911 de acuerdo con la información que se requiera para conformar el marco muestral para las aplicaciones de estas pruebas.

El nivel de actualización de las bases de datos probablemente infiere con las irregularidades que se presentan en cuanto a suficiencia de cuadernillos y correspondencia de las cajas entregadas a las escuelas. A este respecto, en el cuestionario en línea, los informantes de la mayoría de las entidades señalaron que no se presentaron irregularidades (22 entidades, de un total de 26). Tres entidades afirmaron haber tenido algún tipo de eventualidad, particularmente la insuficien-cia de cuadernillos en algunas escuelas.

Se preguntó sobre la suficiencia de cuadernillos en la última aplicación de EXCALE; la mayoría de las entidades (23 de 26) afirmó que los cuadernillos fueron suficientes. Sólo dos entidades re-portaron insuficiencia, en una caso faltaron cuadernillos para docentes en dos escuelas, en otro, un cuadernillo no estaba dentro de la caja de materiales y lo encontraron en otra escuela. Estas respuestas pueden considerarse también como un indicador de la actualización y adecuación del proceso de validación de las bases de datos para la aplicación de esta prueba.

De acuerdo con la documentación disponible y particularmente según lo planteado en la ficha técnica para el levantamiento de datos, la muestra de alumnos es seleccionada por el aplicador el día de la aplicación, con base en el procedimiento y cuotas establecidas por el INEE y tenien-do en cuenta la disponibilidad de materiales de evaluación. Con ello se simplifica la logística de distribución de materiales, se propende por maximizar su aprovechamiento y se minimiza el riesgo de sesgo por sobre o subaplicación.

Page 79: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

79Aplicaciones

Dada la importancia de la apropiada selección de la muestra de alumnos y su implicación en el procesamiento de los resultados, es fundamental que el procedimiento de muestreo se aplique rigurosa y consistentemente y que se lleven a cabo verificaciones técnicas aleatorias posteriores a la aplicación

2. Cuando proceda, las muestras se diseñarán utilizando diseños sólidos; los estratos

se definirán con base en argumentos teóricos defendibles.

Se revisó el diseño muestral para EXCALE 06 2013, aplicado a sexto grado de primaria en el ciclo escolar 2012-2013. El diseño se basa en parte en el esquema utilizado para la muestra PISA (Reporte Técnico de 2006), y está explicado con detalle en el documento “Diseño Mues-tral EXCALE 06 2013”. El muestreo se hace siguiendo un esquema probabilístico, estratificado, bietápico y por conglomerados, lo que asegura que los resultados de logro sean representa-tivos a nivel nacional, por entidad y por modalidad educativa. El diseño parece ser sólido. Se presentan evidencias de que las nuevas versiones (2013) de las pruebas tienen una precisión comparable a los estudios internacionales como TIMSS o PISA (es decir más menos 0.10 de error de muestreo, interpretado como 10% de la desviación estándar de la variable de interés). Se exceptua el caso de las muestras por entidad (para matemáticas, español, formación cívica y ética, y ciencias naturales), que tienen una precisión mucho menor (0.25 de error de muestreo), haciendo estos resultados menos confiables. El documento argumenta que esto se hizo así por restricciones presupuestales.

También se revisó el diseño muestral para EXCALE 09 2012, aplicado en tercer grado de secunda-ria, en el ciclo escolar 2011-2012. El diseño es igual al descrito para EXCALE 06 2013. Se nombran dos consultores expertos que diseñaron la muestra en EXCALE 09 2005 y EXCALE 09 2008 (Dr. Richard Wolfe) que a su vez fueron revisadas (Dr. Ignacio Méndez Ramírez). Se presentan los márgenes de error por modalidad, los cuales parecen aceptables. Aunque no se da una referencia o benchmark para que el lector pueda juzgar, si tomamos la referencia de precisión como 10% de desviación estándar en la variable de interés, todos los estratos parecen contar con precisión suficiente; hay que notar que la muestra EXCALE 09 2008 no es representativa a nivel entidad. Sería convendría adjuntar como anexo los reportes tanto de los consultores para apoyar la idonei-dad de la muestra, aunque el hecho de haber sido revisada por dos personas diferentes sugiere que es sólida.

3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que

se planificó.

El Programa Anual de Actividades del INEE considera la validación de la muestra, a partir de crite-rios definidos y con la participación de los Coordinadores Estatales, labores a las que se dedican tres semanas, luego de lo cual la dirección responsable del estudio entrega la muestra definitiva.

A partir de la información consignada en la Ficha Técnica para el Levantamiento de Datos de EXCALE 06 2013, el promedio de escuelas en la muestra por estado es de alrededor de 180, por lo cual se considera que el tiempo disponible para validación es suficiente.

Page 80: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

80

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Para los estados en los que la aplicación se lleva a cabo en más del doble del promedio de es-cuelas (como en el caso de Chiapas, Oaxaca y Veracruz) se hace necesario contar con recursos humanos, técnicos y financieros para llevar a cabo la validación apropiadamente.

Ahora bien, el día de la aplicación el aplicador obtiene los listados de asistencia directamente en la escuela, con lo cual se asegura que el conjunto de sujetos al que se aplica la prueba coincide con el planificado.

4. Se verifica que la muestra obtenida concuerde con la planificada dentro de márgenes

aceptables.

Para validar la muestra existe un procedimiento que inicia con una validación del listado de escuelas realizado por las áreas estatales de evaluación. Estos datos incluyen nombre de la es-cuela (CCT), matrícula por grado, número de docentes, turno, etcétera. Las áreas de evaluación estatales deben verificar que la información contenida en el listado turnado por los evaluadores sea la correcta; en su caso, habrán de actualizarla o completarla. Durante la aplicación, los evaluadores deben llenar una Acta de Aplicación en la escuela, la cual provee de validación adicional de los datos. Con base en lo contenido en estas actas, el INEE elabora el “reporte de aplicación de los EXCALE 06 definitiva 2013”, describe el porcentaje de escuelas que lograron evaluarse respecto a la muestra planificada a nivel nacional, y por estrato, escuela, instrumento y entidad federativa. Este documento es importante porque permite constatar por ejemplo, que únicamente logró aplicarse EXCALE 06-2013 a alrededor de 83% y 86% de la muestra planifi-cada en educación indígena y cursos comunitarios respectivamente.

tt Se documentan en detalle los pasos para la selección de la muestra.

En los manuales (Guía Didáctica del Instructor y Cuaderno de Trabajo para el Aplicador) se describe en detalle el procedimiento a seguir para la selección de los alumnos sobre el cual se capacita a los instructores se les capacita; la guía propone también casos específicos en los cuales los aplicadores ejercitan el procedimiento durante la capacitación (anexos 11 y 12 de la Guía Didáctica).

En el Cuaderno de Trabajo para el Aplicador se dedica un apartado a explicar el procedimiento para la selección de alumnos, y a familiarizar a los aplicadores con el formato de control de aplicación en aula.

tt Hay una verificación de la muestra por una instancia externa.

El INEE implementa una estrategia adicional para verificar la calidad del levantamiento de datos a través de los enlaces, quienes realizan una observación de la aplicación en un centro educativo en función de una guía de observación elaborada por la Dirección de Relaciones Nacionales y Logística del INEE. En ella se retoman diferentes elementos del protocolo de los aplicadores, dentro de los que se encuentra la selección de alumnos (Ver Reporte técnico de la aplicación definitiva de los Exámenes de la Calidad y el Logro Educativos en el sexto grado de primaria (EXCALE 06), pág. 52). En la última aplicación los enlaces reportaron 85% de apego al protocolo con respecto a la selección de alumnos en las escuelas observadas.

Page 81: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

81Aplicaciones

tt Hay encuesta o sistema de aseguramiento de la calidad de la muestra.

Como se mencionó en el criterio anterior, el INEE implementa diferentes estrategias de asegura-miento de la calidad, dentro de las que se incluye la verificación de la selección de los alumnos a través de la observación que hacen los enlaces de acuerdo con el procedimiento especificado en el protocolo para los aplicadores. Los coordinadores regionales, nombrados por los coordinado-res estatales, también supervisan la aplicación de los instrumentos en las regiones definidas por cada entidad federativa. Al finalizar la aplicación, y cuando los enlaces del INEE se encuentran aún en la entidad, realizan una entrevista al responsable del Área Estatal de Evaluación sobre la validación de la muestra y otros elementos del proceso de la aplicación de la prueba.

PLANEACIÓN DE LAS APLICACIONES

5. Se planifican todos los puntos necesarios para hacer la aplicación de manera estan-

darizada, con formas y materiales que aseguren comparabilidad de los datos.

En el documento “Estrategia Operativa” se consigna la información acerca de los diversos acto-res del proceso así como las fechas en que deben adelantarse las labores necesarias para llevar a cabo la aplicación en los términos previstos.

Dada la diversidad y extensión del país hay aspectos de la estrategia operativa que pueden variar entre estados, no obstante contar con una estructura unívoca facilita el control y optimi-zación del proceso.

tt Hay manuales de aplicación, probados en campo, que precisen las actividades a desarrollar por cada participante; se describen las variaciones aceptables.

Se incluyen documentos diferenciados para los participantes. A los coordinadores estatales, coordinadores regionales, directores, docentes, y alumnos, se les entregan folletos en los que se precisan las actividades correspondientes a cada rol; a los instructores, una guía impresa de 126 páginas que describe las funciones que tendrán que realizar y cómo se enmarcan dentro de la estrategia de capacitación del INEE, además, explica el taller que deberán desarrollar para los aplicadores, precisando las actividades a desarrollar, orientaciones estandarizadas para su desarrollo y los materiales que utilizarán. A los aplicadores se entrega un cuaderno con una extensión de 80 páginas para el taller del aplicador; en él se describen las diferentes actividades que tendrán que realizar; el proceso de selección de alumnos; indicaciones para el llenado de los formatos de control; y las instrucciones a comunicar durante la aplicación.

En el Reporte Técnico de la Aplicación de EXCALE 06 realizada en 2013, se incluyen algunas observaciones a estos materiales y al proceso de capacitación. Se sugiere, por ejemplo: enfatizar el llenado de formatos de control, reducir el tiempo que se dedica a aspectos teóricos y ampliar el tiempo dedicado a aspectos operativos, asegurar que el tiempo sea suficiente para la reali-zación de todas las actividades, y desarrollar un apartado específico sobre las actividades del coordinador regional. También se señala que proceso de capacitación es repetitivo; se sugiere hacerlo más sencillo y práctico, y repensar la estrategia de capacitación en cascada.

Page 82: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

82

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

En cuanto a los aplicadores, se observa que el tiempo de capacitación es repetitivo, extenso y apresurado; en particular, parece necesario reforzar el proceso de selección de alumnos.

En el cuestionario en línea aplicado a los responsables de las Áreas Estatales de Evaluación se sugirieron las siguientes mejoras a los manuales: simplificar los manuales evitando repeticiones; facilitar su manejo; precisar los responsables de cada una de las actividades; incluir materiales adicionales para autoridades educativas y estructura de inspectores o supervisores escolares; en-tregar manuales oportunamente; simplificar formatos, enfatizar el proceso de llenado; y enfatizar la importancia de la seguridad de materiales.

Si bien los documentos provistos son claros, podría considerarse simplificarlos e incorporar materiales adicionales a los impresos tales como videos que describan las diferentes actividades a desarrollar.

El tamaño de la muestra permite asumir que la implementación de variaciones no aceptables por desconocimiento es marginal. No obstante lo anterior, mejoras en diagramación e incorpo-rar más gráficas podrían apoyar la estandarización de los procesos de aplicación. En tal sentido, se ha provisto a la coordinación del estudio de algunos ejemplos de manuales con mayor com-ponente gráfico, como una posible referencia.

La documentación provista incluye cronogramas detallados de todo el proceso. Adicionalmen-te, se cuenta con instructivos específicos para cada actor de EXCALE, que incluyen las fechas en que deben llevar a cabo los diversos puntos clave del proyecto.

Es particularmente detallada la “Información para el enlace”, que incorpora las actividades que deben realizar quienes ejerzan dicha función durante las últimas tres semanas anteriores a la aplicación y hasta dos semanas después, culminando con la retroalimentación.

tt Se identifica a personal de las escuelas que tendrán que ver con la aplicación (directores, maestros) para contar con su cooperación.

Los compromisos de cada actor del proceso se establecen y comunican oportunamente. Tenien-do en cuenta que la aplicación está a cargo de un aplicador externo a la escuela y que incluye hasta 35 alumnos, la cooperación de directores y maestros el día de la aplicación se reduce fundamentalmente a asignar el espacio para llevarla a cabo, proveer los listados de asistencia de alumnos y gestionar cuestionarios de contexto.

tt Se precisan requisitos de confidencialidad y seguridad de materiales y respuestas.

En la guía didáctica para el instructor se precisa que una de las competencias a desarrollar en los aplicadores es la de “[u]tilizar adecuadamente los formatos de control para la administración y seguridad de los instrumentos de evaluación”; en el manual también se describe la importancia de la seguridad de los materiales para lograr el cumplimiento de la prueba. Se enfatiza a los apli-cadores que dada la confidencialidad de los materiales, no puede permitirse su reproducción total o parcial, y se desarrollan procedimientos para revisar los materiales al momento de la re-cepción y el cierre de la aplicación. También se les entregan los materiales el día de la aplicación; en ese momento deben contarlos y contrastar las cantidades con respecto a lo estipulado en sus cajas; también registran el estado de los materiales y si existe algún tipo de irregularidades. Los instrumentos se colocan en una bolsa sellada que será abierta hasta el día de la aplicación frente

Page 83: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

83Aplicaciones

al director de la escuela. Al cierre de la aplicación tienen que registrar los instrumentos aplicados y no aplicados, verificar cantidades, y sellar nuevamente la bolsa que los contendrá para su de-volución al coordinador estatal o regional, quien posteriormente los entregará al INEE. Durante la capacitación se pide a los aplicadores que se aseguren de no dejar ningún material fuera de la caja, y lo mismo al cierre de la aplicación. Se considera que el hecho de que los aplicadores sean los encargados de portar los materiales a las escuelas y de regreso a los coordinadores estatales o regionales puede representar un riesgo para la seguridad de los materiales. Por ejemplo: en el anexo 3 del Reporte Técnico de la Aplicación de EXCALE 06 llevada a cabo en el 2013, se reportó que en una escuela no permitieron la aplicación y le quitaron al aplicador la caja con todos los materiales; otros aplicadores enfrentaron dificultades para acceder a las escuelas, por inseguridad social, mal estado del camino, o falta de transporte; este tipo de situaciones pone en riesgo la seguridad y confidencialidad de los materiales.

Por otro lado, en el documento “Especificaciones de impresión, empaquetado y distribución de materiales” se establecen los requisitos para la imprenta. A efectos de asegurar la calidad de los materiales, se hacen exigibles pruebas de contenido, de encuadernado, de marcas para digitalización y lectura óptica, de asignación e impresión variable y de empaquetado.

Dentro de la documentación disponible, no se encontraron referencias explícitas a las caracterís-ticas de seguridad de la imprenta, los medios de transporte y almacenamiento de los materiales de evaluación.

Por otra parte, amerita reconsideración que la imprenta sea la encargada del ensamble de las formas a partir de los bloques de ítems, por asuntos seguridad y competencia. Se sugiere ana-lizar la viabilidad de que todos los cuadernillos, cuestionarios, manuales y hojas de respuestas salgan del INEE diagramados y verificados en versión final para impresión y que la imprenta se circunscriba a la reproducción de las cantidades que se le especifiquen por cada tipo de mate-rial, manteniéndose la supervisión directa del INEE antes, durante y después de la impresión, asegurando la destrucción de originales, muestras y sobrantes, así como la apropiada disposi-ción de materiales para archivo.

Aunque EXCALE no genera resultados individuales ni por escuela, lo cual restringe sustancial-mente su atractivo para fines ilícitos, es conveniente determinar técnicamente si se han presen-tado brechas de seguridad y en todo caso, fortalecer las medidas que aseguren la cadena de custodia de los materiales, de manera que se mitiguen eventuales perturbaciones internas o externas que pudieran afectar la pureza de los resultados.

De igual manera, y teniendo en cuenta la escala de la aplicación, podría considerarse disponer de un operativo de distribución y recolección de materiales desde y hacia cada escuela directa-mente, sin almacenamientos intermedios. Si bien esto tiene costos adicionales, reduce tiempos y eleva de manera importante la integridad de los materiales antes, durante y después de la aplicación.

tt Se precisa la forma en que deberán documentarse todos los pasos de la aplicación y las incidencias que se puedan presentar.

Se cuenta con diagramas y explicaciones suficientes acerca de cada paso de la aplicación. Igual-mente se dispone de formatos apropiados para presentar los respectivos informes.

Page 84: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

84

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

El documento “Cuaderno de Trabajo del Aplicador” es particularmente detallado e incluye descripción y ejemplos del procedimiento de selección de la muestra de alumnos en la escuela, punto neurálgico del proyecto el día de la aplicación.

El texto es extenso pero mantiene su intención didáctica, a la vez que provee indicaciones claras y completas.

tt Hay procedimientos de aseguramiento de la calidad de la aplicación.

Las funciones de cada actor del proceso y particularmente del aplicador apuntan a asegurar la calidad de la aplicación. Los procedimientos son suficientemente detallados antes, durante y después de ella y considerando su tamaño, no se advierten riesgos mayores.

No se encontraron referencias explícitas a normas de calidad externas nacionales o internacio-nales que si bien no son un requisito, podrían contribuir a elevar el nivel de estandarización de los procedimientos, en busca de aplicaciones cada vez de mayor calidad.

SELECCIÓN Y CAPACITACIÓN DEL PERSONAL DE APLICACIÓN

6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la reco-

lección de datos, en todos los niveles.

tt Hay criterios para reclutar y entrenar aplicadores y apoyos.

En el documento “Estrategia General de Capacitación” se establecen los roles y perfiles para formar parte de EXCALE. En general se requiere por lo menos contar con título de licenciatura y tener experiencia acorde con la responsabilidad asignada, lo cual se considera suficiente.

tt Se recluta y capacita a suficiente personal de reemplazo.

No se cuenta con información específica sobre este criterio. Para el caso de EXCALE 06 2013 se brindó capacitación a alrededor de 6 mil personas que proveyeron los servicios asociados a la aplicación a alrededor de 80 mil estudiantes, por lo cual se infiere que se capacitó al personal requerido más el de reemplazo para eventualidades.

No obstante lo anterior, es recomendable que se establezca explícitamente la tasa de personal de reemplazo y que se vele por su cumplimiento ante eventualidades.

tt La capacitación incluye oportunidad de practicar con los instrumentos.

Los instructivos para el aplicador así como otros documentos utilizados para la capacitación in-cluyen las carátulas de los instrumentos de evaluación y los formatos de control de la aplicación, de manera que los aplicadores conocen con suficiente detalle y antelación los materiales con los cuales conducirán la aplicación.

Page 85: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

85Aplicaciones

Durante las sesiones de capacitación, se incluyen actividades en las que los aplicadores revi-san los materiales que llevarán a las escuelas para familiarizarse con ellos y cerciorase de que estén todos los cuadernillos y otros materiales necesarios para la aplicación. La formación de capacitadores o el entrenamiento del personal que asegurará la calidad del proceso se maneja centralmente o, en todo caso, se cuida su adecuado funcionamiento.

Hay previsiones de orden general acerca de la estructura y contenido de la capacitación para cada actor del proceso. La implementación de la estrategia puede tener particularidades por estado, pero se desarrolla bajo parámetros, cronogramas y procedimientos establecidos por el INEE, lo cual propende por la efectividad y estandarización del entrenamiento para todo el personal.

tt Se llevan registros de las sesiones de entrenamiento de aplicadores.

Las sesiones de entrenamiento incluyen trabajo práctico y una minuciosa evaluación del taller, incluyendo la valoración por parte de los asistentes del instructor, de sí mismos, de los materia-les y procedimientos, entre otros.

Igualmente, el reporte técnico de la aplicación da cuenta de hallazgos, sugerencias y recomen-daciones, cuya consideración permitiría cualificar diversos procesos.

tt Se monitorean las actividades en campo por personal de la instancia central y/o externo, y se registran problemas detectados.

El enlace funge como monitor externo de la aplicación en una escuela de su jurisdicción y presenta su reporte como parte del “Tercer Informe Semanal del enlace” ante el INEE.

tt Se hacen ejercicios de retroalimentación y revisión de materiales y procesos que recojan la experiencia del personal en campo.

Según la documentación disponible, se cuenta con información suficiente para retroalimentar el proyecto luego de cada aplicación.

ANÁLISIS DEL CUMPLIMIENTO DE LOS CRITERIOS DE VALIDEZ ANTES DE LA APLICACIÓN

Se encontró información suficiente para sustentar todas las otras etapas clave del proceso, se-gún como está planteado en los criterios de validez.

Se sugiere hacer explícitas las condiciones de seguridad aplicables a la imprenta y a los centros intermedios de distribución así como la tasa de personal de reemplazo.

Por otra parte, podría analizarse la viabilidad financiera y logística de contar con un operador para la distribución de los materiales directamente desde la imprenta hasta la escuela y su posterior recolección y retorno al INEE, a efectos de obviar instancias intermedias y optimizar la cadena de custodia de los instrumentos de evaluación antes, durante y después de la aplicación.

Page 86: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

86

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

CRITERIOS DE VALIDEZ DURANTE LA APLICACIÓN

Minimización de carga, motivación, no respuesta y fraude

7. Se fijan límites realistas sobre la carga de responder pruebas y cuestionarios de con-

texto para que no sea excesiva tomando en cuenta los sujetos.

tt Se utilizan los resultados de la aplicación piloto para revisar que los estimados de carga sean realistas y aceptables.

En el Plan General de Evaluación del Aprendizaje del INEE se establecen las fases técnicas del diseño, construcción, aplicación y validación de los EXCALE, incluyendo el piloteo de reactivos y cuestionarios de contexto, como insumo para seleccionar los reactivos que pasan a la aplicación final, en bloques y formas dispuestas para lograr los fines de la evaluación.

En el cuestionario en línea, se preguntó sobre la suficiencia del tiempo estipulado para que los alumnos dieran respuesta a los cuadernillos. Esta pregunta fue respondida por informantes de 24 entidades; todos señalaron estar de acuerdo en la suficiencia del tiempo asignado para responder los EXCALE. Éste puede ser un indicador de que, de acuerdo a la experiencia de las Áreas Estatales de Evaluación, la carga es realista para los alumnos.

tt Se simplifican los procedimientos y se describen en forma clara y cuidadosa, siempre buscan-do minimizar la carga para los sujetos.

Los procedimientos que deben seguir los alumnos son simples y se encuentran apropiadamente estandarizados.

tt En los cuestionarios de contexto para estudiantes se evita preguntar datos que se pueden obtener de otras fuentes.

Los cuestionarios están integrados a los cuadernillos en un solo instrumento de evaluación. Se indaga por las características personales de los alumnos y de su entorno escolar y fa-miliar, incluyendo temas como: aspiraciones educativas, capital económico, estratificación socio-ocupacional, estructura familiar y relacionamiento social y educativo, etnicidad, trabajo infantil, capital cultural, necesidades especiales, rutinas escolares, estrategias de aprendizaje y trayectoria escolar que sólo pueden ser obtenidos a partir de la aplicación del cuestionario de contexto.

Dado que se aplican más de 100 ítems tanto para estudiantes de primaria como de secundaria, es conveniente reconsiderar la extensión y alcance de los cuestionarios, en función del uso real de la información que se obtiene a través de ellos.

tt Se agenda la aplicación en horarios convenientes para los sujetos.

La aplicación se lleva a cabo durante la jornada escolar y se anuncia a todos los actores del proceso con antelación suficiente y por diversos medios.

Page 87: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

87Aplicaciones

8. Se busca motivar a los sujetos para que no respondan las preguntas de la prueba

a la ligera.

tt Se informa ampliamente a los sujetos de la evaluación acerca de los propósitos del estudio y cómo se utilizarán sus datos.

En el instructivo para los alumnos se les anima a presentar la prueba haciendo su mejor esfuer-zo para responder correctamente. La información se brinda en lenguaje claro y en un formato apropiado para los estudiantes.

9. Se desarrollan procedimientos para lidiar con la no-respuesta o el rechazo a respon-

der a la prueba y se entrena al personal de aplicación para seguirlos.

No se encontró en los documentos sobre aplicación y capacitación de los aplicadores informa-ción sobre como deberán lidiar con alumnos que rechacen responder a la prueba.

10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de frau-

de y se entrena al personal de aplicación para seguirlos.

En el Cuaderno de Trabajo para el Aplicador se encontraron las siguientes medidas que ayudan a prevenir la copia entre estudiantes: se hace una selección aleatoria de estudiantes entre los di-ferentes grupos del grado a evaluar; se acomoda a los alumnos dentro del salón considerando el orden en que aparecen en la lista (por lo general, alfabéticamente); se solicita a los aplicadores que digan a los alumnos que no está permitido hablar entre ellos mientras trabajan en el cua-dernillo; se pide a los aplicadores que durante la aplicación caminen entre las filas. Convendría complementar estas indicaciones con medidas para el manejo de aparatos tecnológicos que podrían poner en riesgo la seguridad de los materiales y promover la transmisión, recepción o copia de información de la prueba.

Es importante señalar que en el Cuaderno de Trabajo para el Aplicador no se dan orientaciones para detectar comportamientos de copia y otras formas de fraude. Convendría que se añadie-ran y que la capacitación incluyera también actividades para desarrollar esta competencia.

Por otro lado, en cuanto al tratamiento de la información, no se encontraron referencias a la aplicación de algoritmos para identificación de copia. Aunque el diseño matricial de la prueba y su característica de low stakes lleva a pensar que la copia entre estudiantes no puede darse (por diseño), sería bueno contar con un análisis sobre patrones de respuesta que se salen de lo normal (por ejemplo 100% de respuestas correctas en un mismo centro, o porcentaje de res-puestas por encima de lo normal o de lo pronosticado para determinado aplicador). El manual de procesamiento inicial de datos incluye una descripción de los trenes de respuesta que son eliminados por ser casi imposible que se puedan generar, o bien, que no fueron contestados (todas en cero), o que se contestaron menos de la mitad de las preguntas. Los casos que son sujetos a eliminación son analizados por personal especializado del INEE.

Page 88: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

88

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

PROCEDIMIENTOS DE CONTROL DE CALIDAD EN LAS APLICACIONES

11. Se manejan procedimientos para asegurar la calidad de las aplicaciones.

tt Se recluta y entrena a monitores que lleven a cabo actividades de control externo de calidad, observando la recolección de datos en un subconjunto de los sitios.

Los enlaces ejercen como monitores externos y deben presentar un informe de observación a la aplicación de EXCALE en una escuela de su zona.

En el cuestionario en línea se preguntó a los informantes acerca de su grado de acuerdo con la siguiente afirmación: “la supervisión externa durante la aplicación fue adecuada”. De las 26 entidades que dieron respuesta al cuestionario, 24 informantes de señalaron estar de acuerdo con la afirmación; los dos restantes estuvieron en desacuerdo y señalaron que la supervisión fue mínima y sin registros.

Algunas de las sugerencias que dieron para la mejora del proceso de monitoreo fueron: incluir recursos para que las Áreas Estatales de Evaluación cuenten con monitores regionales para su-pervisar la aplicación y establecer la visita de observadores externos acreditados.

tt Si no es viable, se hacen entrevistas presenciales o por teléfono de control de calidad con aplicadores y demás personal involucrado en la aplicación.

El control de calidad de la aplicación se apoya en la gestión de reportes escritos por parte del personal involucrado; además, al finalizar la aplicación, los enlaces deben realizar una entrevista a los responsables de las Áreas Estatales de Evaluación, para identificar fortalezas y debilidades del proceso. De acuerdo con la información disponible, aunque se realizan capacitaciones in-tensas al personal de aplicación, se encuentra que en más de 40% de los estados, el apego al protocolo de aplicación es inferior a 70%.

Es conveniente aprovechar la experiencia de los estados en los que se lograron los mayores por-centajes de apego a los procedimientos, identificar los factores que coadyuvaron a tal éxito y a partir de dicha información, resaltar las mejores prácticas y hacerlas replicables en los estados en los que se presentaron mayores desviaciones en la aplicación del protocolo previsto.

tt Se hace revisión de control de calidad en una muestra aleatoria de los datos recolectados para asegurar que se hayan llenado completa y correctamente.

Se controla la gestión de los materiales y se llevan estadísticas acerca de las novedades que se encuentran.

tt Se resumen los resultados de cada etapa de aplicación para monitorear el estatus de las actividades y para identificar y corregir las causas de problemas de calidad.

Se documenta cada etapa del proceso previo a la aplicación, se identifican los problemas pre-sentados y las soluciones implementadas, con lo cual se hace posible la cualificación del proceso y la adopción de mejores prácticas incrementales en el tiempo.

Page 89: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

89Aplicaciones

ANÁLISIS DEL CUMPLIMIENTO DE LOS CRITERIOS DE VALIDEZ DURANTE LA APLICACIÓN

Se encontró información suficiente para sustentar todas las otras etapas clave del proceso, se-gún como está planteado en los criterios de validez.

Los procedimientos de control de calidad en las aplicaciones están previamente establecidos y se instruye a los diversos actores para su apropiada implementación.

La documentación disponible apoya la creciente estandarización de las aplicaciones. Contando con mayores facilidades tecnológicas para la captura de la información en la fuente, podrían reducirse los tiempos asociados a los diversos procesos, facilitándose la comparación directa de variables operativas entre aplicaciones.

CRITERIOS DE VALIDEZ DESPUÉS DE LA APLICACIÓN

Preparación del procesamiento de los datos

12. Hay manuales que detallan los aspectos a cuidar para crear archivos de datos según

normas internacionales: cómo introducir los datos; asignar identificadores a alumnos-

maestros-escuelas; variables a incluir, códigos válidos, de datos faltantes o respuestas

no aplicables; formato de datos, estructura de archivos, limpieza, entre otros.

Existe un manual que detalla aspectos para el procesamiento inicial de las bases de datos, tales como la forma de verificar que los archivos entregados sean los correctos, así como comprobar que las variables sean las adecuadas y estén en el tipo y ancho indicado, etcétera. Este procedi-miento genera una lista de errores para envío a la dirección de informática.

También detalla cómo inspeccionar visualmente la muestra (se solicitan tres cuadernillos para inspección visual); cómo calcular las variables de tren de respuestas siguiendo los cálculos del diseño matricial, y como eliminar casos raros o improbables. Al final se explica que hay que convertir todo a SPSS y aplicar los formatos apropiados.

13. Se cuenta con personal calificado para el manejo de los datos y se le entrena en todos

los aspectos de su trabajo, asegurando que esté familiarizado con los procedimientos

aceptados para manejar datos y que comprende la importancia de recolectar y captu-

rar la información con el cuidado necesario para que los análisis posteriores se hagan

sobre información de la mejor calidad posible.

No se encontró información al respecto.

14. Se llevan a cabo procedimientos para maximizar la calidad de las bases de datos que

concentran los resultados de la aplicación. Se asegura que:

Page 90: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

90

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

tt La estructura de los datos se apegue a la de los instrumentos.

Los procedimientos que permiten asegurar que la estructura de los datos se apegue a la de los instrumentos se detallan en el manual inicial de procesamiento de datos.

tt Los datos tengan suficientes redundancias para permitir control de calidad.

Los procedimientos se detallan en el manual inicial de procesamiento de datos.

tt Las bases tengan identificadores únicos consistentes para que alumnos y escuelas y, en su caso, maestros o directores, puedan relacionarse.

Dado que la aplicación de la prueba es matricial, no existen identificadores por alumno, únicamente con escuela, los cuales se asegura sean únicos y consistentes (ver manual inicial de procesamiento de datos).

tt Se lleven a cabo verificaciones aleatorias de submuestras de las bases de datos para verificar que se cumplan los puntos anteriores.

Se cumple este criterio, como se detalló en el punto anterior.

tt Se documenten todas las actividades de preparación de datos.

Se definen procedimientos para documentar todas las actividades de preparación de datos; esta información está en documentos como el Manual inicial de procesamiento, y las Especificacio-nes de Lectura de las hojas de respuesta de las pruebas.

PROCESAMIENTO Y VERIFICACIÓN DE LOS DATOS

15. Se cuenta con procedimientos para asegurar que la lectura de las respuestas y todos

los pasos del procesamiento y verificación de los datos son confiables.

tt Durante la lectura de los datos se hacen dobles verificaciones en forma sistemática para garantizar la confiabilidad del proceso.

Se utilizan instrumentos extra para ser leídos y verificar que todas las marcas son identificadas de acuerdo con la codificación (Informática, Reporte final, 2012). Se lleva a cabo además un proceso de revisión de folios y duplicados. En caso de encontrarse problemas en registros, se revisan contra el cuadernillo y se procesan nuevamente. Existe un proceso para identificar y corregir duplicados cuando se considere necesario. También existe un proceso para lidiar con valores faltantes y codificarlos de forma adecuada.

tt En caso de que la lectura de datos se haga en forma descentralizada se asegura que se cum-plan los estándares en todos los sitios.

Page 91: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

91Aplicaciones

Este criterio no aplica dado que la lectura de los datos se realiza completamente en el INEE.

tt Se revisa que la estructura de bases se apegue a la acordada; las variables estén en rangos válidos; los identificadores sean únicos e íntegros.

El documento sobre procedimientos de lectura (por ejemplo “EXCALE 2006 Especificaciones de Lectura 2ª. Parte” detalla cómo deberán capturarse los códigos y variables. El documento “Ma-nual para el procesamiento inicial de bases de datos” especifica cómo debe llevarse a cabo la verificación de las bases de datos, tamaño de las variables, etcétera para apegarse a las especifi-caciones y a los instrumentos. Hay programas diseñados expresamente para extraer la informa-ción de lectura en el formato correspondiente, los cuales se detallan en los manuales de lectura.

tt Se contrastan archivos de datos con instrumentos y cuestionarios.

Se hacen diversos contrastes y el reporte de informática final describe que se revisa 100% de los cuadernillos.

tt Se calculan estadísticas analíticas para cada ítem.

Se presentan análisis psicométricos realizados para cada ítem de las pruebas.

tt Se calculan estadísticas descriptivas para todas las variables para revisar que no haya valores extremos o faltantes; si hay se reportan para revisión.

Se presentan análisis psicométricos realizados para cada ítem de las pruebas. Estos incluyen información sobre cantidad de alumnos que contestaron el reactivo, alumnos por tipo de res-puestas, respuestas múltiples, respuestas omitidas, y ajuste al modelo IRT.

tt Se documentan todos los pasos del proceso.

El procedimiento de análisis de los datos y verificación se documenta en diversos manuales y reportes incluyendo el reporte final de informática, el reporte de validación de la muestra y los análisis psicométricos.

NOTIFICACIÓN DE IRREGULARIDADES

16. La coordinación del estudio deberá ser notificada de cualquier inconsistencia en los

datos. Toda modificación que resulte de la resolución de inconsistencias deberá ser

aprobada y documentada.

En el Reporte Técnico se consolida toda la información proveniente de las distintas etapas del proceso, desde la verificación de la muestra hasta el procesamiento de resultados y se presen-tan datos específicos acerca de las eventualidades presentadas. Durante la aplicación, los apli-cadores, coordinadores regionales, directores de escuela e instructores regionales reportaron novedades, consolidadas por los enlaces en el formato “Registro de incidencias y consultas”,

Page 92: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

92

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

a partir de lo cual la coordinación del estudio cuenta con los elementos requeridos para tomar las decisiones del caso.

ANÁLISIS DEL CUMPLIMIENTO DE CRITERIOS DE VALIDEZ DESPUÉS DE LA APLICACIÓN.

Se encontró información suficiente para sustentar el cumplimiento de los criterios de validez en esta etapa del proceso, a excepción de lo relativo al personal a cargo del procesamiento de resultados.

Por otra parte, se considera que se cuenta con suficiente información e indicadores acerca de la aplicación, que podría ser aprovechada para elevar la calidad de la implementación en los siguientes ciclos.

CONCLUSIÓN GENERAL

La verificación de la muestra de escuelas es fundamental para asegurar la calidad de EXCALE. Se cuenta con las previsiones del caso para obtener los datos básicos de cada escuela participante y el archivo resultante se remite vía correo electrónico al INEE al culminar el proceso. Dada la importancia de la validación se sugiere contar con un sistema de información en línea que capture directamente los datos verificados por el coordinador estatal y los deje disponibles en infraestructura del INEE.

En general el diseño de la muestra parece sólido y hay verificaciones externas en varios puntos del proceso para asegurar que concuerde con la muestra planificada.

Las decisiones sobre el diseño muestral de EXCALE deberán ser revisadas a la luz de las decisio-nes que se tomen en el Sistema Educativo Mexicano, pues si se deseara que fueran utilizadas como un insumo para la toma de decisiones en las entidades federativas, será necesario que se asegure que tengan representatividad estadística a ese nivel.

Las funciones de cada actor del proceso y particularmente del aplicador apuntan a asegurar la calidad de la aplicación. Los procedimientos son suficientemente detallados antes, durante y después de ella y considerando su tamaño, no se advierten riesgos mayores.

En la parte de procesamiento de datos y verificación de la calidad existe un proceso documen-tado, con reportes de la estadística descriptiva para conocer el resultado de cada ítem (análisis psicométrico), reportes sobre verificaciones de datos (duplicados, omisión de respuesta, valores permitidos, folios y revisiones) e incidencias reportadas durante los procesos de empaque y recepción, así como un listado completo de incidencias.

El control de la aplicación y la toma de decisiones acerca de ella podría optimizarse mediante la adopción de tecnologías que permitan contar con información en línea que proceda de manera

Page 93: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

93Aplicaciones

directa la fuente, antes, durante y después de la aplicación, manteniendo soportes impresos o correos electrónicos como mecanismos alternos para casos de carencia de infraestructura.

Dada la escala de la aplicación, podría analizarse la viabilidad financiera y logística de contar con un operador para distribuir directamente los materiales desde la imprenta hasta la escuela y para su posterior recolección y retorno al INEE, a efectos de obviar instancias intermedias y optimizar la cadena de custodia de los instrumentos de evaluación antes, durante y después de la aplicación.

Page 94: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

94

5 Usos y Consecuencias

OBJETIVO Y MARCO CONCEPTUAL

En este apartado se presentan los resultados de un análisis detallado de la evidencia disponible relativa a los usos y consecuencias de la prueba EXCALE (Exámenes de la Calidad y el Logro Educativos), frecuentemente denominado en la literatura especializada como análisis de validez consecuencial. Se busca revisar evidencia de que se dan los usos apropiados previstos a los resultados de la prueba, que estos están teniendo los efectos y consecuencias previstas y que, por el contrario, no se están dando usos inapropiados que conlleven consecuencias nega-tivas. La noción de validez relativa a usos y consecuencias de las pruebas combina un amplio rango de consideraciones teóricas, psicométricas, y prácticas; su aplicación (en general o en casos particulares) es un tema en constante evolución que se discute activamente en la literatura especializada (Lissitz, 2009).

En este trabajo se conceptualiza la validez consecuencial de manera amplia, y no ceñida a un modelo de medición particular. Esto se refleja en el convenio de ejecución entre INEE y UAA que incluye en este apartado la forma en que se difunden los resultados de las pruebas, los análisis de factores asociados y el uso que se hace de dichos resultados, así como las conse-cuencias que ha traído consigo su utilización en el sistema educativo mexicano1. Dado que este estudio se conceptualiza primordialmente desde la perspectiva de la política educativa, se considera que el uso de la prueba determina directamente su significado y consecuencias (Welner, 2013), sin importar necesariamente si esto corresponde a la definición psicométrica especifica de validez. Sin embargo, es importante diferenciar la evaluación que se busca aquí del uso de un instrumento en el contexto de una política educativa, de la evaluación general del impacto social de esta política en un sentido amplio, que este estudio no pretende abordar.

CRITERIOS DE VALORACIÓN

Al inicio de este proyecto el comité estableció una serie de criterios técnicos para guiar la evalua-ción de las pruebas ENLACE y EXCALE, basados principalmente en los estándares de AERA, APA y NCME (1999) que ofrecen los lineamientos técnicos y profesionales en evaluación educativa más establecidos a nivel internacional. Además se incluyeron elementos de tres fuentes: los estándares del Educational Testing Service (2000) que atienden lo relativo a equidad y conse-

1 El “análisis de factores asociados” se entiende aquí como un monitoreo de patrones y tendencias a nivel sistémico

para propósitos de investigación, o toma de decisiones sobre programas o políticas—a diferencia de análisis a nivel del

individuo que pertenecen al tema de validez de constructo.

Page 95: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

95Usos y consecuencias

cuencias (Standards for Quality and Fairness); los del Centro Nacional de Evaluación para la Edu-cación Superior de México (2000), que incluyen la comunicación de resultados y la capacidad de interpretación; y una publicación del Banco Mundial que considera factores que inciden en distintos tipos de usos (Kellaghan, Greaney y Scott Murray, 2009).

De estas fuentes se sintetizó una serie de once criterios que se engloban en cuatro aspectos de validez de uso y consecuencias, a saber: 1) Soporte para interpretaciones, usos y consecuen-cias previstas; 2) Acceso equitativo y capacidad de interpretación y uso; 3) Comunicación que facilite la buena interpretación de los resultados; y, 4) Interpretaciones, usos y consecuencias imprevistas.

Tabla 5.1 Criterios de valoración: validez relativa a usos y consecuencias

A. Justificación de interpretaciones, usos y consecuencias previstas

1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalde los usos y consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un apoyo teórico o empírico.

2. Se documenta y evalúa el grado en que se producen las consecuencias previstas y/o deseables de la prueba.

B. Acceso equitativo y capacidad de interpretación y uso

3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanismos de difusión y acceso para todas las partes involucradas sin discriminación.

4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la adecuada interpretación y utilización de los resultados.

C. Comunicación que facilite la buena interpretación de los resultados

5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que puede o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e información suficiente sobre la interpretación deseable (o correcta) de los resultados.

6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos técnicos en lenguaje claro y comprensible para una audiencia general.

7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se describe el perfil y características de la población de referencia.

8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas. Se notan limitaciones y errores comunes de interpretación al comparar diferentes pruebas, años, dominios, grupos, o niveles de agregación. Se usan categorías precisas que no den lugar a estigma.

D. Interpretaciones, usos y consecuencias imprevistas

9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque no se pueden prever todos los usos o interpretaciones inapropiadas, se busca identificar y acotar los más factibles o probables).

10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/positivas, o inadecuadas/negativas).

11. Cuando existe evidencia confiable de usos inapropiados, éstos se investigan en grado y detalle adecuado. Si estos usos persisten, se informa a los usuarios y se intenta tomar acciones correctivas.

Fuente: Adaptado de AERA /APA /NCME (1999), ETS (2000), CENEVAL (2000)

Es evidente que, aunque estos criterios reflejan aspectos concretos de calidad técnica de la prueba, a diferencia de aspectos psicométricos u operativos, estos no pueden evaluarse direc-tamente en términos cuantitativos o en cierta manera, objetivos o exactos.

Por el contrario, la evaluación de criterios aquí requiere juicios cualitativos graduales basados en evidencia teórica y empírica de muy diverso tipo y origen, no siempre observable de manera directa o confiable. El grado y naturaleza de evidencia necesaria, se concibe siempre en referen-cia al uso o usos específicos propuestos, dentro del contexto particular del sistema educativo en que estos ocurren. Esto es importante porque, aunque el marco conceptual que presenta la Tabla 5.1 es pertinente en general para cualquier prueba o evaluación, en la práctica la rele-

Page 96: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

96

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

vancia de cada criterio puede variar considerablemente dependiendo del uso y objetivo de cada prueba (AERA, APA, NCME, 1999). Por lo tanto, el grado, nivel, y enfoque del análisis técnico, será necesariamente diferente en el caso de una prueba de alto impacto que puede tener consecuencias serias para los sujetos e instituciones implicadas (como fue el caso de ENLACE), que en una prueba diagnóstica que reporta solo resultados agregados a nivel estatal y no tiene consecuencias para los actores involucrados (como es el caso de EXCALE). Así, algunos criterios que adquirieron gran relevancia en el caso de ENLACE, no son relevantes para EXCALE, o no es posible abordarlos con evidencia o grado de especificidad comparables.

La evaluación de usos y consecuencias no propuestas o imprevistas de una prueba es aún más compleja porque estos aspectos con frecuencia están fuera del control del desarrollador o usuarios principales, y se rigen por motivaciones y criterios distintos a los técnicos o educativos. Comparado con ENLACE, en el caso de EXCALE podría esperarse en principio un menor riesgo de usos injustificados, dado su diseño matricial que no reporta resultados o tiene consecuencias directas para estudiantes, maestros, o escuelas. Aun así es importante dar seguimiento a los usos de la prueba de forma amplia para asegurar que en la práctica éstos no se distorsionen y se aparten de los previstos o deseables.

Es importante señalar que nuestro reporte no busca ofrecer un juicio cualitativo sobre el valor o mérito de los diversos usos propuestos o posibles de EXCALE, o su idoneidad en un sentido edu-cativo y social más amplio. La distinción entre usos previstos e imprevistos es en cambio nece-saria por motivos prácticos y técnicos, al permitir delinear las responsabilidades de diseñadores, desarrolladores, y usuarios de la prueba. En principio los desarrolladores son responsables antes que nada de aquellos usos que ellos mismos han propuesto para la prueba. Sin embargo, como se verá más delante, la literatura sugiere que también existe un cierto grado de responsabilidad en la prevención, detección y corrección de usos que se consideren injustificados o inadecuados por distintos tipos de usuarios, estén o no entre los inicialmente previstos.

FUENTES DE EVIDENCIA Y ANÁLISIS

Los once criterios de valoración que se presentan en la Tabla 5.1 proveen el marco conceptual para el análisis de los aspectos teóricos, psicométricos, y prácticos de EXCALE, sus usos previstos e imprevistos, y las consecuencias que de éstos se derivan. Evaluar estos aspectos de validez requiere de información y evidencia de muy diversos tipos y fuentes, que normalmente no están disponibles en forma sintética en ningún documento o base de datos.

El grado en que EXCALE se usa en las formas previstas y produce los resultados esperados no puede establecerse directamente con algún análisis estadístico o psicométrico, sino que requie-re recolectar y sintetizar fuentes de información de distinto tipo y origen.

Este estudio ofrece una síntesis cualitativa que refleja la evidencia disponible de múltiples fuen-tes, respecto a los criterios de valoración propuestos. Para su elaboración se revisó la totalidad de los manuales y otra documentación que acompaña a EXCALE, así como otros textos, trabajos, estudios, y literatura adicional tanto del INEE como de otras fuentes. Dada la naturaleza de las preguntas de esta sección —y ciertas limitaciones en la información disponible que documenta usos y consecuencias de EXCALE—, se buscó además enriquecer el análisis con información

Page 97: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

97Usos y consecuencias

proporcionada directamente por actores involucrados en el uso de resultados de la prueba. En particular, el equipo de investigación de la UAA recogió información de tres fuentes adicionales:

1) Encuesta nacional de actores involucrados en la administración y uso de las pruebas EXCALE en cada localidad.

2) Entrevistas a profundidad con autoridades y personal involucrado en el uso de resulta-dos de las pruebas EXCALE en una muestra de diez estados y a nivel federal en depen-dencias de la Secretaria de Educación Pública.

3) Búsqueda estructurada utilizando herramientas Google y Google Scholar para iden-tificar evidencia sobre usos y consecuencias previstas e imprevistas, con base en una revisión de cobertura en prensa, grupos y organismos de la sociedad civil.

La Tabla 5.2 sintetiza las fuentes de información que sirven de base para nuestro análisis, orga-nizadas según los criterios de valoración ofrecidos en la Tabla 5.1.

Tabla 5.2 Fuentes y tipos de evidencia empleadas por criterio de valoración

Criterio Tipo de evidencia

A. Interpretaciones, usos y consecuencias previstas

1. Evidencia y respaldo 2. Monitoreo

t Plan General de Evaluación del Aprendizaje 2009t Estudios especiales realizados por INEE (ver publicaciones en página web INEE)t Estudios no realizados por INEE t Encuesta y entrevistas con personal de entidadest Estadísticas de acceso a Explorador EXCALE, Corpus EXCALE, y bases de datos

B. Acceso equitativo, y capacidad de interpretación y uso

3. Reporte / acceso a resultados4. Capacitación y apoyo

t Manual técnico EXCALE 2005/2009t Talleres de actualización y uso para política educativa estatal y federal, prensa, otrost Documentos de apoyo para tomadores de decisiones a nivel estado y federalt Estadísticas de acceso a Explorador EXCALE, Corpus EXCALE, y bases de datos t Encuesta y entrevistas con personal de entidades

C. Comunicación que facilite la buena interpretación de los resultados

5. Reportes informativos6. Lenguaje adecuado7. Marco de referencia8. Limitaciones / errores comunes

t Manual Técnico EXCALE 2005/2009 t Reportes de resultados producidos para grupos de usuarios y accesibles en página web

(ver Explorador EXCALE, Corpus EXCALE)

D. Interpretaciones, usos y consecuencias imprevistas

9. Advertir sobre usos inapropiados10. Documentar esos usos11. Acciones respecto a ellos

t Manual Técnico EXCALE 2005/2009 t Estudios especiales realizados por INEE (ver publicaciones en página web INEE)t Estudios no realizados por INEEt Encuesta y entrevistas con personal de entidadest Cobertura de medios (ver “sala de prensa” en página web INEE) y Organizaciones

No Gubernamentales

REVISIÓN DE LA EVIDENCIA DISPONIBLE POR CRITERIO DE VALORACIÓNA. Interpretaciones, usos y consecuencias previstas

1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalden los

usos y consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no

tienen un apoyo teórico o empírico.

Page 98: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

98

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

El manual técnico de EXCALE establece:

el objetivo fundamental de la evaluación del aprendizaje es proporcionar un conocimiento general del rendimiento académico de los estudiantes a niveles estatal y nacional (con dis-tintos grados de desagregación por estrato y modalidad educativos), así como de los facto-res más importantes que explican las diferencias en el logro de los aprendizajes… Se espera que los resultados que genere el INEE complementen los procesos evaluativos existentes desarrollados por otras instancias nacionales e internacionales— a fin de emitir juicios de valor contextualizados que sirvan para apoyar la toma de decisiones documentada y con-tribuyan al establecimiento de políticas, reformas e innovaciones dirigidas al mejoramiento de la calidad educativa con equidad.” (INEE, 2009)

A partir de esta definición general, la Tabla 5.3 sintetiza en mayor detalle los objetivos que se desprenden del Manual Técnico (INEE, 2009) y el Plan General de Evaluación (INEE, 2005). Además de la sociedad en general, estos usos se dirigen o involucran a seis grupos de usua-rios específicos, a saber: autoridades educativas estatales y federales, instituciones educativas, profesores o maestros,2 investigadores, autores de libros de texto, y organizaciones no guber-namentales. Por otro lado se presentan cinco principales áreas de influencia de la evaluación: política educativa nacional y estatal, currículo nacional, programas de estudio y libros de texto, administración y gestión escolar, y formación y actualización docente (2005, p.9).

Plan General de Evaluación (p8) y Manual Técnico (p5)

1. Conocer el logro académico de los estudiantes a nivel estatal y nacional, y los factores de contexto más importantes que explican las diferencias de los sectores estudiados.

2. Informar juicios de valor contextualizados que sirvan para apoyar la toma de decisiones documentada y contribuir al establecimiento de políticas, reformas e innovaciones dirigidas al mejoramiento de la calidad educativa con equidad.

3. Complementar los procesos evaluativos existentes que han sido desarrollados por otras instancias nacionales e internacionales.

4. Contribuir a conocer los alcances y limitaciones del Sistema Educativo Nacional y, con ello, el nivel de la calidad de la educación básica en el país.

5. Aportar elementos para enriquecer la rendición de cuentas a que tiene derecho la sociedad mexicana.

Plan General de Evaluación (p22; Características de las pruebas)

1. Construir una visión general de lo que los alumnos aprenden como resultado de su escolarización formal; 2. Conocer los puntos fuertes y débiles del aprendizaje de los estudiantes en cada asignatura, de acuerdo al

género, modalidad educativa, estrato social, grado y área temática del currículo; 3. Comparar el rendimiento escolar, así como las tendencias de aprendizaje a lo largo del tiempo entre grupos

de alumnos y áreas temáticas evaluadas; 4. Mejorar la evaluación de gran escala de las disciplinas que se evalúen y, 5. Proporcionar información para estudios especiales.

Fuente: Plan general de Evaluación (2005) y Manual técnico EXCALE (2009)

Tabla 5.3 Usos, beneficios, y/o consecuencias previstos de EXCALE

Una primera observación es que los objetivos generales descriptivos de las pruebas de apren-dizaje del INEE se mencionan ampliamente; son generalmente claros; y se justifican con un amplio desarrollo técnico reflejado en una docena de manuales especializados. Sin embargo, la documentación no define de manera clara y explícita los objetivos de EXCALE, ni establece

2 Los términos profesor y maestro se utilizan de forma intercambiable en la documentación sin definir explícitamente

la equivalencia de estos términos.

Page 99: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

99Usos y consecuencias

los usos específicos previstos con cada grupo de usuarios, o las consecuencias previstas. Esto refleja en parte la naturaleza descriptiva y enfoque sistémico de la prueba, pero nuestro análisis también revela una considerable falta de claridad y consistencia en la definición y descripción de usos y objetivos que va más allá de la mera falta de consistencia en el uso de términos técnicos. Es revelador en sí mismo que los objetivos que se listan en la tabla 5.3 no se condensan de esa forma en ninguno de los documentos que acompañan a EXCALE; la tabla es una síntesis con nuestra lectura de los diversos objetivos y usos que se describen en distintas secciones del ma-nual técnico, Plan general de evaluación, y pagina web, con lenguaje similar pero no idéntico, y con diferente foco y granularidad. Esta dispersión resulta es evidente cuando se nota que el monitoreo de tendencias en el aprendizaje (a todas luces uno de los objetivos fundamentales de la prueba) no se menciona propiamente en el manual técnico, sino que aparece a mitad del Plan General de Evaluación en la sección Características de las pruebas (p.22).

En relación directa con lo anterior, se aprecia una falta de claridad al definir, acotar y justificar las interpretaciones y usos previstos de EXCALE, y los objetivos más generales a que se orienta la labor del INEE. Los dos conjuntos de objetivos con frecuencia se superponen o se tratan como conceptos intercambiables, lo que complica la correcta diferenciación y evaluación de ambos. En el manual técnico, por ejemplo, se alude a los objetivos fundamentales “de la evaluación del aprendizaje” no de la prueba EXCALE. Cuando se refiere más específicamente a EXCALE, el manual lo hace reduciendo considerablemente su alcance, que se limita a “Establecer el mar-co de referencia de cada EXCALE, lo cual incluye desde la fundamentación teórica del ámbito disciplinar que pretende evaluar, hasta la definición de sus dimensiones.” El manual por tanto explícitamente excluye el objetivo central de presentar argumentos y evidencia que respalde los usos propuestos.

Todo lo anterior se traduce en la práctica en objetivos demasiado amplios y no bien acotados que no especifican consecuencias esperadas de uso, y menos aún los mecanismos que las producirán.

Por ejemplo, no es claro cómo se distingue el grado en que EXCALE ha cumplido el objetivo de “aportar elementos para enriquecer la rendición de cuentas”, y el de “informar juicios de valor contextualizado que sirvan para apoyar la toma de decisiones”. Tampoco lo es la diferencia en-tre “contribuir a conocer los alcances y limitaciones del sistema educativo nacional”, y “construir una visión general de lo que los alumnos aprenden”.

En otros casos se establecen ligas específicas entre usos y usuarios que no parecen tener corres-pondencia con las consecuencias esperadas. Por ejemplo, el Plan general de Evaluación (2005, p. 9) establece que para efectos de difusión de resultados, los esfuerzos del INEE se enfocan principalmente a las autoridades educativas, y la sociedad en general.

Sin embargo, el mismo plan define como aspectos centrales de validez consecuencial los usos que dan a la prueba personas no especializadas y de manera fundamental los maestros en el aula (2005, pp. 82-83). Otro ejemplo es el Explorador EXCALE, una herramienta en Internet que busca promover el uso de los resultados por maestros, directores, tomadores de decisiones, y otros interesados. En la página del Explorador se listan los siguientes objetivos de la prueba:

a) Proporcionar un conocimiento general del rendimiento académico de los estudiantes…con distintos grados de desagregación, entre los que se encuentran los estratos escolares de primaria y las modalidades educativas de secundaria;

Page 100: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

100

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

b) Permitir comparaciones del rendimiento escolar entre diversas regiones geográficas, así como entre distintas modalidades educativas;

c) Conocer los puntos fuertes y débiles del aprendizaje de los estudiantes en distintos grados y áreas temáticas del currículum;

d) Conocer las tendencias a lo largo del tiempo del aprendizaje de las Matemáticas, el Español, las Ciencias Naturales y las Ciencias Sociales;

e) Analizar variables de contexto que influyen de manera importante en el logro escolar;f) Identificar el crecimiento o estancamiento de los aprendizajes en las disciplinas evaluadas

Más aún, los objetivos no corresponden exactamente con los que aparecen en el manual téc-nico, ni se definen o diferencian claramente entre sí (e.g. a. desegregación por estratos y mo-dalidades vs. b. comparaciones entre modalidades; o d. Conocer tendencias vs. f. Identificar crecimiento).

La falta de claridad, especificidad y consistencia en la definición de usos y consecuencias de la prueba, vuelve difícil la evaluación de fortalezas y limitaciones en su diseño en relación con sus objetivos. La documentación presenta limitaciones si se pretende evaluar no sólo el grado en que se producen los usos y consecuencias previstas, sino incluso el grado en que éstos están adecuadamente construidos con base en fundamentos teóricos, lógicos y prácticos.

2. Se documenta y evalúa el grado en que se producen los usos y consecuencias previs-

tas y/o deseables de la prueba.

La Tabla 5.4 presenta estadísticas de acceso a reportes y publicaciones en la página del INEE en un periodo de 9 meses (de julio de 2013 a abril de 2014). El reporte de la aplicación 2009 de EXCALE en 6º grado recibió el mayor número de consultas (1879). Otros reportes generaron menor interés, con consultas que fluctúan entre las 300 (3º de primaria 2010, y resumen ejecu-tivo 2009), y menos de 100 (varios reportes como estudios de factores asociados, y expresión escrita en 6º de primaria y 3º de secundaria, entre otros).

No se cuenta con información que permita especular sobre las razones del alto interés en el reporte de 6º grado de 2009, comparado con otros de EXCALE y otras publicaciones del INEE. Finalmente, no existen datos sobre el perfil de los usuarios que consultan estos reportes y, por tanto, es difícil interpretar estas estadísticas en relación con los objetivos de diseminación y uso que se persiguen. Sin embargo, los datos en principio revelan que al menos algunos de los reportes de resultados que genera el INEE están siendo consultados por ciertos sectores de usuarios. Lo anterior sugiere la necesidad de hacer un seguimiento y mantener un registro de los usuarios que consultan las publicaciones que se derivan de EXCALE para conocer mejor su perfil, intereses, y necesidades. Por ejemplo, se podría requerir el llenado de una breve encuesta anónima antes de descargar publicaciones de la página del INEE (como es común en organismos internacionales como NCES y OCDE).

Page 101: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

101Usos y consecuencias

Publicación Visitas

El aprendizaje en 6º de primaria en México. Informe sobre resultados del EXCALE aplicación 2009 Español, Matemáticas, Ciencias Naturales y Educación Cívica.

1879

El aprendizaje en 3º de primaria en México Informe de resultados EXCALE 03 Aplicación 2010 Español, Matemáticas, Ciencias Naturales y Educación Cívica.

318

Estudio comparativo del aprendizaje en 3º de secundaria en México 2005-2008 Español y Matemáticas.

290

El aprendizaje en 3º de secundaria en México. Informes sobre los resultados de EXCALE 09 aplicación 2008.

167

Factores asociados al aprendizaje de estudiantes de 3º de primaria. 93

La ortografía de los estudiantes de educación básica en México. 110

El aprendizaje en 3º de preescolar en México. Lenguaje y comunicación. Pensamiento matemático. 173

El aprendizaje en 3º de preescolar en México. Lenguaje y comunicación. Pensamiento matemático. Resumen ejecutivo.

83

Estudio comparativo del aprendizaje en 6º de primaria 2005-2007. Español y matemáticas. 93

El aprendizaje en 3º de primaria en México. Español, Matemáticas, Ciencias Naturales y Ciencias Sociales

73

El aprendizaje en 3º de primaria en México. Español, Matemáticas, Ciencias Naturales y Ciencias Sociales. Resumen ejecutivo.

38

Factores escolares y aprendizaje en México: el caso de la educación básica. 98

El aprendizaje del Español y las Matemáticas en la educación básica en México. 6º de primaria y 3º de secundaria.

87

El aprendizaje de la expresión escrita en la educación básica en México. 6º de primaria y 3º de secundaria.

53

El aprendizaje de Español, Matemáticas y expresión escrita en la educación básica en México. 6º de primaria y 3º de secundaria. Resumen ejecutivo.

332

Tabla 5.4 Número de visitas a publicaciones del INEE (07/2013-04/2014)

Fuente: Instituto Nacional para la Evaluación de la Educación

Uso por entidades estatales

Los resultados de la encuesta realizada a personal de las secretarias estatales de educación se condensan en el ANEXO 5.1 al final de este documento. En total se recibieron 29 respuestas de personal en 20 estados del país. Los resultados revelan inconsistencias entre los estados respec-to del grado y mecanismos de uso de los resultados de EXCALE, pero en general apuntan a un uso limitado para el análisis de las debilidades y fortalezas de los sistemas educativos estatales. De los 20 estados que reportaron datos en la encuesta, sólo la mitad hace llegar los resultados de EXCALE a coordinadores (11) o docentes (10) y tres cuartas partes (14) hacen llegar los resul-tados a supervisores. Sólo 1 de cada 5 estados difunde sus resultados entre las familias, y menos de la tercera parte (6 estados) utiliza la prueba para diagnosticar la labor y gestión escolares, y orientar intervenciones pedagógicas.

La encuesta parece reflejar algunos patrones de uso que podrían ser interesantes; por ejemplo, seis estados (30%) reportan que se usa la prueba EXCALE para evaluar políticas y programas edu-cativos. Un grupo nutrido de estados reporta utilizar los resultados para orientar la capacitación docente (45%), y la intervención pedagógica (30%). Sin embargo, la encuesta también refleja usos que son improbables dado el diseño de la prueba, como estados que reportan utilizarla

Page 102: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

102

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

para la rendición de cuentas a nivel de la escuela (5) o el maestro (2). Finalmente, sólo 10% apro-vecha EXCALE para orientar a las familias para apoyar el aprendizaje de sus hijos, y tres estados (15%) para fortalecer a la comunidad escolar. La encuesta también incluye preguntas abiertas que abordaron las consecuencias positivas y negativas del uso de EXCALE pero éstas por lo ge-neral no resultaron de mucho interés. Muchas de las respuestas proporcionadas son genéricas y simplemente reiteran los objetivos que se mencionan (por ejemplo, “se han generado esfuerzos de mejora”), sin proporcionar una descripción específica o evidencia concreta.

En cuanto a las consecuencias del uso, muy pocos estados reportaron alguna significativa para los estudiantes a nivel individual. En relación con los maestros, las consecuencias positivas re-portadas con mayor frecuencia vuelven a tomar un tinte genérico, pues se reporta que EXCALE está motivándolos hacia la mejora y el desarrollo profesional (40% de estados), ayudando a redirigir la enseñanza hacia contenidos que los alumnos no dominan (45%), alinear la enseñan-za a los estándares y apoyar el diagnóstico de las fortalezas y debilidades del currículo (35%). Nuevamente, no es del todo clara la apropiada interpretación o incluso la confiabilidad de estas respuestas. En este sentido debe mencionarse que una limitación de la encuesta es que ésta no se ajustó específicamente a los usos y consecuencias previstas de EXCALE, sino que se derivó de una lista creada originalmente para ENLACE. Lo anterior hace sospechar que el uso de EXCALE es aún más limitado que el que reflejan los resultados de la encuesta, puesto que algunos de los usos que se mencionan no corresponden a los de una prueba de tipo matricial sin resultados por escuela (e.g. diagnosticar fortalezas y debilidades del alumno para orientar la práctica docente). Entre las consecuencias negativas se menciona la moral baja por resultados negativos (25% de los estados) y un enfoque excesivo en los contenidos de la prueba por encima del aprendizaje (25%). En cuanto a las autoridades educativas, 45% de los estados reportó que EXCALE ha mo-tivado la revisión y evaluación de programas y políticas, incluidas la relativas a la calidad de la en-señanza; 40% que se ha mejorado el monitoreo del desempeño del sistema; y 35% que mejoró la toma de decisiones en cuanto a asignación de recursos en la entidad. En 35% de los estados se implementaron medidas específicas o se asignaron recursos para aumentar los puntajes de los alumnos en EXCALE, y en 20% se ofrecieron incentivos con base en tales puntajes; también 20% señaló que las autoridades han privilegiado la mejora de los resultados a expensas de otras necesidades y problemas importantes.

Las entrevistas en profundidad con personal de 10 entidades y del INEE, aunados al estudio de Silva (2012), presentan información más detallada que corrobora que el uso de EXCALE en los estados es bastante limitado y, por norma general, no informa directamente las políticas o pro-gramas educativos locales. La mayoría de los entrevistados (6 de 10) reportó que en su estado se analizan los resultados de EXCALE y se hacen llegar a autoridades estatales. Sin embargo, el mecanismo de diseminación más común es a través de una presentación de los reportes que se reciben del INEE, y no se mencionan esfuerzos adicionales para contextualizar y analizar en profundidad los resultados y factores asociados al rendimiento a nivel estatal. En sólo dos de los diez estados se reportó algún uso específico: en Nuevo León para informar la capacitación do-cente y en Colima para complementar la información generada por ENLACE y el examen estatal de fin de año, a fin de corroborar tendencias. En cuatro estados las autoridades reportaron que conocen los resultados de la prueba pero no los difunden ni los usan. Más aún, las respuestas de algunos de los entrevistados reflejan incluso conocimiento limitado de las características de la prueba (pretenden usos o consecuencias que no pueden lograrse con el diseño matricial de la prueba, o simplemente la confunden con ENLACE). Las razones que se mencionan para explicar

Page 103: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

103Usos y consecuencias

el bajo uso de los resultados de EXCALE incluyen el carácter muestral de la prueba, su baja pe-riodicidad, la difusión poco oportuna de los resultados, la falta de claridad sobre su utilidad para autoridades estatales, y la falta de vinculación con presupuesto estatal (ver también Silva, 2012, p. 42). La entrevista con personal del INEE sugiere que hay mucho potencial no aprovechado para vincular los resultados y bases de ENLACE y EXCALE. Por ejemplo, algunos estados han solicitado al instituto empatar la base de datos con información existente a nivel estatal, pero esto normalmente no es posible por el diseño matricial de EXCALE, el uso de valores plausibles para la calificación, y la falta de identificadores a nivel del estudiante en las bases. Por ultimo esta entrevista sugiere que la falta de vinculación entre los resultados de EXCALE y los mapas curriculares de progreso podría ser otro factor que limita su aprovechamiento.

Por lo que hace al objetivo de contribuir a fortalecer la rendición de cuentas, ningún informante o fuente de información consultada refiere un uso concreto de EXCALE como parte de meca-nismos de rendición de cuentas. Aunque es evidente que la información que se deriva de esta y otras pruebas del INEE, contribuye en cierta medida a fortalecer la rendición de cuentas, resulta difícil evaluar de forma más específica y objetiva el grado en que este objetivo se cumple en la práctica. Las entrevistas con personal estatal en cambio refieren una falta de vinculación de los resultados de EXCALE con mecanismos concretos de rendición de cuentas incluyendo la asigna-ción de recursos (ver también Silva, 2012). Con resultados que se reportan únicamente a nivel estatal en realidad parece poco realista esperar un uso extendido para rendición de cuentas excepto en el sentido más general (y casi se podría decirse cultural) del término.

Aún en un contexto de uso limitado, el estudio de Silva (2012) y algunas de las entrevistas rea-firman la percepción de los usuarios de que la prueba EXCALE ofrece información más confiable que ENLACE, porque el instrumento es más sólido técnicamente y su aplicación es más rigurosa (p. 40). Silva (2012, p. 58) señala que un resultado de EXCALE ha sido el promover una cultura de la evaluación que ya está llevando a replicar la lógica de las pruebas nacionales en pruebas diagnósticas a nivel estatal orientadas por los altos estándares técnicos del INEE. El reporte de Silva menciona que existen otros ejemplos aislados de mayor uso de EXCALEla, aunque éstos se limitan a ciertos nichos del espectro educativo y no han recibido suficiente atención (como ejemplo se menciona el uso en el nivel de preescolar en Jalisco; Silva, 2012, p. 64).

Uso por entidades federales

En la entrevista con personal del INEE (diciembre 2013) se señala que uno de los usos más be-neficiosos de EXCALE a nivel federal se ha dado en la Dirección General de Desarrollo Curricular (DGDC), que participó activamente en el desarrollo de las pruebas, colaborando para la creación de tablas de especificaciones y la conformación de los comités académicos. El personal del Ins-tituto reportó que la DGDC utiliza ahora los resultados de EXCALE para la revisión y adaptación del currículo nacional:

… mirar los resultados da claridad sobre lo que es curricularmente, no sé si llamarlo exigible o no, pero lo que se puede pedir que los alumnos aprendan o no mirando lo que ha suce-dido en el pasado y que eso ha orientado muchas reflexiones curriculares.

El informe de Silva (2012, p. 57) en principio corrobora esta idea al afirmar que EXCALE es una de “las fuentes principales de las que se extrae información sobre las áreas a fortalecer, y en función de las cuales se atiende a dichas necesidades por medio de estrategias tales como el

Page 104: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

104

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

diseño de cursos.” Sin embargo, la entrevista con el director de la DGDC realizada para este reporte refleja un uso más limitado, donde EXCALE representa en el mejor de los casos una de varias fuentes de información que toma en cuenta la dirección para sus trabajos.

Durante los primeros años de EXCALE se realizaron trabajos muy extensos con los estados para informarles de los resultados y apoyarlos en la mejora de planes, programas, y herramientas. Más recientemente, éste ha ido perdiendo relevancia en contraste con la mayor importancia de los resultados de ENLACE y PISA, al punto que en la actualidad, EXCALE es explícitamente identificada como la menos importante de las tres pruebas para los trabajos de la dirección (Balbuena, 2014). Se identifican dos limitaciones centrales: primera, la DGDCE trabaja inten-samente con los estados para ofrecer asistencia a escuelas y zonas con bajos resultados, para lo que es necesario utilizar resultados de ENLACE a nivel de centro escolar. Lo anterior es in-teresante porque EXCALE sí provee en principio resultados que permitirían analizar el logro de distintos “tipos” de escuelas o alumnos; sin embargo, los esfuerzos recientes se enfocan a hacer estudios de caso de escuelas con resultados extremos (altos y bajos). Segunda limitación, para efectos de rediseñar el currículo, la DGDC se enfoca cada vez más en los tipos de habilidades y competencias en que se basan las pruebas PISA y TIMSS, que permite evaluar el currículo nacional en relación con lo que se estudia a nivel internacional. En palabras del director, estas pruebas son muy útiles para ver no tanto qué aprenden los alumnos sino qué tanto saben usar lo que aprenden, y tienen una mayor relevancia e implicaciones para efectos de (re)diseñar las prácticas y materiales pedagógicos que se utilizan en el aula. Una petición expresa del director de la DGDC para el INEE es que la próxima generación de pruebas “se parezcan más a PISA” con un número menor de reactivos de mayor complejidad; esto ofrecería una guía sobre lo que los alumnos deben saber hacer, lo que haría la prueba más relevante para la práctica docente, y podría ayudar a limitar el fraude y mal uso.

Otro usuario a nivel federal mencionado en el informe de Silva (2012, p. 56-57) es la Dirección General de Educación Indígena (DGEI), aunque el ejemplo se refiere específicamente a las pu-blicaciones “La educación para poblaciones en contextos vulnerables 2007” y los reportes de la serie “Panorama Educativo”. A partir de esta información se ha rediseñado una fórmula para la asignación de recursos en el marco del Programa Escuelas de Calidad. El informe habla también del uso estratégico por la DGEI de la información de las pruebas de logro educativo en general, y EXCALE en particular, para entender mejor las necesidades, y áreas de oportunidad en el sub-sistema de educación indígena (p. 68-69).

Por último, el actual Programa Sectorial de Educación (2013-2018) menciona específicamen-te los resultados de los alumnos en la prueba EXCALE como un indicador clave para propó-sitos de evaluar los resultados del sistema educativo nacional (ver http://www.dof.gob.mx/nota_detalle_popup.php?codigo=5326569).

Uso por investigadores

El INEE considera el uso directo de las bases de datos EXCALE por parte de investigadores y espe-cialistas como un mecanismo importante para propiciar el mejor entendimiento del aprendizaje de los alumnos en el contexto del Sistema Educativo Mexicano. Por lo anterior, ha buscado fomentar este tipo de usos por varios canales. El primero se basa en la herramienta Banco de Indicadores Educativos que permite consultar los indicadores agregados que conforman las pu-blicaciones Panorama Educativo de México por materia y año. Esta es una herramienta robusta

Page 105: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

105Usos y consecuencias

que permite descargar tablas con resultados desagregados para todas las versiones de EXCALE en formato PDF, permitiendo almacenarlos como archivos para su posterior consulta.

Además, se ha buscado promover el uso de las bases con los datos originales para aprovechar su riqueza y realizar análisis más sofisticados de resultados, relaciones y tendencias, que comple-mentan la información que ofrecen los reportes y síntesis estadísticas que regularmente ofrece el INEE. Este esfuerzo se ha traducido en una serie de trabajos que pueden clasificarse en tres categorías. Primero están los proyectos que se realiza al interior del Instituto, incluyendo análisis de factores asociados y varios números de las series Resultados de Evaluaciones y Cuadernos de Investigación. En segundo lugar está una veintena de estudios especiales encargados a especia-listas externos nacionales o internacionales, o derivados de colaboraciones entre éstos e investi-gadores del Instituto, que profundizan en aspectos de los resultados o características técnicas de la prueba. Algunos de estos estudios aparecen en la serie Cuadernos de Investigación del propio INEE; otros están disponibles sólo internamente como documentos o reportes de trabajo o se han publicado en diversas revistas y libros especializados. El tercer grupo está representado por un número pequeño de estudios publicados que fueron realizados por investigadores o institu-ciones externos al INEE, utilizando los datos de la prueba EXCALE. Una revisión de la literatura (Contreras 2014, comunicación personal) encontró 14 estudios de este tipo (ver anexo 2).

En general, la evidencia no apunta a un uso extendido de las bases de EXCALE por parte de especialistas nacionales o internacionales. El número de estudios que las ha utilizado al nivel del estudiante es particularmente reducido, aunque están disponibles para consulta y descarga en el sitio web del instituto. Es notoria también la ausencia casi completa de trabajos o tesis realizadas por estudiantes de postgrado, un área de oportunidad importante que otros sistemas en gran escala típicamente tratan de explotar en mayor medida. Aunque la revisión de literatura que hemos hecho para este reporte puede haber omitido algunos ejemplos relevantes, no hay motivos para sospechar que el número sea muy grande.. Algunos de los estudios mencionados utilizan sólo resultados agregados y otros se basan en datos de las pruebas de Estándares Na-cionales de la SEP publicada por el INEE. Entre algunos investigadores no hay completa claridad respecto de la distinción entre pruebas e incluso se refieren explícitamente a las de Estándares como una versión beta de los EXCALE.

Un último ejemplo de uso para investigación se basa en la herramienta Corpus EXCALE de escri-tura, que ofrece a investigadores acceso a textos producidos por una muestra representativa de estudiantes de educación básica y media, así como información sociodemográfica sobre ellos. La herramienta busca apoyar el trabajo de especialistas y académicos interesados en los proce-sos de escritura. Sin embargo, no existe registro de investigaciones u otros trabajos, publicados o no, que hayan utilizado los datos que proporciona esta herramienta.

Maestros

Tal como se ha dicho anteriormente, el Plan General de Evaluación y demás documentación de EXCALE mencionan frecuentemente a los maestros como parte del grupo de usuarios clave a quienes está dirigida la prueba (INEE, 2005). Sin embargo, no se especifican los usos que se espera den los maestros a EXCALE en detalle, lo que vuelve difícil evaluar si se han producido en la práctica. El uso por parte de los maestros es tal vez el ejemplo más claro donde parece necesario revisar el grado de alineación entre el diseño de la prueba y los objetivos y usos que se pretenden con ella. El diseño matricial de EXCALE permite maximizar la precisión y

Page 106: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

106

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

eficiencia de la información sobre el dominio de una amplia variedad de contenidos curricu-lares a nivel nacional, estatal, y de subsistemas. Sin embargo, este mismo diseño tiene serias limitaciones si se pretende que el maestro use la prueba dentro del aula para diagnosticar las fortalezas y debilidades de sus alumnos, y por lo tanto para orientar la práctica docente en su contexto particular. Considerando que EXCALE no proporciona resultados a nivel de la escuela o el aula, no es de extrañar por ende que no se cuente con evidencia empírica del uso de esta prueba por parte de los maestros.

Page 107: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

107Usos y consecuencias

Un esfuerzo por fomentar los usos pedagógicos de EXCALE sin la necesidad de proporcionar resultados a nivel del aula es la publicación de materiales didácticos para el maestro que tienen como punto de partida los contenidos curriculares con bajos resultados en las pruebas. Estos materiales son diseñados por expertos curriculares, y maestros de las respectivas disciplinas. Una publicación reciente (Bonilla Pedroza, 2013) ofrece estrategias para la enseñanza de temas de nutrición en educación primaria, con base en un análisis de los resultados EXCALE de cien-cias naturales en 3º de primaria del año 2007. Otro ejemplo (García, 2014) ofrece materiales para apoyar al maestro en sus prácticas de enseñanza dirigidas a desarrollar el sentido numé-rico en los alumnos. Finalmente, en la página web del INEE se lista un “Foro de experiencias en el uso de los MAPE” (sin fecha) donde “los maestros participantes elaboraron un relato del uso que les dieron a los materiales. Como resultado, 15 maestros presentaron su informe en el foro de Experiencias en el uso de los MAPE”.

Aunque este tipo de materiales pueden representar una herramienta muy valiosa para apoyar procesos de mejora de la práctica docente, difícilmente constituyen un uso de EXCALE por parte de los maestros en el sentido usual del término. Cada una de estas publicaciones toma como punto de partida los resultados nacionales, y abarca todos los niveles de la prueba EXCALE, des-de prescolar hasta secundaria. Por ello tal vez es más apropiado concebirlas como documentos de corte general, que pueden ser útiles para el maestro como material introductorio, pero no tienen el nivel de detalle necesario para informar la práctica referida a contenidos, grados, y aulas particulares. Como parte del proceso de diseño de la próxima generación de pruebas, parece deseable una mayor claridad en los supuestos lógicos y prácticos de funcionamiento de la prueba EXCALE como motor de cambio de las prácticas pedagógicas en las aulas de México.

Organismos civiles y sociedad en general

En años recientes el interés de la prensa y de los organismos de la sociedad civil se ha enfocado cada vez más en los resultados de la prueba ENLACE y en la prueba PISA. En contraparte, el interés social en los resultados de EXCALE parece haber decrecido en el mismo periodo. Una búsqueda en línea de artículos referidos a las pruebas EXCALE aparecidos en una muestra de diarios impresos de circulación nacional entre 2010 y 2013 parece reflejar este patrón. En el año 2010, en reacción a los resultados de EXCALE 3º de secundaria se publicaron una veintena de artículos en la muestra de diarios nacionales que se revisó (ver Anexo 5.3). Sin embargo, estos mismos diarios reflejaron un interés considerablemente menor frente a los resultados de EXCALE en 3º de bachillerato y 3º de primaria, aparecidos en 2011 y 2012 respectivamente. En 2011 estos diarios publicaron un total de tres notas referidas a los resultados de EXCALE, mientras que en 2012 el número se redujo a dos. Durante ese mismo periodo, los diarios consultados (y cualquier otro de circulación nacional) publicaron docenas de artículos, notas y opiniones sobre los resultados de ENLACE y PISA.

El interés decreciente en los resultados de EXCALE se explica en parte a partir de dinámicas de competencia y rendición de cuentas derivadas de la aplicación de la prueba ENLACE cuyo diseño censal le permite ofrecer resultados y enfocar la atención a nivel de alumnos, aulas, escuelas y programas específicos; lo anterior la vuelve mucho más interesante desde el punto de vista periodístico, independientemente de la poca probidad técnica de muchos de estos usos. Sin embargo, la experiencia en otros países sugiere que las pruebas estatales que ofrecen resultados por escuela no necesariamente resultan en un menor apetito por resultados a nivel nacional, en la medida en que se entiende que ofrecen información distinta y complementaria

Page 108: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

108

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

(por ejemplo la prueba NAEP en los Estados Unidos). Por lo tanto parece deseable una revisión a fondo que permita determinar si existen otros factores que contribuyen al notorio descenso en el interés en la prueba EXCALE, particularmente factores bajo el control del INEE. Dada la im-portancia creciente de las organizaciones sociales como motor impulsor de reformas educativas es particularmente relevante revisar los mecanismos y estrategias de difusión y discusión de los resultados de EXCALE, y los conductos de comunicación con los medios y otros actores sociales en general buscando detectar áreas de oportunidad en cuanto a la oportunidad, relevancia, detalle y contextualización de la información que se genera.

B. Acceso equitativo y capacidad de interpretación y uso

3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanis-

mos de difusión y acceso para todas las partes involucradas sin discriminación.

En entrevistas con el personal del INEE se mencionan los siguientes canales principales de difu-sión de los resultados que éste genera: informes escritos, presentaciones públicas, Explorador EXCALE, Corpus EXCALE, dípticos y trípticos para profesores, talleres con investigadores, e incluso redes sociales (twitter y Facebook). Las series de reportes de resultados y los informes temáticos que publica el INEE a partir de los resultados de EXCALE se han establecido como recursos de referencia que son frecuentemente usados por autoridades, académicos y medios de comuni-cación.

Como se mostró en la Tabla 5.4, entre julio de 2013 y abril de 2014 se realizaron cerca de 4 mil consultas o descargas de reportes y publicaciones de la página del INEE. Los números apuntan nuevamente a un grado importante de interés en los resultados de EXCALE, aunque el desglose de los documentos consultados sugiere que puede variar grandemente entre distintos tipos de publicaciones: los reportes anuales y síntesis estadísticas atraen mucho más interés que los estudios especializados o con enfoque temático específico.

Sin embargo, se observan problemas crecientes en lo que se refiere a la oportunidad con que se comunican los resultados de la prueba EXCALE. En particular se constató que los informes fina-les derivados de las aplicaciones realizadas en 2011 aún no habían sido publicados a mediados de 2014. Esto parece un retraso considerable en la publicación de los análisis que contextualizan en detalle los resultados de EXCALE, de donde en teoría se deriva su mayor utilidad. Esto puede afectar las percepciones sobre la relevancia de la prueba, a la vez que reducir sus impactos rea-les entre los actores y para los usos previstos.

Respecto del conocimiento de los EXCALE por parte de maestros y directores de escuelas, una encuesta del INEE sugiere que, sin importar el grado o modalidad de atención, éstos tienen poco conocimiento de la prueba, y sus posibles usos al interior de planteles y aulas. El informe señala que “… el escaso conocimiento de EXCALE es entendible, considerando que la prueba no se aplica en todas las escuelas sino que es muestral […]. Por otra parte refleja que no se ha te-nido el impacto deseado sobre la difusión de EXCALE entre los docentes y directores […]” (p. 7)

Finalmente, no todos los mecanismos de difusión son igualmente útiles o pertinentes. Como se mencionó anteriormente, el Explorador EXCALE es una herramienta en línea que busca que

Page 109: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

109Usos y consecuencias

los maestros, directores, supervisores, tomadores de decisiones, y otros interesados usen los contenidos y resultados de la prueba para “reflexionar en torno a la calidad de los aprendizajes y emprender o enriquecer sus proyectos para la mejora educativa”.

Los documentos disponibles no establecen una correspondencia entre el logro de estos ob-jetivos generales ampliamente concebidos y el tipo de información que ofrece el Explorador. En particular, las capacidades de consulta y reporte de esta herramienta no parecen estar bien alineadas con el tipo de información que permitiría a estos actores realizar el tipo de reflexión que se desea. El Explorador únicamente reporta porcentajes de aciertos por grado y materia, desagregados a nivel de docenas de contenidos temáticos para cada materia. Los resultados se pueden consultar a nivel nacional o en comparativos por estado y modalidad, como muestran las figuras siguientes:

Page 110: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

110

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

En la práctica las características de esta herramienta hacen difícil imaginar su uso generalizado por parte de cualquiera de los actores que se pretende. Las limitaciones teóricas y prácticas son apa-rentes: por un lado los resultados nacionales o estatales son de relevancia muy limitada para infor-mar la labor del maestro o director de escuela, o los esfuerzos de padres de familia y otros actores a nivel individual o colectivo. Por otro, las características técnicas y operativas del sistema limitan su utilidad incluso para un usuario determinado a usar los resultados para la reflexión y mejora educativa. Los reportes están altamente fragmentados; los resultados nacionales están separados de las comparaciones por estado o modalidad, que a su vez implican el acceso manual a docenas de hojas separadas (un contenido temático a la vez), además de que se presentan por separado para cada año de aplicación. Por último los reportes pueden consultarse únicamente dentro de la página web del INEE, sin posibilidad de exportarse para su posterior revisión. Por ejemplo, un usuario interesado en investigar en detalle los resultados de la prueba de español de 6º de prima-ria se enfrenta a un esfuerzo de varias horas para obtener uno a uno varios cientos de reportes detallando los más de 100 contenidos de esta prueba, desagregados por estado, modalidad, o año, y almacenarlos (también uno a uno) en un formato permanente para su posterior consulta.

Algunos mecanismos de difusión no se relacionan con la prueba EXCALE directamente. Por ejemplo los materiales para maestros en el sitio web del INEE publica trabajos conceptuales sobre temas de enseñanza y aprendizaje, sin utilizar directamente los resultados de la prueba. Otros documentos sí se refieren en mayor detalle a usos pedagógicas de la evaluación, pero lo hacen en relación a otras pruebas como PISA. Finalmente, la sección de textos de divulgación incluye un pequeño número de materiales sintéticos (trípticos) dirigidos a maestros que, aunque bien concebidos y diseñados desde un criterio de difusión social, en principio parecen revestir una utilidad limitada como elemento que informe la práctica docente en aula. La figura siguiente presenta un ejemplo de este tipo de reporte. Los contenidos agregados podrían en teoría servir para iniciar procesos de reflexión interna o colegiada entre maestros, pero la información agregada que se presenta solo podría informar las prácticas de enseñanza de maestros individuales en el sentido más general e indirecto del término.

La enseñanzade las CienciasNaturales

La promoción de la salud comouna prioridad en la enseñanzade las Ciencias Naturales

Los ExcalE revelan que la mayoría de los alumnos conoce medidas de higiene relacionadas con el sis-tema digestivo, identifica alimentos nutritivos, reco-noce algunas enfermedades y medidas básicas para su prevención, pero no reconoce algunos órganos del cuerpo humano ni sus funciones, tampoco la re-lación entre una dieta correcta y el funcionamiento integral de los sistemas que intervienen en el proce-so de nutrición.

Con la enseñanza de las Ciencias Naturales se busca estimular la curiosidad de los niños y ayu-darlos a comprender los fenómenos y procesos de la naturaleza, entre ellos los del cuerpo humano. La promoción activa del aprendizaje de las ciencias a lo largo de la educación obligatoria tiene como objetivo que los alumnos adquieran conocimientos, habilidades y actitudes para tomar decisiones sobre el cuidado de la salud y del medio ambiente.

A partir de 2006, para evaluar los aprendizajes de los estudiantes de educación básica, el INEE co-menzó a aplicar los Exámenes de la Calidad y el Logro Educativos (ExcalE), de acuerdo con los si-guientes criterios:

Los resultados de los ExcalE en esta asignatura muestran que casi una cuarta parte de los alum-nos evaluados en tercero y sexto de primaria, así como en tercero de secundaria, se ubica en el nivel Por debajo del básico como se observa en la gráfica.

Uno de los objetivos de la enseñanza de las ciencias es que los alumnos comprendan cómo funciona su cuerpo, conozcan las medidas de prevención y los cuidados para mantenerse sanos. La responsabilidad del propio cuerpo se basa en hábitos y actitudes co-mo la higiene personal, el ejercicio físico, el descanso y la correcta alimentación. La prevención de enfer-medades, accidentes y adicciones también está rela-cionada con el cuidado de la salud; cada uno de estos aspectos contribuye a la construcción de una visión del funcionamiento integral del cuerpo humano.

Al finalizar

Sólo la mitadde los estudiantes

NIVEL DE LOGRO ¿QUÉ INDICA?

Carencias importantes en el dominiode los conocimientos, las habilidadesy destrezas escolares que expresanuna limitación importante paracontinuar aprendiendo.

Un dominio elemental de los conocimientos, las habilidades y destrezas escolares que son necesarios para continuar aprendiendo.

Un domino adecuado de los conocimientos, las habilidadesy destrezas escolares previstospor el currículo.

Un dominio riguroso de los conocimientos, las habilidadesy destrezas escolares previstospor el currículo.

Por debajodel básico

Básico

Medio

Avanzado

¿ ?Qué saben losestudiantes sobrela digestióny la nutrición

3er

distingue alimentos con alto valor nutritivo; la mitad puede identificar una dieta completa tomando en cuenta sus nutrimentos, pero menos de 50% reconoce las consecuencias dela falta de frutas ensu dieta.

7 de cadadiez niños

saben que el agua no potable transmite enfermedades al aparato digestivo; 70% reconoce que la falta de higiene en los alimentos puede causar enfermedades, y seisde cada diez identifican al menos una de las consecuencias de comer en exceso.

8 de cadadiez estudiantes

de los alumnos conoce el papel que desempeña el intestino grueso y solo uno de cada tres identifica lo que ocurre en la boca durante el proceso digestivo.

Poco menosde 50%

sabe que la función principal del sistema digestivo es transformar los alimentos para nutrir al cuerpo; la otra mitad tiene ideas erróneas como "eliminar la comidaque se almacena enel intestino" o piensan que es "la mezcla de alimentos a niveldel estómago".

grado deprimaria

Tercero de secundaria

(2008)

Por debajo del básico

Básico

Medio

Avanzado

Sexto de primaria (2009)

Tercero de primaria (2010)

Tercero de primaria (2006)

24

63

11

2

27

44

22

7

25

21

26

28

25

24

28

23

Page 111: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

111Usos y consecuencias

En síntesis, tanto el modelo lógico, como la implementación de la herramienta Explorador EXCALE presentan problemas importantes que por el momento limitan su utilidad para los usos y usuarios previstos. No obstante, las estadísticas de uso de esta herramienta sugieren que su uso se ha ido incrementando, de alrededor de 2 mil accesos totales en 2011 y 2012, a cerca de 6 mil en 2013, y 4 mil en los primeros 4 meses de 2014 (ver Tabla 5.5). Desafor-tunadamente los resultados disponibles no permiten especificar el número de accesos que corresponden a usuarios únicos, ni el volumen o tipo de consultas que realizaron, lo que impide tener una visión clara sobre la extensión de uso de esta herramienta. Sin embargo, el interés creciente que reflejan los números es interesante, en especial considerando las limitaciones de la herramienta ya mencionadas.

Año 

Accesos

CORPUS EXCALE Explorador EXCALE

2011 930 1948

2012 1164 1724

2013 4154 5884

2014 (Ene-Abr) 3345 4148

Fuente: Instituto Nacional para la Evaluación de la Educación

Tabla 5.5 Estadísticas de consulta. Explorador EXCALE y Corpus EXCALE

Este tema debe ser motivo de estudio detallado por parte del INEE, para permitirle conocer y monitorear el número real de usuarios únicos, su perfil y la información que buscan obtener; lo anterior sería muy valioso para tratar de maximizar la utilidad de la herramienta para distintos propósitos. En ese sentido, una encuesta de usuarios del Explorador EXCALE realizada por el INEE en 2009 ofrece datos interesantes. Los resultados sugieren que tres cuartas partes de los encuestados a partes iguales eran académicos de la educación (27%), estudiantes normalistas (23%), y maestros de grupo (25%), mientras que el 25% restante incluye supervisores y otros (ver Figura 5.1) Del total de usuarios, 42% visitaba por primera vez la página, mientras que 40% lo había hecho en cinco ocasiones o más. Los objetivos más frecuentes que reportaron los encuestados fueron la consulta de resultados y reactivos (42%), conocer al INEE y al Ex-plorador (20%) y, en menor medida, planear la enseñanza (15%) y documentar estudios de investigación (12.5%).

Estos resultados permiten plantear algunas hipótesis interesantes sobre los usos y usuarios del Explorador, pero su relevancia directa en el contexto actual es cuestionable o por lo menos limitada. Por un lado, no se cuenta con datos sobre tasas de acceso y respuesta, lo que difi-culta evaluar la representatividad de los resultados en relación con la población de usuarios. Igualmente importante, el incremento en el uso de la herramienta que refleja la Tabla 5.5 hace probable que los datos de 2009 no reflejen la realidad del sistema en la actualidad. Nuevamen-te, parece evidente la necesidad de actualizar estos resultados con una encuesta que permita conocer el perfil de los usuarios actuales del Explorador, el tipo de información que buscan, y la medida en que la que ofrece esta herramienta se corresponde con los usos esperados.

Page 112: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

112

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Figura 5.1 Estadísticas de acceso a Explorador EXCALE por tipo de usuario

47.5%

20%

15%

12.5%

5%

Consultar reactivos y resultados de las pruebas

Conocer al INEE y/o el Explorador EXCALE

Planear la enseñanza, actividades de capacitación y estrategias

Documentar estudios e investigaciones

Sin respuesta

¿Qué uso le dan los usuarios al Explorador EXCALE?

27%

23%

25%

10%

10%

5%

Académico profesional de la educación

Estudiante de educación o normal

Maestro frente a grupo

Supervisor o apoyo técnico pedagógico

Sin respuesta

Cero

¿Quiénes contestaron la encuesta?

Con el propósito de identificar algunas áreas de mejora para la actualización del Explorador EXCALE, se realiza una encuesta en línea a los visitantes que deseen participar en ella. Los resultados siguientes muestran el acumulado de mayo 2009 a octubre pasado e integran las respuestas de 196 usuarios*.

* 193 nacionales y tres extranjeros provenientes de 28 entidades del país.

Fuente: Instituto Nacional para la Evaluación de la Educación

Finalmente, la sección “Usos de EXCALE para la mejora educativa” del Explorador presenta tra-bajos propuestos por maestros y directores seleccionados en una convocatoria del INEE sobre

Page 113: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

113Usos y consecuencias

usos posibles y prometedores de EXCALE en cuatro áreas: a) estrategias didácticas, b) evaluación de aula, c) gestión educativa, y d) formación docente. Esta iniciativa representa un esfuerzo importante que involucra a los maestros en el proceso evaluativo y puede rendir frutos valiosos en el diseño de mejores estrategias para promover el uso de los resultados. Sin embargo, en ausencia de información detallada sobre el número y la naturaleza de las propuestas presenta-das y sus alcances e implementación en la práctica, es difícil valorar si este esfuerzo se puede considerar como un uso de la prueba propiamente dicho o enmarcarlo en el contexto del marco conceptual de la prueba.

Por último, los resultados de la encuesta realizada a personal de los estados revelaron inconsis-tencias entre los estados en el grado y mecanismos de difusión de los resultados de la prueba EXCALE, que pueden limitar el impacto que busca tener la prueba para el análisis profundo de las debilidades y fortalezas de los sistemas educativos estatales. Del total de 20 estados, más de la mitad reportó que los resultados de EXCALE se hacen llegar a supervisores escolares (14) y coordinadores de región (11); los mecanismos de difusión utilizados son diversos e incluyen mayoritariamente reuniones, internet y materiales impresos. Sólo 10 estados hace llegar los resultados de EXCALE a sus maestros, y 4 a las familias de los estudiantes. Los materiales impre-sos son todavía el medio más común de difusión (9 de 10 estados) y familias (3 de 4 estados). Sin embargo, es revelador que sólo 5 estados difunden estos resultados a la mayoría de los maestros, y ninguno los hace llegar a la mayoría de las familias. En general, los resultados de la encuesta apuntan a limitaciones importantes en los esfuerzos que buscan difundir y usar los resultados EXCALE al interior de los estados.

4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la

adecuada interpretación y utilización de los resultados.

Respecto de talleres con usuarios, el personal del INEE nos hizo llegar algunos documentos que detallan los últimos talleres realizados con periodistas e investigadores. El ultimo taller con periodistas se realizó en noviembre de 2012 y se enfocó a explicar cuestiones básicas sobre la prueba (“Qué son los EXCALE”?) y algunas de sus características más relevantes, así como sus alcances y limitaciones y la manera correcta de interpretar los resultados. También se ofrecie-ron ejercicios para analizar interpretaciones erróneas de los resultados, asi como discutir sus

Page 114: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

114

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

implicaciones y consecuencias. Por último, se ofrecio entrenamiento dirigido a la redacción de notas informativas y análisis de las mismas a partir de tablas de resultados de EXCALE.

Por otra parte, en 2011 y 2012 se ofrecieron talleres dirigidos principalmente a investigadores y estudiantes de diferentes instituciones, sobre los requerimientos técnicos y usos apropiados de las bases de datos de PISA y EXCALE. (ver: http://www.inee.edu.mx/index.php/proyectos/excale/excale-documentos-tecnicos)

No se proporcionó información acerca de talleres dirigidos a autoridades o personal de las áreas de evaluación en los estados, aunque se sabe que ésta era una práctica común en los primeros años de la prueba.

Parece deseable hacer una revisión general de los esfuerzos de apoyo y capacitación que pro-mueve el INEE para facilitar e incrementar el uso apropiado de los resultados de EXCALE (y su relación e integración con esfuerzos similares enfocados a otras pruebas.)

C. Comunicación que facilite la buena interpretación de los resultados

5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que

puede o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e infor-

mación suficiente sobre la interpretación correcta de los resultados.

En general, los informes de resultados que se derivan de EXCALE son claros en cuanto a los constructos de aprendizaje que busca medir, y el tipo de inferencias para las que está diseña-do. Como ejemplifica la Tabla 5.6, los reportes describen en detalle tanto las inferencias y usos previstos de EXCALE, como las que no se consideran apropiadas o deseables. Los reportes del INEE históricamente cuidan mucho la apropiada contextualización de los resultados, y los de EXCALE no son una excepción. Ofrecen información a los usuarios para facilitar la adecuada interpretación de los resultados y hacen grandes esfuerzos por presentarlos de forma rica, detallada y contextualizada, para minimizar el riesgo de inferencias o usos simplistas o contra-indicados. Los reportes se ajustan a las mejores prácticas internacionales al complementar los resultados con estimados de error estándar que reflejan el grado de precisión de los indicadores que se presentan, y las comparaciones que de éstos se derivan. Lo anterior reviste particular importancia si se considera el diseño de la prueba, que combina elementos técnicos complejos de muestreo estadístico y modelos de medición matricial. Por lo que hace a las consecuencias previstas del uso de la prueba, los informes de resultados acusan la misma falta de claridad que fue tema del anterior análisis.

El INEE tiene todavía por delante un esfuerzo para educar e informar a los usuarios sobre los usos posibles de este tipo de pruebas. A diferencia de los informes de resultados, algunos de los mecanismos de difusión no reflejan el mismo nivel de cuidado y detalle. Por ejemplo, la he-rramienta Explorador presenta datos brutos para un gran número de contenidos, con muy alto grado de desagregación en los datos, y sin información sobre la precisión (error estándar) que se espera acompañen a estos indicadores en la práctica.

Page 115: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

115Usos y consecuencias

Los resultados presentados en este reporte pueden ser utilizados específicamente para analizar cambios en el logro educativo al paso del tiempo, a nivel nacional y por los estra-tos escolares reportados. Los cambios detectados pueden mostrar tendencias que sean esclarecedoras del desarrollo de la educación básica en todo el país. También es posible comparar los aprendizajes de hombres y mujeres con el propósito de monitorear posibles inequidades y comparar los aprendizajes de alumnos en edad normativa y con extraedad, como un insumo para la reflexión de procesos como la reprobación y el ingreso tardío a la educación básica…… Debido a los propósitos, diseño, construcción y aplicación de los EXCALE, sus resultados no pueden ser utilizados para: Evaluar a los estudiantes individualmente, como grupo escolar de una misma aula, como grupo de estudiantes de una misma escuela o de una misma zona escolar. Evaluar el desempeño de profesores o escuelas a partir del logro de los alumnos. Evaluar el efecto de programas de mejora educativa estatales o federales. Hacer comparaciones entre diferentes asignaturas.

Fuente: Informe sobre los resultados del EXCALE 06, Aplicación 2009 (INEE, 2012)

Cuadro 5.1 Extracto de Informe de Resultados

En la entrevista con personal del INEE se menciona que ha habido peticiones de investigadores u otras instituciones que pretendían usar los resultados de EXCALE para propósitos de evaluar programas y políticas educativas a nivel escuela o municipio, lo que hubo que aclarar a los usuarios era claramente inapropiado y se enfrentaba a un problema infranqueable de validez de interpretación. Sin embargo, estas limitaciones en principio no impiden que las bases de datos al nivel del alumno sean utilizadas sin campos que permitan identificar a los alumnos o las escuelas. Este tipo de análisis es de alta complejidad estadística por el uso de diseños matriciales y valores plausibles, lo cual hace deseable un esfuerzo adicional para desarrollar materiales que informen clara y consistentemente a los investigadores capacitados sobre las características psicométricas y estadísticas de la prueba en general, y los requerimientos téc-nicos necesarios para analizar las bases en particular. Sería deseable que el INEE tomara la iniciativa para ofrecer talleres especializados para investigadores que propicien el uso de los datos de la prueba (que como se menciona anteriormente es un componente fundamental del modelo lógico de uso de EXCALE).

6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos

técnicos en lenguaje claro comprensible para una audiencia general.

En general, los reportes de resultados de EXCALE y la documentación que los acompaña utilizan lenguaje claro y preciso, a la vez que evitan el uso innecesario de términos especializados. La com-pleja minucia técnica y estadística de la prueba se aborda por separado en manuales específicos para etapas relacionadas con en el desarrollo, aplicación y calificación de pruebas. No obstante esta claridad de propósito y lenguaje en los informes, el volumen de información y el grado de de-talle con que se presenta pueden ser excesivos para algunos usuarios que no han tenido experien-cia en métodos estadísticos o psicométricos. El informe de Silva (2012) menciona, por ejemplo, la falta de comprensión de la información por gran parte de los usuarios, ya que se trata, en general,

Page 116: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

116

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

de una altamente compleja que se presenta en formatos densos y extensos. El referido estudio cita un informante que habla de las dificultades de los usuarios, especialmente de los docentes, para entender la información de los EXCALE: “… algunos maestros me han manifestado que no les queda claro cuando se manejan las escalas. Les es difícil entender las escalas de los resultados de los EXCALE, los datos numéricos como los presentan.” (p. 37).

Otros tipos de informes más especializados como el de Factores asociados al aprendizaje de tercero de primaria en México, está dirigido de inicio a una audiencia de investigadores y, por tanto, puede ser justificable que se use un lenguaje más técnico. Para este público, podría afirmarse que la documentación de EXCALE no incluye la información técnica necesaria en sufi-ciente grado de detalle y que ésta se dispersa entre un número de manuales y textos de distinto tipo que, de inicio, es bastante difícil organizar. No obstante lo anterior, es importante recoger el mensaje de Silva (2012) que confirma que las autoridades educativas encuentran complicado entender la información que se presenta en los reportes e informes de resultados de EXCALE (p. 39) y hacer los esfuerzos necesarios para presentarlos de la forma más accesible posible.

7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se des-

cribe el perfil y características de la población de referencia.

Tanto los informes de resultados como los manuales técnicos que acompañan a la prueba EXCALE, proporcionan información detallada que ofrece una base sólida para identificar y evaluar el marco normativo que se usa para codificar (calificar) y evaluar el desempeño de los estudiantes.

El manual de establecimiento de niveles de competencia (INEE, 2006a) detalla los componentes del modelo de evaluación criterial subyacente a la prueba, y el proceso que se sigue para esta-blecer y validar los niveles de logro de los estudiantes en cada grado. Por su parte, el manual de muestreo poblacional (INEE, 2006b) da cuenta de los parámetros del marco muestral, las carac-terísticas de la población de referencia, los estratos, unidades primarias y últimas de muestreo, y los procedimientos que se siguen para seleccionar la muestra de examinados en cada estado, escuela y grado.

8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas.

Se notan limitaciones y errores comunes de interpretación al comparar diferentes

pruebas, años, dominios, grupos, o niveles de agregación. Se usan categorías precisas

que no den lugar a estigma.

Los informes de resultados y los manuales técnicos que acompañan a la prueba ofrecen infor-mación amplia y detallada, así como recordatorios frecuentes que buscan minimizar la ocurren-cia de interpretaciones injustificadas o incorrectas de los resultados (ver, por ejemplo, Tabla 5.6).

De inicio, la naturaleza muestral y diseño matricial de la prueba reducen significativamente —o incluso eliminan— la posibilidad de que se presenten algunos usos más perniciosos y no funda-mentados de las pruebas en gran escala. Evidentemente, al reportarse resultados únicamente al nivel de entidades federativas y subsistemas, se elimina la posibilidad de que se emitan de juicios de valor de alto impacto que no se corresponden con el diseño de la prueba.

Page 117: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

117Usos y consecuencias

Existe evidencia de que los reportes de resultados por estado y subsistema son interpretados con frecuencia de forma simplista y reduccionista por diversos actores dentro del sistema, en particular medios de comunicación y organizaciones políticas y civiles. Aunque la experiencia internacional sugiere que es imposible evitar completamente este tipo de interpretaciones, es evidente el esfuerzo que hace el INEE por promover el uso apropiado de los resultados de EXCA-

LE, y acotar aquellos que no están justificados con base en el diseño de la prueba.

D. Interpretaciones, usos y consecuencias imprevistas

9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque

no pueden preverse todos los usos o interpretaciones inapropiadas, se busca identifi-

car y acotar los más factibles o probables).

La evidencia existente a nivel internacional sugiere que, en principio, no se espera que una prueba de las características de EXCALE tenga consecuencias imprevistas negativas importantes. El diseño de la prueba es muestral y matricial y se enfoca a inferencias de bajo impacto cuyo objetivo primordial es el diagnóstico amplio de la calidad educativa a nivel nacional y estatal. Sin embargo, en las encuestas y entrevistas con autoridades educativas algunas reportaron usos imprevistos, como son los rankings de estados como incentivo o indicador a nivel estatal.

10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/

positivas, o inadecuadas/negativas).

11. Cuando existe evidencia confiable de usos inapropiados, estos se investigan en grado

y detalle adecuado. Si estos usos persisten, se informa a los usuarios y se intenta

tomar acciones correctivas.

En la entrevista con el INEE se señala que un efecto inesperado positivo de EXCALE ha sido que algunos estados están diseñando e implementado pruebas similares a nivel preescolar (por ejem-plo, en Yucatán y Michoacán). Estos desarrollos se desprenden en parte de una colaboración estrecha con el INEE a partir de talleres que éste imparte (véase Silva, 2012).

Por otro lado, como se discutió anteriormente, la evidencia de la encuesta y las entrevistas es consistente y sugiere que el uso de EXCALE ha sido limitado en años recientes y sus efectos son, en general, reducidos. Esto no es sorprendente dado el bajo impacto y consecuencias de la prueba, así como el gran interés que se generó alrededor de ENLACE.

Es interesante notar que algunos encuestados identificaron el bajo impacto de la prueba como una consecuencia negativa puesto que quita relevancia a EXCALE y reduce la motivación de los estudiantes para participar en la prueba, y el interés de los maestros en usar sus resultados.

La baja motivación de los examinados para participar en pruebas de bajo impacto es un proble-ma persistente a nivel internacional que debe considerarse con cuidado en el caso de EXCALE. Es deseable buscar mecanismos que mantengan la confiabilidad de los resultados a la vez que la confianza y el interés de los usuarios en la relevancia de los mismos.

Page 118: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

118

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Por último, en algunos estados la encuesta y entrevistas sugieren que se puede estar dando una reducción en el currículo que se implementa en las escuelas, para enfocarlo a los conte-nidos y asignaturas que cubre la prueba, en detrimento de otros que no se incluyen o reciben menor peso.

CONCLUSIÓN

Nuestro análisis de la documentación disponible y las entrevistas con desarrolladores y usua-rios produjo resultados en cierta medida contradictorios sobre el uso y consecuencias de las pruebas EXCALE, con relación a sus objetivos y diseño. Encontramos que existe una abundante documentación para fundamentar nuestro trabajo; específicamente, está disponible una gran cantidad de manuales técnicos que detallan todos los aspectos del desarrollo, aplicación y califi-cación de las pruebas. Sin embargo, nuestros análisis revelan una preocupante falta de claridad y especificidad en el marco teórico de la prueba, sobre todo en lo que se refiere a sus objetivos y a los usos principales que propone, a los usuarios específicos involucrados, y los resultados y consecuencias esperadas de esos usos (por esos usuarios). La documentación acusa una notable falta de diferenciación entre los objetivos y usos de la prueba EXCALE.

Advertimos también una cierta debilidad en el modelo lógico que justifica algunos de los usos propuestos, particularmente en el caso de docentes. Los usos pedagógicos que se pretende éstos den a los resultados de EXCALE en su aula y con sus alumnos, parecen no corresponderse, en principio, con los de una prueba de diseño matricial y que solo ofrece resultados agregados a nivel regional.

Esto no constituye una crítica a los materiales de apoyo pedagógico que ha desarrollado el INEE con expertos en cada materia, los cuales son de alta calidad y pueden ser un elemento valioso para los maestros. Sin embargo, parece claro que estos materiales: 1) no representan un uso di-recto alineado al diseño de la prueba, ni un uso pedagógico de ésta por parte de los docentes, en el sentido tradicional; 2) podrían basarse en una prueba de diseño muy diferente al de EXCALE, o incluso no usar directamente los resultados de alguna.

A diferencia de ENLACE, donde se encontró un uso “generalizado pero no sistematizado” de la prueba, con EXCALE encontramos poca evidencia de uso consecuente a nivel estatal o federal para informar políticas educativas y procesos de mejora. Por ejemplo, por medio de la encuesta y entrevistas se constató una difusión de tipo primordialmente pasivo de resultados a supervi-sores, maestros y padres de familia en la mayoría de los estados del país.

Como consecuencia, muchos maestros y familias simplemente no están familiarizados con la prueba, no conocen sus resultados y, por supuesto, no los utilizan para ningún propósito discer-nible. Aún en el caso del personal de las secretarias de educación y otras autoridades estatales, las respuestas con frecuencia reflejan un cierto grado de confusión sobre los objetivos de EXCALE y la diferencia con ENLACE.

A nivel federal se encontró también un uso limitado y decreciente. Aunque las áreas respon-sables del currículo estuvieron involucradas de cerca en el desarrollo de EXCALE, e inicialmente utilizaron los resultados para esfuerzos de difusión y mejora en los estados, en años recientes

Page 119: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

119Usos y consecuencias

la tendencia ha sido hacia una mayor utilización de las pruebas ENLACE y PISA, y un rol cada vez menor para EXCALE. Es notorio e interesante que las razones principales que se mencio-naron para explicar este patrón es que los resultados de esta prueba no están desagregados y no son muy valiosos para informar las practicas pedagógicas de los docentes en aula. Esto coincide con algunas de las limitaciones y sugerencias que se mencionan en nuestro reporte y merece ser tomado en cuenta en el diseño de la próxima generación de pruebas.

En el mismo patrón, se encontró un uso limitado por parte de los investigadores y expertos interesados. Esto es lamentable porque refleja que EXCALE no ha tenido impacto en una de las áreas más importantes de una prueba de su tipo, es decir en el desarrollo y evaluación de teorías e investigaciones. Nuestro estudio apunta a una falta de claridad en la difusión y promoción de la prueba y sus resultados, y ausencia de apoyo a investigadores para el uso de las bases de datos de las aplicaciones. El uso limitado de la prueba ciertamente también refleja una falta de capacidad en temas técnicos y estadísticos entre los investigadores. Sin embargo, la difusión y promoción del uso de los resultados y la capacitación de investigadores, son precisamente las áreas donde el INEE podría tener mayor impacto, sin estar sujeto a las condiciones y presiones del contexto del sistema educativo. Por tanto nos parece que en este rubro puede asignarse al INEE un mayor grado de responsabilidad directa tanto para explicar unos resultados a todas luces no satisfactorios, como para elaborar un plan que permita avanzar en este sentido.

Para concluir, es importante destacar y aclarar que a pesar de las limitaciones importantes de EXCALE que se han discutido aquí, los resultados de nuestro estudio también son claros en cuan-to reflejan impacto y consecuencias importantes del trabajo del INEE. en la cantidad y calidad de los trabajos de evaluación educativa que se realizan en los estados. En este sentido, tanto los informes de resultados que publica el Instituto, como el proceso mismo de desarrollo de las pruebas EXCALE, están teniendo un impacto y un beneficio importantes al modelar y promover el trabajo riguroso de evaluación en las entidades.

Sin embargo, la evidencia en este informe también genera dudas sobre el valor agregado es-pecífico de EXCALE en el escenario actual de pruebas estandarizadas en México. Por diversos motivos, justificados o no, los actores y usuarios del sistema prestan más atención a las pruebas ENLACE y PISA para informar diversos esfuerzos de mejora. Independientemente de su calidad, ENLACE es la única prueba que ofrece información a nivel de estudiantes, escuelas, y programas específicos; esa información es preponderante cuando se trata de diagnóstico, intervención y apoyo para el mejoramiento escolar con escuelas y subsistemas concretos a nivel estatal.

Por otro lado, las pruebas PISA adquieren mayor relevancia para juicios más gruesos a nivel sistema, aún si no se basan directamente en el currículo nacional. Como punto de referencia para un diagnóstico sistémico, las competencias del siglo XXI que comprende PISA se perciben como más importantes incluso que el currículo; lo anterior alude a un problema estructural de uso que si bien no es responsabilidad de EXCALE, ciertamente forma parte del contexto para el diseño de la próxima generación de pruebas.

En el futuro será importante mantener el impacto positivo del INEE en las prácticas de evalua-ción del país, a la vez que mejorar el diseño de cada prueba para sus propósitos específicos. En particular, será necesario adaptar y mejorar el diseño de las pruebas para asegurar que aportan el mayor valor agregado posible para usos específicos relevantes para el sistema educativo; ade-más, habrán de mejorarse sus esfuerzos de comunicación para informar a los diversos actores acerca de los usos apropiados de cada prueba.

Page 120: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

120

Conclusiones y recomendaciones

En este apartado se retoman las conclusiones de cada uno de los cinco apartados principales anteriores, en los términos siguientes.

SOBRE ALINEACIÓN A LOS REFERENTES

Hay evidencia de que las pruebas EXCALE se han ajustado a los requerimientos metodológicos necesarios para asegurar suficiente validez de contenido y representatividad del currículo de re-ferencia. Existe un marco de referencia que guía todos los procesos de desarrollo de las pruebas, dándoles unicidad a la vez que se atienden las especificidades que derivan de las características propias de las asignaturas a que se refiere cada una.

Se han desarrollado manuales y protocolos de trabajo específicos para cada tarea a realizar en el diseño de las pruebas: marcos de referencia; tablas de especificaciones; niveles de demanda cognitiva; composición de comités de análisis del dominio educativo y de desarrollo de especi-ficaciones; y diseño y revisión de reactivos. En todos los casos, se ajustan a las pautas interna-cionales reconocidas de calidad metodológica, exigibles para el diseño de este tipo de pruebas.

No obstante, aún son necesarios estudios sobre: 1) los análisis de especialistas que llevan a cabo operaciones de juicios, que deben documentarse para mostrar los grados de acuerdo y su posterior dictamen con algún modelo de medición de consenso entre jueces o con un análisis de facetas; 2) análisis de tipo factorial que identifiquen “agrupaciones” de reactivos similares a las áreas o a los temas propuestos; 3) la alineación de las pruebas respecto de las metodologías didácticas y evaluativas que habitualmente se desarrollan en las aulas, lo que puede crear un factor de error no controlado.

Para cada edición de EXCALE deberá elaborarse un manual técnico actualizado, que permita te-ner evidencias sobre su calidad técnica; es deseable que éstas se integren en un solo documento que remita a manuales específicos y otros textos para tratar puntos particulares.

SOBRE ASPECTOS PSICOMÉTRICOS

El INEE ha producido gran cantidad de estudios y materiales informativos en relación con EXCALE. El Plan General de Evaluación sirve de base para la mayoría de los documentos técnicos y ma-nuales de procedimientos, en el sentido de que todos lo utilizan para definir los propósitos de

Page 121: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

121Conclusiones y recomendaciones

las pruebas y justificar los procesos. Es necesario producir un manual técnico actualizado, cohe-rente y debidamente documentado, que opere como una sola fuente de referencia.

El modelo matricial utilizado permite cubrir una gama amplia de contenidos, y facilita el piloteo, la equiparación, las comparaciones y descripciones a nivel nacional y estatal. Se usa el modelo de Rasch y la técnica de valores plausibles, por tratarse de pruebas aplicadas a muestras de la población. Hay varias revisiones sobre sesgo, con datos relevantes, así como aproximaciones metodológicas a través de comités de validación, definición de criterios para revisar sesgos de diseño, comparación entre grupos focales y otros enfoques.

Las especificaciones de ítems describen detalladamente los elementos requeridos para dar calidad a la elaboración de las preguntas, su ubicación en los constructos y el desempeño medido. Esta descripción parece demasiado exhaustiva y podría reducirse para agilizar su uso entre diseñadores y analistas. En cambio, es importante ampliar la descripción de los cons-tructos de cada subescala, detallando el procedimiento mixto y dando resultados empíricos derivados de aplicaciones.

Se cuenta con documentos normativos para el diseño, revisión y validación de reactivos, útiles para los comités; destaca el marco teórico-metodológico que justifica los niveles de desem-peño, con apoyo de expertos, con esquemas de tipo Bookmark y Angoff, o con base en los resultados de las pruebas.

Dentro de los aspectos a mejorar debe citarse nuevamente la necesidad de contar con una nue-va edición del manual técnico que incluya los avances y resultados obtenidos hasta el momento. Dicho manual deberá recopilar e integrar la información actualmente contenida en trabajos de investigación y documentos muy diversos. En el manual debe describirse también el diseño de las muestras o la especificación para seleccionar los reactivos para los bloques en el diseño ma-tricial. Conviene llevar a cabo el análisis de diversos factores que inciden en el dimensionamien-to de las pruebas y en sus resultados, como la fatiga de los estudiantes, entre otros aspectos. El diseño muestral debe mejorarse o detallarse pues la información disponible es limitada, y hubo un cambio de modelo a partir de 2013, sin una justificación clara.

Convendrá elaborar un manual específico o un capítulo en el manual técnico que haga explícitos los criterios de aceptación de los ítems utilizando el modelo de Rasch y el modelo clásico. Junto con ello, será de utilidad contar con los datos métricos de las subescalas aprovechando los repor-tes que produce el software de análisis de Rasch, así como con precisiones sobre la confiabilidad obtenida con el modelo logístico. También se esperaría disponer de manuales sobre el diseño muestral; el sistema informático para administrar los bancos de reactivos; su almacenamiento; y la forma de generar pruebas a partir de los bancos de ítems.

Por otra parte, deberán hacerse otros trabajos de investigación citados en el Plan General de Evaluación, como análisis de constructos en función de los niveles de desempeño; análisis fac-toriales para identificar constructos y dimensiones de pruebas y subescalas; estudios de validez de criterio respecto de otras pruebas; el error de medida como información necesaria sobre la precisión de las pruebas; de equiparación entre versiones de un mismo año y longitudinalmente; y análisis multinivel para describir variables explicativas anidadas por aula, escuela y entidad, entre otros posibles.

Page 122: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

122

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

SOBRE ATENCIÓN A LA DIVERSIDAD

Hace falta un documento formal con el marco conceptual de la prueba, y otro sobre el marco muestral de la población estudiantil mexicana. Estos marcos deberán abordar explícitamente la diversidad socio-económica, étnica, lingüística y cultural de la población estudiantil, incluyendo el análisis del error de medición resultante de la heterogeneidad poblacional, y la generalización de los resultados de las pruebas.

La implementación adecuada de tales acciones implica la inclusión de muestras de grupos indí-genas y grupos sociales marginados en todo el proceso de desarrollo de la prueba, la realización de estudios de generalizabilidad en los que se examine el grado en que las calificaciones en las pruebas varían como efecto de la diversidad mencionada, y la desagregación por grupos étni-cos, lingüísticos y socioeconómicos en los análisis de confiabilidad y validez.

La diversidad cultural y lingüística de la población mexicana y las limitaciones de recursos hacen imposible incluir en estudios piloto, muestras de estudiantes de todos los grupos étnicos y lin-güísticos del país. La recomendación de atender de manera adecuada la diversidad lingüística, por otra parte, no se debe entender como la propuesta de traducir las pruebas EXCALE a len-guas indígenas, lo que es largo, costoso y muy difícil de implementar adecuadamente. Adicio-nalmente hay evidencia de que la mayoría de los alumnos indígenas no reciben instrucción en su lengua materna, aún si asisten a escuelas del subsistema de educación indígena; también se sabe que muchos maestros que trabajan en escuelas bilingües no hablan la lengua materna de sus estudiantes. Por todo ello, evaluar a estudiantes indígenas en su lengua materna sería una política inadecuada.

Para atender adecuadamente la diversidad cultural y lingüística deberán hacerse estudios espe-ciales que permitan desarrollar modelos evaluativos y estrategias muestrales basados en teorías socioculturales y lingüísticas y en el conocimiento actual de las características de los grupos étnicos y lingüísticos del país. Se podría iniciar con estudios de una o dos lenguas de cada una de las principales familias lingüísticas de México, para determinar si hay alguna influencia del tipo de gramática en la manera en que los estudiantes construyen el conocimiento en el espacio escolar. Otra vertiente de este tipo de estudios podría consistir en incluir a comunidades con diferentes tipos y grados de bilingüismo y así explorar el impacto de la escolarización en el uso de las distintas lenguas en espacios escolares bilingües.

SOBRE APLICACIONES

La verificación de la muestra de escuelas es fundamental para asegurar la calidad de EXCALE. Hay previsiones para obtener los datos básicos de cada escuela participante y el archivo resul-tante se remite vía correo electrónico. Dada la importancia de la validación, y para evitar tener que reprocesar casos con errores, conviene tener un sistema de información en línea que capture directamente los datos verificados por el coordinador estatal.

En general, el diseño de la muestra parece sólido y hay verificaciones externas en varios puntos del proceso para asegurar que concuerde con lo planificado.

Page 123: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

123Conclusiones y recomendaciones

Las funciones de cada actor del proceso, y particularmente de los aplicadores, deben contri-buir a asegurar la calidad de la aplicación. Los procedimientos al respecto son suficientemente detallados antes, durante y después del proceso, y considerando su tamaño, no se advierten riesgos mayores.

Respecto del procesamiento de datos y verificación de la calidad existe un proceso documen-tado, con reportes de la estadística descriptiva para conocer el resultado de cada ítem y sobre verificaciones de datos (duplicados, omisión de respuesta, valores permitidos, folios y revisiones) e incidencias reportadas durante empaque y recepción, así como un listado de otras ocurridas.

El control de la aplicación y la toma de decisiones acerca de ella podría optimizarse mediante la adopción de tecnologías que, en línea, permitan contar con información procedente directa-mente de la fuente, antes, durante y después de la aplicación, manteniendo soportes impresos o correos electrónicos como mecanismos alternos para casos de carencia de infraestructura. Dada la escala de la aplicación, parece posible —y sin duda, deseable— contar con un operador para distribución de los materiales desde la imprenta hasta la escuela y su posterior recolección y retorno al INEE, a efectos de obviar instancias intermedias y optimizar la cadena de custodia de los instrumentos.

SOBRE USOS Y CONSECUENCIAS

El análisis revela una preocupante falta de claridad y especificidad en el marco teórico de la prueba, sobre todo en cuanto a los objetivos y usos propuestos, los usuarios específicos in-volucrados y los resultados y consecuencias esperadas de esos usos. También apunta a cierta debilidad en el modelo lógico que justifica algunos de los usos propuestos, particularmente en el caso de maestros. Los usos pedagógicos que se pretende den los docentes a los resultados de EXCALE en su aula y con sus alumnos, parecen no corresponderse con los de una prueba de diseño matricial y que ofrece solo resultados agregados a nivel regional. Aunque los materiales de apoyo pedagógico desarrollados con expertos, son de alta calidad y pueden ser un elemen-to valioso para los maestros, no representan un uso directo previsto alineado al diseño de la prueba; tampoco constituyen un uso pedagógico en el sentido tradicional pues bien podrían basarse en una prueba de diseño muy diferente al de EXCALE, o incluso no usar directamente los resultados de alguna.

Encontramos poca evidencia de uso consecuente de EXCALE a nivel estatal o federal para infor-mar políticas educativas y procesos de mejora. Por la encuesta y entrevistas que se realizaron, se constató una difusión de tipo primordialmente pasivo de resultados a supervisores, maestros y padres de familia en la mayoría de las entidades federativas. Como consecuencia muchos maes-tros y familias simplemente no están familiarizados con la prueba, no conocen sus resultados y, por supuesto, no los utilizan para ningún propósito discernible. Aún en el caso del personal de las secretarías de educación y otras autoridades estatales, las respuestas con frecuencia reflejan cierto grado de confusión sobre los objetivos de EXCALE y la diferencia respecto de ENLACE.

A nivel federal se encontró también un uso limitado y decreciente. Aunque los responsables del currículo en la SEP estuvieron involucrados en el desarrollo de EXCALE, e inicialmente utilizaron los resultados para esfuerzos de difusión y mejora en los estados, en años recientes la tendencia

Page 124: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

124

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

ha sido hacia una mayor utilización de ENLACE y PISA, y un rol cada vez menor para EXCALE. Es notorio que las razones mencionadas para explicar este patrón es que los resultados de EXCALE no están desagregados y no son muy valiosos para informar las prácticas pedagógicas de los docentes en aula.

Se encontró también un uso limitado por investigadores y expertos. Esto refleja que EXCALE no ha tenido impacto en una de las áreas más importantes de una prueba de su tipo, es decir, en el desarrollo y evaluación de teorías e investigaciones. Nuestro estudio apunta a una falta de cla-ridad en la difusión y promoción de la prueba y sus resultados, y ausencia de apoyo para el uso de las bases de datos de las aplicaciones por parte de investigadores. El uso limitado también refleja falta de capacidad en temas técnicos y estadísticos entre investigadores. El INEE deberá proponerse avanzar en este sentido.

Pese a las limitaciones que se han discutido, los resultados de nuestro estudio también reflejan que el trabajo del INEE ha tenido un impacto significativo y positivo en la cantidad y, sobre todo, calidad de los trabajos de evaluación educativa que se realizan en las entidades federativas. Tanto los informes de resultados que se publican, como el proceso mismo de desarrollo de las pruebas EXCALE, han tenido un impacto importante al modelar y promover un trabajo riguroso de evaluación.

Sin embargo, la evidencia también genera duda sobre el valor agregado de EXCALE en el esce-nario actual de pruebas estandarizadas en México. Por diversos motivos —justificados o no—, los actores y usuarios del sistema prestan más atención a ENLACE y PISA para informar diversos esfuerzos de mejora. ENLACE es la información preponderante cuando se trata de diagnóstico, intervención y apoyo para el mejoramiento en escuelas y subsistemas estatales. Independiente-mente de la calidad de la información que produce, es la única prueba que ofrece información a nivel de estudiantes, escuelas, y programas específicos.

Por otro lado, las pruebas PISA adquieren mayor relevancia para juicios más gruesos a nivel sis-tema, aún si no se basan directamente en el currículo nacional. Las competencias del siglo XXI que comprende PISA, por ejemplo, se perciben como más importantes incluso que el currículo, como punto de referencia para un diagnóstico sistémico. Este problema estructural de uso no es responsabilidad de EXCALE, pero ciertamente forma parte del contexto para el diseño de la próxima generación de pruebas.

En el futuro será importante mantener el impacto positivo del INEE en las prácticas de evalua-ción del país, a la vez que mejorar el diseño de cada prueba para sus propósitos específicos. Por un lado, será necesario adaptar y mejorar el diseño de las pruebas para asegurar que aportan el mayor valor agregado posible para usos específicos relevantes al sistema educativo; por otro, habrá de mejorar sus esfuerzos de comunicación para informar a los diversos actores sobre los usos apropiados de cada prueba, tanto por separado como de forma complementaria.

Page 125: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

125Referencias bibliográficas

Aguilar R., M. A.; Torreblanca N., O. y Flores V., D. L. (2005). Estudio comparativo de la educación básica en

México 2000-2005. México: INEE. Disponible en: http://www.inee.edu.mx/images/stories/Publicaciones/

Reportes_investigacion/Estudio_comparativo/Completo/estudio_comparativo_2000-05b.pdf

American Educational Research Association, American Psychological Association, National Council on

Measurement in Education (1999). Standards for educational and psychological testing. Washington,

Authors.

Backhoff Escudero, E., Monroy, L., Peón, M., Sánchez, A. y Tanamachi, M. L. (2005) Exámenes de la calidad

y el logro educativos (EXCALE): nueva generación de pruebas nacionales. Cuadernos de Investigación,

N° 17. México, INEE. Disponible en: http://www.inee.edu.mx/images/stories/Publicaciones/Cuadernos_

investigacion/diecisiete/Completo/ci17excale.pdf

Backhoff Escudero, E. y Díaz G., M. A. (2005) Plan general de evaluación del aprendizaje. Proyectos na-

cionales e internacionales. México: INEE. En: http://www.inee.edu.mx/images/stories/Publicaciones/

Documentos_tecnicos/De_pruebasymedicion/plan_general/Completo/plan_general.pdf

Backhoff Escudero, E., Andrade M., E., Sánchez M., A. y Peón Z. M. (2008) El aprendizaje en 3° de pre-

escolar en México. México: INEE. Disponible en: http://www.inee.edu.mx/archivosbuscador/2007/04/

INEE-20070466-preescolar08_completoa.pdf

Backhoff Escudero, E., Bouzas R., A., González M., M., Andrade M., E., Hernández P., E. y Contreras

B., C. (2008) Factores asociados al aprendizaje de estudiantes de 3º de primaria en México. Méxi-

co: INEE. Disponible en: http://www.inee.edu.mx/index.php/publicaciones/informes-institucionales/

resultados-del-aprendizaje/72-publicaciones/resultados-de-aprendizaje-capitulos/559-factores-

asociados-al-aprendizaje-de-estudiantes-de-tercero-de-primaria-en-mexico

Backhoff Escudero, E., Peón Z., M. y Sánchez M., A. (2005) Manual Técnico para el Diseño de Exámenes

de la Calidad y el Logro Educativos. México, INEE. Disponible en: http://www.inee.edu.mx/images/

stories/Publicaciones/Documentos_tecnicos/De_pruebasymedicion/diseno_excale/Completo/

mtdisenoexamexcalemarca.pdf

Backhoff Escudero, E., Peón Z., M., Andrade M., E. y Rivera L., S. (2006) El aprendizaje de la expresión escrita en la

educación básica en México. Sexto de primaria y tercero de secundaria. México, INEE. Disponible en: http://

www.inee.edu.mx/images/stories/Publicaciones/Resultados_aprendizaje/expresion_escrita/Completo/

aprendizajecompleto.pdf

Backhoff Escudero, Eduardo y Díaz G., M. A. (2005) Plan general de evaluación del aprendizaje. Proyectos

nacionales e internacionales. México: INEE. En: http://www.inee.edu.mx/images/stories/Publicaciones/

Documentos_tecnicos/De_pruebasymedicion/plan_general/Completo/plan_general.pdf

Backhoff Escudero, Eduardo, Andrade M., E., Sánchez M., A. y Peón Z. M. (2008) El aprendizaje en 3°

de preescolar en México. México: INEE. Disponible en: http://www.inee.edu.mx/archivosbuscador/

2007/04/INEE-20070466-preescolar08_completoa.pdf

Backhoff Escudero, Eduardo, Contreras N., L. A. y Solano F., G. (2012) Pertinencia de la traducción y adap-

tación de los Exámenes para la Calidad y el Logro Educativos (EXCALE) de preescolar a la lengua maya.

RepoRte final del pRoyecto. México, INEE. 27 pp.

Backhoff Escudero, Eduardo, Peón Z., M., Andrade M., E. y Rivera L., S. (2006) El aprendizaje de la expresión

escrita en la educación básica en México. Sexto de primaria y tercero de secundaria. México, INEE. Dis-

ponible en: http://www.inee.edu.mx/images/stories/Publicaciones/Resultados_aprendizaje/expresion_

escrita/Completo/aprendizajecompleto.pdf

Bormouth, J. R. (1970). On the theory of achievement test items. Chicago, Illinois: University of Chicago Press.

Brennan, R. L. (1995). The conventional wisdom about group mean scores. Journal of Educational

Measurement, 14, 385-396.

Referencias bibliográficas

Page 126: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

126

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Brennan, R. L. (2005). Some test theory for the reliability of individual profiles. (Research Report 12).Center

for Advanced Studies in Measurement and Assessment.

Campbell, D. T. (1975).Assessing the impact of planned social change. In G. Lyons (Ed.), Social research

and public policies: The Dartmouth/OECD Conference. (Chapter 1, pp 3-45). Hanover, NH: Dartmouth

College, The Public Affairs Center. (p. 35)

Centro Nacional de Evaluación para la Educación Superior (2000). Estándares de calidad para instrumentos

de evaluación educativa. México, Autor.

Cizek, G. J. (2007). Introduction to modern validity theory and practice. Invited presentation to the National

Assessment Governing Board, McLean, VA.

Cizek, G., D. Bowen y K. Church (2010).Sources of Validity Evidence for Educational and Psychological

Tests: A Follow-up Study. Ponencia en la reunion annual del National Council on Measurement in

Education, Denver.

Crocker, L., & Algina, J. (2004). Introduction to classical and modern test theory. 2nd Ed. New York: Hott,

Rinehart, and Winston.

Downing, S. M. & Haladyna, T. M. (Eds). (2006) Handbook of test development. Mahwah, NJ: Lawrence

Erlbaum Associates. 

Educational Testing Service (2000). ETS Standards for Quality and Fairness. Princeton, Author.

González-Montesinos, M. (2010). Modelo para detección de funcionamiento diferencial de reactivos (DIF)

en pruebas del INEE. Reporte técnico. INEE.

Guion, R. M. (1977). Content validity-The source of my discontent. (Applied Psychological Measurement,

1, 1-10.)

Guttman, L. (1969). Integration of test design and analysis. In Proceedings of the 1969 invitational confe-

rence on testing problems. Princeton, New Jersey: Educational Testing Service.

Haberman, S.J. (2008).When can subscores have value? Journal of Educational and Behavioral Statistics,

33, 204-229.

Haladyna TM, Downing SM (1988) A taxonomy of multiple-choice item- writing rules. Applied Measure-

ment in Education, 1, 37-50

Hambleton, R. K. & Jones, R. (1993). Comparison of Classical Test Theory and Item Response Theory and

their applications to Test Development. An National Council on Measurement in Education Instructio-

nal Module. Consultado el 3 de octubre de 2007 en: http://www.ncme.org/pubs/items.cfm

Hambleton, R. K. (1994). Guidelines for adapting educational and psychological tests: A progress report.

European Journal of Psychological Assessment, 10, 229-244.

Hambleton, R.K., & Jones, R.W. (1994). Comparisons of empirical and judgemental methods for detecting

differential item functioning. Educational Research Quarterly, 18 (1), 21-36.

Haynes, S., Richard, D. & Kubany, E. (1995). Content Validity in Psychological Assessment: A Functional

Approach to Concepts and Methods. Psychological Assessment, Vol. 7, No. 3, 238-247.

Hively, W. (1974). Introduction to domain referenced testing. Educational Technology, 14, 5-9.

Instituto Colombiano de Evaluación de la Educación (2013). Pruebas SABER 3º, 5º. y 9º: Manual para

el Aplicador.

Instituto Colombiano de Evaluación de la Educación (2013). Pruebas SABER 3º, 5º. y 9º: Manual para

el Delegado.

Instituto Colombiano de Evaluación de la Educación (2013). Pruebas SABER 3º, 5º. y 9º: Manual para

el Coordinador de Salón.

Instituto Colombiano de Evaluación de la Educación (2013). Pruebas SABER 3º, 5º. y 9º: Manual para

el Rector.

Instituto Nacional para la Evaluación de la Educación (2005a). Manual Técnico: Especificaciones de Reacti-

vos. México, D.F., Instituto Nacional para la Evaluación de la Educación, Dirección de Pruebas y Medición.

Page 127: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

127Referencias bibliográficas

Instituto Nacional para la Evaluación de la Educación (2005b). Plan general de evaluación del aprendizaje:

Proyectos nacionales e internacionales. México, D.F., Instituto Nacional para la Evaluación de la Educación,

Dirección de Pruebas y Medición.

Instituto Nacional para la Evaluación de la Educación (2006). Plan maestro de desarrollo 2007-2014. México,

D.F.: Instituto Nacional para la Evaluación de la Educación.

Instituto Nacional para la Evaluación de la Educación (2011). Análisis reticular para la definición de líneas

de evaluación de programas de estudio SEP (1992, 2011): Examen de la calidad y el logro educativos

(EXCALE), Matemáticas, tercer grado, Educación Básica Primaria. México, D.F., Instituto Nacional para la

Evaluación de la Educación, Dirección de Pruebas y Medición.

Instituto Nacional para la Evaluación de la Educación (2012a). Piloteo EXCALE-09 2012: Resultados del aná-

lisis psicométrico de reactivos de opción múltiple. Instituto Nacional para la Evaluación de la Educación,

Dirección de Pruebas y Medición.

Instituto Nacional para la Evaluación de la Educación (2012b). Piloteo EXCALE-09 2012: Análisis de reacti-

vos. Instituto Nacional para la Evaluación de la Educación, Dirección de Pruebas y Medición.

Instituto Nacional para la Evaluación de la Educación (2013). Reporte técnico de la aplicación definitiva de

los Exámenes de la Calidad y el Logro Educativos en el sexto grado de primaria (EXCALE 06). México,

D.F. Julio de 2013, Instituto Nacional para la Evaluación de la Educación Dirección de Relaciones

Nacionales y Logística.

Instituto Nacional para la Evaluación de la Educación (2014). Exámenes para la calidad y el logro educativos

(EXCALE), Sexto año de primaria 2012-2013: Diseño Muestral (Versión preliminar). Última actualización,

viernes, 20 de febrero de 2015. México, D.F., Instituto Nacional para la Evaluación de la Educación,

Dirección de Pruebas y Medición.

International Association for the Evaluation of Educational Achievement (2001) Technical Standards for IEA

Studies: An Annotated Bibliography.

Jornet M., J. y Backhoff E., E. (2006) Manual técnico. Establecimiento de niveles de competencia. México,

INEE. Disponible en: http://www.inee.edu.mx/images/stories/Publicaciones/Documentos_tecnicos/

De_pruebasymedicion/establecimiento_competencia/Completo/mtestanivelcompmarca.pdf

Jornet Meliá, Jesús M. y Suárez, J. M. (1989a). Conceptualización del Dominio educativo desde la perspec-

tiva integradora de la Evaluación Referida al Criterio. Bordón. 41, pp. 237-275.

Jornet Meliá, Jesús M. y Suárez, J. M. (1989b). Revisión de modelos y métodos en la determinación de

estándares y en el establecimiento del punto de corte en evaluación referida a criterio (ERC). Bordón,

41, 2, 277-301.

Juárez C., E., Ramírez A., R. y Rodríguez J., J. G. (2006) Manual Técnico para el Muestreo Poblacional. México.

INEE. Disponible en: http://www.inee.edu.mx/images/stories/Publicaciones/Documentos_tecnicos/De_

pruebasymedicion/muestreo_poblacional/Completo/mtmuestpoblamarca.pdf

Li, S. & Sireci, S.G. (2005). Evaluating the Fit between Test Content, Instruction, and Curriculum Frame-

works: A Review of Methods for Evaluating Test Alignment. Center for Educational Assessment MCAS

Validity Report No. 9. (CEA-558). Amherst, MA: University of Massachusetts, Center for Educational

Assessment.

Lissitz, R. (ed.) (2009). The Concept of Validity. Charlotte, NC: Information Age Publishing.

Madaus, G.F. & Kellaghan, T. (1992). Curriculum Evaluation and Assessment. Pp. 119-154. In P. W Jackson

(ed). Handbook of Research on Curriculum. New York: Macmillan.

Nichols, P. & Williams, N. (2009). Consequences of Test Score Use as Validity Evidence: Roles & Responsibili-

ties. Educational Measurement: Issues & Practice, 28(1), 3-9.

Nitko, A. (1994). A Model for Developing Curriculum-Driven Criterion-Referenced and Norm-Referenced

National Examinations for Certification and Selection of Students. Ponecia presentada en la Confe-

rencia Internacional sobre Evaluación y Medición Educativas, de la Asociación para el Estudio de la

Evaluación Educativa en Sudafrica (ASSESA).

Page 128: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

128

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Nitko, A. (1995). Curriculum-based Continuos Assessment: a framework for concepts, procedures and

policy. Assessment in Education, Vol. 2, No. 3.

Organization for Economic Cooperation and Development (2000-2012). National Project Manager’s Ma-

nual for the PISA Survey.

Organization for Economic Cooperation and Development (2000-2012). Technical Standards for PISA.

Popham, J. (1990). Modern Educational Measurement. A Practitioner’s Perspective. (2nd Edition). MA.

Allyn and Bacon.

Roid, G. H. and Haladyna, T. M. (1982). A technology for test-item writing. New. York: Academic Press.

Ruiz-Primo, A., Jornet, J. M. y Backhoff, E. (2006). Acerca de la Validez de los exámenes de la calidad y el

logro educativos (EXCALE). México: Instituto Nacional para la Evaluación de la Educación (INEE). Extraído

el 15 de octubre de 2010 de: http://www.inee.edu.mx/index.php/component/content/article/3666

Sánchez, M.A. y Andrade, M.E. (2013) El aprendizaje en sexto de primaria en México. Instituto Nacional

para la Evaluación de la Educación. México. Disponible en Internet: http://publicaciones.inee.edu.mx/

buscadorPub/P1/D/310/P1D310.pdf

Sánchez, M.A. y Andrade, M.E. (2013) El aprendizaje en sexto de primaria en México. Instituto Nacional

para la Evaluación de la Educación. México. Disponible en Internet: http://publicaciones.inee.edu.mx/

buscadorPub/P1/D/310/P1D310.pdf

Santiago P. et al. (2012). OECD Reviews of Evaluation & Assessment in Education Mexico 2012, OECD.

http://dx.doi.org/10.1787/9789264172647-3-en

Secretaría de Educación Pública (2008-2013). Evaluación Nacional del Logro Académico en Centro Escolares

ENLACE: Manual Técnico.

Secretaría de Educación Pública (2008-2013). Evaluación Nacional del Logro Académico en Centro Escolares

ENLACE: Normas Operativas.

Secretaría de Educación Pública (2008-2013). Evaluación Nacional del Logro Académico en Centro Escolares

ENLACE: Guía para el docente aplicador.

Secretaría de Educación Pública (2008-2013). Evaluación Nacional del Logro Académico en Centro Escolares

ENLACE: Manual para el Coordinador de Aplicación.

Sireci, S. G. (2009). Packing and Unpacking Sources of Validity Evidence: History Repeats Itself Again. In:

Lissitz. R. W. The Concept of Validity: Revisions, New Directions, and Applications. Information Age

Publishing.

Solano-Flores, G. (2011) Adaptación lingüística y cultural de pruebas de logro académico. En INEE una

década de evaluación. Instituto Nacional para la Evaluación de la Educación. México. Disponible en:

http://www.inee.edu.mx/images/aniversario2012/informe%20anual.pdf

Solano-Flores, G. (1993). Item structural properties as predictors of item difficulty and item association.

Educational and Psychological Measurement, 53(1), 19-31. Sage Publications, Inc.

Solano-Flores, G. (2004). El uso de tareas de evaluación en la evaluación del logro académico: Métodos y

posibilidades. En S. Castañeda (Ed.), Educación, aprendizaje, y cognición: Teoría en la práctica. México:

El Manual Moderno.

Solano-Flores, G. (2011). Assessing the cultural validity of assessment practices: An introduction. Basterra,

In M. R., Trumbull, E., & Solano-Flores, G. (Eds.). Cultural validity in assessment: Addressing linguistic

and cultural diversity (pp. 3-21). New York: Routledge.

Solano-Flores, G., & Nelson-Barber, S. (2001). On the cultural validity of science assessments. Journal of

Research in Science Teaching, 38(5), 553-573.

Solano-Flores, G., & Trumbull, E. (2003). Examining language in context: The need for new research and

practice paradigms in the testing of English-language learners. Educational Researcher, 32(2), 3-13.

Tiemann, P. W., & Markle, S. M. (1990). Analyzing instructional content: A guide to instruction and evalu-

ation. Seattle, WA: Morningside Press.

Page 129: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

129Referencias bibliográficas

Viveros, M. J., Contreras, L. A. y Caso, J. (2013). Development and preliminary evaluation of an academic

density index, as a quantitative indicator to determine the relative importance of curricular contents.

26 th International Congress for School Effectiveness and Improvement. Santiago, Chile.

Welner, K. (2013). Consequential Validity and the Transformation of Tests from Measurement Tools to

Policy Tools. Teachers College Record, 115(9).

Wu, M. (2004) Plausible Values. Rasch Measurement Transactions, 18 (2): 976-978.

Wu, M. L., Adams, R. J. y Wilson, M. R. (1997). ConQuest: Multi-Aspect Test Software. Camberwell:

Australian Council for Educational Research.

Page 130: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

130

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica 1. Criterios y subcriterios de evaluación

2. Microanálisis de reactivos de eXCALE

3. Resultados de encuesta de autoridades estatales4. Lista de estudios que utilizan datos de eXCALE

5. Cobertura de prensa 2010-2013.

Anexo 1. Criterios y subcriterios de evaluación

SOBRE LA ALINEACIÓN A LOS REFERENTES

Análisis del currículo cuyo dominio se evalúa

1. Se cuenta con un documento que revisa la teoría del contenido curricular y es el marco teórico que orienta el desarrollo de la prueba.tt El documento incluye un análisis de las áreas del currículo que evaluará la prueba,

que precise los subdominios y contenidos, así como competencias y niveles de de-manda cognitiva que se deberán cubrir.

Alineación de la prueba con el currículo

2. Se presentan evidencias de cómo se definieron las especificaciones de la prueba en términos de objetivos, competencias u otro referente curricular.tt Se presenta estructura del dominio curricular completo del que se muestrea el con-

tenido de la prueba, y la estructura del dominio curricular evaluado.3. Se explica el procedimiento usado para determinar la importancia relativa de los con-

tenidos que se decidió evaluar, o se incluye un análisis de las unidades del dominio curricular y su densidad diferencial.tt Se justifican técnicamente ajustes a la ponderación de ítems y subescalas.tt Se justifica metodológicamente tamaño de la prueba y sus partes (número de ítems)

cumpliendo la ponderación indicada en tablas de especificaciones. Si se maneja justificación administrativa esta debe definirse claramente.

4. Se asegura la representatividad de los ítems y las subescalas respecto a los subdominios y el dominio curricular definidos.tt Para especificar el dominio a evaluar se presenta un análisis lógico y empírico de

la representación de ítems y subescalas respecto a los subdominios evaluados y al dominio curricular completo.

5. Se cuida la alineación en cuanto a la complejidad cognitiva del contenido.tt Se utilizan taxonomías u otros sistemas de clasificación de la demanda cognitiva de

los ítems en relación con lo establecido en el currículo.tt Se refiere el uso de protocolos verbales con examinados para verificar que la com-

plejidad cognitiva real corresponda a la esperada.

Anexos

Page 131: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

131Anexo técnico

Especificación, generación y escritura de ítems

6. existe un manual o guía de redacción o diseño de reactivos, en el que se especifican y justifican los procedimientos para formularlos. El manual:tt Describe y da ejemplos de todos los tipos de reactivo que tendrá la prueba, indican-

do cómo clasificarlos y justificarlos, con referencia a la relevancia de las respuestas para el dominio pretendido.

tt Usa tablas o modelos de especificación precisos para homogeneizar el diseño de los tipos de ítems, y ofrece un formato o documento donde los diseñadores de reactivos hagan la captura y la modificación.

tt Fue desarrollado especialmente para la prueba con sus particularidades; no es acep-table un manual genérico o tomado de otro sistema de evaluación.

7. Los ítems son diseñados por un comité seleccionado teniendo en cuenta la especializa-ción académica, laboral y su representatividad respecto a la diversidad del país, y estuvo coordinado por una persona calificada.tt El comité fue formado específicamente para realizar su labor, considerando todos los

elementos característicos del tipo de prueba a diseñar.tt La capacitación del comité incluye procesos metodológicos y referencias a taxono-

mías o sistemas de clasificación cognitiva para especificar dominio.

Control de la calidad de los ítems

8. Existe un manual o guía para el análisis de reactivos que señala los criterios de acepta-ción, revisión y modificación.tt Se presentan estructura y funciones representadas en el comité evaluador.tt El manual describe procedimientos/criterios para revisar ítems por jueceo.

9. Hay un comité de revisión calificado para aplicar lo que define el manual.tt Se utilizaron criterios de selección de jueces con un perfil académico y laboral preci-

so y con representatividad de la diversidad del país.tt El comité de revisión está formado por jueces diferentes al del de escritura.tt Se detalla el procedimiento que se siguió para capacitar a los evaluadores.

10. El sistema de revisión lógica de cada ítem incluye análisis de:tt Calidad técnica: claridad en la formulación, adecuación al marco de pruebatt Congruencia ítem-contenido o ítem-objetivo (subdominio).tt Posibles fuentes de sesgo de cada reactivo: género, diversidad cultural…tt Concordancia de juicio para la selección de reactivos o procedimientos para estimar

la confiabilidad de los juicios de los evaluadores.11. Se cuida la alineación de la prueba en general.

tt Se verifica que contenido de pruebas corresponda al dominio curricular en todos los aspectos y niveles de demanda cognitiva planeados.

tt Se cuida la alineación de ítems y prueba con el currículo, los estándares de interpre-tación y, de ser posible, con la enseñanza y la evaluación en aula.

tt Se dispone de una metodología para demostrar la validez de contenido (cualitativa y cuantitativa) de la prueba.

tt Se muestran evidencias para fundamentar la validez de contenido.

Page 132: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

132

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

ASPECTOS PSICOMÉTRICOS

Calidad de las pruebas

1. Se documentan las evidencias relativas a los diversos tipos de validez que se consideran usualmente en la medida en que sean aplicables.tt Se describe el procedimiento seguido para el análisis de validez de criterio, al menos

en una de sus formas (predictiva, concurrente, discriminante, etcétera.) y se reportan los valores obtenidos en los estudios de validez de criterio.

tt Hay evidencia documental del análisis de validez de escala y su pertinencia en rela-ción con el constructo y el modelo del perfil a evaluar.

tt Se presenta documentación que muestra cómo se realizó el proceso para analizar la validez de constructo y se presentan los resultados.

2. Se cuenta con análisis integrales de los procesos y métodos utilizados para desarrollar las pruebas, definiendo equivalencia y periodicidad.tt Se indica el procedimiento seguido para construir las pruebas a partir de las especi-

ficaciones y del banco de ítems.tt Se reportan pasos para producir formas o versiones de la prueba y delimitar su vi-

gencia en el tiempo o según sedes o localidades.tt Se cuenta con metodología para hacer versiones equivalentes y se reportan los valo-

res de diseño y experimentales que lo demuestren. No es aceptable reportar resul-tados sin evidencias de equivalencia entre versiones o formas.

tt La periodicidad de aplicación se justifica con criterios teórico-metodológicos o logís-ticos sustantivos, distinguiéndolos de criterios políticos o de opinión.

tt Se especifica y justifica el marco metodológico que integra en forma coherente los procesos y métodos que guían el desarrollo de la prueba.

tt Se especifica y justifica el modelo psicométrico usado.tt Hay manuales técnicos que orientan de manera detallada todos los procesos involu-

crados en el desarrollo de la prueba.3. Se documentan los procedimientos utilizados para la calibración de las pruebas y para

el análisis psicométrico.tt Se presentan los procedimientos psicométricos utilizados para determinar sesgo,

funcionamiento diferencial e impacto adverso de la prueba.tt Se describen los análisis efectuados para detectar influencias de factores diversos en

la calidad de la medición, como la habilidad de lectura o escritura, la comprensión espacial, la ansiedad, etcétera.

4. Se ofrece información sobre la confiabilidad de las pruebas.tt Se describen los procedimientos usados para calcular la confiabilidad de las subes-

calas y versiones de la prueba. En particular se reportan resultados del cálculo de consistencia interna de la prueba y sus subescalas.

tt Se dispone de resultados de correlación con aplicaciones repetidas.tt Hay un reporte con valores de separación del modelo logístico empleado.tt Se reporta la metodología para el cálculo del error de diseño de la prueba y sus sub-

escalas y se reportan los resultados obtenidos en las aplicaciones.tt Se presenta la metodología usada para análisis de funcionamiento diferencial y de

sesgos asociados con personas, pruebas y subescalas. Se reportan resultados de es-tudios hechos para determinar posibles sesgos.

Page 133: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

133Anexo técnico

Calidad de ítems y bancos de reactivos

5. Se documentan los procedimientos para el análisis psicométrico de los ítems y para el cuidado de su calidad.tt Se cuenta con un documento que describe el modelo de calibración de reactivos y

los criterios para su aceptación, revisión y modificación.tt Se explicitan los procedimientos utilizados para efectuar el análisis de ítems (dificul-

tad, discriminación, ajuste [fit], distractores, dimensiones, etcétera.)6. Se ofrecen evidencias sobre la calidad de los bancos de ítems.

tt Hay normativa para revisar, corregir y desechar reactivos en función de los resultados de la calibración, considerando varios parámetros y evidencias.

tt Es posible revisar los inventarios del banco de reactivos, debidamente clasificados y con valores psicométricos o edumétricos. No es aceptable que la prueba carezca de inventario o que haya reactivos sin calibración.

tt Se cuenta con una normativa para el uso de los reactivos, indicando su vigencia en el banco o en las versiones, forma de almacenamiento en medio informático o físico y forma de actualización para uso posterior.

Calificación y niveles de desempeño

7. Se informa sobre los procedimientos seguidos para la calificación de los sujetos que responden las pruebas.tt Está disponible el documento que explica la forma en que se asignó calificación a

estudiantes (normativa, criterial u otra).tt Se cuenta con la explicación del diseño de la escala de la prueba y la forma de cal-

cular los puntajes en dicha escala (por modelo clásico o logístico), con penalización o sin corrección por azar, entre otros posibles criterios.

tt Se explica el procedimiento para obtener la calificación global como combinación de diversos instrumentos o partes de la prueba. No es aceptable la asignación global como promedio de promedios.

8. Se justifica lo relativo al establecimiento de los niveles de desempeño y la interpretación de resultados de las pruebas.tt Existe el marco teórico-metodológico basado en currículo que justifica la organi-

zación en niveles de desempeño como estándares o sistema de interpretación de puntajes, junto con el procedimiento de asignación del valor del punto de corte en la escala.

tt Se dispone de respaldo documental que especifica el procedimiento (criterial o mix-to) para determinar los niveles de desempeño o estándares.

tt Los estándares desarrollados a partir de comités de jueces, cuentan con el análisis del dominio curricular y/o tienen en cuenta consecuencias empíricas de la identifica-ción de puntajes de corte.

tt Los puntos de corte se validan con procesos de juicio o mixto (juicio-empírico); se demuestra experimentalmente su ubicación y se reporta el intervalo de confianza correspondiente.

tt Hay evidencia empírica de que los niveles de desempeño están bien graduados y discriminan bien en relación a contenido de prueba.

Page 134: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

134

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

tt Se cuenta con la metodología y evidencia del proceso realizado para describir el significado de los niveles de desempeño o del conjunto de competencias por nivel en términos de los puntos de corte.

tt Se tiene el documento que detalla los desempeños por nivel para las competencias y contenidos propuestos en la prueba, así como otras interpretaciones pertinentes a partir de los resultados de las pruebas.

tt Los integrantes de los comités encargados de definir los niveles de desempeño son seleccionados por sus perfiles académicos y/o laborales y por su representatividad dentro de la diversidad cultural del país; dichos integrantes pasan por un proceso de capacitación orientado al manejo de la metodología a utilizar.

ATENCIÓN A LA DIVERSIDAD

1. El marco conceptual de la prueba toma en cuenta cómo la efectividad en el aprendizaje, la enseñanza y la evaluación de un contenido están influidos por la experiencia socio-cultural del estudiante y su familiaridad con la lengua y la variedad dialectal en que se administran las pruebas

2. Como parte del desarrollo de la prueba, se establecen las características de la población objetivo, que consideran la diversidad cultural y lingüística del país y los múltiples con-textos y escenarios culturales y ambientales.

3. Se hace uso de referentes teóricos y conceptuales sobre cultura y lengua y se establecen procedimientos para tomar en consideración la diversidad, cultural, lingüística y socioe-conómica del estudiantado mexicano.

4. Los documentos que definen tipos y formatos de ítems dan lineamientos para asegurar que la información gráfica y contextual sea familiar para la mayoría del estudiantado y refleje amplia variedad de contextos culturales.

5. Los equipos a cargo de desarrollar ítems son multidisciplinarios; además de expertos en contenido incluyen a profesionales con especialidades en el área de cultura (antropólo-gos, lingüistas) y maestros de minorías culturales y lingüísticas y de escuelas rurales y de nivel socioeconómico bajo.

6. Las muestras de estudiantes con que se pilotean versiones preliminares de la prueba incluyen submuestras representativas de las minorías culturales, lingüísticas y socioeco-nómicas del país.

7. El desarrollo de la prueba incluye entrevistas cognitivo-culturales para investigar si es-tudiantes de diversos grupos culturales, lingüísticos y socioeconómicos interpretan de igual manera el contenido de muestras representativas de los ítems de la prueba.

8. Existe un proceso de revisión con jueces que considera fuentes de sesgo cultural, lingüís-tico y socioeconómico en muestras representativas de los ítems de la prueba.

9. Se efectúa análisis DIF de una muestra representativa de ítems para diversos grupos focales: estudiantes de distintos grupos indígenas y zonas geográficas, de nivel socioe-conómico bajo y de zonas rurales.

10. Se efectúan análisis de generalizabilidad para determinar la solidez de las generalizacio-nes de calificaciones obtenidas con el mismo conjunto de ítems para distintos grupos de estudiantes definidos por grupo étnico y lingüístico, localidad y nivel socioeconómico.

11. Los tiempos y calendarios de las actividades que tienen como objetivo tomar en consi-deración la diversidad cultural, lingüística y socioeconómica son razonables y factibles.

Page 135: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

135Anexo técnico

12. El desarrollo de las pruebas incluye mecanismos de corrección y mejora con base en la información obtenida con la validación cognitivo-cultural, la revisión, los análisis de sesgo y los estudios de generalizabilidad.

APLICACIONES

Selección de muestra

1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicación censal o como marco muestral.

2. Cuando proceda, las muestras se diseñarán utilizando diseños sólidos; los estratos se definirán con base en argumentos teóricos defendibles.

3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que se planificó.tt En aplicaciones muestrales se precisan pasos para seleccionar la muestra, si se mane-

jarán aulas intactas o submuestras de alumnos en cada aula; la forma de manejar es-cuelas de reemplazo si hay, y porcentajes aceptables de exclusiones y no respuesta.

tt En aplicaciones censales el manual precisa el porcentaje admisible de faltantes y qué se hace en ese caso.

4. Se verifica que la muestra obtenida concuerde con la planificada dentro de márgenes aceptables.tt Se documentan en detalle los pasos para la selección de la muestra.tt Hay una verificación de la muestra por una instancia externa.tt Hay encuesta o sistema de aseguramiento de la calidad de la muestra.

Planeación de las aplicaciones

5. Se planifica todo lo necesario para estandarizar la aplicación, con formas y materiales que aseguren comparabilidad de los datos.tt Hay manuales de aplicación probados en campo que precisen actividades a desarro-

llar por cada participante; se describen las variaciones aceptables.tt Hay un cronograma detallado de todos los pasos del proceso.tt Se identifica a personal de las escuelas que tendrá que ver con la aplicación (directo-

res, maestros) para contar con su cooperación.tt Se fijan requisitos de confidencialidad-seguridad de material y respuestas.tt Se precisa la forma en que deberán documentarse todos los pasos de la aplicación

y las incidencias que se puedan presentar.tt Hay procedimientos de aseguramiento de la calidad de la aplicación.

Selección y capacitación del personal de aplicación

6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la recolec-ción de datos, en todos los niveles.

Page 136: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

136

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

tt Hay criterios para reclutar y entrenar aplicadores y apoyos.tt Se recluta y capacita a suficiente personal de reemplazo.tt La capacitación incluye oportunidad de practicar con los instrumentos.tt La formación de capacitadores y/o el entrenamiento del personal que asegurará la

calidad del proceso se maneja centralmente o, en todo caso, se cuidará de forma que se asegure su adecuado funcionamiento.

tt Se llevan registros de las sesiones de entrenamiento de aplicadores.tt Se monitorean las actividades en campo por personal de la instancia central y/o

externo, y se registran problemas detectados.tt Se hacen ejercicios de retroalimentación y revisión de materiales y procesos que

recojan la experiencia del personal en campo.

Minimización de carga, motivación, no respuesta y fraude

7. Se fijan límites realistas de la carga de responder pruebas y cuestionarios de contexto para que no sea excesiva tomando en cuenta los sujetos.tt Se utilizan los resultados de la aplicación piloto para revisar que los estimados de

carga sean realistas y aceptables.tt Se simplifican los procedimientos y se describen en forma clara y cuidadosa, siempre

buscando minimizar la carga para los sujetos.tt En los cuestionarios de contexto para estudiantes se evita preguntar datos que pue-

den obtenerse de otras fuentes.tt Se agenda la aplicación en horarios convenientes para los sujetos.

8. Se busca motivar a sujetos para que no respondan preguntas a la ligera.tt Se informa ampliamente a los sujetos de la evaluación acerca de los propósitos del

estudio y cómo se utilizarán sus datos.9. Se desarrollan procedimientos para lidiar con la no-respuesta o rechazo a responder a

la prueba y se entrena al personal de aplicación para ello.10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de fraude

y se entrena al personal de aplicación para seguirlos.

Procedimientos de control de calidad en las aplicaciones

11. Se manejan procedimientos para asegurar la calidad de las aplicaciones.tt Se recluta y entrena a monitores que lleven a cabo actividades de control de calidad,

observando la recolección de datos en una muestra de sitios.tt Si no es viable, se hacen entrevistas presenciales o por teléfono de control de calidad

con aplicadores y demás personal involucrado en la aplicación.tt Se hace revisión de control de calidad en muestra aleatoria de los datos recolectados

para asegurar llenado completo y correcto.tt Se resumen los resultados de cada etapa de aplicación para monitorear el estatus de

las actividades y para identificar y corregir causas de problemas.

Page 137: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

137Anexo técnico

Preparación del procesamiento de los datos

12. Hay manuales que detallan los aspectos a cuidar para crear archivos de datos según normas internacionales: cómo introducir los datos; asignar identificadores a alumnos-maestros-escuelas; variables a incluir, códigos válidos de datos faltantes o respuestas no aplicables; formato de datos; estructura de archivos; y limpieza, entre otros.

13. Se cuenta con personal calificado para manejar los datos y se le entrena en todos los aspectos de su trabajo, asegurando que esté familiarizado con los procedimientos acep-tados y que comprende la importancia de recolectar y capturar la información con el cuidado necesario para que los análisis posteriores se hagan sobre información de la mejor calidad posible.

14. Se llevan a cabo procedimientos para maximizar la calidad de las bases de datos que concentran los resultados de la aplicación. Se asegura que:tt La estructura de los datos se apegue a la de los instrumentos.tt Los datos tengan suficientes redundancias para permitir control de calidad.tt Las bases tengan identificadores únicos consistentes para que alumnos y escuelas y,

en su caso, maestros o directores, puedan relacionarse.tt Se lleven a cabo verificaciones aleatorias de submuestras de las bases de datos para

verificar que se cumplan los puntos anteriores.tt Se documenten todas las actividades de preparación de datos.

Procesamiento y verificación de los datos

15. Hay procedimientos para asegurar que la lectura de respuestas y todos los pasos del procesamiento y verificación de los datos son confiables.tt Durante la lectura de los datos se hacen dobles verificaciones en forma sistemática

para garantizar la confiabilidad del proceso.tt En caso de que la lectura de datos se haga en forma descentralizada se asegura que

se cumplan los estándares en todos los sitios.tt Se revisa que la estructura de bases se apegue a la acordada, las variables estén en

rangos válidos y los identificadores sean únicos e íntegros.tt Se contrastan archivos de datos con instrumentos y cuestionarios.tt Se calculan estadísticas analíticas para cada ítem.tt Se calculan estadísticas descriptivas para todas las variables para revisar que no haya

valores extremos o faltantes; si hay se reportan para revisión.tt Se documentan todos los pasos del proceso.

Notificación de irregularidades

16. La coordinación del estudio deberá ser notificada de cualquier inconsistencia en los datos. Toda modificación que resulte de la resolución de inconsistencias deberá ser aprobada y documentada.

Page 138: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

138

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

USOS Y CONSECUENCIAS

Soporte de interpretaciones, usos y consecuencias previstas

1. Se presentan argumentos lógicos o teóricos y evidencia empírica que respalde los usos y consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un apoyo teórico o empírico.

2. Se documenta y evalúa el grado en que se producen las consecuencias previstas y/o deseables de la prueba.

Acceso equitativo y capacidad de interpretación y uso

3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanis-mos de difusión y acceso para todas las partes involucradas sin discriminación.

4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la ade-cuada interpretación y utilización de los resultados.

Comunicación que facilite interpretación de resultados

5. Se informa a los usuarios sobre los propósitos y características de la prueba, lo que pue-de o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e información suficiente sobre la interpretación deseable (o correcta) de los resultados.

6. Se utiliza lenguaje claro y preciso sin jerga técnica innecesaria; se explican términos técnicos en lenguaje claro y comprensible para una audiencia general.

7. Se ofrece un marco normativo para evaluar el desempeño de los examinados. Se descri-be el perfil y características de la población de referencia.

8. Se ofrece información para minimizar la posibilidad de interpretaciones incorrectas. Se notan limitaciones y errores comunes de interpretación al comparar diferentes pruebas, años, dominios, grupos, o niveles de agregación. Se usan categorías precisas que no den lugar a estigma.

Interpretaciones, usos y consecuencias imprevistas

9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque no pueden preverse todos los usos o interpretaciones inapropiadas, se busca identificar y acotar los más factibles o probables).

10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/positivas, o inadecuadas/negativas).

11. Cuando existe evidencia confiable de usos inapropiados estos se investigan en grado y detalle adecuado. Si estos usos persisten se informa a los usuarios y se intenta tomar acciones correctivas.

Page 139: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

139Anexo técnico

Anexo 2. Microanálisis de reactivos de EXCALE

MATEMÁTICAS, TERCERO DE PRIMARIA

La forma reflexiva en “se reventaron” y “se regalaron” (los globos) puede ser difícil de entender para estudiantes de tercer grado. Hay errores de puntuación y uso de mayúsculas (“… invitados, ¿cuántos…”). El contexto es un tanto inverosímil, pues implica que no se reventó ninguno de los globos que Rosa regaló, o bien que Rosa regaló los globos al final de la fiesta, cuando ya se habían reventado 28 globos.

La forma reflexiva en “se plantaron” puede ser poco familiar para estudiantes de tercer grado.

Page 140: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

140

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Por la manera en que está planteado, el problema presenta algunos retos para su comprensión. En primer lugar, no hay “una balanza” sino varias. En segundo lugar, el problema trata “objeto” y la categoría de un objeto determinado como intercambiables. De tal suerte, aunque la respuesta correcta es la segunda opción, el saco de arroz, en realidad hay tres objetos (tres sacos de arroz) en la segunda balanza. Debido a que objeto y categoría de objetos se tratan como intercam-biables, la selección cuarta opción (la taza), podría considerarse como una respuesta correcta.

Una posible forma de plantear el problema es:

“¿En cuál de las balanzas hay objetos que pesan 1 kg cada uno?”

MATEMÁTICAS, SEXTO DE PRIMARIA

El ítem es claro. A menos que en el currículo nacional se emplee otro sistema notacional, se debieran usar comas para separar períodos de tres dígitos.

Page 141: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

141Anexo técnico

Uso incorrecto de puntuación (“… amigas, Ana…”).

El ítem no parece tener ningún problema, excepto que sería mejor que dijera: “… tiene la forma y las medidas…”

Page 142: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

142

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

MATEMÁTICAS, TERCERO DE SECUNDARIA

El formato es difícil de interpretar, probablemente porque la redacción de la pregunta tiene que ser refinada. La pregunta sería más fácil de entender en la siguiente forma:

“¿Cuál opción muestra las mensualidades a pagar si se desea hacerlo en 40 y en 20 meses?”

Ningún comentario.

Page 143: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

143Anexo técnico

Ningún comentario.

Este es un buen ejemplo de reactivo que explota al máximo el potencial de un texto para cono-cer la comprensión lectora de los estudiantes, así como su manejo de vocabulario académico. En comparación con dos de los reactivos analizados en este ejercicio, este ejemplo proporciona más información sobre el dominio del español de los estudiantes, su familiaridad con textos expositivos de carácter académico y su comprensión lectora. Este tipo de reactivos posee mayor potencial diagnóstico sobre temas de interés para mejorar la calidad en la enseñanza de habili-dades lingüísticas que otros analizados en este breve ejercicio.

Page 144: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

144

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

ESPAÑOL, TERCERO DE PRIMARIA

El humor es un tema sensible a las diferencias culturales y no forma parte del currículo escolar.

En este reactivo se asume que los estudiantes conocen un tipo de serpientes que tienen un cascabel y que ese cascabel puede ser visto como una sonaja. La comprensión del “chiste” no depende únicamente de la habilidad lectora o del manejo del vocabulario por parte de quien lo lee. También asume un cierto conocimiento del mundo que probablemente no haya sido socializado en el espacio escolar.

Se aprecia un error de formato: la sustitución de comillas por cuadrados. No se sabe si este error aparece solamente en la copia del material que se le dio a los evaluadores o si aparece en el material que se le da a los estudiantes.

Page 145: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

145Anexo técnico

Este reactivo parece evaluar la capacidad de los estudiantes para ordenar, siguiendo la secuen-cia alfabética, una lista de nombres. La formulación es correcta y la información que se pide corresponde al conocimiento que debe tener un estudiante al que se ha enseñado a organizar listas nominales con base en el alfabeto.

Por una cuestión formal, hubiera sido conveniente utilizar una coma para separar los apellidos del primer nombre. Es importante recordar que en muchas regiones de México —en especial en pueblos indígenas— las personas tienen como apellido un nombre propio. Nombres como “Juan” o “Hernán” forman parte del inventario de apellidos en nuestro país, lo que podría volver confuso el reactivo.

Page 146: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

146

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

En este reactivo se evalúa el conocimiento de vocabulario de adquisición más o menos tardía en el desarrollo lingüístico infantil. La relación entre el texto y las preguntas puede no ser clara para el estudiante, pues no se retoma información directa del argumento del texto, sino solamente del conocimiento de dos ítems léxicos. Sin embargo, el ítem parece ser efectivo para conocer el manejo de vocabulario, no tanto de comprensión lectora.

En la línea 3 la puntuación no es óptima, debiera decir: “¿Cuál?—pregunté.”

Page 147: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

147Anexo técnico

ESPAÑOL, SEXTO DE PRIMARIA

Ningún comentario, excepto que el uso de sangrías en los dos párrafos del texto no es consistente.

Page 148: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

148

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

La capacidad para resumir un texto es una habilidad que no solo refleja la comprensión lectora de un estudiante sino que también busca explorar su capacidad de síntesis, pero implica que el estudiante puede conocer cuál de la información es prioritaria dentro de un texto expositivo. A partir de esos criterios podría haber más de una respuesta correcta en el reactivo anterior en función de la información que se considere más relevante. El hecho de que se incluyan líneas en blanco para los subtítulos que no están asociadas a las preguntas también resulta confuso, pues no es claro si el concepto de “párrafo” se refiere a la presencia de puntos y aparte o a los tres bloques del texto divididos por estas líneas. Eso determinaría si el estudiante se centra sólo en la primera parte del texto (que incluye dos puntos y aparte), o lo analiza todo (separado en tres bloques). Este formato no es consistente con otras partes de la prueba en las que, después de cada punto y aparte, se incluye un espacio para la división de los párrafos. En este reactivo en particular, después de la marca de puntación se utiliza sangría (tipografía que no se utiliza en el resto de los reactivos analizados).

Page 149: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

149Anexo técnico

Page 150: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

150

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Desafortunadamente la imagen de la carátula del libro es muy borrosa y no se alcanza a ver parte de la información que permitiría hacer un análisis sobre las posibles respuestas. Sin em-bargo resulta un poco sorprendente que, después de la lectura de un texto expositivo largo y con vocabulario infrecuente, no se retome nada del texto y solo se exploren aspectos formales de la portada. Esta observación se hace porque el texto utiliza algunos términos que no corres-ponden al español de México como “puerro” o a vocabulario muy arcaico como “enjundias”, los cuáles muy probablemente no forman parte del léxico de los escolares mexicanos.

Page 151: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

151Anexo técnico

ESPAÑOL, TERCERO DE SECUNDARIA

Page 152: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

152

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Este es un buen ejemplo de recuperación de información en un texto expositivo para explorar la comprensión lectora. Además de incluir vocabulario de uso frecuente en el español de México, el texto aborda un tema cercano a la gran mayoría de los estudiantes del país. Utilizar para este tipo de pruebas diferentes géneros, como el periodístico, ayuda no sólo a conocer la capacidad de un estudiante para extraer el argumento central de un texto, sino también a familiarizarlo con diversos tipos de textos, más allá de los escolares.

Page 153: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

153Anexo técnico

Este reactivo incluye el fragmento de un texto en formato de diálogo que utiliza un español arcaico. Más allá de las formas de conjugación verbal que ya no se usan actualmente en el español de México, algunos ítems léxicos tampoco son ya vigentes. Sin embargo la pregunta sólo implica inferir una conclusión del fragmento. Es un buen ejercicio de exploración de la comprensión lectora, pero se corre el riesgo de que los estudiantes se concentren en la distancia entre el registro utilizado en el texto y el suyo, más que en la información que puede inferirse de su lectura.

Page 154: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

154

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

Anexo 3. Resultados de encuesta de autoridades estatales

(%) n=20 Comentarios

¿A cuáles de las siguientes audiencias se han hecho llegar los resultados de EXCALE en su entidad?

Autoridades municipales 1 (5) Reunión, Internet, Impresos

Coordinadores de región o jefes de sector 11 (55) Reunión (10), Internet (7), Impresos (6)

Supervisores de escuela 14 (70)Reunión (7), Internet (7), Impresos (9, solo en 4 estos alcanzan a la mayoría de supervisores)

Docentes 10 (50)Reunión (3), Internet (4), Impresos (9, solo en 5 estos alcanzan a la mayoría de docentes)

Madres y padres de familia 4 (20)Reunión (2), Internet (2), Impresos (3; en los 3 alcanzan a menos de la mitad de padres)

Otra audiencia 4 (20) Directores (2), Investigadores (1) N.A (1)

Diagnosticar el trabajo de la escuela; informar autoevaluación y gestión escolar

6 (30)Reuniones (2); Plan autoevaluación (2); No (2)

Consecuencias positivas en su entidad Genéricas (4), No (2)

Consecuencias no deseadas en su entidad Estrés para alumnos/docentes (1)

Orientar intervención pedagógica 6 (30)Complemento a ENLACE (2), Materiales INEE (1), “Análisis” (2), No (1)

Consecuencias positivas en su entidad Genéricas (7)

Consecuencias no deseadas en su entidad Reducción del currículo (1); No (4)

Orientar capacitación de docentes 9 (45) Enviar Impresos (2) Genéricas (6)

Consecuencias positivas en su entidad ECapacitación docente (3); Genéricas (2), No (3)

Consecuencias no deseadas en su entidad No (no se usa, no se conoce) (11)

Orientar a padres para apoyar a sus hijos para reforzar contenidos

2 (10) Genéricas (2)

Consecuencias positivas en su entidad Genéricas (2)

Consecuencias no deseadas en su entidad Quitan atención a alumnos (1); No (1)

Socializar el trabajo de la escuela y fortalecer la comunidad escolar

3 (15) Genéricas (2)

Consecuencias positivas en su entidad Genéricas (2) No (1)

Consecuencias no deseadas en su entidad No (2)

Evaluar políticas y programas educativos 6 (30)Corroborar ENLACE/PISA (2), Plan de desarrollo (2) Genéricas ( 2)

Consecuencias positivas en su entidadVerificar ENLACE/PISA (1), Genéricas (4), No (1)

Consecuencias no deseadas en su entidadReducción del currículo (1), Desinterés en alumnos/docentes (2), No (3)

Rendición de cuentas: evaluación de escuelas 5 (25) Genéricas (2)

Consecuencias positivas en su entidad Interés en escuelas (2), Genéricas (2), No (2)

Consecuencias no deseadas en su entidadDesinterés en escuelas por irrelevante (1), Manipulación (1), No (5)

Rendición de cuentas: evaluación docente 2 (10) No (2)

Consecuencias positivas en su entidad Genérica (1), No (1)

Consecuencias no deseadas en su entidad Descalificación de docentes (1), No (1)

Otro uso 6 (30) Ampliar perspectiva en evaluación (1), No (5)

Page 155: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

155Anexo técnico

(%) n=20 Comentarios

Consecuencias de Uso

Consecuencias en relación a los estudiantes

Desmotivación a los alumnos para intentar mejorar sus resultados

2 (10) Múltiples

Dar a estudiantes mejor información acerca de su propio conocimiento y habilidades

3 (15) Múltiples/Generalizado

Enviar señales claras a los alumnos sobre lo que deben estudiar

3 (15) Múltiples/Generalizado

Mayor competencia entre alumnos 2 (10) Múltiples/Generalizado

Ayudar a estudiantes a asociar los esfuerzos personales con los resultados que obtienen

4 (20) Múltiples/Generalizado

Motivar a los estudiantes a trabajar más fuertemente en la escuela

3 (15) Múltiples/Generalizado

Otra consecuencia en relación a los estudiantes 4 (20) Sentido de comunidad (1), No (4)

Consecuencias en relación a los maestros: Múltiples/Generalizado

Apoyar a docentes en un mejor diagnóstico de las necesidades de los estudiantes

6 (30) Múltiples/Generalizado

Desvalorización de las calificaciones que asignan los docentes

1 (5) Múltiples/Generalizado

Maestros se enfocan al contenido de la prueba más que estándares y aprendizajes

5 (25) Múltiples/Generalizado

Prácticas pedagógicas que reflejan los formatos de respuesta de la prueba

5 (25) Múltiples/Generalizado

Ayudar a los docentes a identificar las fortalezas y debilidades del currículo

7 (35) Múltiples/Generalizado

Desvalorización de los exámenes que se aplican en las escuelas

3 (15) Múltiples/Generalizado

Prácticas docentes que buscan preparar a los alumnos para esta prueba

8 (40) Múltiples/Generalizado

Moral baja de docentes debida a resultados negativos obtenidos en la prueba

3 (15) Múltiples/Generalizado

Moral baja de directivos escolares por resultados negativos obtenidos en la prueba

5 (25) Múltiples/Generalizado

Identificar contenidos que aún no dominan los estudiantes y redirigir la enseñanza

9 (45) Múltiples/Generalizado

Desvalorización del sentido del valor profesional de los maestros

2 (10) Múltiples/Generalizado

Motivar a los maestros para mejorar su trabajo 8 (40) Múltiples/Generalizado

Ayudar a maestros a alinear la enseñanza con los estándares planteados en el currículo

7 (35) Múltiples/Generalizado

Maestros que hacen trampas cuando preparan para la prueba

2 (10) Múltiples/Generalizado

Maestros que hacen trampas cuando se aplica la prueba

2 (10) Múltiples/Generalizado

Motivar a los maestros a participar en actividades de desarrollo profesional para mejorar sus prácticas de enseñanza

6 (30) Múltiples/Generalizado

Docentes que privilegian factores externos para motivar el aprendizaje

4 (13.7) Múltiples/Generalizado

Presión, ansiedad y estrés elevados en docentes

2 (10.0) Múltiples/Generalizado

Presión, ansiedad y estrés elevados en directores de escuela

3 (15.0) Múltiples/Generalizado

Otra consecuencia en relación a los maestros No (3); 1 ENLACE o EXCALE? (1)

Page 156: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

156

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

(%) n=20 Comentarios

Consecuencias en relación a las autoridades

Motivar a autoridades educativas a examinar las políticas relacionadas con la enseñanza

9 (45)

Implementar medidas institucionales dirigidas a aumentar puntajes de la prueba

6 (30)

Ayudar a las autoridades educativas a valorar la calidad de los programas

8 (40)

Implementación de incentivos institucionales para alumnos con base en puntajes obtenidos

4 (20)

Implementar incentivos institucionales para docentes con base en puntajes de su grupo

3 (15)

Promover el cambio de políticas para mejorar la enseñanza

5 (25)

Asignar recursos para mejorar los resultados de las asignaturas evaluadas en la prueba

7 (35)

Implementación de medidas institucionales para preparar a los alumnos para la prueba

3 (15)

Enriquecer la toma de decisiones de las autoridades en cuanto a la asignación de los recursos en la entidad

7 (35)

Énfasis de autoridades en la mejora de los puntajes de la prueba a expensas de otras necesidades y problemas de las escuelas

4 (20)

Ayudar a tomadores de decisiones a juzgar la efectividad de las políticas educativas

9 (45)

Provisión de información confusa que lleve a tomar decisiones equivocadas a los administradores educativos de la entidad

3 (15)

Mejorar la habilidad de los tomadores de decisiones para monitorear el desempeño del sistema educativo

8 (40)

Promoción de una visión simplista o reduccionista de la educación y sus objetivos

2 (10)

Fortalecer la asignación de recursos educativos en la entidad

5 (25)

Otra consecuencia en relación a las autoridades

5 (25) No (4), Comparaciones con otros estados (1)

Page 157: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

157Anexo técnico

Anexo 4. Lista de estudios que utilizan datos de EXCALE

1. La desigualdad de oportunidades de lectura. Un análisis de la distribución de libros y lecturas entre los alumnos mexicanos, a 50 años de los primeros libros de texto gratuitos.

2. Achievement Gap in México: Present and Outlook.3. Evaluación de la eficacia del gasto gubernamental en México. El caso de la primaria.4. Hacia la elaboración de un Índice de educación para México.5. El SNTE y la calidad educativa. Una agenda de investigación.6. Competencias matemáticas en educación primaria. 7. Efectos escolares sobre los aprendizajes en México: una perspectiva centrada en la inte-

racción escuela-entorno.8. Análisis comparativo de la pertinencia del diseño del Acuerdo Educativo por el Derecho

Social a la Educación de Alta Calidad en Michoacán y de la pertinencia del Acuerdo por la Calidad de la Educación en Guerrero.

9. Towards a Realist methodology for School Effectiveness Research: A Case Study of Edu-cational inequality from Mexico.

10. Learning inequality among indigenous students in Mexico.11. Modelo de ecuación estructural que evalúa las relaciones entre el estatus cultural y

económico del estudiante y el logro educativo.12. Factores asociados al aprovechamiento en español en la telesecundaria mexicana.13. Violencia en el interior y al exterior de las escuelas primarias y secundarias un acerca-

miento a través de los profesores.14. Muscle, Timing, and Priorities: Teacher Unions and Education Quality in Mexico.15. Ana María Soto Rodríguez. Factores escolares que influyen en el rendimiento académico

de estudiantes de tercer año de secundaria con niveles socioeconómicos bajos. Tesis de Maestría en Ciencias Educativas. Universidad Autónoma de Baja California (1/12/2010).

16. Backhoff, E., Contreras-Niño, L.A. y Solano-Flores, G. (2011).  Sobre la pertinencia de evaluar a los estudiantes indígenas en su propio idioma: una propuesta metodológica. Diálogos sobre educación. Temas actuales en investigación educativa, 2(3), 1-13.

17. Backhoff, E. (2011). La inequidad educativa en México: Diferencias en el aprendizaje de la comprensión lectora en educación básica. Profesorado. Revista de Currículum y Formación de Profesorado, 15 (3), 1-16.

18. Backhoff, E., Sánchez, A., Peón, M. y Andrade, E. (2010). Comprensión lectora y habili-dades matemáticas de estudiantes de educación básica en México: 2000-2005. Revista Electrónica de Investigación Educativa, 12 (1), 1-29. Consultado en: http://redie.uabc.mx/vol12no1/contenido-backhoffsanchez.html

19. Backhoff, E. (2013). Validity in International Large Scale Assessment  Applications in Developing Countries. En: M. Chatterji, Validity and Test Use An International Dialogue on Educational Assessment, Accountability and Equity. USA: Emerald.

20. Backhoff, E., Bouzas, A. y Larrazolo, N. (2012). Variables escolares y resultados de apren-dizaje: el caso del 3° de secundaria  en México. En M. Castro (Ed.) Elogio a la Pedagogía Científica: Liber Amicorum para Arturo de la Orden. Madrid: Creapress.

21. Backhoff, E. y Larrazolo, N. (2011). Las brechas educativas en México como producto de la desigualdad social. En SEP, Educación pública: patrimonio social de México. Temas de nuestro tiempo (vol. II). pp. 37-44. México: Fondo de Cultura Económica.

Page 158: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

158

Las

pru

ebas

EX

CA

LE p

ara

edu

caci

ón

bás

ica

22. Backhoff, E., Peón, M. y Jornet, J. (2011). Método empírico-conceptual para determinar estándares de ejecución de expresión escrita. En E. Luna (Ed.) Aportaciones de la inves-tigación a la evaluación de los estudiantes y docentes. México: Porrúa.

23. Backhoff, E., Bouzas, A. y González-Montesinos, M. (2011). ¿Cómo se evalúa la calidad educativa de un país? Algunos desarrollos recientes. En E. Luna (Coord.) Aportaciones de la investigación a la evaluación de los estudiantes y docentes. México: Porrúa.

24. Backhoff, E. (28-29/3/2012). Comments on Validity Issues in International Large Scale Assessments. Accountability and Equity: Conversations on Validity Around the World. Educational Testing Service. ETS y Teachers College of Columbia University.

Page 159: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

159Anexo técnico

Anexo 5. Análisis de cobertura de prensa 2010-2013

Año Medio Tema

2010 La Jornada Calidad de la educación y evaluación (EXCALE y otras pruebas)

El Periódico de México EXCALE 3º secundaria, resultados generales

El Universal EXCALE 3º secundaria, violencia escolar (error: ESCALE)

Diario de México EXCALE 3º secundaria, violencia escolar (error: ESCALE)

El Sol de México EXCALE 3º secundaria, resultados generales (página principal)

El Economista EXCALE 3º secundaria, resultados generales

La Jornada EXCALE 3º secundaria, violencia escolar

El Financiero EXCALE 3º secundaria, resultados generales

Excelsior EXCALE 3º secundaria, resultados generales

La Jornada EXCALE 3º secundaria, resultados generales

Excelsior EXCALE 3º secundaria, biología

Excelsior EXCALE 3º secundaria, Telesecundarias Veracruz

Excelsior EXCALE 3º secundaria, educación cívica

El Economista EXCALE 3º secundaria, educación cívica

2010 Vértigo Compara niñas y niños con base en EXCALE

La Jornada EXCALE 3º secundaria, motivación escolar

2011 Grupo Reforma Calidad educativa, relata algunos resultados EXCALE

Grupo Reforma EXCALE 3º bachillerato expresión escrita y ed. cívica, con PISA

Sociedad y Justicia EXCALE 3º bachillerato expresión escrita, junto con PISA

2012 El Universal EXCALE 3º primaria, cuestionario de contexto para alumnos

Sociedad y Justicia EXCALE 3º primaria, cuestionario de contexto para alumnos

2013 La Jornada de Oriente Aplicación EXCALE en Puebla, objetivos EXCALE

El Universal Mención de EXCALE junto con otras pruebas

El Universal Mención de EXCALE junto con otras pruebas

Page 160: Las pruebas EXCALE para educación básica - | fmrizo.net 58 2015 Las pruebas Excale para EB.pdf · 8 Las pruebas E XCALE para educación básica El trabajo contemplado en el Anexo

LAS PRUEBAS EXCALE PARA EDUCACIÓN BÁSICA

UNA EVALUACIÓN PARA EL INSTITUTO NACIONAL PARA LA EVALUACIÓN

DE LA EDUCACIÓN

En su formación se utilizaron las familias tipográficas: Frutiger Lt Std y Museo.