estÁndares de calidad para instrumentos …fmrizo.net/fmrizo_pdfs/libros/l 27 2000...

52

Upload: phamque

Post on 20-Jun-2018

228 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO
Page 2: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

1

Contenido PREFACIO ........................................................................................................................................ 3 PRESENTACIÓN .............................................................................................................................. 5 INTRODUCCIÓN ............................................................................................................................. 9 ORIENTACIONES VALORALES ................................................................................................. 17 ESTÁNDARES DE CALIDAD ...................................................................................................... 21 CONCLUSIÓN ................................................................................................................................ 39 GLOSARIO ..................................................................................................................................... 41 REFERENCIAS BIBLIOGRÁFICAS .............................................................................................. 49

Page 3: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

2

Page 4: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

3

Prefacio

L CENTRO NACIONAL DE EVALUACIÓN para la Educación Superior (CENEVAL) se consti-tuyó legalmente el 28 de abril de 1994, con el carácter de Asociación Civil sin fines de

lucro, siendo los asociados fundadores la Asociación Nacional de Universidades e Institucio-nes de Educación Superior, la Secretaría de Educación Pública, la Universidad Nacional Autónoma de México, el Instituto Mexicano de Contadores Públicos, el Colegio Nacional de Psicólogos y el Colegio Nacional de Médicos Veterinarios y Zootecnistas de México; a estas instituciones se añadieron posteriormente la Federación de Instituciones Mexicanas Particula-res de Educación Superior y el Instituto Politécnico Nacional. De acuerdo con el Art. 2º de su Estatuto, “El CENEVAL tiene por objeto contribuir a mejorar la calidad de la educación media superior y superior mediante evaluaciones externas de los aprendizajes logrados en cualquier etapa de los procesos educativos, de manera independiente y adicional a la que llevan a cabo las instituciones educativas...” A seis años de su creación, el CENEVAL ha realizado ya un importante trabajo en la dirección a la que apunta su misión, labor consistente en el desarrollo de decenas de instrumentos de eva-luación y su aplicación -en numerosas instituciones de educación media superior y superior, así como en diversos sistemas educativos estatales del país- a sustentantes cuyo número va de millones a centenares. Los procesos de desarrollo y aplicación de esas pruebas se han hecho con cuidado, pero tam-bién con presión de tiempo, por lo que es normal que no siempre se hayan atendido todos los elementos metodológicos que las mejores prácticas de las instituciones especializadas han definido como deseables. Si bien puede decirse que el CENEVAL se ha ganado ya un claro reconocimiento en el medio nacional, también es cierto que hay todavía grupos importantes que no están convencidos de su necesidad y ponen en tela de juicio, a veces radicalmente, su existencia. Por ello, además del cuidado que sus instancias internas deberán tener en su quehacer diario, resulta conveniente que el CENEVAL cuente con un componente de evaluación externa, tanto por razones técnicas como por credibilidad. Las razones técnicas se deben a la complejidad y especialización del trabajo psicométrico, que hace necesaria la intervención de especialistas

E

Page 5: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

4

para juzgar su calidad. En cuanto a la credibilidad, un organismo concebido para la evaluación externa como el CENEVAL, en congruencia con su propia filosofía, no podría rechazar el some-terse a rigurosos procesos de evaluación, buscando que los instrumentos que son el resultado de su trabajo se apeguen a los estándares de calidad más exigentes en su propio campo. Con apoyo en las situaciones anteriores, la dirección general del CENEVAL consideró conve-niente la integración de un grupo de carácter internacional, compuesto por personas con inde-pendencia de criterio, alto nivel profesional y experiencia en el área de evaluación, que apoya-ran los esfuerzos del Centro. El llamado Consejo Asesor Externo decidió que su primera tarea sería la de elaborar un docu-mento que, aprovechando la experiencia internacional, resumiera las mejores prácticas en el campo de la utilización de instrumentos de evaluación educativa, como insumo clave para posteriores trabajos de metaevaluación de los productos del CENEVAL y para la eventual for-mulación de recomendaciones para elevar la calidad del quehacer del Centro. Al apoyar la difusión pública de este documento, el CENEVAL asume el trabajo del Consejo Asesor Externo y su ambiciosa expectativa de que sirva no sólo al propio Centro, sino a todos los que se dedican a la elaboración de pruebas: a los académicos, a las autoridades educativas y, en general, a todas las personas que se interesan en la evaluación, siempre en la perspectiva del mejoramiento de la calidad de la educación.

MTRO. ANTONIO GAGO HUGUET DIRECTOR GENERAL DEL CENEVAL

Page 6: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

5

Presentación

PARTIR DE UNA REFLEXIÓN sobre su propia misión y concepciones básicas, el CENEVAL pidió a un grupo de personas relacionadas con la investigación educativa, específica-

mente en el campo evaluativo, que lo ayudaran a aplicar internamente la filosofía relativa al papel de la evaluación en cualquier proceso de búsqueda de la calidad. Este grupo, denomina-do Consejo Asesor Externo, consideró que la tarea encomendada debería comprender, en pri-mer lugar, la definición de los estándares de calidad que deben cuidarse al elaborar, aplicar y corregir pruebas. Sólo contando con ese tipo de estándares será posible monitorear la medida en que se respeten en la actividad cotidiana. Para realizar la tarea no había que partir de cero, ya que en el ámbito internacional se han hecho ejercicios similares basados en la experiencia acumulada por organismos especializados a lo largo de por lo menos cien años. Pero tampoco era una tarea simple: no podría bastar ob-tener documentos extranjeros y hacerlos traducir, dado que la menor tradición mexicana en este campo, junto con las peculiaridades locales, hacía indispensable un trabajo original de adaptación y desarrollo, adecuando muchos de los planteamientos generados en otros contex-tos, complementándolos y matizándolos en función de las circunstancias propias. Por ello esa primera tarea que el Consejo acordó emprender en su primera reunión, en julio de 1999, requirió un año de trabajo. La pluralidad del grupo -que incluye a dos personas del CENEVAL y el resto de experiencias, formaciones y afiliaciones institucionales diversas, en México, España y Estados Unidos- así como la seriedad y responsabilidad con que todos sus integrantes asumieron el trabajo, junto con las facilidades que los modernos medios de comu-nicación ofrecen, hicieron posible que el año se aprovechara intensamente con una interacción virtual que permitió revisar cuidadosamente hasta ocho versiones del escrito, y dos reuniones adicionales presenciales, en febrero y julio del 2000, en las que se discutió cada punto del do-cumento en forma exhaustiva, hasta llegar a la formulación que se presenta ahora al público. Al realizar el trabajo anterior, el Consejo Asesor Externo era plenamente consciente tanto de la importancia del mismo, como de su novedad en México e inclusive en el mundo de habla hispana. De esta conciencia se derivan dos consecuencias: ♦ La primera es el enfoque general que se ha dado al documento: se considera que los están-

dares propuestos no son exclusivos de un organismo, sino que deberían aplicarse en cual-

A

Page 7: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

6

quier institución dedicada a la elaboración de instrumentos de evaluación de tipo objetivo, diseñados para ser aplicados en gran escala.

♦ La segunda consecuencia es el carácter relativamente provisional de esta versión que, en

un plazo no muy lejano, deberá ir seguida por otra que recoja la experiencia de las prime-ras aplicaciones de los estándares, así como los elementos adicionales que la comunidad de los interesados por la evaluación educativa en el ámbito nacional e hispanoamericano nos aporte.

El listado de estándares de calidad propuestos, que es la parte central de esta publicación, va precedido de dos elementos, y seguido de otro cuyo sentido es el siguiente: ♦ La Introducción presenta la concepción que tenemos los autores de este trabajo, de la apor-

tación que se pretende hacer al conjunto de los esfuerzos de evaluación que se desarrollan en México, al tiempo que permite a los lectores identificar las fuentes utilizadas para este trabajo.

♦ El apartado denominado Orientaciones Valorales constituye una sistematización de las

concepciones y los principios metacientíficos –filosóficos, éticos y de política educativa y social- que, en opinión de los autores, deberían sustentar cualquier esfuerzo de evaluación en el campo educativo. Esta sistematización fue de gran importancia para el trabajo, ya que permitió dar coherencia al conjunto de los Estándares de Calidad, cuyo sentido pleno sólo puede comprenderse teniendo presentes las Orientaciones.

♦ El listado de estándares va seguido de un Glosario que presenta definiciones de los princi-

pales términos técnicos empleados para favorecer la comprensión del texto. Además del Glosario, inicialmente se preveía un apéndice en el que, con el subtítulo de “Parámetros sugeridos”, se pensaba sintetizar una serie de criterios técnicos de tipo numérico que precisarían el contenido de algunos estándares, indicando valores mínimos o máximos que no deben sobrepasar los indicadores relativos a algunas de las dimensiones de la calidad de una prueba, como la confiabilidad o la validez. La dificultad del punto, sin embargo, hizo desistir de la idea de incluirlo en esta versión. Se pensó que, en el caso más usual en nuestro contexto que es el de pruebas construidas con refe-rencia a norma, cuyos resultados se analicen utilizando la Teoría Clásica de las Pruebas, los criterios técnicos generalmente aceptados se encuentran sin dificultad en los manuales espe-cializados. En cuanto a los enfoques más recientes y complejos, que son también poco conoci-dos y utilizados por ahora en México e Hispanoamérica, los criterios técnicos son menos cla-ros, y en no pocas ocasiones no existen todavía unos que se puedan considerar “generalmente aceptados”. Pensamos en pruebas construidas con referencia a criterio y en pruebas de res-puesta construida que deban analizarse utilizando la Teoría de Respuesta al Ítem y la Teoría de la Generalizabilidad.

Page 8: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

7

Contar con un texto que integre los criterios técnicos relativos a los diversos aspectos y varian-tes de la elaboración y utilización de pruebas es en principio deseable, incluso y tal vez con mayor razón, si se presentan puntos de vista contrastantes en algunos rubros. Esta faceta de la tarea, sin embargo, resultó demasiado compleja para terminarla en el plazo de un año, y deberá quedar pendiente para el futuro. Por circunstancias históricas precisas, los acercamientos psicométricos a la evaluación educa-tiva han tenido un desarrollo lento y precario en México y otros países de habla hispana, en comparación con Estados Unidos y el mundo anglosajón. En la actualidad no es raro escuchar opiniones en el sentido de que los acercamientos de tipo cualitativo serían absolutamente su-periores y que, por consiguiente, deberían sustituir a los primeros de manera también absoluta. Los autores de este trabajo compartimos una idea distinta, en el sentido de que cualquier acer-camiento a la evaluación es parcial y necesita complementarse con otros. Por ello nos parece clara la necesidad de que se desarrollen tanto los acercamientos psicométricos como los alter-nativos, y que lo hagan interactuando y complementándose, para dar lugar a sistemas integra-les de evaluación que, para ser realmente completos, en cualquier sistema educativo grande, como el de un país como México, tendrán que comprender pruebas de tipo objetivo para ser utilizadas en gran escala. Pensamos que pruebas bien hechas y aplicadas pueden ser un ele-mento muy valioso de cualquier sistema nacional de evaluación, y estamos conscientes de que pruebas defectuosamente diseñadas o mal manejadas pueden hacer mucho daño. El Consejo Asesor Externo pretende contribuir a que se haga realidad lo anterior con este es-fuerzo de formulación de estándares de calidad. De manera tal vez muy ambiciosa, pretende-mos que los estándares sean discutidos, enriquecidos y, finalmente, adoptados por los más diversos organismos especializados, dando lugar a una generalización de las mejores prácticas de evaluación en México y otros países de la región. Agradecemos el apoyo de la maestra Yolanda Leyva, Subdirectora de Investigación del CENEVAL, para la elaboración de las sucesivas versiones de este documento.

FELIPE MARTÍNEZ RIZO

COORDINADOR DEL CONSEJO ASESOR EXTERNO

Page 9: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

8

Page 10: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

9

Introducción

OMO PARTE DE LAS TENDENCIAS mundiales que subrayan la importancia de la calidad en todos los ámbitos, incluidos los educativos, durante la década de los años 90 surgieron en

México varios organismos cuyo propósito tiene que ver, de diversas maneras, con la evalua-ción de la educación y, con diversas aproximaciones, las instituciones de educación superior emprendieron esfuerzos de evaluación y mejoramiento. Frente al recelo, muchas veces justificado, que una evaluación provoca, es importante explici-tar, como punto de partida de este documento, una idea básica: la que consiste en señalar que, dado que la calidad de las instituciones de educación superior (IES) es algo muy complejo, su evaluación no puede ser simple, sino que debe incluir diversos acercamientos. En otras pala-bras: no basta una evaluación aislada, sino que se requiere un sistema de evaluación bien dise-ñado e instrumentado. Debe añadirse de inmediato una idea complementaria: la que establece que, si bien es claro que un acercamiento exhaustivo -que capte perfectamente la realidad- es imposible de alcan-zar, también parece que, combinando inteligentemente una gama adecuada de acercamientos metodológicos complementarios, es factible una aproximación que sea razonablemente com-pleta a algo tan complejo como la calidad de una institución o sistema educativo. Las dos ide-as anteriores pueden expresarse de manera muy breve: evaluar no es sencillo, pero es posible. Para precisar cómo deberá ser un buen sistema de evaluación debe partirse de una premisa más: la de que la evaluación no es un fin en sí misma. Su propósito central no puede ser colo-car o seleccionar, sino proporcionar información a diferentes usuarios para tomar decisiones adecuadas. En otras palabras, la evaluación tiene sentido en la medida en que contribuye a mejorar la ca-lidad. No es suficiente para ello, pero sí es indispensable: si no sabemos si algo está bien o mal, en qué aspecto y medida, no podremos desarrollar estrategias de superación. A partir de lo anterior, se puede precisar que un sistema de evaluación para las IES mexicanas deberá tener en cuenta, por lo menos, tres dimensiones:

C

Page 11: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

10

♦ Los niveles de la evaluación: institucional, de programas, de cursos, de personas. ♦ Los enfoques metodológicos: analíticos (“cuantitativos”) y sintéticos (“cualitativos”). ♦ Las perspectivas interna y externa. En cuanto a la primera dimensión, debe subrayarse la relación que hay entre los cuatro niveles mencionados: si bien no puede negarse que hay aspectos propios del nivel institucional, parece claro que, finalmente, la calidad de una institución educativa será la que tengan sus programas, de cualquiera de las funciones que realice, de docencia, investigación o difusión. En lo relativo a docencia, la calidad de un programa, por su parte, será la de los cursos que lo componen; y la calidad de un curso dependerá finalmente de la del maestro que lo imparta y se definirá, en última instancia, en términos del aprendizaje que alcancen los alumnos. Por ello contar con instrumentos para evaluar los aprendizajes de los alumnos resulta indispensable para que un sistema de evaluación pueda pretender ser razonablemente completo. En cuanto a la segunda dimensión, no puede ignorarse que, en las últimas décadas, el panora-ma de las metodologías de evaluación se ha enriquecido, afortunadamente, con una amplia variedad de acercamientos: al lado de las técnicas más antiguas y simples, como las pruebas de opción múltiple, hay ahora pruebas de respuesta construida, de ejecución y desempeño, porta-folios, autoevaluaciones y evaluaciones por colegas, evaluaciones libres de metas, técnicas “judiciales” con abogados del diablo y defensores de oficio, y otras. Y tras la proliferación de polémicas destructivas, parece establecerse una tendencia integradora, que reconoce la insufi-ciencia de cada enfoque en lo particular y la necesidad de acercamientos complementarios. En cuanto a la última dimensión, la evaluación interna es esencial; ninguna otra puede ser más fina y cualquier otra, si no hay componente interno, no dará resultados de mejoramiento. La evaluación externa resulta indispensable también, por varias razones: porque complementa a la interna enriqueciendo sus resultados: la desventaja de la lejanía y la falta de familiaridad es también la ventaja de la distancia y la independencia; porque valida a la evaluación interna, que puede ser objetiva, pero también parcial; y porque permite una comparabilidad que la in-terna no puede lograr. La comparabilidad es indispensable en un sistema de educación superior formado por centena-res de instituciones. Sea que el sistema dependa de recursos públicos, sea que se sostenga con recursos privados, o cualquier combinación de ambos, los responsables gubernamentales y los particulares necesitan elementos objetivos para tomar las decisiones que procedan en relación con la educación superior: los particulares, en especial los alumnos y sus padres, para optar por una u otra institución; los funcionarios públicos, federales y estatales, para orientar las políticas de apoyo, lo cual no debe entenderse sin más en sentido restrictivo o fiscalizador, pero sí en sentido de apoyo no incondicional o a ciegas, sino con base en evidencias del buen uso de los recursos asignados. Así pues, estudiar la calidad de una IES implica esfuerzos varios: en lo relativo a evaluaciones institucionales y de programas, los acercamientos más pertinentes parecen ser autoevaluacio-nes complementadas por evaluaciones externas por pares y agencias acreditadoras, que utili-cen inteligentemente indicadores de desempeño. Para la evaluación de personas y, en especial

Page 12: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

11

para la de alumnos, aspirantes y egresados, parece lógica la utilización de diversos tipos de pruebas, al lado de otros acercamientos como los de tipo portafolios; en gran escala la utiliza-ción de instrumentos de tipo objetivo resulta indispensable, no en forma aislada, sino integrada con los demás mecanismos. Las evaluaciones del aprendizaje que realizan los profesores son imprescindibles. Sin embar-go, una IES no debería depender exclusivamente de las evaluaciones hechas por sus propios docentes para fundamentar juicios sobre el nivel alcanzado por los alumnos de un programa. Los docentes mismos, además de no ser especialistas en evaluación, son a la vez jueces y par-tes interesadas, por lo que sus apreciaciones deberían integrarse con otras que den más garant-ías de imparcialidad. Evaluación interna y externa deben complementarse: la primera será siempre más contextualizada y, frecuentemente, más fina; la segunda validará a la primera y permitirá comparaciones interinstitucionales, o con respecto a otras regiones o países, que la primera sola no permite. Debe añadirse de inmediato que, para que una evaluación como la que permite hacer las prue-bas estandarizadas sea útil, una condición sine qua non es, lógicamente, que las pruebas sean, a su vez, de muy buena calidad. Que sean elaboradas, aplicadas y corregidas, y sus resultados analizados y utilizados, aplicando los estándares de calidad más exigentes. Si no se procede de esta manera las pruebas no aportarán elementos valiosos y, en el peor de los casos, podrían dar pie a decisiones inadecuadas o injustas basadas en sus resultados. Por lo anterior, y en el marco de la tarea que se le ha encomendado, el Consejo Asesor Externo ha elaborado este documento que comprende un conjunto de estándares de calidad, que se pretende sean aplicables a cualquier prueba y a cualquier organismo que tenga entre sus fun-ciones la de elaborar instrumentos objetivos de evaluación, con base en las mejores prácticas de organismos internacionalmente reconocidos en el campo, a partir de la literatura a que se hace referencia enseguida. Por la naturaleza de los instrumentos desarrollados por los organismos que pretenden valorar el grado en que las personas a quienes se aplican dominan ciertos conocimientos o habilida-des, los aspectos psicométricos deben tener un peso importante en una metaevaluación, pero ésta debe comprender otros elementos para ser completa. Por ello este documento se basa fundamentalmente en dos obras, una que contiene estándares para pruebas psicométricas y la segunda estándares para la evaluación de programas. La pri-mera es Standards for educational and psychological testing, publicada por tres asociaciones especializadas: la American Educational Research Association (AERA); la American Psycho-logical Association (APA); y el National Council on Measurement in Education (NCME). La segunda es The Program Evaluation Standards. How to Assess Evaluations of Educational Programs (publicada por The Joint Committee on Standards for Educational Evaluation). De la primera se utilizó inicialmente la edición 1997 de la versión de 1985. En cuanto a la segunda, se utilizó la edición de 1994 y también se tuvo a la vista la primera edición, de 1981: Standards for Evaluation of Educational Programs, Projects and Materials.

Page 13: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

12

Parece conveniente reiterar en este punto la idea expresada en la presentación, en el sentido de que no debe pensarse, sin embargo, que el trabajo es sólo una adaptación o, menos aún, una simple traducción de materiales internacionales. Los textos citados son, ciertamente, un punto de partida y de referencia, pero el trabajo realizado implica adecuaciones, matices, desarrollos y complementos, a partir de la realidad nacional. Cuando ya estaba listo este documento, a principios de 2000, comenzó a circular la versión más reciente de los estándares americanos, con la aparición de Standards for educational and psychological testing (AERA-APA-NCME, 1999). A diferencia de la versión de 1985, que esta-blecía estándares para pruebas convencionales, de opción múltiple, en presentación de papel y lápiz, elaboradas y analizadas con base en la teoría clásica de las pruebas, con escasa atención a las novedades teóricas y técnicas que a mediados de los años 80 ya se habían desarrollado ampliamente, los nuevos estándares, fruto del trabajo de decenas de especialistas durante siete años, no son simplemente una actualización menor de la versión anterior, sino que constituyen un planteamiento novedoso y mucho más completo. Además de precisar aspectos incluidos desde 1985, como los relativos a los diversos conceptos de validez, los nuevos estándares tienen en cuenta expresamente la teoría de respuesta al ítem y la interpretación de pruebas con referencia a criterio; atienden no sólo a las pruebas de op-ción múltiple sino también a las de respuesta construida y las de ejecución, así como a las aplicadas por computadora, adaptativas o no, e incluso a modalidades consideradas alternati-vas a las pruebas, como las evaluaciones por portafolios. Si antes no se contemplaba expresamente lo relativo a sesgo, ahora se atienden diversos ángu-los de este tema, al que la preocupación por los derechos de las personas y la equidad hace que se preste tanta atención en la actualidad. En la misma dirección está la atención expresa a las variantes controladas de las condiciones de aplicación que se han desarrollado para atender a sustentantes que presentan condiciones especiales, como discapacidades, escaso dominio o desconocimiento de la lengua en que se construyó la prueba y similares (accomodations). Se atienden también otros avances técnicos recientes de especial interés para los organismos que aplican pruebas en gran escala y pretenden apoyar el establecimiento de políticas educativas a nivel macro, como el muestreo matricial (matrix sampling) o el análisis de la ganancia en apli-caciones longitudinales (gain scores). Con todo, y aunque en el campo de la psicometría se hayan registrado avances importantes en aspectos como los mencionados, los estándares que se presentan se reducen básicamente a los relativos a pruebas convencionales de opción múltiple. La decisión de acotar así el ámbito de cobertura de este documento se basa en las siguientes consideraciones: en el medio mexicano y, probablemente, hispanoamericano, el uso de pruebas avanzadas es todavía excepcional, en tanto que las pruebas convencionales se utilizan en forma amplia, y seguramente lo seguirán siendo por bastante tiempo dadas la ventaja que tienen en términos de costo-beneficio para la evaluación de sistemas educativos grandes. Limitándose a traducir un texto extranjero habría sido sencillo incluir estándares para una am-plia gama de pruebas, incluyendo las más avanzadas, pero esto sería de poca utilidad en nues-

Page 14: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

13

tro medio, ya que esas pruebas son prácticamente desconocidas. Parece mucho más importante en el momento actual mejorar de manera significativa la calidad de las pruebas más usuales, para posteriormente incursionar en terrenos menos trillados. Debe reconocerse, en efecto, que el escaso desarrollo de la tradición psicométrica en Hispano-américa hace frecuente que aun las pruebas convencionales se elaboren y manejen de manera deficiente, con utilizaciones equivocadas y potencialmente sesgadas e injustas para determina-dos sustentantes. Estas limitaciones constituyen un fundamento parcial a las críticas de quie-nes se oponen a la utilización de pruebas. Algunas de las críticas que se hacen a las pruebas tienen fundamento, pero no distinguen las deficiencias inherentes a la metodología convencional, de aquellas atribuibles a fallas de im-plementación, que pueden corregirse con el mismo tipo de instrumentos si se les maneja co-rrectamente; por otra parte, los críticos suelen ignorar la existencia de desarrollos metodológi-cos novedosos, que permitirían superar en forma más radical muchas de las limitaciones de los enfoques tradicionales. Es cierto, en efecto, que una evaluación rica, como se requiere para apoyar un esfuerzo pro-fundo de mejoramiento de un sistema educativo, implica deseablemente la utilización de los enfoques metodológicos más novedosos, pero también lo es que las pruebas convencionales, manejadas en forma correcta, también pueden ser elementos valiosos de una estrategia de me-joramiento. La opción que se adopta en este documento es la de que conviene comenzar por el perfeccio-namiento de los acercamientos convencionales, como etapa previa a la introducción de nuevos enfoques. Creemos que el esfuerzo de apegarse estrictamente a un conjunto de estándares co-mo el que se propone está al alcance de cualquier organismo que se lo proponga seriamente en un plazo corto. Y pensamos que un paso así, además de trascendente en sí mismo, constituiría el punto de partida necesario y adecuado para el siguiente, que consistiría lógicamente en la introducción, en forma consistente, de los acercamientos más avanzados. El Consejo Asesor Externo considera que esta versión de los estándares de calidad, aplicable básicamente a pruebas convencionales, deberá ser seguida en un plazo razonable por otra que, además de incorporar las correcciones y ajustes que proceda al contenido actual, contemple en forma más completa la amplia gama de acercamientos metodológicos a la evaluación educativa. El documento siguiente tiene, por otra parte, una perspectiva propia, que trae consigo la con-secuencia de que los estándares aquí propuestos contemplen puntos que no incluye el texto americano. Los puntos adicionales se refieren, en general, a aspectos operativos y prácticos básicos, como los relativos a medidas de seguridad, que en los lugares con una tradición psi-cométrica más amplia puede ser razonable obviar, pero que en contextos como el mexicano no pueden darse por supuestos. Es importante subrayar, en este sentido, la interacción de tipo factorial que se establece entre los componentes de un sistema complejo de evaluación. Para entender la diferencia entre una interacción aditiva y una factorial baste recordar que si uno de los sumandos de una adición es

Page 15: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

14

muy pequeño, o incluso igual a cero, la suma total de los restantes no se ve afectada por ello, y puede ser muy grande si los sumandos restantes lo son. En el caso de una multiplicación, por el contrario, por grandes que sean los factores, el producto final será nulo si uno solo de los factores es igual a cero. Así ocurre con los sistemas complejos, como los de evaluación: si una prueba está hecha con todo cuidado, utilizando los conceptos y procedimientos más avanzados en su diseño y los métodos más sofisticados y costosos en el procesamiento de sus resultados, basta que falle gravemente cualquier paso del proceso, por secundario que parezca (como el que no se evite que los sustentantes copien, o que en la lectura óptica de los resultados se altere el orden de los datos capturados en una sola línea) para que el conjunto global de los resultados finales pueda viciarse en forma completa. Es por esto por lo que debe prestarse atención, en forma equilibrada, a todos los pasos y aspec-tos del complejo proceso de evaluación, en lugar de atender privilegiadamente unos y descui-dar otros, como se maximiza el producto de una multiplicación con varios factores de valor medio, en vez de unos factores muy grandes y otros tendientes a cero. Por ello se ha tratado de que los estándares siguientes cubran todos los aspectos del proceso de evaluación, y el conjunto se organiza según una secuencia lógico-cronológica que eviden-cia lo anterior. Se comienza con la planeación de las pruebas, e incluso antes, con orientacio-nes en cuanto a las instancias responsables de ellas y los manuales, hasta la comunicación y utilización de los resultados, pasando por la elaboración de reactivos, lo relativo a confiabili-dad y validez, igualación de versiones y normalización, así como todo lo relativo a la aplica-ción y corrección de las pruebas. Se trata, pues, de un trabajo original, cuya estructura y contenido son diferentes a los del texto americano, pero es claro que un número significativo de los estándares siguientes sí tiene una relación clara con algunos de aquel. Cuando sucede así, la equivalencia o la relación se hace explícita señalando entre paréntesis el número de estándar respectivo en la versión de AERA-APA-NCME de 1985-97, en la de 1999 o en ambas. Además de los textos citados, en forma complementaria se utilizaron además: Guidelines for Test Use: A commentary on the Standards for Educational and Psychological Tests (BROWN, FREDERICK G., 1980); “Code of Fair Testing Practices in Education” (THE JOINT COMMITTEE ON TESTING PRACTICES, 1989); “Principles of Good Practice in Assessment” (WASC, 1992); Psicometría: Teoría de los tests psicológicos y educativos (MARTINEZ ARIAS, ROSARIO, 1995); “Meta-Assessment: Evaluating Assessment Activities” (ORY, JOHN C., 1992); “Implications of Using the Revised Program Evaluation Standards in Local Education Agencies” (DEGRACIE, JAMES S., BEVERLY MERRIL y JAMES K. ZAHARIS, 1996); “The Revised Program Evaluation Standards and Their Correlation With the Evaluation Use Literature” (THOMPSON, BRUCE, 1996); Guide to the Use of the Graduate Record Examinations Program (GRE BOARD, 1988); The College Board Admissions Testing Program: A technical report on research and devel-opment activities relating to the Scholastic Aptitude Test and Achievement Tests (ANGOFF, WILLIAM H. Ed., 1971); “Principles of Good Practice for Assessing Student Learning” (AAHE,

Page 16: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

15

1992); “Criterion Three and the Assessment of Student Academic Achievement” (DOHERTY, AUSTIN y GERALD W. PATTON, 1991). Los estándares no incluyen puntos de referencia numéricos. Lo anterior se debe a que en su mayoría comprenden, más bien, elementos de los que sólo puede constatarse la presencia o la ausencia o, a lo más, la suficiencia o insuficiencia, según la apreciación de personas conocedo-ras. Por ello se formulan mediante oraciones en tiempo futuro, con sentido imperativo, del tipo “deberá”, que corresponden a las expresiones que en inglés se designan como should state-ments. La no inclusión de criterios numéricos se justifica porque los que se aplican a las prue-bas usuales (normativas, analizadas con teoría clásica) pueden encontrarse en los manuales de psicometría y los apropiados para pruebas avanzadas, además de su escasa utilización, no pue-den establecerse fácilmente en forma inequívoca, por lo que se decidió dejar la tarea de preci-sarlos para un momento posterior. Los procesos de metaevaluación que puedan efectuarse para juzgar si un instrumento cumple o no con los estándares, por lo tanto, consistirán por lo general en la valoración de la presencia o ausencia y la adecuación-inadecuación del aspecto de que se trate en términos cualitativos, a juicio de los responsables de la metaevaluación. En los casos en que existan parámetros numéricos generalmente aceptados se aplicarán también, y en este caso la metaevaluación comprenderá tanto el verificar que se cuente con las mediciones de que se trate, como que los resultados del instrumento objeto de análisis se sitúen dentro de los rangos aceptables. Los estándares se presentan en un solo nivel de importancia, sin distinguir unos primarios y otros secundarios, sino que se incluyen todos los que se considera necesario que estén presen-tes para que un instrumento pueda ser considerado de calidad. Esto no implica desconocer que, si bien todos son deseables, hay unos más fundamentales que otros. No pareció conveniente, sin embargo, hacer tal distinción en esta etapa. Es claro que un instrumento difícilmente podría cumplir con todos los estándares desde su primera aplicación, y que no por ello deberá ser considerado inadecuado; sin duda será inevi-table que el cumplimiento de todos los requisitos implique un proceso más o menos largo. La aplicación de este documento a casos reales de pruebas en uso permitirá afinar los criterios para precisar lo que es aceptable y lo que no lo es, en casos particulares, valorando las circuns-tancias de cada uno. Por otra parte, la redacción permitirá distinguir fácilmente los casos en que un estándar sólo sea aplicable en ciertas circunstancias, o sea los que podrían manejarse como estándares condicionales. Sin contradecir lo anterior, y en el entendido de que esta versión deberá ser substituida en un plazo razonable por otra que incorpore la experiencia derivada de los primeros ejercicios de su aplicación, consideramos que, por su importancia, por la viabilidad de cumplirlos con un es-fuerzo razonable, y por la posibilidad de presentar evidencias verificables al respecto, los estándares contenidos en este documento pueden considerarse, en general, como requisitos de calidad sobre los cuales los organismos dedicados a elaborar pruebas (ODEP) deberían presen-tar evidencias, y cuyo cumplimiento debería considerarse como un requisito necesario para que una prueba sea utilizada para apoyar la toma de decisiones importantes.

Page 17: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

16

Los autores creemos que si este esfuerzo de precisar los estándares de calidad que deberán cumplir los instrumentos de evaluación en gran escala es seguido por su discusión, adopción, utilización y cumplimiento, se habrá hecho una contribución trascendente al mejoramiento de la calidad educativa.

Page 18: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

17

Orientaciones valorales

N CUALQUIER REALIDAD COMPLEJA, como la de los sistemas educativos, la noción de cali-dad es multidimensional y algunas de sus dimensiones fundamentales trascienden el nivel

de lo empírico y lo técnico, para situarse en el terreno metacientífico, filosófico y ético. La elaboración de un listado de estándares de calidad particulares, como el que se presenta en este trabajo para instrumentos de evaluación educativa, supone necesariamente, pues, de ma-nera implícita o explícita, la adopción de un cierto número de principios de naturaleza valoral que tienen un lugar de tipo axiomático en el conjunto, como referentes básicos que no depen-den de otros superiores. Cada organismo concreto que se dedique a elaborar este tipo de instrumentos tendrá, como es natural, sus propias orientaciones, que dependerán de la misión de cada uno y que condicio-narán su concepción de calidad. Los autores de este trabajo hemos partido también, inevita-blemente, de nuestras propias concepciones, y consideramos necesario explicitarlas antes de presentar el listado de los estándares particulares que proponemos, listado cuyo sentido e in-tención podrán comprenderse mejor teniendo a la vista los principios de los que se partió para su construcción. La manera de organizar las orientaciones valorales es, por supuesto, de importancia mucho menor que su contenido. Es claro que los mismos principios podrían presentarse en un número mayor de incisos más cortos, o en uno menor de apartados con varios niveles de desagrega-ción. El hecho de haber decidido presentar las orientaciones en la forma de un decálogo, y el orden preciso en que aparecen los elementos que lo constituyen, tienen seguramente influen-cias subjetivas más o menos conscientes. Más allá de las posibles interpretaciones, considera-mos razonable esperar que estas orientaciones serán compartidas por la mayoría de quienes se interesen por la educación, por su calidad y por su evaluación. El decálogo de orientaciones valorales que subyace en la definición de los estándares de cali-dad que proponemos es, pues, el siguiente: 1. Filosofía de superación. La calidad, además de ser una realidad compleja, es dinámica;

esto quiere decir que no puede alcanzarse de una vez por todas, sino que implica la búsqueda permanente de mejoramiento. Por ello, la evaluación deberá concebirse como un

E

Page 19: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

18

medio clave para que las instituciones educativas, sus alumnos y egresados, alcancen nive-les de aprendizaje cada vez mejores, poniendo los medios necesarios para que las pruebas y demás procedimientos evaluativos no sean considerados como instrumentos de políticas fiscalizadoras o punitivas.

2. Visión educativa de la evaluación. Más allá de su valor instrumental, los procesos de

evaluación deben ser diseñados y aplicados de tal forma que constituyan por sí mismos experiencias de aprendizaje valiosas, que promuevan en el sustentante propósitos de supe-ración.

3. Atención a los usuarios. Quienes se dediquen a elaborar instrumentos de evaluación edu-

cativa deberán interesarse por todos sus posibles usuarios: alumnos y sustentantes, en pri-mer lugar; pero, además, padres de familia; maestros del ciclo de que se trate y de los ci-clos o niveles anterior y siguiente; autoridades de las instituciones y los sistemas educati-vos; futuros empleadores y público en general, con especial atención a los medios de co-municación. Los Organismos Dedicados a la Elaboración de Pruebas (ODEP) buscarán con-tribuir a crear y fortalecer una auténtica cultura de la calidad y la evaluación, promoviendo la formación de especialistas y la capacitación de todos los usuarios, para la adecuada comprensión de los sistemas de evaluación y para evitar interpretaciones infundadas de los resultados, tanto triunfalistas como alarmistas.

4. Adecuación técnica, eficiencia e innovación. Los instrumentos de evaluación deberán

caracterizarse por su elevado nivel técnico en todas las dimensiones que deben atender los instrumentos psicométricos, en particular las diferentes variantes de la validez y la confia-bilidad, de modo que se asegure la comparabilidad y objetividad de los resultados. Los procedimientos de aplicación de las pruebas y los de procesamiento de los resultados de-berán tener también un alto grado de confiabilidad. Los ODEP deberán ser eficientes en el uso de sus recursos y en la agilidad de sus procedimientos. Más allá de las tareas cotidia-nas, y según sus posibilidades, desarrollarán la investigación necesaria para manejar los avances más recientes en el campo de la evaluación e incorporarlos de manera consistente a sus programas de trabajo.

5. Relevancia. Los productos y procesos de los ODEP deberán corresponder a las necesidades

del sistema educativo al que se dirijan y a sus condiciones, evitando planteamientos que resulten lejanos e inaccesibles. Los referentes de las pruebas deberán ser establecidos a partir de las mejores prácticas educativas, curriculares, pedagógicas y profesionales, para asegurar la relevancia de los contenidos de los instrumentos de evaluación desarrollados.

6. Orientación académica. Las funciones y competencias de las instancias de los ODEP se

articularán de manera que se respete estrictamente la independencia de criterio de sus cuerpos técnicos, de manera que los lineamientos básicos de cada prueba y sus contenidos sean definidos sin presión externa alguna, al tiempo que se asegure que los cuerpos técni-cos operen con apego a los criterios de calidad propios de sus actividades.

7. Respeto de la autonomía de las instituciones usuarias. Los ODEP tendrán clara concien-

cia de su naturaleza de instancias cuya función es apoyar a otras instituciones educativas,

Page 20: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

19

respetando la misión de cada una y evitando la pretensión de constituirse en organismos de carácter normativo. Al mismo tiempo, los ODEP pondrán todos los medios a su alcance pa-ra promover el uso adecuado de los resultados de la aplicación de sus instrumentos, evi-tando los usos inapropiados de aquéllos.

8. Equidad. Deberá hacerse todo lo necesario para asegurar que los instrumentos evalúen de

manera objetiva e imparcial los conocimientos, habilidades y aptitudes para los que hayan sido diseñados, evitando cualquier sesgo por razones de género, grupo étnico, condición socioeconómica y cultural o cualquier otra característica, mediante el manejo de instru-mentos libres de sesgo y garantizando que las condiciones de administración de las prue-bas sean equivalentes, igualando las versiones, y cancelando versiones o aplicaciones cuando haya razones para temer la existencia de fugas de información o la presencia de circunstancias indebidamente favorables o desfavorables. Deberán atenderse las necesida-des de los sustentantes discapacitados, o que presenten situaciones particulares, para ofre-cerles también igualdad de condiciones.

9. Transparencia y honestidad. Los ODEP mantendrán una actitud de apertura, de manera

que todos los procesos de elaboración, aplicación y calificación de las pruebas estén suje-tos a escrutinio externo. Dado que, por la naturaleza de las pruebas, en muchos casos los reactivos no podrán ser consultados por personas ajenas, este principio implicará, además de la existencia de órganos externos de tipo académico que realicen actividades de metae-valuación, la publicación de manuales y reportes técnicos, y la difusión de los mecanismos de operación de los ODEPs. Además, deberá ofrecerse toda la información pertinente a ins-tituciones, alumnos y otros usuarios, para que puedan valorar objetivamente la informa-ción derivada de la aplicación de los instrumentos y la puedan utilizar correctamente para los propósitos que proceda, evitando cualquier manejo o estrategia publicitaria engañosa que pueda inducir a error.

10. Postura ética. En todas sus actividades los ODEP mantendrán una postura que se caracteri-

ce por un elevado sentido ético, respetando escrupulosamente los derechos de las personas e instituciones que utilicen sus servicios, así como los códigos de prácticas correctas apli-cables, promoviendo el desarrollo de este tipo de normas deontológicas y estándares técni-cos en el campo de la evaluación.

Page 21: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

20

Page 22: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

21

Estándares de calidad 1. Estándares relativos a las instancias responsables

de elaborar y aplicar las pruebas 1.1. Los Organismos Dedicados a la Elaboración de Pruebas (ODEP) contarán con una es-

tructura básica cuyas dimensiones estarán en proporción a la importancia de las acti-vidades que desarrollen, pero que deberá comprender elementos unipersonales y cole-giados de tipo y características adecuadas para asegurar un funcionamiento correcto. Los aspectos que deberá atender en todo caso esa estructura son:

♦ Un componente académico, con especialistas del campo de contenidos a que se re-

fiera una prueba. Cuando la amplitud o complejidad del campo cubierto lo justifi-que podrá haber subcomités especializados.

♦ Un componente técnico, con especialistas en el campo de la elaboración de prue-bas. Si un ODEP elabora varios instrumentos este componente podrá ser común y constituir una instancia técnica interna de tipo central.

♦ Un componente de carácter social, con usuarios (v.gr. instituciones de educación superior) y personas provenientes de otros sectores relacionados con la prueba, como colegios profesionales, empleadores importantes, maestros, padres de fami-lia u otros, sea con carácter representativo, sea a título individual.

♦ Un órgano colegiado (Consejo Técnico de la prueba o equivalente) que ocupará el nivel superior en la estructura de instancias de un instrumento y estará integrado por personas de los tres componentes anteriores, en forma equilibrada.

♦ Un responsable de cada prueba con calificación académica y experiencia en el campo del conocimiento de que se trate y/o en evaluación educativa.

♦ Redactores de reactivos o items conocedores de los temas de que se trate y con en-trenamiento suficiente para la tarea. (Dada la importancia de este punto deberá desarrollarse posteriormente, con estándares de calidad particulares).

♦ Revisores de reactivos distintos de los redactores. ♦ Un órgano que vigile la posible presencia de sesgos (comité de equidad o equiva-

lente), que podrá ser común a diversas pruebas. 1.2. Los ODEP deberán contar con una reglamentación interna en la que se precisen las

atribuciones y responsabilidades de cada una de las instancias que integren su estruc-

Page 23: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

22

tura. La responsabilidad de tomar las decisiones fundamentales en relación con cada prueba deberá recaer en el Consejo Técnico o equivalente, al que estarán subordinados tanto el coordinador como las demás instancias.

1.3. Los ODEP deberán estar en condiciones de aportar información suficiente para verifi-

car la calificación y experiencia de quienes integren las instancias de su estructura. 1.4. Todas las instancias de los ODEP documentarán sus actividades y conservarán archivos

y registros de las mismas, haciendo posible la realización de evaluaciones externas. 2. Estándares relativos a los manuales de las pruebas 2.1. Los ODEP contarán con un manual técnico con especificaciones aplicables a todos los

instrumentos que desarrollen; cuando proceda, cada prueba tendrá, además, un manual particular con elementos específicos. Los manuales deberán publicarse o estar dispo-nibles para ser consultados por cualquier persona interesada.

2.2. El manual técnico de cada prueba deberá estar disponible para los usuarios potenciales

desde el momento en que vaya a comenzar el uso operacional de la misma. (Equiva-lente APA 1985, 5.1; AERA 1999, 6.1)

2.3. Los manuales deberán describir en detalle la fundamentación teórica de la prueba, así

como los modelos psicométricos utilizados, sintetizando los trabajos de planeación a que se refiere el siguiente apartado. Indicarán los usos recomendados de la prueba y resumirán su fundamento. Incluirán síntesis de análisis de confiabilidad, validez y otros que se mencionan en los apartados siguientes, con referencias que permitan a las personas interesadas localizar los trabajos resumidos. Cuando sea posible anticipar usos inadecuados de una prueba el manual deberá incluir advertencias específicas pre-viniendo contra ellos. (Equivalente APA 1985, 5.2; AERA 1999, 6.3)

2.4. En los casos en que se prevea que una prueba será aplicada en formas o lugares no

controlados por el organismo que la elaboró, los manuales deberán especificar cual-quier tipo de competencia especializada que se requiera para administrarla e interpre-tar sus resultados correctamente, con indicaciones sobre el entrenamiento, la certifica-ción o la experiencia que se requieran para ello. (Equivalente APA 1985, 5.4; AERA 1999, 6.7)

3. Estándares relativos a la planeación de las pruebas 3.1. Las pruebas se desarrollarán sobre una sólida base científica. Los diseñadores deberán

acumular la evidencia relacionada con la prueba, decidir cuál información se requiere antes de su publicación o distribución y cuál puede proporcionarse después; asimismo, deben realizar la investigación necesaria cuando la obtención de evidencia relacionada con la prueba así lo requiera. (Equivalente APA 1985, 3.1; AERA 1999, 3.1)

Page 24: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

23

3.2. Las definiciones de dominios y especificaciones de una prueba deben ser suficiente-mente claras para que expertos en el tema puedan emitir juicios sobre la correspon-dencia de un ítem con el dominio que representa. (Equivalente APA 1985, 3.3; AERA 1999, 3.2)

3.3. Los ODEP contarán con un documento que describa el perfil de referencia de cada

prueba que desarrollen. El perfil tomará en cuenta los planes de estudio del nivel del que egresan los sustentantes y los del nivel al que pretenden ingresar o, en su caso, las competencias, conocimientos y habilidades necesarios para el desempeño de las acti-vidades profesionales establecidas como objetivo de los planes de estudio de que se trate. (Relacionado con AERA 1999, 6.6 y 13.3)

3.4. Cuando se usen como referentes los planes de estudio de una carrera, los perfiles

tendrán en cuenta la variedad de planes existentes en las diversas regiones e institu-ciones del país, sin buscar su uniformidad e identificando elementos generales comu-nes.

3.5. Cuando las pruebas incluyan elementos opcionales, sólo se manejarán puntajes globa-

les para efectos de comparación de sustentantes en caso de que sea posible asegurar la equivalencia de las combinaciones opcionales; cuando esto no sea posible deberán evitarse las comparaciones globales y limitarlas a los elementos comunes.

3.6. Cuando se detecten diferencias importantes entre los planes de estudio de diferentes

IES, regiones o subsistemas, se utilizarán mecanismos que las tomen en cuenta al ana-lizar los resultados agregados, como análisis basados en plantillas OTL (opportunity to learn), o asignando pesos diferenciados a diversas secciones para tener en cuenta las características de un subconjunto particular. (Relacionado con AERA 1999, 13.6)

4. Estándares relativos a la elaboración y prueba de reactivos 4.1. Las especificaciones usadas en la construcción de items deberán describirse con clari-

dad. Cuando, por razones de seguridad, no se puedan proporcionar ejemplares de los exámenes para inspección, se dará información descriptiva que incluirá un ítem repre-sentativo de cada categoría mayor de la clasificación o definición de dominio. Cuando el grado de dificultad sea una dimensión de dicha clasificación se deberán presentar items representativos de los niveles de dificultad. (Equivalente APA 3.2; AERA 1999, 3.3)

4.2. Los reactivos serán redactados, con base en las especificaciones, por personal acadé-

mico que tenga el perfil adecuado y haya sido previamente capacitado para la tarea. 4.3. Los reactivos serán revisados en su contenido, y en lo relativo al respeto de las especi-

ficaciones establecidas, por personal diferente de los redactores. (Relacionado con AERA 1999, 3.5)

Page 25: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

24

4.4. Los reactivos serán piloteados en campo sometiéndolos a análisis de grado de dificul-tad y capacidad de discriminación. Para que sean incorporados a las versiones operati-vas de las pruebas, los reactivos deberán satisfacer al menos los niveles mínimos ge-neralmente aceptados en los manuales especializados. Los items que no alcancen esos niveles se desecharán o se corregirán hasta que los cumplan. Progresivamente se harán análisis de ajuste, distractores y posibles sesgos. (Relacionado con AERA 1999, 3.9)

4.5. El piloteo en campo deberá hacerse con una muestra representativa y suficiente pa-

ra un análisis de reactivos apropiado. 4.6. Para su piloteo en campo, se podrán incluir items en etapa de prueba en las aplicacio-

nes operativas, siempre y cuando no se les utilice en la calificación de los sustentan-tes.

4.7. Se analizará permanentemente el comportamiento de todos los items que se utilicen en

las aplicaciones operativas, para detectar aquellos que dejen de presentar valores ade-cuados.

4.8. Desde la etapa de elaboración y revisión de reactivos se evitarán las redacciones que

pudieran producir sesgos, proporcionando a redactores y revisores el entrenamiento necesario para ello. Después del piloteo y de las aplicaciones operativas, todos los items serán sometidos a análisis estadísticos de sesgo, utilizando técnicas adecuadas (v. gr. Delta-plot, Item-by-Subgroup, Log-linear, Standardization, Differentially Functioning Items) teniendo en cuenta las fuentes de sesgo potencialmente relevantes, como género, región, etc.

4.9. Los items que sean objeto de señalamientos de sesgo por parte de los usuarios o con

base en los análisis anteriores, serán presentados a un grupo de jueces especializado, que constituirá el comité de equidad, para su análisis.

4.10.Cuando existan reportes de investigación adecuadamente fundamentados cuyos resul-

tados muestren diferencias en cuanto al funcionamiento de items o pruebas entre gru-pos de sustentantes que se distingan por edad, género, grupo étnico o cultural u otra característica que se considere no debería ser relevante para explicar los resultados, deberán hacerse los estudios necesarios para detectar y, en su caso, eliminar, cualquier factor de sesgo en el diseño, contenido o forma de los items y las pruebas. (Equivalen-te a AERA 1999, 7.3)

4.11.Deberá evitarse la formulación de reactivos que, por el vocabulario que utilicen, o por

la complejidad de su redacción, puedan implicar una dificultad especial para respon-derlos, si el nivel de competencia lingüística no forma parte del constructo que se pre-tende evaluar. (Equivalente AERA 1999, 7.7)

Page 26: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

25

5. Estándares relativos a confiabilidad, error de medida y longitud de la prueba y sus partes

5.1. Los ODEP deberán analizar permanentemente la confiabilidad y el error de medida de

las pruebas y sus partes. Los resultados, junto con consideraciones basadas en la expe-riencia, fundamentarán las decisiones sobre la longitud de unas y otras.

5.2. Para cada puntaje global, parcial o combinado se deberá proporcionar información de-

tallada sobre los niveles de confiabilidad y los errores estándar de medida, que facili-ten al usuario la decisión de si el grado de precisión es suficiente para el uso que se pretenda dar a la prueba. (Equivalente APA 1985, 2.1; AERA 1999, 2.1)

5.3. Se deberán describir los procedimientos empleados en la obtención de muestras de in-

dividuos o grupos para estimación de medidas de confiabilidad y errores estándar de medición, así como la naturaleza de las poblaciones involucradas. También se debe describir el número de individuos en cada muestra empleada para obtener los estima-dos, las medias y las desviaciones estándar. (Equivalente APA 1985, 2.2)

5.4. Se precisará el método de estimación de la confiabilidad de la prueba, así como la

forma de expresarla (v.gr. en términos de componentes de varianza, o bien de coefi-cientes de correlación, de errores estándar de medida, de porcentajes de decisiones co-rrectas o estadísticas equivalentes). También se deberán reportar las condiciones en que se estimó la confiabilidad y aquellas condiciones en que puede ser aplicable la prueba. (Equivalente APA 1985, 2.3)

5.5. Cuando una prueba vaya a usarse para decisiones dicotómicas (v.gr. ser admitido o no

en una institución) o politómicas, deberán ofrecerse estimaciones de la confiabilidad de tales decisiones precisando la manera de obtenerlas (v.gr. porcentaje de sustentan-tes que resulte clasificado de la misma manera en dos aplicaciones o utilizando formas alternativas de la prueba, medidas de missclassification u otras). (Equivalente APA 1985, 2.12; AERA 1999, 2.15)

5.6. Si se prepara una forma corta de una prueba reduciendo el número de items o reorga-

nizando porciones de la prueba en formas separadas, se deben proporcionar datos empíricos o un razonamiento teórico para estimar la confiabilidad de cada forma corta y su correlación con la forma estándar. (Equivalente APA 1985, 3.17; AERA 1999, 2.17 y 3.16)

5.7. Cuando se incluyan procesos de jueceo en la calificación de una prueba, se deberá

proporcionar evidencia del grado de concordancia entre calificaciones hechas por jue-ces independientes. Si tal evidencia aún no ha sido obtenida, debe advertirse acerca de la variabilidad en el proceso de calificación, como posible fuente de errores de medi-ción significativos. (Equivalente APA 1985, 2.8; AERA 1999, 2.10)

Page 27: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

26

6. Estándares relativos a validez En general: 6.1. Los ODEP cuidarán sistemáticamente las diferentes fuentes de evidencia para juzgar la

validez de las pruebas, entendiendo el concepto en forma unitaria, a partir del análisis del contenido, de la revisión de la consistencia con los perfiles de referencia (cons-tructos) y de la relación con criterios concurrentes o predictivos. Para cada instrumen-to deberá hacerse un análisis inicial de validez en la etapa de prueba y análisis poste-riores con una periodicidad preestablecida. Los resultados deberán publicarse.

En cuanto a validez de contenido: 6.2. Deberá haber evidencias de validez que apoyen las principales inferencias para las que

se recomiende usar una prueba. Deberá presentarse el razonamiento que sostenga la mezcla particular de evidencias asociadas con cada uso. (Equivalente APA 1985, 1.1; AERA 1999, 1.1)

6.3. Si la validez de alguna interpretación común no se hubiese investigado, se deberá

asentar el hecho y prevenir a los usuarios potenciales para evitarla. Las afirmaciones acerca de la validez de una prueba deberán referirse a la validez de interpretaciones particulares o de tipos de decisiones particulares. (Equivalente APA 1985, 1.2; AERA 1999, 1.3)

6.4. Cuando se propongan interpretaciones de puntajes parciales, diferencias de puntajes o

perfiles derivados de una prueba, deberá hacerse explícita la evidencia que soporte di-chas interpretaciones. Cuando se desarrollen puntajes compuestos deberá ofrecerse la base para ponderar puntajes parciales de determinada forma. (Equivalente APA 1985, 1.3; AERA 1999, 1.10)

6.5. Cuando la evidencia relacionada con el contenido sirve como demostración significa-

tiva de validez para un uso particular de la prueba, se ofrecerá una definición clara del universo representado, su relevancia para el propósito de la prueba y los procedimien-tos seguidos para generar contenidos que representen el universo. Si el muestreo de contenidos intenta resaltar algunos elementos críticos, más que asegurar la representa-tividad del universo, se deberá justificar la importancia relativa que se asigna a esos factores. (Equivalente APA 1985, 1.6; AERA 1999, 1.6)

6.6. Cuando se invite a expertos en áreas de contenido para que juzguen si los items son

muestras representativas de un universo o si el proceso de corrección se realizó ade-cuadamente, o cuando los criterios externos usados están compuestos por opiniones de jueces, deberán describirse las calificaciones, experiencia y la capacitación relevante de los expertos. También deberá describirse cualquier procedimiento utilizado para al-canzar un consenso entre los jueces sobre la corrección de las especificaciones del

Page 28: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

27

universo y la representatividad de las muestras en relación con los objetivos persegui-dos. (Equivalente APA 1985, 1.7; AERA 1999, 1.7)

En cuanto a validez de criterio, concurrente o predictivo: 6.7. Toda medida usada para estudios de validez de criterio deberá describirse con exacti-

tud, haciendo explícitas las razones de que se eligiera como criterio relevante. (Equi-valente APA 1985, 1.12; AERA 1999, 1.16)

6.8. La calidad técnica de los criterios elegidos debe ser considerada. Los criterios deben

elegirse independientemente de los índices predictivos de la prueba. Si la evidencia indica que una medida de criterio está afectada de manera significativa por factores extraños, esta evidencia se debe reportar. Si se han empleado recursos para reducir los efectos de tales factores se deben describir detalladamente. (Equivalente APA 1.13)

6.9. Las relaciones entre predictores y medidas de criterio que se utilicen en procesos de

admisión a instituciones educativas deberán describirse mediante ecuaciones de regre-sión de las estimaciones y errores estándar asociados, o por tablas de predicción, además de los coeficientes de correlación. (Equivalente APA 8.9)

6.10.Los reportes de estudios de validación referidos a criterios externos, deben proporcio-

nar la descripción de la muestra y el análisis estadístico utilizado para determinar el grado de exactitud predictiva. Las estadísticas básicas deberán incluir número de casos (y las razones para eliminación de algunos), medidas de tendencia central y variabili-dad, relaciones y una descripción de cualquier tendencia marcada a alejarse de una distribución normal. (Equivalente APA 1.11)

6.11.Se deberá reportar el tiempo transcurrido entre la administración de una prueba y la

recolección de los datos del criterio externo. Los reportes de validación deberán seña-lar con exactitud la fecha de su realización, así como los intervalos de tiempo en que se recogieron los datos. (Equivalente APA 1.18)

6.12.Cuando se hagan ajustes estadísticos (v.gr. restricción del rango o atenuación) para

estimar la relación entre resultados de la prueba y variables criterio, deberán reportar-se tanto los coeficientes ajustados como los no ajustados, así como los procedimientos utilizados para hacer el ajuste. (AERA 1999, 1.18)

En cuanto a validez de constructo: 6.13.Cuando una prueba se presenta como medida de un constructo específico, éste debe

distinguirse de otros constructos. Se deben explicitar las interpretaciones de las medi-das de la prueba y debe presentarse evidencia relacionada con el constructo que apoye tales inferencias, en particular de que no existe una dependencia fuerte de constructos ajenos al descrito. (Equivalente APA 1.8)

Page 29: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

28

Para pruebas de certificación o concesión de licencias de ejercicio profesional: 6.14.El universo o dominio de contenidos que cubre un examen de certificación o conce-

sión de licencia para el ejercicio de una actividad profesional deberá definirse con cla-ridad y explicarse en términos de la importancia del contenido para el desempeño competente de la ocupación. Debe proporcionarse el sustento necesario que apoye la afirmación de que los conocimientos y habilidades evaluados por la prueba son nece-sarios para un desempeño competente en el área ocupacional en cuestión, y de que son consistentes con el propósito para el cual se estableció el programa de certificación o concesión de licencia. (Equivalente APA 1985, 11.1; AERA 1999, 14.8 y 14.9)

6.15.Se evitará que las decisiones de certificación o concesión de licencias de ejercicio

profesional se basen únicamente en pruebas de opción múltiple. Tales decisiones de-berán tomarse con base en sistemas de evaluación que incluyan pruebas de ejecución, portafolios, u otros acercamientos complementarios que aseguren una cobertura más amplia del universo de conocimientos y habilidades respectivo.

6.16.Debe hacerse explícita cualquier interpretación de constructo de una prueba empleada

en programas de certificación o para la concesión de licencias para el ejercicio de una profesión y debe reportarse la evidencia y el análisis lógico que apoye estas interpre-taciones. (Equivalente APA 1985, 11.2; AERA 1999, 14.14)

Sobre otros aspectos que pueden afectar la validez: 6.17.Deberá informarse si se aplicará alguna corrección por posible adivinación de las res-

puestas de una prueba, explicando cuál es la estrategia de respuesta adecuada.

6.18.Si se encuentra que estrategias de respuesta no relacionadas con los constructos o contenidos que mide una prueba influyen significativamente en los resultados, tales estrategias deberán explicarse a los sustentantes antes de la administración de la prue-ba, sea en la guía, sea al momento de dar las instrucciones, si puede hacerse breve-mente. Si los efectos de dichas estrategias son positivos, su uso por todos los susten-tantes deberá promoverse, y deberá desalentarse si los efectos son negativos. (Equiva-lente APA 1985, 3.11; AERA 1999, 11.13)

6.19.Como parte de las investigaciones para el desarrollo de una prueba, deberá estudiarse

la sensibilidad de los resultados al mejoramiento gracias a la práctica, la preparación o el entrenamiento corto. Los materiales que se difundan para ayudar a interpretar los resultados deberán resumir los resultados de dichas investigaciones, indicando el gra-do en que pueda esperarse mejorar los resultados en la prueba, gracias a práctica o preparación. (Equivalente APA 1985, 3.14; AERA 1999, 1.9)

6.20.El establecimiento de límites de tiempo reducidos sólo deberá hacerse si la rapidez de

respuesta es uno de los componentes de la habilidad que se pretende evaluar. De no ser así, deberán establecerse límites de tiempo que, con base en la experiencia, permi-

Page 30: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

29

tan que la gran mayoría de los posibles sustentantes terminen la prueba sin presión. (Relacionado con AERA 2000, 3.18, 2.8)

7. Estándares relativos a la integración, igualación y estabilidad de ver-

siones 7.1. Antes de comenzar la etapa operativa de una prueba, deberá asegurarse que el banco

de items respectivo comprenda un número suficiente de reactivos que satisfagan los estándares de calidad, de manera que sea factible manejar el número de versiones y ordenamientos necesarios para las aplicaciones previstas.

7.2. Los reactivos se analizarán después de cada aplicación, y se retirarán del banco de

items probados los que dejen de presentar valores aceptables. 7.3. También se retirarán del banco los items que dejen de ser vigentes en relación con el

dominio correspondiente y los que pudieran haberse difundido. 7.4. Con los items probados se elaborará un número de versiones de una prueba suficiente

para las aplicaciones planeadas de la misma. Este principio no se opone a la utiliza-ción de items en etapa de prueba ni a la de elementos ancla.

7.5. Todas las versiones deberán apegarse a las mismas especificaciones y deberán ser

equivalentes. Deberá informarse sobre los métodos de igualación y los estudios de equivalencia y sus resultados.

7.6. Cuando haya razones para temer que una versión de una prueba se haya difundido y

haya riesgo de que algunos sustentantes la conozcan previamente, deberá retirarse de inmediato.

7.7. Cuando se utilicen varias versiones de una prueba en una misma aplicación, deberá

verificarse a posteriori su equivalencia, haciéndose los ajustes correspondientes en los puntajes de los sustentantes, en caso necesario.

7.8. Una misma versión de una prueba no deberá utilizarse más de tres veces al año en el

mismo lugar, teniendo en cuenta el recorrido de la prueba. 7.9. Cuando se utiliza un diseño de test-ancla para la equiparación de formas de una prue-

ba, deberán describirse las características del test-ancla, especialmente en su relación con las formas que se tratan de equiparar. (Equivalente APA 1985, 4.8; AERA 1999, 4.11 a 4.14)

7.10.Cuando se preparen formas adicionales de una prueba haciendo una versión corta de

una mayor, o modificando el orden en que se presentan los reactivos, y haya razones para pensar que los resultados en esas formas alternativas puedan verse influenciados por el efecto del contexto en que se presentan los reactivos, deberá presentarse evi-

Page 31: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

30

dencia de que no se produce una distorsión de las normas para las diversas versiones o para la equiparación de los puntajes entre unas y otras. (Equivalente AERA 1999, 4.15)

7.11.Los programas permanentes de aplicación de pruebas que pretenden mantener una

misma escala a lo largo del tiempo deberán realizar periódicamente controles para ve-rificar la estabilidad de la escala. (Equivalente APA 1985 4.9; AERA 1999, 4.17)

8. Estándares sobre la interpretación de resultados: escalas,

estandarización y puntos de corte 8.1. Los ODEP ofrecerán evidencias relativas al cuidado de los procedimientos de cons-

trucción de escalas, estandarización y establecimiento de puntos de corte, de manera que sustenten interpretaciones correctas de los resultados.

8.2. Las escalas en que se reporten los resultados de una prueba, y el razonamiento para

elegirlas, deberán describirse y publicarse para facilitar interpretaciones correctas de las calificaciones por parte de usuarios y sustentantes. La publicación deberá especifi-car cómo se derivan los puntajes de los datos crudos. (Equivalente APA 1985, 4.1; AERA 1999, 4.1, 4.2)

8.3. Los reportes de estandarización de una prueba deberán incluir el año en el cual se re-

cabó la información normativa, proporcionando estadísticas descriptivas y describien-do en detalle el diseño del muestreo, cuando proceda, y las tasas de participación en forma tal que se pueda evaluar su adecuación. (Equivalente APA 1985, 4.4; AERA 1999, 4.6, 4.8)

8.4. Deberá informarse con precisión sobre la forma en que se establezcan los niveles que

se consideren satisfactorios o no en pruebas criteriales. Deberá combinarse un proce-dimiento sistemático a priori refinado con análisis a posteriori de los resultados de las aplicaciones de la prueba. (Relacionado AERA 1999, 4.9)

8.5. Deberá informarse sobre las características de las poblaciones de las aplicaciones uti-

lizadas para los análisis a posteriori que hayan servido para fijar los puntos de corte, advirtiendo expresamente sobre el hecho de que, si los sustentantes de una nueva apli-cación son muy diferentes de los de las aplicaciones de prueba, el uso de esos puntos de corte podrá traer como consecuencia tasas de decisiones equivocadas diferentes a las estimadas.

8.6. Cuando se espera que una prueba sea utilizada para hacer evaluaciones referidas a

normas estadísticas de grupos se deberán proporcionar datos normativos basados en estadísticas grupales apropiadas. (Equivalente APA 4.5)

Page 32: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

31

9. Estándares relativos a la elaboración de materiales para las pruebas 9.1. Además de los materiales indispensables para la aplicación (cuadernillos y hojas de

respuesta, o equivalentes en modelos no convencionales) para cada prueba deberán prepararse por lo menos guías para los sustentantes, guías para las instituciones usua-rias, guías de calificación y formas para los reportes de resultados.

9.2. Las guías para que los sustentantes puedan prepararse para la prueba deberán contener

información suficiente para que puedan enfrentarla con clara conciencia de sus carac-terísticas e implicaciones. Toda la información relevante deberá presentarse por igual a todos los aspirantes. (Relacionado AERA 1999, 8.1)

9.3. Las instrucciones presentadas a los sustentantes deben ser lo suficientemente detalla-

das para que éstos puedan responder a la prueba, tal y como los diseñadores lo planea-ron. Cuando sea pertinente, se deberán proporcionar muestras de práctica o ejemplos de preguntas. (Equivalente APA 3.22)

9.4. Cuando se utilicen formas no habituales de registrar las respuestas, v.gr. por computa-

dora, deberá permitirse la realización de alguna práctica previa, a no ser que el domi-nio de la computadora forme parte del constructo que se trata de evaluar. (Equivalente AERA 1999, 8.1)

9.5. Las hojas de respuesta deberán permitir que los sustentantes concentren su atención en

la tarea a realizar, evitando complicarla por falta de claridad en la disposición de la página, el tipo de letra u otros factores ajenos a los propósitos de la prueba.

9.6. Las formas de reportes de calificaciones y el material instruccional relativo, incluyen-

do reportes computarizados, deberán facilitar interpretaciones apropiadas. (Equivalen-te APA 3.16)

9.7. La guía para las instituciones usuarias deberá incluir toda la información necesaria pa-

ra asegurar una correcta aplicación y una adecuada interpretación y utilización de los resultados de la prueba.

9.8. Las guías para la calificación deberán contener todos los elementos necesarios para la

adecuada realización de todos los pasos de dicho proceso. 9.9. Todos los materiales deberán estar correctamente redactados y pasar por revisiones de

estilo antes de su publicación. 9.10.Los procesos de reproducción de las pruebas y sus materiales complementarios de-

berán hacerse con la supervisión necesaria para evitar errores de impresión y garanti-zar la seguridad de los materiales y la confidencialidad de los resultados. Se cuidará lo relativo a la disposición de los sobrantes de impresión.

Page 33: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

32

9.11.Una vez reproducidos, las pruebas y los materiales complementarios se almacenarán y custodiarán de manera que se garantice que la información contenida en ellos no se difunda indebidamente.

10. Estándares relativos a la promoción y contratación 10.1.Los materiales y las actividades para la promoción del uso de una prueba deberán ser

objetivos. Deberá evitarse el uso de técnicas de publicidad que sugieran que la prueba puede ofrecer más de lo que tenga fundamento en la evidencia de investigación en que se basa. (Equivalente APA 5.7)

10.2.Como condición previa para la firma de un contrato para la prestación de sus servi-

cios, los ODEP deberán asegurarse de que las personas o los cuerpos colegiados de la institución usuaria que tengan que ver con la toma de decisiones, basada en resultados de la prueba, tengan información suficiente al respecto.

10.3.Los contratos que firmen los ODEP con instituciones usuarias deberán incluir una

cláusula por la que las segundas se comprometan a no utilizar los resultados de la prueba para justificar decisiones que no tengan un sustento adecuado y a informar co-rrectamente sobre el cumplimiento de ese compromiso.

10.4.Cuando la aplicación de una prueba se haga en el marco de procesos manejados por

dependencias públicas responsables de los servicios educativos de una o varias enti-dades, o por decisión institucional en relación con procesos de evaluación externa o acreditación, la naturaleza de las decisiones y el papel técnico del organismo que ela-bora las pruebas deberán señalarse con toda claridad.

11. Estándares relativos a la preparación de la aplicación de las pruebas

11.1.Deberá asegurarse que los procesos de inscripción para la aplicación de pruebas inclu-yan información suficiente para los sustentantes en cuanto a las características de las mismas y el uso que se dará a los resultados, además de lugares, fechas y condiciones de la aplicación.

11.2.Deberá obtenerse información sobre variables demográficas, socioeconómicas y rela-

tivas a antecedentes escolares de los sustentantes, que sirva para la realización de la investigación de desarrollo de las pruebas. Esta información podrá recabarse desde el momento de inscripción a la prueba, o antes de la aplicación de la misma. En el se-gundo caso deberá cuidarse que no se afecten los límites de tiempo para la sustenta-ción de la prueba.

11.3.Los locales en que se apliquen las pruebas deberán ser supervisados previamente y,

en su caso, preparados para que reúnan condiciones adecuadas de comodidad y un mínimo de distractores. Deberá fijarse el número máximo de sustentantes que podrá aceptarse en cada local. (Equivalente APA 1985, 15.2; AERA 1999, 5.4)

Page 34: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

33

11.4.El personal responsable de las aplicaciones deberá tener la capacitación suficiente pa-

ra la realización de esas tareas. En la selección de dicho personal se buscará que tenga condiciones de imparcialidad, evitando ocupar como aplicadores a profesores de los sustentantes u otras personas que puedan tener interés en los resultados.

11.5.Cuando las pruebas vayan a ser aplicadas por los usuarios, los instructivos para la

administración deberán ser suficientemente claros y enfatizar los aspectos clave, de manera que puedan reproducirse con suficiente aproximación las condiciones de apli-cación en que se obtuvieron normas y datos usados para estimar confiabilidad y vali-dez de la prueba. (Equivalente APA 1985, 3.21; AERA 1999, 3.19)

11.6.El traslado de los materiales de la prueba y su custodia antes y después de la aplica-

ción, deberá hacerse con medidas de seguridad que garanticen que no se produzcan fugas de la información. Tales medidas incluirán deseablemente la utilización de transportes y bóvedas de seguridad y cajas selladas, así como procesos de vigilancia en los momentos clave de entrega, recepción y distribución de los materiales, como presencia de notarios o comisiones de vigilancia y dobles controles del número de pruebas entregadas y recibidas.

11.7.Deberá seguirse con cuidado el recorrido de la prueba, para evitar la aplicación reite-

rada de una misma versión en el mismo lugar en un intervalo reducido de tiempo, para detectar oportunamente irregularidades y tener elementos sobre el posible retiro de al-guna versión que pudiera haberse difundido indebidamente.

12. Estándares relativos al desarrollo de la aplicación 12.1.Los aplicadores deberán seguir cuidadosamente los procedimientos estandarizados es-

tablecidos en el manual de la prueba. Deberán observarse estrictamente las especifica-ciones relativas a las instrucciones a dar a los sustentantes, las formas de presentación de los items y las de responder, los límites de tiempo y los materiales de consulta permitidos. (Equivalente APA 1985, 15.1; AERA 1999, 5.1)

12.2.Los lineamientos relativos a materiales de apoyo que se permitirá utilizar durante una

prueba, como calculadoras y diccionarios, se establecerán considerando sus caracterís-ticas y las condiciones del conjunto de sustentantes potenciales, de manera que se ase-gure al máximo la igualdad de condiciones de aplicación.

12.3.Deberán hacerse todos los esfuerzos razonables para asegurar la validez de los punta-

jes obtenidos por los sustentantes eliminando las posibilidades de utilización de me-dios fraudulentos. (Equivalente APA 1985, 15.3; AERA 1999, 5.6)

12.4.Deberán ofrecerse adaptaciones, esto es, variantes controladas de la aplicación, a sus-

tentantes con discapacidades u otras condiciones particulares, salvaguardando la equi-dad. La información sobre la manera de tener acceso a tales variantes controladas (ac-

Page 35: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

34

comodations) deberá proporcionarse previamente por igual a todos los sustentantes. (Equivalente AERA 1999, 11.23)

12.5.Los procedimientos de aplicación incluirán medidas para verificar la identidad de los

sustentantes y para asegurar la igualdad de condiciones de todos ellos. 12.6.Deberá haber un responsable de aplicación calificado, quien será la única persona au-

torizada para tomar decisiones que modifiquen las condiciones de aplicación en caso de presentarse circunstancias imprevistas. Este mismo responsable deberá ser infor-mado de toda irregularidad, para la eventual anulación de los resultados de uno o más sustentantes.

13. Estándares relativos a los procesos posteriores a la

aplicación y a la calificación 13.1.Los procedimientos para recoger y trasladar los materiales de la prueba deberán con-

tar con medidas de seguridad como las utilizadas para su recepción. Habrá normas en cuanto a su disposición final: devolución o destrucción supervisada.

13.2.Las formas que se utilicen para la inscripción de sustentantes y las hojas de respuesta

se revisarán y prepararán para la calificación, asegurando la correspondencia del resul-tado de cada sustentante con su autor y la posibilidad de comparar los resultados de la prueba con las variables obtenidas para efectos de investigación.

13.3.El área responsable de la calificación de las pruebas deberá documentar los procedi-

mientos utilizados para garantizar la calidad del proceso. Deberá monitorearse la fre-cuencia de errores y presentarse la información respectiva si se solicita. (Equivalente APA 1985, 15.5; AERA 1999, 5.8; relacionados 3.22-3.24)

13.4.Si el proceso de calificación de las pruebas se hace manualmente deberá haber una do-

ble verificación de las claves de respuesta y un control por muestreo de la exactitud del proceso.

13.5.Si el proceso se hace mediante lector óptico, para elaborar el archivo básico de los re-

sultados deberá haber verificaciones dobles de las claves de respuesta y controles ma-nuales periódicos por muestreo de la exactitud de la lectura óptica de hojas de res-puesta.

13.6.En los casos de respuestas construidas u otras formas no convencionales de evalua-

ción, se establecerán controles de calidad apropiados a cada caso. Si se emplean pro-cedimientos de jueceo por expertos, deberá haber guías precisas para el trabajo de los jueces, procesos previos de capacitación y controles a posteriori de la confiabilidad de las calificaciones.

Page 36: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

35

13.7.Cuando haya decisiones importantes que dependan de los resultados en una prueba, como en los procesos de admisión a una institución o el otorgamiento de licencias pa-ra el ejercicio profesional, los sustentantes deberán tener manera de solicitar que se verifique la exactitud de sus resultados. Cuando no pueda darse la prueba misma y la clave de respuestas deberá ofrecerse otro medio de verificación. (Equivalente APA 1985, 15.8)

13.8.En algunos casos puede ser recomendable invalidar o anular los resultados de uno o

más sustentantes, debido a posibles irregularidades, incluyendo el fraude. Deberá haber criterios y procedimientos definidos para la toma de este tipo de decisiones y deberá informarse de ellos a los sustentantes implicados en tales situaciones. En el ca-so de pruebas de las que dependan decisiones importantes, como procesos de admi-sión u otorgamiento de licencias, si una breve investigación con los elementos dispo-nibles no permite aclarar la cuestión y se decide anular o suspender un resultado, el sustentante en cuestión deberá ser notificado de los motivos de sospecha y se deberá hacer lo posible por agilizar la revisión subsiguiente y por proteger los intereses del sustentante. El sustentante deberá tener la oportunidad de ofrecer evidencia en su fa-vor; a solicitud del interesado se proporcionarán elementos relevantes. (Equivalente APA 1985, 16.7, 16.8 y 16.9; AERA 1999, 8.10-8.13)

14. Estándares relativos a la comunicación de resultados 14.1.Los resultados de las pruebas deberán reportarse en un lapso razonable a todas las

partes involucradas. Además del puntaje obtenido, y según el tipo de prueba de que se trate, deberá ofrecerse información sobre datos normativos, criterios de referencia o puntos de corte. Esta información deberá presentarse en forma tal que un sustentante típico pueda interpretarla correctamente.

14.2.Cuando los propósitos de la aplicación de una prueba incluyan el describir la situa-

ción de una población particular de sustentantes, como la de una región o institución, los criterios para que un individuo sea incluido o excluido de la aplicación deberán anunciarse claramente y respetarse. (Equivalente AERA 1999, 11.24)

14.3.Los reportes y la información que se proporcione a tomadores de decisión o al públi-

co incluirán además breves descripciones de propósitos y características de la prueba, lo que puede o no medir, las conclusiones y decisiones que pueden basarse en los re-sultados y otras informaciones que ayuden a evitar interpretaciones inapropiadas. (Re-lacionado con AERA 1999, 11.18)

14.4.Los contratos que firmen los ODEP con instituciones usuarias de sus servicios estable-

cerán expresamente a quién deberán entregarse los resultados individuales.

14.5.En el caso de aplicaciones no institucionales, si se pretendiera entregar los resultados individuales a terceras personas, de manera que fuera posible una identificación no-minal, las formas de inscripción solicitarán expresamente el consentimiento de los

Page 37: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

36

sustentantes para ello, ofreciéndoles la información necesaria. En caso de que un sus-tentante no otorgue su consentimiento sus resultados no deberán proporcionarse a na-die más, a no ser que haya una disposición legal al respecto. (Relacionado con AERA 1999, 8.5)

14.6.Cuando se publiquen resultados de las pruebas en forma desagregada por grupos

identificados por características como género, grupo étnico y similares, deberán in-cluirse notas aclaratorias en caso de que exista sustento empírico basado en investiga-ciones fundamentadas para creer que los resultados puedan tener significado diferente para unos grupos y otros. (Equivalente AERA 1999, 7.8)

14.7.Cuando la publicación de los resultados implique la asignación de individuos a ciertas

categorías, éstas deberán escogerse con cuidado y describirse con precisión, evitando el uso de etiquetas estigmatizantes. (Equivalente AERA 1999, 8.8)

14.8.Con precauciones que garanticen el anonimato de los sustentantes, los resultados

podrán ser facilitados a investigadores con un interés profesional legítimo. (Equiva-lente APA 1985, 16.3; AERA 1999, 5.13)

14.9.Cuando los resultados de una prueba se utilicen para algún tipo de certificación o pro-

moción, los sustentantes deberán tener múltiples oportunidades de presentarla, con el in-tervalo de tiempo apropiado y/o cuidando que se utilice una versión equivalente diferen-te.

14.10.Cuando los resultados de una prueba se difundan en los medios de comunicación,

los responsables de la difusión deberán ofrecer información que ayude a minimizar la posibilidad de que se hagan interpretaciones erróneas. (Equivalente APA 1985, 6.8; AERA 1999, 5.10)

14.11.Las organizaciones que conserven resultados obtenidos en pruebas por individuos,

deberán tener políticas claras en cuanto al tiempo que conservarán esos resultados, su disponibilidad y su uso a lo largo del tiempo. (Equivalente APA 1985, 15.11; AERA 1999, 5.16)

15. Estándares relativos a la utilización de los resultados 15.1.Además de la información individual de los resultados de las pruebas, los ODEP de-

berán difundir materiales que ayuden a los sustentantes y demás partes interesadas a usar correctamente dichos resultados como insumos para la toma de las decisiones pertinentes.

15.2.Ninguna decisión que tenga impacto importante sobre los alumnos deberá hacerse

únicamente con base en los resultados de una sola prueba. Se buscará siempre tomar en consideración otras informaciones relevantes, si pueden incrementar la validez glo-bal de la decisión. (Equivalente AERA 1999, 13.7)

Page 38: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

37

15.3.Los ODEP apoyarán a instituciones y otros usuarios de sus pruebas para capacitar al

personal que interprete los resultados, para desarrollar normas locales y, en general, para que cuenten con la capacidad necesaria para la adecuada utilización de los resul-tados. (Equivalente AERA 1999, 13.4, 13.13)

15.4.Los sustentantes, en particular los que no obtengan resultados satisfactorios, si lo so-

licitan, deberán recibir información sobre su puntaje bruto y los mínimos considerados satisfactorios, así como sobre cualquier puntaje parcial relevante para la toma de deci-siones. (Equivalente APA 11.4)

15.5.Cuidando la confidencialidad de los resultados, los derechos de los sustentantes y los

compromisos que establezcan con instituciones usuarias, los ODEP deberán promover el aprovechamiento de los resultados de las pruebas por parte de las instituciones de adscripción de los sustentantes, las de los niveles o ciclos anteriores y subsiguientes y los sistemas educativos estatales y el nacional, considerándolos como elementos va-liosos de retroalimentación para los procesos de revisión curricular y para el monito-reo de la calidad educativa, que pueden contribuir al diseño y establecimiento de polí-ticas y mecanismos de mejoramiento más adecuados. Para ello los ODEP deberán ofre-cer oportunidades de formación de personal capacitado para interpretar correctamente los resultados de las pruebas en los organismos usuarios.

15.6.Los ODEP procurarán además contar con áreas especializadas de investigación que

utilicen los resultados de las pruebas y hagan avanzar el conocimiento teórico y meto-dológico al respecto. Promoverán también el aprovechamiento de dichos resultados por otros investigadores, estableciendo reglas claras que permitan el acceso a la in-formación, cuidando el derecho a la confidencialidad de los resultados de personas e instituciones.

16. Estándares relativos al mejoramiento de las pruebas

16.1.Los ODEP contarán con programas de trabajo de mediano plazo, en los que se es-

tablezca la periodicidad o los criterios para decidir los momentos precisos en que se realizarán las siguientes actividades: ♦ Las evaluaciones internas y, en su caso, las externas por instancias competen-

tes. ♦ La revisión, corrección o complementación de los manuales técnicos, para man-

tener actualizada la información destinada a los usuarios e incluir informacio-nes o advertencias adicionales. (Equivalente APA 1985, 5.5; AERA 1999, 3.26)

♦ La revisión o corrección de las pruebas cuando existan nuevos datos de investi-gación, o cuando se den cambios significativos en el dominio representado, o nuevas condiciones de uso e interpretación que hagan inapropiado el instrumen-to para los propósitos para los cuales fue diseñado. (Equivalente APA 1985, 3.18; AERA 1999, 3.25)

Page 39: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

38

16.2.Dada la sensibilidad de diferentes acercamientos a la evaluación en relación con diversas habilidades, se promoverá la utilización de enfoques combinados y moda-lidades alternativas de evaluación. Se estimulará la innovación y la búsqueda de acercamientos y formas nuevas de evaluación asegurando que se haga sobre fun-damentos consistentes, basados en los resultados de investigaciones previas, e in-dicando los análisis que se harán para valorar la calidad y aplicabilidad de las nue-vas pruebas así desarrolladas.

16.3.Si llegaran a aplicarse versiones de un examen que incluyan reactivos que no al-

cancen los niveles de calidad establecidos o, de cualquier otra forma, la aplicación de una prueba no respetara los estándares de calidad contenidos en este documen-to, se informará con precisión de las implicaciones técnicas de lo anterior a las au-toridades responsables de las decisiones relacionadas con las pruebas. Tales situa-ciones deberán ser excepcionales y superarse a la mayor brevedad, de manera que no se extiendan a más de una aplicación. Si se prevé que lo anterior no es posible, la prueba dejará de manejarse como operativa y deberá considerarse en etapa de desarrollo.

Page 40: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

39

Conclusión

UNQUE PUEDA RESULTAR REITERATIVO, conviene repetir tres ideas fundamentales que se han expresado desde la Introducción de este documento y en distintos lugares del mismo.

La primera es la de que elaborar un documento sobre instrumentos de evaluación de tipo obje-tivo no implica pensar que este acercamiento a la calidad educativa es superior a otros, y mu-cho menos que es el único aceptable. Estamos conscientes de que una evaluación integral im-plica la utilización complementaria de varios acercamientos. En segundo lugar, el acercamiento comprensivo adoptado en la elaboración de la lista de estándares puede llevar a pensar que se considera que un instrumento debe cumplir todos los criterios simultáneamente y en el mismo grado, desde la primera vez que se utiliza. Por el con-trario, parece claro que el desarrollo de instrumentos de gran calidad es un proceso laborioso y largo, que implica diversas etapas y aproximaciones sucesivas. Lo que sí es fundamental es que haya conciencia del grado de avance alcanzado, para no utilizar los resultados obtenidos mediante un instrumento en una forma indebida, que carezca del sustento adecuado. No podría pedirse que una prueba no se aplique hasta que esté perfectamente madura y probada y alcance un nivel satisfactorio en todos los aspectos considerados en los estándares; pero si debe espe-rarse que cuando una prueba todavía no alcance tales niveles, sus resultados se utilicen con especial precaución y se advierta expresamente a los usuarios sobre sus limitaciones. La tercera idea es que, dado el dinamismo que caracteriza al campo de la psicometría y a la naturaleza de esfuerzo inicial, en un medio con una débil tradición al respecto, que caracteriza a este documento, la adopción de una perspectiva de mejoramiento continuo es obligada: además de las correcciones que exija la experiencia, y en forma consistente con una noción dinámica de calidad, la relación de estándares que presentamos deberá enriquecerse y modifi-carse teniendo en cuenta los avances del campo de la psicometría y, en general, de las metodo-logías de evaluación, así como los de las ciencias cognitivas, tratando de incorporar las mejo-res prácticas de evaluación que dichos avances se hagan posibles en el ámbito internacional. Para terminar, reiteramos la esperanza de que este documento sea útil a las personas que traba-jan en el campo de la evaluación educativa y, más allá de ellas, a todos los que se interesan por una educación de calidad.

México, D. F., julio del 2000.

A

Page 41: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

40

Page 42: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

41

Glosario

L VOCABULARIO QUE SE UTILIZA en los trabajos de orientación psicométrica incluye términos muy especializados, cuyo uso en los medios de habla hispana aún no se estanda-

riza, dado el escaso desarrollo de esta tradición de investigación. Por ello es conveniente este Glosario, en el que se incluyen definiciones de términos técnicos utilizados en los estándares. Debe señalarse que algunos de los términos siguientes adoptan sentidos particulares cuando se refieren a pruebas llamadas normativas o criteriales (más precisamente, pruebas construidas con referencia a normas o con referencia a criterios), o bien cuando se les emplea en el marco de una u otra de las corrientes vigentes en la psicometría actual, en particular la teoría clásica de las pruebas (classical tests theory, CTT), la teoría de la respuesta al ítem (item response theory, IRT) y la teoría de la generalizabilidad (generalizability theory), por no hablar de las variantes de algunas, como los modelos de un parámetro (Rasch) en contraposición con los de dos y tres, en IRT. Este glosario no entra en detalle en cuanto a las formas de manejar ciertas nociones en una u otra de dichas teorías o variantes, y se limita a presentar el sentido básico de cada término. Por otra parte, y además de las diferencias de fondo en cuanto a la definición exacta de un concepto, la ausencia de una tradición psicométrica fuerte en los medios de habla hispana trae consigo el que haya también diferencias de forma, más superficiales, debidas a la necesidad de traducir al español neologismos especializados que no existían previamente ni siquiera en inglés, o tenían un sentido tradicional que corresponde sólo aproximadamente al nuevo sentido técnico que adoptan en un contexto teórico preciso. ¿Debe decirse test o prueba? ¿Item o reactivo? El plural correcto de ítem, en el supuesto de que se adopte en español esta palabra, ¿es items o ítemes? ¿Debe preferirse fiabilidad, como se hace en España, o confiabilidad como en México, para traducir reliability? ¿Es lógito una cas-tellanización aceptable de logit? ¿Debe traducirse como chi o como ji la letra griega χ que, al parecer, los actuales hablantes helénicos pronuncian de hecho ki? ¿Qué hacer cuando aún no existe un término castellano para traducir un neologismo americano como accomodations? Siguiendo al viejo Horacio, pensamos que estas dudas no se resolverán por decreto de autori-dad alguna, sino únicamente si place al uso, juez omnipotente, que decide tiránico en las len-guas.

E

Page 43: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

42

Por ello, sin pretensiones de pontificar ni de sustituir a la Real Academia de la Lengua, el si-guiente glosario presenta definiciones de términos técnicos fundamentales en psicometría, de acuerdo con el uso más frecuente en nuestro medio o, en todo caso, de acuerdo con el sentido que les damos en este documento. En algún caso nos atrevemos a proponer un término nuevo, como el que abre la lista, adaptaciones, por accomodations. Si no podemos contribuir a la estandarización de la terminología psicométrica, por lo menos facilitaremos la comprensión del texto, en beneficio de los lectores no especializados que, pre-sumiblemente, serán mayoría entre quienes consulten este trabajo.

*** ADAPTACIONES. Se traduce el término americano accomodations y designa las condiciones especiales de aplicación de una prueba que pueden ofrecerse en forma controlada a sustentantes que tengan alguna dificultad especial, no relacionada con los dominios que se evalúan, que pue-da reducir su desempeño, como discapacidades, habla de una lengua diferente a la de la prueba, etcétera. ADIVINACIÓN. Elección al azar de alguna de las opciones de un reactivo cuando un susten-tante no sabe cuál es la respuesta correcta. Puede distinguirse la adivinación simple de la adi-vinación informada, según sea el patrón de azar de la persona. Véase corrección por adivina-ción. ADMINISTRACIÓN. Véase aplicación de una prueba. AJUSTE. Medida que señala el grado en que la distribución efectiva de unos datos empíricos coincide con otra distribución teórica definida previamente con base en algún modelo matemá-tico. Por ejemplo, la correspondencia de la curva característica de un reactivo en relación con el modelo logístico. APLICACIÓN DE UNA PRUEBA. Proceso por el que un instrumento se aplica a un con-junto de sustentantes. Se distinguen aplicaciones piloto, cuando el instrumento está en etapa de construcción, y sus resultados todavía no pueden considerarse válidos ni confiables, y apli-caciones operativas, cuando la prueba ha alcanzado niveles de confiabilidad y validez acepta-bles. BANCO DE ITEMS. Conjunto de reactivos o items calibrados, disponibles para ser usados en una prueba de acuerdo con una tabla de especificaciones. CALIBRACIÓN DE ITEMS. Procedimientos para analizar las propiedades métricas de los items, verificando que cumplan con niveles aceptables según los propósitos de la prueba. CALIFICACIÓN, DE UNA PRUEBA. Proceso por el que se verifica si las respuestas dadas por los sustentantes de una prueba corresponden o no a las que se consideran acertadas.

Page 44: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

43

COEFICIENTE DE CORRELACIÓN. Índice estadístico del grado en que se relacionan dos variables. Generalmente se utiliza para validez predictiva y validez concurrente el coeficiente de correlación producto-momento de Pearson, y para confiabilidad el coeficiente de correla-ción Alfa de Cronbach. CONFIABILIDAD. Cualidad de las mediciones obtenidas con un instrumento, que se caracte-rizan por ser iguales o consistentes, dentro de cierto rango, cuando se aplican varias veces a un mismo objeto. CONSTRUCTO. Variable psicológica latente (Ej. habilidad verbal, habilidad espacial, ansie-dad, etcétera). Es un concepto teórico derivado de la investigación, que se construye para ex-plicar patrones de conductas observables. CONTROL DE RECORRIDO. Registro de lugares y fechas en que se aplican las diversas formas alternas de un instrumento, para fundamentar las decisiones relativas al momento ade-cuado para retirar cada una de ellas, buscando evitar el riesgo de que los sustentantes puedan tener un conocimiento previo de su contenido que distorsione los resultados. CORRECCIÓN POR ADIVINACIÓN. Transformación de los puntajes de una persona res-tando una parte proporcional de los errores, bajo la hipótesis de que las respuestas incorrectas son producto de la adivinación. CRITERIAL, PRUEBA. Instrumento diseñado de manera que los resultados obtenidos por un sustentante se comparen con un nivel previamente definido que se considera satisfactorio o aceptable. Véase criterio. CRITERIO. En evaluación referida a criterio, indicador de un valor aceptable de un resultado de ejecución o aprendizaje. En otro sentido, en lo relativo a validez de criterio, predictiva o concurrente, un criterio es una variable dependiente del modelo de correlación utilizado; en este caso la variable independiente es el puntaje obtenido en la prueba y se denomina “predic-tora”. Véase medidas de criterio. CRUDOS, DATOS O PUNTAJES. Generalmente se refiere al número de respuestas correc-tas que tiene un sustentante en una prueba; es decir, sin ningún tratamiento estadístico aplica-do a los resultados. DESEMPEÑO. Resultado obtenido por un sustentante en una prueba. DESEMPEÑO COMPETENTE. Se refiere al desempeño esperado en el área profesional para la cual se está evaluando a un sustentante. DICOTÓMICAS, DECISIONES. Se refiere al tipo de decisiones que se toman a partir de los resultados de una prueba, en donde sólo hay dos opciones (aceptado - no aceptado; apro-bado - reprobado, etcétera).

Page 45: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

44

DIFICULTAD, ÍNDICE O GRADO DE. Característica de un reactivo que hace que un número mayor o menor de sustentantes lo responda correctamente. En teoría clásica se mide a partir del porcentaje de personas que responden correctamente a un reactivo. En modelos logísticos se refiere a la probabilidad de respuesta incorrecta en lógitos. DISCRIMINACIÓN, PODER DE. Característica de un reactivo que hace que las respuestas permitan distinguir con más o menos claridad el nivel de desempeño de los sustentantes. En teoría clásica se basa en la medida en que un reactivo diferencia entre individuos de mayor y menor dominio. En los modelos logísticos se relaciona con la pendiente en el punto de in-flexión de la curva característica del reactivo. DISTRACTORES. En pruebas de opción múltiple son aquellas opciones que constituyen respuestas incorrectas o inválidas de un ítem o reactivo. El análisis de distractores consiste en estudiar si los sustentantes seleccionan los distractores en la forma prevista al diseñarlos o no. DISTRIBUCIÓN NORMAL. Distribución correspondiente a la curva de Gauss. En puntua-ciones referidas a porcentajes se trata de la distribución teórica de frecuencias con una media del 50% y desviación estándar de 16.67%. DOMINIO. Conjunto de conocimientos, habilidades, destrezas, actitudes u otros rasgos que tiene las siguientes propiedades: límites, extensión y definición, de tal modo que puede esta-blecerse la pertenencia o no de un reactivo a ese conjunto o dominio o diferenciarse de otro reactivo del mismo. EJECUCIÓN, PRUEBAS DE. Variantes de las pruebas de respuesta construida que piden al sustentante la realización de una actividad. ENSAYO, PRUEBAS O PREGUNTAS DE. Variantes de las pruebas de respuesta construi-da que piden al sustentante la redacción de un texto. EQUIVALENTES. Se refiere a que las versiones que se usen de una misma prueba, tengan las mismas características y propósitos y que sean similares en cuanto a sus medidas estadísti-cas (media, desviación estándar y correlaciones con otras medidas). ERROR ESTÁNDAR DE MEDIDA. Desviación estándar de la distribución de los errores de medida, que resultan de la aplicación de una prueba a un grupo específico de sustentantes, permitiendo definir intervalos de confianza. ERROR DE MEDIDA. Diferencia entre una medida observada y la correspondiente medida real. ESCALA. Propiedad métrica de un instrumento de medida con las siguientes características: unidades, extensión, distribución y rango.

Page 46: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

45

ESPECIFICACIONES, TABLA DE. Documento básico para la construcción de una prueba. Incluye especificaciones sobre la prueba en conjunto (dominios, peso de áreas, temas o con-ductas a cubrir, destrezas a evaluar) y especificaciones sobre los items, con indicaciones sobre su formato y reglas para considerarlos adecuados. ESTABILIDAD. Característica de una escala de medición cuyas propiedades métricas se mantienen constantes, dentro de ciertos rangos, a lo largo del tiempo. ESTANDARIZACIÓN. Transformación de datos crudos en términos de una distribución teórica. Generalmente se usa la distribución normal y corresponde a la distancia respecto a la media en unidades de desviación estándar. Sinónimo de normalización. ESTÁNDAR. Principio del valor o calidad en la conducción y uso de los procedimientos de evaluación. Estos son generalmente acordados por expertos en evaluación. ESTIMACIONES. Valores esperados de una variable en función de un modelo. EXAMEN. Véase prueba. FORMAS ALTERNAS. Versiones equivalentes de una misma prueba. IGUALACIÓN, MÉTODOS DE. Métodos estadísticos a posteriori utilizados para hacer equivalentes formas o versiones de una prueba, en cuanto a su dificultad. ÍTEM, REACTIVO O PREGUNTA. Planteamiento de un problema o cuestionamiento para conocer el resultado del aprendizaje, el desempeño de una habilidad o destreza o la muestra de una actitud dentro de un dominio. JUECEO. Método en el cual se utiliza la opinión de jueces o expertos para determinar entre otras cosas: la pertinencia de la validez de los reactivos respecto a un dominio, el estableci-miento de estándares o puntos de corte, la calificación de preguntas de respuesta no estructu-rada, de portafolios, etcétera. LICENCIA DE EJERCICIO PROFESIONAL. Permiso para desempeñar una actividad que requiere de cierta preparación. En unos lugares se da en forma automática al término de unos estudios; en otros implica la sustentación de pruebas especiales. LÍMITE DE TIEMPO. Duración máxima que se establece en algunas pruebas para que los sustentantes las respondan. LÓGITO. Medida adimensional obtenida como logaritmo del momio en los modelos logísticos. Se refiere en un mismo eje tanto a la dificultad de los reactivos como a la habilidad de los sus-tentantes. MANUAL TÉCNICO. Documento que contiene los elementos de fundamentación y planea-ción de un instrumento de evaluación, así como los resultados de los análisis de validez, con-

Page 47: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

46

fiabilidad y otros, necesarios para que se considere adecuado utilizarlo para los propósitos para los que fue diseñado. MEDIDAS DE CRITERIO. En estudios de validez concurrente o predictiva se refieren al criterio externo con que se correlaciona el resultado de las pruebas, v.gr. calificaciones obteni-das mediante otras formas de evaluación. MUESTRA. Subconjunto de unidades que forman parte de un conjunto mayor, del que pue-den ser o no representativas. El muestreo (al azar u otro) consiste en los procedimientos de selección de muestras que tengan una representatividad estimable en relación con la población o universo del que se tomen. NORMATIVAS, PRUEBAS. Instrumentos diseñados de manera que se pueda comparar el resultado obtenido por una persona con los valores estadísticos de un grupo de referencia. OPCIÓN MÚLTIPLE. Items o preguntas cuya respuesta consiste en la elección, por parte del sustentante, de una entre varias opciones preestablecidas, de las cuales sólo una es correcta y las demás, llamadas distractores, no lo son. La expresión se aplica también a las pruebas conformadas únicamente por preguntas de este tipo. ORDENAMIENTOS. Formas alternas de una misma prueba que comparten los mismos reac-tivos pero en diferente orden o los mismos reactivos en el mismo orden pero con las opciones intercambiadas. OTL. Iniciales de Opportunity to Learn (Oportunidad de aprender). Al analizar los resultados obtenidos en una prueba por sustentantes de diversas escuelas, regiones y aun países, hay pro-cedimientos que pueden aplicarse para tener en cuenta la diversidad de planes de estudio y de exposición a ciertos contenidos, controlando su influencia en los resultados. PERFIL DE REFERENCIA. Conjunto de conocimientos, habilidades, destrezas o actitudes que se espera que un sustentante cumpla. El perfil es la guía para el diseño de la tabla de espe-cificaciones del contenido de una prueba. PILOTEO, APLICACIÓN PILOTO. Aplicación preliminar de una prueba para calibrar los reactivos en términos del tiempo de ejecución, índice de dificultad, poder de discriminación u otros valores psicométricos. Véase aplicación. PORTAFOLIOS. Procedimiento de evaluación que consiste en una muestra de productos debidos a un sustentante, que refleja su competencia en ciertos aspectos. PRUEBA, EXAMEN O TEST. Instrumento de medición compuesto de reactivos, diseñado para medir el nivel de ejecución de un individuo o de un grupo en un dominio o constructo dado. Se distinguen las pruebas normativas, o construidas con referencia a normas, y las crite-riales, o construidas con referencia a criterios.

Page 48: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

47

PUNTAJE. Resultado obtenido por un sustentante en una prueba. Puede distinguirse el punta-je total o puntajes parciales, que correspondan a subdivisiones particulares. También se distin-gue el puntaje crudo, que es simplemente el número o porcentaje de respuestas correctas, y puntajes normalizados o estandarizados. PUNTO BISERIAL. Índice de correlación ítem-test cuando se hace una partición de un gru-po de personas en dos niveles (alto y bajo) en un punto establecido arbitrariamente en función del número de aciertos. PUNTO DE CORTE. En pruebas con referencia a un criterio, es el puntaje mínimo o criterio a superar para considerar que el desempeño de una persona es satisfactorio y distinguirlo de otro que no lo es. REGRESIÓN ECUACIONES DE. Expresión matemática de la relación funcional entre dos o más variables. Generalmente se utilizan métodos de mínimos cuadrados para obtener las ecuaciones de regresión. REPRESENTATIVIDAD. Propiedad de una muestra en relación con el universo o la pobla-ción de la que se extrajo. Cuando se aplica a una muestra de reactivos significa que el conjunto que constituye una prueba permite hacer inferencias acerca del dominio o universo que se pre-tende medir. RESPUESTA CONSTRUIDA. Items que requieren del sustentante una respuesta abierta, sin limitarse a seleccionar una opción. Pueden ser de ejecución o de ensayo. La expresión se apli-ca a las pruebas con este tipo de items. SESGO. Tendencia o error sistemático en la medición de un conocimiento o habilidad. TEST-ANCLA. Se refiere a la incorporación de un porcentaje de reactivos iguales en diferen-tes versiones de una prueba, para asegurar su equivalencia. VALIDEZ. Coincidencia entre una variable empírica y un concepto teórico. En el caso de pruebas, equivalencia de las dimensiones de la realidad representadas por los puntajes obteni-dos por los sustentantes y los dominios definidos conceptualmente al diseñarlas. Es el funda-mento de las inferencias y decisiones que pueden hacerse legítimamente con base en la prue-ba. Actualmente, más que hablar de tipos de validez, esta noción se entiende en forma unitaria, y se distinguen más bien varias fuentes de evidencias de validez. VALIDEZ DE CONTENIDO. Fuentes de evidencia de la validez de una prueba que se basan en el juicio de expertos, que establecen si la prueba es una muestra adecuada o representativa del dominio que se pretende evaluar. Se favorece en la medida en que la definición del domi-nio sea clara, se verifique la calidad técnica de los reactivos y el sistema de muestreo de éstos sea adecuado. VALIDEZ DE CONSTRUCTO. Fuentes de evidencias de validez basadas en la consistencia entre el perfil referencial y la prueba. El énfasis está dado en sustentar el grado en que los pun-

Page 49: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

48

tajes en la prueba representan una característica de la medida del atributo latente que se supo-ne evalúa la prueba. VALIDEZ DE CRITERIO. Fuentes de evidencias de validez basadas en la correlación entre los resultados obtenidos en una prueba y otra variable externa que se considera mide las mis-mas dimensiones de la realidad, y se define como criterio. Cuando ambas mediciones se refie-ren a desempeños que tienen lugar aproximadamente al mismo tiempo, se habla de validez concurrente; en este caso, por lo general, la variable criterio consiste en los resultados de otras pruebas o formas de evaluación semejantes. Si la medición del criterio externo es posterior, se habla de validez predictiva. Un ejemplo es la correlación entre los resultados de una prueba de ingreso y las calificaciones de los sustentantes un tiempo después, v. gr. durante el primer año de los estudios a los que ingresaron. VERSIONES. Formas que puede tomar una prueba tanto en sus características métricas como de contenido. Se hacen a partir de una misma tabla de especificaciones de un banco de reacti-vos, seleccionando reactivos diferentes o los mismos reactivos en varios ordenamientos. Pue-den incluir test-ancla.

Page 50: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

49

Referencias bibliográficas 1. AAHE (1992). “Principles of Good Practice for Assessing Student Learning”. The AAHE Assess-

ment Forum. Washington. American Association for Higher Education. 2. AMERICAN EDUCATIONAL RESEARCH ASSOCIATION, AMERICAN PSYCHOLOGICAL

ASSOCIATION, NATIONAL COUNCIL ON MEASUREMENT IN EDUCATION (1999). Stan-dards for educational and psychological testing. Washington. AERA.

3. ----- (1997). Standards for educational and psychological testing. Washington. APA. Reimpr.

1985. 4. ANGOFF, WILLIAM H. Ed. (1971). The College Board Admissions Testing Program: A technic-

al report on research and development activities relating to the Scholastic Aptitude Test and Achievement Tests. New York. College Entrance Examination Board.

5. BROWN, FREDERICK G. (1980). Guidelines for Test Use: A commentary on the Standards for

Educational and Psychological Tests. National Council on Measurement in Education. 6. DEGRACIE, JAMES S., BEVERLY MERRIL y JAMES K. ZAHARIS (1996). “Implications of

Using the Revised Program Evaluation Standards in Local Education Agencies”. Journal of Expe-rimental Education. Vol. 63 No. 1 pp. 45-53.

7. DOHERTY, AUSTIN y GERALD W. PATTON (1991). “Criterion Three and the Assessment of

Student Academic Achievement”. NCA Quarterly. Vol. 66 No. 2. 8. DONLON, THOMAS F. (1984). The College Board Technical Handbook for the Scholastic Apti-

tude Test and Achievement Tests. New York. College Entrance Examination Board. 9. GRADUATE RECORD EXAMINATION BOARD (1988). GRE Guide to the Use of the Gradu-

ate Record Examinations Program. Princeton. Educational Testing Service. 10. MARTINEZ ARIAS, ROSARIO (1995). Psicometría: Teoría de los tests psicológicos y educati-

vos. Madrid. Ed. Síntesis. 11. ORY, JOHN C. (1992). “Meta-Assessment: Evaluating Assessment Activities”. Research in High-

er Education. Vol. 33 No. 4.

Page 51: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

CENTRO NACIONAL DE EVALUACIÓN PARA LA EDUCACIÓN SUPERIOR

50

12. THE JOINT COMMITTEE ON STANDARDS FOR EDUCATIONAL EVALUATION. JAMES R. SANDERS, CHAIR (1994). The Program Evaluation Standards. How to Assess Evaluations of Educational Programs. 2d. Ed. Thousand Oaks. Sage.

13. THE JOINT COMMITTEE ON STANDARDS FOR EDUCATIONAL EVALUATION. (1981).

Standards for Evaluation of Educational Programs, Projects and Materials. 1st. Ed. Sage. (Hay edición en castellano de Trillas).

14. THE JOINT COMMITTEE ON TESTING PRACTICES (1989). “Code of Fair Testing Practices

in Education”. American Psychologist. 15. THOMPSON, B. (1996). “The revised Program Evaluation Standards and their correlation with

the evaluation use literature”. Journal of Experimental Education. Vol. 63 No. 1 pp. 54-82. 16. WESTERN ASSOCIATION OF SCHOOLS AND COLLEGES (1992). “Principles of Good Prac-

tice in Assessment”. In Achieving Institutional Effectiveness Through Assessment. Oakland. WASC.

Page 52: ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS …fmrizo.net/fmrizo_pdfs/libros/L 27 2000 Estandares...ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA 3 Prefacio L CENTRO

ESTÁNDARES DE CALIDAD PARA INSTRUMENTOS DE EVALUACIÓN EDUCATIVA

51

Consejo Asesor Externo

Lic. Felipe Martínez Rizo Coordinador del Consejo

Universidad Autónoma de Aguascalientes

Mtro. Eduardo Backhoff Escudero Instituto de Investigación y Desarrollo Educativo

Universidad Autónoma de Baja California

Dr. Arturo de la Orden Hoz Departamento de Medición e Investigación y Desarrollo en Educación

Universidad Complutense de Madrid

Dr. Agustín Tristán López Ingeniería y Estadística Especializada

Dra. Sylvia Schmelkes del Valle

Departamento de Investigaciones Educativas CINVESTAV

Dr. Guillermo Solano-Flores

Wested, California

PARTICIPANTES POR EL CENEVAL.

Mtro. Rafael Vidal Uribe Secretario Técnico del Consejo

Dirección Técnica CENEVAL

Dra. Sandra Castañeda Figueiras

Coordinación del EGEL de Psicología y Pedagogía - Ciencias de la Educación CENEVAL