EXÁMENES APLICADOS Y TAREAS ASIGNADAS EN PRIMARIAS DE NUEVO LEÓN
Felipe Martínez Rizo y Adriana Mercado Salas
CONTENIDO
Introducción
1. La literatura de estudios empíricos sobre prácticas de evaluación en aula
1.1. Los trabajos de Stiggins y colaboradores
1.2. El proyecto apoyado por el PREAL
1.3. Estudios mexicanos
1.3.1. El trabajo de Ismael Vidales Delgado y colaboradores
1.3.2. El estudio del Instituto Nacional para la Evaluación de la Educación
1.3.3. El diagnóstico de las prácticas de evaluación del PIE 10-2N
2. Metodología
2.1. El corpus de imágenes
2.2. El marco analítico
2.3. El análisis
3. Resultados
3.1. Referente curricular, instrucciones, calificación y retroalimentación
3.2. Tipo de preguntas utilizadas
3.3. Proceso implicado
3.4. Nivel de demanda cognitiva y autenticidad
3.5. Congruencia entre enseñanza y evaluación
Conclusiones
Referencias
Aguascalientes, febrero de 2013
1
Los cimientos de la estructura emergente de reforma y mejora
educativa que estamos construyendo serán débiles como arena si
decidimos permanecer mal informados sobre la naturaleza, el
papel y la calidad de la evaluación en aula.
Stiggins y Conklin, 1992: 4
Introducción
Las evaluaciones del aprendizaje de los alumnos que se llevan a cabo en los niveles básicos del
sistema educativo y, en particular, en primaria, se pueden clasificar en dos grupos: evaluaciones en
gran escala, que consisten en pruebas estandarizadas que se aplican a todos los alumnos de ciertos
grados o a muestras representativas de ellos, y evaluaciones en aula, que cada maestro aplica al
grupo a su cargo, sea en la forma de exámenes parecidos a las pruebas de gran escala o, con mayor
frecuencia, en la de ejercicios, tareas, observaciones, trabajos grupales y otras actividades menos
formales, mediante las cuales se recoge información sobre el desempeño de los alumnos.
Las pruebas en gran escala han llamado fuertemente la atención y se han vuelto referentes de primer
orden para las políticas educativas, perdiendo de vista la prioridad que debería darse a las
evaluaciones a cargo de cada maestro, llegando en ocasiones a favorecer prácticas que empobrecen
el trabajo docente, al privilegiar los contenidos de las pruebas en gran escala y descuidar aspectos
que éstas no suelen cubrir, como los relativos al desarrollo de habilidades cognitivas complejas y a
aspectos no cognitivos del currículo. Un trabajo pionero sobre el tema que se presenta con amplitud
en seguida, partió de una reflexión similar. En referencia a la situación de la evaluación educativa
en Estados Unidos en la década de 1990 señala que, incluyendo pruebas nacionales, estatales y las
que se aplican a nivel de distrito escolar, en ese país se gastaban (y ahora se gasta bastante más)
miles de millones de dólares en pruebas estandarizadas en gran escala las cuales, pese a que son:
…evaluaciones caras, muy visibles y políticamente importantes, sólo representan menos
del uno por ciento del total de todas las que se hacen en el aula. El 99 por ciento restante
consiste en evaluaciones realizadas por los maestros, momento a momento, día a día y
semana a semana. De forma paradójica, virtualmente todos los recursos para evaluación a
escala nacional, estatal y local se dedican a acciones de investigación y desarrollo de
pruebas en gran escala. Este libro presenta programas de acción específicamente
orientados a mejorar la calidad del 99 por ciento restante de evaluaciones que realmente
conducen lo que los estudiantes aprenden. (Stiggins y Conklin, 1992, contraportada)
La obra de la que se toma la cita anterior presenta los resultados de una década de esfuerzos de sus
autores por entender mejor lo que pasa en las aulas en cuanto a evaluación, a partir de dos ideas que
la investigación muestra cada vez con más claridad: por una parte, que las evaluaciones en aula
influyen mucho más que las pruebas nacionales o estatales en lo que los estudiantes aprenden; y por
otra que, además de principios básicos comunes, la realización adecuada de esas evaluaciones
implica conocimientos y habilidades específicos muy complejos por parte de los maestros, más allá
de ciertos principios generales que debe respetar toda buena medición y evaluación.
En una forma parecida a la experiencia que tuvieron Stiggins y sus colaboradores, la línea de
investigación de la que forma parte el proyecto cuyos resultados se reportan en este capítulo, ha
transitado de trabajos más simples, que reflejan una visión relativamente ingenua, hacia
acercamientos cada vez más complejos, que implican poner en juego estrategias de investigación
diversificadas, dada la conciencia de que las evaluaciones a cargo del maestro permiten abordar
mejor los aspectos más complejos del aprendizaje, atender su proceso de desarrollo y hacerlo de
modo que la información obtenida sirva para ofrecer retroalimentación detallada y oportuna a cada
estudiante y, a la vez, que para estudiar las prácticas respectivas no había que limitarse a explorar lo
que los docentes mismos dicen hacer, que está marcado por comprensiones insuficientes sobre su
labor y por lo socialmente deseable.
2
Así pues, y a partir del trabajo hecho en el Instituto Nacional para la Evaluación de la Educación
entre 2003 y 2008, en 2009 se comenzó a desarrollar en el Departamento de Educación del Centro
de Ciencias Sociales y Humanidades de la Universidad Autónoma de Aguascalientes una línea de
investigación sobre evaluación en aula, con el proyecto El uso formativo de la evaluación para la
mejora del aprendizaje. Estado del conocimiento y diagnóstico de prácticas de maestros de
primaria de Nuevo León, cuya primera fase permitió recopilar y revisar una extensa bibliografía
sobre evaluación formativa, que culminó en la elaboración de un estado del conocimiento muy
completo y actualizado sobre el tema (Cfr. Martínez Rizo, 2012). La segunda fase consistió en un
diagnóstico de las prácticas de evaluación de los maestros de una muestra representativa de
primarias del estado de Nuevo León, con base en la información obtenida mediante los
cuestionarios que se aplicaron a maestros y alumnos, así como en entrevistas hechas a los docentes
(Cfr. Ruiz Cuéllar y Pérez Martínez, en prensa).
La segunda fase del proyecto incluyó además la recolección de evidencias fotográficas de exámenes
aplicados y tareas ordenadas por los maestros entrevistados, de cuyo análisis se esperaba captar
aspectos de las prácticas de evaluación que cuestionarios y entrevistas no permiten detectar. Para
ello se desarrolló un nuevo proyecto, Las evaluaciones de los maestros de primaria. Análisis de
evidencias de sus prácticas, que se propuso complementar el diagnóstico de las prácticas de
evaluación de maestros mexicanos de primaria derivado del proyecto anterior con tres objetivos
particulares:
Sistematizar una metodología para analizar evidencias de evaluación a partir de la experiencia
de un proyecto sobre la evaluación en las aulas de primaria de América Latina.
Analizar las evidencias fotográficas de las prácticas de evaluación de maestros de primaria de
Nuevo León recopiladas en el 2011.
Organizar un banco de imágenes de las evidencias recopiladas y analizadas, que será puesto a
disposición del público en una página web.
Además de estos dos proyectos, entre 2009 y 2011, se llevaron a cabo tres proyectos más, en el
marco de otras tantas tesis de la Maestría en Investigación Educativa, cuyos resultados se presentan
en otros capítulos de esta obra.
Los resultados que se presentan en seguida incluyen un resumen de trabajos empíricos revisados
sobre prácticas de evaluación en aula, una explicación de la metodología, en especial del marco de
análisis utilizado, y una síntesis de los hallazgos del análisis que se hizo de las imágenes
sistematizadas.
1. La literatura de estudios empíricos sobre prácticas de evaluación en aula
La preparación del estado del conocimiento sobre evaluación implicó la revisión de una extensa
bibliografía sobre el tema, como ya se ha dicho. Esta revisión, sin embargo, se concentró en textos
de carácter teórico y en estudios empíricos sobre el impacto de la evaluación formativa en el
aprendizaje de los alumnos, pero no incluyó trabajos empíricos que exploraran en particular y en
detalle las prácticas de evaluación de los docentes. Esta laguna se explica por la casi total ausencia
de trabajos empíricos en la literatura, que se manifestó en la búsqueda realizada. La explicación de
esta anomalía tiene que ver seguramente con la complejidad que caracteriza a la práctica docente
misma, que ha llevado a que en muchos casos se prefiera no incluirla entre los aspectos
directamente explorados en la investigación educativa.
Uno de los efectos colaterales de la preocupación por los niveles de aprendizaje de los alumnos (a
los que se suele aludir con expresiones como “la calidad de la educación”) que ha traído consigo la
difusión de resultados de evaluaciones internacionales como las de la International Association for
the Evaluation of Educational Achievement (IEA) y la Organización para la Cooperación y el
3
Desarrollo Económicos (TIMSS, PIRLS, PISA) es, precisamente, un renovado interés por el
estudio de las prácticas docentes, muchas veces en relación con los esfuerzos por evaluar a los
maestros en una forma que no se reduzca a la contabilidad de sus años de servicio y sus diplomas.
Una presentación de trabajos recientes en este sentido puede encontrarse en el número especial de la
revista Educational Assessment (Correnti y Martínez, 2012). Allí se señala que los intentos por
estudiar adecuadamente la práctica docente se han repetido en varios momentos a lo largo de casi
un siglo, y que la nueva generación de esfuerzos en esa dirección refleja lo insuficiente de los
anteriores, lo que a su vez pone en evidencia la dificultad de la cuestión. La cita siguiente, tomada
de ese trabajo, es elocuente:
Los datos obtenidos en tales registros [sobre el ambiente del aula] son… selectivos e
inconsistentes y, por lo general, no se pueden comparar con otros registros. Esto se debe a
la tremenda complejidad de cualquier acto de conducta social, y al consiguiente registro de
diferentes elementos de esos complejos actos en diferentes momentos.(Thomas, 1929,
citado por Correnti y Martínez, 2012: 51)
Es importante tener presente esta complejidad, porque se puede hipotizar que el escaso impacto de
la evaluación sobre el aprendizaje que se ha observado en varios estudios se debe, al menos en
parte, a que las prácticas de evaluación de los maestros no tienen realmente los rasgos básicos que
implica un enfoque formativo, aunque los docentes afirmen lo contrario. Es clara la necesidad de
contar con información de buena calidad sobre las prácticas docentes en general, y sobre las
prácticas de evaluación en particular, en los estudios sobre el tema.
La obra de Stiggins y Conklin a que se ha hecho alusión presenta ideas similares. El texto utilizado
como epígrafe de estas páginas afirma que los cimientos de las reformas educativas serán débiles
como arena si decidimos permanecer mal informados sobre la naturaleza, el papel y la calidad de
la evaluación en aula (1992: 4). Los autores citados consideran que:
Ninguna de las reformas educativas en boga (sea la educación basada en resultados, la
reestructuración de las escuelas, la puesta en práctica de las teorías de enseñanza, o los
programas especiales para jóvenes en riesgo, o cualquier otra innovación) ha sido
evaluada adecuadamente, ni podrá serlo, si la evaluación no se hace en términos de la
capacidad de la reforma de que se trate para ayudar a un mayor número de estudiantes a
alcanzar metas de aprendizaje articuladas de manera más clara y evaluadas
cuidadosamente. (Stiggins y Conklin, 1992: 3-4)
Stiggins y colaboradores llegan a la conclusión sobre la necesidad de estudiar en profundidad las
prácticas de evaluación en aula, después de señalar que algunos actores educativos son muy
optimistas en cuanto al papel de la evaluación, considerando que en el futuro ésta será el referente
básico de la enseñanza, gracias a formas de evaluación más avanzadas que se están desarrollando,
pero advirtiendo que:
…los optimistas cautelosos dicen que lo anterior sólo ocurrirá si los educadores, en todos
los niveles, comprenden la diferencia entre evaluaciones sólidas y no sólidas (sound-
unsound), y si logran integrar evaluaciones sólidas de manera eficaz en el proceso de
enseñanza. Y, como mostrarán los resultados de nuestras investigaciones, hay razón para
pensar que ni los maestros ni los administradores –los que hacen que la escuela exista—
consiguen cumplir tales estándares… El desafío que enfrentamos al comenzar nuestra
línea de investigación era encontrar formas de ayudar a maestros y administradores.
(Stiggins y Conklin, 1992: 3-4)
Con una visión del tema que coincide con la anterior, y teniendo en cuenta las limitaciones de los
trabajos previos, este nuevo proyecto de la línea sobre evaluación en aula comenzó con una
4
búsqueda adicional de textos que reportaran trabajos empíricos sobre prácticas de evaluación, y el
resultado es el que se presenta a continuación. Se revisaron siete textos, como sigue:
El texto ya citado de Stiggins y Conklin (1992), que recoge trabajos realizados en el
contexto del sistema educativo de los Estados Unidos, bajo la dirección de uno de los
especialistas más reconocidos en evaluación formativa, y que, además de referencias de
algunos trabajos anteriores, recoge los resultados de varios estudios específicamente
enfocados al tema que nos ocupa, realizados a lo largo de una década, entre 1980 y 1990.
Tres textos derivados de una investigación sobre las prácticas de evaluación en las
primarias de ocho países de América Latina, conducida en 2008 por sus autores y apoyada
por el Programa de Reforma Educativa para América Latina, PREAL. (Loureiro, 2009;
Picaroni, 2009; Ravela, Picaroni y Loureiro 2009)
Tres textos más, producto de otras tantas investigaciones realizadas en México. Una por
estudiosos de Nuevo León (Vidales Delgado et al., 2005). Otra por investigadores del
Instituto Nacional para la Evaluación de la Educación (INEE) con una muestra del sistema
educativo nacional (García Medina et al., 2011). Y una más, el diagnóstico de las prácticas
de evaluación de los maestros de primaria de Nuevo León, hecha con una muestra de ese
estado, como parte del proyecto PIE 10-2N (Ruiz Cuéllar y Perez Martínez, en prensa).
1.1. Los trabajos de Stiggins y colaboradores
La escasez de estudios rigurosos sobre la evaluación en aula llevó a Stiggins a emprender trabajos
para llenar tan importante laguna. La obra titulada “En manos de los maestros” (Stiggins y
Conklin, 1992) presenta los resultados del conjunto de trabajos dirigidos por Richard J. Stiggins,
entre 1980 y 1990. Este libro muestra elocuentemente una síntesis de la progresiva utilización y
evolución de acercamientos cada vez más elaborados por Stiggins y su equipo, los cuales se
describen enseguida:.
Primeramente se llevó a cabo una revisión de los escasos antecedentes que pudieron
identificar en la literatura. (Stiggins y Conklin, 1992, Cap. 2: 9-30)
En seguida se hizo un estudio empírico con dos partes: una encuesta en una muestra de 384
maestros que trabajaban en ocho distritos de distintas regiones (tres en el Este, tres en el
Oeste y dos en el Noroeste) y medio urbano (5) y suburbano (3) de los Estados Unidos; y
un diario que llevaron durante diez semanas 32 de los 228 docentes que respondieron la
encuesta (12 de nivel primaria y 20 de media básica y superior). Con ambos acercamientos
se recogió la versión que los docentes dieron de sus propias prácticas. Las limitaciones de
este trabajo llevaron a desarrollar otros que permitieran obtener información que fuera más
allá de lo que los propios maestros dicen hacer, e indagara lo que realmente hacen.
(Stiggins y Conklin, 1992, Cap. 3: 31-52)
Para ello un tercer proyecto consistió en una observación participante del trabajo docente en
tres aulas de sexto grado de primaria, durante 10 semanas del último trimestre del año
escolar, de manera que se asegurara observar cada salón durante al menos 20 días, y que se
incluyeran todos los días de la semana. (Stiggins y Conklin, 1992, Cap. 4: 53-77)
Dos estudios más se llevaron a cabo en ocho salones de planteles de educación media,
observando en dos de ellos clases de matemáticas, en dos de lengua, dos de ciencias
naturales y dos de estudios sociales. Inicialmente el propósito fue la construcción de un
marco de análisis (con ocho dimensiones que incluían más de 400 rasgos particulares, cfr.
infra) que sistematizara las dimensiones del complejo constructo que denota la expresión
“prácticas de evaluación en aula”. (Stiggins y Conklin, 1992, Cap. 5: 79-98)
5
Luego el trabajo de observación continuó, usando el marco analítico, para hacer perfiles detallados
de las actividades de evaluación que tenían lugar en las ocho aulas mencionadas. El Capítulo 6 de la
obra de Stiggins y Conklin (1992: 99-131) contrasta los perfiles de una clase de historia y otra de
economía avanzada; en el Capítulo 7 (Stiggins y Conklin, 1992: 132-152) se sintetizan las
semejanzas y diferencias de los ocho perfiles estudiados. Los dos últimos trabajos reportados se
enfocaron de manera precisa a explorar la calidad de unas prácticas de evaluación que, después de
los trabajos previos, los autores llegaron a la conclusión de que tenían una especial relevancia.
Uno indagó el grado en que los maestros, en su trabajo diario, tratan de evaluar habilidades
de alto nivel cognitivo, la forma en que lo hacen y la calidad de esas prácticas. Para ello se
trabajó con 36 maestros voluntarios de primero de primaria al último grado de educación
media (grados 1 a 12, con seis docentes de cada pareja de grados). Se recogieron de cuatro
a seis ejemplos de evaluaciones aplicadas recientemente por los maestros (149 documentos
en total), que se analizaron y se entrevistó a los maestros en relación con ellas, además de
observar a cada participante durante un día. (Stiggins y Conklin, 1992, Cap.8: 154-167)
El otro trabajo exploró las prácticas de calificación de 15 maestros en cuatro áreas
curriculares (4 de matemáticas, 4 de lengua, 5 de ciencias y 2 de estudios sociales), a partir
del contenido de algunos textos sobre evaluación que se utilizan en muchos programas de
formación de maestros, para contrastar sus recomendaciones con la práctica real de los
docentes. (Stiggins y Conklin, 1992, Cap.8: 167-175)
Los principales hallazgos se sintetizan en las páginas siguientes.
La revisión de literatura con la que comenzaron los trabajos de Stiggins y colaboradores confirmó
que el ambiente de investigación y desarrollo que prevalecía a principios de la década de 1980
estaba dominado por temas relativos a pruebas estandarizadas en gran escala a tal grado que:
…uno puede especular que las prioridades de la evaluación en gran escala han dominado
el campo tan completamente y durante tanto tiempo, que los académicos no han logrado ni
siquiera percibir, o siquiera reconocer, que puede haber un conjunto distinto de
prioridades relacionadas con otros usos de la evaluación, como la que tiene lugar en las
aulas. (Stiggins y Conklin, 1992: 9)
Los autores señalan que, pese a la capacidad desarrollada para hacer evaluaciones en gran escala de
calidad, los especialistas no sabían cómo apoyar a los maestros a enfrentar las demandas de la
medición del rendimiento de sus alumnos día a día, pese a que esto es una dimensión fundamental
de la enseñanza. Citando a un estudioso destacado del creciente campo de la investigación sobre
enseñanza, dicen que los mejores conocedores del mismo concluyen:
En general, el tipo de pruebas que utilizamos no es congruente con las realidades de la
enseñanza y, en muchos casos, es irrelevante para ella. (Shulman, 1980: 69, en Stiggins y
Conklin, 1992: 11)
La revisión de literatura de Stiggins y Conklin comprendió dos grupos de trabajos: los derivados de
estudios sobre pruebas estandarizadas y los de trabajos de investigación sobre enseñanza (research
on teaching). En ambos casos se concluye que prácticamente no se presta atención a las prácticas de
evaluación del docente. Lo poco que se puede decir sobre la evaluación en aula a partir de estudios
sobre pruebas (testing) es que los docentes dicen hacer muchas otras cosas, a las que ellos dan más
importancia, como la observación de sus alumnos; que la evaluación es una parte importante de su
trabajo; que sólo alrededor de una tercera parte de los maestros de primaria elaboran ellos mismos
pruebas de tipo estandarizado para aplicar a sus alumnos, y que en educación media la proporción
es más alta, alcanzando alrededor de 75 por ciento; y que los maestros dicen tener considerable
dificultad para elaborar ese tipo de instrumentos (Stiggins y Conklin, 1992: 12-20). En un apartado
posterior veremos lo que se encontró en cuanto a la evaluación de habilidades cognitivas complejas.
6
Según la encuesta respondida por 228 maestros de diferentes zonas de Estados Unidos, por una
parte la proporción que informa no usar pruebas elaboradas por él o ella es de alrededor de un tercio
(34%) en los primeros grados de primaria, y desciende hasta 11% al final de la enseñanza media, en
tanto que los que dicen no usar pruebas elaboradas externamente, que al principio de la primaria son
también alrededor de un tercio (34%), aumentan hasta ser algo más de la mitad (52%) al fin de la
enseñanza media. Además, en todos los casos alrededor de la mitad (49-52%) dice sentirse cómodo
al usar ese tipo de instrumentos, y de 9 a 14% considera que los domina perfectamente. Sin
embargo, cerca de la mitad (42%) dijo sentir preocupación por la necesidad de mejoras sus propias
pruebas, y otro 19% dijo no tener tiempo para desarrollarlas. Un 28% (uno de cada cuatro maestros)
dijo no tener preocupaciones al respecto. (Stiggins y Conklin, 1992: 35-41)
Por su parte, el análisis de diarios preparados por 32 profesores permitió analizar 290 actividades de
evaluación y mostró que, en dos terceras partes de los casos, el propósito era asignar calificaciones
o determinar si los alumnos dominaban ciertos contenidos, en 18% diagnosticar, y sólo en seis por
ciento retroalimentar la enseñanza. Sólo en tres casos se buscaba evaluar habilidades de alta
complejidad cognitiva. Sólo en 40% de los casos las evaluaciones consistieron en pruebas, con 24%
hechas por el docente; el 60% restante consistía en observaciones del comportamiento de los
alumnos o de sus trabajos. Pudo apreciarse además que, en general, los maestros se mostraban
dispuestos a aceptar que sus evaluaciones tenían puntos débiles, pero no podían analizar en detalle
en qué consistían esas debilidades. Se manifestó un amplio consenso en el sentido de que las
pruebas externas en gran escala eran también muy limitadas y poco útiles para darles información
relevante de tipo diagnóstico alineada con el currículo. (Stiggins y Conklin, 1992: 42-52)
Los acercamientos cualitativos de los estudios siguientes pusieron en evidencia la gran complejidad
de las prácticas de evaluación, que los trabajos anteriores no conseguían abarcar de manera
suficiente, y llevaron al desarrollo del marco analítico que se presenta más adelante. Estos trabajos
se hicieron en escuelas de educación media, y sus resultados son consistentes con los de los trabajos
anteriores en los aspectos más gruesos captados en ellos, pero también aportaron elementos nuevos,
en particular en lo relativo a los niveles de demanda cognitiva de las evaluaciones.
En el capítulo 6 de la obra citada se describe de manera detallada como se obtuvo el perfil de un
maestro que impartía clases de historia, en donde se encontró con respecto a los propósitos de la
evaluación, el maestro considera de gran importancia que sirva para asignar calificaciones (60
puntos de 100 posibles); en segundo lugar aparece el propósito de controlar y motivar a los alumnos
(20 puntos); y luego el comunicar las expectativas de logro (10 puntos), otros aspectos menos
importantes para los cuales se usa la evaluación son para diagnóstico de necesidades individuales,
grupales entre otras. (Stiggins y Conklin, 1992: 104) Otro aspecto considerado en la descripción de
este perfil, que Stiggins y sus colaboradores desarrolaron, encontraron que el maestro considera
que los exámenes que contienen los materiales curriculares son muy rutinarios y evalúan
únicamente memoria. Esté maestro dice que los exámenes que elabora él mismo sí incluyen
preguntas de todos los niveles de demanda cognitiva, pero el análisis de esos exámenes
desarrollados por los maestros de la investigación muestra que casi todas sus preguntas se enfocan
también sólo a memorización. (Stiggins y Conklin, 1992: 105-106 y 115)
Los trabajos que este docente pone a hacer en clase también incluyen principalmente cuestiones de
memorización (70% de los trabajos); un 20% implica hacer comparaciones y 10% la evaluación de
textos. Están ausentes actividades que impliquen análisis o inferencias. Estas tendencias son
todavía más marcadas cuando se trata de preguntas orales. (Stiggins y Conklin, 1992: 109)
El maestro suele exponer un tema con hechos puntuales y después pregunta los mismos hechos en
los exámenes. Las tareas se refieren también predominantemente a hechos específicos, sobre todo
las que se hacen para preparar a los alumnos para un examen. (Stiggins y Conklin, 1992: 117)
7
En el siguiente capítulo del libro, Stiggins y sus colaboradores hacen un comparativo entre el
profesor descrito anteriormente y otro más aplicando el mismo perfil de evaluación en diferentes
ambientes de trabajo (asignaturas, grado, entre otros factores). Por lo que se refiere a la calidad de
las evaluaciones hechas por los maestros, los exámenes y las tareas en general tenían un buen nivel,
con una excepción notable: la evaluación de habilidades de alto nivel cognitivo, que en la mayoría
de los casos tenía criterios de desempeño y procedimientos de calificación definidos en forma vaga.
(Stiggins y Conklin, 1992: 141)
Por otra parte las pruebas estandarizadas, simplemente por su formato, tienden a ser consideradas
confiables por los maestros, que buscan imitarlas, en tanto que las evaluaciones basadas en
observación del desempeño, y las basadas en preguntas de tipo ensayo son vistas como subjetivas y,
por lo tanto, menos aceptables, por lo que su uso es mínimo. (Stiggins y Conklin, 1992: 142)
Las actividades de evaluación ocupan buena parte del tiempo de clase. El docente promedio dice
dedicar alrededor de una cuarta parte del tiempo de clase a ellas, ocupando el resto en exposición de
temas (40%), instrucción individual (25%) y planeación (10%). (Stiggins y Conklin, 1992: 145)
Por lo que se refiere a la retroalimentación que ofrecen a sus alumnos sobre los resultados de las
evaluaciones, las tareas en su mayoría son marcadas por lo menos con un símbolo y los alumnos
obtienen esta retroalimentación en tiempo oportuno. (Stiggins y Conklin, 1992: 143)
La mayoría de los maestros consideran que la enseñanza y la evaluación son actividades separadas,
sin una relación sistemática entre sí. La mayor parte no sabe cómo hacer buen uso de la evaluación
durante el proceso de enseñanza para contrastarla, evaluarla y hacerla más efectiva y significativa.
De hecho, antes de participar en investigaciones como las conducidas por este grupo, los maestros
dijeron que pasaban poco tiempo reflexionando acerca de la naturaleza o calidad (validez,
confiabilidad y valor comunicativo) de sus evaluaciones. (Stiggins y Conklin, 1992: 148 y 141)
Por lo que se refiere a los trabajos enfocados precisamente al estudio de las prácticas de evaluación
de habilidades de alto nivel cognitivo y su calificación, al reportar hallazgos relevantes de trabajos
previos, Stiggins destaca que los maestros, cuando formulan ítems para los exámenes que elaboran,
tienen dificultad para redactar preguntas que representen alta demanda cognitiva (Carter, 1984). Un
dato concreto muestra la seriedad del problema: un análisis de cerca de 9000 preguntas elaboradas
por los maestros para sus exámenes encontró que más del 90 por ciento se enfocaba únicamente al
recuerdo de hechos puntuales (Fleming y Chambers, 1983). De manera general, según un estudio de
Reynolds y Menard (1989) los maestros tienden a ignorar los niveles taxonómicos de Bloom en los
exámenes escritos que elaboran. (Stiggins y Conklin, 1992: 154-155)
Los resultados del trabajo de Stiggins et al. con 36 maestros mostraron, por su parte, que la
proporción de preguntas de memorización fue de 56% en los primeros grados de primaria, y bajó a
41% en los últimos de enseñanza media, en tanto que las que implicaban inferencias subieron de
19% en el primer caso a 44% en el último. En cuanto a las preguntas orales dirigidas por los
docentes a los alumnos, en los primeros grados de primaria el 70% correspondió a memorización y
el 17% a inferencia, en tanto que en los últimos grados de enseñanza media las proporciones
respectivas fueron 42% y 18%. (1992: 161 y 163)
Los 15 maestros del último estudio reportado consideraron que el esfuerzo del alumno se debe tener
en cuenta al calificar su trabajo, además de su desempeño efectivo, y la mitad manejó formas de
calificación diferentes para alumnos considerados más o menos capaces, a pesar de que los textos
recomiendan lo contrario. Nueve de los 15 profesores califican todos los trabajos de los alumnos,
pese a que los textos recomiendan que muchos tengan un papel sólo formativo. Y en cuanto a la
calidad de la forma de calificar, prácticamente no hubo evidencias de un cuidado sistemático al
respecto por parte de los profesores; la forma de combinar resultados parciales y la de llegar a una
puntuación numérica también fue muy arbitraria. (Stiggins y Conklin, 1992: 170-171)
8
1.2. El proyecto apoyado por el PREAL. “La evaluación de aprendizajes en las aulas de
primarias de América Latina, enfoques y prácticas”
El estudio de carácter exploratorio y descriptivo fue llevado a cabo por Pedro Ravela, Beatriz
Picaroni y Graciela Loureiro del Instituto de Evaluación Educativa de la Universidad Católica de
Uruguay en ocho países de América latina, incluyendo 80 escuelas y 160 maestros de 6° grado a los
que se aplicó un cuestionario autoadministrado y una entrevista semi-estructurada en profundidad.
Además de lo anterior se recogieron propuestas de evaluación y trabajos de estudiantes, en la forma
de 4360 registros fotográficos. Además de lo anterior se realizó un análisis de los currículos
nacionales de los ocho países que participaron en la investigación. Los resultados del estudio se han
difundido en los tres textos revisados, los cuales se describen enseguida:
Beatriz Picaroni (2009). Este documento muestra los principales hallazgos en relación con
los enfoques y discursos que los maestros tienen sobre la evaluación y su práctica, la
retroalimentación que dan a los alumnos y la comunicación de las que realizar de estas
evaluaciones con los padres de familia. El texto se organiza en cuatro apartados en donde se
dan a conocer los siguientes temas respectivamente: las concepciones de los docentes sobre
la evaluación, la toma de decisiones de calificación y aprobación o reprobación, los usos
formativos de la evaluación (comunicación con los alumnos-retroalimentación) y la
comunicación con las familias a partir de las evaluaciones.
Un documento más es el Boletín N°12, Observatorio Regional de políticas de evaluación
educativa (Ravela, Picaroni y Loureiro 2009). Este documento da a conocer de forma
sintética el estudio realizado, sus objetivos y metodología usada. También se da de forma
breve algunos de los más importantes resultados.
Un tercer documento derivado de la investigación fue elaborado por Graciela Loureiro
(2009) en donde realiza un análisis de las interrelaciones o congruencias que hay entre los
currículos nacionales, lo que evalúan los maestros y lo que evalúan en los países con las
pruebas externas estandarizadas.
Los principales hallazgos se sintetizan a continuación.
En cuanto al tipo de evaluaciones que realizan, muchos docentes manifiestan realizar una
evaluación diagnóstica al inicio del año lectivo, fundamentalmente para tomar decisiones de
planificación, así como una evaluación al final de cada bimestre. (Picaroni, 2009: 19)
El discurso se centra en las funciones básicas de la evaluación (sumativa y formativa), pero de
manera poco específica. Los docentes se limitan a caracterizar las evaluaciones de modo general y
en algunos casos incurren en contradicciones a lo largo de la entrevista, situación que permite
suponer la existencia de carencias en la solidez de los conceptos expresados. (Picaroni, 2009: 41)
El instrumento más mencionado es la prueba objetiva o examen; es usado todos los meses, o en
forma bimensual o trimestral, principalmente para calificar a los alumnos. Se utilizan instrumentos
de aplicación diaria (tareas, ejercicios, hojas de trabajo, actividades escritas u orales) que conforman
lo que se denomina “evaluación continua”. En la mayoría de los casos, se realizan en el cuaderno de
clase o en forma oral, con apoyo del pizarrón. (Picaroni, 2009: 29-30)
En el contexto educativo mexicano se valora la disposición y el compromiso de los alumnos, la
puntualidad, el interés en las actividades realizadas, la disciplina y la limpieza de los trabajos. La
mayoría de los docentes no explicita la ponderación de cada uno de estos elementos, pero enfatizan
que el examen es lo que tiene más peso a la hora de promediar los puntos obtenidos por el trabajo
realizado a lo largo de un bimestre. (Picaroni, 2009: 35)
Un aspecto común a los países es la independencia con que los maestros asignan calificaciones, aún
en aquellos en que establecen normativas explícitas. Cada docente resuelve con total autonomía,
9
tanto la combinación de instrumentos o instancias que tomará en cuenta para calificar a sus
alumnos, como la periodicidad con que lo hará. (Picaroni, 2009: 60)
La toma de decisiones de calificación, aprobación o reprobación no se fundamenta en criterios
homogéneos entre los docentes, pese a que existen y están plasmados en los objetivos de los
programas escolares para cada materia y grado. En México los profesores tienen absoluta libertad
para decidir mediante qué actividades los alumnos demostrarán el grado de dominio de los
contenidos vistos en cada materia y la ponderación de las mismas, por lo que al finalizar un grado
escolar no es posible garantizar que todos los alumnos han logrado el mismo nivel de conocimiento,
aún cuando tengan el mismo promedio final. (Picaroni, 2009: 56)
Es importante añadir que, aunque la normatividad escolar suele establecer en forma general los
objetivos programáticos, hay una grave carencia de precisión al respecto. Un hallazgo importante es
que en ninguno de los países estudiados la normatividad incluye un respaldo conceptual de carácter
descriptivo que asegure la relación entre la calificación otorgada a un alumno y los desempeños a
los que ella refiere. Ni en las normativas de evaluación, ni en los currículos, se explicitan los
referentes de la evaluación en forma detallada. (Picaroni, 2009: 60)
Las consignas empleadas en las propuestas de evaluación suelen estar cargadas de ambigüedades y
aspectos implícitos que tal vez sean claros para el docente pero seguramente no lo son para el
alumno. Por otra parte, la mayoría de las propuestas son puramente escolares, descontextualizadas y
sin audiencias medianamente plausibles; son excepcionales las propuestas de evaluación basadas en
actividades auténticas. (Picaroni, 2009: 62 y 42)
Por lo que se refiere a la retroalimentación que se da a los alumnos, pocos docentes realizan
devoluciones en sentido estricto, es decir, expresiones que permitan al alumno comparar lo
efectivamente realizado con lo que se esperaba que lograra, a fin de comprender las insuficiencias
de su trabajo y profundizar en el conocimiento cuando los trabajos están bien logrados. Aunque
algunos docentes manejan la distinción entre evaluación formativa y sumativa, y dicen preferir la
primera, en la práctica muchos de ellos califican todos los trabajos y no dan otros tipos de
devolución a los alumnos más allá de la calificación o puntaje. En el mejor de los casos, reemplazan
la calificación por juicios del tipo “muy bien” o “debes esforzarte más”. (Picaroni, 2009: 85 y 100)
En el mismo sentido, en otro de los informes derivados de este estudio se reporta que las
devoluciones que los maestros hacen a los niños a partir de sus trabajos no los orientan claramente
sobre las formas para avanzar y sus propuestas didácticas no guardan relación con los resultados
obtenidos por los niños o no son específicas. Se limitan a asignar calificaciones expresadas
numérica o literalmente, sin informar sobre los aspectos involucrados ni indicar posibles formas de
mejorar. Muchos se preocupan por estimular a los alumnos para que hagan un mayor esfuerzo, pero
no les dan pistas concretas acerca de cómo hacerlo. (Ravela, Picaroni y Loureiro, 2009: 5)
Además de servir para orientar los esfuerzos de los estudiantes, la evaluación debe también ser una
herramienta para que los maestros tengan elementos para orientar mejor su propio trabajo, a partir
del avance de sus alumnos, considerando en particular la situación de los que experimenten
mayores dificultades para aprender. En este sentido el trabajo del PREAL muestra también que sólo
algunos docentes se esfuerzan por desarrollar estrategias didácticas a partir de las necesidades
cognitivas que se detectan gracias a los resultados obtenidos por los alumnos en las evaluaciones.
Pareciera que, en general, la forma de enfrentar la situación de los alumnos de resultados más bajos
es que los docentes apelan a factores emocionales y al esfuerzo personal de esos alumnos, y que no
hacen ajustes en su propia práctica. (Picaroni, 2009: 101-102)
Otros destinatarios clave de la retroalimentación derivada de las evaluaciones son los padres de
familia, que deberían recibir información que les permita apoyar mejor el trabajo de sus hijos. Sin
embargo el trabajo del PREAL mostró que hay pocas diferencias en los países estudiados en este
sentido: las diferencias se refieren a los aspectos menos sustantivos: las formas de expresión de las
10
calificaciones. En casi todos los casos la información que reciben las familias sobre los logros de
sus hijos está fuertemente basada en las calificaciones, que sólo dan cuenta de una posición relativa
a partir de las categorías de una escala de valoración. (Ravela, Picaroni y Loureiro, 2009: 5)
Algunos de los resultados encontrados en el análisis de los currículos nacionales resaltan varios
puntos en común: los currículos se enfocan al desarrollo de competencias y habilidades, destacan la
importancia de no limitar la educación a la transmisión de conocimientos y además usarlo en
situaciones distintas en la vida cotidiana. Los currículos de América latina describen a la evaluación
como un proceso que debe ser continuo, permanente y flexible, además de que se encuentra en ellos
la necesidad de elaborar evaluaciones diagnósticas, además de realizar evaluaciones formativas y
sumativas en el proceso. (Loureiro, 2009: 14)
A pesar que los currículos latinoamericanos analizados se centran en el desarrollo de competencias,
se encontró que la mayoría de las tareas entregadas por los profesores en este estudio no
involucraban contextos reales y complejos (Loureiro, 2009: 101), esto es, no existe una
transferencia de los conocimientos adquiridos más allá de memorización. Otro resultado a resaltar
es relacionado con el discurso de los maestros que dicen cumplir con lo establecido en los
currículos, pero creen que son necesarias algunas adecuaciones para incluir conocimientos que no
se encuentran explícitos en ellos, además aun cuando los maestros dicen cumplir con el currículo se
encontraron evidencias muy fuertes de que los maestros no siempre toman en cuenta las
metodologías y enfoques didácticos sugeridos en los mismos. (Loureiro, 2009:103)
Un aspecto diferente del estudio patrocinado por el PREAL es el que se refiere al impacto que
tienen sobre el trabajo docente las evaluaciones externas que se han extendido recientemente en
todos los países de América Latina.
En este sentido es interesante señalar que, en varios de los países del estudio, las evaluaciones
nacionales proponen actividades en contextos significativos, con propuestas de una complejidad
cognitiva que pocas veces se encuentran en las propuestas elaboradas por los maestros mismos
(Loureiro, 2009: 104). Esas evaluaciones estandarizadas están más avanzadas y más en línea con los
desarrollos de la didáctica que las propuestas que se implementan en las aulas.
Este hallazgo contradice la extendida idea de que las evaluaciones externas son memorísticas, están
focalizadas en los resultados y desconocen los procesos de aprendizaje de los estudiantes, todo lo
cual sólo sería contemplado en las evaluaciones que hacen los maestros en el aula. Como este no es
el caso, las evaluaciones externas podrían ofrecer a los maestros instrumentos de trabajo que apoyen
sus tareas cotidianas, pero los efectos pueden ser ambivalentes: algunos maestros pueden apropiarse
de las evaluaciones externas como herramientas y aprovecharlas en función de su propia propuesta
educativa, pero para otros pueden servir simplemente para “llenar el tiempo” y entrenar a los
estudiantes para responder pruebas estandarizadas. (Ravela, Picaroni y Loureiro, 2009: 11-12)
Por último, la investigación resalta un punto importante, se sabe que los países han actualizado sus
currículos y han diseñado materiales educativos dando un papel importante a la evaluación en el
proceso de enseñanza y aprendizaje, sin embargo, las evidencias encontradas en el estudio
mostraron las profundas dificultades que los maestros presentan para llevar dichas propuestas a las
aulas. (Loureiro, 2009: 107)
1.3. Estudios mexicanos
1.3.1. El trabajo de Ismael Vidales Delgado y colaboradores
Este texto recoge resultados de un proyecto realizado en el estado de Nuevo León, sobre prácticas
de evaluación de docentes de primaria. Se hizo primero un análisis documental, seguido por
entrevistas semi-estructuradas con informantes calificados, para elaborar un marco de referencia.
Luego se trabajó con una muestra de 313 profesores y profesoras de primarias públicas del estado.
11
Según este trabajo, la idea que tienen los maestros sobre la evaluación es fragmentada y dispersa,
limitándose a reproducir la terminología de los textos que se manejan en cursos de actualización,
por lo que las actividades de evaluación que llevan a cabo en el aula tienen cierto sustento teórico,
pero no siempre bien entendido o utilizado en forma consciente e intencional. Por ello, para
elaborar instrumentos o asignar calificaciones, los maestros tienden a guiarse por su experiencia
más que por principios teóricos, que suelen estar ausentes, en opinión de supervisores y jefes de
sector. Algunas personas, sin embargo, piensan que no hay tal desconocimiento teórico, sino más
bien resistencias debido al exceso de carga administrativa. (Vidales Delgado et al., 2005: 184)
En el discurso muchos maestros coinciden en que se evalúa para mejorar la práctica docente y los
desempeños de los alumnos en conocimientos, habilidades, actitudes v valores, pero en la práctica
prevalece la visión de que la evaluación es sólo un evento temporal (bimestral, mensual o semanal)
que sirve principalmente para sustentar juicios sobre aprobación o reprobación de los alumnos, un
requisito para dar resultados numéricos a la administración. Estas opiniones son reforzadas por
una cultura en la que padres de familia y autoridades piden la evaluación como un formalismo que
da supuestas evidencias cuantitativas del avance de sus hijos. (Vidales Delgado et al., 2005: 185)
Según los maestros prevalece el uso de exámenes escritos y, al parecer, son los docentes de más
antigüedad en el servicio los que menos utilizan esos recursos. Esto parecería indicio de que la falta
de experiencia, o las deficiencias en la formación de las generaciones más recientes de maestros,
podrían ser la explicación del recurso frecuente a ese tipo de exámenes, adquiridos ya elaborados
por falta de capacidad para desarrollar evaluaciones propias. (Vidales Delgado, 2005: 189)
Según la opinión de supervisores y jefes de sector, un alto porcentaje de escuelas y maestros
compran exámenes y otros recursos de evaluación y planeación a editoriales y otras instancias. Para
los exámenes bimestrales la cifra podría llegar hasta el 80 por ciento. Sin embargo, una amplia
mayoría de los directores (72 por ciento) sostiene que en sus escuelas los exámenes son hechos por
los mismos maestros, y sólo un 28 por ciento reconoce que los adquieren de instancias externas. De
los maestros que informan que elaboran sus propios exámenes, el 66 por ciento dice hacerlo en
forma individual y el 34 por ciento en parejas o colegialmente. Sin embargo, parece haber falta de
capacitación en el manejo de los materiales curriculares en que se deberían basar las evaluaciones;
pocos maestros los utilizan y muchos no entienden sus propósitos o consideran que las formas de
evaluación sugeridas son muy complicadas y laboriosas; por ello los exámenes se suelen limitar a
verificar cuántos conceptos aprendió el niño. (Vidales Delgado et al., 2005: 189-190)
Por lo que se refiere a la información derivada de las evaluaciones que se entrega a los padres de
familia, no hay informes amplios ni se da seguimiento a los resultados del proceso educativo; sólo
se entregan las boletas de calificación y las observaciones de apoyo a los hijos, de felicitación o de
descalificación. (Vidales Delgado, 2005: 194)
1.3.2. El estudio del Instituto Nacional para la Evaluación de la Educación
Entre 2009 y 2010, un grupo de investigadores del Instituto Nacional para la Evaluación de la
Educación (INEE) diseñó y aplicó a 3534 profesores de 1193 escuelas un cuestionario estructurado
sobre sus propias prácticas de evaluación, además de un cuestionario complementario a una muestra
de alumnos (17908) y otro a los directores de los mismos planteles. La muestra fue obtenida
aleatoriamente y se calculó de manera que fuera representativa a nivel nacional.
Según los resultados de este trabajo, la mayoría de los docentes de primaria de México dicen
utilizar la evaluación desde una perspectiva de mejora del aprendizaje y de la enseñanza, o sea en
forma congruente con un enfoque formativo. El 17 por ciento de los maestros encuestados afirmó
que evalúa para saber cómo apoyar a los alumnos y cerca de 11 por ciento dijo hacerlo para
planear y conducir sus clases. Alrededor de 43 de cada cien dicen emplear la evaluación
principalmente como medio para identificar problemas en el aprovechamiento de los alumnos.
(García Medina et al., 2011: 28)
12
La mayoría de los docentes (68%) aplican exámenes escritos bimestralmente, lo que coincide con el
periodo establecido en la normativa para emitir calificaciones, 31% de los maestros lo hace
mensual, quincenal o semanalmente y menos de 1% no los utiliza. Los cuestionamientos orales son
frecuentemente utilizados por el 61.5% de los maestros. (García Medina et al., 2011: 71-72)
En español, la escritura de textos de distinto tipo y la lectura en voz alta son acciones de evaluación
utilizadas con frecuencia por un mayor porcentaje de profesores: 67 de cada 100 dijeron hacerlo en
el bimestre. En cuanto a escritura, los maestros tienden a evaluar con mayor frecuencia la
segmentación de las palabras y menos la claridad de la expresión de las ideas. Y en cuanto a lectura,
el respeto de signos de puntuación y la dicción o pronunciación de las palabras son los aspectos que
más profesores consideraron importantes para valorar. (García Medina et al., 2011: 44, 48-49)
En cuanto a matemáticas, sólo cuatro de cada 10 profesores utilizan la invención de problemas con
mucha frecuencia para evaluar la asignatura. El 74 por ciento de los profesores utilizan de manera
muy frecuente la actividad “resolver operaciones” (sumas, restas, multiplicaciones, divisiones) para
evaluar a sus alumnos en matemáticas. La actividad a la que recurren de manera más frecuente la
mayoría de los docentes (82%) es resolver problemas en los que tengan que hacer operaciones.
(García Medina et al., 2011: 49-50)
Por lo que se refiere a los niveles de demanda cognitiva que se manejan en las evaluaciones,
algunos resultados del estudio del INEE van en el sentido de un uso considerable de actividades que
implican niveles cognitivos altos. Según esos resultados, los maestros mexicanos utilizan con mayor
frecuencia actividades de niveles altos e intermedios de complejidad, y con menor frecuencia las
actividades de complejidad baja como memorización o razonamiento. Se señala también que las
primarias generales tuvieron menores porcentajes en las actividades de demanda cognitiva baja y
mayores en casi todas las de nivel de complejidad alta. (García Medina et al., 2011: 52 y 56)
Estos resultados parecen poco consistentes con otros, como los que se refieren a la calificación de
las evaluaciones, que apuntan en el sentido de que los aspectos más importantes para asignar una
nota fueron “atención” y/o “participación en clase” (71%) y “calificación obtenida en los trabajos
en clase” (48%). Por otra parte, cerca de 63% de los maestros asigna calificaciones “considerando
aciertos y errores” de forma cotidiana. (García Medina et al, 2011: 55 y 77)
Menos de 10% de los profesores utilizan ejemplos de malos trabajos para que los alumnos
identifiquen lo que no deben hacer. La práctica más extendida (74%) es que los maestros indiquen a
los alumnos las características requeridas para considerar de buena calidad un trabajo, pero esto no
se acompaña por una práctica de modelamiento. (García Medina et al., 2011: 72 y 75)
En cuanto a formas de retroalimentación, la firma o sello son recursos utilizados frecuentemente por
poco más de 70 de cada 100 profesores, aunque se trata de medios poco informativos. Mucho más
congruente con una buena retroalimentación una evaluación realmente formativa consiste en
explicar a los alumnos cómo solucionar los errores cometidos, y casi 71 por ciento de los maestros
dice utilizar esta estrategia de forma cotidiana cuando retroalimenta a sus estudiantes. Aunque la
cifra parece muy alta y su coincidencia con la cifra anterior hace dudar de su validez, la opinión de
los alumnos parece coincidir, ya que cuando se les preguntó si sus maestros los apoyaban donde
tenían más problemas para aprender, y si hablaban con ellos sobre lo que necesitarían hacer para
mejorar su aprendizaje, en más del 71% de los grupos la mayoría de los estudiantes afirmó que sus
profesores realizaban de forma frecuenta ambas actividades. (García Medina et al., 2011: 76-78)
Por último, otros resultados del estudio indican que enseñar a los alumnos a autoevaluarse es una
actividad poco frecuente de la mayoría de los profesores: sólo 13% de los maestros suele pedir a sus
alumnos que se autoevalúen y 46% nunca lo hace. En el mismo sentido, apenas 20% de los
docentes incluye entre sus prácticas cotidianas proporcionar guías o indicaciones para que los
alumnos se autoevalúen o co-evalúen y casi 40% nunca lo hace. (García Medina et al, 2011: 78-79)
13
1.3.3. El diagnóstico de las prácticas de evaluación del PIE 10-2N
Este estudio se presenta en otro capítulo de esta obra. Sus resultados coinciden en mucho con los
hallazgos reportados en apartados anteriores. Muestra que los maestros dicen concordar con la
evaluación formativa, pero hay elementos para temer que las prácticas no sean congruentes con las
concepciones y creencias manifestadas, ni con una evaluación realmente formativa: por una parte,
los obstáculos para implementar prácticas formativas, según los maestros, son principalmente el
tamaño de los grupos y la falta de tiempo; por otra, los maestros siguen dando excesiva importancia
a la calificación de todos o casi todos los instrumentos de evaluación que utilizan. Hay, además,
cierta contradicción en las percepciones de los maestros sobre sus competencias de evaluación
formativa: predomina una visión positiva sobre ellas, pero la mayoría coincide en que le es
necesario recibir apoyo o formación al respecto. Parecería haber buena alineación entre enseñanza y
evaluación, pero hay bases para plantear una hipótesis en cuanto a la predominancia de metas de
baja demanda cognitiva como explicación: en tal sentido apunta la masiva opinión de los alumnos
de que los exámenes son fáciles, que puede indicar que las preguntas tienen bajo nivel de demanda
cognitiva. Enseñanza y evaluación parecen coincidir en manejar tareas de baja demanda cognitiva.
2. Metodología
2.1. El corpus de imágenes
Las imágenes recopiladas fueron 1229, número que se redujo luego a 850 imágenes analizables, 244
evidencias de español (inicialmente 317) y 213 de matemáticas (inicialmente 248). La depuración
de las imágenes pasó por varias etapas en las que algunas se fueron descartando por distintas
razones: no corresponder a tareas o exámenes o a las asignaturas de español o matemáticas, ser de
baja calidad, demasiado borrosas para ser editadas, ser sólo extractos o partes de exámenes o tareas
más amplias. Tras la última etapa, en que se eliminaron las últimas 50 imágenes como resultado del
primer análisis y la limpieza de las bases de datos entregadas por los calificadores, las imágenes que
se utilizaron en el análisis fueron finalmente 850: 366 de matemáticas (que comprenden 217
evidencias de 74 escuelas) y 484 imágenes de español (240 evidencias de 73 escuelas).
Tabla 1. Características de las evidencias analizadas
Aspectos Valores
Total
n=457
Español
n=240, 52.5%
Matemáticas
n=217, 47.5%
Número % Número % Número %
Total de imágenes
Una 309 67.6 150 62.5 159 73.3
Dos a cuatro 110 24.1 66 27.5 44 21.6
Cinco o más 38 8.3 24 10.0 14 6.1
Grado
Segundo 173 37.9 91 37.9 82 37.8
Quinto 114 24.9 58 24.2 56 25.8
Sexto 170 37.2 91 37.9 79 36.4
Género
Hombre 227 49.7 113 47.1 114 52.5
Mujer 220 48.1 124 51.7 96 44.2
No identificado 10 2.2 3 1.2 7 3.2
Nivel de rendimiento Sobresaliente 246 53.8 127 52.9 119 54.8
Bajo 210 46.2 112 47.1 98 45.2
Medio Urbano 367 80.3 191 79.6 176 81.1
Rural 90 19.7 49 20.4 41 18.9
Tipo de evidencia
Examen 223 48.8 126 52.5 97 44.7
Tarea 234 51.2 114 47.5 120 55.3
Fuente: Elaboración propia a partir de la base de datos
14
2.2. El marco analítico
Para la revisión de las imágenes se preparó un marco de análisis que precisara las dimensiones de
las prácticas de evaluación que idealmente se trataría de detectar, a partir de la literatura sobre
evaluación en aula en general, y en particular sobre evaluación formativa, sintetizada en el estado
del conocimiento derivado del proyecto El uso formativo de la evaluación para la mejora del
aprendizaje, Estado del conocimiento y diagnóstico de prácticas de maestros de primaria de Nuevo
León (Martínez Rizo, 2012), así como de la revisión de literatura adicional hecha para este
proyecto, cuyos resultados se han reportado en el apartado anterior. Se consideró en particular el
marco analítico desarrollado por Stiggins y colaboradores, así como el marco utilizado en un
estudio de validación de un instrumento complejo para medir las prácticas de evaluación en aula en
el área de ciencias (QAS Notebook, Martínez et al., 2012)
El marco desarrollado por Stiggins y otros comprende ocho dimensiones, como sigue:
1. Propósitos de la evaluación.
2. Métodos de evaluación: contenidos a evaluar y formas de hacerlo. 3. Criterios para seleccionar el método de evaluación.
4. Calidad de las evaluaciones.
5. Retroalimentación.
6. El maestro como evaluador.
7. Percepción del estudiante acerca del maestro.
8. Políticas de evaluación. (Stiggins y Conklin, 1992: 80)
Por su parte, el marco usado para validar el QAS Notebook comprende nueve dimensiones, que en
conjunto buscan captar el constructo complejo denominado práctica de evaluación:
1. Establecimiento de metas de aprendizaje claras.
2. Frecuencia de las evaluaciones.
3. Variedad de las evaluaciones.
4. Alineación de las evaluaciones con las metas de aprendizaje.
5. Complejidad cognitiva.
6. Manejo de explicaciones y justificaciones científicas.
7. Participación de los alumnos en actividades de auto-evaluación.
8. Uso de la información para dar retroalimentación a los alumnos.
9. Uso de la información para sustentar decisiones de instrucción. (Martínez et al., 2012: 109)
A partir de lo anterior se elaboró una ficha para analizar las evidencias de evaluación que dieron los
profesores de Nuevo León. La versión completa de esa ficha comprende los siguientes aspectos:
A. Identificación de la evidencia:
a. Número de la escuela en la que se produjo
b. Número de imágenes que corresponden a la evidencia
c. Grado escolar al que corresponde
d. Género del alumno que respondió el examen o hizo la tarea
e. Nivel de rendimiento del alumno, según su maestro
f. Medio en que se ubica la escuela (urbano o rural)
g. Asignatura: español o matemáticas
h. Tipo de evidencia: examen o tarea
i. Origen de la evidencia: elaborada por el maestro, comprada…
j. Bloque del currículo al que corresponde
B. Referentes curriculares
a. Presencia del referente curricular
b. Referente enfatizado en español o matemáticas
15
c. Meta de aprendizaje del referente curricular
d. Meta de aprendizaje prevaleciente en la evidencia (inferida)
e. Tipo de preguntas usadas (prevaleciente): de respuesta estructurada, de respuesta
abierta corta, de respuesta extendida
f. Método de evaluación prevaleciente
g. Coherencia entre meta del referente curricular y método prevaleciente
h. Coherencia entre meta inferida y método prevaleciente
C. Propósito de la evaluación
a. Propósito de uso de las evaluaciones de diagnóstico
b. Propósito de uso de evaluaciones bimestrales y tareas
c. Propósito de uso afectivo
D. Instrucciones/Consigna
a. Claridad de la instrucción
b. Finalidad o propósitos
c. Destinatarios
d. Incertidumbre
e. Restricciones
f. Repertorio de metas
g. Proceso de trabajo
E. Calificación
a. Existencia de la calificación
b. Claridad de los criterios de calificación
c. Ponderación de los criterios de calificación
F. Retroalimentación
a. Existencia de la retroalimentación
b. Tipo de retroalimentación general
c. Calidad de la retroalimentación
d. Tipo de retroalimentación específica: valorativa, descriptiva u orientadora,
devolutiva
e. Retroalimentación usada para la modificación de la práctica docente
2.3. El análisis
Para cada aspecto (Cfr. Anexo 1) se especificaron los valores que podrían estar presentes en las
evidencias; la ficha incluye códigos para facilitar la captura de los resultados del análisis.
Varias de las dimensiones anteriores se refieren a aspectos de las prácticas que no se pueden
detectar mediante la sola revisión de las evidencias, sino que para caracterizarlos bien se necesitaría
información adicional, como la relativa al propósito que perseguía el maestro con cierta evaluación,
o a la forma de calificar.
Por ello para el análisis que se hizo se elaboró una versión reducida de la ficha, con los aspectos que
se podría detectar con base en las evidencias. Los aspectos que se eliminaron fueron los que se
destacan en letra cursiva en el listado anterior. De otras dimensiones el análisis de las evidencias
puede dar sólo información muy limitada, en particular todos los incisos del apartado D sobre
instrucciones/consigna y los tres apartados que no están en letra cursiva del apartado F, sobre
retroalimentación.
Los analistas fueron dos alumnos del último semestre de psicología que hicieron prácticas
profesionales en el proyecto y dos egresadas de la Maestría en Investigación Educativa (MIE),
todos previamente capacitados. Las evidencias a analizar se distribuyeron como sigue:
16
Tabla 2. Distribución de evidencias a calificar entre los cuatro analistas
Asignatura Conjunto/Calificador Evidencias
Español
Calificador 1
Exámenes Una sola imagen 27
Dos o más imágenes 32
Tareas 95
Exámenes repetidos de conjunto 2
Una sola imagen 10
Dos o más imágenes 10
Tareas repetidas de conjunto 2 20
Total de evidencias a analizar 194
Calificador 2
Exámenes Una sola imagen 27
Dos o más imágenes 31
Tareas 95
Exámenes repetidos de conjunto 1
Una sola imagen 10
Dos o más imágenes 11
Tareas repetidas de conjunto 1 20
Total de evidencias a analizar 194
Matemáticas
Calificador 3
Exámenes Una sola imagen 30
Dos o más imágenes 25
Tareas 70
Exámenes repetidos de conjunto 4
Una sola imagen 10
Dos o más imágenes 10
Tareas repetidas de conjunto 4 20
Total de evidencias a analizar 165
Calificador 4
Exámenes Una sola imagen 29
Dos o más imágenes 24
Tareas 70
Exámenes repetidos de conjunto 3
Una sola imagen 11
Dos o más imágenes 11
Tareas repetidas de conjunto 3 20
Total de evidencias a analizar 165
Fuente: Elaboración propia a partir de la base de datos
El análisis se llevó a cabo por dos parejas de personas: un alumno de psicología y una egresada de
la MIE llevaron a cabo el análisis de evidencias de español, mientras a las otras dos correspondió el
análisis de las evidencias de matemáticas.
El conjunto de las evidencias a analizar se distribuyó entre los integrantes de cada pareja de
analistas, de tal manera que para la asignatura de español 81 de las evidencias (41 exámenes y 40
tareas) fueron revisadas por dos personas mientras que para la asignatura de matemáticas 82 de las
evidencias (42 exámenes y 40 tareas) por los dos calificadores de esta asignatura, el resto de las
evidencias de ambas asignaturas solo fueron analizadas por uno de los calificadores.
Lo anterior se hizo para poder verificar la consistencia de la calificación de cada una según los
diferentes aspectos considerados en el marco analítico. Para ello se calcularon los coeficientes de
correlación entre calificadores.
En la Tabla 3 se muestran los resultados de un análisis elemental de consistencia entre calificadores.
17
Tabla 3. Consistencia de resultados entre calificadores
Dimensión Aspectos Total
(n=139)
Español
(n=67)
Matemáticas
(n=72)
Referentes curriculares
Meta de aprendizaje 0.461 0.527 0.389
Tipo de preguntas 0.547 0.740 0.345
Método de evaluación 0.489 0.687 0.314
Coherencia 0.199 0.188 0.257
Instrucción*
Claridad 0.658 0.682 0.635
Finalidad 0.473 0.300 0.540
destinatarios 0.631 0.631 0.460
Incertidumbre 0.658 0.677 0.613
Restricciones 0.577 0.467 0.672
Repertorio de metas 0.716 0.767 0.593
Proceso de trabajo 0.249 0.064 0.236
Calificación Existencia 0.224 0.464 0.305
Retroalimentación
Existencia 0.556 0.624 0.431
Tipo general 0.595 0.619 0.568
Valorativa 0.512 0.556 0.463
Descriptiva 0.757 0.737 -
Devolutiva - - -
Especifica 0.665 0.644 0.695
* Para esta dimensión sólo se tomaron en cuenta las evidencias de tareas
Fuente: Elaboración propia a partir de la base de datos
Las cifras resaltadas en letra negrita se refieren a los aspectos en los que hubo mayor consistencia
entre calificadores, con cifras que rondan el 0.7, en tanto que las resaltadas en letra cursiva son las
más bajas, con cifras de menos de 0.1 a 0.3.
En general la consistencia entre los calificadores de las evidencias de español fue más alta que entre
los calificadores de evidencias de matemáticas. Lo anterior puede deberse a la menor claridad que
se tienen sobre los estándares usados en matemáticas, así como a que las evidencias en español en
general muestran mayor información sobre instrucción y complejidad de las tareas.
Los aspectos que mostraron menor consistencia fueron los relacionados con la coherencia entre la
meta y el método de evaluación inferido por los calificadores, el proceso de trabajo de las tareas y la
existencia de la calificación, lo cual se debió, según los calificadores a no tener más información
acerca de las evidencias en estos aspectos.
Para rediseñar el instrumento usado para el análisis de evidencias convendrá tomar como ejemplos
las que ya se han analizado para identificar palabras clave o elementos de los estándares de
matemáticas que sean mejores indicadores de las dimensiones que se quiere estudiar, con lo que
podría esperarse mayor precisión por parte de los calificadores a la hora de inferir las metas de
aprendizaje que corresponden a cada evidencia.
18
3. Resultados
Los profesores que facilitaron las evidencias trabajaban mayoritariamente en escuelas urbanas:
80.3% en este medio y 19.7% en el rural. El 52.5% de las evidencias corresponde a español y el
47.5% a matemáticas. Poco más de la mitad (51.2%) son tareas que los maestros asignan a los
alumnos y poco menos de la mitad (48.8%) corresponden a exámenes aplicados por los profesores.
Del total, 173 corresponden a segundo grado, 114 a quinto y 170 a sexto de primaria. La proporción
de trabajos de niños y niñas es cercana a la mitad, y también alrededor de la mitad correspondía a
alumnos que, a juicio de los profesores, tenían un nivel de rendimiento sobresaliente en el grupo.
3.1. Referente curricular, instrucciones, calificación y retroalimentación
Las tablas 4 a 10 presentan datos de los aspectos de los que hay menos información: presencia de
referente curricular; de las instrucciones para responder exámenes o elaborar tareas; de la forma de
calificar unos y otras; y de la retroalimentación que se ofrece a los alumnos sobre sus resultados.
Tabla 4. Caracterización del referente curricular de las evidencias
Evidencias Caracterización del
referente
Total Exámenes Tareas
Número % Número % Número %
Total
Explícito y claro 2 0.4 --- --- 2 0.9
Explícito y confuso 12 2.6 1 0.4 11 4.7
No explícito 439 96.9 218 97.8 221 94.4
Español
Explícito y claro 2 0.8
2 1.8
Explícito y confuso 12 5 1 0.8 11 9.6
No explícito 226 94.2 125 99.2 101 88.6
Matemáticas
Explícito y claro --- --- --- --- --- ---
Explícito y confuso --- --- --- --- --- ---
No explícito 213 100 93 100 120 100
Fuente: Elaboración propia a partir de la base de datos
En la tabla 4 se aprecia que ninguna evidencia de matemáticas tenía explicito el referente a evaluar.
Algo similar se observó en las evidencias de español: muy pocas presentan el referente curricular,
aunque un examen lo tenía, pero planteado confusamente. Algo mejor es la situación de las tareas:
en 13 casos (11.4%) se encontró un referente, en 11 este es confuso y en dos explícito y claro.
Tabla 5. Caracterización de las instrucciones que se dan a los alumnos
Evidencias Caracterización de las
instrucciones
Total Exámenes Tareas
Número % Número % Número %
Total
No existen 156 35.1 23 10.5 133 58.8
Incomprensibles 17 3.8 7 3.2 10 4.4
Comprensibles sin especificar 238 53.5 163 74.4 75 33.2
Comprensibles específicas 34 7.6 26 11.9 8 3.5
Español
No existen 88 36.7 13 10.3 75 65.8
Incomprensibles 7 2.9 5 4.0 2 1.8
Comprensibles sin especificar 142 59.2 106 84.1 36 31.6
Comprensibles específicas 3 1.3 2 1.6 1 0.9
Matemáticas
No existen 68 33.2 10 10.8 58 51.8
Incomprensibles 10 4.9 2 2.2 8 7.1
Comprensibles sin especificar 96 46.8 57 61.3 39 34.8
Comprensibles específicas 31 15.1 24 25.8 7 6.3
Fuente: Elaboración propia a partir de la base de datos
19
La Tabla 5 muestra que hay pocas evidencias con instrucciones comprensibles y específicas. La
situación más frecuente fue la de instrucciones comprensibles no específicas. En una proporción
considerable las instrucciones no existen o son incomprensibles, situación más marcada en las
tareas, aunque no habría que perder de vista que el profesor puede dar instrucciones verbales o
escribirlas en el pizarrón, y por ello éstas no aparecen en las evidencias. Por otro lado el maestro no
necesita dar instrucciones para exámenes comprados pues éstos las incluyen.
Tabla 6. Caracterización de la calificación
Evidencias Caracterización de
la calificación
Total Exámenes Tareas
Número % Número % Número %
Total Existe 195 42.7 97 44.3 98 42.8
No existe 253 55.4 122 55.7 131 57.2
Español Existe 85 35.4 51 40.5 34 29.8
No existe 155 64.6 75 59.5 80 70.2
Matemáticas Existe 110 52.9 46 49.5 64 49.5
No existe 98 47.1 47 50.5 51 50.5
Fuente: Elaboración propia a partir de la base de datos
En cuanto a calificación, la Tabla 6 muestra que en más de la mitad de los casos no se encuentra en
las evidencias, destacando el caso de las tareas de español, en que la cifra llega al 70 por ciento. De
nuevo es posible que el profesor califique exámenes y/o tareas sin plasmar la calificación en las
evidencias recopiladas, aunque parece menos probable que el caso de las instrucciones. La misma
observación se aplica a los criterios de calificación, ausentes en casi todos los casos, lo que era
esperable y muestra una limitación de la estrategia de obtención de información (Tabla 7).
Tabla 7. Caracterización de los criterios de calificación del total de las evidencias
Caracterización de los criterios Número %
No existen criterios de calificación 443 99.1
Se enuncian criterios de calificación 1 0.2
Se enuncian criterios de calificación y
cómo se espera que se lleven a cabo 3 0.7
Fuente: Elaboración propia a partir de la base de datos
Por lo que se refiere a la retroalimentación que se ofrece a los alumnos, la Tabla 8 indica que no se
encuentra en las evidencias revisadas en una proporción que va del 18 por ciento (en tareas de
matemáticas) al 25 por ciento (en español), pero nuevamente es posible que los docentes den
retroalimentación sin que esto se plasme en evidencias textuales como las recogidas.
Tabla 8. Caracterización de la retroalimentación que se ofrece en las evidencias
Evidencias Caracterización de
retroalimentación
Total Exámenes Tareas
Número % Número % Número %
Total Existe 354 78.8 174 79.8 180 77.9
No existe 95 21.2 44 20.2 51 22.1
Español Existe 183 76.6 98 78.4 76 74.6
No existe 56 23.4 27 21.6 17 25.4
Matemáticas Existe 171 81.4 85 74.6 95 79.2
No existe 39 18.6 29 25.4 22 18.3
Fuente: Elaboración propia a partir de la base de datos
20
A pesar de que el porcentaje de evidencias que no tienen retroalimentación es bajo (una de cada
cuatro) la calidad o el tipo de retroalimentación encontrada en las evidencias es del tipo valorativo
(ver tabla 9) en un 98.6%. Existe una gran tendencia a encontrar solo retroalimentaciones que se
limitan a marcar aciertos y errores, marcar con algún sello, dar una calificación sin significado y
marcar las tareas con frases de aliento o desaliento a los alumnos (bien hecho, sigue así, esfuérzate
más, etc.) (ver tabla 10). En el total de las evidencias sólo se encontraron cinco de ellas con
retroalimentación descriptiva en donde se explicaba al alumno el porqué de los aciertos o errores y
el progreso que habían logrado.
Tabla 9. Caracterización del tipo de retroalimentación que se ofrece en las evidencias
Evidencias Tipo de
retroalimentación
Total Exámenes Tareas
Número % Número % Número %
Total
Valorativa 345 98.6 169 99.4 176 97.8
Descriptiva-orientadora 5 1.4 1 0.6 4 2.2
Devolutiva - - - - - -
Español
Valorativa 176 97.2 95 99.0 81 95.3
Descriptiva-orientadora 5 2.8 1 1.0 4 4.7
Devolutiva - - - - - -
Matemáticas
Valorativa 169 100 74 100 95 100
Descriptiva-orientadora - - - - - -
Devolutiva - - - - - -
Fuente: Elaboración propia a partir de la base de datos
Tabla 10. Caracterización del tipo de retroalimentación-valorativa que se ofrece en las
evidencias
Evidencias Retroalimentación
valorativa
Total Exámenes Tareas
Número % Número % Número %
Total
Aciertos y errores 208 62.7 129 80.6 79 45.9
Sellos-marcas-calif. 99 29.8 27 16.9 72 41.9
Frases aliento-desaliento 25 7.5 4 2.5 21 12.2
Español
Aciertos y errores 84 51.5 60 69.8 24 31.2
Sellos-marcas-calif. 71 43.6 26 30.2 45 58.4
Frases aliento-desaliento 8 4.9 - - 8 10.4
Matemáticas
Aciertos y errores 124 73.4 69 93.2 55 57.9
Sellos-marcas-calif. 28 16.6 1 1.4 27 28.4
Frases aliento-desaliento 17 10.1 4 5.4 13 13.7
Fuente: Elaboración propia a partir de la base de datos
21
3.2. Tipo de preguntas utilizadas
Es evidente que la presencia de preguntas que requieran una respuesta extendida es muy reducida,
en comparación con las que implican escoger entre opciones previamente estructuradas, que son
mayoritarias en los exámenes, y las que suponen una respuesta corta, que prevalecen en las tareas.
Tabla 11. Caracterización de preguntas usadas en las evidencias
Evidencias Caracterización de
preguntas
Total Exámenes Tareas
Número % Número % Número %
Total
Respuesta estructurada 249 55.2 187 83.9 62 27.2
Respuesta abierta corta 169 37.5 36 16.1 133 58.3
Respuesta extendida 33 7.3 0 0 33 14.5
Español
Respuesta estructurada 144 60 115 91.3 29 25.4
Respuesta abierta corta 64 26.7 11 8.7 53 46.5
Respuesta extendida 32 13.3 0 0 32 28.1
Matemáticas
Respuesta estructurada 105 49.8 72 74.2 33 28.9
Respuesta abierta corta 105 49.8 25 25.8 80 70.2
Respuesta extendida 1 0.5 0 0 1 0.9
Fuente: Elaboración propia a partir de la base de datos
Las tablas 12, 13 y 14 precisan el tipo de respuesta que suponen las preguntas de cada uno de los
tipos anteriores. Por lo que se refiere a las preguntas de respuesta estructurada, la Tabla 10 muestra
que en los exámenes predominan abrumadoramente las que tienen respuestas de opción múltiple,
mientras que en las tareas la mayoría requieren respuestas de completar, aunque también es
importante la proporción de preguntas con respuestas de relacionar columnas y de opción múltiple.
En cuanto a las preguntas que implican respuestas abiertas cortas, la Tabla 11 pone en evidencia
que en matemáticas casi todas las preguntas admiten una sola respuesta correcta, tanto en exámenes
como en tareas, mientras que en las tareas de español algo más de la mitad de las preguntas admiten
más de una respuesta, e incluso en los exámenes esta situación está presente en más de una tercera
parte de los casos. Y en cuanto a preguntas que requieren una respuesta extendida, en la Tabla 12
puede apreciarse que prácticamente siempre están ausentes los criterios de evaluación, y que incluso
se encuentra algún caso en el que en realidad lo que se requiere es una respuesta corta.
Tabla 12. Caracterización de las respuestas a preguntas de respuesta estructurada
Evidencias Caracterización de
respuestas
Total Exámenes Tareas
Número % Número % Número %
Total
Relacionar columnas 15 6.0 0 0 15 24.6
Falso/verdadero 2 6.9 2 1.1 0 0
Completar 47 19.0 19 10.2 28 45.9
Opción múltiple 184 74.2 166 88.8 18 29.5
Español
Relacionar columnas 8 5.6 0 0 8 28.6
Falso/verdadero 2 1.4 2 1.7 0 0
Completar 22 15.4 11 9.6 11 39.3
Opción múltiple 111 77.6 102 88.7 9 32.1
Matemáticas
Relacionar columnas 7 6.7 0 0 7 21.2
Falso/verdadero 0 0 0 0 0 0
Completar 25 23.8 8 11.1 17 51.5
Opción múltiple 73 69.5 64 88.9 9 27.3
Fuente: Elaboración propia a partir de la base de datos
22
Tabla 13. Caracterización de las respuestas a preguntas de respuesta abierta corta
Evidencias Caracterización del
referente
Total Exámenes Tareas
Número % Número % Número %
Total
Implícita en pregunta 11 6.5 3 8.3 8 6.0
Solo una respuesta 122 72.2 29 80.6 93 69.9
Más de una respuesta 36 21.3 4 11.1 32 24.1
Español
Implícita en pregunta 9 14.1 2 18.2 7 13.2
Solo una respuesta 21 32.8 5 45.5 16 30.2
Más de una respuesta 34 53.1 4 36.4 30 56.6
Matemáticas
Implícita en pregunta 2 1.9 1 4.0 1 1.3
Solo una respuesta 101 96.2 24 96 77 96.3
Más de una respuesta 2 1.9 --- --- 2 2.5
Fuente: Elaboración propia a partir de la base de datos
Tabla 14. Caracterización de las respuestas a preguntas de respuesta extendida
Evidencias Caracterización del
referente
Total Exámenes Tareas
Número % Número % Número %
Total
Con criterios de evaluación --- --- --- --- --- ---
Sin criterios de evaluación 32 97 --- --- 32 97
Solo respuesta corta 1 3 --- --- 1 3
Español
Con criterios de evaluación --- --- --- --- --- ---
Sin criterios de evaluación 31 96.9 --- --- 31 96.9
Solo respuesta corta 1 3.1 --- --- 1 3.1
Matemáticas
Con criterios de evaluación --- --- --- --- --- ---
Sin criterios de evaluación 1 100 --- --- 1 100
Solo respuesta corta --- --- --- --- --- ---
Fuente: Elaboración propia a partir de la base de datos
3.3. Proceso de trabajo implicado
A partir de las tablas anteriores es posible inferir, con fundamento razonable, que la mayoría de las
preguntas de las evidencias revisadas, especialmente las de los exámenes, difícilmente podrán
referirse a metas de aprendizaje que impliquen una demanda cognitiva alta, ya que se prestan más
para evaluar habilidades de baja complejidad, como memorización y mecanización.
También parece razonable la presencia un poco menos marcada de preguntas de respuesta
estructurada en las tareas que se asignan a los alumnos para que las hagan en casa o en el aula
misma, en particular preguntas con respuestas de opción múltiple, falso/verdadero, relacionar
columnas y completar, esto si se tiene en cuenta la considerable dificultad de diseñar tareas que
incluyan preguntas cerradas de ese tipo.
La Tabla 15 aporta información adicional que complementa lo anterior, al presentar la cantidad de
evidencias cuya realización supone un proceso relativamente breve y, presumiblemente, simple,
puesto que deben hacerse en una sola ocasión con un tiempo limitado. La presencia de evidencias
que supongan un proceso más prolongado, con diversos momentos, es completamente marginal,
incluso sin el requerimiento adicional de entregas parciales. En forma esperable, la situación es un
poco menos marcada en español, y en las tareas.
23
Tabla 15. Caracterización del proceso de trabajo implicado
Evidencias Caracterización del
proceso
Total Exámenes Tareas
Número % Número % Número %
Total
Una ocasión con
tiempo limitado 383 97 218 99.1 165 94.3
Diferentes momentos
sin entregas parciales 12 3.0 2 0.9 10 5.7
Español
Una ocasión con
tiempo limitado 231 96.3 126 100 105 92.1
Diferentes momentos
sin entregas parciales 9 3.8 0 0 9 7.9
Matemáticas
Una ocasión con
tiempo limitado 152 98.1 92 97.9 60 98.4
Diferentes momentos
sin entregas parciales 3 1.9 2 2.1 1 1.6
Fuente: Elaboración propia a partir de la base de datos
3.4. Nivel de demanda cognitiva y autenticidad
Llegamos así al punto más importante del análisis: el que se refiere a la complejidad de la meta de
aprendizaje a la que se refieren las evidencias, en términos de la demanda cognitiva que implica
responder las preguntas correspondientes. Debe reiterarse que se trata de la complejidad de la meta
de aprendizaje inferida a partir de la revisión de las evidencias mismas, y no de la que pudo tener en
mente el docente al diseñar o seleccionar la actividad de evaluación de que se trate. La Tabla 16
presenta las conclusiones del análisis de las evidencias revisadas en el sentido mencionado.
Tabla 16. Caracterización de la complejidad cognitiva de la meta de aprendizaje inferida
Evidencias Caracterización de la meta Total Exámenes Tareas
Número % Número % Número %
Total
Mecanización 261 57.6 143 64.1 118 50.4
Conocimiento 166 36.6 75 33.6 91 38.9
Razonamiento 18 4.0 5 2.2 13 5.7
Habilidad de desempeño 2 0.4 --- --- 2 0.9
Habilidad p/crear productos 6 1.3 --- --- 6 2.6
Español
Mecanización 123 51.3 84 66.7 39 34.2
Conocimiento 93 38.8 38 30.2 55 48.2
Razonamiento 17 7.1 4 3.2 13 11.4
Habilidad de desempeño 1 0.4 --- --- 1 0.9
Habilidad p/crear productos 6 2.5 --- --- 6 5.3
Matemáticas
Mecanización 138 63.6 59 60.8 79 68.1
Conocimiento 73 33.6 37 38.1 36 31
Razonamiento 1 0.5 1 1.0 --- ---
Habilidad de desempeño 1 0.5 --- --- 1 0.9
Habilidad p/crear productos --- --- --- --- --- ---
Fuente: Elaboración propia a partir de la base de datos
En una gran mayoría, las evidencias tienen un nivel de complejidad bajo: las tareas asignadas y los
exámenes aplicados a los alumnos demandan el ejercicio de actividades simples o repetitivas, que
en el esquema utilizado corresponden a las categorías “mecanización” y “conocimiento”.
24
Lo anterior se presenta tanto en español como en matemáticas. Sólo se pide a los alumnos acciones
como nombrar, enlistar, elegir y seleccionar. En matemáticas la proporción de evidencias que
plantean sólo actividades de mecanización ronda los dos tercios, tanto en exámenes como en tareas.
El tercio restante consiste en actividades algo más complejas, de conocimiento. El caso de las tareas
de español es el único en que la mayoría de las evidencias piden el nivel de conocimiento, con cerca
del 50% que esperan que los alumnos describan o expliquen algún tema.
De las 457 evidencias sólo se hallaron 18 (17 de español, una de matemáticas) en los que los niveles
de complejidad demandados llegaron a ser de razonamiento; dos tareas más, una de español y otra
de matemáticas, requerían habilidades de desempeño y seis tareas de español habilidades para crear
productos. En síntesis, sólo cuatro por ciento de las tareas y exámenes revisados piden a los
alumnos realizar actividades en donde lleven a cabo análisis, síntesis, deducción o justificación. La
tabla 17 refina al análisis anterior, presentando los resultados por grado escolar.
Tabla 17. Caracterización de la complejidad cognitiva de la meta de aprendizaje por grados
Grado Evidencias Caracterización de la meta Total Exámenes Tareas
Número % Número % Número %
2°
Total
Mecanización 132 76.3 67 76.1 65 76.5
Conocimiento 40 23.1 21 23.9 19 22.4
Razonamiento 1 0.6 - - 1 1.2
Español
Mecanización 60 65.9 37 75.5 23 54.8
Conocimiento 30 33.0 12 24.5 18 42.9
Razonamiento 1 1.1 - - 1 2.4
Matemáticas Mecanización 72 87.8 30 76.9 42 97.7
Conocimiento 10 12.2 9 23.1 1 2.3
5°
Total
Mecanización 48 42.1 21 44.7 27 40.3
Conocimiento 57 50.0 24 51.1 33 49.3
Razonamiento 5 4.4 2 4.3 3 4.5
Habilidad p/crear productos 3 2.7 - - 3 4.5
Español
Mecanización 18 31.0 11 39.3 7 23.3
Conocimiento 32 55.2 15 53.6 17 56.7
Razonamiento 5 8.6 2 7.1 3 10.0
Habilidad p/crear productos 3 5.2 - - 3 10.0
Matemáticas Mecanización 30 54.5 10 52.6 20 55.6
Conocimiento 25 45.5 9 47.4 16 44.4
6°
Total
Mecanización 81 48.5 55 62.5 26 31.7
Conocimiento 69 41.3 30 34.1 39 47.6
Razonamiento 12 7.2 3 3.4 9 11.0
Habilidad de desempeño 2 1.2 - - 2 2.4
Habilidad p/crear productos 3 1.8 - - 3 3.7
Español
Mecanización 45 49.5 36 73.5 9 21.4
Conocimiento 31 34.1 11 22.4 20 47.6
Razonamiento 11 12.1 2 4.1 9 21.4
Habilidad de desempeño 1 1.1 - - 1 2.4
Habilidad p/crear productos 3 3.3 - - 3 7.1
Matemáticas
Mecanización 36 45.6 19 48.7 17 45.9
Conocimiento 38 48.1 19 48.7 19 51.4
Razonamiento 1 1.3 1 2.6 - -
Habilidad de desempeño 1 1.3 - - 1 2.7
Fuente: Elaboración propia a partir de la base de datos
25
Por lo que se refiere a exámenes, en la tabla anterior se puede apreciar que las preguntas que sólo
implicaban mecanización o conocimiento sumaron 100% en segundo grado, tanto en español como
en matemáticas. En quinto la proporción siguió siendo de 100% en matemáticas y en español bajó a
93%; y en sexto grado en español fue de 96% y en matemáticas de 97%, es decir, en los tres grados
prácticamente la totalidad de los exámenes analizados correspondían a estos niveles. En cuanto a las
tareas, en matemáticas la proporción de preguntas de baja demanda cognitiva fue de 100% tanto en
segundo como en quinto, y en sexto fue de 97%. Una situación mejor aparece en el caso de las
tareas de español, campo formativo en el que en segundo grado las preguntas de baja demanda
cognitiva representaron un 97%, proporción que bajó a 80% en quinto y a 69% en sexto.
Si bien mecanización y conocimiento son actividades necesarias como base para el desarrollo de
otras más complejas, y es normal que su presencia sea mayoritaria en los primeros grados del
trayecto escolar, la permanencia casi exclusiva de preguntas que no pasan de esos niveles en los
últimos grados de la primaria, en especial en matemáticas, parece preocupante.
El análisis de las evidencias disponibles comprendió un aspecto más, que amplía el anterior, en
relación únicamente con las tareas, tanto de español como de matemáticas. Las tareas se prestan
más que los exámenes para que se pida la realización de actividades de mayor complejidad, que
supongan más tiempo y comprendan varios aspectos, aunque esto no parece ser frecuente de
acuerdo con el análisis del proceso implicado para la realización de los trabajos reflejados en las
evidencias analizadas, según se pudo ver en la Tabla 15. El currículo de la primaria mexicana
contempla este tipo de tareas complejas con el concepto de proyectos, en el campo formativo de
lengua y comunicación. Un concepto que apunta en la misma dirección es el de tareas auténticas.
Una tarea auténtica se asemeja a un problema real, en contraposición a una tarea artificial, que sólo
puede darse en un contexto escolar. De acuerdo con la conceptualización de Wiggins, los rasgos
que distinguen las tareas auténticas incluyen que tienen un propósito claro, se ubican en un contexto
real, con destinatarios más allá del maestro, presentan elementos de incertidumbre y tienen
restricciones, pero tienen más de una solución aceptable, y para su solución es necesario poner en
juego habilidades de diversa complejidad, ya que incluyen un repertorio variado de metas de
aprendizaje, también de diferente nivel. (Wiggins, 1998: 23-24)
La Tabla 18 presenta los resultados del análisis relativo a la presencia de rasgos de autenticidad en
las tareas de español y matemáticas revisadas.
Tabla 18. Caracterización de la autenticidad de las tareas (n = 226)
Aspecto Caracterización Total Español Matemáticas
Finalidad o
propósito
No existe 150 66.4 84 74.3 66 58.4
Se menciona 72 31.9 27 23.9 45 39.8
Se describe 4 1.8 2 1.8 2 1.8
Contexto
Escolar 174 76.7 73 64.6 101 88.6
Semi-escolar 51 22.5 38 33.6 13 11.4
Real 2 0.9 2 1.8 --- ---
Incertidumbre
Incluye datos necesarios 149 65.9 54 47.8 95 84.1
No incluye todos los datos 47 20.8 33 29.2 14 12.4
Enfrenta al alumno 30 13.3 26 23 4 3.5
Restricciones Una solución 167 73.9 72 63.7 95 84.1
Alternativas de solución 59 26.1 41 36.3 18 15.9
Repertorio de
metas de
aprendizaje
Mecanización 120 52.9 43 38.1 77 67.5
Conocimiento-Razonamiento 92 40.5 56 49.6 36 31.6
Desempeño-Producción 15 6.6 14 12.4 1 0.9
Fuente: Elaboración propia a partir de la base de datos
26
Salta a la vista que las tareas analizadas tienen muy pocos rasgos de autenticidad. En la mayoría de
los casos el propósito no es explícito, y en casi todos los restantes simplemente se menciona, pero
sólo se describe en cuatro casos, dos en español y otros tantos en matemáticas. El contexto casi
nunca es real: es masivamente escolar en matemáticas, y en español lo es también en dos terceras
partes de los casos, y semi-escolar en la tercera parte restante. Las tareas presentan poca
incertidumbre, y mayoritariamente sólo admiten una solución. Y, coincidiendo con lo ya observado
anteriormente, implican sobre todo mecanización en el caso de matemáticas, y mecanización o
conocimiento en el de español. Metas de nivel alto son escasas en español y prácticamente
inexistentes en matemáticas.
3.5. Congruencia entre enseñanza y evaluación
Tras todo lo anterior es posible un último análisis de las evidencias disponibles, que se refiere
directamente a la hipótesis a la que se llegó al final del diagnóstico de las prácticas de evaluación de
maestros de primaria de Nuevo León, en el sentido de que parecería haber congruencia entre las
prácticas de evaluación y las de enseñanza de los docentes, pero en tanto unas y otras se refieren a
propósitos de aprendizaje de bajo nivel de complejidad o de demanda cognitiva.
Primeramente se volvieron a caracterizar todas las evidencias, siguiendo ahora la tipología de
métodos de evaluación de Stiggins et al. (2007: 100), con categorías ligeramente diferentes a las
utilizadas antes sobre el tipo de preguntas y respuestas que se mostraron en las tablas 11 a 14. Allí
se pudo ver que en poco más de la mitad de los casos se usan métodos de selección de respuestas
(respuesta estructurada). La nueva caracterización confirmó que ocho de cada 10 exámenes usan ese
método de evaluación, mientras el resto sólo permiten al alumno dar una respuesta corta única.
También se confirma que el método de respuesta corta es más usado en las tareas que los profesores
asignan, en comparación con los exámenes.
Tabla 19. Caracterización del método de evaluación prevaleciente
Evidencias Caracterización del
referente
Total Exámenes Tareas
Número % Número % Número %
Totales
Selección de respuesta 236 52.4 181 81.5 55 24.1
Respuesta abierta corta 201 44.7 41 18.5 160 70.2
Evaluación de desempeño 13 2.9 --- --- 13 5.7
Comunicación personal --- --- --- --- --- ---
Español
Selección de respuesta 132 55.2 109 87.2 23 20.2
Respuesta abierta corta 94 39.3 16 12.8 78 68.4
Evaluación de desempeño 13 5.4 --- --- 13 11.4
Comunicación personal --- --- --- --- --- ---
Matemáticas
Selección de respuesta 104 49.3 72 74.2 32 28.1
Respuesta abierta corta 107 50.7 25 25.8 82 71.9
Evaluación de desempeño --- --- --- --- --- ---
Fuente: Elaboración propia a partir de la base de datos
La Tabla 20 presenta el último análisis, a partir de un complemento del marco analítico utilizado,
que se puede ver en el Anexo 2, basado en Stiggins et al. (2007). El anexo consiste en una tabla de
dos dimensiones: cada columna se refiere a uno de cuatro métodos de evaluación (preguntas de
respuesta estructurada, preguntas de respuesta abierta, evaluaciones de desempeño o ejecución y
preguntas formuladas oralmente, en una interacción del maestro con los alumnos), y cada renglón a
uno de cinco tipos de metas de aprendizaje (mecanización, conocimiento, razonamiento, habilidad
de desempeño y habilidad de crear productos).
27
En cada casilla de la tabla se señala qué tan adecuado es, en principio, el método de la columna con
la meta del renglón correspondiente. Se precisa “en principio” porque teóricamente es posible
pensar en buenas preguntas de cualquier tipo para evaluar metas de aprendizaje de cualquier nivel,
pero en la práctica unos métodos son sin duda más apropiados para metas de cierto nivel. Los
resultados de este último análisis se muestran en la Tabla siguiente.
Tabla 20. Caracterización de la coherencia entre meta de aprendizaje y método de evaluación
Evidencias Caracterización de la
coherencia
Total Exámenes Tareas
Número % Número % Número %
Total
Muy buena opción 267 59.3 182 82 85 37.3
Buena opción 80 17.8 11 5.0 69 30.3
Opción aceptable 96 21.3 29 13.1 67 29.4
Mala opción 7 1.6 0 0 7 3.1
Español
Muy buena opción 162 67.8 109 87.2 53 46.5
Buena opción 49 20.5 8 6.4 41 36
Opción aceptable 22 9.2 8 6.4 14 12.3
Mala opción 6 2.5 0 0 6 5.3
Matemáticas
Muy buena opción 105 49.8 73 75.3 32 28.1
Buena opción 31 14.7 3 3.1 28 24.6
Opción aceptable 74 35.1 21 21.6 53 46.5
Mala opción 1 0.5 0 0 1 0.9
Fuente: Elaboración propia a partir de la base de datos
En los exámenes el método de evaluación usado en la mayoría de las evidencias es una opción muy
buena en relación con el nivel cognitivo de la meta de aprendizaje: en 87.2% de los exámenes de
español y en 75.3% de los de matemáticas se da esa combinación. En español el resto se divide por
igual en opciones buenas y aceptables, y en matemáticas el segundo lugar lo ocupan las opciones
aceptables. En ninguna de las asignaturas hay casos de malas opciones, pero dado que se trata de
metas de aprendizaje inferidas esto parece lógico. También puede explicarse porque en los hechos
haya congruencia entre enseñanza y evaluación, con énfasis en metas de aprendizaje de bajo nivel
cognitivo, según la hipótesis apuntada. En las tareas la situación es algo diferente, pero nuevamente
en español las opciones muy buena y buena suman 82.5% y en matemáticas esas dos opciones
acumulan 52.7% de los casos, con 46.5% más de opciones aceptables.
En síntesis, la congruencia entre métodos de evaluación y tipo de metas de aprendizaje en cuanto a
nivel de demanda cognitiva es alta. Los elementos anteriores del análisis que se ha presentado
permiten afirmar que la congruencia se da porque tanto las metas de aprendizaje como los métodos
de evaluación se refieren a actividades que suponen bajos niveles de demanda cognitiva.
Conclusiones
Hay conclusiones sustantivas, sobre las prácticas de evaluación mismas, y otras metodológicas,
sobre las lecciones aprendidas sobre los acercamientos al estudio de un fenómeno tan complejo. En
lo sustantivo, con las limitaciones a las que se hará referencia, podemos afirmar que las prácticas de
evaluación de los profesores de Nuevo León distan mucho de tener un componente formativo
importante. Las opiniones más optimistas que los docentes mismos expresan en cuestionarios y
entrevistas no deben entenderse, sin embargo, como intentos conscientes por dar información falsa,
sino como un reflejo de comprensiones superficiales del sentido real de la evaluación formativa.
28
El hallazgo más importante al que llegamos al explorar las prácticas en una forma que ofrece una
visión algo más amplia que los cuestionarios y las entrevistas aplicados a los maestros y, en algunos
casos, a sus alumnos, concretamente mediante el análisis de exámenes aplicados por los docentes y
tareas asignadas por ellos a sus alumnos, encuentra en particular que los maestros utilizan en forma
masiva exámenes integrados básicamente por preguntas de respuesta estructurada, que implican
operaciones de baja demanda cognitiva, y que asignan tareas que en general, aunque en un grado
algo menor al de los exámenes, implican también solamente memorización o tareas repetitivas y
mecánicas. Asimismo, encontramos un grado de congruencia bastante alto entre los métodos de
evaluación utilizados y las metas de aprendizaje inferidas, que en ambos casos corresponden a
niveles de demanda cognitiva bajos.
Otros hallazgos particulares, que resultan lógicos a partir de lo anterior, son que:
Las consignas se reducen por lo general a indicaciones elementales sobre la forma de
responder, pero carecen por completo, en casi todos los casos, de rasgos de autenticidad.
La calificación de exámenes y tareas privilegia el conteo de aciertos y errores, sin referencia
a estándares de desempeño precisos, y suele mezclar aspectos de naturaleza ajena al
dominio de los contenidos del currículo, como conducta, limpieza o puntualidad.
La verdadera devolución a los alumnos de los resultados de las evaluaciones, en el sentido
de retroalimentación que indique con precisión puntos fuertes y débiles, y dé orientaciones
útiles para mejorar, es prácticamente inexistente.
La retroalimentación se suele reducir a informar sobre el resultado de la calificación, en la
forma de una nota a la que se llegó mediante un proceso que la hace carecer de significado
pedagógico, que frecuentemente va acompañada de elogios o amonestaciones, así como de
exhortaciones a mejorar sin orientación sobre cómo conseguirlo.
La afirmación de que estos hallazgos particulares resultan lógicos se fundamenta señalando que
cuando la meta de aprendizaje consiste en que el alumno memorice una serie de datos, o bien
realice mecánicamente una serie de operaciones matemáticas, entonces es razonable que la consigna
sea muy sencilla, sin rasgos de autenticidad, que la calificación se limite a contar aciertos y errores,
y que la retroalimentación se reduzca a informar al estudiante de lo anterior, diciéndole que es
necesario que avance más cuando el número de aciertos esté lejos del total posible.
Por otra parte, es obvio que el proyecto no permitió estudiar la forma en que los docentes llevan a
cabo actividades de evaluación cotidianamente, observando el desempeño de sus alumnos,
interrogándolos o poniéndolos a hacer ejercicios cortos, en forma individual o grupal, ni tampoco
sobre la manera de dar retroalimentación verbal o de promover la autoevaluación de cada alumno
sobre su propio avance, o la co-evaluación entre unos y otros. El acercamiento utilizado no fue
suficiente para ello, lo que nos lleva al segundo tipo de conclusiones.
Las limitaciones a las que alude el párrafo anterior se refieren al hecho de que la recolección de
evidencias consistió únicamente, como se ha explicado ya, en pedir a los maestros entrevistados en
Nuevo León que permitieran fotografiar algunos ejemplos de exámenes aplicados por ellos y de
tareas asignadas a sus alumnos, pero no se les interrogó sobre la manera en que elaboraron o
seleccionaron dichos exámenes y tareas, la consigna que presentaron a los alumnos al respecto, la
forma de calificar o la de retroalimentar a los estudiantes. Esta fue, obviamente, una deficiencia que
deberá corregirse en trabajos posteriores, acompañando la recolección de evidencias de evaluación
con instrumentos apropiados para explorar las dimensiones de las prácticas que no se pueden
detectar simplemente con el análisis de los documentos, sino que requieren información adicional
que es necesario solicitar expresamente al maestro.
29
Referencias
Carter, K. (1984). Do teachers understand the principles for writing test? Journal of Teacher
Education 35 (6): 57-60.
Correnti, Richard y José Felipe Martínez (2012). Conceptual, Methodological and Policy Issues in
the Study of Teaching: Implications for Improving Instructional Practice at Scale.
Educational Assessment, Vol. 17, N° 2-3, pp. 51-61.
Fleming, M. y B. Chambers (1983). Teacher-made tests: Window on the classroom. En W. E.
Hathaway, ed. Testing in the schools. New directions for testing and measurement. San
Francisco, Jossey Bass, 19: 29-38.
García Medina, A. Moisés et al. (2011). Evaluación de los aprendizajes en el aula. Opiniones y
prácticas de docentes de primaria en México. México. Instituto Nacional para la
Evaluación de la Educación.
Loureiro Denis, Graciela (2009). Evaluación en el aula, currículo y evaluaciones externas. Instituto
de Evaluación Educativa, UCU y GTEE-PREAL.
Martínez, José Felipe et al. (2012). Measuring Classroom Assessment Practice Using Instructional
Artifacts: A Validation Study of the QAS Notebook. Educational Assessment, Vol. 17, N°
2-3, pp. 107-131.
Martínez Rizo, Felipe (2012). La evaluación en el aula: Promesas y desafíos de la evaluación
formativa. Aguascalientes. Universidad Autónoma de Aguascalientes.
Picaroni, Beatriz (2009). La evaluación en las aulas de primaria: usos formativos, calificaciones y
comunicación con los padres. Instituto de Evaluación Educativa, UCU y GTEE-PREAL.
Ravela, Pedro, B. Picaroni y G. Loureiro (2009). La evaluación de aprendizajes en las aulas de 6°
grado en América Latina. Observatorio Regional de Políticas de Evaluación Educativa.
Boletín N° 12 (Julio), pp. 1-12. GTEE-PREAL.
Reynolds, W, M. y K. A. Menard (1980). An investigation of teachers’ test construction practices.
Ponencia presentada en la reunión anual del National Council of Measurement in
Education, Boston, Massachusetts.
Ruiz, Cuéllar G. y Perez Martínez, G. (en prensa). Creencias y prácticas de evaluación en aula de
maestros de educación primaria de Nuevo León. En Ruiz Cuéllar, Guadalupe, ed. La
evaluación en el aula: Diagnóstico. Cap. 2. Aguascalientes. Universidad Autónoma de
Aguascalientes.
Shulman, Lee S. (1980). Test design: A view from practice. En Eva L. Baker y E. S. Quellmalz,
eds. Educational Testing and Evaluation. Los Angeles, Sage: 63-73.
Stiggins, Richard J., J. Arter, J. Chappuis y S. Chappuis (2007). Classroom Assessment for Student
Learning. Doing It Right–Using It Well. Upper Saddle River Pearson-ETS.
Stiggins, Richard J. y Nancy F. Conklin, (1992). In teacher’s hands: Investigating the practices of
classroom assessment. Albany: State University of New York Press.
Thomas, D. S. (1929). Some new techniques for studying social behavior. (Child Development
Mongraphs, N° 1). New York, Teachers College, Columbia University.
Vidales Delgado, Isamael et al. (2005). Prácticas de evaluación escolar en el nivel de educación
primaria en el Estado de Nuevo León. CAEIP. México. Santillana.
Wiggins, Grant (1998). Educative assessment: Designing assessments to inform and improve
student performance. San Francisco: Jossey-Bass.
30
ANEXO 1. FICHA DE ANÁLISIS PARA EVIDENCIAS. VERSIÓN COMPLETA A. Identificadores.
Número de escuela Total de imágenes que corresponden a la evidencia
1. Estado
Código Valores
1 001-100 Escuelas Nuevo León
2 101-118 Escuelas de Aguascalientes
2. Grado
Código
1º Exclusivos Ags.
2º Ags- NL
3º Exclusivos Ags.
4º Exclusivos Ags.
5º Ags- NL
6º Ags- NL
3. Género
Código
1 Hombre
2 Mujer
3 No identificado
4. Nivel de rendimiento
Código
1 Sobresaliente
2 Bajo
5. Medio
Código
1 Urbana
2 Rural
6. Asignatura
Código
1 Español
2 Matemáticas
7. Evidencia
Código
1 Examen
2 Tarea
8. Origen de la evidencia
Código
1 Examen/tarea proporcionado por autoridades educativas
2 Examen/tarea comprado a externos (editoriales)
3 Examen/tarea elaborado por el profesor
4 Examen/tarea elaborado en colectivo (el profesor y otros)
5 Examen/tarea tomado de los materiales curriculares
9. Bloque Código
1 1er. Bimestre (agosto-sep.)
2 2do. Bimestre (oct-nov.)
3 3er. Bimestre (dic-enero)
4 4to. Bimestre (feb-marzo)
5 5to. Bimestre (abril-junio)
31
B. Referentes curriculares
10. Presencia del Referente curricular
Código Valores
1 Referente explicito y claro
2 Referente explicito y confuso
3 Referente no explicito
10.1. Referente enfatizado en Español
Código
1 Competencia
2 Estándar
3 Ámbito
4 Aprendizaje esperado
5 Tema de Reflexión
6 Proyecto
7 No aplica
10.2. Referente enfatizado en Matemáticas
Código
1 Competencia
2 Eje
3 Estándar
4 Aprendizaje esperado
5 Tema
6 Contenidos
7 No aplica
11. Meta de aprendizaje del referente curricular.
Ver tabla 1.
Código Valores
1 Mecanización
2 Conocimiento
3 Razonamiento
4 Habilidad de desempeño
5 Habilidad para crear productos
12. Meta de aprendizaje prevaleciente en la evidencia (inferida)
Código
1 Mecanización
2 Conocimiento
3 Razonamiento
4 Habilidad de desempeño
5 Habilidad para crear productos
32
Tabla 1. Metas de aprendizaje
Tipo de meta Explicación Estándares de contenido/palabras clave
Mecanización Se deben aprender algunos conocimientos /hechos/ conceptos momentánea y memorísticamente En matemáticas elaboración de ejercicios repetitivos, sumas, restas, multiplicación , etc.
Nombrar, listar, recordar, memorizar, elegir, seleccionar
Conocimiento Se deben aprender algunos conocimientos / hechos / conceptos por completo; algunos son recuperados utilizando materiales de referencia. En matemáticas se requiere recordar y llevar acabo formulas como simple ejercicio
Explicar, comprender, describir, identificar, informar, definir, etiquetar, asociar, reconocer
Razonamiento Habilidades del pensamiento- utilizando el conocimiento para resolver problemas, tomar decisiones, planear, etc.
Analizar: componentes, partes, secuencia lógica, pasos, la idea principal, detalles de apoyo, determinar, seccionar, examinar, ordenar. Comparar / contrastar: discriminar entre iguales y diferentes, distinguir entre las similitudes y diferencias, yuxtaponer (asociar o juntar). Sintetizar: combinar, formular, organizar, adaptar, modificar. Clasificar: categorizar, ordenar, agrupar, dar ejemplos Inferir / deducir: interpretar, identificar implicaciones, predecir conclusiones, crear hipótesis, generalizar. Evaluar: justificar, fundamentar una opinión, pensar críticamente, valorar, criticar, debatir, defender, juzgar, probar
Habilidades de Desempeño
Demostración observable, en donde lo que importa es lo que se hace; se utiliza el conocimiento y el razonamiento para realizar una tarea
Observar, enfocar la atención, escuchar, realizar, hacer, preguntar, dirigir, trabajar, leer, hablar, ensamblar, operar, utilizar, demostrar, medir, investigar, guiar, simular, recoger, dramatizar, explorar
Habilidad para crear productos
Las características del producto final es lo importante; se utiliza el conocimiento, el razonamiento y habilidades de desempeño para producir el producto final
Diseñar, crear, desarrollar, producir, escribir, representar, mostrar, crear un modelo, construir
33
13. Tipo de preguntas
usadas (método)
Código Valores
1 De respuesta estructurada
2 De respuesta abierta corta
3 De respuesta extendida (tipo ensayo)
13.1 Preguntas de respuesta estructurada
Código
1 Relacionar columnas
2 Falso/verdadero
3 Completar palabras o frases
4 Opción múltiple
99 No aplica
13.2 Preguntas de respuesta abierta corta
Código
1 Las respuestas están implícitas en la pregunta
2 Admiten solo una respuesta correcta
3 Admiten más de una respuesta correcta
99 No aplica
13.3 Preguntas de respuesta
extendida
Código
1 Permite respuesta extendida y establece criterios de evaluación
2 Permite respuesta extendida y no establece criterios de evaluación
3 Aparenta ser de respuesta extendida pero solo permite una respuesta corta (si, no, cantidad, hallazgo, etc)
99 No aplica
14. Método de evaluación
prevaleciente en la evidencia
Código Valores
1 Selección de respuesta
2 Respuesta abierta por escrito
3 Evaluación del desempeño
4 Comunicación personal
15. Coherencia entre meta Referente curricular y método
prevaleciente. Tabla 2
Código Valores
1 (++) Combinación fuerte
2 (+) Buena combinación
3 (+-)Buena combinación pero con limitantes especiales
4 (-) Mala combinación
16. Coherencia entre meta inferida y método
prevaleciente. Tabla 2
Código
1 (++) Combinación fuerte
2 (+) Buena combinación
3 (+-) Combinación aceptable pero con limitantes especiales
4 (-) Mala combinación
34
C. Sobre la evaluación
17. Propósito de uso (Diagnóstico)
Código Valores
1 No lo usa para planear, lo realiza solo por requisito admón.
2 Realiza una sola planeación con base en los resultados
3 Realiza planeaciones diversificadas con base en los resultados
18. Propósito de uso (Bimestral y
tareas)
Código
1 Lo realiza solo por requisito admón. para asignar calificación
2 Lo usa para ver progreso de los alumnos y replantear la planeación única
3 Lo usa para ver progreso de los alumnos y replantear planeaciones diversificadas
19. Propósito de uso afectivo
Código valores
1 Elogio
2 Regaño
3 Ninguno de los anteriores
D. Sobre la instrucción (Consigna)
20. Claridad de la instrucción
Código Valores
0 No existe instrucción
1 La comunicación es incoherente e incomprensible.
2 Es comprensible, da instrucciones sobre lo que se espera pero sin especificar
3 Es comprensible da instrucciones precisas de lo que se espera y cómo se espera que se lleve a acabo
21. Finalidad o propósitos bien definidos, solo
para tareas
Código Valores
0 No se menciona el objetivo ni el producto a elaborar o resolver
1 Se menciona el producto a elaborar o resolver
2 Se describe el producto a elaborar o resolver y el objetivo
3 Se describe el producto a elaborar o resolver, el objetivo y la relación de la actividad con el referente curricular
99 No aplica en caso de exámenes
22. Destinatarios o audiencia
(CONTEXTO), solo para tareas
Código
1 Contexto escolar. El destinatario es el maestro, el alumno trabaja solamente para él y lleva a cabo una serie de ejercicios o tareas sin sentido real.
2 Contexto semi-escolar. Se tratan de imitar situaciones reales, se enuncian destinatarios reales sin corregir la tarea que no deja de ser ejercicio escolar.
3 Contexto real. Se sitúa en una situación propia dl mundo real en donde el destinatario podría recibir los resultados y opinar sobre ellos. La tarea es adecuada al destinatario.
99 No aplica en caso de exámenes
35
23. Incertidumbre, solo para tareas
Código
1 La tarea tiene todos los datos necesarios y sólo esos, y una única solución
2 La tarea no incluye todos los datos pero solo tiene una solución posible
3 La tarea enfrenta al alumno a una situación en la que debe enfrentar y resolver la tarea que puede tener más de una solución
99 No aplica en caso de exámenes
24. Restricciones, solo para tareas
Código
1 La tarea considera condiciones que no pueden ser modificadas y tiene una sola solución por lo cuál no permite generar decisiones en los alumnos
2 La tarea considera condiciones no modificables pero permite soluciones alternativas y decidir sobre el camino más adecuado dadas las condiciones
99 No aplica en caso de exámenes
25. Repertorio de metas de
aprendizaje, solo tareas
Código
1 La tarea sólo requiere el uso de metas de aprendizaje de mecanización
2 La tarea requiere metas de aprendizaje de conocimiento o razonamiento
3 La tarea solicita la elaboración de productos que requieren el uso de metas de aprendizaje de habilidades de desempeño y creación de productos
99 No aplica en caso de exámenes
26. Proceso del trabajo
Código
1 La tarea solo se realiza en una ocasión con tiempo limitado sin la oportunidad de elaborar productos parciales, aplica en caso de exámenes
2 La tarea se realiza en diferentes momentos con entregas de productos parciales sin la intervención del profesor
3 La tarea se realiza en diferentes momentos con entregas parciales de productos con la intervención del maestro dando la oportunidad al alumno de ensayar diferentes formas de solución.
99 No aplica
E. Sobre la calificación
27. Calificación Código Valores
1 Existe
2 No existe
28. Claridad de los criterios de
calificación
Código Valores
1 No existe criterios de calificación
2 Se enuncian criterios de calificación
3 Se enuncian criterios de calificación y cómo se espera que se lleven a cabo
29. Ponderación de los criterios de calificación
Código valores
1 No existe la ponderación de los criterios
2 Solo se dice cuales criterios tendrán más peso sobre la calificación
3 Se determina claramente el peso que se le dará a cada aspecto o criterio
36
F. Retroalimentación
30. Uso de retroalimentación
Código Valores
1 Existe una retroalimentación
2 No existe retroalimentación (si contesta esta opción poner 99 en las siguientes)
31. Tipo de retroalimentación general
Código
1 Se limita a marcar aciertos y errores
2 Los alumnos obtienen una calificación pero sin significado
3 Se reconoce lo que hace falta para mejorar
99 No aplica
32. Calidad de la retroalimentación
Código
-2 Retroalimentación proporcionada pero incorrecta
-1 No hay retroalimentación y era necesaria
0 No hay retroalimentación pero no era necesaria
1 Solamente se da un comentario o frase en código o una nota
2 Comentario que provee a los estudiantes dirección, información útil acerca del desempeño actual comparado con lo que se espera
3 Comentarios con información que ayudan al estudiante a construir y reflexionar sobre el conocimiento
33.1 Retroalimentación
valorativa Código Valores
1 Indica aciertos y errores sin información adicional
2 Se usan sellos o marcas o da solamente una calificación
3 Se usan frases de aliento o desaliento: excelente trabajo, esfuérzate más, mal trabajo, etc.
99 No aplica
33.2 Retroalimentación descriptiva u orientadora
Código
1 Se indica el porqué de los aciertos y errores
2 Se indica el progreso que se ha alcanzado
3 Se incluyen frases que explican el desempeño
99 No aplica
33.3 Retroalimentación Devolutiva
Código
1 Se dan indicaciones de cómo mejorar
2 Se indica el progreso y cómo se pueden alcanzar los objetivos
3 Se pide a los alumnos argumentar y reflexionar sobre sus respuestas
4 Incluye preguntas reflexivas
99 No aplica
37
33. Tipo de retroalimentación
especifica
Código
1 Valorativa
2 Descriptiva u orientadora
3 Devolutiva
99 No aplica
34. Retroalimentación
usada para la modificación de la práctica docente
Código valores
0 No consideraba la idea de reflexionar sobre su propia práctica de enseñanza
1 No usa la evaluación (ni la toma en cuenta) para cambiar su práctica
2 Toma en cuenta los resultados de la evaluación pero no cambia su práctica
3 Toma en cuenta los resultados de la evaluación y cambia su práctica
38
ANEXO 2. RELACIÓN ENTRE METAS DE APRENDIZAJE Y MÉTODO DE EVALUACIÓN
Meta a ser evaluada
Método de evaluación
Selección de respuesta Respuesta abierta Evaluación de desempeño Interacción verbal
Mecanización (++) Opción muy buena si sólo se pretende corroborar memorización y mecanización
(+-) Opción aceptable cuando se trata de un grupo de estudiantes, pero tiende a consumir tiempo.
(-) Mala opción: consume demasiado tiempo para evaluar todos los temas previstos
(+-) Opción acpetable con grupos de estudiantes pero es una opción que tiende a consumir tiempo.
Conocimiento (++) Muy buena opción para evaluar el dominio de metas de nivel conocimiento.
(+) Opción buena si se trata de verificar la comprensión de las relaciones entre los elementos del conocimiento.
(-) Mala opción: consume demasiado tiempo para cubrir todo.
(+-) Opción aceptable evaluando las respuestas, e infiriendo el dominio—pero esto es una opción que tiende a consumir tiempo.
Razonamiento (+-) Es una opción aceptable únicamente en la evaluación de la comprensión de algunos patrones de razonamiento.
(++) Muy buena opción: la descripción escrita de soluciones a problemas complejos puede dar información para evaluar diversos aspectos de razonamiento.
(++) Muy buena opción, pues permite observar a los alumnos resolver algunos problemas e inferir su nivel de razonamiento.
(++) Muy buena opción: permite pedir al estudiante que “piense en voz alta” o que responda a preguntas de seguimiento para sondear su razonamiento.
Habilidades de desempeño o
ejecución
(-) Mala opción. Permite evaluar el dominio de los prerrequisitos del conocimiento necesarios para un desempeño competente, pero no se puede basar sólo en ellos para evaluar la habilidad misma.
(+) Buena opción. Se pueden observar y evaluar las habilidades a medida que se realizan.
(++) Muy buena opción cuando la habilidad es la comunicación oral; si se trata de otras habilidades no es buena opción.
Habilidad de crear productos
(-) Mala opción. Permite evaluar conocimientos que son prerrequisitos de la habilidad de crear productos de calidad, pero no se puede utilizar para la evaluación de la calidad de los productos mismos.
(++) Muy buena opción cuando el producto es escrito. No es buena cuando el producto no es escrito.
(++) Muy buena opción. Puede evaluar los atributos del producto mismo.
(-) Mala opción.