fichdid_-_ficha_08 significado de la evaluación

Upload: alberto-christin

Post on 10-Apr-2018

215 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/8/2019 FichDid_-_Ficha_08 significado de la evaluacin

    1/13

    Para comprender lasevaluaciones educativas

    Fichas didacticas

    Ficha 8

    Pedro Ravela

    qu significan los nmeros de las

    evaluaciones? (I )

  • 8/8/2019 FichDid_-_Ficha_08 significado de la evaluacin

    2/13

    para comprend er las evaluaciones educativas ficha n 8

    ficha n 8

    qu significan los nmeros de las

    evaluaciones? (I)

    elementos bsicos para comprender los datos estadsticos

    Las fichas 8 y 9 tienen como objetivoayudar al lector a comprender el significadode los distintos tipos de datos numricosque se utiliza para reportar los resultados delas evaluaciones estandarizadas.

    Para ello se intentar explicar, de maneraaccesible, una serie de conceptosimprescindibles para comprender los datosque se incluyen en los reportes.

    En esta ficha se comienza por unaexplicacin bsica acerca de los dos grandesmodelos existentes para la construccin depruebas estandarizadas y el procesamientode sus resultados: la Teora Clsica de los

    Tests (TCT) y la Teora de Respuesta al Item(TRI). Cada uno de estos modelos producedatos numricos que tienen distintossignificados y es imprescindible que elusuario de evaluaciones estandarizadastenga una informacin bsica al respecto.

    En segundo lugar, la ficha explica ladiferencia entre promedios y distribucin defrecuencias, dado que los resultados de lasevaluaciones suelen aparecer bajo una u

    otra de estas formas.

    En el resto de esta ficha se muestra yexplica ejemplos de reportes de resultadosutilizan promedios producidos tanto a partirde la TCT como a partir de la TRI. En laficha 9 se mostrar ejemplos de reporte deresultados que emplean la distribucin defrecuencias, tambin con TCT y TRI.

    Finalmente, en la ficha explica un conceptoestadstico importante, el de intervalo deconfianza de las mediciones. Este concepto

    implica tener en cuenta el margen de errorque toda medicin tiene (recurdese lodicho en la ficha 4 acerca de laconfiabilidad) a la hora de interpretar lasdiferencias de resultados entre pases,escuelas u otro tipo de entidades.

    1. Los puntajes en la Teora Clsica de los Tests y en la Teora de Respuesta al Item

    1.1. Teora Clsica de los Test (TCT)

    Tradicionalmente, las pruebasestandarizadas son elaboradas y calificadasde modo tal que cada tem o actividadpropuesta a los alumnos vale 1 punto si larespuesta es correcta y 0 si es incorrecta.

    Por lo tanto, todos los temes tienen elmismo valor en los puntajes de los alumnos,independientemente de su grado dedificultad. Tanto un tem fcil como un temmuy difcil valen 1 punto.

    En este marco, el puntaje de un alumno es

    muy fcil de calcular y de comprender. Si laprueba tiene 36 preguntas y un alumno

    responde correctamente 24, se ser supuntaje. La prueba tiene un puntaje mnimo(0), en el caso en que el alumno noresponda correctamente ninguna pregunta yun puntaje mximo, que es igual al total depreguntas de la prueba (36 en esteejemplo).

    Como consecuencia, si un alumno respondecorrectamente 10 preguntas, entre ellas lascinco ms complejas, y otro alumnoresponde correctamente 10 preguntas, peroninguna de las cinco ms complejas, ambosobtendrn 10 puntos en la prueba, auncuando uno haya demostrado capacidad para

    responder aspectos ms complejos odifciles.

  • 8/8/2019 FichDid_-_Ficha_08 significado de la evaluacin

    3/13

    22qu significan los nmeros de las evaluaciones educativas? (I)

    para comprend er las evaluaciones educativas ficha n 8

    Este modelo de trabajo se denomina TeoraClsica de los Test (TCT) y es lametodologa ms antigua y ms usada en lospases de la regin. Si bien es ms sencillade comprender, tiene varias limitaciones. Enparticular, no permite considerar ladificultad y complejidad de las tareas a lahora de establecer los puntajes y no permiteestablecer comparaciones en el tiemposuficientemente estables y precisas.

    1.2. Teora de Respuest a al It em (TRI)

    La Teora de Respuesta al Item (TRI) es undesarrollo matemtico ms sofisticado parala generacin de puntajes en pruebas

    estandarizadas.Parte del supuesto de que existe en cadaalumno una capacidad relativa a lo que laprueba evala (generalmente llamadarasgo latente), y que dicha capacidaddetermina la probabilidad de que el alumnoresponda correctamente a cada pregunta dela prueba, segn la dificultad de las mismas.

    Por su complejidad matemtica, es bastantedifcil explicar y comprender cmo secalculan los puntajes, dado que esto se hace

    utilizando un modelo matemtico sofisticadoy un software especfico de procesamiento.Pero lo importante es que el lectorcomprenda qu significan y qu no.

    Los puntajes de TRI por lo general seexpresan en una escala que tiene una mediade 500 puntos1. Los valores de la escalapueden variar entre alrededor de 100 y 900puntos. Pero la escala TRI no tiene un ceroabsoluto, como en la TCT, y tampoco unpuntaje mximo (que en la TCT es el totalde actividades de la prueba). El mnimo y el

    mximo lo determina cada aplicacin. Loque se hace con la TRI es centrar la escalaen el promedio de habilidad de la poblacinestudiada. Por lo tanto, el punto dereferencia de la escala es la media.

    Si un alumno tiene un puntaje cercano a los500 puntos, eso significa que su nivel decapacidad est en el promedio de la

    1Tanto TIMSS como PISA utilizan 500 puntos como ejede la escala, pero tambin es posible usar 250 puntos(como en el caso del SIMCE en Chile y del SAEB en

    Brasil) u otros. La decisin de qu cifra utilizar comomedia es arbitraria.

    poblacin evaluada. La escala se construyede tal modo que dos tercios de los alumnosse ubican entre 400 y 600 puntos. Si unalumno tiene un puntaje de 650, esosignifica que tiene una capacidad muysuperior al promedio. En cambio, un puntajede 300 puntos significa que est entre losalumnos de peor desempeo2.

    La escala de puntajes representa dos cosas ala vez: la capacidad de los individuos y, ladificultad de las preguntas de la prueba.Esto significa que una pregunta con unpuntaje asociado de 500 puntos es dedificultad intermedia. Una pregunta quetiene asociado un puntaje de 700 puntos esdifcil solo la responden los alumnos mscapaces- y una pregunta con un puntajeasociado de 300 puntos es fcil todos losalumnos, aun los menos capaces, tienenposibilidades de responderlacorrectamente3.

    Para poder interpretar mejor la escala depuntajes, normalmente se ofrece al lectoruna descripcin de lo que son capaces dehacer los alumnos que se ubican en distintospuntos de la misma (vase la figura 1).

    Con la TRI no todas las preguntas tienen el

    mismo peso. Dos alumnos pueden haberrespondido correctamente la mismacantidad de preguntas, pero el querespondi preguntas ms complejasobtendr un puntaje ms alto.

    Una de las virtudes de la TRI es que permiteestimar la capacidad de los alumnosindependientemente de la prueba que seaplic o del grupo que fue evaluado. Estosignifica que no todos los alumnos debenrendir la misma prueba. Basta con que hayaun conjunto de preguntas en comn para

    que se pueda estimar el puntaje de losalumnos en la misma escala.

    2Es importante comprender que 500 puntos no significa500 respuestas correctas como en la TCT (estainterpretacin fue realizada por algunos medios deprensa en Mxico en algn momento). Cada alumnoresponde entre 30 y 50 preguntas y a partir de susrespuestas se estima su puntaje a travs del modelomatemtico.

    3 Cada pregunta tiene asociada un puntaje en funcinde su dificultad. Este puntaje corresponde al nivel decapacidad de los alumnos que tienen un 50% de

    probabilidad de responder correctamente la pregunta.

  • 8/8/2019 FichDid_-_Ficha_08 significado de la evaluacin

    4/13

    33qu significan los nmeros de las evaluaciones educativas? (I)

    para comprend er las evaluaciones educativas ficha n 8

    Figura 1Mapa de actividades de Lectura en PISA 2000

    AlumnosPuntajeescala

    TRI

    Actividades

    822HIPOTETIZAR sobre un fenmeno inesperado tomando en cuenta conocimientoexterno junto con toda la informacin relevante de una TABLA COMPLEJA, en un temarelativamente poco familiar.

    727ANALIZAR varios casos descritos y VINCULARLOS a categoras dadas en unDIAGRAMA DE RBOL, en el cual parte de la informacin relevante se encuentra ennotas al pie de pgina.

    705HIPOTETIZAR sobre un fenmeno inesperado tomando en cuenta conocimientoexterno junto con parte de la informacin relevante de una TABLA COMPLEJA , en untema relativamente poco familiar

    652 EVALUAR el final de una NARRACIN LARGA en relacin con su tema implcito.

    645 RELACIONAR MATICES DEL LENGUAJE en una NARRACIN LARGA con el temaprincipal, en presencia de ideas contradictorias.

    Alumnos de msalto desempeo.

    Tienen al menosun 50% deprobabilidad derespondercorrectamente alas actividadescorrespondientes asu puntaje.

    Tienen unaprobabilidad msalta de responder alas preguntas depuntajesinferiores.

    631 LOCALIZAR informacin en un DIAGRAMA DE RBOL utilizando informacin de unanota al pie de pgina.

    600HIPOTETIZAR acerca de una decisin del autor relacionando la evidenciaproporcionada en una grfica con mltiples presentaciones, con el tema principalinferido.

    581 COMPARAR Y EVALUAR los estilos de dos CARTAS abiertas.

    567 EVALUAR el final de una NARRACIN LARGA en relacin con la trama.

    542 INFERIR UNA RELACIN ANALGICA entre dos fenmenos discutidos en unaCARTA abierta.540 IDENTIFICAR la fecha inicial implcita en una GRFICA.

    537 CONECTAR evidencia de una NARRACIN LARGA con conceptos personales, con elfin de justificar puntos de vista opuestos.

    508 INFERIR LA RELACIN entre DOS PRESENTACIONES GRFICAS con distintasconvenciones.485 LOCALIZAR informacin numrica en un DIAGRAMA DE RBOL.

    480 CONECTAR evidencia de una NARRACIN LARGA con conceptos personales, con elfin de justificar un nico punto de vista.

    478 LOCALIZAR Y COMBINAR informacin en una GRFICA DE LNEA y su introduccin,,para identificar un dato faltante.

    477 COMPRENDER la estructura de un DIAGRAMA DE RBOL.

    473 RELACIONAR casos concretos con categoras presentadas en un DIAGRAMA DERBOL, cuando parte de la informacin relevante est en notas al pie de pgina.

    447 INTERPRETAR informacin de un nico prrafo, para comprender el escenario de unaNARRACIN.

    421 IDENTIFICAR el PROPSITO comn de DOS TEXTOS CORTOS.

    Alumnos de

    desempeo en

    torno al promedio

    de la poblacin.

    Tienen al menos

    un 50% de

    probabilidad de

    responder

    correctamente a

    las actividades

    correspondientes a

    su puntaje.

    Tienen una

    probabilidad

    menor de

    responder a las

    preguntas de

    puntajes ms altos.

    Tienen una

    probabilidad

    mayor de

    responder a las

    preguntas de

    puntajes ms

    bajos.405 LOCALIZAR elementos de informacin explcita en un TEXTO que contieneorganizadores fuertes.

    397 INFERIR la IDEA PRINCIPAL de una GRFICA DE BARRAS simple, a partir de suttulo.

    392 LOCALIZAR un elemento de informacin literal en un TEXTO con una estructuratextual clara.

    367 LOCALIZAR informacin explcita en una seccin especificada de una NARRACINcorta.

    Alumnos de peordesempeo. Slopueden responderpreguntas depuntajes bajos.Casi nulaprobabilidad deresponderpreguntas depuntajessuperiores.

    356RECONOCER EL TEMA de un artculo con subttulos claros y considerableredundancia.

    Fuente: Elaboracin propia a partir de Reading for Change: Performance and Engagement across Countries (OECD,2002b)

  • 8/8/2019 FichDid_-_Ficha_08 significado de la evaluacin

    5/13

    44qu significan los nmeros de las evaluaciones educativas? (I)

    para comprend er las evaluaciones educativas ficha n 8

    Lo mismo ocurre con evaluaciones sucesivasen el tiempo. Basta con que dosevaluaciones tengan un conjunto de temesen comn denominados temes de anclaje-para poder estimar los puntajes de losalumnos de la segunda evaluacin en lamisma escala que la primera.

    Por ejemplo, 500 puntos fue la media de laOCDE en Lectura en PISA 2000. En 2003 se

    usaron parte de los temes del 2000 quefueron conservados como confidenciales. Deeste modo, los puntajes de Lectura de 2003se expresaron en la escala del 2000. Por lotanto, el promedio de 2003 ya no fue 500.Lo hubiese sido si no hubieran cambiado lascompetencias de los jvenes. Fue 494, loque indica que los resultados empeoraronlevemente respecto al ao 2000.

    Recuadro 1

    La comparacin de resultados en el tiempo

    Una de las informaciones que tanto los tomadores de decisiones como la opinin pblica demandan alas evaluaciones estandarizadas es la relativa a cmo evolucionan los aprendizajes de los estudiantes

    a lo largo de los aos. Sin embargo, no todos los sistemas proporcionan esta informacin en formaapropiada. Lo primero que se debe garantizar es que se evaluaron los mismos contenidos ycompetencias. Como resulta obvio, si se modifica aquello que fue evaluado, los resultados puedencambiar por ese motivo, no necesariamente porque los alumnos estn aprendiendo mejor lo que habasido evaluado inicialmente. Si se desea medir el cambio, no se debe cambiar el instrumento demedicin.

    Un primer ejemplo de este problema fue constatado en Argentina a travs de una investigacinrealizada por Silvina Larripa4. El trabajo muestra que, en Matemtica, mientras en 1995 lacompetencia ms simple (Reconocimiento) tena en la prueba un peso del 28% y la competencia mscompleja (Resolver problemas) tena un peso del 32%, en 1998 dichos pesos cambiaronrespectivamente a 45% y 20%. El trabajo muestra tambin que para evaluar comprensin de lecturaen 1995 se utiliz un nico texto de una extensin de 264 palabras, en tanto en 1998 se utiliz dostextos, uno de 521 palabras y el otro de 122. Cuando se producen cambios de este tipo en la

    estructura de las pruebas es muy difcil que se pueda establecer comparaciones vlidas.

    Un segundo ejemplo es lo ocurrido en PISA en relacin con Matemtica. Como en el ao 2000 fueronevaluadas solamente dos sub-reas de contenidos (Espacio y Forma y Cambio y Relaciones), a lasque en el ao 2003 se agreg otras dos sub-reas 5 (Cantidad y Probabilidad e Incertidumbre), noes posible establecer una comparacin global de los resultados en Matemtica entre PISA 2000 yPISA 2003. La comparacin fue realizada nicamente para las sub-reas evaluadas en ambos ciclos.

    Trabajando con TCT es posible establecer comparaciones en el tiempo siempre y cuando las pruebastengan la misma cantidad de preguntas, evalen las mismas competencias y contenidos con los mismospesos relativos, y el conjunto de actividades de la prueba tenga la misma dificultad promedio medidaen una generacin independiente de las que estn siendo comparadas. Estas pruebas se denominanformas equivalentes de prueba.

    La TRI ofrece mucho mayor flexibilidad y precisin para establecer las comparaciones en el tiempo.Se pueden utilizar pruebas diferentes, a condicin de que exista un conjunto comn que se mantieneen secreto (temes de anclaje). Esto permite estimar los puntajes y hacerlos comparables. A esteproceso se le denomina tcnicamente equiparacin de puntajes.

    En cualquier caso, siempre que se establece comparaciones con resultados de evaluaciones realizadasanteriormente, el lector debe buscar en el reporte la informacin relativa a los recaudos tcnicostomados para garantizar la comparabilidad.

    4 Larripa, S., 2003; El Sistema Nacional de Evaluacin de la Calidad Educativa (SINEC): acerca de lacomparabilidad de sus resultados. Argentina, 1995-2000. Tesis de Maestra, Universidad de San Andrs, Escuela de

    Educacin.5 En 2003 Matemtica fue el foco principal de PISA, lo que permiti ampliar el espectro de contenidos evaluados.

  • 8/8/2019 FichDid_-_Ficha_08 significado de la evaluacin

    6/13

    55qu significan los nmeros de las evaluaciones educativas? (I)

    para comprend er las evaluaciones educativas ficha n 8

    2. Promedios y distribucin de frecuencias

    Independientemente del modelo de pruebas

    con que se trabaje, desde el punto de vistaestadstico existen dos modos principales depresentar los resultados: a travs depromedios o mediante frecuencias relativas.

    2.1. Promedios

    El promedio o media es uno de las medidasestadsticas ms utilizadas para describir loque caracteriza a un determinado grupo. Suclculo es bien sencillo: simplemente sesuma la cantidad de valores y se divide elresultado obtenido entre el nmero

    correspondiente a la cantidad de casos.

    Por ejemplo, si se desea describir elresultado de una escuela en una pruebaestandarizada a travs de la media opromedio de la escuela, se suman lospuntajes obtenidos por los alumnos y sedivide el resultado obtenido entre lacantidad de alumnos.

    Este promedio de la escuela no debe serconfundido con los promedios individualesque se utiliza muchas veces para calificar a

    los alumnos. Estos ltimos resultan de sumarlas calificaciones o notas que el alumno fueobteniendo a lo largo del ao y se divide esasuma entre la cantidad de calificaciones.

    El promedio o media tiene la ventaja de quepermite una comparacin rpida entreresultados de diferentes grupos (que puedencorresponder a los alumnos de una escuela,provincia o pas) y saber cul es ms alto ycul es ms bajo.

    Sin embargo, como contrapartida de la

    sencillez, los promedios tienen la siguientedebilidad fundamental: pueden ocultarsituaciones diferentes dentro de cada grupo.

    Veamos qu significa esto con un ejemplo.Los grficos incluidos en la figura 2corresponden a dos escuelas, A y B, ambascon 110 estudiantes, que rindieron unamisma prueba de Matemtica cuyo puntajemximo era 32 puntos.

    Ambas escuelas tienen un promedio de 21,35puntos. Sin embargo, a pesar de que lospromedios son iguales, la distribucin de

    los puntajes es bien diferente entre una yotra escuela.

    En la escuela A la mayora de los alumnos seubica muy cerca de la media. Esto significaque los resultados en la escuela son bastanteparejos. No hay alumnos con resultados muybajos ni muy altos.

    En la escuela B, en cambio, los resultadostienen mayor dispersin, es decir, hayms alumnos en los extremos, con puntajesbajos y altos.

    Por lo tanto, a pesar de que ambas escuelastienen el mismo promedio en Matemtica,los resultados son ms homogneos en laescuela A y ms desiguales en la escuela B.

    Esta diferencia puede tener consecuenciasimportantes.

    Por ejemplo, si se estableciera que lograr lamitad de los puntos de la prueba (16 puntos)es un resultado satisfactorio, entonces en laescuela A 99 alumnos (el 90%) habraalcanzado dicho nivel satisfactorio, mientras

    que en la escuela B lo habran logrado 79alumnos (71,8%). La escuela A sera en estesentido mejor que la B (usamosdeliberadamente las comillas porque, comose mostrar en la ficha 10, estainterpretacin es simplista).

    En cambio, si se considera que el resultadode un alumno es satisfactorio si respondecorrectamente 3/4 partes de la prueba (24puntos), en la escuela A dicho nivel esalcanzado por 36 alumnos (32,7%) y en laescuela B por 54 alumnos (49,1%). La

    escuela B sera mejor que la A.

    2.2. Dist r ibucin de Frecuencias

    La distribucin de frecuencias es lacantidad de casos que corresponden a cadavalor, en este caso, la cantidad de alumnosque obtuvo cada uno de los puntajesposibles en la prueba.

    Esto ltimo es lo que muestran las grficasde la figura 2. En el eje X se representan los32 puntos posibles que la prueba admita, en

    tanto en el eje Y se representa la cantidad

  • 8/8/2019 FichDid_-_Ficha_08 significado de la evaluacin

    7/13

    66qu significan los nmeros de las evaluaciones educativas? (I)

    para comprend er las evaluaciones educativas ficha n 8

    de alumnos que obtuvo cada puntaje (eltotal de alumnos en cada escuela es 110).

    Se habla de frecuencias absolutas cuandose indica directamente la cantidad de casoscomo en la figura 2- y de frecuenciasrelativas cuando, en vez de la cantidad decasos, se indica el porcentaje que stosrepresentan sobre el total.

    Como normalmente no tiene mayor sentidoreportar los porcentajes de alumnos en cadauno de los puntajes de la prueba, lo quesuele hacerse es establecer tramos depuntaje y reportar el porcentaje de alumnosen cada tramo.

    Por ejemplo, en la figura 2 se podranestablecer tres grandes tramos en el puntajede la prueba de Matemtica: de 0 a 12puntos, de 13 a 24 y de 25 a 32.

    En el primer tramo, la escuela A tiene 3alumnos (2,7%), en el segundo tramo tiene81 alumnos (73,6%) y en el tercero tiene 26alumnos (23,6%). La escuela B tiene 25alumnos en el primer tramo (22,7%), 37 enel segundo (33,6%) y 48 en el tercero(43,6%).

    Hay diferentes modos de establecer ytrabajar con estos tramos de puntajes, loque ser objeto de anlisis en la ficha 9.

    Figura 2

    Escuela A

    0

    2

    4

    6

    8

    10

    12

    Cantidaddealumnos

    0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32

    Puntaje en Matemtica

    Escuela B

    0

    2

    4

    6

    8

    10

    12

    Cantidaddealu

    mnos

    0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32

    Puntaje en Matemtica

    Cantidad total de alumnos en cada escuela: 110 - Promedio de los puntajes en cada escuela: 21,35

  • 8/8/2019 FichDid_-_Ficha_08 significado de la evaluacin

    8/13

    77qu significan los nmeros de las evaluaciones educativas? (I)

    para comprend er las evaluaciones educativas ficha n 8

    3. El reporte de resultados a travs de promedios

    El reporte a travs de promedios puederealizarse tanto a travs de puntajes de laTCT como de puntajes de TRI.

    3.1. Porcentaj e promedio de respuest ascorrectas

    En la figura 3 se presenta los promedios porprovincia en la evaluacin nacional realizadaen Argentina en 1996. Rpidamente, unopuede constatar qu provincias tuvieron lospromedios ms altos y cules los ms bajos.

    El porcentaje promedio de respuestascorrectas es producido a partir de la TeoraClsica y se calcula de la siguiente manera:primero se computa el porcentaje derespuestas correctas de cada alumno (si unaprueba tiene 30 preguntas y un alumnorespondi correctamente 3, el porcentaje derespuestas correctas para ese alumno es10%) y luego se calcula el promedio paratodos los alumnos.

    Este dato es exactamente equivalente alpromedio de los puntajes de todos losalumnos. Para calcular el promedio de los

    puntajes de los alumnos, es necesario sumartodos los puntajes individuales y dividirloentre la cantidad de alumnos.

    Si el porcentaje promedio de respuestascorrectas (PPRC) fue de 58,19% y la pruebatena 30 preguntas, significa que el puntajepromedio de los alumnos fue 58,19% * 30 /100 = 17,457 puntos. Es decir que elporcentaje promedio de respuestascorrectas es igual que el puntaje promediode los alumnos, calculado como porcentajedel puntaje total de la prueba.

    Estos datos, al igual que los promedios de laTRI, sirven bsicamente para establecercomparaciones entre entidades. El PPRCpodra interpretarse en forma criterial,como indicador de que los alumnos dominanx porcentaje de lo que deberan saber,slo en el caso en que los temes sean unabuena muestra de todo lo que los alumnosdeberan saber. Pero si la prueba fueconstruida con un enfoque normativo,eliminando los temes muy fciles y muydficiles, dicha interpretacin no es vlida.

    Figura 3ARGENTINA - Porcentaje Promedio de

    Respuestas Correctas por Provincia

    Fuente: Direccin Nacional de Evaluacin, 1997.

    Operativo Nacional de Evaluacin 1996.

  • 8/8/2019 FichDid_-_Ficha_08 significado de la evaluacin

    9/13

    88qu significan los nmeros de las evaluaciones educativas? (I)

    para comprend er las evaluaciones educativas ficha n 8

    3.2. Promedios en puntaj es TRI

    Segn se explic ms arriba, los puntajes deTRI no pueden ser interpretados en trminosde cantidad de preguntas respondidascorrectamente, sino de probabilidad de losalumnos de responder correctamente apreguntas de distinto grado de dificultad(figura 1 en esta ficha).

    Al igual que en el caso de la TCT, lospromedios de TRI sirven principalmente paraestablecer comparaciones entre pases(vese la figura 2 en la ficha 4). En el casode la TRI los promedios no variarn entre 0 y100, como los porcentajes de respuestascorrectas (o entre 0 y el puntaje mximo dela prueba) sino que, segn se explic antes,el punto de referencia ser la media de lapoblacin evaluada, que suele ubicarse enlos 500 puntos por una cuestin deconveniencia en la comunicacin de losdatos.

    La interpretacin del significado de lospuntajes, como se indic, depende decontar con una ilustracin de la escala entrminos de tareas, como la presentada enla figura 1 en esta ficha. Este tipo de

    descripciones suele acompaarse deejemplos de temes aplicados, del estilo delos incluidos en la ficha 6 (no se incluyenaqu por razones de espacio).

    3.3. La import ancia de la dispersin delos resultados

    En el apartado 2 de esta ficha se mostr queuno de las debilidades principales que tienereportar a travs de promedios radica enque los mismos no dan cuenta de ladispersin interna de los resultados.

    Por ejemplo, a partir de la tabla incluida enla figura 3 de esta ficha, uno puede saberque en Crdoba el porcentaje promedio derespuestas correctas fue 58,77%, pero nopuede saber si la mayora de los alumnosestuvieron cercanos a ese resultado o si, porel contrario, hay fuertes disparidades,alumnos que lograron cerca del 100% derespuestas correctas y otros que apenaslograron un 10%. Lo mismo ocurre con lospuntajes de TRI.

    En la figura 2 de la ficha 4 el lector puedeobservar que el promedio de Finlandia seubica cerca de 550 puntos, pero no puedesaber si todos los alumnos estn cerca dedicho puntaje o si, por el contrario, existenimportantes diferencias dentro de ese pas.

    El tema de la dispersin interna de losresultados es relevante porque estvinculado a la cuestin de la equidad en elacceso a los aprendizajes.

    Los reportes de resultados PISA tienen encuenta la importancia de la informacinrelativa a la dispersin que se escondedetrs de los promedios a travs de ungrfico como el incluido en la figura 4.

    Los resultados de cada pas sonrepresentados mediante una barra. Cadabarra contiene varios datos referentes alpas. La lnea en el centro representa lamedia del pas en cuestin. La caja grisrepresenta el error estndar de medicin delpas (vase el prximo apartado). Las lneasnegras y blancas representan los resultadosde nias y varones respectivamente. Losextremos de cada barra representan lospuntajes a partir de los cuales se ubican el

    5% de los alumnos de mejor (arrriba) y el 5%de los alumnos de peor desempeo (abajo).

    De esta manera, el lector puede conocer noslo el promedio del pas sino la dispersininterna de sus resultados, representada porla longitud de la barra. Una barra de granlongitud indica una gran distancia entre losmejores y los peores alumnos. Una barra dereducida longitud indica que los resultadosde los mejores y los peores alumnos no sontan diferentes y se acercan bastante alpromedio del pas.

    Para comprender mejor esto ltimo, en lafigura 5 se presenta en forma ampliada doscasos concretos extrados de la figura 4, losde Nueva Zelanda y Corea del Sur, pasesque aparecen juntos en la figura 4 porquesus promedios son muy parecidos. NuevaZelanda tuvo en PISA 2000 un promedio de529 puntos en Lectura y Corea un promediode 525.

    Sin embargo, a pesar de que los promediosson muy prximos, la situacin en ambos

    pases es muy distinta.

  • 8/8/2019 FichDid_-_Ficha_08 significado de la evaluacin

    10/13

    99qu significan los nmeros de las evaluaciones educativas? (I)

    para comprend er las evaluaciones educativas ficha n 8

    Figura 4Puntajes promedio y dispersin en Lectura, PISA 2000

    Fuente: OECD/UNESCO-UIS, 2003; Literacy Skills for the World of Tomorrow: Further Results from PISA 2000.

    Nueva Zelanda tiene una altsima dispersininterna en sus resultados. Sus mejoresalumnos alcanzan puntajes cercanos a 700pero, al mismo tiempo, sus peores alumnosestn por debajo de los 350 puntos. Corea,en cambio, muestra una situacin internamucho ms equitativa: sus mejores alumnosno tienen resultados tan destacados comolos mejores de Nueva Zelanda pero, almismo tiempo, logra que sus peores alumnoscasi no caigan por debajo de los 400 puntos.

    Se puede observar, adems, que en ambospases las nias tienen mejores resultados enLectura que los varones. Pero, nuevamente,las distancias entre ellos son bastante msimportantes en Nueva Zelanda que enCorea.

    De este modo, PISA reporta, junto con lospromedios de los pases, informacinrelevante acerca de la equidad interna delos resultados en cada pas.

    Figura 5

    PuntajeTRI

    NuevaZelanda

    Corea delSur

    700

    600

    500

    400

    300

    5% alumnos demejor desempeo

    Nias

    Varones

    Promedios

    5% alumnos depeor desempeo

  • 8/8/2019 FichDid_-_Ficha_08 significado de la evaluacin

    11/13

    1100qu significan los nmeros de las evaluaciones educativas? (I)

    para comprend er las evaluaciones educativas ficha n 8

    4. Error estndar de medicin y significacin estadstica de las diferencias

    Otro elemento central que es necesario

    tener en cuenta al analizar los resultados delas evaluaciones es que, segn fue explicadoen la ficha 4 al analizar el tema de laconfiabilidad, toda medida est sujeta a laposibilidad de errores de precisin.

    Para controlar este problema existenprocedimientos estadsticos para calcular elrango dentro del cual, con una altaprobabilidad, puede ubicarse la media.

    Por lo tanto, toda medida tiene asociado undeterminado error estndar. No hay

    resultados exactos, sino estimaciones devalores que pueden variar dentro de ciertosrangos por encima y por debajo del valorestablecido para la media.

    A este rango de variacin se le denominatcnicamente margen de error ointervalo de confianza. Est representadoen las figuras 4 y 5 por las cajitas grisesque rodean a la media de cada pas.

    Qu significan estas cajitas? Que elpromedio de cada pas puede no ser

    exactamente su media, sino que puede sercualquier valor que se ubique dentro de lacajita gris. Esto se establece con un 95%de confianza, lo cual significa que existeuna probabilidad del 95% de que la media

    del pas sea un valor dentro del intervalode confianza.

    Por qu es esto importante? Porquesignifica que no se debe ordenar sin ms nims a los pases segn sus promedios. Debenser tenidos en cuenta tambin losintervalos de confianza. Si los mismos sesuperponen para dos pases, ello significaque, en realidad, los resultados de dichospases podran no ser diferentes. Cualquierade los dos podra estar por encima o pordebajo del otro. Para que la diferencia depromedios entre dos pases sea

    significativa es necesario que losintervalos de confianza no tengan puntosde contacto.

    En la figura 6 se amplifica la zona de lafigura 4 correspondiente a las cajitas delos 7 primeros pases en Lectura de PISA2000. Los nmeros entre parntesis son lospromedios de cada pas.

    Segn es posible apreciar, el resultado deFinlandia es superior al del resto. Sucajita no tiene zona de contacto con las

    dems. Esto quiere decir que la diferenciaentre el promedio de Finlandia y los pasesque le siguen es significativa. Es decir,aun considerando el margen de error, esposible afirmar que Finlandia tuvo unresultado superior a los restantes pases.

    Figura 6Los 7 mejores pases de PISA 2000 en Lectura

    Finlandia(546)

    Canad(534)

    NuevaZelanda

    (529)

    Austra-lia

    (528)

    Irlanda(527)

    HongKong(525)

    Coreadel Sur(525)

    600

    500

  • 8/8/2019 FichDid_-_Ficha_08 significado de la evaluacin

    12/13

    1111qu significan los nmeros de las evaluaciones educativas? (I)

    para comprend er las evaluaciones educativas ficha n 8

    Pero luego siguen cuatro pases cuyosintervalos de confianza o mrgenes de errorse superponen: Canad, Nueva Zelanda,Australia e Irlanda. Si bien sus promediosson diferentes, en realidad estos cuatropases no pueden ser ordenados; cualquierade ellos podra ocupar el segundo lugardespus de Finlandia.

    La lnea roja introducida en la figura 6permite apreciar que la diferencia deCanad respecto a Corea y Hong Kong s essignificativa. Canad obtuvo un resultadosuperior a estos dos pases. En cambio, estosdos pases no se diferencian de NuevaZelanda, Australia e Irlanda.

    El aspecto que acabamos de analizar tienefuertes implicancias para la construccin derankings, segn ser analizado en la ficha10.

    Al mismo tiempo, pone de manifiesto uno delas problemas tcnicos importantes de lamayora de los reportes de resultados enAmrica Latina: por lo general no se informaacerca de los mrgenes de error.

    Ello significa que, en la mayora de loscasos, no es posible saber si las diferenciasreportadas son significativas. Por ejemplo,en el caso de Argentina presentado en la

    figura 3, no es posible saber cundo ladiferencia entre dos provincias essignificativa y cundo no lo es.

    Por ltimo, debe decirse que el hecho deque una diferencia de promedios seaestadsticamente significativa no quieredecir que sea importante.

    Por ejemplo, acabamos de ver que ladiferencia entre Canad por un lado, yCorea y Hong Kong por otro, esestadsticamente significativa. Ello implicaque se puede afirmar que Canad tuvo unmejor resultado. La diferencia de promediosse ubica alrededor de los 9 puntos (podraser algo mayor o menor en funcin de losmrgenes de error).

    Una diferencia de 9 puntos, en una escalaque tiene una media de 500, es ms bienmodesta y no permite afirmar que laeducacin canadiense sea sustantivamentemejor que la de Corea y Hong Kong. Parahacer este tipo de juicios de valor esnecesario recurrir a un conjunto deinformaciones ms amplia.

    Por tanto, estadsticamente significativoimplica que hay diferencias reales, pero nonecesariamente que stas sean sustantivas yrelevantes.

  • 8/8/2019 FichDid_-_Ficha_08 significado de la evaluacin

    13/13