facultad psicologia programa de …...Ç resumen analÍtico en educaciÓn -rae 2 con respecto a la...
TRANSCRIPT
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
1
FACULTAD PSICOLOGIA PROGRAMA DE PSICOLOGIA EDUCATIVA
MAESTRÍA EN PSICOLOGÍA BOGOTÁ D.C.
LICENCIA CREATIVE COMMONS: Atribución no comercial, sin derivadas 2.5 Colombia (CC BY-NC-ND 2.5 CO). AÑO DE ELABORACIÓN: 2014 TÍTULO: Comparación entre las puntuaciones obtenidas por los estudiantes y las propiedades métricas de dos pruebas para evaluar conocimientos de metodología, en estudiantes de psicología de una universidad privada de Bogotá. AUTOR (ES): Forero Aponte Carlos y Pardo Adames Carlos Antonio DIRECTOR(ES)/ASESOR(ES): Pardo Adames Carlos Antonio MODALIDAD: Trabajo de investigación
PÁGINAS: 88 TABLAS: 5 CUADROS: 0 FIGURAS: 4 ANEXOS: 5
CONTENIDO: La investigación abarca tres temas fundamentales que son la educación, la
evaluación educativa y la validez. En cuanto a la primera, se tiene en cuenta el
concepto desde una perspectiva polisemica, aspéctos en común de la educación y
su importancia desde difeerentes postutas como la del banco mundial, la comisión
de comunidades europeas, el ministerio de educación nacional, entro otras.
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
2
Con respecto a la evaluación educativa, se muestra la importancia de ésta en la
educación, su función y los diversos tipos de evaluación. Así como sus alcances y
limitaciones.
Por último, respecto a la validez, se desarrolla el concepto de la validez d ela
evaluación, las diferentes posturas y modelos, haciendo énfasis en la teoría de
respuesta al ítem (TRI)
Conclusiones
Los modelos politómicos de la TRI para tales tipos de ítems operan de forma
distinta a los modelos dicotómicos. En estos casos, el conocimiento de las
características de las funciones de una de categoría de respuesta no determinan
las características de otra categoría, cada categoría de funciones debe ser
manejada de manera explícita (Ostini & Nering, 2006).
Un punto importante es la naturaleza no determinante de las funciones de
las categorías respuesta, ya que no corresponden a funciones monótonas de
manera exclusiva. En el caso de ítems como categorías ordenadas, sólo las
funciones de categorías en extremo negativas o positivas son monótonamente
decrecientes o crecientes respectivamente. En términos generales la función para
la segunda categoría incrementa su probabilidad de responder en tanto la
categoría negativa decrementa (Ostini & Nering, 2006).
Este aspecto del funcionamiento de los ítems dicotómicos y politómicos
resulta relevante para los objetivos de esta investigación, dado que se presenta el
comportamiento diferencial de cada una de las categorías de respuesta, en él se
hace evidente la necesidad de profundizar los análisis para cada una de ellas en
los ítems politómicos, en términos de las habilidades que evidencian los sujetos
frente a cada posible calificación y los errores que pueden ser considerados
comunes en cada una de ellas.
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
3
Quizá le la razón más simple para el uso de modelos politómicos de la
teoría respuesta al ítem, es el hecho de que existen ítems politómicos y que se
utilizan de manera común en la medición de la psicología aplicada. Para generar
de medición adecuada la TRI debe proveer de métodos apropiados para el
modelamiento de estos datos. La necesidad de formatos de respuesta politómicos
puede ser mayor al intentar medir la personalidad o diferentes tipos de variable
sociales. Algunos autores (Kamakura & Balasubramanian, 1989 como se cita en
Ostini & Nering, 2006) sugieren que las distribuciones en los ítems dicótomos son
menos claras en estos contextos que en la medición de la habilidad. De igual
forma se ha evidenciado que los ítems con dos o tres alternativas de respuesta
son inadecuados en estos contextos dado que no permiten la obtención de mucha
información y frustran a los evaluados (Cox, 1980 como se cita en, Ostini &
Nering, 2006).
Los resultados obtenidos en esta investigación son coherentes con los de
López (2005) quien realizó un estudio donde comparó cinco formatos de respuesta
para ítems politómicos con un formato dicotómico con sólo dos categorías de
respuesta. No se encontraron diferencias importantes en la capacidad de la
prueba para evaluar la presencia de depresión independientemente del tipo de
ítems; en este caso el investigador plantea que la presencia de formatos
politómicos no garantiza una mejor evaluación de los atributos que la presencia de
los ítems dicotómicos.
El comportamiento de los ítems politómicos en esta investigación da lugar a
apreciaciones similares a las obtenidas en el estudio de Kolen, Frisbie y
Ankenmann (2001) quienes encontraron los métodos politómicos permitían una
mejor apreciación del desempeño del evaluado.
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
4
Un aporte importante en esta investigación tiene que ver con el empleo de
los ítems dicotómicos y politómicos para la evaluación de conocimientos, porque
se generan cuestionamientos frente a la forma como se construyen las
evaluaciones dentro de los procesos cotidianos de las asignaturas, y las
intencionalidades con que son estructurados los ítems que se le presentan
frecuentemente a los estudiantes. Es evidente que las categorías que son
evaluadas en la implementación de los ítems politómicos tienden hacer más
amplias y al implementarse de manera adecuada pueden contribuir en la
construcción de conocimiento de los estudiantes.
En futuras investigaciones es necesario tener en cuenta una serie de
aspectos relacionados, en primer lugar, con la extensión de las pruebas, dado que
la cantidad de ítems elaborados podría no ser suficiente para obtener resultados
concluyentes. Sin embargo, cabe recordar que teóricamente desde la teoría
respuesta al ítem, un solo ítem es suficiente para identificar la habilidad de una
persona evaluada.
Otro aspecto que debe ser corregido tiene que ver con la implementación
del proceso del diseño basado en evidencias ya que este se constituye
indudablemente en una metodología distinta para el diseño de pruebas y que debe
ser contrastada con los otros tipos de metodologías para probar su verdadero
impacto. La estructuración de pruebas desde esta perspectiva parece mostrar
mayor precisión, lo cual constituye un avance en la evolución de los procesos de
evaluación.
Una propuesta para futuras investigaciones tiene que ver con asegurar la
construcción de dos pruebas diferentes que busquen evaluar las mismas
dimensiones, exponiendo a las mismas afirmaciones y dar cuenta de las mismas
tareas; de esta forma se puede evaluar mejor si realmente hay un impacto
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
5
diferencial del tipo de ítem sobre la evaluación de la habilidad de los
respondientes, y si la presentación de múltiples características realmente permite
entender mejor el alcance de dicha habilidad frente al identificación de
conocimiento que sobre un área posee un evaluado.
DESCRIPCIÓN: Esta investigación tuvo como objetivo comparar los resultados obtenidos y las
propiedades métricas de ítems dicotómicos y politómicos utilizados para evaluar
conocimientos en el área de métodos de investigación en estudiantes de
psicología de una universidad privada analizando la información con el modelo de
Rasch de la TRI. Se trata de una investigación cuantitativa de tipo instrumental y
psicométrica. Participaron 76 estudiantes de tercer y cuarto semestre de
psicología seleccionados mediante muestreo no probabilístico autoselectivo. Se
realizó la construcción validación y aplicación de una prueba compuesta por cinco
ítems dicotómicos y seis ítems politómicos para evaluar conocimientos en el área
métodos de investigación. La prueba fue diseñada en con base en el marco de
evaluación conceptual. Los resultados fueron analizados con el software Winsteps
utilizando el modelo de Rasch de la TRI. No se encontraron diferencias
significativas (Chi cuadrado= 2,1688; gl = 1; p > 0,05) en los niveles de habilidad
evidenciado por los participantes ni en los niveles de dificultad de los ítems.
METODOLOGÍA: De acuerdo con Montero y León (2007) es un estudio empírico con metodología
cuantitativa de tipo instrumental, ya que se realiza el desarrollo de una prueba
incluyendo su diseño y el estudio de las propiedades psicométricas de la misma.
Por otra parte, de acuerdo con Chow (2002) esta investigación es psicométrica, de
medición y metodología no experimental. La investigación es psicométrica dado
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
6
que se busca evaluar las condiciones métricas de dos pruebas y las
características técnicas de los ítems que las componen, temas centrales en la
psicometría que se encarga de la medición de constructos psicológicos. Se
considera que la metodología es no experimental ya que no se produce
manipulación de variables, ni se introducen nuevas variables en el medio ambiente
de los participantes. La investigación se realiza diseñando dos pruebas que
buscan ser instrumentos para medir las manifestaciones del conocimiento en el
área de métodos de investigación que poseían los participantes al momento de ser
evaluados.
PALABRAS CLAVES: Análisis de ítem (26800), teoría de respuesta al ítem (26825), Modelo de Rasch
(26825), construcción de pruebas (52210)
CONCLUSIONES: En primer lugar está el tema del diseño de pruebas centrado en evidencias.
Es una herramienta que, aunque no muy reciente (década del 90 del siglo pasado)
es la que se encuentra en uso tanto en evaluación psicológica como educativa. Su
uso no es tan extendido, pero si tiene fuertes implicaciones en la construcción de
las evaluaciones y en la precisión de las mismas. Si se contrasta con el método
tradicional del establecimiento de los planes de prueba, es indudable que esta
metodología permite la identificación precisa de los aspectos a evaluar, tanto en la
identificación específica de las tareas a desarrollar por parte del evaluado.
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
7
Las dos perspectivas – tradicional y diseño basado en la evidencia-
corresponden a naturalezas distintas, en tanto que la primera permite establecer
los aspectos generales y amplios de lo que puede llegar a ser la evaluación, la
búsqueda de evidencia determina con precisión los alcances y objetivos de la
evaluación a la par que permite establecer los alcances y limitaciones de la
misma.
Frente al objetivo general qué consistía en comparar los resultados
obtenidos y las propiedades métricas de dos pruebas, una con ítems dicotómicos
y otra con ítems politómicos para evaluar los conocimientos en el área métodos de
investigación, se desarrolló un proceso a partir de la implementación del diseño
basado en la evidencia para la construcción de las pruebas; este diseño permitió
la implementación de un proceso estricto de identificación de las características,
las evidencias y las tareas específicas a desarrollar por parte de los estudiantes
dentro de un proceso de evaluación.
El diseño basado en la evidencia permitió orientar la construcción de
pruebas para la evaluación de conocimientos, ya que cada uno de los elementos
que componen este tipo de diseño orienta el proceso y permite conservar la
fidelidad de la evaluación con los objetivos de aprendizaje. Es así que la
identificación de las tareas a realizar facilitó la construcción de las pruebas con
ítems de selección múltiple con única respuesta con criterios de calificación
dicótoma y polítoma de acuerdo a las necesidades y condiciones de cada una de
las pruebas (Véase Apéndice A).
Los dos primeros objetivos fueron logrados al establecer dos pruebas con
preguntas de selección múltiple de única respuesta (SMUR), una con calificación
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
8
dicotómica y la otra con calificación politómica, desarrolladas, como se ha
mencionado, a partir del diseño centrado en la evidencia.
En cuanto al tercer objetivo, respecto a los diferentes resultados por los
estudiantes evaluados a través de las dos pruebas, no se encontraron diferencias
significativas, lo cual implica que la estructura de las pruebas no establece
diferencias en cuanto al desempeño de los evaluados. Sin embargo, al considerar
el cuarto objetivo, se encuentra con que la prueba de ítems politómicos cumple
mejores estándares métricos que la prueba politómica. Por el mismo carácter de la
prueba politómica, esta permite una amplitud mayor en la medición que la prueba
dicotómica, esto se ve reflejado en la variabilidad de las mediciones de las dos
pruebas que representan la ejecución de los estudiantes.
En función de lo anterior cuando se evalúa la primera hipótesis respecto a
una mayor precisión en la puntuación con ítems calificados politómicamente frente
a ítems calificados dicotómicamente, se encontraron elementos suficientes para
afirmar que hay diferencias en el nivel de precisión de los ítems, dado que la
prueba con ítems politómicos permite mayor discriminación en la medición, por lo
tanto se acepta la hipótesis.
Respecto a la segunda hipótesis se pudo hacer evidente que la prueba con
ítems politómicos cumple más estándares técnicos que la prueba dicotómica, eso
permite aceptar esta hipótesis. Una dificultad importante que se presenta con el
uso de los ítems dicotómicos es que una respuesta positiva es descrita como
correcta y la categoría alternativa es señalada como incorrecta y, sin embargo, la
localización de parámetro b es normalmente identificada como el parámetro de
dificultad del ítem. La referencias a respuestas correctas y dificultad de los ítems
pierde su significado común en el contexto de las pruebas que intentan evaluar la
ejecución típica de los individuos más que su ejecución máxima (Ostini & Nering,
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
9
2006). Las medidas ejecución típica incluyen aquella que pueden ser llamado
medidas de predilección en contraste con las medidas de ejecución.
Los mecanismos de la TRI pueden ser presentados más fácilmente en
términos de los modelos dicotómicos, expresado en un modelo con dos
alternativas. Normalmente en estos ítems se requiere de respuestas que son
correctas o incorrectas, pero en evaluación de características de la personalidad
por ejemplo las respuestas pueden ser falsas o verdaderas, también existen con
múltiples opciones de respuesta lo que es cada vez más frecuente. Este tipo de
ítems aparecen escalas de clasificación como por ejemplo la escala tipo Likert, en
los ítems que proporcionan créditos parciales, con respuestas parcialmente
correctas, en ítems de múltiple respuesta donde cada opción de respuesta es
calificada separadamente.
Los modelos politómicos de la TRI para tales tipos de ítems operan de forma
distinta a los modelos dicotómicos. En estos casos, el conocimiento de las
características de las funciones de una de categoría de respuesta no determinan
las características de otra categoría, cada categoría de funciones debe ser
manejada de manera explícita (Ostini & Nering, 2006).
Un punto importante es la naturaleza no determinante de las funciones de
las categorías respuesta, ya que no corresponden a funciones monótonas de
manera exclusiva. En el caso de ítems como categorías ordenadas, sólo las
funciones de categorías en extremo negativas o positivas son monótonamente
decrecientes o crecientes respectivamente. En términos generales la función para
la segunda categoría incrementa su probabilidad de responder en tanto la
categoría negativa decrementa (Ostini & Nering, 2006).
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
10
Este aspecto del funcionamiento de los ítems dicotómicos y politómicos
resulta relevante para los objetivos de esta investigación, dado que se presenta el
comportamiento diferencial de cada una de las categorías de respuesta, en él se
hace evidente la necesidad de profundizar los análisis para cada una de ellas en
los ítems politómicos, en términos de las habilidades que evidencian los sujetos
frente a cada posible calificación y los errores que pueden ser considerados
comunes en cada una de ellas.
Quizá le la razón más simple para el uso de modelos politómicos de la
teoría respuesta al ítem, es el hecho de que existen ítems politómicos y que se
utilizan de manera común en la medición de la psicología aplicada. Para generar
de medición adecuada la TRI debe proveer de métodos apropiados para el
modelamiento de estos datos. La necesidad de formatos de respuesta politómicos
puede ser mayor al intentar medir la personalidad o diferentes tipos de variable
sociales. Algunos autores (Kamakura & Balasubramanian, 1989 como se cita en
Ostini & Nering, 2006) sugieren que las distribuciones en los ítems dicótomos son
menos claras en estos contextos que en la medición de la habilidad. De igual
forma se ha evidenciado que los ítems con dos o tres alternativas de respuesta
son inadecuados en estos contextos dado que no permiten la obtención de mucha
información y frustran a los evaluados (Cox, 1980 como se cita en, Ostini &
Nering, 2006).
Los resultados obtenidos en esta investigación son coherentes con los de
López (2005) quien realizó un estudio donde comparó cinco formatos de respuesta
para ítems politómicos con un formato dicotómico con sólo dos categorías de
respuesta. No se encontraron diferencias importantes en la capacidad de la
prueba para evaluar la presencia de depresión independientemente del tipo de
ítems; en este caso el investigador plantea que la presencia de formatos
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
11
politómicos no garantiza una mejor evaluación de los atributos que la presencia de
los ítems dicotómicos.
El comportamiento de los ítems politómicos en esta investigación da lugar a
apreciaciones similares a las obtenidas en el estudio de Kolen, Frisbie y
Ankenmann (2001) quienes encontraron los métodos politómicos permitían una
mejor apreciación del desempeño del evaluado.
Un aporte importante en esta investigación tiene que ver con el empleo de
los ítems dicotómicos y politómicos para la evaluación de conocimientos, porque
se generan cuestionamientos frente a la forma como se construyen las
evaluaciones dentro de los procesos cotidianos de las asignaturas, y las
intencionalidades con que son estructurados los ítems que se le presentan
frecuentemente a los estudiantes. Es evidente que las categorías que son
evaluadas en la implementación de los ítems politómicos tienden hacer más
amplias y al implementarse de manera adecuada pueden contribuir en la
construcción de conocimiento de los estudiantes.
En futuras investigaciones es necesario tener en cuenta una serie de
aspectos relacionados, en primer lugar, con la extensión de las pruebas, dado que
la cantidad de ítems elaborados podría no ser suficiente para obtener resultados
concluyentes. Sin embargo, cabe recordar que teóricamente desde la teoría
respuesta al ítem, un solo ítem es suficiente para identificar la habilidad de una
persona evaluada.
Otro aspecto que debe ser corregido tiene que ver con la implementación
del proceso del diseño basado en evidencias ya que este se constituye
indudablemente en una metodología distinta para el diseño de pruebas y que debe
ser contrastada con los otros tipos de metodologías para probar su verdadero
impacto. La estructuración de pruebas desde esta perspectiva parece mostrar
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
12
mayor precisión, lo cual constituye un avance en la evolución de los procesos de
evaluación.
Una propuesta para futuras investigaciones tiene que ver con asegurar la
construcción de dos pruebas diferentes que busquen evaluar las mismas
dimensiones, exponiendo a las mismas afirmaciones y dar cuenta de las mismas
tareas; de esta forma se puede evaluar mejor si realmente hay un impacto
diferencial del tipo de ítem sobre la evaluación de la habilidad de los
respondientes, y si la presentación de múltiples características realmente permite
entender mejor el alcance de dicha habilidad frente al identificación de
conocimiento que sobre un área posee un evaluado.
FUENTES: Abad, F., Garrido, J. Olea, J. & Ponsoda, V. (2006). Introducción a la psicometría.
Teoría clásica de los test y teoría de respuesta al ítem. Documento inédito.
Madrid: Universidad Autónoma de Madrid. Facultad de Psicología, 130-
148. Recuperado julio 22 de 2007 de
http://www.uam.es/personal_pdi/psicología/fjabad/PSICOMETRIA/
materiales/IntPs_5.pdf
Alderson, J. C., & Wall, D. (1993). Does wash back exist? Applied Linguistics, 14
(2), 115-129.
American Psychological Association, American Educational Research Association,
and National Council on Measurement in Education (1999).Standards for
educational and psychological testing. Washington, DC: American
Psychological Association.
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
13
Anastasi, A. (1986). Evolving concepts for test validation. Annual Review of
Psychology, 37, 1-15.
Andrich, D. (2013). An expanded derivation of the threshold structure of the
polytomous Rasch model that dispels any “Threshold disorder controversy”.
Educational and Psychological Measurement, 73(1), 79-124. Doi:
10.1177/0013164412450877.
Asun, R & Zúñiga, C. (2008). Ventaja de los modelos politómicos de teoría de
respuesta al ítem en la medición de actitudes sociales. El análisis de un
caso. Psikhe, 17 (2), 103-115.
Ayala, R., Dodd, B. & Koch, W. (1992). A comparison of the partial credit and
graded response models in computerized adaptive testing. Applied
measurement in education, 5(1), 17-34.
Bachman, L. F. (1990). Fundamental considerations in language testing. Oxford:
Oxford University Press.
Bachman, L. F., & Palmer, A. S. (1996). Language testing in practice. Oxford:
Oxford University Press.
Banco Mundial. (1999). Education: Education sector strategy. Washington D. C.,
EE. UU.: El Autor.
Bejar, I.I. (1983). Introduction to Ítem Response Models and their assumptions. En
R.K. Hamblenton (Ed.). Applications of item response theory. Vancouver:
Educational Research Institute of British Columbia.
Boscaino, G. (2005). La qualità della didattica: la calibrazione dellos trumento di
misura con il modelo di Rasch. Tesis para optar por el título de doctor,
Universidad de Palermo, Palermo, Italia.
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
14
Brown, F. (2000). Principios de la medición en psicología y educación. (1ra Ed.
9na Reimp.). México: Editorial el Manual Moderno.
Brown, J. D. (1996). Testing in language programs. Upper Saddle River, NJ:
Prentice Hall.
Cascante, M., Gutiérrez, J. G. & Ramírez, F. (2012). La evaluación de los
procesos de aprendizaje en el contexto educativo de la Universidad
Católica de Colombia. Serie: orientaciones académicas y curriculares.
Bogotá: Universidad Católica de Colombia.
Chapelle, C. A. (1999). Validity in language assessment. Annual Review of Applied
Linguistics, 19, 254-272.
Chow, S. L. (2002). Methods in psychological research.In Methods in
Psychological Research, In Encyclopedia of Life Support Systems (EOLSS),
Eolss Publishers, Oxford, UK. [http://www.eolss.net]
Cohen, R. J. &Swerdlick , M. E. (2000). Pruebas y Evaluación Psicológicas:
Introducción a las pruebas y a la medición. (4 Ed. ). México: Ed. McGraw –
Hill.
Colegio Colombiano de Psicólogos (2009). Deontología y bioética del ejercicio de
la psicología en Colombia. Bogotá: Colegio Colombiano de Psicólogos.
Comisión de las Comunidades Europeas (2007). Comunicación de la comisión: Un
marco coherente de indicadores y puntos de referencia para el seguimiento
de los avances hacia los objetivos de Lisboa en el ámbito de la educación y
la formación. Bruselas: El autor.
Coolican, H. (2005). Métodos de investigación y estadística en psicología. (3ra
Ed. ). México: Editorial El Manual Moderno.
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
15
Courtville, T. G. (2004). An empirical comparison of item response theory and
classical test theory item/person statistics. Disertación doctoral, Texas A&M
University, Texas, EE. UU.
Cronbach, L.J. (1984). Designing evaluations of educational and social
programs. San Francisco: Jossey Bass.
Drasgow, F., Levine, M., Tsien, S., Williams, B. & Mead, A. (1995). Fitting
polytomous item response theory models to multiple choice tests. Applied
Psychological Measurement, 19 (2) 143-165.
Glas, C. (2007). Testing Generalized Rasch Models. En M, Von Davier& C, H.
Carstensen. (Eds). Multivariate and mixture distribution Rasch models:
Extensions and applications.(pp. 237 - 55). New York: Springer science and
Business Media.
González, M. M. (2008). El análisis de reactivos con el modelo de Rasch: Manual
técnico A. Serie: Medición y metodología. México: Instituto nacional para la
evaluación de la educación.
Green, D. R. (1998). Why is it so hard to agree on professional testing standards?
A test- publishing perspective. Documento presentado en la reunión anual
de la American Educational research association. San Diego, Abril 13-17.
Hak-Sing IP. E. (2001).Testing for local dependency in dichotomous and
polytomous items response models. Psychometrika, 66 (1),109-132.
Hamblenton, R.K. y Swaminathan, H. (1985). Item response theory: principles and
applications. Boston: Kluwer Academic Publishers.
Harvey, R. & Hammer, A. (1999).Item Response Theory. The Counseling
Psychologist, 27(3), 353-383.
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
16
Hattie, J., Jaeger, R. M., & Bond, L. (1999). Persistent methodological questions
in educational testing. Review of Educational Research, (24), 393-446.
Hernández, H. P. (1991). Psicología de la educación: Corrientes actuales y teorías
aplicadas. México: Trillas.
Herrrera, R. A., Sánchez, P. & Gómez, B. J. (2001). Funcionamiento diferencial de
los ítems, una revisión conceptual y metodológica. Acta Colombiana de
Psicología. (5), 41-61.
Kamata, A. &Cheong, Y. (2007). Multilevel Rasch models. En M, Von Davier& C,
H. Carstensen. (Eds). Multivariate and mixture distribution Rasch models:
Extensions and applications. (pp. 217-232). New York: Springer science and
Business Media.
Knight, T. & Pearl, A. (1996).Developing and testing a general theory of education:
The role of schools. Documento presentado en la reunión anual de la
American Educational research association. New York, Abril 9-12.
Kolen, M., Frisbie, D. & Ankenmann, R. (2001) Comparison of dichotomous and
polytomous items response models in equating scores from test composed of
teslets. Applied Psychological Measurement. 25 (4), 357 – 372.
Lee, Won-Chan. (2008). Classification consistency and accuracy for complex
assessments using item response theory. Iowa, Iowa. EE.UU: Center for
advanced studies in measurement and assessment.
Linacre, J, M. (1993). Rash-based generalizability theory: Reliability and precision
(S.E.) nomogram. Rasc measurement transactions. Recuperado de
http://www.rasch.org/rmt/rmt71h.htm
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
17
Linacre, J. M. (2002). Optimizing rating scale category effectiveness. Journal of
Applied Measurement, 3(1), 85-106.
Linacre, J. M. (2013) Winsteps® Rasch measurement computer program.
Beaverton, Oregon: Winsteps.com
Linn, R. & Herman, J. (1997). La evaluación impulsada por estándares: Problemas
técnicos y políticos en la medición del progreso de la escuela y los
estudiantes. Los Angeles. CA. EEUU: Centro Nacional para la Investigación
sobre Evaluación, Estándares y Medición del rendimiento Estudiantil.
Lopez, A. A. (2008). Potential impact of language tests: Examining the alignment
between testing and instruction. Saarbrucken, Germany: VDM Publishing.
López, P. J.(2005). Ítems politómicos versus dicotómicos: un estudio
metodológico. Anales de psicología, 21 (2), 339–344.
Martínez– Otero, V. (2003). Teoría y práctica la educación. (2ª Ed.). Madrid:
Editorial CCS.
Martínez, R. (1996). Psicometría: Teoría de los Test Psicológicos y Educativos.
(1ra Ed. 1ra Reimp.). Madrid: Ed. Síntesis.
Messick, S. (1989).Validity. The specification and development of tests of
achievement and ability. En R. L. Lino (Ed.), Educational Measurement (3th
edition). Washington, DC: American Council on Education.
Messick, S. (1995).Standards of validity and the validity of standards in
performance assessment. Educational Measurement: Issues and Practice,
(15), 5-12.
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
18
Millett, C., Stickler, L., Payne, D. & Dwayer, C. (2007).A culture of evidence: critical
features of assessments for postsecondary student learning. Washington D.
C.: EEUU: Educational Testing Service (ETS).
Ministerio de Educación Nacional – MEN-. (2004). Planes de mejoramiento. Y
ahora… ¿Cómo mejoramos? Serie Guías No. 5. Bogotá: Ministerio de
Educación Nacional.
Mislevy, R. (2011).Evidence Centered design for simulation-based assessment:
Cresst report 800. Los Angeles. EEUU: The national center for research on
evaluation, standarts, and student testing.
Mislevy, R., Almond, R. & Lukas, J. (2003).A brief introduction to evidence-
centered design. Princeton: Educational testing Service.
Mislevy,R. & Haertel, G. (2006). Implications of evidence-centered design for
educational testing. Educational Measurement: Issues and practice, 25(4),6-
20.
Montero, I. & León, O. G. (2007). Guía para nombrar los estudios de investigación
en psicología. International Journal of Clinical and Health Psychology.
7(3),847-862.
Moss, P., Girard.B. & Haniford. L. (2006).Validity in educational assessment.
Review of Research in Education, 30 (1), 109-162.
Muñiz, (2010). Las teorías de los tests: teoría clásica y teoría de respuesta a los
ítems. Papeles del Psicólogo, 31 (1), 57-66.
Muñiz, J. (1996). Teoría Clásica de los Tests. Madrid: Editorial Pirámide.
Muñiz, J. (1997). Introducción a la teoría de respuesta a los Ítems. Madrid:
Editorial Pirámide.
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
19
Nunnally, J. & Bernstein, I. (1995). Teoría Psicométrica (3ra. Ed.). México:
McGraw-Hill.
Ostini, R. & Nering, M. (2006). Polytomousitem response theory models. Series:
Quantitative applications in the social sciences. California. EEUU: Sage
Publications Inc.
Pardo, C. A. (s.f.). Diseño de pruebas basado en evidencias. Documento no
publicado.
Pardo, C. A., (2006). Hablemos de validez. En: Senderos y horizontes de la
evaluación educativa. Memorias Seminario ISSN: 1900-8848 Colombia:
Grupo de Procesos Editoriales del Icfes.
Poggi, M. (2008). Evaluación educativa: Sobre sentidos y prácticas. Revista
Iberoamericana de Evaluación Educativa, 1 (1). 36-44
Quiroga, M. A. (2008). Métodos de evaluación del proceso de enseñanza
aprendizaje utilizados por los docentes de la facultad de odontología de la
universidad autónoma de Nuevo León, México. Tesis Doctoral. Recuperado
el 10 de Noviembre de 2013 de http://hera.ugr.es/tesisugr/17681923.pdf
Ravela, P., Arregui, P., Valverde, G., Wolfe, R., Ferrer, F., Rizo, M., Aylwin, M &
Wolf, L. (2009). Las evaluaciones educativas que América Latina necesita.
En S. Hirschberg., M. León., P. Scorzo & J. Novello, Hacia Una Cultura de
la Evaluación, 35- 48. Recuperado de
http://www.oei.es/pdf2/hacia_una_cultura_evaluacion_argentina.pdf.
Roa, V. A. (2003). Acreditación y evaluación de la calidad de la educación superior
colombiana. Presentado en el Seminario Evaluación y Acreditación de la
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
20
Educación Superior en América Latina y el Caribe, IESALC/CONEAU,
Buenos Aires, 8-9 de mayo.
Rodríguez, T., Álvarez, L., Cadrecha, M., Hernández, J., Luengo, M., Muñíz, J.,
Ordonez, J & Soler, S. (2000). La evaluación en el aula. Madrid, España:
Editorial Nobel.
Rojas, T. A. & Lozano, R. O. (2005). Application of an IRT polytomous model for
measuring heald related quality of life. Social Indicators Research, (74),
369-394.
Salas, W. (2005). Formación por competencias en educación superior. Una
aproximación conceptual a propósito del caso colombiano. Revista
Iberoamericana de Educación Recuperado de
http://www.rieoei.org/deloslectores /1036Salas.PDF
Shohamy, E. (2001). The power of test: A critical perspective on the uses of
language tests. London: Longman.
Shudong, W. & Tianyou, W. (2002).Relative precision of ability estimation in
polytomous CAT: A comparison under the Generalized Parcial Credit Model
and Graded response Model. Educational Resources Information Center: US
department of education.
Sijtsma, K. & Junker, B. (2006). Item response theory: past performance, presents
developments, and future expectations. Behaviormetrika, 33 (1), 75-102.
Tang, K. L. & Eignor, D. R. (1997). Concurrent calibration of dichotomously and
polytomously scored TOEFL items using IRT models. TOEFL: Technical
report. Princeton, New Jersey. EE. UU: Educational testing Service.
Ç
RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -
21
Tang, K. L. (1996). Polytomous item response theory models and their applications
in large scale testing programs: review of literature. TOEFL: Monograph
series. Princeton, New Jersey. EE. UU: Educational testing Service.
Thurstone, L. L. (1928). Attitudes can be measured. American Journal of
Sociology, (33), 529-554.
Tornimbeni, S.; Pérez, E. & Olaz, F. (2008). Introducción a la Psicometría.
Argentina: Paidós.
Unesco (2004). Informe de seguimiento de la EPT en el mundo 2005: Resumen.
París, Francia: Ediciones UNESCO.
Unesco-Llece. (2010). Compendio de manuales de los Serce. Interson S.A:
Santiago de Chile.
Wright, B. & Stone, M. (1998). Diseño de mejores pruebas: Utilizando la técnica de
Rasch. México: Centro Nacional para la Evaluación de la Educación
Superior (Ceneval).
LISTA DE ANEXOS:
Apéndice 1. Dominio de evaluación
Apéndice 2. Consentimiento informado
Apéndice 3. Evaluación con preguntas dicotómicas
Apéndice 4. Evaluación con preguntas politómicas
Apéndice 5. Indicadores estadísticos para el análisis de ítems