facultad psicologia programa de …...Ç resumen analÍtico en educaciÓn -rae 2 con respecto a la...

Ç

RESUMEN ANALÍTICO EN EDUCACIÓN - RAE -

1

FACULTAD PSICOLOGIA PROGRAMA DE PSICOLOGIA EDUCATIVA

MAESTRÍA EN PSICOLOGÍA BOGOTÁ D.C.

LICENCIA CREATIVE COMMONS: Atribución no comercial, sin derivadas 2.5 Colombia (CC BY-NC-ND 2.5 CO). AÑO DE ELABORACIÓN: 2014 TÍTULO: Comparación entre las puntuaciones obtenidas por los estudiantes y las propiedades métricas de dos pruebas para evaluar conocimientos de metodología, en estudiantes de psicología de una universidad privada de Bogotá. AUTOR (ES): Forero Aponte Carlos y Pardo Adames Carlos Antonio DIRECTOR(ES)/ASESOR(ES): Pardo Adames Carlos Antonio MODALIDAD: Trabajo de investigación

PÁGINAS: 88 TABLAS: 5 CUADROS: 0 FIGURAS: 4 ANEXOS: 5

CONTENIDO: La investigación abarca tres temas fundamentales que son la educación, la

evaluación educativa y la validez. En cuanto a la primera, se tiene en cuenta el

concepto desde una perspectiva polisemica, aspéctos en común de la educación y

su importancia desde difeerentes postutas como la del banco mundial, la comisión

de comunidades europeas, el ministerio de educación nacional, entro otras.

Ç


2

Con respecto a la evaluación educativa, se muestra la importancia de ésta en la

educación, su función y los diversos tipos de evaluación. Así como sus alcances y

limitaciones.

Por último, respecto a la validez, se desarrolla el concepto de la validez d ela

evaluación, las diferentes posturas y modelos, haciendo énfasis en la teoría de

respuesta al ítem (TRI)

Conclusiones

Los modelos politómicos de la TRI para tales tipos de ítems operan de forma

distinta a los modelos dicotómicos. En estos casos, el conocimiento de las

características de las funciones de una de categoría de respuesta no determinan

las características de otra categoría, cada categoría de funciones debe ser

manejada de manera explícita (Ostini & Nering, 2006).

Un punto importante es la naturaleza no determinante de las funciones de

las categorías respuesta, ya que no corresponden a funciones monótonas de

manera exclusiva. En el caso de ítems como categorías ordenadas, sólo las

funciones de categorías en extremo negativas o positivas son monótonamente

decrecientes o crecientes respectivamente. En términos generales la función para

la segunda categoría incrementa su probabilidad de responder en tanto la

categoría negativa decrementa (Ostini & Nering, 2006).

Este aspecto del funcionamiento de los ítems dicotómicos y politómicos

resulta relevante para los objetivos de esta investigación, dado que se presenta el

comportamiento diferencial de cada una de las categorías de respuesta, en él se

hace evidente la necesidad de profundizar los análisis para cada una de ellas en

los ítems politómicos, en términos de las habilidades que evidencian los sujetos

frente a cada posible calificación y los errores que pueden ser considerados

comunes en cada una de ellas.

Ç


3

Quizá le la razón más simple para el uso de modelos politómicos de la

teoría respuesta al ítem, es el hecho de que existen ítems politómicos y que se

utilizan de manera común en la medición de la psicología aplicada. Para generar

de medición adecuada la TRI debe proveer de métodos apropiados para el

modelamiento de estos datos. La necesidad de formatos de respuesta politómicos

puede ser mayor al intentar medir la personalidad o diferentes tipos de variable

sociales. Algunos autores (Kamakura & Balasubramanian, 1989 como se cita en

Ostini & Nering, 2006) sugieren que las distribuciones en los ítems dicótomos son

menos claras en estos contextos que en la medición de la habilidad. De igual

forma se ha evidenciado que los ítems con dos o tres alternativas de respuesta

son inadecuados en estos contextos dado que no permiten la obtención de mucha

información y frustran a los evaluados (Cox, 1980 como se cita en, Ostini &

Nering, 2006).

Los resultados obtenidos en esta investigación son coherentes con los de

López (2005) quien realizó un estudio donde comparó cinco formatos de respuesta

para ítems politómicos con un formato dicotómico con sólo dos categorías de

respuesta. No se encontraron diferencias importantes en la capacidad de la

prueba para evaluar la presencia de depresión independientemente del tipo de

ítems; en este caso el investigador plantea que la presencia de formatos

politómicos no garantiza una mejor evaluación de los atributos que la presencia de

los ítems dicotómicos.

El comportamiento de los ítems politómicos en esta investigación da lugar a

apreciaciones similares a las obtenidas en el estudio de Kolen, Frisbie y

Ankenmann (2001) quienes encontraron los métodos politómicos permitían una

mejor apreciación del desempeño del evaluado.

Ç


4

Un aporte importante en esta investigación tiene que ver con el empleo de

los ítems dicotómicos y politómicos para la evaluación de conocimientos, porque

se generan cuestionamientos frente a la forma como se construyen las

evaluaciones dentro de los procesos cotidianos de las asignaturas, y las

intencionalidades con que son estructurados los ítems que se le presentan

frecuentemente a los estudiantes. Es evidente que las categorías que son

evaluadas en la implementación de los ítems politómicos tienden hacer más

amplias y al implementarse de manera adecuada pueden contribuir en la

construcción de conocimiento de los estudiantes.

En futuras investigaciones es necesario tener en cuenta una serie de

aspectos relacionados, en primer lugar, con la extensión de las pruebas, dado que

la cantidad de ítems elaborados podría no ser suficiente para obtener resultados

concluyentes. Sin embargo, cabe recordar que teóricamente desde la teoría

respuesta al ítem, un solo ítem es suficiente para identificar la habilidad de una

persona evaluada.

Otro aspecto que debe ser corregido tiene que ver con la implementación

del proceso del diseño basado en evidencias ya que este se constituye

indudablemente en una metodología distinta para el diseño de pruebas y que debe

ser contrastada con los otros tipos de metodologías para probar su verdadero

impacto. La estructuración de pruebas desde esta perspectiva parece mostrar

mayor precisión, lo cual constituye un avance en la evolución de los procesos de

evaluación.

Una propuesta para futuras investigaciones tiene que ver con asegurar la

construcción de dos pruebas diferentes que busquen evaluar las mismas

dimensiones, exponiendo a las mismas afirmaciones y dar cuenta de las mismas

tareas; de esta forma se puede evaluar mejor si realmente hay un impacto

Ç


5

diferencial del tipo de ítem sobre la evaluación de la habilidad de los

respondientes, y si la presentación de múltiples características realmente permite

entender mejor el alcance de dicha habilidad frente al identificación de

conocimiento que sobre un área posee un evaluado.

DESCRIPCIÓN: Esta investigación tuvo como objetivo comparar los resultados obtenidos y las

propiedades métricas de ítems dicotómicos y politómicos utilizados para evaluar

conocimientos en el área de métodos de investigación en estudiantes de

psicología de una universidad privada analizando la información con el modelo de

Rasch de la TRI. Se trata de una investigación cuantitativa de tipo instrumental y

psicométrica. Participaron 76 estudiantes de tercer y cuarto semestre de

psicología seleccionados mediante muestreo no probabilístico autoselectivo. Se

realizó la construcción validación y aplicación de una prueba compuesta por cinco

ítems dicotómicos y seis ítems politómicos para evaluar conocimientos en el área

métodos de investigación. La prueba fue diseñada en con base en el marco de

evaluación conceptual. Los resultados fueron analizados con el software Winsteps

utilizando el modelo de Rasch de la TRI. No se encontraron diferencias

significativas (Chi cuadrado= 2,1688; gl = 1; p > 0,05) en los niveles de habilidad

evidenciado por los participantes ni en los niveles de dificultad de los ítems.

METODOLOGÍA: De acuerdo con Montero y León (2007) es un estudio empírico con metodología

cuantitativa de tipo instrumental, ya que se realiza el desarrollo de una prueba

incluyendo su diseño y el estudio de las propiedades psicométricas de la misma.

Por otra parte, de acuerdo con Chow (2002) esta investigación es psicométrica, de

medición y metodología no experimental. La investigación es psicométrica dado

Ç


6

que se busca evaluar las condiciones métricas de dos pruebas y las

características técnicas de los ítems que las componen, temas centrales en la

psicometría que se encarga de la medición de constructos psicológicos. Se

considera que la metodología es no experimental ya que no se produce

manipulación de variables, ni se introducen nuevas variables en el medio ambiente

de los participantes. La investigación se realiza diseñando dos pruebas que

buscan ser instrumentos para medir las manifestaciones del conocimiento en el

área de métodos de investigación que poseían los participantes al momento de ser

evaluados.

PALABRAS CLAVES: Análisis de ítem (26800), teoría de respuesta al ítem (26825), Modelo de Rasch

(26825), construcción de pruebas (52210)

CONCLUSIONES: En primer lugar está el tema del diseño de pruebas centrado en evidencias.

Es una herramienta que, aunque no muy reciente (década del 90 del siglo pasado)

es la que se encuentra en uso tanto en evaluación psicológica como educativa. Su

uso no es tan extendido, pero si tiene fuertes implicaciones en la construcción de

las evaluaciones y en la precisión de las mismas. Si se contrasta con el método

tradicional del establecimiento de los planes de prueba, es indudable que esta

metodología permite la identificación precisa de los aspectos a evaluar, tanto en la

identificación específica de las tareas a desarrollar por parte del evaluado.

Ç


7

Las dos perspectivas – tradicional y diseño basado en la evidencia-

corresponden a naturalezas distintas, en tanto que la primera permite establecer

los aspectos generales y amplios de lo que puede llegar a ser la evaluación, la

búsqueda de evidencia determina con precisión los alcances y objetivos de la

evaluación a la par que permite establecer los alcances y limitaciones de la

misma.

Frente al objetivo general qué consistía en comparar los resultados

obtenidos y las propiedades métricas de dos pruebas, una con ítems dicotómicos

y otra con ítems politómicos para evaluar los conocimientos en el área métodos de

investigación, se desarrolló un proceso a partir de la implementación del diseño

basado en la evidencia para la construcción de las pruebas; este diseño permitió

la implementación de un proceso estricto de identificación de las características,

las evidencias y las tareas específicas a desarrollar por parte de los estudiantes

dentro de un proceso de evaluación.

El diseño basado en la evidencia permitió orientar la construcción de

pruebas para la evaluación de conocimientos, ya que cada uno de los elementos

que componen este tipo de diseño orienta el proceso y permite conservar la

fidelidad de la evaluación con los objetivos de aprendizaje. Es así que la

identificación de las tareas a realizar facilitó la construcción de las pruebas con

ítems de selección múltiple con única respuesta con criterios de calificación

dicótoma y polítoma de acuerdo a las necesidades y condiciones de cada una de

las pruebas (Véase Apéndice A).

Los dos primeros objetivos fueron logrados al establecer dos pruebas con

preguntas de selección múltiple de única respuesta (SMUR), una con calificación

Ç


8

dicotómica y la otra con calificación politómica, desarrolladas, como se ha

mencionado, a partir del diseño centrado en la evidencia.

En cuanto al tercer objetivo, respecto a los diferentes resultados por los

estudiantes evaluados a través de las dos pruebas, no se encontraron diferencias

significativas, lo cual implica que la estructura de las pruebas no establece

diferencias en cuanto al desempeño de los evaluados. Sin embargo, al considerar

el cuarto objetivo, se encuentra con que la prueba de ítems politómicos cumple

mejores estándares métricos que la prueba politómica. Por el mismo carácter de la

prueba politómica, esta permite una amplitud mayor en la medición que la prueba

dicotómica, esto se ve reflejado en la variabilidad de las mediciones de las dos

pruebas que representan la ejecución de los estudiantes.

En función de lo anterior cuando se evalúa la primera hipótesis respecto a

una mayor precisión en la puntuación con ítems calificados politómicamente frente

a ítems calificados dicotómicamente, se encontraron elementos suficientes para

afirmar que hay diferencias en el nivel de precisión de los ítems, dado que la

prueba con ítems politómicos permite mayor discriminación en la medición, por lo

tanto se acepta la hipótesis.

Respecto a la segunda hipótesis se pudo hacer evidente que la prueba con

ítems politómicos cumple más estándares técnicos que la prueba dicotómica, eso

permite aceptar esta hipótesis. Una dificultad importante que se presenta con el

uso de los ítems dicotómicos es que una respuesta positiva es descrita como

correcta y la categoría alternativa es señalada como incorrecta y, sin embargo, la

localización de parámetro b es normalmente identificada como el parámetro de

dificultad del ítem. La referencias a respuestas correctas y dificultad de los ítems

pierde su significado común en el contexto de las pruebas que intentan evaluar la

ejecución típica de los individuos más que su ejecución máxima (Ostini & Nering,

Ç


9

2006). Las medidas ejecución típica incluyen aquella que pueden ser llamado

medidas de predilección en contraste con las medidas de ejecución.

Los mecanismos de la TRI pueden ser presentados más fácilmente en

términos de los modelos dicotómicos, expresado en un modelo con dos

alternativas. Normalmente en estos ítems se requiere de respuestas que son

correctas o incorrectas, pero en evaluación de características de la personalidad

por ejemplo las respuestas pueden ser falsas o verdaderas, también existen con

múltiples opciones de respuesta lo que es cada vez más frecuente. Este tipo de

ítems aparecen escalas de clasificación como por ejemplo la escala tipo Likert, en

los ítems que proporcionan créditos parciales, con respuestas parcialmente

correctas, en ítems de múltiple respuesta donde cada opción de respuesta es

calificada separadamente.

Los modelos politómicos de la TRI para tales tipos de ítems operan de forma

distinta a los modelos dicotómicos. En estos casos, el conocimiento de las

características de las funciones de una de categoría de respuesta no determinan

las características de otra categoría, cada categoría de funciones debe ser

manejada de manera explícita (Ostini & Nering, 2006).

Un punto importante es la naturaleza no determinante de las funciones de

las categorías respuesta, ya que no corresponden a funciones monótonas de

manera exclusiva. En el caso de ítems como categorías ordenadas, sólo las

funciones de categorías en extremo negativas o positivas son monótonamente

decrecientes o crecientes respectivamente. En términos generales la función para

la segunda categoría incrementa su probabilidad de responder en tanto la

categoría negativa decrementa (Ostini & Nering, 2006).

Ç


10

Este aspecto del funcionamiento de los ítems dicotómicos y politómicos

resulta relevante para los objetivos de esta investigación, dado que se presenta el

comportamiento diferencial de cada una de las categorías de respuesta, en él se

hace evidente la necesidad de profundizar los análisis para cada una de ellas en

los ítems politómicos, en términos de las habilidades que evidencian los sujetos

frente a cada posible calificación y los errores que pueden ser considerados

comunes en cada una de ellas.

Quizá le la razón más simple para el uso de modelos politómicos de la

teoría respuesta al ítem, es el hecho de que existen ítems politómicos y que se

utilizan de manera común en la medición de la psicología aplicada. Para generar

de medición adecuada la TRI debe proveer de métodos apropiados para el

modelamiento de estos datos. La necesidad de formatos de respuesta politómicos

puede ser mayor al intentar medir la personalidad o diferentes tipos de variable

sociales. Algunos autores (Kamakura & Balasubramanian, 1989 como se cita en

Ostini & Nering, 2006) sugieren que las distribuciones en los ítems dicótomos son

menos claras en estos contextos que en la medición de la habilidad. De igual

forma se ha evidenciado que los ítems con dos o tres alternativas de respuesta

son inadecuados en estos contextos dado que no permiten la obtención de mucha

información y frustran a los evaluados (Cox, 1980 como se cita en, Ostini &

Nering, 2006).

Los resultados obtenidos en esta investigación son coherentes con los de

López (2005) quien realizó un estudio donde comparó cinco formatos de respuesta

para ítems politómicos con un formato dicotómico con sólo dos categorías de

respuesta. No se encontraron diferencias importantes en la capacidad de la

prueba para evaluar la presencia de depresión independientemente del tipo de

ítems; en este caso el investigador plantea que la presencia de formatos

Ç


11

politómicos no garantiza una mejor evaluación de los atributos que la presencia de

los ítems dicotómicos.

El comportamiento de los ítems politómicos en esta investigación da lugar a

apreciaciones similares a las obtenidas en el estudio de Kolen, Frisbie y

Ankenmann (2001) quienes encontraron los métodos politómicos permitían una

mejor apreciación del desempeño del evaluado.

Un aporte importante en esta investigación tiene que ver con el empleo de

los ítems dicotómicos y politómicos para la evaluación de conocimientos, porque

se generan cuestionamientos frente a la forma como se construyen las

evaluaciones dentro de los procesos cotidianos de las asignaturas, y las

intencionalidades con que son estructurados los ítems que se le presentan

frecuentemente a los estudiantes. Es evidente que las categorías que son

evaluadas en la implementación de los ítems politómicos tienden hacer más

amplias y al implementarse de manera adecuada pueden contribuir en la

construcción de conocimiento de los estudiantes.

En futuras investigaciones es necesario tener en cuenta una serie de

aspectos relacionados, en primer lugar, con la extensión de las pruebas, dado que

la cantidad de ítems elaborados podría no ser suficiente para obtener resultados

concluyentes. Sin embargo, cabe recordar que teóricamente desde la teoría

respuesta al ítem, un solo ítem es suficiente para identificar la habilidad de una

persona evaluada.

Otro aspecto que debe ser corregido tiene que ver con la implementación

del proceso del diseño basado en evidencias ya que este se constituye

indudablemente en una metodología distinta para el diseño de pruebas y que debe

ser contrastada con los otros tipos de metodologías para probar su verdadero

impacto. La estructuración de pruebas desde esta perspectiva parece mostrar

Ç


12

mayor precisión, lo cual constituye un avance en la evolución de los procesos de

evaluación.

Una propuesta para futuras investigaciones tiene que ver con asegurar la

construcción de dos pruebas diferentes que busquen evaluar las mismas

dimensiones, exponiendo a las mismas afirmaciones y dar cuenta de las mismas

tareas; de esta forma se puede evaluar mejor si realmente hay un impacto

diferencial del tipo de ítem sobre la evaluación de la habilidad de los

respondientes, y si la presentación de múltiples características realmente permite

entender mejor el alcance de dicha habilidad frente al identificación de

conocimiento que sobre un área posee un evaluado.

FUENTES: Abad, F., Garrido, J. Olea, J. & Ponsoda, V. (2006). Introducción a la psicometría.

Teoría clásica de los test y teoría de respuesta al ítem. Documento inédito.

Madrid: Universidad Autónoma de Madrid. Facultad de Psicología, 130-

148. Recuperado julio 22 de 2007 de

http://www.uam.es/personal_pdi/psicología/fjabad/PSICOMETRIA/

materiales/IntPs_5.pdf

Alderson, J. C., & Wall, D. (1993). Does wash back exist? Applied Linguistics, 14

(2), 115-129.

American Psychological Association, American Educational Research Association,

and National Council on Measurement in Education (1999).Standards for

educational and psychological testing. Washington, DC: American

Psychological Association.

http://www.uam.es/personal_pdi/psicología/fjabad/PSICOMETRIA/

Ç


13

Anastasi, A. (1986). Evolving concepts for test validation. Annual Review of

Psychology, 37, 1-15.

Andrich, D. (2013). An expanded derivation of the threshold structure of the

polytomous Rasch model that dispels any “Threshold disorder controversy”.

Educational and Psychological Measurement, 73(1), 79-124. Doi:

10.1177/0013164412450877.

Asun, R & Zúñiga, C. (2008). Ventaja de los modelos politómicos de teoría de

respuesta al ítem en la medición de actitudes sociales. El análisis de un

caso. Psikhe, 17 (2), 103-115.

Ayala, R., Dodd, B. & Koch, W. (1992). A comparison of the partial credit and

graded response models in computerized adaptive testing. Applied

measurement in education, 5(1), 17-34.

Bachman, L. F. (1990). Fundamental considerations in language testing. Oxford:

Oxford University Press.

Bachman, L. F., & Palmer, A. S. (1996). Language testing in practice. Oxford:

Oxford University Press.

Banco Mundial. (1999). Education: Education sector strategy. Washington D. C.,

EE. UU.: El Autor.

Bejar, I.I. (1983). Introduction to Ítem Response Models and their assumptions. En

R.K. Hamblenton (Ed.). Applications of item response theory. Vancouver:

Educational Research Institute of British Columbia.

Boscaino, G. (2005). La qualità della didattica: la calibrazione dellos trumento di

misura con il modelo di Rasch. Tesis para optar por el título de doctor,

Universidad de Palermo, Palermo, Italia.

Ç


14

Brown, F. (2000). Principios de la medición en psicología y educación. (1ra Ed.

9na Reimp.). México: Editorial el Manual Moderno.

Brown, J. D. (1996). Testing in language programs. Upper Saddle River, NJ:

Prentice Hall.

Cascante, M., Gutiérrez, J. G. & Ramírez, F. (2012). La evaluación de los

procesos de aprendizaje en el contexto educativo de la Universidad

Católica de Colombia. Serie: orientaciones académicas y curriculares.

Bogotá: Universidad Católica de Colombia.

Chapelle, C. A. (1999). Validity in language assessment. Annual Review of Applied

Linguistics, 19, 254-272.

Chow, S. L. (2002). Methods in psychological research.In Methods in

Psychological Research, In Encyclopedia of Life Support Systems (EOLSS),

Eolss Publishers, Oxford, UK. [http://www.eolss.net]

Cohen, R. J. &Swerdlick , M. E. (2000). Pruebas y Evaluación Psicológicas:

Introducción a las pruebas y a la medición. (4 Ed. ). México: Ed. McGraw –

Hill.

Colegio Colombiano de Psicólogos (2009). Deontología y bioética del ejercicio de

la psicología en Colombia. Bogotá: Colegio Colombiano de Psicólogos.

Comisión de las Comunidades Europeas (2007). Comunicación de la comisión: Un

marco coherente de indicadores y puntos de referencia para el seguimiento

de los avances hacia los objetivos de Lisboa en el ámbito de la educación y

la formación. Bruselas: El autor.

Coolican, H. (2005). Métodos de investigación y estadística en psicología. (3ra

Ed. ). México: Editorial El Manual Moderno.

Ç


15

Courtville, T. G. (2004). An empirical comparison of item response theory and

classical test theory item/person statistics. Disertación doctoral, Texas A&M

University, Texas, EE. UU.

Cronbach, L.J. (1984). Designing evaluations of educational and social

programs. San Francisco: Jossey Bass.

Drasgow, F., Levine, M., Tsien, S., Williams, B. & Mead, A. (1995). Fitting

polytomous item response theory models to multiple choice tests. Applied

Psychological Measurement, 19 (2) 143-165.

Glas, C. (2007). Testing Generalized Rasch Models. En M, Von Davier& C, H.

Carstensen. (Eds). Multivariate and mixture distribution Rasch models:

Extensions and applications.(pp. 237 - 55). New York: Springer science and

Business Media.

González, M. M. (2008). El análisis de reactivos con el modelo de Rasch: Manual

técnico A. Serie: Medición y metodología. México: Instituto nacional para la

evaluación de la educación.

Green, D. R. (1998). Why is it so hard to agree on professional testing standards?

A test- publishing perspective. Documento presentado en la reunión anual

de la American Educational research association. San Diego, Abril 13-17.

Hak-Sing IP. E. (2001).Testing for local dependency in dichotomous and

polytomous items response models. Psychometrika, 66 (1),109-132.

Hamblenton, R.K. y Swaminathan, H. (1985). Item response theory: principles and

applications. Boston: Kluwer Academic Publishers.

Harvey, R. & Hammer, A. (1999).Item Response Theory. The Counseling

Psychologist, 27(3), 353-383.

Ç


16

Hattie, J., Jaeger, R. M., & Bond, L. (1999). Persistent methodological questions

in educational testing. Review of Educational Research, (24), 393-446.

Hernández, H. P. (1991). Psicología de la educación: Corrientes actuales y teorías

aplicadas. México: Trillas.

Herrrera, R. A., Sánchez, P. & Gómez, B. J. (2001). Funcionamiento diferencial de

los ítems, una revisión conceptual y metodológica. Acta Colombiana de

Psicología. (5), 41-61.

Kamata, A. &Cheong, Y. (2007). Multilevel Rasch models. En M, Von Davier& C,

H. Carstensen. (Eds). Multivariate and mixture distribution Rasch models:

Extensions and applications. (pp. 217-232). New York: Springer science and

Business Media.

Knight, T. & Pearl, A. (1996).Developing and testing a general theory of education:

The role of schools. Documento presentado en la reunión anual de la

American Educational research association. New York, Abril 9-12.

Kolen, M., Frisbie, D. & Ankenmann, R. (2001) Comparison of dichotomous and

polytomous items response models in equating scores from test composed of

teslets. Applied Psychological Measurement. 25 (4), 357 – 372.

Lee, Won-Chan. (2008). Classification consistency and accuracy for complex

assessments using item response theory. Iowa, Iowa. EE.UU: Center for

advanced studies in measurement and assessment.

Linacre, J, M. (1993). Rash-based generalizability theory: Reliability and precision

(S.E.) nomogram. Rasc measurement transactions. Recuperado de

http://www.rasch.org/rmt/rmt71h.htm

Ç


17

Linacre, J. M. (2002). Optimizing rating scale category effectiveness. Journal of

Applied Measurement, 3(1), 85-106.

Linacre, J. M. (2013) Winsteps® Rasch measurement computer program.

Beaverton, Oregon: Winsteps.com

Linn, R. & Herman, J. (1997). La evaluación impulsada por estándares: Problemas

técnicos y políticos en la medición del progreso de la escuela y los

estudiantes. Los Angeles. CA. EEUU: Centro Nacional para la Investigación

sobre Evaluación, Estándares y Medición del rendimiento Estudiantil.

Lopez, A. A. (2008). Potential impact of language tests: Examining the alignment

between testing and instruction. Saarbrucken, Germany: VDM Publishing.

López, P. J.(2005). Ítems politómicos versus dicotómicos: un estudio

metodológico. Anales de psicología, 21 (2), 339–344.

Martínez– Otero, V. (2003). Teoría y práctica la educación. (2ª Ed.). Madrid:

Editorial CCS.

Martínez, R. (1996). Psicometría: Teoría de los Test Psicológicos y Educativos.

(1ra Ed. 1ra Reimp.). Madrid: Ed. Síntesis.

Messick, S. (1989).Validity. The specification and development of tests of

achievement and ability. En R. L. Lino (Ed.), Educational Measurement (3th

edition). Washington, DC: American Council on Education.

Messick, S. (1995).Standards of validity and the validity of standards in

performance assessment. Educational Measurement: Issues and Practice,

(15), 5-12.

Ç


18

Millett, C., Stickler, L., Payne, D. & Dwayer, C. (2007).A culture of evidence: critical

features of assessments for postsecondary student learning. Washington D.

C.: EEUU: Educational Testing Service (ETS).

Ministerio de Educación Nacional – MEN-. (2004). Planes de mejoramiento. Y

ahora… ¿Cómo mejoramos? Serie Guías No. 5. Bogotá: Ministerio de

Educación Nacional.

Mislevy, R. (2011).Evidence Centered design for simulation-based assessment:

Cresst report 800. Los Angeles. EEUU: The national center for research on

evaluation, standarts, and student testing.

Mislevy, R., Almond, R. & Lukas, J. (2003).A brief introduction to evidence-

centered design. Princeton: Educational testing Service.

Mislevy,R. & Haertel, G. (2006). Implications of evidence-centered design for

educational testing. Educational Measurement: Issues and practice, 25(4),6-

20.

Montero, I. & León, O. G. (2007). Guía para nombrar los estudios de investigación

en psicología. International Journal of Clinical and Health Psychology.

7(3),847-862.

Moss, P., Girard.B. & Haniford. L. (2006).Validity in educational assessment.

Review of Research in Education, 30 (1), 109-162.

Muñiz, (2010). Las teorías de los tests: teoría clásica y teoría de respuesta a los

ítems. Papeles del Psicólogo, 31 (1), 57-66.

Muñiz, J. (1996). Teoría Clásica de los Tests. Madrid: Editorial Pirámide.

Muñiz, J. (1997). Introducción a la teoría de respuesta a los Ítems. Madrid:

Editorial Pirámide.

Ç


19

Nunnally, J. & Bernstein, I. (1995). Teoría Psicométrica (3ra. Ed.). México:

McGraw-Hill.

Ostini, R. & Nering, M. (2006). Polytomousitem response theory models. Series:

Quantitative applications in the social sciences. California. EEUU: Sage

Publications Inc.

Pardo, C. A. (s.f.). Diseño de pruebas basado en evidencias. Documento no

publicado.

Pardo, C. A., (2006). Hablemos de validez. En: Senderos y horizontes de la

evaluación educativa. Memorias Seminario ISSN: 1900-8848 Colombia:

Grupo de Procesos Editoriales del Icfes.

Poggi, M. (2008). Evaluación educativa: Sobre sentidos y prácticas. Revista

Iberoamericana de Evaluación Educativa, 1 (1). 36-44

Quiroga, M. A. (2008). Métodos de evaluación del proceso de enseñanza

aprendizaje utilizados por los docentes de la facultad de odontología de la

universidad autónoma de Nuevo León, México. Tesis Doctoral. Recuperado

el 10 de Noviembre de 2013 de http://hera.ugr.es/tesisugr/17681923.pdf

Ravela, P., Arregui, P., Valverde, G., Wolfe, R., Ferrer, F., Rizo, M., Aylwin, M &

Wolf, L. (2009). Las evaluaciones educativas que América Latina necesita.

En S. Hirschberg., M. León., P. Scorzo & J. Novello, Hacia Una Cultura de

la Evaluación, 35- 48. Recuperado de

http://www.oei.es/pdf2/hacia_una_cultura_evaluacion_argentina.pdf.

Roa, V. A. (2003). Acreditación y evaluación de la calidad de la educación superior

colombiana. Presentado en el Seminario Evaluación y Acreditación de la

http://hera.ugr.es/tesisugr/17681923.pdf

Ç


20

Educación Superior en América Latina y el Caribe, IESALC/CONEAU,

Buenos Aires, 8-9 de mayo.

Rodríguez, T., Álvarez, L., Cadrecha, M., Hernández, J., Luengo, M., Muñíz, J.,

Ordonez, J & Soler, S. (2000). La evaluación en el aula. Madrid, España:

Editorial Nobel.

Rojas, T. A. & Lozano, R. O. (2005). Application of an IRT polytomous model for

measuring heald related quality of life. Social Indicators Research, (74),

369-394.

Salas, W. (2005). Formación por competencias en educación superior. Una

aproximación conceptual a propósito del caso colombiano. Revista

Iberoamericana de Educación Recuperado de

http://www.rieoei.org/deloslectores /1036Salas.PDF

Shohamy, E. (2001). The power of test: A critical perspective on the uses of

language tests. London: Longman.

Shudong, W. & Tianyou, W. (2002).Relative precision of ability estimation in

polytomous CAT: A comparison under the Generalized Parcial Credit Model

and Graded response Model. Educational Resources Information Center: US

department of education.

Sijtsma, K. & Junker, B. (2006). Item response theory: past performance, presents

developments, and future expectations. Behaviormetrika, 33 (1), 75-102.

Tang, K. L. & Eignor, D. R. (1997). Concurrent calibration of dichotomously and

polytomously scored TOEFL items using IRT models. TOEFL: Technical

report. Princeton, New Jersey. EE. UU: Educational testing Service.

http://www.rieoei.org/deloslectores%20/1036Salas.PDF

Ç


21

Tang, K. L. (1996). Polytomous item response theory models and their applications

in large scale testing programs: review of literature. TOEFL: Monograph

series. Princeton, New Jersey. EE. UU: Educational testing Service.

Thurstone, L. L. (1928). Attitudes can be measured. American Journal of

Sociology, (33), 529-554.

Tornimbeni, S.; Pérez, E. & Olaz, F. (2008). Introducción a la Psicometría.

Argentina: Paidós.

Unesco (2004). Informe de seguimiento de la EPT en el mundo 2005: Resumen.

París, Francia: Ediciones UNESCO.

Unesco-Llece. (2010). Compendio de manuales de los Serce. Interson S.A:

Santiago de Chile.

Wright, B. & Stone, M. (1998). Diseño de mejores pruebas: Utilizando la técnica de

Rasch. México: Centro Nacional para la Evaluación de la Educación

Superior (Ceneval).

LISTA DE ANEXOS:

Apéndice 1. Dominio de evaluación

Apéndice 2. Consentimiento informado

Apéndice 3. Evaluación con preguntas dicotómicas

Apéndice 4. Evaluación con preguntas politómicas

Apéndice 5. Indicadores estadísticos para el análisis de ítems

facultad psicologia programa de …...Ç resumen analÍtico en educaciÓn -rae 2 con respecto a la...

Documents