teoria de la medida (victor-moodle)

Para Sistema Moodle – Alunam Materia Impartida por el Profesor. Lic. Víctor Gaytán

FACULTAD DE PSICOLOGÍA UNAM

GUÍA PARA LA REALIZACIÓN DE LA ASIGNATURA DE

TEORÍA DE LA MEDIDA

2

FACULTAD DE PSICOLOGÍA UNAM GUÍA PARA LA REALIZACIÓN DE LA ASIGNATURA DE TEORÍA DE LA MEDIDA

TEORÍA DE LA MEDIDA INTRODUCCIÓN GENERAL A LA ASIGNATURA

Para Sistema Moodle – Alunam Materia Impartida por el Profesor. Lic. Víctor Gaytán

Guía de Estudio elaborada por Lic. Raúl Tenorio Ramirez. y adaptada para el sistema Moodle – Alunam

por el Lic. Victor Gaytán

ÍNDICE GENERAL DE LA ASIGNATURA

Introducción General

UNIDAD 1. Importancia de la Medición en Psicología

UNIDAD 2. Pasos para la Construcción de los Instrumentos de Medición

UNIDAD 3. Confiabilidad de los Test

UNIDAD 4. El error en la Medición

UNIDAD 5. Validez de los Test

El Error de Medición en Psicología

3


INTRODUCCIÓN GENERAL A LA ASIGNATURA.

La Psicología es una disciplina especialmente interesada en la comprensión de las

características o atributos humanos. Para poder acceder a ellos es necesario conocer

las formas en que se presentan y se distribuyen en los seres humanos, por ello se

parte del supuesto de que las características humanas se presentan en las personas

en diferentes cantidades o grados, razón por la cual surge de manera inmediata

el término medición, de tal manera que sea posible conocer “la cantidad del atributo”

con la que cuenta el sujeto.

La teoría de la medida ofrece un área de gran utilidad en el terreno de la medición de

las características humanas a través de los distintos modelos de comprensión de

fenómenos, ajuste de variables e interpretación de hallazgos.

La materia de teoría de la medida busca ofrecer al alumno las estrategias necesarias

para comprender los diversos fenómenos de su interés, de tal manera que pueda

hacer uso de las herramientas asociadas a la medición en las disciplinas sociales;

asimismo ayuda a obtener los conocimientos necesarios para identificar las variables

psicológicas y su clara inserción en el terreno de la medición psicológica.

El programa de la materia ofrece un conjunto básico de conceptos generales para la

mejor comprensión de la medición en psicología, estos aspectos se abordan en

la unidad 1. En la unidad 2se observa de manera detallada la forma en que se debe

construir un instrumento de medición, la unidad 3 ofrece un claro panorama acerca del

concepto de confiabilidad, que resulta indispensable en el contexto de la medición

psicológica, la unidad 4 ofrece un panorama general en la comprensión del concepto

de error en la medición, finalmente la unidad 5 ofrece una clara revisión acerca del

término validez, característica básica de los instrumentos de medición.

Los prerrequisitos para la adecuada comprensión de esta materia son las asignaturas

matemáticas 1 y 2, así como los cursos de estadística descriptiva e inferencial;

asimismo resulta adecuado tener conocimientos sobre desarrollo psicológico, y en

general sobre las materias de procesos básicos, que forman parte de los primeros

semestres de la carrera de psicología.

4


Evaluación y acreditación de la materia.

La materia consta de 5 unidades, para cada una corresponde un examen de

conocimientos acerca de los temas abordados en la unidad correspondiente. No es

posible pasar de unidad si antes no se ha aprobado el examen de la unidad anterior.

La calificación de los 5 exámenes corresponde al 50% de la calificación final. El 50%

restante corresponde a un trabajo que deberá presentarse al final del curso, el trabajo

consiste en realizar un ensayo que gire en torno a la revisión y crítica de algún

instrumento de medición existente, por ejemplo, se puede emplear cualquiera de los

tests de Wechsler, o el MMPI y evaluar, en el caso de la unidad dos, si los criterios

señalados para la construcción de instrumentos están cumplidos y son claros en la

prueba en cuestión, en el caso de las unidades que abordan confiabilidad, error y

validez, se analizarán estos conceptos en términos de la prueba bajo escrutinio. El

objetivo de este trabajo es conocer de manera precisa las estrategias de construcción

de instrumentos en herramientas que ya existen y que son de uso común en la

disciplina psicológica.

5


UNIDAD I

IMPORTANCIA DE LA MEDICIÓN EN PSICOLOGÍA

6


LA IMPORTANCIA DE LA MEDICIÓN EN PSICOLOGÍA INTRODUCCION.- En esta unidad lo que se pretende es que el alumno conozca de una forma general lo que es la medición, siendo este uno de los temas más apasionantes para los profesionales que se interesan en saber cuánto mide, cuánto pesa, que área tiene, quizá también que tipo de personalidad o cuanto de3 inteligencia tiene cual o tal persona. Esto de instrumentos que se han utilizado para tal fin ha variado considerablemente. Si nos remontamos a la vieja Grecia encontramos que la longitud se media por codos y la pista del estadio donde se realizaban los juegos olímpicos tenia doscientos codos y la pista del estadio donde se realizaban los juegos olímpicos tenia doscientos codos, el tiempo se media por medio de los llamados relojes solares, que no era otra cosa que una vara delgada y derecha que se enterraba en la tierra y conforme el sol avanzaba la sombra de la misma iba cambiando y de esa manera se sabía la hora. Así podríamos pasamos un buen rato comentando la historia de la medición. Al hablar de medición psicológica diremos que esta se inicia también en la antigua Grecia donde se seleccionaban a los hombres que debían marchar a la guerra y los que desarrollaban habilidades artísticas, posteriormente hay un gran vacío en la historia de la medición psicológica y se vuelve a hablar de la medición hasta la creación del laboratorio antropométrico de Francis Galton (1981) y hablando ya de pruebas psicológicas como las conocemos hoy es en 1905 con Alfred Bidet. Todo esto nos indica que la medición física es tan vieja como el mismo hombre y que en un momento dado surge la necesidad de medir otras cosas como podrían ser algunas características físicas del ser humano y esto se fue ampliando hasta intentar mediciones psicológicas. Pues bien de qué manera se puede lograr esto. Lo primero sería analizar el concepto de medición, lo cual nos lleva en primera instancia a la relación matemática psicología, que de forma más aplicada nos referiremos a la estadística, analizando los diferentes tipos de la misma. Posteriormente analizaremos que es lo que vamos a medir y aquí estaríamos hablando de variables, que también hay que definir y cuáles son las diferentes clasificaciones de las mismas después analizaremos las reglas que se toman en cuenta para llevar a cabo una medición o sea los diferentes niveles de medición, y por último consideraremos los tipos de instrumentos que se usan para llevar a cabo una medición psicológicamente hablando nos referimos a las Pruebas o Tests.

7


OBJETIVO GENERAL.

El alumno describirá y aplicará el concepto de medición en genera y en psicología en particular.

DESARROLLARA LOS OBJETIVOS ESPECÍFICOS.

1) Definirá lo que es medición en general

2) Definirá lo que es medición física

3) Definirá lo que es medición psicológica

4) Diferenciará entre medición física y psicológica

5) Señalará la relación entre matemáticas, estadística y psicología

6) Enunciará las diferentes clasificaciones de la estadística

7) Definirá lo que es una variable y su clasificación

8) Describirá las características de cada una de las .escalas de medición

9) Definirá lo que es un instrumento de medición psicológica y su clasificación BIBLIOGRAFIA BASICA

Nunnally Jum C. Introducción a la Medición Psicológica. México. Editorial Paidos. 1970. Cap. 1BF39 N84

Nunnally Jum C. Teoría Psicometría. México. Editorial Trillas. 1991 Primera edición en español Cap. 1 BF39 N 5418

Magnusson D. Teoría de los Tests. Editorial Trillas. México. Cap. I BF39 M33

Siegel S. Estadistica no Parametrica Editorial Trillas. México. Cap. 3 H 61 S 585

BILBIOGRAFIA COMPLEMENTARIA

Downie y Heat. Métodos Estadísticos Aplicados. México. Editorial Harla. 1973. Cap. I

Young y Veldman. Introducción a la Estadística Aplicada a las Ciencias del Comportamiento. México. Editorial Trillas. 1986. Cap. 1

8


SUGERENCIAS DE ESTUDIO Se recomienda al alumno leer primeramente el libro de Introducción a la Medición Psicológica de Nunnally para tener una idea clara de los conceptos que en esta unidad se manejan, posteriormente leerá el otro libro de Nunnally y el Siegel y como lectura final será el Magnusson. Si después de esto existen dudas las podrá resolver leyendo la bibliografía complementaria. Recordando siempre que existe la asesoría individual para resolver cualquier duda de índole académico.

EXAMEN DE AUTOEVALUACIÓN 1. Asignar valores a los atributos o características de los objetos o sujetos median te reglas perfectamente establecidas, así definimos: a) Escalar b) Medir e) Evaluar d) Asignar 2. Para cambiar una variable cualitativa en cuantitativa es necesario definirla en forma:

a) Operacional b) Constitutiva e) Ordinal d) Nominal 3. Los números se emplean para nombrar, identificar o clasificar en la escala: a) De razón b) Intercalar e) Ordinal d) Nominal

4. Se considera a la herramienta que va a permitir obtener la información, acerca del fenómeno en cuestión: a) La medición b) La variable e) El test d) La validez

9


UNIDAD 2

PASOS PARA CONSTRUCCIÓN DE LOS INTRUMENTOS DE MEDICIÓN

10


PASOS PARA LA CONSTRUCCIÓN DE LOS INSTRUMENTOS DE MEDICIÓN Introducción

¿Qué es un test psicométrico? “Un test psicométrico constituye esencialmente una medida objetiva Esta definición implica rigurosamente lo siguiente: Una Medida Objetiva, lo que significa que el método de medición debe verse afectado lo menos posible por interpretaciones del sujeto o del evaluador. Así, un buen test se presenta a quien lo tiene que resolver de una manera muy clara y concreta, sin generar dudas sobre la tarea que se le solicita. Igualmente, los criterios de valoración de las respuestas no pueden dejar lugar a dudas por parte del evaluador sobre si la respuesta es acertada o errónea. Y, aún más, cuando una escala de un test se construye con preguntas que pueden responderse con una valoración múltiple: 0, 1, ó 2, una misma puntuación global en la escala puede obtenerse con pocas preguntas de respuesta “2” o con más preguntas de respuesta “1”, lo cual supone un incumplimiento del requisito de objetividad. Una Medida Tipificada, lo que significa que debe compararse con otras medidas de sujetos, que resulten suficientemente representativas de la población. Para ello se tienen en cuenta las puntuaciones medias y la varianza de los resultados de una muestra de referencia. Obviamente, la comparación entre puntuaciones de sujetos diferentes no debe realizarse con puntuaciones directas, sino con puntuaciones “tipificadas”. Lógicamente, los grupos de comparación no pueden ser reducidos (30, 50, 80,… sujetos), ni encontrarse todos ellos formando parte de un mismo grupo social (en el mismo colegio, la misma ciudad,…) Debe tenerse en cuenta que vamos a establecer una comparación entre los resultados obtenidos por un individuo y los obtenidos por un gran grupo de población de características similares. ¿Cómo valorar tests psicométricos?

Es adecuado obtener grupos de baremación (de los que se obtienen las puntuaciones tipificadas) de cuantía reducida o procedentes de un mismo colectivo. La Federación Europa de Asociaciones de Psicólogos (E.F.P.A.) acordó e hizo públicos (www.efpa.eu/reports) unos criterios técnicos para valorar la calidad de los tests psicométricos. Estos criterios consideran que los grupos de baremación deben estar constituidos por un número de 150 a 200 sujetos para considerarlo de calidad suficiente. Evidentemente, cuanto menos diversificadas sean las muestras de baremación, mayor debe ser el número de sujetos que las integren. Y al contrario, cuando se consiguen unas muestras de baremación muy diversificadas y aleatorizadas, más aceptable es un número reducido de las mismas. Para poder utilizar un test como instrumento científico de medición es necesario cubrir una serie de etapas:

11


Una etapa inicial:

la elaboración de una prueba piloto,

su aplicación a una muestra de sujetos,

la asignación de puntuaciones a los mismos. Una segunda etapa:

en la que se evaluaría la calidad psicométrica de cada uno de los ítems de la prueba piloto,

la construcción definitiva del test. Una tercera etapa:

la aplicación del test a una muestra representativa de la población a la que va dirigido,

se asignan las puntuaciones a los sujetos para su evaluación,

estandarización de las puntuaciones y establecimiento de normas que permitan su interpretación,

elaboración del manual del test.

12


OBJETIVO GENERAL El estudiante será capaz de analizar evaluar y aplicar los conocimientos vertidos en esta unidad para desarrollar un instrumento de edición, siguiendo los pasos correspondientes según la metodología aplicada.


1) Definirá que es un rasgo, atributo o característica

2) Describirá los diferentes tipos de instrumentos de medición

3) Describirá los pasos que se siguen en la construcción de un instrumento de

medición psicológica.

4) Describirá los diferentes tipos de reactivos

5) Describirá lo que es un análisis de reactivos

6) Explicará lo que son las calificaciones crudas y. derivadas

7) Explicará lo que es una norma

8) Explicará lo que es una norma

9) Describirá las diferentes tablas de normas BIBLIOGRAFIA BASICA

Thorndike Robert L. Psicométrica Aplicada. Ed. Trillas. 1089. Cap. 2 BF 176T46B

Adkins W. Doroty. Elaboración de Tests Psicológicos. Ed. Trillas. 1990. Caps. 5, 6 y 7 LB 3051 W65

Brown Frederick G. Principios de la Medición en Psicología y Educación. Ed. El Manual Moderno. 1980. Cap. 2. LB 1131 B752

Lyman Howard B. Las puntuaciones de los tests y sus significados. Ed. El Manual Moderno. 1977. Cap. 6. LB 3051 L942

BIBLIOGRAFIA COMPLEMENTARIA

Crombach L. J. Fundamentos de la Exploración Psicológica. Ed. Biblioteca Nueva. 1972

Thorndike Robert L. Test y Técnicas de Medición en Psicología y Educación. Ed. Trillas. 1982.

13


SUGERENCIA DE ESTUDIO Se recomienda al alumno que lea en primera instancia el libro de Brown, por ser el más sencillo y comprensible de la bibliografía, extrayendo de esta lectura todos los aspectos prácticos en cuanto a los pasos que se deben dar al construir un instrumento de medida. Posteriormente deberá leer el libro de Adkins ya que este presenta un panorama muy completo en cuanto a reacción de reactivos se refiere. Por último el libro de Thorndkike en el que podría observar de una manera más amplia parte del contenido de esta unidad, ya que lo que se refiere a calificaciones tendrá que leer el libro de Lyman, pues este reúne de forma muy abreviada lo referente a calificaciones. EXAMEN DE AUTOEV ALUACION 1. Cuando se planea desarrollar una prueba es importante considerar:

a) La jerarquización de los programas o posiciones de entrenamiento

b) Las decisiones de orientación

c) El grupo al cual se aplicará

d) La identificación de los servicios y la protección proporcionada 2. El desarrollo de una prueba es un proceso complejo que requiere de:

a) Muchas decisiones

b) Grandes investigaciones

c) Estricta redacción

d) Múltiples ideas

14


3. Al planear una prueba se debe considerar de mayor prioridad entre otras cosas:

a) Las decisiones que se van a tomar de los resultados

b) La dificultad que deben tener los reactivos

c) El tiempo en el cual se va a aplicar la prueba

d) El formato que va a tener la prueba · 4. El primer pasa en la medición es:

a) medir el objeto

b) cuantificar el atributo del objeto

c) definir la variable a cuantificar

d) tener un parámetro 5. Los tipos de calificaciones son:

a) comparación de un estándar absoluto, interindividual

b) comparación interindividual, con un estándar absoluto e itraindividual

c) comparación individual, interindividual e intraindividual

d) letras, porcentajes y rangos

15


UNIDAD 3

CONFIABILIDAD DE LOS TEST

16


CONFIABILIDAD DE LOS TEST INTRODUCCIÓN

La estandarización es un paso importante en el diseño y la evaluación de pruebas psicológicas y otros instrumentos de evaluación, pero no es el último paso. Antes de que una prueba pueda utilizarse con cierta seguridad, debe obtenerse información acerca de su confiabilidad y validez por lo que a sus propósitos específicos concierne. CONFIABILIDAD Ningún instrumento psicométrico puede considerarse de valor a menos que sea una medida consistente, o confiable. En consecuencia, una de las primeras cosas que será necesario determinar acerca de una prueba de elaboración reciente es si resulta lo suficientemente confiable como para medir lo que fue diseñada para medir. Si, en ausencia de cualquier cambio permanente en una persona debido al crecimiento, al aprendizaje, a alguna enfermedad o lesión, las puntuaciones en una prueba varían con la ocasión o la situación, es probable que la prueba no sea lo suficientemente confiable como para ser usada en describir y evaluar a la gente y hacer predicciones sobre su conducta. Hablando en términos estrictos, más que ser una característica de una prueba, la confiabilidad es una propiedad de las puntuaciones obtenidas cuando se administra la prueba a un grupo particular de personas en una ocasión particular y bajo condiciones específicas (Thompson, 1994). Note que confiabilidad no es lo mismo que estabilidad: al determinar la confiabilidad se asume que la prueba mide una característica relativamente estable. A diferencia de la inestabilidad, la falta de confiabilidad es resultado de errores de medición producidos por estados internos temporales, como la baja motivación o la falta de disposición, o de condiciones externas corno un ambiente de prueba incómodo o con distracciones. OBJETIVO GENERAL.

El estudiante definirá el término confiabilidad, analizará los diferentes aspectos de la misma en una prueba y determinará el índice de esta al elaborar un instrumento psicológico.

17



El estudiante:

1) Definirá el concepto de confiabilidad

2) Describirá los diferentes aspectos de la contabilidad de un test

3) Describirá los diferentes métodos para obtener los distintos índices de confiabilidad

4) Describirá el tipo de error que afecta la confiabilidad de la prueba

5) Describirá de qué manera se ve afectada la confiabilidad de la prueba al incrementarse

BIBLIOGRAFIA BASICA

Magnusson D. Teoría de los tests. Ed. Trillas. 1971. Caps. 5,9 BF39 M33


Brown F. Principios de hi medición en Psicología y Educación. Ed. El Manual Moderno. Cap. 3,4.

18


EXAMEN DE AUTOEVALUACIÓN

1. Cuando nos referimos a la consistencia o precisión de la medición en una prueba estamos hablando de:

a) Confiabilidad

b) Correlación

c) Validez

d) error de medida

2. El método estadístico por el cual obtenemos la equivalencia es:

a) pruebas paralelas

b) Kuder-Richardson

c) Pares-impares

d) test-retest 3. Los aspectos de la confiabilidad son:

a) cinco

b) cuatro

c) tres

d) dos

4. Para estimar la confiabilidad de una prueba en la cual todos los reactivos tiene el mismo peso utilizamos el método:

a) pruebas paralelas

b) pares y nones

c) Kuder-Richardson

d) mitades

19


5. Tienen el mismo contenido pero cambian en su aspecto formal las pruebas:

a) de contenido

b) paralelas

c) de heterogeneidad

d) iguales 6. El coeficiente de correlación aplicado a la confiabilidad también es llamado:

a) difusión de los valores obtenidos

b) Conocimiento de la confiabilidad

c) coeficiente de confiabilidad

d) expresión de la confiabilidad

20


UNIDAD 4

EL ERROR EN LA MEDICIÓN

21


EL ERROR DE MEDICIÓN EL ERROR DE MEDIDA (Pag. 10 – Psicometría – Carlos Camacho) Tipos de errores de medida y sus consecuencias Como no siempre se es lo suficientemente cuidadoso en la medición de las variables psicológicas. Esta fase de medición de variables psicológicas (constructos), previa a todo análisis estadístico descriptivo o inferencial, condiciona de manera importante los resultados de toda investigación. Si no se realiza adecuadamente el proceso de medición, quedarán desvirtuadas de manera significativa las conclusiones psicológicas obtenidas. En estas circunstancias, ¿qué valor tendrán nuestras decisiones? Estaríamos cometiendo errores de medida que harían más confusa loa teoría subyacente al comportamiento psicológico. El término error de medida comprende errores de muy diferente naturaleza. Aquí, distinguiremos, de acuerdo con Jenck y colaboradores (1979, págs.. 34-36), tres tipos de errores fundamentales: a) conceptuales, b) sistemáticos y c) aleatorios. Los errores conceptuales son consecuencia no tanto de medir mal una determinada variable cuanto de medir equivocadamente otra en su lugar. Se trata de un problema relativamente frecuente en psicología donde no suele estar muy claro qué es lo que estamos midiendo. Ocurre, por ejemplo, cuando utilizamos una prueba de razonamiento o de vocabulario como expresión de la inteligencia, o bien cuando tomamos los ingresos como indicador del nivel social. Son errores que quedarían enmarcados dentro del tema de la validez, que estudiaremos más adelante. Los errores sistemáticos son aquellos que siempre se producen en una misma dirección. Por ejemplo, una prueba puede medir siempre de más, o bien, todos los individuos de un grupo han realizado un cierto test con diez minutos menos del tiempo especificado en el manual, o bien, un encuestador induce sistemáticamente a una determinada respuesta. Todas estas situaciones darán lugar a respuestas sesgadas que repercutirán en los valores estimados como resultado del análisis. Es obvio que la estadística como tal poco tiene que hacer con este tipo de errores, donde sólo cabe ser cuidadoso en la planificación y desarrollo del proceso de medición. Tanto los errores conceptuales como los sistemáticos son errores sistemáticos, ya que se cometen sistemáticamente y en el mismo sentido con todos los sujetos2. El mejor ejemplo de error sistemático es el del ejemplo de tiro “a” de la figura 1.6, en pag. 18, en el que todos los disparos dan sistemáticamente por encima de la diana. Pero no todos los errores sistemáticos son conceptuales sino que son más procedimentales (no seguir las consignas de estandarización del test) que conceptuales.

22


Por último, los errores aleatorios son consecuencia de los múltiples factores desconocidos que inciden en toda medición y que introducen en la misma una cierta variabilidad, como en las dianas “b” y “c”

A diferencia de los errores sistemáticos, los errores aleatorios no guardan relación alguna con el atributo objeto de la medida. Se supone que estos errores aleatorios unas veces actúan en un sentido y otras en otro, de forma tal que se compensan entre ellos (los positivos con los negativos) y a la larga su suma vale cero. Posiblemente un determinado sujeto tenga la misma inteligencia hoy que mañana, pero si le aplicásemos el mismo test en ambos días, presumiblemente obtenga puntuaciones diferentes. Variables tales como estado de ánimo, cansancio, grado de adivinación, errores de codificación. etc, puedan afectar a los resultados de la prueba aplicada. Tales errores hacen referencia a la precisión de las medidas y entran dentro del terreno de la fiabilidad, que será objeto de estudio en estos temas. Los errores conceptuales y los errores sistemáticos son consecuencia fundamentalmente de un diseño defectuoso del proceso de medición. En el caso de los conceptuales, planteamientos teóricos más rigurosos en torno a la naturaleza del constructo es lo que se hace exigible, mientras que en los sistemáticos, se hace necesaria una mayor estandarización de aquellas circunstancias que inciden en la medición, en el sentido de mantener su constancia en todo momento. Los errores aleatorios, aunque pueden reducirse con una mejora en el diseño de medida, nunca pueden ser eliminados por completo. Estos errores aleatorios son inherentes a las características de la medición psicológica. Nunca serán controlados en su totalidad, por lo que la estadística ha de hacerse cargo de ellos. Su naturaleza de "aleatorios" con sus supuestos de media cero e incorrelación los hace idóneos para ser tratados estadísticamente y conocer su cuantía, cuestión que es más difícil de cuantificar en los otros tipos de error.

23


OBJETIVO GENERAL El estudiante definirá lo que es error de medición en psicología, diferenciará entre los tipos de error atribuibles a un test y enunciará los medio de control de los mismos calculando e interpretando el error de un test dado.


El estudiante:

1) Definirá lo que es error en medición

2) Definirá los diversos tipos de error constante ó estándar y variable

3) Explicará la diferencia entre error constante ó estándar y variable

4) Calculará el error estándar de un conjunto de mediciones

5) Interpretará el significado del valor obtenido del error estándar

6) Describirá la formas de control de los diferentes tipos de error

BIBLIOGRAFIA BASICA

Tenorio R. Raul. El error de medición en Psicología. (mecanograma) 1996. Facultad de Psicología. División de Universidad Abierta.


Magnusson D. Teoría de los Test. Ed. Trillas. 1971. Caps. 6 y 8

SUGERENCIAS DE ESTUDIO

Se recomienda al alumno leer la bibliografía básica, ya que esta da un panorama muy amplio de lo que es el error de medición en psicología, describiendo de una manera muy clara las diferencias entre los tipos de error y también los métodos de control de los mismos, recordando que este tema didácticamente queda como una unidad pero en la realidad hay una relación muy íntima entre confiabilidad error y validez, al analizar un test. Si después de esto el alumno tiene dudas leer la bibliografía complementaria

24


EXAMEN DE AUTOEVALUACION

1. Cuando existe variabilidad en la medición hablamos de:

a) Poca confiabilidad

b) Poca validez

c) Error de medición

d) Mucha dificultad de los reactivos

2. El puntaje error puede definirse como:

a) La suma de puntajes

b) La división del puntaje observado entre el verdadero

c) La diferencia de los puntajes observado y verdadero

d) La suma de los puntajes de las pruebas A y A 3. A mayor amplitud del error estándar corresponde:

a) Mayor validez

b) Mayor confiabilidad

c) Menor confiabilidad

d) Menor calificación

4. La media de los puntajes error es igual a cero y porque:

1) Los errores al azar se cancelan entre si

2) La probabilidad de que los errores disminuyen en cada test baja

e) Son independientes de los puntajes observados

3) No aparecen errores

25


EL ERROR DE MEDICIÓN EN PSICOLOGÍA Elaborado por Lic. Raúl Tenorio Ramírez

Podemos partir de la suposición de que en cualquier medición que realice el hombre, se encuentra alguna cantidad de error involucrado, aunque los instrumentos de medición sean muy precisos, como en el caso de los utilizados en las ciencias exactas y con mucho mayor razón en los casos de los instrumentos de medición de las ciencias sociales o conductuales, como es precisamente el caso de la psicología. El error de medición puede ser de dos tipos: sistemático y aleatorio. El error sistemático es aquel que se comete cuando el instrumento de medición arroja datos que sub o sobreestiman la cantidad real del atributo poseído· por los sujetos o eventos que se están midiendo. Si este es el caso y las mediciones del atributo en cuestión se realizan con el mismo instrumento, el problema no es tan grave ya que el error es constante y todos los eventos u objetos medidos lo tienen en la misma cantidad; en este caso se pueden obtener aún diferencias entre los eventos o personas. Estos sucederían por ejemplo, en el caso de que tuviéramos una cinta métrica que por algún extraño factor se hubiera alargado y en vez de tener metros de 100cm. Tuviéramos un metro de 103 cm. En este caso estaríamos obteniendo medidas de por ejemplo tela, que siempre estarían por debajo de la longitud real de la tela; pero si se midiera la tela siempre con el mismo metro (el alargado de 103 cm), las diferencias encontradas entre los diversos pedazos de tela se mantendrían y se podrían distinguir. Pero ¿qué sucedería, si por algún factor desconocido, este metro algunos días fuera más chico y otro más grande y siempre fuera el aumento o disminución de un día a otro? En este caso estaríamos realizando errores aleatorios de medición. El error aleatorio sería entonces el hecho de que algunas veces se sobreestimaran las cantidades de atributo poseídas por el evento u objeto, otras se sobreestimaran, y lo peor de todo que estas sub o sobreestimaciones nunca fueran iguales; más aún, que nosotros no pudiéramos saber si estábamos sub o sobreestimando y mucho menos en cuanto. Es decir, que nuestro error de medición sería al azar; algunas veces por encima, otras por debajo de la cantidad real y nunca en la misma cuantía. Esto es lo que sucede por lo general con los instrumentos de medición que se utilizan en las ciencias sociales. Esto es lo que sucede por lo general con los instrumentos de medición que se utilizan e las ciencias sociales si las diferentes reportada por el instrumento en cuanto a la cantidad del atributo poseído por el evento o sujeto fueran reales, ya que quien pude estar seguro que al día siguiente nuestro instrumento se alargará o encogieran y en cuanto, lo que produciría que la repetición de las mediciones arrojara resultados diferentes a los obtenidos la primera vez. Y como el error es al azar, sería muy difícil determinar de qué tamaño es y acalla donde: arriba o abajo. Por otro lado, aunque pudiera concebirse un método empírico para determinar este tipo de error y su cuantía, el método empírico requeriría, por ejemplo, que repitieran las mediciones de los mismos sujetos o eventos un número de veces; que se sacara un promedio de los resultados arrojados por el instrumento a lo largo de ese n números de veces y aspa podríamos pensar en tener una aproximación a la cantidad real de atributo poseído por los sujetos. Pero, imagínese el repetir una prueba de inteligencia un número de veces al mismo sujeto, por ejemplo, con el objeto de tener una aproximación más exacta de que tan inteligente es.

26


Existirían varios factores que se tendrían que tomar en cuenta: entre los principales estaría el factor aprendizaje (o recordación) que el sujeto fuera adquiriendo con las sucesivas aplicaciones del mismo instrumentos, entre otros; la fatiga sería otro. Debido a esto, aunque los errores aleatorios nunca se pueden eliminar, se hacen esfuerzos para reducirlos hasta donde sea posible. Podemos decir que el instrumento de medición es confiable, o más confiable entre menor sea el error de medición. Ahora bien podemos decir que la confiabilidad de un instrumento de medición es el grado hasta el cual las medidas sean repetibles; es decir un mismo individuo al que se le aplican diferentes instrumentos que miden el mismo atributo arroja calificaciones semejantes, o el mismo instrumento aplicado en diferentes ocasiones arroja las mismas o por lo menos semejantes puntuaciones o calificaciones (cantidades de atributo poseídas por el sujeto). Con esto no queremos decir que una alta confiabilidad en el instrumento pone límites a la cantidad de validez que tenga el mismo. En 1904, Charles Spearman estableció los fundamentos de este modelo. Este es uno de los más importantes en psicología y la medición que. se haga en ella, sin embargo debemos recordar que el error de medición no hace tanto daño a la mayoría de la sin investigaciones como se quisiera suponer; que existen otros tópicos que se refieren a la medición en psicología que son más importantes Pero, este modelo matemático es uno de los más manejables en psicología; la teoría se pude derivar partiendo de solo unas cuantas suposiciones acerca de la naturaleza de los datos; las mismas formulas pueden derivarse de diferentes conjuntos de suposiciones. Todo esto hace que se tenga mucho interés en conocer el modelo. Se supone que cada persona tiene una "calificación verdadera", la que obtendría si no hubiesen errores de medición; pero sabemos que si los hay. Si aplicáramos el instrumento de medición al sujeto en diversas ocasiones, las medidas obtenidas producirían diferentes calificaciones, que variarían al azar, y las podríamos representar en la siguiente figura: (figura 1) Entre más alta sea la dispersión de las calificaciones alrededor de la calificación verdadera (el promedio de las calificaciones obtenidas en las diversas ocasiones), más error tiene el instrumento de medición. La desviación estándar de la distribución de calificaciones para cada persona sería un índice de la cantidad de error poseído por el instrumento de medición. La desviación estándar típica se llama error estándar de medición, y es un índice de la cantidad de error involucrado en el instrumento. Supongamos el procedimiento convencional de aplicar una prueba en el sentido de que se le presentan al sujeto un número de reactivos que tiene que contestar. Cada respuesta se califica como buena o mala. La simple suma o la suma pesada de las respuestas correctas son tomadas como la calificación en la prueba. Suponemos que la calificación numérica está basada en contar uno o más puntos por cada respuesta correcta y cero puntos por cada respuesta incorrecta. Lo que trataremos de determinar es la exactitud de la calificación. l. Suposiciones Básicas del Modelo a) Xi = calificación observada (obtenida) de la persona i en la prueba que estamos considerando:

27


Ti = calificación verdadera de la persona i en la prueba; Ei = componente de error para la misma persona b) La calificación observada (X) tiene dos componentes: T que representa la habilidad o atributo real poseído por la persona; una cantidad relativamente estable de prueba a prueba siempre y cuando las pruebas midan lo mismo; E el componente de error; que se puede deber a: a) Factores que pueden hacer que una persona conteste en forma correcta un reactivo que no conoce; b) Factores que hacen que conteste en forma incorrecta a un reactivo que si conoce. c) Xi = Ti + Ei o Ei = Xi - Ti Esta suposición establece la relación entre la calificación de error y la verdadera; es la ecuación que define lo que queremos decir con error; si aceptamos el concepto de que existe una calificación verdadera que es diferente de la observada, podemos decir que la diferencia entre estas dos será el error. Determinación de las características de las calificaciones verdaderas y de error a) Hasta ahora tenemos una ecuación con dos incógnitas (T) y €, que no se puede resolver para determinar los valores T y E para la persona; si aplicáramos la prueba a más personas seguiríamos igual, pero: b) Si tuviéramos las medidas de muchas personas, tendríamos tres distribuciones de frecuencia: una distribución de X, una distribución de T y una distribución de E. e) Existen dos aproximaciones equivalentes al problema de la determinación de las características de estas distribuciones: l. Se da una definición de calificación de error y se considera que T es simplemente la diferencia entre X y E. 2. Se define la calificación verdadera (T) y dejamos que la diferencia entre la X y la T se llame error. Definiciones de errores al azar a) Existen, como ya dijimos antes, dos tipos de errores: errores al azar y errores sistemáticos o constantes. Si las medidas son consistentemente mayores o menores de lo que deben ser, tenemos el error constante. Si existen discrepancias en las mediciones, algunas veces grandes, otras pequeñas, algunas veces positivas y otras negativas, tenemos el error al azar. b) La teoría de las pruebas se refiere a la definición y estimación de los errores al azar.

28


e) Como son errores al azar, es fácil suponer que a lo largo d un número suficientemente grande de casos el error promedio de este tipo será cero, ya que al sumarlos se anularían unos a otros. E=O Y entre mayor sea el número de casos de la distribución, más cerca de la verdad estará la suposición. Por lo tanto, podeos definir a los errores al azar como aquellos que tienen un promedio de cero a lo largo de un gran número de casos. d) A medida que el número de casos aumenta, la correlación entre las calificaciones verdaderas y las de error se acerca a cero, ya que las calificaciones de error varían al azar y las verdaderas permanecen relativamente estables. R=O ET Esto también será más cierto entre mayor sea el número de casos. e) La correlación entre los errores de una prueba y su forma paralela o equivalente es: La correlación entre dos conjuntos de errores al azar (cada uno de ellos varía al azar) es de cero o se acerca a cero a medida que el número de casos aumenta. 2. Modelo Dominio - Muestra El modelo más útil para la discusión del error de medición es el que considera a cualquier medida particular, como compuesta por una muestra al azar de reactivos de una población o dominio hipotético de reactivos referentes a un atributo dado Por supuesto que de hecho esto no es cierto, ya que los reactivos que componen una prueba, casi nunca se muestrean al azar, sino más bien son construidos ex profeso para la prueba, sin embargo, este modelo lleva a predicciones bastante exactas en la práctica. El propósito de cualquier instrumento de medición particular es el de calcular la calificación o medida que se obtendría si se emplearan todo los reactivos del dominio. La calificación que cualquier sujeto obtuviera si le fueran aplicados todos los reactivos del dominio. La calificación verdadera. En la medida en que cualquier muestra de reactivos (prueba) correlacione con las calificaciones verdaderas, será la confiabilidad de la muestra (prueba). En este modelo, el número de reactivos de una prueba no tiene que estar determinado, puede ser abierto, de falso-verdadero, de opción múltiple, etc. Supongamos que partimos de una matriz infinitamente grande de correlaciones que presenta todas las intercorrelaciones entre los reactivos de un dominio. La correlación promedio (rij) de la matriz, indicaría el grado hasta el cual existe algo en común entre los reactivos del dominio. La dispersión de las correlaciones alrededor del promedio de correlaciones (rij) indicaría el grado hasta el cual los reactivos varían en la posesión de ese algo (supuestamente el atributo que deseamos medir) en común.

29


Si suponemos que todos los reactivos tiene igual cantidad de eso en común, la correlación promedio de cada columna de la matriz hipotética sería la misma, y estas serían iguales a la correlación promedio de la matriz total. Es decir, si la correlación promedio de cada reactivo contra todos los demás fuera la misma para todos ellos, estas correlaciones serían igual a la correlación promedio total de la matriz. Aclaremos y recordemos, que la suposición no dice que todas las correlaciones o el promedio de las mismas, de cada reactivo contra todos los demás es la misma para todos los reactivos. Por lo general, los instrumentos de medición está compuesto por un gran número de reactivos. El modelo se puede extender para aplicarse a pruebas en lugar de reactivos únicos. La matriz infinitamente grande de intercorrelaciones entre reactivos, pude pensarse que está dividida en grupos, cada uno conteniendo en reactivos. La suma de calificaciones en un grupo de reactivos constituiría una prueba. Si los reactivos estuvieran muestreados al azar para componerlas pruebas tenderían a ser las mismas iguales. Estas correlaciones de reactivos muestreados al azar se dice que constituyen pruebas paralelas al zar, ya que sus medias, desviaciones estándar y correlaciones con las calificaciones verdaderas difieren solo por azar.

30


UNIDAD 5

VALIDEZ DE LOS TEST

31


VALIDEZ DE LOS TEST INTRODUCCIÓN. De manera tradicional, la validez se ha definido como el grado en que una prueba mide lo que está diseñada para medir. Una desventaja de esta definición es la implicación de que una prueba sólo tiene una validez, la cual supuestamente es establecida por un solo estudio para determinar si la prueba mide lo que se supone debe medir. En realidad, una prueba puede tener muchas clases de validez, dependiendo de los propósitos específicos para los cuales fue diseñada, la población objetivo, las condiciones en que se aplica y el método para determinar la validez. Los métodos por los cuales puede determinarse La validez incluyen:

1) analizar el contenido de la prueba, 2) calcular la correlación entre las calificaciones en la prueba y las calificaciones

en el criterio de interés y 3) investigar las características psicológicas particulares o constructos medidos

por la prueba. Todos esos procedimientos son útiles en la medida que mejoran la comprensión de lo que mide una prueba y proporcionan información para tomar decisiones sobre la gente. También puede ser de interés evaluar la validez creciente de una prueba, es decir, qué tanto añade la prueba a la predicción y comprensión de los criterios que ya son anticipados por otras medidas. A diferencia de la confiabilidad, la cual es influida sólo por los errores no sistemáticos de medición, la validez de una prueba es afectada tanto por los errores no sistemáticos como por los sistemáticos (constantes). Por esta razón, una prueba puede ser confiable sin ser válida, pero no puede ser válida sin ser confiable. La confiabilidad es una condición necesaria, pero no suficiente, para la validez. OBJETIVO GENERAL El estudiante definirá el concepto validez, describirá los diferentes tipos de validez de los tests, describirá los procedimientos estadísticos para calcular los diferentes índices de validez.

32



El estudiante:

1) Definirá el concepto de validez

2) Explicará la validez de contenido

3) Explicará el procedimiento para obtener el índice de validez de contenido

4) Describirá los instrumentos en los que se puede observar de manera más clara la validez de contenido.

5) Explicará la validez concurrente

6) Explicará el procedimiento para obtener el índice de validez

7) Describirá los instrumentos en los que se puede observar de manera más clara la validez concurrente.

8) Explicará la validez predictiva

9) Explicará el procedimiento para obtener el índice de validez predictiva

10) Describirá los instrumentos en los que se puede observar de manera más clara la validez predictiva.

11) Explicará la validez hipotética o de construcción

12) Explicará el procedimiento para obtener el índice de validez hipotética o de

Construcción.

13) Describirá los instrumentos en los que se puede observar de manera más clara la validez hipotética o de construcción.

BIBLIOGRAFIA BASICA

Magnusson D. Teoría de los Tests. Ed. Trillas. 1971. Cap. 10 BF39 M33 BIBLIOGRAFIA COMPLEMENTARIA

Brown F. Principios de la Medición en Psicología y Educación. Ed. El Manual Moemo.1980. Cap. 7,8.

33


SUGERENCIAS DE ESTUDIO Se recomienda al alumno primero entender el concepto de validez, una vez logrado esto, entender los diferentes tipos de validez, en cada uno de ellos describir cómo se logra y en qué tipo de instrumentos se puede apreciar mejor la validez e que se trate. Hay que tener mucho cuidado con la clasificación que se tome, pues los textos lo hace de diferente forma: unos hablan de cuatro tipos como los que se enuncian en esta guía y otros engloban a la concurrente y a la predictiva en un solo y la llaman de criterio, considerando entonces solo tres tipos. Atendiendo a lo anterior sugerimos leer primero el cap.10 del Magnusson, donde se describen de forma bastante clara los tipos de validez. EXAMEN DE AUTOEVALUACION 1. Cuando nuestro instrumento mide lo que pretende medir, hablamos de:

a) Confiabilidad

b) Objetividad

c) Validez

d) Sensibilidad 2. En una prueba de diagnóstico clínico la validez que debemos obtener es la:

a) De contenido

b) Predictiva

c) De construcción

d) Concurrente

34


3. La validez que tendremos que probar para una prueba que esta midiendo agresividad, es la:

a) De contenido

b) De construcción

c) Concurrente

d) Criterio 4. La variable que nos va a permitir conocer el índice de validez de un instrumento, se llama:

a) Dependiente

b) Discriminatoria

c) Criterio

d) Independiente

5. La validez de contenido se puede observar más claramente en las pruebas

a) Personalidad

b) Rendimiento

c) Aptitud

d) Intereses

teoria de la medida (victor-moodle)

Documents