manual de medicion psicologica. 2011 (2)

174

Upload: jose-martinez

Post on 30-Nov-2015

159 views

Category:

Documents


28 download

TRANSCRIPT

Page 1: Manual de Medicion Psicologica. 2011 (2)
Page 2: Manual de Medicion Psicologica. 2011 (2)
Page 3: Manual de Medicion Psicologica. 2011 (2)

PRIMERA UNIDADFUNDAMENTOS DE LA MEDICION PSICOLOGICA

LECCION 1INTRODUCCION A LA MEDICION

1. INTRODUCCION

Hace algunos siglos, medir resultaba algo muy complicado. Como decíamos, medir es simplemente comparar, y cada persona, cada pueblo, cada país comparaba las cosas con lo que más se le antojaba. Por ejemplo, usaban la medida mano para medir distancias, y aún hoy mucha gente, cuando no tiene una regla o una cinta métrica, mide la mesa con la mano o el largo del cuarto con pasos.

Desde la aparición del ser humano sobre la tierra surgió la necesidad de contar y medir, no es posible saber cuando surgen estas unidades para contar y medir, pero la necesidad de hacerlo aporta ingredientes básicos que requiere la metrología como mínimo, para desarrollar su actividad fundamental como ciencia que estudia los sistemas de unidades, los métodos, las normas y los instrumentos para medir.

Se ha dicho que todos los descubrimientos han tenido lugar gracias a las mediciones precisas del tiempo, masa o longitud; de estas tres, la medición exacta de la longitud es la que ofrece más dificultades y han adquirido mayor importancia, hasta el momento presente en que sigue constituyendo uno de los mayores problemas con que deben enfrentarse el mundo de la mecánica.

2. ¿QUÉ ES MEDIR?

La medición es la determinación de la proporción entre la dimensión o suceso de un objeto y una determinada unidad de medida. La dimensión del objeto y la unidad deben ser de la misma magnitud. Una parte importante de la medición es la estimación de error o análisis de errores.

Para establecer medidas debemos partir de nuestra observación del mundo real o dominio.

Debemos identificar cuáles son las entidades que queremos medir (p.ej., tamaño) y definir qué atributo deseamos caracterizar (p.ej., estatura).

Medir: asignar números a las cantidades e las propiedades de una persona de acuerdo con reglas preestablecidas y que se puede comparar; Es decir, cuantificamos cualidades.

En psicología las características las inferimos por lo que es importante que los instrumentos de medida constaten que esas inferencias son reales.

Los instrumentos son los test psicométricos que pretenden ser una medida objetiva y tipificada de pequeñas muestras de conducta significativas del sujeto.

Page 4: Manual de Medicion Psicologica. 2011 (2)

Para que un test tenga valor debe servir para:a. diagnosticar y describir el estado actual del sujetob. predecir el comportamiento futuro

La medida en psicología es algo concreto: Se miden características psicológicas en personas, por lo que son aspectos individuales y concretos.

3. CONCEPTO DE MEDICION

Medición, refiere a la acción y resultado de medir; realizaron una medición sobre la vivienda para así poder tasarla y posteriormente venderla. En tanto, por medir, se indica la acción de comparar una determinada cantidad con su unidad respectiva, con la clara finalidad de conocer cuántas veces la segunda se encuentra contenida en la primera.

Entonces, más concretamente, la medición es la determinación de la proporción entre la dimensión o suceso de un objeto y una determinada unidad de medida. Para poder llevar a cabo la medición de lo que sea, será necesario que tanto la dimensión del objeto como la unidad correspondan a la misma magnitud.

Cuando se encuentra midiendo cualquier cosa, deberá serse lo más cuidadoso que se pueda para no alterar el sistema, si bien el margen de error siempre se considera presente, ya sea por las imperfecciones que pueden presentar el medidor, el instrumental o hasta de los errores experimentales, deberá tratarse que el mismo sea el mínimo posible.

El patrón que facilita llevar a cabo las mediciones se conoce como unidad de medida y deberá cumplir con tres condiciones básicas: universalidad (utilizado en todos los países del mundo), inalterable (no podrá presentar variación en el tiempo ni por quien realice la medición), reproducible.

Para facilitar la cuestión, los científicos, han reunido las unidades tipo patrón más conveniente y desarrollaron los sistemas de unidades, por ejemplo el Sistema Internacional (S.I.), el mencionado fue acuñado en el año 1960 en la XI Conferencia General de Pesos y Medidas, siendo las magnitudes fundamentales que se tomaron las siguientes: longitud, masa, tiempo, temperatura termodinámica , cantidad de sustancia, intensidad luminosa, ángulo plano, ángulo sólido e intensidad de corriente eléctrica.El resultado de una medición se conoce como medida.

Si la medición es concretada a través de un instrumento de medida creado para tal menester se llamará a la misma medición directa, en tanto, cuando esta condición no se cumpla porque no existe un instrumento adecuado que nos permita medir, por ejemplo, en los casos en los que la cosa a medir es muy grande o mu pequeña, la medición deberá efectuarse a través de una variable que permita calcular otra diferente y entonces, la misma será considerada como una medición indirecta.

Stevens (1951), afirma que “medir es asignar números a objetos o datos de acuerdo con ciertas reglas”. Togerson (1958), crítica esta definición señalando que, al medir no se asignan números a los objetos, por lo cual estará más de acuerdo con la definición de Campbell (1938).

Campbell (1938), sostiene que “medición es la asignación de números para representar las propiedades de los sistemas materiales en virtud de leyes que gobiernan estas propiedades”.

Lord y Novick (1968), definen medición como un “procedimiento para la asignación de números a propiedades específicas de unidades experimentales de modo que las características preserven las relaciones especificadas en el dominio comportamental.

Page 5: Manual de Medicion Psicologica. 2011 (2)

Magnusson (1969), dice que “medir es asignar números a las cantidades de las propiedades o atributos de los objetos, de acuerdo con ciertas reglas cuya validez puede probarse.

Kerlinger (1973), dice que, “en cierto sentido, la medición es sólo un juego y el objeto de dicho juego es producir una correspondencia entre la medición y la realidad; cuanto mayor sea esa correspondencia, tanto mejor será la medición”.

Bunge (1983), “la medición es la contrapartida empírica de la cuantificación o determinación de la medida, y consiste en interpretar ciertas señales convencionales (cifras, por ejemplo), como números que suministran una imagen más o menos fiable de porciones o grados de esa propiedad”….”Además, exige un cero absoluto y unidades de medida que pertenezcan a un sistema de unidades coherentes (teóricamente fundado)”.

Herrera Rojas (1993), dice que “la medición comprende la definición del atributo que se quiere medir, el establecimiento de la unidad de medida a emplear, la operación de comparar el primero con la segunda y la asignación de valores numéricos como resultado de esa comparación siguiendo reglas convencionales”

Nunally y Berstein (1995), es importante tener presente que no se miden las personas sino atributos, es decir, características particulares de los objetos de medición. Ejemplo: en la práctica no medimos a un adolescente, sino algunos de sus atributos, como: su inteligencia, su personalidad, sus preferencias vocacionales, sus hábitos de estudio, etc.

4. SISTEMA NUMERICO

4.1 NUMERACIÓN

Sistema de símbolos o signos utilizados para expresar los números.Las primeras formas de notación numérica consistían simplemente en líneas rectas, verticales u horizontales; cada una de ellas representa el numero 1. Por lo que este sistema era extremadamente engorroso para manejar grandes números y para hacer operaciones. Ya en el año 3400 a.C. en Egipto y Mesopotamia se utilizaba un símbolo específico para representar el número 10.En la notación cuneiforme de babilonia el símbolo utilizado para el 1, era el mismo para el 60 y sus potencias.; el valor del símbolo venía dado por su contexto.

a. Numeración Griega Coexistieron dos sistemas de numeración paralelos. El primero de ellos estaba basado en las iniciales de los números, el número 5 se indicaba con (eta); el (delta) el 100 con la letra (PI); el 10 con la letra la letra (mu). En el (chi) y el 1000 con la letra 1000 con la letra segundo sistema eran usadas todas las letras del alfabeto griego más otras tres tomadas del alfabeto fenicio como guarismos. La ventaja de este sistema era que con poca cantidad de números se podían expresar grandes cifras; pero había que saberse de memoria un total de 27 símbolos.

b. Numeración RomanaEste sistema (tan bien conocido por nosotros) tuvo el mérito de ser capaz de expresar los números del 1 al 1.000.000 con solo siete símbolos: I para el 1, V para el 5, X para el 10, L para el 50, C para el 100, D para el 500 y M para el 1000. Es importante acotar que una pequeña línea sobre el número multiplica su valor por mil. En la actualidad los números romanos se usan para la historia y con fines decorativos. La numeración romana tiene el inconveniente de no ser práctica para realizar cálculos escritos con rapidez.

Page 6: Manual de Medicion Psicologica. 2011 (2)

c. Numeración Arábiga

El sistema corriente de notación numérica que es utilizado hoy y en casi todo el mundo es la numeración arábiga. Este sistema fue desarrollado primero por los hindúes y luego por los árabes que introdujeron la innovación de la notación posicional; en la que los números cambian su valor según su posición. La notación posicional solo es posible si existe un número para el cero. El guarismo 0 permite distinguir entre 11, 101 y 1001 sin tener que agregar símbolos adicionales. Además todos los números se pueden expresar con sólo diez guarismos, del 1 al 9 más el 0. La notación posicional ha facilitado muchísimo todos los tipos de cálculos numéricos por escrito.

En matemáticas, varios sistemas de notación que se han usado o se usan para representar cantidades abstractas denominadas números. Un sistema numérico está definido por la base que utiliza. La base de un sistema numérico es el número de símbolos diferentes o guarismos, necesarios para representar un número cualquiera de los infinitos posibles en el sistema.

A lo largo de la historia se han utilizado multitud de sistemas numéricos diferentes.

a. Valores posiciónales

La posición de una cifra indica el valor de dicha cifra en función de los valores exponenciales de la base. En el sistema decimal, la cantidad representada por uno de los diez dígitos - 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9-depende de la posición del número completo. Para convertir un número n dado en base 10 a un número en base b, se divide (en el sistema decimal) n por b, el cociente se divide de nuevo por b, y así sucesivamente hasta obtener un cociente cero.

b. Sistema binario

El sistema binario desempeña un importante papel en la tecnología de los ordenadores. Los números se pueden representar en el sistema binario como la suma de varias potencias de dos.Ya que sólo se necesitan dos dígitos; el sistema binario se utiliza en ordenadores y computadoras.

c. Números

Palabra o símbolo utilizado para designar cantidades o entidades, que se comporten como cantidades. Es la expresión de la relación existente entre una cantidad y otra magnitud que sirve de unidad. Se pueden considerar números todos aquellos conceptos matemáticos para los cuales se definen dos operaciones, de adición y multiplicación, cada una de las cuales obedece a las propiedades conmutativa y asociativa.

c.1 Números NaturalesDicho en términos muy simples, los números naturales son los que sirven para contar. El conjunto de los números naturales tiene las siguientes propiedades: Al conjunto de los números naturales pertenecen el 0 y el 1. Si se suma a un natural el número 1 el resultado es otro número natural. Por lo tanto el conjunto de los naturales es un conjunto infinito. Las propiedades enunciadas anteriormente constituyen el Axioma de

Inducción Completa.

Page 7: Manual de Medicion Psicologica. 2011 (2)

c.2 Números EnterosEl conjunto de números enteros, es también infinito.Son parejas de números naturales (x,y), cuya resta x-y define un número entero. Por ejemplo: la pareja (7,3) define el entero positivo 4 ya que 7 - 3 = 4, la pareja (2,4) define el entero negativo -2 ya que 2 - 4 = -2.Existe un isomorfismo entre parte del conjunto de los números enteros y el de los números naturales; ya que el conjunto de los naturales es el de los enteros positivos.Al conjunto de los enteros también pertenece el 0 que está definido por todas aquellas parejas de naturales iguales (1,1); (56,56); etc.

c.3 Números RacionalesEl conjunto de números racionales está integrado por parejas de números enteros cuyos elementos se dividen entre sí.A este conjunto también pertenece el 0, que está definido por todas aquellas fracciones que tienen al 0 por numerador.Los racionales serán positivos o negativos según sea el signo de cada uno de los integrantes de las parejas que los definen. Así será que parejas de enteros de igual signo definirán un racional positivo; y parejas de enteros de distinto signo definirán un racional negativo. No existen racionales cuyo denominador sea 0.

c.4 Números RealesEl campo de los números reales es más amplio que el de los racionales; ya que incluye números que no están formados por parejas de enteros. Por ejemplo la relación que existe entre una circunferencia y su diámetro. Se trata de un conjunto también infinito.Siempre entre dos números reales hay otro número real; de ahí que se asocie al conjunto de los números reales con una recta. La recta está formada por infinitos puntos y cada punto representaría un número real.

5. PROPIEDADES LOGICAS

Para aplicar a las propiedades de la naturaleza un modelo matemático hay que cumplir ciertos requisitos, por lo tanto nos podemos preguntar ¿cuáles son las características de la serie real de los números? Los números reales del sistema numérico presentan tres características fundamentales:

a. Orden, Es decir que los números están ordenados de mayor a menor. Ejemplos: 1 menor que 2; 2 menor que 3; 3 menor que 4, etc.

b. Distancia, Significa que la diferencia entre dos números o pares de números puede ser de tres tipos: “mayor que”; “menor que” e “igual que”. Ejemplos: 7 es mayor que 1; 7 es igual a siete y 7 es menor que 28. También podemos decir: 9-7 es menor que 9-6; o que 7-4 es mayor que 6-4, etc.

c. Origen, Es decir, la serie numérica tiene un origen único llamado “cero” y la diferencia entre cualquier par de números que tiene a O en un miembro es igual al número del otro miembro. Ejemplo: 6 – 0 = 6

Los hechos o fenómenos no pueden satisfacer todas las propiedades de los números, no obstante, nos permiten hacer ciertas mediciones de los mismos. Campbell (1938), sostiene que existen nueve postulados básicos para la medición:

Page 8: Manual de Medicion Psicologica. 2011 (2)

a) Postulados básicos de identidad o equivalencia: Si a es igual a b; o bien a es diferente a b. Los números son iguales o

diferentes. Si a es igual a b, entonces b es igual a a. Es decir, la relación de igualdad es

simétrica. Si a es igual a b y b es igual a c, entonces a es igual a c. Es decir, dos cosas

iguales a una tercera son iguales entre si. Transitividad.

b) Postulados relativos al orden jerárquico: Si a es mayor que b, luego b es menor que a. La relación “mayor que”, es

asimétrica. Si a es mayor que b, y b es mayor que c, entonces a es mayor que c.

Propiedad transitiva.

c) Postulados relativos a la aditividad: Si a es igual a p, y b es mayor que cero, entonces a más b es mayor que p.

Indica la posibilidad de sumar. Si a más b es igual a b mas a. El orden de los sumandos no afecta el

resultado. Si a es igual a p, y b es igual a q, entonces a más b es igual a p más q. Es

decir, los objetos idénticos pueden ser sustituídos.

A pesar de que la medición en psicología ha sido difícil de aceptar básicamente debido por una parte a que no se comprendía cómo se podían medir fenómenos cualitativamente diferentes y de otro lado a la gran cantidad de factores que interviene en la aparición de cualquier fenómeno psicológico, que hacen difícil establecer los controles adecuados, asunto que no ocurre en las ciencias naturales en un laboratorio.

Asimismo la influencia de algunos pensadores como Kant, que sostuvo que las matemáticas no pueden aplicarse a la psicología, o de Bergson en contra del positivismo, retardaron la aplicación de la estadística en psicología; sin embargo, otros estudiosos como cita Cortada de Kohan (1999), afirman que la medición es posible porque la estructura del pensamiento del hombre y la actividad psicológica en general poseen propiedades desde el punto de vista lógico que son suficientemente similares a la estructura de las matemáticas y por lo tanto se puede establecer un isomorfismo.

Lord y Novick (1968), definen la medición como un “procedimiento para la asignación de números (puntajes o medidas), a propiedades especificadas de unidades experimentales de modo que las caractericen y preserven, las relaciones especificadas en el dominio comportamental”. En esta definición, el “preservar las relaciones” de Lord y Novick suponen que para representar la propiedad debe existir un isomorfismo entre las características del sistema numérico y las relaciones entre las diversas cantidades de la propiedad medida.

6. ELEMENTOS ESENCIALES EN LA MEDICIÓN

En psicología medimos para tener datos más precisos y además ahorra tiempo, esfuerzo y dinero. Cuanto más complejo es lo que se pretende analizar la medida simplifica la realidad compleja.Cada ítem de un test es una pequeña muestra de conducta.Los elementos esenciales para medir en psicología son:

a. señalar o definir la cualidad o atributo que queremos medirb. operativizar el atributo en base a las manifestaciones del mismoc. ver la relación entre cualidades y cantidades.d. Traducir e interpretar los datos cuantitativos para darles una cualidad. Es decir,

interpretar los datos cuantitativos en base a unas normas de interpretación.

Page 9: Manual de Medicion Psicologica. 2011 (2)

7. CLASES DE MEDICION

Según Campbell (1959), la medición en ciencia de mayor a menor precisión, responde a la siguiente categorización:

a. La medición fundamental o medición de magnitudes A. En este caso los números se asignan según leyes naturales que representan la propiedad misma. Ejemplo: la longitud, el volumen, el peso, la altura, la resistencia física, poseen significado constitutivo y no presuponen la medición de ninguna otra variable.

b. La medición derivada o medición de magnitudes B. En este caso la característica de una escala obtiene sentido mediante leyes que relacionan una propiedad con otras propiedades. Ejemplo: la densidad de una sustancia es la relación entre su masa y su volumen. Esta relación difiere en las distintas sustancias y por lo tanto el valor de esta relación puede medir la densidad de la sustancia.

c. La medición por fiat. En esta categoría el significado se debe a una definición arbitraria que depende de relaciones supuestas entre las observaciones y el concepto. En la práctica, esto es lo común en las ciencias sociales cuando usamos índices como por ejemplo, el nivel socioeconómico, o en psicología el cociente intelectual o la capacidad de aprendizaje de un animal por cantidad de ensayos que necesita para solucionar un problema o recorrer un laberinto. El caso es que, los índices tienen sólo un significado operacional más no constitutivo.

8. FINALIDAD DE LA MEDICION PSICOLOGICA

Según Levine y Feeman, 1975, la finalidad de la medición es proporcionar una base objetiva, exacta y comunicable para describir, diferenciar y clasificar las características y conductas de las personas. Ejemplo: los puntajes correspondientes a eneatipos son diferenciaciones cuantitativas que permiten clasificar a las personas en función a sus recursos o potencialidades intelectuales; rasgos de temperamento; aptitudes específicas; hábitos de estudio, según los casos.

Para clasificar primero se debe diferenciar, por lo tanto la diferenciación precede a la clasificación. En psicometría, para diferenciar a los sujetos sobre la base de una determinada variable se deben cumplir dos requisitos:

1.Se debe dar una definición de la variable, por ejemplo: “inteligencia”; “aptitud”; “hábitos”; “temperamento”, etc.

2.Se debe dar una regla o un conjunto de ellas, por la cual se establezcan las operaciones que permitirán diferenciar entre los sujetos.

La definición de una variable es generalmente abstracta mientras que las reglas son definidas operacionalmente. Técnicamente, cuanto más específica es la regla más exacta es la medición.

9. PROCESO DE EVALUACION

El concepto de evaluación es mucho más amplio que el de medición. La medición implica tanto descripciones cuantitativas como cualitativas del comportamiento y además, y esto es lo más importante, supone siempre un juicio de valor en relación con ese comportamiento.

Ejemplo: Cuando en la práctica decimos que un niño posee un CI de 85, sólo hemos medido algo. Para que esto constituya una evaluación, debemos concluir que el resultado obtenido por dicho niño es inferior al promedio de la población escolar y que es probable que el niño tenga dificultades de aprendizaje y que por lo tanto requiera aprestamiento y nivelación, etc.

Page 10: Manual de Medicion Psicologica. 2011 (2)

En resumen, la evaluación implica un proceso sistemático destinado a obtener información sobre ciertas características de los sujetos examinados que nos sirvan de base para tomar decisiones. Asimismo, la evaluación psicológica se da en diferentes ámbitos especializados: clínico o de la salud; educacional; organizacional; social-comunitaria; deportiva; penitenciaria, etc. Es evidente que la evaluación no sólo se refiere a la aplicación de tests, sino que implica la observación conductual, la entrevista, la observación y las calificaciones, entre otros elementos, utilizados por el evaluador para la toma de decisiones (Cohen y Serdilk, 2000).

La principal debilidad de la evaluación es que permite la intervención directa de las personalidades del observador como del observado. En la actualidad, la evaluación se orienta hacia las técnicas donde se puedan combinar las aproximaciones de la psicometría y la observación, utilizando esta última con sus diversos procedimientos: registros, informes, técnicas sociométricas, etc., en el estudio de las situaciones o escenarios donde se desenvuelven las personas.

Reconociendo la complejidad del estudio de la personalidad e involucrando en este concepto a lo cognitivo, Catell (1982), propone para el estudio de la personalidad un doble modelo: psicométrico y econéctico, éste último se ocuparía del estudio de las situaciones o escenarios donde se da el comportamiento. Catell, Eysenck y Guilford dedicaron toda su vida al desarrollo del primer modelo mencionado, en tanto que el segundo recién empieza a evolucionar y probablemente va a constituir el objetivo de otras generaciones de psicólogos investigadores (Catell y Kline, 1982).

10. VARIABLES DE LA MEDICION

a. Definición de VariableVariable es toda característica o atributo susceptible de tomar un valor y ser medido.Una variable es cada una de las características o cualidades que poseen los individuos de una población. Cuando hablemos de variable haremos referencia a un símbolo (X, Y, A, B,...) que puede tomar cualquier modalidad o categoría (valor) de un conjunto determinado, que llamaremos dominio de la variable o rango.

Al observar el mundo, la naturaleza, la realidad, nos llama la atención la gran cantidad de distinciones sensibles que podemos hacer en ella. Ejemplo: si nuestro interés se orienta a estudiar un grupo de adolescentes universitarios, seleccionaremos una muestra que podrán ser dos grupos de alumnos: uno de ellos pertenecientes a una Universidad Privada y el otro a una Universidad Nacional. Sobre estos grupos, elegiremos algunas características que nos interesen como por ejemplo: peso, talla, capacidad intelectual, hábitos de estudio, enfermedades que han padecido, edad cronológica, lugar de procedencia, trabajo que realizan sus padres, su rendimiento en lenguaje, etc.

Estas características o propiedades de los adolescentes universitarios se llaman variables toda vez que varían de un alumno a otro y son precisamente sobre estas variables que trabajará el estadístico. El término “variable” indica que un símbolo representa diversos valores y dichos símbolos suelen ser las últimas letras del alfabeto: x, y, z.

A diferencia de una variable que puede tener valores diferentes, una constante puede ser reemplazada sólo y únicamente por un valor. Ejemplo, en la expresión C = 2phi r, los símbolos C y r pueden ser reemplazados por un conjunto infinito de números positivos; sin embargo, el símbolo phi es una constante y sólo puede ser reemplazado por 3.1416.

Por otra parte, observamos también que en este caso C y r son variables que están funcionando relacionadas, es decir, el valor de C depende del valor de r. Del mismo

Page 11: Manual de Medicion Psicologica. 2011 (2)

modo, las variables son muy diversas y por lo tanto conviene que las clasifiquemos ya que no todos los cálculos estadísticos se pueden hacer con todas las variables.

Para efectos de nuestra temática, podemos dividir las variables en varios tipos:

1. Variables cualitativas o atributos.

El rasgo específico que caracteriza estas variables es que pueden ser divididas en clases separadas y mutuamente exclusivas. Ejemplo: el sexo, la raza, la religión, el partido político, la ocupación, la actitud hacia los maestros, el estado civil, etc. Asimismo, en el sexo tenemos hombre y mujer; en la raza tenemos: negros, blancos, orientales, etc.; en la religión tenemos a católicos, protestantes, judíos, budistas, musulmanes, etc. En algunos casos, las variables cualitativas consideran una pauta de orden. Ejemplo: el promedio de los exámenes calificado como: reprobado, aprobado, bueno, distinguido y sobresaliente. Cuando se trata de medir actitudes hacia la política en adolescentes universitarios podemos considerar los siguientes niveles: muy favorables, favorables y desfavorables. En resumen, las variables cualitativas son muy frecuentes en la psicología y en las ciencias sociales pero son las más difíciles de evaluar desde el punto de vista estadístico.

2. Variables cuantitativas.

Se pueden clasificar a su vez en discretas y continuas. Las variables cuantitativas discretas. Son aquellas que se tienen la propiedad de poderse contar. Ejemplo: número de hijos de una familia; ingreso anual de la familia; goles que haya hecho un equipo de fútbol. De esta manera, una familia puede tener 1, 2, 3 o 4 hijos, pero no hay posibilidades de tener dos hijos y medio, es decir, hay separación total entre un valor y otro, pero siempre están ordenados y podemos contar sus elementos. Las variables cuantitativas continuas. Estas variables se caracterizan porque no se cuentan sino se miden y pueden tener cualquier valor en un ámbito finito de valores continuos. Ejemplo: edad cronológica, talla, peso, temperatura, presión arterial, altura de una montaña, cantidad de metros cúbicos de agua de un lago, etc. En tal sentido, un estudiante universitario al entrar a la Universidad hace un año tenía 17 años, 3 meses, 6 días, 2 horas y 5 minutos. Seis meses después, tendrá valores diferentes a la medición realizada al momento del ingreso. La fineza con que midamos en este momento, establecerá el límite entre un valor y otro, en donde desde luego existe una continuidad cuyo corte sólo depende del instrumento con que efectuamos la medición. La mayoría de las variables en las ciencias físicas y biológicas son cuantitativas continúas. En conclusión: Las variables cualitativas son esencialmente variables para la clasificación de las entidades que en la psicología son sujetos; las variables cuantitativas discretas son variables en donde las entidades se cuentan y las variables continuas son aquellas variables que se pueden medir.

LECCION 2

Page 12: Manual de Medicion Psicologica. 2011 (2)

MEDICION PSICOLOGICA

1. INTRODUCCION

Primera vista parecería que el sistema de conocimientos psicológicos y el matemático no tienen nada en común. A pesar de esto los científicos cada día utilizan más modelos matemáticos en sus ciencias y no sólo en las ciencias físicas y naturales, sino también en las ciencias sociales y del comportamiento. Esto ha dado lugar a la teoría de la medición que trata precisamente de la posibilidad de usar los números en los fenómenos naturales y psicológicos. Existe en la actualidad una importante rama de la psicología que ubica a la matemática en el eje de su metodología. La psicología matemática se caracteriza por buscar representaciones o modelos matemáticos del objeto de estudio, capaces de recoger, predecir y explicar las propiedades de este tal como lo proponen entre otros Luce, Bush y Galanter (1963).

La medición en Psicología ha sido difícil de aceptar en parte por la gran influencia de dos grandes pensadores como Kant, que no creía que la psicología como estudio de la experiencia interna pudiera ser sometida a una comprobación objetiva (Toloso Gil,1998) y Bergson que había insinuado que las matemáticas no podían aplicarse a la psicología. Sin embargo, hoy se acepta la medición en psicología porque la estructura del pensamiento del hombre y de la actividad psicológica en general posee propiedades que desde el punto de vista lógico son suficientemente similares a la estructura de las matemáticas. Es posible por lo tanto, establecer un isomorfismo. Por ejemplo Lord y Novick (1968 p.17) definen la medición como “un procedimiento para la asignación de números (puntajes o medidas) a propiedades especificadas de unidades experimentales de tal modo que las caractericen y preserven las relaciones señaladas en el dominio comportamental”. Las “reglas” en el sentido de Stevens(1951) y el “preservar las relaciones” de Lord y Novick suponen que para representar la propiedad debe existir un isomorfismo entre las características del sistema numérico y las relaciones entre las diversas cantidades de la propiedad medida.

El problema de la construcción de escalas ha recibido una gran atención desde los trabajos de Stevens siendo actualmente la Teoría Representacional de la medición la posición más ortodoxa en cuanto a la conceptualización de la medida. Esta teoría es axiomática y formalizada y trata el tema de la medición articulándolo en tres grandes áreas: el problema de la representación, el de la unicidad y el de la significación. La teoría tiene su origen en los trabajos de Hölder y Russell alrededor de 1900, pero quienes han dado las formulaciones más completas son Luce, Krantz, Tversky y Suppes (1979) y Mitchewll (1990). No podemos entrar en detalle en estas nuevas teoría. Digamos sólo que desde el punto de vista de la representación la medición supone encontrar un sistema relacional numérico con una estructura semejante al relacional empírico que se pretende medir. Dada esta semejanza uno de los sistemas puede utilizarse para representar al otro. El problema de la unicidad hace referencia a la arbitrariedad de los números elegidos según la teoría representacional. Una vez establecidas las relaciones numéricas es posible asignar distintos conjuntos de números a los elementos del sistema manteniendo el homomorfismo es decir pueden obtenerse distintas escalas de números para la misma variable o atributo. El problema de la significación se refiere a la validez de una conclusión numérica. Esta validez siempre es relativa al tipo de escala en que se basan las inferencias. Stevens plantea la solución en términos de los estadísticos admisibles para cada tipo de escala.

2. MEDICION PSICOLOGICA

Page 13: Manual de Medicion Psicologica. 2011 (2)

Proceso de asignar números u otros símbolos a los objetos de tal forma que las propiedades de los números o símbolos reflejan propiedades del atributo medido Se aplica a las propiedades de los objetos más que a los objetos mismos.

Es asignar un valor dentro a un continuo a las cualidades psicológicas, es usada esta función pues es más fácil trabajar y comparar los atributos intra e interpersonales con números y/o datos objetivos.

Así, se usa para medir diferentes aspectos psicológicos de una persona, tales como conocimiento, habilidades, capacidades, o personalidad

La medición sirve para cuantificar y expresar en forma de números las características de los estímulos y de las personas, de forma que podamos utilizarlos como si fuese lo representado

La medición en psicología establece las condiciones de representación de constructos o características latentes por indicadores empíricos y los indicadores empíricos por números.

Los instrumentos que se utilizan para llevar a cabo tal medición se les denominan Escalas de medición.

Según Cohen y Swerdilk (2000) citado en Delgado, Escurra y Torres (1996) la medición, es la asignación de números, símbolos o características de los objetos (personas, eventos, fenómenos, etc.) de acuerdo a reglas, como lineamientos para representar las características (y/o atributos) del objeto que se está midiendo.

Según Stevens (1951, 1970b) citado en Alarcón (2008), considera a la medición como la asignación de numerales a objetos o eventos de acuerdo a reglas.

La psicometría es el campo de la psicología cuyo objeto es aportar soluciones al problema de la medición en cualquier proceso de la investigación psicológica (Aliaga, 2007).

La Psicometría es una disciplina científica encuadrada dentro del marco de la Metodología de las Ciencias del Comportamiento y directamente relacionada con el campo de la medición psicológica.

A un nivel práctico, la psicometría hace uso intensivo sobre todo de cálculos y análisis estadísticos para extraer información útil a partir de la administración repetida de un mismo test a un grupo amplio de personas.

La Psicometría es una rama de la psicología y es una ciencia cuyo objeto es medir los aspectos psicológicos de una persona (conducta humana).

Se le considera además, un campo metodológico que hace uso del lenguaje formal de la ciencias matemáticas, cuyos niveles de acción incluyen contribuciones teóricas y aplicativas a la medición de los fenómenos psicológicos

3. MÉTODOS DE MEDICIÓN:

a.Método de prueba:Analizar y controlar de forma estricta la situación; Hay estandarización y la tarea es predeterminada. Ej. Prueba objetiva

b.Método observacional:

Page 14: Manual de Medicion Psicologica. 2011 (2)

Trata de medir la conducta en situaciones naturales por lo que no hay estandarización.

c.Método mixto:Observación planificada: se estandariza la observación y el modo de medición pero hay libertad en cuando a que se realiza en el medio natural. Permite cuantificar de forma natural.

4. ESCALAS DE MEDICIÓN

Antes que una variable sea tratada estadísticamente debe ser observada / medida para un conjunto de unidades observacionales, las unidades observacionales son aquellos entidades que se observan, cuando las observaciones se cuantifican (es decir se expresan numéricamente) se dice que los números son medibles, una medición es una observación que se expresa físicamente ò en forma numérica, es decir cuando se le otorga un valor determinado según su magnitud.

La medición de las variables puede realizarse por medio de cuatro escalas de medición. Dos de las escalas miden variables categóricas y las otras dos miden variables numéricas (Therese L. Baker, 1997). Los niveles de medición son las escalas nominal, ordinal, de intervalo y de razón. Se utilizan para ayudar en la clasificación de las variables, el diseño de las preguntas para medir variables, e incluso indican el tipo de análisis estadístico apropiado para el tratamiento de los datos.

Una característica esencial de la medición es la dependencia que tiene de la posibilidad de variación. La validez y la confiabilidad de la medición de una variable depende de las decisiones que se tomen para operacionalizarla y lograr una adecuada comprensión del concepto evitando imprecisiones y ambigüedad, por en caso contrario, la variable corre el riesgo inherente de ser invalidada debido a que no produce información confiable.

A. Medición Nominal o Clasificatoria:

Son variables numéricas cuyos valores representan una categoría o identifican un grupo de pertenencia. Este tipo de variables sólo nos permite establecer relaciones de igualdad/desigualdad entre los elementos de la variable. La asignación de los valores se realiza en forma aleatoria por lo que NO cuenta con un orden lógico. Un ejemplo de este tipo de variables es el Género ya que nosotros podemos asignarle un valor a los hombres y otro diferente a las mujeres y por más machistas o feministas que seamos no podríamos establecer que uno es mayor que el otro.

Una variable está medida en escala nominal cuando se utilizan nombres para establecer categorías. Para distinguir los agrupamientos se emplean símbolos, letras e incluso números, aunque estos últimos solo cumplen una función de carácter simbólico y no numérico. Los cálculos matemáticos con estos números no tendrían sentido.

Constituye el nivel de medición más bajo de todos los mencionados. En este caso, los objetos sólo pueden ser nombrados y contados. Consiste simplemente en clasificar observaciones dentro de ciertas categorías, las cuales deben ser mutuamente excluyentes y colectivamente exhaustivas. Por lo tanto, no puede haber ninguna observación que no pueda ser asignada a una de las categorías; y, por otra parte, una misma observación no puede ser clasificada en dos categorías diferentes, a la vez.

Por ejemplo, sexo es una variable nominal; en consecuencia, podríamos clasificar a todos los alumnos de una sección de clase en las siguientes categorías: masculino o

Page 15: Manual de Medicion Psicologica. 2011 (2)

femenino. En tal sentido, algunos sujetos serán clasificados como masculino; mientras que otros serán ubicados en la categoría femenino, pero ninguno de los sujetos podrá ser clasificado, al mismo tiempo, en ambas categorías.

B. Medición ordinal o por Orden Jerárquico:

Son variables numéricas cuyos valores representan una categoría o identifican un grupo de pertenencia contando con un orden lógico. Este tipo de variables nos permite establecer relaciones de igualdad/desigualdad y a su vez, podemos identificar si una categoría es mayor o menor que otra. Un ejemplo de variable ordinal es el nivel de educación, ya que se puede establecer que una persona con título de Postgrado tiene un nivel de educación superior al de una persona con título de bachiller. En las variables ordinales no se puede determinar la distancia entre sus categorías, ya que no es cuantificable o medible.

En este nivel también se definen varias categorías, pero además de mostrar un ordenamiento existe una relación de “mayor o menor que” entre ellas. Las etiquetas, símbolos o números asignados si indican jerarquía, aunque no es posible conocer la magnitud de la diferencia entre cada una de las categorías.

Las observaciones, además de poder ser clasificadas en categorías, también pueden ser ordenadas por rango, de manera creciente o decreciente. En tal sentido, una primera observación puede ser mayor que una segunda, y ésta, a su vez ser, mayor que una tercera, y así sucesivamente. Sin embargo, ello no implica una secuencia de intervalos iguales. Así, por ejemplo, podemos ordenar a tres estudiantes de acuerdo con su desempeño en una prueba de estadística; sus puntuaciones fueron 20, 18 y 10; aquí se cumple la condición de que 20 > 18 > 10, pero la distancia entre 20 y 18 no es la misma que la que existe entre 18 y 10.

C. Medición de intervalo o de distancias iguales:

Son variables numéricas cuyos valores representan magnitudes y la distancia entre los números de su escala es igual. Con este tipo de variables podemos realizar comparaciones de igualdad/desigualdad, establecer un orden dentro de sus valores y medir la distancia existente entre cada valor de la escala. Las variables de intervalo carecen de un cero absoluto, por lo que operaciones como la multiplicación y la división no son realizables. Un ejemplo de este tipo de variables es la temperatura, ya que podemos decir que la distancia entre 10 y 12 grados es la misma que la existente entre 15 y 17 grados. Lo que no podemos establecer es que una temperatura de 10 grados equivale a la mitad de una temperatura de 20 grados.

Esta escala mide las variables de manera numérica. Los números de esta escala permiten establecer “distancias” entre dos individuos, y las operaciones aritméticas de suma y resta son perfectamente realizables y significativas, no así la multiplicación y división.

Posee las características de los dos niveles de medición ya mencionados (nominales y ordinales), pero además contiene distancias equivalentes, que representan distancias iguales en la propiedad objeto de medición. Por ejemplo, supongamos que hemos medido cuatro objetos con una escala de intervalo y los resultados fueron 10, 8, 7 y 5. Entonces podemos decir legítimamente que la diferencia entre el primero y el tercer objeto en la propiedad medida, 10 - 7 = 3, es equivalente a la diferencia entre el segundo y el cuarto objeto, 8 - 5 = 3. Otra manera de expresar la idea de lo que significan los intervalos iguales consiste en decir que los intervalos pueden ser sumados y restados. Veamos el siguiente ejemplo de una escala de intervalo:El intervalo incluido entre a y c es 3 - 1 = 2. El intervalo comprendido entre c y d es 4 - 3 = 1. Ahora observemos que el intervalo que va de a hasta d es 4 - 1 = 3. Expresado en una ecuación: (d-a) = (c-a) + (d-c). Si estos intervalos fueran las medidas de aprovechamiento de cinco estudiantes en una prueba de rendimiento, la diferencia entre el estudiante a y c y entre b y d deberían ser iguales; sin embargo,

Page 16: Manual de Medicion Psicologica. 2011 (2)

no podríamos decir que el rendimiento del estudiante d fue dos veces mayor que el del estudiante b.

De la misma manera, sería incorrecto decir que una persona que tiene 40ºC de temperatura tiene el doble que otra que sólo tiene 20ºC, o que una persona que tiene cero (0) temperatura no tiene ninguna temperatura. En este último caso se trata de que en este nivel de medición no existe un cero absoluto, sino relativo. Por lo tanto, la medición cero no implica la ausencia de la característica.

D. Medición de razón:

Las variables de razón poseen las mismas características de las variables de intervalo, con la diferencia que cuentan con un cero absoluto; es decir, el valor cero (0) representa la ausencia total de medida, por lo que se puede realizar cualquier operación Aritmética (Suma, Resta, Multiplicación y División) y Lógica (Comparación y ordenamiento). Este tipo de variables permiten el nivel más alto de medición. Las variables altura, peso, distancia o el salario, son algunos ejemplos de este tipo de escala de medida.

Debido a la similitud existente entre las escalas de intervalo y de razón, SPSS las ha reunido en un nuevo tipo de medida exclusivo del programa, al cual denomina Escala. Las variables de escala son para SPSS todas aquellas variables cuyos valores representan magnitudes, ya sea que cuenten con un cero (0) absoluto o no. Teniendo esto en cuenta discutiremos a continuación los diferentes procedimientos estadísticos que se pueden utilizar de acuerdo al tipo de medida de cada variable.

Es la escala más fuerte, dado que usa un sistema numérico en el que el cero es un valor que indica ausencia de la característica que se está midiendo. Las operaciones aritméticas de multiplicación y división adquieren significación. La diferencia entre dos valores es importante y de magnitud definida. Así por ejemplo, el valor de cero quetzales en ingresos de una tienda, puede interpretarse de manera lógica que no se han producido ventas.

Constituye el nivel más alto de medición. Posee las características de los niveles de medición señalados anteriormente, pero además tiene un cero absoluto que tiene un significado empírico. Si una medición con una escala de razón es igual a cero, existe razón para pensar que existen objetos que no poseen la propiedad que se pretende medir. Ahora bien, puesto que existe la presencia de un cero natural o absoluto, todas las operaciones aritméticas pueden ser ejecutadas (suma, resta, multiplicación y división). Los números de escala indican el "quantun" de la propiedad que se pretende medir. Si existiera una escala de razón para medir el rendimiento académico, entonces sí se podría decir que un estudiante que obtuvo 20 puntos en una prueba sabe el doble de otro que sólo obtuvo 10 puntos.

Page 17: Manual de Medicion Psicologica. 2011 (2)

Cuadro 1: Pruebas estadísticas descriptivas más frecuentes de acuerdo a la escala de medición de la variable en estudio.

Tipo de descripción

Escala de la variable oasociación

Método o técnica estadística

Variables individuales Categóricas (nominal y ordinal) Frecuencias, Proporciones o porcentajes representados

por gráficos de barras, pastel o pictogramas.

Variables individuales Numéricas (intervalo y razón)

Distribución de frecuencias en clases Frecuencias acumuladas Percentiles Medidas de tendencia centra, dispersión, curtosis y oblicuidad

Asociación entre variables Categóricas con categóricas

Tablas de contigencias Gráficos de barras Pruebas de Kendall, de Kramer, de Spearman

Asociación entre variables Categórica con numérica

Tablas con clasificación categórica, con promedios y desviaciones o error estándar en cada entrada

Asociación entre variables Numérica con numérica

Gráfico de puntos Coeficiente de correlación Recta de regresión

Cuadro 2: Pruebas estadísticas inferenciales más frecuentes de acuerdo la escala de medición de la variable en estudio.

Tipo de descripción

Escala de la variable o asociación Método o técnica estadística

Variables individuales Nominales

Prueba de Z para una proporción poblacional Prueba de X2 para varias proporciones en un sola población Intervalos de confianza para proporciones

Variables individuales Ordinales

Prueba del signo o Binomial para la mediana poblacional Intervalo de confianza para proporciones

Asociación entre variables

Muestras grandes con distribución normal

Prueba de “t” para un promedio poblacional Intervalo de confianza para el promedio

Asociación entre variables

Muestras pequeñas sin distribución normal

Prueba del signo o Binomial para la mediana poblacional Intervalo de confianza para el promedio

Cuadro 3: Pruebas estadísticas para estudios comparativos más frecuentes de acuerdo a la escala de medición de la variable en estudio.

Page 18: Manual de Medicion Psicologica. 2011 (2)

Tipo de descripción

Escala de la variable

o asociación

Método o técnica estadística

Independientes (sin control de factores de confusión) Nominal

Prueba exacta de Fisher Prueba de X2

Cálculo de riesgo relativo Modelos logísticos y logarítmico-lineales

Independientes (sin control de factores de confusión) Ordinal

Prueba U de Mann Whitney (dos poblaciones) Prueba de Kruskall Wallis (dos o más poblaciones) Modelos logarítmicos-lineales

Independientes Razón

Prueba de “t” (dos poblaciones) Análisis de varianza para la prueba de F (más de dos poblaciones) seguida de prueba de medias de Tukey, Duncan, SNK, etc. Prueba de Logrank para comparar sobreviva Regresión múltiple

Dependientes con bloques o igualación de atributos (con control de factores de confusión)

Nominal

Prueba de McNemar Método de Mantel Haenzel Prueba Prueba de X2 para cada nivel de confusión Modelos logísticos Modelos logísticos y logarítmico- lineales

Dependientes con bloques o igualación de atributos (con control de factores de confusión)

Ordinal Prueba de Friedman Prueba de Wilcoxon para rangos señalados Modelos logarítmico-lineales

Dependientes con bloques o igualación de atributos (con control de factores de confusión)

Razón

Prueba de “t” apareada Análisis de varianza para prueba de F con dos criterios de clasificación con prueba de Tukey Regresión múltiple

5. NORMAS DE MEDIDA Y ESCALAS NORMATIVAS:

Son necesarias porque lo que medimos no es obvio, medimos de forma indirecta los atributos a través de sus manifestaciones.Las normas permiten saber como asignar los números a las características con el propósito de que representen el grado en que se manifiesta el atributo en cada sujeto. La medición concierne a un atributo particular. Debemos saber que lo que medimos son manifestaciones de atributos y no personas.

Generalmente medimos para comparar y hay dos modos de comparar:a. normas: para comparar gruposb. criterios: para comparar individuos consigo mismos

Las normas deben estar especificadas de antemano y son de diferentes tiposA través de las reglas hacemos medidas significativas.

Las reglas son convenios que pueden ser cambiados si son incorrectos. Las normas básicas en psicología son:

a. Normas de edad: se extraen eligiendo una muestra normativa a partir de la que extraemos el promedio de actuación típico en las diferentes edades.

b. Normas de grado: se extraen de un grupo normativo, y en base al grado o nivel se extrae un promedio de actuación.

c. Normas de porcentaje: partimos de un grupo normativo en el que no se realizan comparaciones externas sino solo internas, dentro del mismo grupo. Se extraen los percentiles.

d. Normas estándar o tipificadas: siempre tienen el mismo significado. Permiten comparar diferentes grupos y diferentes características.

Page 19: Manual de Medicion Psicologica. 2011 (2)

Hay diferentes escalas normativas:a. Coeficiente intelectual: pretenda dar idea de la inteligencia en función de la

comparación entre la edad mental y la edad cronológica.b. Problemas: se extrae de un grupo normativo y si el sujeto no es del mismo grupo

no se hará una comparación adecuada.

Ventajas: se ha usado para seleccionar porque es fácil de calcular.a. Centiles: son escalas ordinales. Se refiere al porcentaje de sujetos que queda

por debajo de una puntuación determinada.

Ventaja: fácil de calcular y de interpretar.a. Típicas transformadas: transforman la puntuación bruta en indirectas.b. Típicas normalizadas: puntuaciones típicas no lineales, no hay una

transformación lineal. Suponemos que se aproxima a la normal.

Típicas normalizadas y transformadas:a. Eneatipos: van de 1 a 9. Se basan en la z normalizada. Se parte de una media

de 5 y una desviación típica de 2. Muy fácil de interpretar, no hay puntuaciones negativas, son equivalentes permitiendo todo tipo de comparaciones.

b. Decatipo: de 1 a 10. Media 6 y desviación típica de 3.c. Coeficientes intelectuales típicos: siempre se redondea. No hay limite superior.

Se puede aplicar a cualquier edad.

Tipos de comparaciones:a. Intrasujeto: comparar a un sujeto consigo mismo en diferentes momentos.b. Intersujeto: comparar a un sujeto con otro de su mismo grupo.c. Intragrupo: comparar a un grupo consigo mismo en diferentes situaciones.d. Intergrupo: comparar a un grupo con otro grupo; Diferencia de medias de dos

muestras.

6. FINALIDAD DE LA ESCALAS DE MEDICIONAnte la necesidad de medición de aspectos cada vez más complejos y de obtención de medidas cada vez más precisas, nos lleva a la generación de instrumentos de medida o escalas.

a.Funciones• Medición de aspectos complejos• Identificación de intensidad• Identificación de dirección o sentido de respuesta• Simplificación de las preguntas para medir aspecto muy complejo

b. Aspectos principales• Condicionante del tipo de información a obtener y de su posterior tratamiento• Simplicidad aparente de formulación• Necesidad de adecuación entre escala y objetivo• Necesidad de comprobación de validez y fiabilidad

7. EL PROBLEMA DE LA MEDICION EN PSICOLOGÍA:

Definir claramente la característica a medir. Esto es un problema ya que en psicología no encontramos una única definición de un atributo.Saber cual es la definición mas útil y cuales son los atributos que representan mejor as la persona evaluada. Los datos obtenidos son relativos y son solo una parte de la persona evaluada.Las medidas pretenden llegar a atributos muy complejos e intangibles, por lo que hay una gran diversidad de manifestaciones. Es necesario que los ítems estén basados en muestras muy amplias para que los datos sean significativos.

Page 20: Manual de Medicion Psicologica. 2011 (2)

8. CRÍTICAS A LA MEDICIÓN EN PSICOLOGÍA Y A SUS INSTRUMENTOS

a. VENTAJAS: Ahorro Objetividad Ayuda a pronosticar aunque con una posibilidad de error Ayuda a la comunicación entre profesionales de forma más precisa y más

significativa.

b. INCONVENIENTES: No hay consenso, cada uno mide una cosa diferente dependiendo de su modelo de

partida. El problema de sí los ítems son representativos o no Critica social Muchos test tienen una gran carga cultural y verbal Hay que tener en cuenta las condiciones de los sujetos de la muestra para saber la

representatividad de los porcentajes Critica ética: hasta que punto se entromete en la vida privada Los test favorecen clasificar y etiquetar y esto en psicología es un error.

LECCION 3

TEST PSICOMETRICOS

Page 21: Manual de Medicion Psicologica. 2011 (2)

1. INTRODUCCION

Probablemente, la evaluación es tan antigua como la humanidad. Desde tiempos antiguos padres y maestros han contrastado el comportamiento de los niños para establecer juicios de valor sobre la base de sus acciones. Estas comparaciones basadas generalmente en impresiones subjetivas y en observaciones incidentales podían ser acertadas en casos extremos de las diferencias individuales. Ejemplo: un profesor puede saber cuál es el niño más estudioso de su clase; el más indisciplinado; el más ordenado; el más tímido, etc.

Sin embargo, cuando las diferencias son menos evidentes, entonces se producen muchos errores si la evaluación no cuenta con algún instrumento de medición objetiva. En tal sentido, los errores en la evaluación probablemente han sido fuente de muchas frustraciones en la historia del ser humano ya que, además de los de evaluación en los grados de una variable, también se producen errores de juicio al interpretar que se está evaluando una determinada variable cuando en realidad la que esta operando es otra.

En los tiempos actuales, la evaluación supone casi siempre la aplicación de pruebas que nos llevan a resultados numéricos, pero también se complementa con la observación sistemática de la conducta de los sujetos, con las técnicas de entrevista individual o grupal, con información oral o escrita propia de los sujetos que rodean el entorno del examinado: padres, hermanos, maestros, jefes, etc., es decir, con infinidad de procedimientos que expresan resultados verbales de tipo cualitativo.

No todas las medidas que se utilizan en psicología son pruebas o tests. En el caso de la psicología por ejemplo: las medidas de los niveles de la audición humana. Por otra parte, no todas las pruebas o tests son, o arrojan medidas. Ejemplo en psicología son las llamadas técnicas proyectivas como el Psicodiagnóstico de Rorschach; el Test de la Figura Humana de Machover; El Test de la Familia de Corman; etc., los cuales no arrojan medida alguna.

A las pruebas o tests que emplean medidas se les denomina tests psicométricos; algunos especialistas los denominan tests objetivos.

Los tests psicométricos tienen diversos usos y se clasifican de diversos modos. Una clasificación bastante utilizada es la de Crombach (1972), el cual divide a los tests en dos grandes tipos: tests de respuesta máxima y tests de conducta típica.

En los tests de respuesta máxima, quien se somete a ellos trata de obtener la máxima calificación posible, de tal modo que la meta es medir los límites de sus capacidades. En este tipo se encuentran las pruebas de rendimiento, aptitudes y habilidades.

Los tests de conducta típica, intentan evaluar las reacciones y conductas habituales o usuales de una persona, es decir, lo que el sujeto acostumbra hacer en una amplia gama de circunstancias. En este caso, interesa conocer su comportamiento o reacción habitual y no lo que puede hacer o sabe. En este tipo se encuentran los cuestionarios de personalidad, las escalas de actitudes, etc.

Los usos a los cuales están destinados los tests psicológicos influyen en su proceso de construcción, pues delimitan sus características técnicas deseables.

2. CLASIFICACIÓN DE LOS INSTRUMENTOS DE MEDICIÓNLos instrumentos de medición pueden ser agrupados atendiendo a diferentes criterios, así tenemos:

a.De acuerdo con el proceso de elaboración, pueden ser formales e informales. Los instrumentos formales son aquellos que requieren de un alto refinamiento técnico, especialmente en lo que respecta al establecimiento de normas, validez,

Page 22: Manual de Medicion Psicologica. 2011 (2)

confiabilidad y objetividad de la medida; por ejemplo, las pruebas o test, las escalas, los inventarios y los cuestionarios. Los instrumentos informales, por su parte, son aquellos cuya elaboración no requiere de tanta meticulosidad como los instrumentos formales; por ejemplo, listas de cotejo, guías de observación, guiones de entrevista, diarios de campo, entre otros.

b. De acuerdo con su propósitoLos instrumentos de medición comprenden las pruebas o test, escalas, cuestionarios, listas de cotejos o guías de observación, guiones de entrevista y diario de campo. Las pruebas tienen por objeto hacer una estimación cuantitativa del comportamiento de una persona con respecto a un rasgo, atributo o característica, para lo cual los sujetos son expuestos a determinadas tareas con el propósito de provocar en ellos ciertas reacciones registrables; reacciones de toda naturaleza en cuanto a su complejidad, duración, forma, expresión y significado.

b.1 Las escalas Permiten ubicar al sujeto en el valor escalar que mejor representa el "quantun" del constructo objeto de medición; por lo tanto, las respuestas en este tipo de instrumento no son correctas ni incorrectas, sino que representan un valor en la escala de medición.

b.2 Los cuestionarios Por su parte, son instrumentos conformados por un conjunto de preguntas de naturaleza variada y expresadas en diferentes formatos a los fines de sus respuestas.

b.3 Las listas de cotejoSon instrumentos que constituyen una enumeración de conductas o eventos a ser observados en una situación determinada que nos interesa investigar.

b.4 Los guiones de entrevista Están conformados por un conjunto de preguntas sobre diferentes aspectos en relación con un problema que nos interesa estudiar.

b.3 el diario de campo son los registros completosEs preciso y detallado que hacen los investigadores, producto de sus observaciones participantes, en el estudio de un problema, hecho o fenómeno.

c.De acuerdo con su campo de aplicaciónLos instrumentos pueden ser clasificados, a su vez, atendiendo a diferentes criterios; por ejemplo, tomando en cuenta su campo de aplicación, pueden ser psicométricos (pruebas de: inteligencia, personalidad, aptitudes), edumétricos (pruebas para la evaluación diagnóstica, formativa y sumativa) y sociométricos (pruebas de interacción social, liderazgo y cohesión del grupo).

d. Los instrumentos también pueden ser agrupadas de acuerdo con: (a) La forma de proceder: de lápiz y papel, de manipulación, de tipo oral; (b) el grado de objetividad en la respuesta: objetivo, subjetivo; (c) los criterios utilizados para la interpretación de sus resultados: estandarizados, no-estandarizados; (d) la forma de aplicación: individual, colectivo; (e) el tiempo disponible para responder: test de tiempo, test de poder.

3. TEST PSICOMETRICOS

La palabra test tiene una raíz latina y proviene de testa, testis que en latín medieval significaba la vasija de barro con la que los alquimistas probaban o examinaban la autenticidad del oro. Fue usada por primera vez por el psicólogo norteamericano James McKeen Cattell en un artículo publicado en 1890. Cattell, se había formado en el Laboratorio de Psicología Experimental de Wundt en Leipzig en donde el interés se centraba en el estudio de las percepciones visuales y auditivas. El caso es que Cattell

Page 23: Manual de Medicion Psicologica. 2011 (2)

comprendió que en los experimentos sobre sensaciones y percepciones como la medición del tiempo de reacción, resultaba indispensable un control riguroso de las observaciones y precisar que las condiciones que rodeaban a los sujetos con los que se experimentaba debían ser exactamente iguales, es decir, sistemáticamente tipificadas o estandarizadas, tal como se exige en los tests psicológicos.

La influencia principal de Cattell en relación a los tests fue Sir. Francis Galton, científico inglés que a fines del siglo XIX había introducido las estadísticas y las matemáticas al campo de la psicología generando por primera vez la posibilidad de medición cuantitativa en las diferencias individuales. Cattell viajó a Cambridge en 1898 y su trabajo con Galton reforzó su interés por la temática anteriormente mencionada. Los tests elegidos por Cattell fueron: velocidad de movimiento, esfuerzo visual y auditivo, discriminación de pesos, tiempos de reacción e ingenuamente, de acuerdo con los planteamientos de Galton, pensaba que con dichos tests se podía obtener una medición de las funciones mentales más elevadas.

H. Pieron (1952), define los tests de la siguiente manera: “test es una prueba definida, que fija una terea a realizar, idéntica para todos los sujetos examinados” Según esta definición, debe disponer de una técnica precisa que permita discriminar entre soluciones acertadas y erróneas o bien de un sistema numérico que permita puntuar el resultado. La tarea puede consistir en poner de manifiesto conocimientos adquiridos (tests pedagógico) o bien funciones sensorio-motoras o mentales (test psicológico).

Esta definición fue adoptada por la antigua Asociación Internacional de Psicotecnia , hoy Asociación Internacional de Psicología Aplicada que la formalizó de la siguiente manera: test “es una prueba definida, que implica una tarea que se ha de cumplir, idéntica para todos los sujetos examinados, con técnica precisa para la apreciación del éxito o del fracaso, o para la valoración numérica del resultado logrado”.

La definición de Pieron adoptada por la Asociación Internacional de Psicotecnia presentaba la limitación de que puede aplicarse solamente a los tests de inteligencia, aptitudes o conocimientos.

Pichot (1954), propone una definición más amplia y general que sostiene que: “test es una situación experimental estandarizada que sirve de estímulo a un comportamiento”; posteriormente Anastasi (1968), sostiene que “un test es una medida objetiva y estandarizada de una muestra de conducta”. Cronbach (1973), dice que “un test es una técnica sistemática para comparar la conducta de dos o más personas”. Anstey (1976), indica que “un test es un instrumento de evaluación cuantitativa de los atributos psicológicos de un sujeto”. Según Graham. y Lilly (1984), “un test es una muestra estandarizada de conductas de las que pueden inferirse o predecirse otras conductas importantes”. El psicometrista español Mariano Yela (1980), sostiene que “un test es una situación problemática previamente dispuesta y estudiada a la que el sujeto debe responder siguiendo ciertas instrucciones y de cuyas respuestas se estima, por comparación con las de un grupo normativo (o un criterio u objetivo), la calidad, índole o grado de algún aspecto de la personalidad.

Anastasi y Urbina (1998), un test es un instrumento de evaluación cuantitativa de los atributos psicológicos de un individuo”. Cortada de Kohan (1999), afirma que “los tests son en última instancia un conjunto de tareas, preguntas, problemas, estímulos, situaciones, etc., que intentan poner de relieve una muestra de los comportamientos del sujeto representativa del atributo que se quiere evaluar.

La APA (1999), define tests como: “un procedimiento evaluativo por medio del cual una muestra de comportamiento de un dominio especificado es obtenida y posteriormente evaluada y puntuada empleando un proceso estandarizado”. Esta definición abarca no sólo los tests de respuesta máxima sino las pruebas de conducta típica.

Kline (2000), afirma que “los tests psicológicos son procedimientos valiosos por sus contribuciones a la psicología aplicada pero carecen de la exactitud de las verdaderas

Page 24: Manual de Medicion Psicologica. 2011 (2)

medidas científicas y es una tarea futura de la psicometría desarrollar genuinas medidas científicas, vale decir, con unidades de medición significativas, cero absoluto e iguales intervalos (características de una escala de razón, proporción o cociente).

Finalmente, podemos indicar que una prueba o test psicológico es “un patrón de estímulos, elementos, ítemes, reactivos, preguntas; seleccionados y organizados de tal manera que permiten provocar respuestas (conductas), las cuales pueden revelar ciertas características (rangos), de las personas que se someten a ellos.

En esta última definición quedan comprendidas tanto las pruebas de respuesta máxima como las de conducta típica, a las cuales se agregan las llamadas técnicas proyectivas.

4. OBJETIVOS DE LOS TEST PSICOMETRICOS

Las pruebas objetivas se caracterizan por contener un número elevado de preguntas, involucrar áreas más amplias de conocimientos, exigir respuestas cortas, bien definidas en su forma y contenido.

5. CARACTERÍSTICAS DE LAS PRUEBAS O TESTS PSICOMÉTRICOS

Una prueba psicométrica es un “procedimiento sistemático destinado a medir una muestra de conducta”. Esta definición presenta las siguientes características:

a. En primer lugar, la frase: “procedimiento sistemático”, indica que una prueba se construye, se administra y se califica según reglas preestablecidas de antemano que tienen como objetivo final establecer las comparaciones directas entre los sujetos.

b. El segundo término fundamental es el de “conducta”. En el sentido más estricto, una prueba mide sólo la conducta registrada por la prueba, es decir, las respuestas dadas por una persona a los ítemes de la prueba.

En buena cuenta, no medimos directamente a la persona sino que inferimos sus características (rasgos), a partir de sus respuestas a los ítemes de la prueba. Si las conductas que muestran los sujetos reflejan de modo adecuado el constructo que se mide, por ejemplo: “inteligencia”, “motivación”, “hábitos”, etc., la prueba proporcionará información útil. Caso contrario, si los comportamientos no reflejan adecuadamente la característica subyacente, entonces las inferencias que se hagan resultarán erróneas.

c. En tercer lugar, una prueba contiene solamente una muestra de todos los ítemes posibles. Ninguna prueba es tan completa como para incluir todos las preguntas posibles que se pueden desarrollar con la finalidad de medir el dominio conductual.

Un dominio o campo conductual es la agrupación hipotética de todos los ítemes o preguntas posibles que pueden cubrir un área particular. Al hablar de este conjunto de elementos o reactivos posibles, se emplean los términos de: dominio, universo o población como sinónimos. Ejemplo: un test de vocabulario debe ser una muestra representativa del dominio o universo de ítemes posibles.

En la medida que una prueba contiene sólo una muestra de todos los reactivos posibles, se plantean dos problemas: 1) Asegurarnos de que los ítemes incluidos en el test sean una muestra representativa de todos los posibles existentes; y 2) Debemos determinar, si una persona obtendría la misma calificación al responder a una muestra diferente de ítemes extraída del mismo dominio o población. Sobre el punto surge una pregunta básica: ¿obtendría un sujeto la misma calificación en una forma equivalente o paralela del test?

El caso es que, el primer punto es un problema de validez y el segundo constituye un problema de confiabilidad.

Page 25: Manual de Medicion Psicologica. 2011 (2)

6. REQUISITOS DE UN TEST PSICOLÓGICO PARA SER CONSIDERADO PSICOMÉTRICO

a. El contenido y la dificultad de los ítems están sistemáticamente controlados (construcción del test).

b. La situación experimental debe estar perfectamente definida y debe ser reproducida idénticamente para todos los sujetos. Este punto se refiere al ambiente en el cual se aplica la prueba, el material del test, la administración, etc.

c. El registro del comportamiento, provocado en el examinado debe ser tan preciso y objetivo como resulte posible, por lo tanto, las condiciones del registro deben definirse y observarse rigurosamente.

d. El comportamiento registrado, debe ser evaluado estadísticamente con respecto al de un grupo de individuos llamado grupo de referencia o grupo normativo. (Pichot, 1963).

e. Las personas examinados son clasificadas en función de normas resultantes del examen previo del grupo de referencia o normativo (baremo), lo que permite situar cada una de las respuestas, totales o parciales, en una distribución estadística (contraste).

f. Las respuestas a las cuestiones planteadas dan una medida correcta del comportamiento al que el test apunta (validez).

g. Si las condiciones no cambian, la repetición del examen debe conducir siempre al mismo resultado, o a otro muy próximo (fiabilidad)

7. LIMITACIONES EN EL USO DE UN TEST PSICOMÉTRICO

a. Una prueba o test debe emplearse solamente para apreciar los aspectos para las cuales se ha elaborado.

b. Las normas (baremo) de una prueba no tienen validez universal. Sólo son válidas si las personas que toman el test poseen características similares a las de los sujetos que formaron la muestra que sirvió para obtener dichas normas

c. Si esos grupos difieren de aquellos en los cuales se hicieron los baremos que aparecen en el manual de la prueba.

d. Si las condiciones que influyen sobre el individuo se modifican, existe la posibilidad de que tales cambios influyan en los puntajes resultantes del test.

e. Los resultados de un test no deben emplearse para diagnosticar por ser estados patológicos. Deben considerarse como elementos de información que juiciosamente analizados e integrados con otros elementos de información ayudarán al diagnóstico.

f. Sólo deben utilizarse para los test cuyos puntajes le dieron origen. Por ejemplo, la tabla de categorías del WAIS sólo debe ser utilizada con este test y no con otro.

8. USOS DE LAS PRUEBAS PSICOLÓGICAS

En su sentido más amplio, las pruebas psicológicas miden la naturaleza y amplitud de las diferencias individuales, de tal manera que podrían darse varias situaciones: si se aplica una prueba que mide un rasgo determinado a un grupo de sujetos, se puede inferir: ¿cómo se clasifica cada persona en esa característica? De otro lado, si un sujeto se somete a varias pruebas, entonces podemos describir su desempeño relativo en varias dimensiones. Asimismo, al aplicar cierto número de pruebas (en una gran variedad de condiciones), a muestras grandes de personas, tendremos los medios para estudiar la naturaleza y rango de las habilidades humanas y también las características de la personalidad.

Se distinguen dos grandes grupos de usos de las pruebas:a. Usos teóricos vs. usos aplicadosb. Usos predictivos vs. usos descriptivos

En lo que se refiere a usos teóricos vs. usos aplicados, debemos tener presente que las pruebas se utilizan para proporcionar datos que ayuden a tomar decisiones prácticas. Por ejemplo: selección, diagnóstico, etc.

Page 26: Manual de Medicion Psicologica. 2011 (2)

No obstante, es importante señalar que la información que proporciona una prueba es una condición necesaria, pero no suficiente para tomar buenas decisiones. Asimismo, las pruebas pueden ayudar también a desarrollar teorías psicológicas.

En lo que respecta a usos predictivos vs. usos descriptivos, en la mayoría de situaciones en la que utilizamos pruebas deseamos saber ¿qué resultados se pueden predecir a partir de las calificaciones obtenidas en las pruebas? En otras situaciones, se utilizan las pruebas para proporcionar descripciones de un individuo, por ejemplo, durante un asesoramiento psicológico en donde proporcionamos al examinado una descripción objetiva de sus capacidades intelectuales, de los factores de su personalidad, de sus hábitos de estudio, etc.

9. Los test como pruebas auxiliares

Existen varias clases de situaciones en las que se utilizan las pruebas como ayuda para la toma de decisiones. Estas situaciones son las siguientes: selección, clasificación, diagnóstico, investigación (comprobación y construcción de hipótesis), y evaluación.

Todas estas situaciones se relacionan con tomar alguna decisión: En la selección, la decisión consiste en aceptar o rechazar a un solicitante; en la clasificación, la decisión implica el curso alternativo de acción que se debe instigar; en el diagnóstico, la decisión se relaciona con el tratamiento de corrección; en la investigación, la decisión guarda relación con dos aspectos: en la comprobación de hipótesis, la exactitud de la formulación teórica y en la construcción de hipótesis, las pruebas o las informaciones adicionales que se requieran. Finalmente, en la evaluación, la decisión se refiere a la calificación que se le dará al examinado o el punto hasta donde el procedimiento será o no eficiente.

En todo caso, la pregunta más importante en esta temática no es analizar si las pruebas son precisas o no, sino de que manera nos ayudan a tomar mejores decisiones sobre los examinados. Al respecto, debemos tener en cuenta que las pruebas no son de ninguna manera perfectas y ningún psicólogo que se respete pretenderá que lo sean, sin embargo, en la práctica existen múltiples evidencias de los excelentes resultados obtenidos con las pruebas frente a otros métodos disponibles de evaluación.

10. CLASIFICACIÓN DE LOS TEST

A. PRUEBAS DE RESPUESTA MÁXIMALas pruebas de respuesta máxima se clasifican en tres grandes tipos: rendimiento, aptitudes y habilidades. Aunque estas tres categorías no se excluyen mutuamente y aunque una prueba dada puede servir para medir más de una de estas funciones, existen suficientes diferencias para analizar por separado estas tres modalidades de pruebas.

a. PRUEBAS DE RENDIMIENTO. Se clasifica una prueba como de rendimiento, si mide el aprendizaje que se ha producido: (a) como resultado de las experiencias en una situación de aprendizaje relativamente circunscrita como la que se produce en un programa de estudios o de entrenamiento. Ejemplo: curso de física, curso de construcción de pruebas, entrenamiento en mecánica, etc.; y (b) cuando el marco de referencia está en el presente o en el pasado, o sea, en lo que se ha aprendido. Un ejemplo de prueba de rendimiento, son los exámenes que construyen los profesores universitarios para evaluar el grado de aprendizaje en las asignaturas que dictan; otro ejemplo podría ser los tests estandarizados de rendimiento, etc.

b. PRUEBAS DE APTITUDES. Se considera una prueba como de aptitud, si: (a) mide los resultados de experiencias de aprendizaje generales e incidentales; y (b) si su marco de referencia se enfoca en el aprendizaje futuro. También se puede decir que las pruebas de aptitudes abordan los aprendizajes de toda la vida del individuo y que la finalidad de la prueba es predecir

Page 27: Manual de Medicion Psicologica. 2011 (2)

lo que puede aprender en el futuro. La definición de aptitudes comprende la capacidad de aprender cierta variedad de conductas, de tal manera que el factor común es la capacidad para aprender y no el tipo de conductas aprendidas. Ejemplo: Los tests de C.I.

c. PRUEBAS DE HABILIDADES. La habilidad indica el poder para realizar una tarea. Situación que implica un contraste con las aptitudes que se refieren al poder para aprender a realizar una tarea. En otras palabras, la habilidad se refiere a un estado actual y la aptitud a un estado futuro. Desde esta perspectiva, la habilidad es similar al rendimiento; sin embargo, las habilidades y el rendimiento difieren en el sentido que el segundo miden habitualmente las consecuencias de experiencias específicas de aprendizaje en tanto que las habilidades miden los resultados de experiencias de aprendizaje más amplias y generales.

B. PRUEBAS DE RESPUESTA TÍPICAS Características

a. Evalúan reacciones y conductas habituales de la persona, lo que la persona hace en amplia gama de situaciones.

b. Interesa su reacción habitual y no lo que puede hacer o sabe.c. Pueden ser cuestionarios, inventarios de personalidad, escalas de actitud.

a. CUESTIONARIOS DE PERSONALIDAD Características

a.Son test colectivos que suelen aplicarse a la vez a un número de variable de personas.

b.Están compuesto por un número de enunciados que tratan sobre nuestras opiniones, actitudes sentimientos, etc.

c.La forma de respuesta es dicotómica: si – no; verdadero – falso.d.Se clasifican en unidimensional o unifásicos que miden un solo rasgo de la

personalidad multidimensional o multifásicos que miden simultáneamente varios rasgos de personalidad.

e.Los reactivos no deben estar redactados en forma general, por ello deberán ser precisas y claras.

f. Disponen de un sistema para detectar mentiras, reactivos que no se pueden falsear las respuestas.

b. INVENTARIO DE PERSONALIDAD Características

a. Es una prueba que permite la evaluación de la personalidad desde diferentes ángulos, multidimensional o Multifásicos. b. Evalúa características normales y anormales de la personalidad-c. Consiste en una lista considerable de preguntas, proposiciones o afirmaciones pertenecientes a distintos constructos (personalidad, intereses, valores) dentro de la psicología que se consideran importantes para motivar y dirigir la conducta de los individuos. Puede ser respondido de forma afirmativa o negativa, algunos utilizan el formato de selección o el formato de respuesta escalonada.

c. ESCALAS DE ACTITUD Características

a. Son instrumentos de medición que nos permite acercarnos a la variabilidad afectiva de las personas. b. Una actitud constituye una predisposición organizada para responder de una manera favorable o desfavorable ante un objeto.

11. MODELO PSICOMÉTRICO

Las pruebas psicológicas psicométricas se sustentan en el siguiente modelo teórico propuesto por Magnusson (1969):

Page 28: Manual de Medicion Psicologica. 2011 (2)

a. Todos los ítemes del test miden exactamente el mismo “rasgo” y los ítemes a su vez pueden tener diferentes grados de dificultad.

b. La medida de la capacidad que tiene cada individuo puede hacerse sin ningún error, es decir, cada item puede diferenciar sin error en el continuo de dificultad del “rasgo”.

La suposición (A), del modelo se refiere a la dimensionalidad del test. Es una cuestión de suma importancia saber si los datos que obtenemos cuando aplicamos un test expresan las posiciones de los individuos en uno o varios continuos o “rasgos”. En la fase de la construcción de un test, es necesario establecer rápidamente la unidimensionalidad. Resulta importante indicar que nunca podemos satisfacer exactamente esta suposición.

La suposición (B), se refiere a que las medidas psicológicas siempre tienen errores y en la mayoría de los casos es de importancia decisiva para el empleo de los datos, precisar el tamaño del error, cálculo que se efectúa a través del estudio de la confiabilidad del test con sus diversos procedimientos.

La variable que indica la medida en que son satisfechas las condiciones de unidimensionalidad y la independencia de error de medida se denomina homogeneidad. La completa homogeneidad es algo puramente teórico. Según Magnusson (1969), en situaciones prácticas tenemos varios grados de homogeneidad en las pruebas que construimos y utilizamos.

Otros autores como Brown (1982), caracterizan la homogeneidad como la consistencia de todos los reactivos de una prueba psicológica (en una prueba homogénea, el saber como se desempeña una persona en un ítem nos permite predecir ¿cómo lo hará en otros?. A pesar de que la homogeneidad no está claramente definida en la teoría psicométrica, sin embargo, las pruebas homogéneas son necesarias para poder desarrollar una teoría psicológica adecuada. La homogeneidad es un aspecto crucial de la validez, especialmente de la validez de constructo.

El modelo que hemos detallado se ha mostrado esencialmente correcto en psicometría, aunque no sirve para la construcción de todos los tipos de tests psicométricos y esto se pone de manifiesto cuando la solución de un ítem queda determinada por la relación entre la posición del individuo y la del ítem sobre el continuo (“rasgo”).

Este modelo se complementa con otro: el modelo lineal. Si un test es dimensional y homogéneo, puede decirse que existe una relación monotónica entre los puntajes de una prueba que obtiene un individuo y su posición en el continuo (“rasgo”) medido; es decir, a más puntaje, mayor “cantidad” del rasgo medido y viceversa. Luego, puede emplearse un modelo lineal para obtener la puntuación total del sujeto en el test.

El resultado final es el producto de la suma de los valores de los ítemes acertados o correctamente contestados. En este punto cabe mencionar que los ítemes del test pueden ser ponderados o no ponderados, por lo que pueden tener todos ellos signos positivo en la combinación o tener algunos de ellos signo negativo. Todas estas posibilidades están incluídas en el concepto de una combinación lineal de ítemes del test. Aunque hay modelos rivales para problemas especiales de medición, hasta la actualidad se usa con éxito el modelo lineal (Nunally, 1968).

LECCION 4

PROCEDIMIENTOS PARA LA MEDICION PSICOLOGICA

Page 29: Manual de Medicion Psicologica. 2011 (2)

1. INTRODUCCION

La construcción de pruebas psicológicas es un proceso que tiene sus orígenes en la concepción de la teoría de la medición psicológica (Nunally, 1987).

En términos generales, la medición psicológica implica el uso de procedimientos u operaciones, sujetas a determinadas reglas y que tienen como objetivo lograr un resultado en el que se han asignado valores a una cualidad, rendimiento o característica psicológica de un individuo.

Existen tres enfoques metodológicos para la construcción de pruebas psicológicas: el enfoque centrado en el sujeto; el enfoque centrado en el estímulo o enfoque del juicio y el enfoque centrado en la respuesta. En el campo de la psicometría, la mayor parte de la medición está basada en el enfoque centrado en el sujeto.

Si bien el proceso de construcción varía en razón del tipo de prueba psicológica a elaborarse, podemos establecer un esquema general con los pasos más relevantes para orientar y conducir el proceso de construcción. Este esquema presenta un conjunto de pasos que pueden ser variados en cuanto al orden de presentación e incluso algunos de ellos se pueden llevar a cabo simultáneamente. Asimismo, debe quedar claro que en este esquema no se agotan todos los puntos a tomarse en cuenta en la elaboración de pruebas.

El diseño y la construcción de un test psicométrico es una tarea cualificada que requiere de una notable fecundidad, creatividad, originalidad e imaginación así como de ensayos experimentales elaborados por el constructor o constructores.

Un test psicométrico bien construído y adecuadamente utilizado constituye un valioso instrumento auxiliar o de ayuda para el trabajo profesional del psicólogo, que hace bien en rechazar o dejar de lado pruebas que no han sido cuidadosamente elaboradas en base a las normas o reglas pre-establecidas por la Psicometría.

En esta publicación, nos ocuparemos de los criterios de construcción de los tests de respuesta máxima: rendimiento, aptitudes y habilidades. El proceso de elaboración de estos tipos de pruebas si bien tiene mucho en común, también tiene algunas variaciones o diferencias que están relacionadas con el uso principal del test. Ejemplo: si la meta es construir una prueba de rendimiento en matemáticas, el muestreo de los ítemes se efectuará en el dominio o universo conductual de los problemas de matemáticas, siendo este muestreo la condición principal para la selección de los ítemes. En otras palabras, esta operación hace alusión a la validez de contenido o validez curricular del test.

En otro ejemplo, si la meta es hacer un test que permita predecir algún criterio, entonces la representatividad del muestreo de los ítemes se va a subordinar al poder predictivo de tales ítemes como base para su selección. Esta operación se refiere a la validez predictiva o validez relacionada con el criterio, diferente a la del ejemplo anterior.

2. CARACTERIZACIÓN DEL PROCESO DE CONSTRUCCIÓN DE UNA PRUEBA PSICOLÓGICA

El proceso de construcción de una prueba psicológica es una ciencia y un arte. Utiliza tanto el razonamiento estadístico como el razonamiento lógico y equilibra las consideraciones prácticas con las teóricas. Su meta es la de construir un instrumento técnicamente apropiado, dentro de las limitaciones prácticas (Brown, 1982).

3. CONSIDERACIONES PREVIAS AL PROCESO DE CONSTRUCCIÓN DE UNA PRUEBA

Page 30: Manual de Medicion Psicologica. 2011 (2)

El psicólogo antes de iniciar el proceso de construcción de una prueba psicológica debe tener en cuenta dos puntos que se pasan por alto con demasiada frecuencia:a. Debe considerar que, en muchas situaciones una prueba psicológica es sólo una de

entre varias técnicas posibles de obtención de la información que se desea. Ejemplo: si deseamos medir los conocimientos en matemáticas de un estudiante secundario: le podemos tomar un examen; asimismo, podríamos utilizar como referencia sus calificaciones en los cursos de matemáticas; del mismo modo, podemos solicitarle a los maestros que califiquen sus conocimientos, es decir, si hay algún otro método más preciso o práctico para obtener la información deseada se deberá de utilizar de preferencia a un test. En el caso de que lo mencionado anteriormente no exista, recién se deberá optar por construir una prueba.

b. Estimar que existen publicaciones disponibles e incluso pruebas listas para ser utilizadas en la mayoría de los campos de la actividad psicológica. En tales casos, el psicólogo puede utilizar una prueba existente en lugar de construir otra nueva; puede también adaptar una prueba de acuerdo a sus necesidades. En ambos casos, ahorro en tiempo, dinero, etc., es significativo. El mayor inconveniente que podría surgir es que, no haya pruebas publicadas que sean óptimas para una determinada tarea -que es la que le interesa a determinado psicólogo-, y que por lo tanto se vea en la necesidad de elaborar una prueba. Frente a esta situación, se infiere que el psicólogo debe estar muy bien informado acerca de la bibliografía respectiva, sugiriéndose para ello la lectura de los BUROS y de los catálogos y manuales de tests provenientes de las diversas editoras tales como: TEA Ediciones S.A.; Paidós; Manual Moderno; Distap, etc.(español), así como de la: Psychological Corporation; California Test Boreu; American Psychological Association, etc. (inglés).

4. ENFOQUES METODOLÓGICOS PARA LA CONSTRUCCIÓN DE TESTS

Un test pesenta al sujeto estímulos destinados a provocar respuestas en él. El caso es que, los sujetos varían sus respuestas a un mismo estímulo, es decir, todos no responden de la misma manera.

Precisamente, los enfoques metodológicos principales para la construcción de tests se deben fundamentalmente a las diferencias acerca de la atribución de la variabilidad de las respuestas de los sujetos a los estímulos.

Los datos primarios siempre consisten en una cantidad de respuestas a una serie de estímulos o combinaciones de estímulos. Esto puede tomar la forma de: muchos sujetos donde cada uno responde una vez; un sujeto que responde muchas veces y varios sujetos que responde varias veces a cada uno de una serie de estímulos. Como consecuencia de ello, tenemos:

a. El enfoque centrado en el sujeto. Aquí la variación sistemática en las reacciones de los sujetos frente a los estímulos se atribuye a las diferencias individuales de los sujetos. El propósito es escalonar a los sujetos, que son los únicos a los que se asignan valores. Agregar o quitar al azar estímulos de la misma población o dominio conductual de preguntas, no afectaría más que en fluctuaciones muestrales. La mayor parte del campo de la psicometría está basado en mediciones de este tipo. La mayoría de tests de rendimiento, aptitudes y habilidades, en los que el puntaje compuesto de un individuo es la suma simple de la cantidad de ítemes contestados constituyen ejemplos de este enfoque. En esta modalidad, el psicólogo elige las preguntas y las posibilidades o alternativas de respuestas que tienden a destacar las diferencias individuales entre los sujetos.

b. El enfoque centrado en el estímulo o enfoque del juicio. En este enfoque, la variación sistemática en las respuestas de los sujetos frente a los estímulos se atribuye a diferencias de los estímulos con respecto a un determinado atributo o cualidad.

Page 31: Manual de Medicion Psicologica. 2011 (2)

El propósito inmediato del experimento es escalonar los estímulos, que son los únicos a los que se le asignan valores. Agregar o eliminar individuos elegidos al azar de la misma población no tendría otro efecto sobre los resultados que las fluctuaciones muestrales comunes. Un ejemplo típico de este enfoque es el método de las escalas de actitudes, tales como la de intervalos aparentemente iguales de Thurstone, en la que la tarea de los sujetos, en este caso llamados jueces, es disminuir las fuentes de variación debida a su propia posición respecto a una actitud y se orienta a clasificar una cantidad de enunciados respecto de una actitud subyacente sobre un determinado continuo de actitud, según el grado de mayor o menor saturación con que dicha proposición o enunciado refleja la actitud subyacente.

c. El enfoque centrado en la respuesta. En este caso, la variabilidad de las reacciones frente a los estímulos se atribuye a una combinación de los dos enfoques anteriores, es decir: a la de los individuos y a la de los estímulos. Un ejemplo de este enfoque puede ser la técnica de Gutman para la elaboración y análisis de las escalas de actitudes, en donde si se intenta ordenar tanto a los sujetos como a los estímulos con respecto al continuo subyacente de actitudes, a ambos componentes se le pueden asignar valores.

En nuestro caso, para la construcción de pruebas, vamos a desarrollar el enfoque centrado en el sujeto, anteriormente descrito.

5. LA PLANIFICACIÓN DEL TEST

La mayoría de los tests psicológicos siguen construyéndose según la teoría clásica de la medición (TCT), en tal sentido, nuestro texto va a tener como base los métodos propuestos por ese paradigma de la medición psicológica. Sin embargo, no podemos desconocer que en la actualidad, es creciente la influencia de la teoría de la respuesta al ítem (TRI), con sus distintas variantes en la elaboración de pruebas.

En general, existen varios criterios de planificación de un test. En tal sentido, uno de los procedimientos que se emplean actualmente para planificar la construcción de una prueba psicométrica comprende los siguientes pasos (Herrera Rojas, 1993):

a. Delimitación del dominio del test, descripción de las características de la población a la cual va dirigido y estructura formal del test: instrucciones, contenido y formato de las respuestas a los ítemes.

b. Redacción de los ítemes.c. Revisión de los ítemes por expertos.d. Análisis de las propiedades psicométricas de los ítemes y/o escalas del test.e. Elaboración de los materiales definitivos de prueba: manual, cuadernillo de ítemes y

protocolos u hojas de respuesta.

A continuación ofrecemos una breve exposición sobre los primeros tres pasos señalados por (Herrera Rojas, 1993), toda vez que los puntos restantes se encuentran ubicados en los diversos capítulos del texto.

a. Definición del dominio del test

La elaboración de cualquier escala de medición de algún aspecto del comportamiento humano exige a priori un minucioso análisis conceptual del dominio o rasgo a medir; en tal sentido, se deben obtener definiciones conceptuales ad hoc del rasgo en cuestión y luego decidir cual tipo de indicadores operacionales son adecuados para describirlo.

Page 32: Manual de Medicion Psicologica. 2011 (2)

Ejemplo: si queremos medir “habilidades para el estudio”, la prueba deberá comprender todas las sub-habilidades implícitas en ese rasgo, tales como: uso de diccionarios y enciclopedias, subrayado de ideas principales, elaboración de mapas conceptuales, etc., entre otras competencias. Tornimbeni (2008), menciona un ejemplo de Bandura (2001), sobre una prueba de autoeficacia para el manejo del peso corporal. Ya que el peso depende de factores tales como los alimentos ingeridos, el nivel de ejercicio para quemar calorías y factores genéticos que regulan los procesos metabólicos, la conducta de que autocontrol del peso será mejor predicha por una escala que incluya ítemes que comprendan equitativamente los factores causales y no se limite, por ejemplo, sólo a los hábitos alimenticios. El proyecto inicial de la prueba deberá incluír también una estimación de la longitud del test, el tiempo y la forma de administración y calificación. Asimismo, dada la mortandad de los ítemes que habitualmente se dan en el proceso de elaboración, resulta conveniente elaborar el doble o triple de lo que se requiere.

Si se trata de una prueba para medir “rendimiento”, la definición del dominio puede realizarse delimitando el universo de situaciones a ser evaluadas. Ejemplo: en el caso de un examen de psicometría, el universo comprendería los objetivos y contenidos del programa de la asignatura.

En el caso de una prueba de evaluación de currículo correspondiente a un nivel determinado del sistema educativo, por ejemplo nivel secundario, el dominio a ser definido incluirá los objetivos y contenidos correspondientes a ese nivel según los lineamientos explicitados por el Ministerio de Educación.

Sobre el punto, es interesante tener en cuenta que en la medición del rendimiento se pueden utilizar tests referidos a normas o referidos a criterio, y los procedimientos de elaboración de pruebas utilizados para cada modalidad son diferentes. En la construcción de pruebas referidas a normas se parte de la elaboración de una tabla de contenido como vamos a ver más adelante, la cual consiste en una tabla de doble entrada a través de la cual se relacionan los objetivos cuyo logro se desea evaluar, con los contenidos específicos correspondientes. En resumen, tomando dicha tabla como marco de referencia se determina el número de ítemes que conformarán la prueba y se procede a la redacción de los mismos.

En el caso de las pruebas con referencia a criterio, en lugar de construir una tabla de contenido, se define y delimita el dominio de comportamiento correspondientes a cada objetivo. Al elaborar este tipo de pruebas, definir con claridad las habilidades o conocimientos que se intenta evaluar, se convierte en un requisito fundamental de este tipo de tests. Según Hambleton y Rogers (1991), el “dominio” puede ser de conductas, objetivos y competencias y su amplitud varía en relación a la finalidad del test. Si el dominio comprende más de un objetivo, pueden elaborarse subtests para cada objetivo y se evalúa el rendimiento de los sujetos en cada uno de ellos.

Existen varios procedimientos para evaluar la especificación del dominio de conductas o clases de tareas que el sujeto debe realizar:

1. Definición del objetivo. En este caso se establece cuál o cuáles serán los objetivos que se evaluarán a través de la prueba. Ejemplo: la habilidad para la comprensión lectura, que incluye aquellas conductas o respuestas que se refieren únicamente a la comprensión de los mensajes literales contenidos en un texto determinado.

2. Indicadores operacionales del objetivo. Los cuales se describen en términos de conductas observables. Si tomamos como referencia el ejemplo anterior, un indicador operacional de la habilidad de comprensión podría ser resumir adecuadamente un testo breve.

3. Especificación de las características de la situación de evaluación. Ejemplo: en un texto de divulgación científica, seleccionar las ideas principales y parafrasear el contenido de las mismas.

Page 33: Manual de Medicion Psicologica. 2011 (2)

4. Características de la respuesta. En este caso, se especifica cuál es la respuesta que se espera del sujeto evaluado. Ejemplo: que seleccione correctamente las ideas principales.

Además de definir el dominio es necesario delimitar aspectos complementarios del test, tales como: la finalidad y la población meta del test; el modo de aplicación; el formato de la respuesta y el tiempo de administración, según otras consideraciones preliminares (Hogan, 2004). El plan inicial del test también debe considerar lo referente a las instrucciones de administración y el modo de calificación e interpretación de las respuestas.

b. Redacción de los Ítemes

Existen normas convencionales para la redacción de ítemes de tests, las cuales incluyen sugerencias tales como:

-Redactar ítemes congruentes con los objetivos de medición. -Evitar los ítemes demasiado extensos, es decir, de más de veinte vocablos.-Evitar las oraciones complejas con ambigüedades de sentido.-Evitar las frases con doble negación.-Evitar el uso de expresiones extremas: nunca, siempre, todos.-Utilizar el lenguaje más apropiado con el grado de maduración y el nivel educativo de la población (Oesterlind, 1990).

Para Nunally (1991), los dos errores más frecuentes en la redacción de los ítemes son:

1. La ambigüedad, con reactivos que admiten varias preguntas, por ejemplo: ¿Qué pasó con la psicología en el siglo XVII?, y 2) La trivialidad, al centrarse en aspectos poco importantes del constructo o dominio conductual, por ejemplo, requerir la memorización de fechas irrelevantes.

En la evaluación educativa, merece un espacio diferenciado la elaboración de pruebas objetivas con preguntas cerradas en algunas de las modalidades de ítemes tipo selección, ya sea del tipo disyuntivo verdadero/falso o de opción múltiple. Según Bloom (1966), estas pruebas son útiles para la medición de algunos objetivos cognoscitivos a nivel básico tales como:

- Recordar (por ejemplo, el creador del rayo laser o del teléfono).- Comprender (por ejemplo, el concepto de “resiliencia”, “burnout” o “bulling”).- Aplicar un concepto general o utilizar información para resolver un problema

(por ejemplo, dada la media o promedio aritmético y la desviación estándar del D48 de Pichot aplicado a una muestra representativa de estudiantes secundarios, elaborar el baremo por eneatipos).

- Analizar, que se refiere al pensamiento crítico, es decir, a identificar causas y realizar inferencias en base a información específica (interpretar los bajos valores obtenidos en el coeficiente Kuder-Richardson 21 en una prueba factorial e indicar los factores que pueden haber afectado la confiabilidad del test).

Para los objetivos cognoscitivos de nivel superior, tales como la evaluación que implica por ejemplo, juzgar el valor de materiales, tests o materiales; y la creatividad, que infiere por ejemplo, diseñar una investigación para verificar la estabilidad de un test, se requiere otro tipo de pruebas, tales como las compuestas por ítemes de suministro (abiertas o ensayo), así como reactivos que combinan la computación con el audio; el video y la realidad virtual en la formulación de los ítemes y el formato de la respuesta, dentro de lo que en la actualidad se denomina la evaluación auténtica (Moreno, Martínez y Muñiz, 2004). En todo este avance, es probable que la evaluación del futuro demandará instrumentos que permitan medir de modo más

Page 34: Manual de Medicion Psicologica. 2011 (2)

adecuado el pensamiento creativo (divergente), y la resolución de problemas reales de una disciplina (Woolfolk, 2006).

Los ítemes de opción múltiple, son difíciles de contruír adecuadamente, al extremo que (Woolfolk, 2006), comentó que muchos estudiantes denominan a estas pruebas “de adivinación múltiple”, por lo mal que frecuentemente se elaboran.

Estas pruebas comprenden un enunciado, pié, tronco o base, y una serie de alternativas o respuestas posibles y en donde en razón a la modalidad de respuesta correcta, las principales sugerencias en su construcción, teniendo en cuenta a (Gronlund, 1974), son:

1. Elaborar cada ítem para medir un resultado importante de la temática elegida. La situación problema sobre la que se ha de contruír el ítem debe estar directamente relacionada con los objetivos del tema. Evite elaborar ítemes sobre detalles sin importancia, trozos de información no relacionados, así como de material no pertinente a los resultados deseados.

2. Presentar sólo un problema, claramente formulado, en la base o pié del ítem. La tarea que se presente en el tronco o base del reactivo, deberá ser tan clara que se la pueda entender sin necesidad de leer las opciones u alternativas de respuesta.

3. Enunciar la base o pié del ítem en un lenguaje claro y sencillo. El problema formulado en la base de un ítem debe enunciarse tan precisamente como sea posible y por lo tanto libre de palabras y fraseos innecesariamente complejos, de tal modo que quienquiera que tenga el conocimiento medido por dicha pregunta deberá ser capaz de elegir la respuesta correcta.

4. Cuando resulte necesario, incluir tantas palabras como sea posible en la base o pié del ítem. En este caso, debe evitarse la repetición del mismo material en cada una de las alternativas u opciones de respuesta.

5. Enunciar la base o pié del ítem en forma afirmativa siempre que sea posible. Una pregunta enunciada afirmativamente tiende a medir resultados más importantes que un reactivo enunciado negativamente; esto se debe a que conocer las cosas con el mejor método o el argumento más importante, tiene por lo general una implicancia mayor que conocer el método más deficiente o el argumento menos pertinente.

6. Hacer hincapié en la construcción negativa siempre que la utilice en la base o pié del ítem. Existen casos en que la redacción negativa de la pregunta es fundamental para medir un resultado importante del aprendizaje. Ejemplo: saber que no se debe cruzar la calle durante la luz roja o que no se deben mezclar ciertos elementos químicos, son cosas tan importantes que se deben enseñar y probar directamente.

7. Asegurarse que la respuesta que se pretende es la correcta o, claramente la mejor. Cuando utilizamos la forma de respuesta correcta o el ítem de opción múltiple, debe haber solamente una respuesta correcta y ésta debe ser sin lugar a dudas correcta. Cuando se usa la forma de mejor respuesta, la respuesta deseada debe ser tal que los responsables de la materia estén seguros en que claramente es la mejor.

8. Hacer que todas las opciones u alternativas de respuesta sean gramaticalmente consistentes con la base o pie del ítem y que tengan formas paralelas a la de éste. La redacción de la respuesta correcta debe ser tan minuciosa, que debe ser gramaticalmente consistente con la base o pié del ítem. Es al enunciar los distractores cuando existe la probabilidad de que el constructor del test incurra en alguna inexactitud, de allí que una medida general que se puede tomar para

Page 35: Manual de Medicion Psicologica. 2011 (2)

prevenir la inconsistencia gramatical es evitar el uso de los artículos “un” o “uno” al final de la base o tronco del reactivo.

9. Evite claves verbales que permitan a los estudiantes seleccionar la clave o respuesta correcta o eliminar una opción incorrecta. Aquí se pueden presentar los siguientes casos:

a. La similitud de la redacción de la base o pie del ítem con la clave o respuesta correcta.

b. Enunciar la clave o respuesta correcta en el lenguaje del libro de texto o con una fraseología estereotipada.

c. Enunciar la respuesta correcta más detalladamente que las opciones incorrectas.

d. Incluír términos absolutos en las respuestas de distracción, distractores o distrayentes.

e. Utilizar dos respuestas que sean completamente inclusivas.f. Incluír dos respuestas que tengan el mismo significado.

10. Hacer que las respuestas de distracción, distractores o distrayentes aparezcan como posibles y atractivas para el probando poco informado. En tal sentido, debemos tener presente las siguientes estrategias:

a. Utilizar los conceptos equivocados de los probandos o sus errores comunes.

b. Enunciar las opciones incorrectas en el lenguaje de los probandos.c. Usar palabras “que suenen bien”, tanto en las respuestas de distracción

o distractores como en la clave o respuesta correcta.d. Elaborar los distractores o distrayentes con criterios afines a la clave o

respuesta ón correcta, tanto en su extensión como en su complejidad de redacción.e. Utilizar claves extrañas en los distractores, pero sin exageración en su uso, y estar alerta contra las preguntas engañosas.

f. Estructurar de manera homogénea las opciones incorrectas.

11. Hacer variar la longitud relativa de la respuesta correcta para eliminar la longitud o extensión como una posible clave. Por la necesidad de elaborar adecuadamente los enunciados para hacerlos inequívocamente correctos, la clave tiende a ser más extensa que los distractores. Frente a esta situación, es recomendable construir los distractores ón aproximadamente con la misma extensión en vez de ajustar la longitud de la clave o respuesta correcta.

12. Evitar cuidadosamente el uso de la opción “todas las anteriores” y utilice con extrema precaución “ninguna de las anteriores”. Cuando el constructor de pruebas tiene problemas para encontrar un número suficientes de distractores, a menudo considera las alternativas “todas las anteriores” o “ninguna de las anteriores” para utilizarlas como opción final; el caso es que, dichas alternativas rara vez se usan adecuadamente y por lo general terminan haciendo al ítem menos eficaz de lo que sería sin ellas.

13. Variar al azar la posición de la respuesta correcta. La clave o respuesta correcta debe aparecer en cada pregunta, pero sin seguir una pauta que pueda resultar evidente para el probando que resuelve la prueba. En tal sentido se pueden evitar tales indicadores colocando al azar la clave o respuesta correcta.

14. Controlar la dificultad del ítem ya sea variando el problema en la base o pié o cambiando las opciones. Generalmente, es preferible aumentar el grado o índice de dificultad del ítem elevando el nivel de conocimiento requerido o haciendo más complejo el problema. Por otra parte, sin embargo, también es posible aumentar la dificultad haciendo más homogéneas las opciones.

15. Asegurarse de que cada ítem es independiente de los demás. Para ello, deberán evitarse la presencia de cadenas de ítemes interdependientes, es decir, cada ítem debe ser, una unidad calificable independientemente.

Page 36: Manual de Medicion Psicologica. 2011 (2)

16. Usar un formato eficaz de ítem. Las alternativas u opciones de respuestas deberán presentarse en forma de lista, en renglones diferentes, una bajo la otra, lo cual facilitará la lectura y la comparación de las opciones. Es conveniente el uso de letras al inicio de las opciones, lo cual evita posibles confusiones si se utilizaran respuestas numéricas en un ítem.

En cuanto al ítem verdadero – falso, este constituye una oración expositiva que el probando debe juzgar como verdadera o falsa; no obstante hay variaciones de esta forma básica en la que el sujeto debe responder sí o no, acuerdo o desacuerdo, bien o mal, hecho u opinión y otras respuestas afines. En cualquier caso, este tipo de ítem se caracteriza por el hecho de que sólo son posibles dos alternativas de respuesta y en donde el probando debe decidir por una de ellas.

Siguiendo a (Gronlund, 1974), podemos señalar las siguientes reglas para la elaboración de este tipo de ítemes:

1. Incluír en la base o pie del ítem, sólo una idea central significativa. La decisión de verdadero-falso, no debe depender de un aspecto subordinado ni de un detalle trivial, de provenir de algo esencial por lo que se deben evitar el uso de varias ideas en cada enunciado.

2. Redactar el enunciado de manera que se le puede juzgar sin lugar a dudas como verdadero o falso. Los enunciados verdaderos deben serlo en cualquier circunstancia por lo que resulta importante usar palabras definidas y precisas y evitar términos ambiguos.

3. Los enunciados deben ser breves y de estructura sencilla. La base o pié del ítem simples y breves aumentarán la probabilidad de que la idea central del ítem sea clara y de que el acierto o el error esté determinado por el conocimiento del examinado; más bien los enunciados extensos y complicados se orientan a medir la comprensión de lectura, que constituye un objetivo diferente al tratado.

4. Usar muy limitadamente los enunciados negativos y evitar la doble negación. Los enunciados negativos se malinterpretan frecuentemente como afirmativos, esto es, por lo sencillo que es pasar por alto la palabra “no”; asimismo, las negaciones dobles son confusas y por lo general los enunciados que las contienen se pueden volver a redactar afirmativamente.

5. Los enunciados de opinión se deben atribuir a alguna causa. Debemos tener presente que los enunciados de opinión no son verdaderos o falsos por sí mismos y hacer que los probandos respondan a ellos como enunciados factuales constituye una práctica deficiente, de tal manera que sólo se podrían usar sin modificación cuando se indique al examinado que distinga entre enunciados de hechos y enunciados de opiniones.

6. Evítense claves ajenas a la respuesta. Existen algunos modificadores específicos que proporcionan claves verbales de la verdad o falsedad de un ítem. Los enunciados que incluyen absolutos como “siempre”, “nunca”, “todo”, “ninguno” y “solamente”, tienden a ser falsos y por el contrario, los enunciados con modificadores como “usualmente”, “acaso” y “a veces”, tienden a ser verdaderos.

c. Revisión de ExpertosLa mayoría de especialistas en el tema sugiere que los ítemes preliminares sean revisados por jueces expertos. Resulta conveniente que estos jueces tengan experiencia en la construcción de pruebas, en el dominio del constructo a medir y en la población a la cual se dirige el test. Los aspectos esenciales (Tornimbeni, Pérez y Olaz, 2008), que los expertos deben evaluar en cada ítem son:

1. Claridad semántica y corrección gramatical.

Page 37: Manual de Medicion Psicologica. 2011 (2)

2. Adecuación al nivel de comprensión de la población meta.3. Congruencia con el constructo o dominio medido.

El último de los nombrados constituye el principal parámetro y hace referencia al grado de consistencia que debe haber entre un ítem particular y los constructos a medir por el test. El respeto por dicha variable va a contribuir significativamente a la confiabilidad y validez de las puntuaciones del test a contruir (Osterlind, 1990). Técnicamente, se recomienda que los ítemes seleccionados sean aquellos que, por lo menos, un 60% de los jueces consideren meritorios (Herrera Rojas, 1998). Resulta de gran utilidad la inclusión de preguntas adicionales sobre los ítemes, que faciliten una redacción más adecuada de alguno de ellos. Finalmente, tal y como señalan (Tornimbeni, Pérez y Olaz, 2008), no deberíamos confiar exclusivamente en el juicio de los expertos y siempre es conveniente llevar a cabo una prueba piloto en una muestra pequeña, con la finalidad de demostrar empíricamente que los ítemes sean más claros y comprensibles para la población donde se desea generalizar los resultados.

Existen otros esquemas de planificación como el que indicamos a continuación y que podríamos tener en cuenta en la tarea de construcción de una prueba. Dicho esquema comprende los siguientes pasos:

6. ESQUEMA GENÉRICO DE CONSTRUCCION DE UN TEST PSICOMETRICO

A. Primer Paso: ESPECIFICACIÓN DE LA FINALIDAD DEL TEST

a. Elección del Constructo o variable de estudiob. Elaboración del propósito del testc. Limitación de las características de los sujetos a examinarse

B. Segundo Paso: TRADUCCION DE LA FINALIDAD EN TERMINOS OPERACIONALESa. Elaboración del marco teórico del constructob. Definición teórica del constructoc. definición operacional del constructo

C. Tercer Paso: DETERMINACION DE LAS CARACTERISTICAS PSICOMÉTRICAS QUE DEBE TENER EL TESTa. Pruebas de ejecución máxima a.1 Pruebas de aptitud a.2 Pruebas de rendimiento a.3 Pruebas de habilidadb. Pruebas de ejecución típica b.1 Inventario de Personalidad b.2 Cuestionario de Personalidad b.3 Escalas de actitudes

D. Cuarto Paso: ELABORACIÓN DEL ENSAYO O PRE-TESTa. Construcción de los ítemes, reactivos, elementos o preguntasb. Redacción de instrucciones preliminaresc. Elaboración del procedimiento preliminar de calificaciónd. Elaboración del material del pre-teste. Establecimiento de los tiempos de resolución del pre-testf. Revisiones de juicio de expertos

E. Quinto Paso: ANÁLISIS DE ÍTEMES, REACTIVOS, ELEMENTOS O PREGUNTASa. Administración del ensayo o pre-test a una muestra representativa de la población a

la cual está destinado el test.b. Obtención de los índices de dificultad, de discriminación o poder discriminativo, de

homogeneidad, de validez, de confiabilidad, de asimetría, de curtosis, de cada uno

Page 38: Manual de Medicion Psicologica. 2011 (2)

de los ítemes; así como el análisis de los distractores, distrayentes u opciones incorrectas.

c. Cálculo de los coeficientes de correlación item-item, item-test, varianza, co-varianza, correlación máxima, etc.

F. Sexto Paso: ELABORACIÓN DEL FORMATO FINAL DEL TESTa. Selección de los ítemes que han superado el análisis de reactivosb. Ajuste de los tiempos y modalidades de administración o aplicación y cómputo o

calificación.c. Revisión

G. Séptimo Paso: CÁLCULO DE LA VALIDEZ Y CONFIABILIDAD DEL TEST a. Administración del test a una muestra representativa de sujetos de la población a la

cual está destinada la prueba.b. Obtención de los índices estimadores de la validezc. Obtención de los índices estimadores de la confiabilidad

H. Octavo Paso: ESTABLECIMIENTO DE LAS NORMAS DEL TESTa. Estudio de las distribuciones de puntajesb. Obtención de las normas en los puntajes derivados más convenientesc. Elaboración de las tablas de normas o baremos

I. Noveno Paso: REDACCIÓN DEL MANUAL DEL TESTa. Elaboración de la ficha técnicab. Redacción de documentos que sintetizen el proceso

de construcción y comuniquen los índices estadísticos y normas que permitan al usuario evaluar el test.

J. Décimo Paso: PUBLICACIÓN

Page 39: Manual de Medicion Psicologica. 2011 (2)

SEGUNDA UNIDADDESARROLLO DE LOS TEST PSICOMETRICOS

LECCION 1ORIGEN DE LOS TEST PSICOMETRICOS

1. INTRODUCCION

Page 40: Manual de Medicion Psicologica. 2011 (2)

En los últimos 30 años, la metodología y las técnicas de elaboración de tests han manifestado un desplazamiento cada vez más marcado de los sistemas tradicionales de exámenes, fundamentados en la teoría clásica de los tests, hacia los sistemas adaptativos de evaluación. Esta transición ha sido propiciada por los desarrollos que han tenido lugar en el contexto de la teoría de los tests y, en particular, en la teoría de respuestas por ítem, así como por el desarrollo alcanzado por la tecnología computacional. El desarrollo de la teoría clásica de los tests ha evolucionado de una posición pragmática caracterizada por la elaboración de reactivos y pruebas, cuyo único requisito era mantener cierta consistencia entre sí, hacia una fase en la cual las pruebas cuentan con un mayor sustento en postulados teóricos acerca de la personalidad, el aprendizaje, el comportamiento y los principios que regulan la interacción entre los factores estructurales hereditarios y los factores ambientales. La elaboración de tests de acuerdo a la teoría clásica, conlleva ciertas limitaciones debidas principalmente a la dependencia que hay entre cada reactivo y la prueba de que forma parte, así como la que existe entre cada reactivo y la población utilizada para normar la prueba, lo que limita las posibilidades de predecir el comportamiento ante reactivos específicos. Nuevas aproximaciones, como la teoría de respuestas por ítem, han sido elaboradas para resolver las limitaciones planteadas por la teoría clásica de los tests y han presentado nuevas técnicas para el desarrollo de estos instrumentos de medida. Uno de los resultados de la teoría de respuestas por ítem es que al permitir establecer estadísticos para cada reactivo individual y de manera independiente, se proporciona un modelo teórico excelente para la elaboración de tests adaptativos computarizados, caracterizados básicamente por presentar reactivos diferentes a cada examinado, dependiendo de sus respuestas a los reactivos anteriores. Otra de las herramientas que han sido de considerable valor para los nuevos tests adaptativos computarizados es el desarrollo de los sistemas de cómputo que permiten manejar grandes bases de reactivos de una manera interactiva y con una gran velocidad de proceso.

2. HISTORIA Y ORIGEN DE LOS TEST

Para (Anastasi, 1977) los orígenes de los test se pierden en la antigüedad, en el Imperio Chino se utilizaba un sistema de exámenes para elegir a los administradores públicos durante 3000 años, por su parte, el Imperio Griego realizó exámenes que constituían un complemento integrado en el sistema educativo, para estimar el dominio de habilidades físicas e intelectuales. El método socrático de enseñanza, de preguntas y respuestas, es similar al utilizado en la Edad Media en las universidades europeas donde los exámenes eran regulares.

En el siglo XIX se despertó el interés por los retrasados mentales, y con ello, se encontró que era necesario establecer criterios para la identificación y clasificación de estos casos, entonces el médico francés Esquirol en 1838 indicó que existen muchos grados de retraso mental, desde la normalidad hasta el grado mas agudo de la idiocia, y que la mejor forma de saber el grado en el que se encuentra es mediante su lenguaje. De esta manera, en 1837 se estableció la primera escuela dedicada a la educación de los niños mentalmente deficientes.

Por su parte, los psicólogos experimentales formulaban descripciones generalizadas de la conducta humana, donde las afinidades mas que las diferencias en la conducta, las que constituían el foco de atención, pero debido a la presencia de la variabilidad las generalizaciones eran aproximadas.

a. Aportaciones de Francis GaltonEl biólogo inglés Sir Francis Galton, considerado el padre de la psicología diferencial, tuvo como objetivo básico la descripción y medición de las características humanas y para ello creó un “Laboratorio Antropométrico” en 1884 (Fernández-Ballesteros, 1996). Se interesó por la herencia humana y para eso midió las características de las personas emparentadas y no emparentadas, creía que no solo se heredaban rasgos físicos, sino también habilidades (Anastasi, 1977).

Page 41: Manual de Medicion Psicologica. 2011 (2)

Nunnally (1970) menciona que Galton acuñó la expresión de test mental y comenzó a medir muchos atributos humanos diferentes, reconoció la necesidad de la estandarización en el examen de sujetos, que se refiere, a la necesidad de presentarles a todos ellos el mismo problema en condiciones uniformes. Afirmaba que la persona que tuviera los sentidos mas agudos sería la mas dotada y la de mas capacidad de conocimiento, por lo que, la mayoría de sus test eran de discriminación sensorial.

Galton recurrió a métodos estadísticos y determinó promedios y medidas de varianza, y además hizo los primeros intentos de establecer la estadística de correlación.

b. Los primeros “test mentales”El psicólogo americano Cattell es un personaje destacado en el desarrollo de los test psicológicos, tuvo contacto con Galton y se interesó por las diferencias individuales. En 1890 se empleó por primera vez en la literatura psicológica la expresión “test mental”. Los test que se habían de aplicar individualmente incluían medidas de energía muscular, velocidad de movimiento, sensibilidad al dolor, agudeza visual y auditiva, discriminación de pesos, tiempo de reacción, memoria y otras, pero, la ejecución del individuo presentaba escasa correspondencia de un test a otro, Ohern en 1889, indagó sobre las mismas cuestiones (Anastasi, 1977).

El objetivo de los test de Cattell, según Fernández- Ballesteros (1996), los caracterizó su determinación del rango, exactitud y naturaleza de las facultades psicológicas, así como la posibilidad de reunir suficiente material como para hallar los factores que regulan el desenvolvimiento de estas facultades, sus conexiones, así como sus perturbaciones.

Ebbinhaus en 1897 aplicó a escolares algunos test de cálculo aritmético, de memoria inmediata y de completación de frases.

Según Nunnally (1970), se produjeron en Francia algunos acontecimientos de importancia para la historia de la medición psicológica. Pinel, en un principio liberó a los locos de sus cadenas e insistía en que se trataba de enfermos y no de poseídos por el demonio. Charcot, Janet y Ribot crearon el campo de la psiquiatría y elaboraron las primeras teorías aceptables de la psicopatología. Freud se apoyó en los conocimientos de estos hombres y avanzó hasta fundar el psicoanálisis.

c. Test de inteligenciaAlfred Binet completó su primer test en 1905, donde estudiaba la capacidad del niño para comprender y razonar acerca de los objetos de su ambiente cultural, los ítems incluían nombrar objetos, completar oraciones o comprender preguntas, en 1908 se hizo una revisión del test y se graduaron los ítems según los niveles de edad, sobre la base de ítems característicos de la inteligencia promedio de cada edad (Nunnally, 1970).

Binet, según Fernández-Ballesteros (1996), planteaba tres tipos de requisitos: Que estén formados por tareas sencillas, que en su aplicación se invierta poco tiempo, que sean independientes del examinador y que los resultados obtenidos puedan ser contrastados por otros observadores.

Los resultados podían expresarse como una “edad mental”, es decir la edad de los niños normales que su ejecución se igualaba, según Anastasi (1977), este concepto contribuyó a popularizar la aplicación de los test de inteligencia, así como, los test colectivos fueron creados para satisfacer una urgente necesidad práctica, los cuales eran instrumentos para la prueba de masas que permitían el examen simultáneo y simplifican las instrucciones, adicionalmente, requerían un mínimo de formación por parte del examinador.

Se crearon exámenes orales, aunque algunos estudiosos se quejaron y objetaron que los exámenes escritos colocaban a todos los estudiantes en las mismas circunstancias.

Page 42: Manual de Medicion Psicologica. 2011 (2)

Se introdujeron test de personalidad donde se medían las cuestiones afectivas como la adaptación emocional, las relaciones sociales, la motivación, los intereses y las actitudes. Test de aptitudes especiales donde se evaluaba la orientación profesional y en la selección de personal industrial y militar.

3. TEORÍAS DE LOS TESTS Existen diversos paradigmas o modelos que permiten explicar el significado de las puntuaciones obtenidas con los Tests. El análisis o modelado de las matrices de datos obtenidas da como resultado:

• la estimación del nivel en que poseen los sujetos la(s) característica(s) que mide el test (valores escalares de los sujetos)

• la estimación de los parámetros de los items (valores escalares de los items).

El problema central de la teoría de los tests es la relación que existe entre:

• el nivel del sujeto en la variable inobservable que se desea estudiar y

• su puntuación observada en el test.

Es decir que el objetivo de cualquier teoría de tests es realizar inferencias sobre el nivel en que los sujetos poseen la característica o rasgo inobservable que mide el test, a partir de las respuestas que éstos han dado a los elementos que forman el mismo. Así para medir o estimar las características latentes de los sujetos es necesario relacionar éstas con la actuación observable en una prueba y esta relación debe de ser adecuadamente descrita por una función matemática. Las distintas teorías de tests difieren justamente en la función que utilizan para relacionar la actuación observable en el test con el nivel del sujeto en la variable inobservable. Y sirven para dar cuenta del error de medida inherente a toda medición psicológica o estimación del error; y proporcionar una estimación del rasgo o característica evaluada (estimación del rasgo)

a. TEORÍA CLÁSICA DE LOS TESTS

La Teoría Clásica de los Tests, iniciada por Spearman, sostiene que la puntuación observable de una persona en un test es una función de dos componentes: su puntaje verdadero (inobservable) y el error de medición implícito en la prueba. El TCT (modelo lineal de la teoría clásica) es un modelo de puntuación verdadera como valor esperado, esperado como concepto matemático, probabilístico. Es decir, el puntaje verdadero de un sujeto en un test sería el promedio aritmético de las puntuaciones empíricas obtenidas en infinitas aplicaciones (Muñiz, 2001).

La Teoría Clásica de los Tests (TCT) es, en síntesis, el conjunto de principios teóricos y métodos cuantitativos derivados de ellos, que fundamentan la construcción, aplicación, validación e interpretación de distintos tipos de tests y que permiten derivar escalas estandarizadas aplicables a una población (Hambleton, 1994). Los principios en que se basa son relativamente simples y se aplican tanto a las pruebas de desempeño, como a las de aptitud. Durante sus diferentes fases de desarrollo, se han elaborado procedimientos de análisis cuantitativo que han sido de gran utilidad, destacándose en lo general, tres grandes etapas que se identifican por su objeto de interés primordial, así como por los métodos cuantitativos y tipos de análisis teóricos que utilizan.

La primera etapa que Cattell (1986) denomina itemetría, se caracteriza principalmente por la construcción de pruebas conformadas por reactivos cuyas propiedades estadísticas eran el centro de atención principal. Los tests se consideraban como el producto de la integración de un conjunto de reactivos cuyas propiedades estadísticas tenían que ser determinadas antes de que se les incluyera en esa prueba particular. Esto propició que el concepto de confiabilidad adquiriera prominencia como la principal virtud de la escala y se medía a partir de la correlación

Page 43: Manual de Medicion Psicologica. 2011 (2)

entre los reactivos individuales y el instrumento en su conjunto. Si la correlación era alta, se decía que los reactivos eran los adecuados. Sin embargo, con frecuencia resultaba que la correlación no era tan buena, y el resultando era que se obtenían reactivos deficientes y la prueba en su conjunto era de escaso valor. El concepto mismo de confiabilidad implicaba al de error de la medida y tuvieron que desarrollarse procedimientos distintos para determinar la confiabilidad del test de una manera más precisa. Tal fue el caso de los procedimientos de pruebas paralelas y de división por mitades.

La itemetría hizo contribuciones valiosas a la psicología debido al énfasis que puso en el análisis del error. Entre sus contribuciones se encuentran varios conceptos sobre precisión de la medida, las técnicas para el tratamiento del error y el uso generalizado del error estándar de la medida como la medida básica del error. Además, dio lugar a contribuciones tales como las fórmulas de Spearman-Brown (Spearman, 1904), Kuder-Richardson (Kuder & Richardson, 1937), Alfa de Cronbach (Cronbach, 1951) y a varios principios básicos de escalamiento, así como al uso generalizado de la curva normal, el uso de las correlaciones múltiples y la fórmula de atenuación, etc. La siguiente etapa es la que Cattell (1986) denomina psicometría estructural y se caracteriza por el uso de las nuevas herramientas estadísticas tales como el análisis factorial con sus diversas variantes técnicas, como un medio para encontrar la "estructura natural" de las habilidades en el contexto de los factores culturales, la dotación genética, la personalidad, los rasgos, los motivos dinámicos y las dimensiones que dan lugar a la acción y al comportamiento. Su objetivo primordial no era como tal, aplicar pruebas, sino determinar la relación que hay entre los conceptos clínicos sobre personalidad, y los fundamentos de la investigación experimental multivariada (cuantitativa por naturaleza), así como analizar las interacciones dinámicas entre los rasgos y los estadíos de la personalidad. Los tests se consideraban significativos en la medida que armonizaban con los constructos teóricos formulados conceptualmente.

La etapa funcional en el desarrollo de los tests es aquella que "trasciende a las aplicaciones inmediatas y simplistas que identificaban a las estadísticas con factores conductuales, y profundiza en las leyes y formulaciones conceptuales del comportamiento: que relaciona rasgos, procesos y estados psicológicos con las mediciones y estrategias estructurales" (Cattell, 1986). Ese tipo de leyes, según Cattell, se refieren a las relaciones sistemáticas y consistentes obtenidas de los estudios empíricos sobre el desarrollo, en el conocimiento acerca de los rasgos determinados en forma hereditaria, de los rasgos modificables por las experiencias y el aprendizaje y de la modulación de los estados psicológicos producidos por las relaciones psicofisiológicas.

En resumen, el desarrollo de la teoría clásica de los tests ha procedido de etapas orientadas en forma pragmática para desarrollar tests y validar reactivos, (donde los constructos psicológicos teóricos se definían operacionalmente como "aquéllo que mide la prueba x"); hacia etapas conceptualmente más elaboradas en que los tests se derivan de teorías del comportamiento más articuladas y donde cada reactivo tiene un significado conceptual definido en un contexto teórico particular.

Limitaciones de la Teoría Clásica de los Tests: De acuerdo a la Teoría Clásica de los Tests (TCT), la elaboración de pruebas de desempeño máximo involucra la selección de reactivos de acuerdo a su contenido, nivel de dificultad y poder de discriminación. Los reactivos más deseables son los que poseen un nivel mayor de discriminación. El nivel de dificultad por su parte, se ajusta de acuerdo a: 1. El propósito de la prueba, y; 2. El criterio preestablecido para el grupo al cual se aplicará la prueba. Los índices estadísticos empleados por la TCT no se mantienen constantes cuando se aplican a poblaciones que difieren en habilidad respecto de la población empleada para obtener las normas del test. Por lo tanto, el éxito de las técnicas clásicas de selección de reactivos depende de qué tan parecida es la población con la cual se obtuvieron los índices respecto de la población a la que se pretenden aplicar. Si la diferencia es grande, los índices obtenidos de los ítems no serán apropiados para la

Page 44: Manual de Medicion Psicologica. 2011 (2)

población objetivo. En otros términos, la teoría clásica de los tests no puede predecir cómo responderá un individuo a los ítems a menos que esos ítems hayan sido previamente administrados a personas similares (Lord, 1980) Durante el trabajo práctico de elaboración de tests, normalmente el grupo a partir del cual se obtienen los índices y el grupo al cual el test va dirigido, difieren considerablemente. Un caso especial en el cual los índices clásicos de los reactivos se obtienen a partir de grupos que difieren de la población a la que van dirigidos, puede verse al estructurar bancos de reactivos. Al elaborar un banco de reactivos, las características de los ítems que van a ser incluidos en el banco, deben ser determinadas. Los ítems con frecuencia denominados "experimentales", se incluyen en un test que es administrado a un grupo de personas de tal manera que se obtienen como resultado, los índices de esos reactivos. Por supuesto, no todos los reactivos experimentales serán incluidos en un test particular. Por lo tanto, se crean múltiples formas del test, cada uno de los cuales contiene diferentes reactivos experimentales y las diferentes formas se aplican a grupos distintos de examinados. Dado que generalmente no es posible asegurar que las diferentes formas del examen sean administradas a grupos equivalentes, los índices de los reactivos experimentales que se aplicaron a grupos distintos no pueden ser equivalentes (Hambleton & Swaminathan, 1985). Por lo tanto, si los reactivos fueron incluidos en el examen bajo el supuesto de que sus índices eran comparables, entonces cualquier test construído a partir de ese banco de reactivos no podrá ser apropiado para ninguna de las poblaciones que pudieran ser seleccionadas en un momento dado. Por otra parte, aún cuando un banco de reactivos se encuentre bien conformado, otro problema de la TCT es la precisión de la medición. Y es que en la teoría clásica de los Tests, la contribución de un ítem a la confiabilidad de la prueba no depende de las características del reactivo sólamente, sino que también depende de la relación que hay entre el reactivo en cuestión y los otros reactivos del test. Por lo tanto, no es posible aislar la contribución de un ítem a la confiabilidad de la prueba y por lo consiguiente, tampoco su participación al error estándar de la medida (Hambleton, Swaminathan, & Rogers, 1991).

Finalmente, no obstante que el desarrollo de la teoría clásica de los tests llegó, con la etapa funcional de los tests, a un punto en que la conceptualización de los resultados de los tests, y consecuentemente su proceso de desarrollo, permitían mediante sofisticados procedimientos estadísticos, sacar a los reactivos de los límites impuestos por la prueba en su conjunto, la limitación teórica aún permanecía y se hacía necesario un nuevo marco conceptual para salvarlo. Este nuevo esquema para la conceptualización de los reactivos como unidades independientes del test y del grupo utilizado para normarlo, se obtuvo con la Teoría de Respuesta al ítem.

LECCION 2

TEORIA DE LA GENERALIZABILIDAD YDE RESPUESTA AL ITEM

1. INTRODUCCION

Las Teorías de Medición sirven como marco teórico para el diseño e implementación de instrumentos de medición. Proporcionan métodos o procedimientos para determinar las características de los estímulos o preguntas que forman las pruebas.

Page 45: Manual de Medicion Psicologica. 2011 (2)

A partir de las características obtenidas se derivan métodos para efectuar otros análisis que sean de interés para los usuarios de las pruebas.

2. TEORÍA DE LA GENERALIZABILIDAD

Cronbach y Glaser (1972) postularon la Teoría de la Generalizabilidad (TG) que es una extensión del modelo clásico en el que diversas mediciones del mismo individuo pueden variar tanto por efecto de una variación en lo que se mide como por el error de medición (Nunnally y Bernstein, 1995). En esta teoría las decisiones sobre la bondad de un instrumento se basan en estudiar las fuentes y tipos de error, utilizando el análisis de varianza. Cuando se mide una variable se trata de generalizar los resultados a un dominio o universo confiable de observaciones. El puntaje del universo es semejante al puntaje verdadero en el modelo clásico. La diferencia es que en la TCT se considera que la varianza de error es de una sola clase y, en cambio, la TG reconoce que existen otros universos de generalización y por lo tanto muchos puntajes de universo posibles. Solo cuando el universo se ha definido podemos afirmar cuáles son las fuentes de variación que producen error. Las diferentes fuentes de error en esta teoría se denominan facetas, término que introdujo Cronbach para designar cadauna de las características de la situación de medición que pueden cambiar de un momento a otro y, por tanto, hacer variar los resultados obtenidos.

Según esta teoría los puntajes observados solo poseen interés si son representativos de todos los puntajes posibles de un mismo universo. Población es el conjunto de personas de las que se extrae una muestra; y Universo es el conjunto de todos los ítems posibles de un constructo; y Universo de Condiciones de Medición al conjunto de todas las facetas estudiadas. Las distintas fuentes de variaciones asociadas a las facetas y a sus interacciones se estima que contribuyen a la varianza de error y disminuyen la generalizabilidad de los puntajes observados en las personas evaluadas.

3. TEORÍA DE RESPUESTA AL ÍTEM

La literatura sobre tests registra en los últimos 30 años un desplazamiento progresivo del esquema proporcionado por la Teoría Clásica de los Tests, hacia el contexto y los procedimientos delineados por la Teoría de Respuestas al Ítem (TRI) [Del inglés: Ítem Response Theory - IRT]. Esta teoría, fue desarrollada para resolver varios de los problemas que presentaba la TCT (Hambleton & Swaminathan, 1985) y que no habían sido resueltos de una manera satisfactoria. Algúnos de esos problemas son: (1) El uso de índices de los reactivos cuyos valores dependen de la población particular de la cuál fueron obtenidos, y (2) La estimación de la habilidad del examinado depende del conjunto específico de reactivos incluidos en la prueba.

Es decir, las características del examinado y las características de la prueba no pueden separarse en un instrumento elaborado conforme a los principios de la Teoría Clásica de los Tests; y por el contrario, cada uno sólo puede ser interpretado en términos del otro. Las características del examinado en las cuales la teoría TRI está interesada, son la "habilidad" que mide el test. Para la TCT, la noción de habilidad se expresa por medio del llamado puntaje verdadero que se define como "el valor esperado a partir de la destreza observada en la prueba en cuestión" (Hambleton, Swaminathan, y Rogers, 1991).La habilidad del examinado se define sólo en términos de una prueba específica. Si el test es "difícil", el examinado parecerá tener un nivel bajo de habilidad. Si el test es "fácil", el examinado parecerá tener un mayor nivel de habilidad. Y el nivel de dificultad de la prueba se define como "la proporción de examinados en el grupo de interés, que contestó el reactivo correctamente" (Hambleton, Swaminathan y Rogers, 1991) Por lo tanto, el que un ítem sea difícil o fácil depende de la habilidad de los examinados a quienes se aplicó la prueba y a su vez, la habilidad de los examinados depende del nivel de dificultad de la prueba. De la misma forma, el nivel de discriminación de los reactivos y los coeficientes de validez y confiabilidad de la prueba se definen también en base a las características del grupo particular de examinados. Así, las características del test y de los reactivos cambian a medida que cambia el contexto de la prueba. Por lo tanto, es muy difícil comparar examinados a quienes se aplican diferentes tests; o aún, comparar ítems cuyas

Page 46: Manual de Medicion Psicologica. 2011 (2)

características se obtuvieron utilizando diferentes grupos de examinados. Esto significa que los coeficientes de los reactivos son dependientes del grupo al mismo tiempo que son dependientes del test. Esta clase de dependencia es la que se trata de eliminar mediante la TRI. Otro problema de la TCT es que es centrada-en-el-test, más que centrada-en-el-reactivo. No se toma en consideración cómo responde el examinado a un reactivo dado, y por lo tanto, no se tienen bases para determinar qué tan bien podría desempeñarse un examinado particular ante un reactivo individual. Es decir, la TCT no permite hacer predicciones acerca de cómo se comportará un individuo o grupo particular ante un reactivo dado. Esta posibilidad de predicción es importante en una gran variedad de situaciones como por ejemplo, cuando se intenta predecir el comportamiento de un profesional ante diferentes tipos de situaciones prácticas. De acuerdo a Hambleton, Swaminathan y Rogers (1991), las principales características de la TRI como una alternativa a la teoría clásica de los tests son: 1. Las características de los reactivos no dependen del grupo del cuál fueron obtenidos; 2. Los puntajes que describen la habilidad del examinado no dependen del test en su conjunto; 3. El modelo se expresa a nivel del reactivo más que a nivel del test; 4. El modelo no requiere de pruebas paralelas para determinar el índice de confiabilidad; y 5. Provee una medida de la precisión de cada índice de habilidad. Los postulados básicos de la TRI son:

1) El resultado de un evaluado en un ítem puede ser explicado por un conjunto de factores llamados rasgos latentes o aptitudes

2) La relación entre la respuesta de un sujeto a un ítem y el rasgo latente que subyace puede describirse como una función monotónica creciente que se llama función característica del ítem o curva característica del ítem (CCI) Esta función específica que a medida que la aptitud aumenta la probabilidad de una respuesta correcta al ítem también aumenta.

3) Las estimaciones de la aptitud obtenidas con distintos ítems serían iguales y las estimaciones de los parámetros de los ítems obtenidos en distintas muestras de examinados serán iguales. Es decir que en la TRI los parámetros de aptitud y de los ítems son invariantes.

La ejecución de un examinado en una prueba puede ser predichos por un conjunto de rasgos, rasgos latentes y habilidades; y (2) la relación entre las respuestas de los examinados a los reactivos y el conjunto de rasgos que subyacen a la respuesta ante el reactivo, pueden describirse por una función monotónicamente incrementada llamada función característica del reactivo o curva característica del ítem (CCI). Esta función especifica que a medida que el nivel del rasgo incrementa, también incrementa la probabilidad de una respuesta correcta ante ese reactivo."

Son supuestos de la TRI:

1. La unidimensionalidad del rasgo latente: que las respuestas del examinado estén determinadas por una única variable denominada Rasgo. Ej.: Un ítem de un test espacial medirá solo habilidad espacial y no ninguna otra cosa (Ferreres Traver, 2005)

2. La independencia local: Las respuestas de un evaluado a cualquier par de ítem son independientes y la probabilidad de responder correctamente a un ítem es independiente de la probabilidad de responder correctamente cualquier otro ítem (Ferreres Traver, 2005).

Existen muchos modelos de la TRI, pero los básicos son:

- Modelo Logístico de un parámetro o Modelo de Rasch que está medido en la misma escala que el parámetro zeta que representa el nivel de habilidad, el parámetro b representa la dificultad del ítem. Cuanto mayor sea el valor de b, más difícil será el ítem ya que mayor será el nivel de habilidad necesario para tener una probabilidad de acertar de 0.5

Page 47: Manual de Medicion Psicologica. 2011 (2)

- Modelo Logístico de dos parámetros o Modelo de Birnbaum que indica en qué medida el ítem diferencia entre examinados con un nivel alto y bajo de habilidad. Cuanto mayor sea el valor de a, mayor poder discriminativo del ítem, parámetro a que representa la discriminación del ítem.

- Modelo Logístico de tres parámetros incorpora junto con el a y el b al c que representa la probabilidad de acertar el ítem que tienen las personas con un nivel de habilidad muy bajo; o parámetro del pseudo azar.

Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir un banco de reactivos con parámetros estimados para cada ítem, de acuerdo almodelo seleccionado. El procedimiento recomendado por Lord (1977) consiste en los siguientes cuatro pasos:

1. Decidir acerca de la forma deseada de la función de información de la prueba o curva de información deseada (target information curve).

2. Seleccionar los reactivos del banco cuya curva de información deseada cae bajo el área de la curva de información de la prueba, de tal manera que saturen el área bajo la curva de la función deseada de la prueba.

3. Conforme se adicionan reactivos a la prueba, se recalcula la curva de información de la prueba con los reactivos seleccionados hasta ese momento.

4. Continuar la selección de los reactivos hasta que la función de información de la prueba se aproxime a la función de información deseada con un grado satisfactorio."

Sin embargo, la TRI no se encuentra libre de problemas y su aplicación contiene ciertos puntos riesgosos debido a que el uso de criterios estadísticos para la selección de los reactivos no asegura una prueba con contenidos completamente válidos. Deficiencias en los procedimientos de selección de los contenidos pueden generar una prueba con un bajo nivel de validez de contenido (Hambleton, Swaminathan y Rogers;1991). Otro problema de la TRI es que cuando se utilizan funciones de información de los reactivos durante el desarrollo de una prueba, es probable que los valores sean sobrevalorados y por lo tanto, la función de información podría sesgarse. Una prueba construida con ítems de valores elevados puede ser que no corresponda a los de la prueba esperada. Como consecuencia, la función de información de la prueba será sobrevalorada y por lo tanto, habrá que añadir varios reactivos adicionales para compensar esta sobrevaloración. Sin embargo, una de las ventajas de la construcción de los tests de acuerdo a los modelos de la TRI es que se pueden elaborar tests individualizados, es decir, “a la medida” de los sujetos que permiten inferir en cada uno de los evaluados un verdadero valor del rasgo de la manera más precisa.

Page 48: Manual de Medicion Psicologica. 2011 (2)

LECCION 3

DEFINICION TEORICA Y OPERACIONAL DE LOS CONSTRUCTOS

1. INTRODUCCION

Un constructo es algo de lo que se sabe que existe, pero cuya definición es difícil o controvertida. Son constructos la inteligencia, la personalidad y la creatividad, por ejemplo. Los constructos no son empíricos, es decir, no se pueden demostrar. Estos conceptos no

Page 49: Manual de Medicion Psicologica. 2011 (2)

son directamente manipulables, igual que lo es algo físico, pero sí son observables a través de la conducta.

Los constructos no tienen referentes empíricos inmediatos Nadie ha visto ni ha tocado la inteligencia de alguien pero sí la puede inferir de la manera en que una persona es capaz de resolver ciertos problemas en relación con la manera en que otros los resuelven. Los constructos tienen como referentes relaciones lógicas entre conceptos. Por ejemplo, se puede decir que la “ansiedad se caracteriza por períodos alternativos de miedo y esperanza”.

Un constructo se refiere a las operaciones mediante las cuales un investigador determina la presencia o ausencia (o la magnitud) de un fenómeno. Estas operaciones son mediciones o registros numéricos, por ejemplo: los puntajes de los tests para medir inteligencia y otras aptitudes, la longitud del recorrido de un ratón en un laberinto, los tiempos de reacción frente a distintos estímulos, la cantidad de errores que se presentan en alguna actividad motora, la cantidad de palabras memorizada, entre otras. De ahí la ingerencia de las técnicas estadísticas en la investigación psicológica en donde siempre hay que operacionalizar los constructos.

2. CONSTRUCTOS

Un constructo es una propiedad que se supone posee una persona, la cual permite explicar su conducta en determinadas ocasiones. Como tal, el constructo es un concepto teórico, hipotético. Por ejemplo, la inteligencia, la motivación, la creatividad, las actitudes, etc. Los constructos se definen como propiedades subyacentes, que no pueden medirse en forma directa, sino mediante manifestaciones externas de su existencia, es decir, mediante indicadores. En otras palabras, los constructos son variables subyacentes, por lo cual, habitualmente, caen en la denominación común de variables. Por su lado, las variables son propiedades, características o atributos que se dan en grados o modalidades diferentes en las personas y, por derivación de ellas, en los grupos o categorías sociales. Así, son variables, la edad, el ingreso, la educación, el sexo, la ocupación, etc., que, como se ve, corresponden a grados diferentes o iguales de darse una cierta propiedad en las personas o de darse en modalidades diferentes.

La psicología se caracteriza por el estudio de la conducta y de los atributos que subyacen a la conducta del individuo. Estos atributos psicológicos, como los procesos mentales, no pueden medirse directamente como hacemos con rasgos físicos tales como la altura o el peso; son constructos o conceptos hipotéticos que forman parte de las teorías que intentan explicar la conducta humana.

Debido a que los constructos psicológicos constituyen abstracciones de la realidad que sólo pueden ser evaluadas indirectamente, el desarrollo del proceso de medición para este tipo de variables presenta algunos problemas específicos.

• No hay una única aproximación a la medida de cualquier constructo que sea universalmente aceptada. Ya que las medidas de un constructo psicológico son siempre indirectas, basadas en conductas que se perciben como relevantes al constructo, siempre existe la posibilidad de que dos teorías diferentes seleccionen conductas diferentes para definir operacionalmente el constructo.

• Las medidas psicológicas generalmente se basan en muestras limitadas de conducta, lo que plantea un importante problema a la hora de decidir qué muestras serían adecuadas y cuáles insuficientes.

• La medida obtenida siempre está sujeta a error. Las medidas en Ciencias del Comportamiento, como consecuencia de tomar muestras limitadas de conducta y de trabajar sobre personas, cambian por efecto de factores muy diversos como la fatiga, el olvido, el aburrimiento, etc.

Page 50: Manual de Medicion Psicologica. 2011 (2)

• Escasez de unidades bien definidas en las escalas de medida a las que se ajustan las variables psicológicas.

• Los constructos psicológicos no pueden ser expresados exclusivamente en términos de definiciones operacionales sino que también deben haber demostrado relaciones con otros constructos o fenómenos observables. Se hace necesario un segundo nivel en el que los constructos sean definidos en términos de sus relaciones, ya lógicas ya matemáticas, con otros constructos dentro de un sistema teórico amplio.

El grado en el que un individuo posee uno de estos atributos, solamente puede inferirse a partir de la observación de su conducta. Este carácter no observable de la mayor parte de las variables psicológicas, hace especialmente difícil el diseño de tests o instrumentos para su medida. Lo cual sucede por ejemplo con la inteligencia, la creatividad, la dependencia de campo, etc.

De esta manera el constructo debe tener cierta correspondencia con las conductas que se derivan de él y la manera más objetiva de establecer este tipo de correspondencias una vez que se han establecido los items es a través de la validez de constructo: la determinación de que los ítems están referidos al constructo que se ha señalado, a su vez, la correcta especificación del constructo en términos observables.

La validación de constructo, entendida como las evidencias que apoyan que las conductas observables del test son indicadores del constructo, es el aspecto esencial de la validez y permite unificar las otras categorías.

El proceso de definición de constructos ha sido uno de los principales aspectos que más controversias ha creado, ya que siempre en las investigaciones ha sido uno de los aspectos más olvidado, por considerarse algo privado-subjetivo, informal o indocumentado. Estas conclusiones han sido avaladas por los estudios hechos al respecto sobre test de logros, llevados a cabo por Cronbach (1970) o Roid y Haladyna (1980).

Este tipo de conclusiones nos lleva es a definir los constructos a partir de una serie de comportamientos manifiestos, es decir, se piensa que un determinado constructo está determinado de una manera y que a este constructo le corresponde una conducta, y se afirma que después de establecer una serie de ítems con respecto a esta conducta, el constructo está formulado y/o se corresponde con la realidad observada.

Los inconvenientes a este tipo de formulaciones o desarrollos, es que se pueden dejar áreas de conducta sin cubrir, así como incluir una serie de conductas que no pertenecen en realidad al constructo de interés.

De esta manera las formas más objetivas de desarrollar los constructos son las siguientes:

a) Análisis de contenidos. Se plantean una serie de cuestiones abiertas a los participantes sobre el constructo que se quiere evaluar, y sus respuestas se clasifican en tópicos o temáticas. Los tópicos predominantes se toman entonces como componentes mayores del constructo y a su vez serán los que produzcan mayor proporción de ítems.

b) Revisión de las investigaciones publicadas. Se trata de realizar búsquedas bibliográficas relacionadas con el tipo de variables que se quieren medir y establecer aproximaciones con los items deseables en función de lo más representativo en la literatura.

c) Incidentes críticos. Se trata de analizar los patrones característicos de los extremos del continuo que se desea medir y en función de esto se redactan los ítems que permitan graduar a los sujetos en un atributo determinado.

d) Observación natural. Observar las conductas relacionados con el constructo a medir en situaciones naturales y usarlas para definir el constructo y las colaterales a la hora de establecer los criterios de selección de items. Es análogo al proceso de elaboración y

Page 51: Manual de Medicion Psicologica. 2011 (2)

construcción de categorías de observación propio del esquema de investigación cualitativo-descriptivo.

e) Juicio de expertos. Recurrir a un experto –personas que tienen experiencia de primera mano con todo aquello que tiene que ver con el constructo- en el tema para que nos defina el constructo mediante el uso de cuestionarios o entrevistas estandarizadas.

f) Objetivos instruccionales o de programas de intervención. Es similar al anterior lo que lo diferencia es la materia a la que va dirigida, en este caso se trata de materias educativas y en concreto tests de instrucción y se recurre a juicios expertos para que nos indiquen qué objetivos debe cubrir nuestra investigación, qué preguntas debe llevar el cuestionario. Un objetivo instruccional especifica conductas observables que se deberían de cubrir si el evaluado ha alcanzado el objetivo y por lo tanto conductas que los estudiantes deben de ser capaces de exhibir después de haber completado un curso de instrucción. Estos objetivos sirven para que la persona que construye el test conozca los contenidos específicos en los que se focalizarán los ítems así como la naturaleza de las tareas que los examinados deberían de ser capaces de realizar. Como señalan Crocker y Algina (1989) estos métodos son algunos de los que podemos usar para definir el dominio en el que estamos interesados, así como la combinación de más de uno de ellos. No obstante hay que destacar que aunque fundamentados en conceptos teóricos, la mayoría de estos procedimientos no se aplican. Lo que puede deberse a cuestiones pragmáticas, ya que en los casos en los que nos sustenta una buena teoría se tendrán menos costes y los beneficios serán mayores, no obstante no hay que olvidar que la ciencia es más confirmatoria que exploratoria.

En la formulación y plasmación de nuestra teoría además de ayudarnos de nuestro criterio lógico del tema, hemos recurrido en algún momento a estudiosos del tema, que nos han señalado las fuentes teóricas más importantes.

Es importante determinar el constructo o atributo, para determinar a su vez el grado en el que un individuo posee determinado atributo, o este sirve para predecir otro tipo de constructos. En otras palabras, es preciso plantearse el constructo en su complejidad y adoptar decisiones en torno a la representatividad de los ítems de cara a muestrearlo adecuadamente. Lo que requiere hacer una diferenciación entre medidas referidas a la norma o al criterio.

Medidas como inteligencia, creatividad o desarrollo moral son de interés primario en cuanto al grado en el que los individuos difieren en la cantidad de atributo. El desarrollo de tests para diferenciaciones típicamente requiere:

• Conceptualización de los componentes mayores que representan el constructo (recordar el apartado precedente).

• Producción de ítems en estas áreas.

• Selección de ítems en los cuales se espera un cierto grado de variación en función de la ejecución. Es decir, que efectivamente se discrimine a los examinados por el grado de manifestación del atributo/constructo. Uno de los análisis más importantes viene dado de hecho por el índice de discriminación, tal y como se verá en temas posteriores.

En referencia al constructo, y a las conductas que son derivadas de él, y a partir de los cuales se forman los items, se van a presentar una serie de items sobre los que se va a producir al menos una mínima variación. Puesto que en esta perspectiva la construcción del test viene dada por la comparación de la ejecución diferencial de los diferentes examinados, estos tests son denominados como “referidos a la norma”.

En contraposición, en la medida en la que se establece como algo importante el logro del propio sujeto con referencia a un objetivo externo, estamos imponiendo medidas con respecto a criterios, es decir, test referidos al criterio. En estos casos la ejecución se mide

Page 52: Manual de Medicion Psicologica. 2011 (2)

en términos más absolutos de capacidad, por ejemplo para determinar si se ha alcanzado un nivel de competencia mínima en un aspecto académico para evaluar en general la efectividad de un programa instruccional.

En este nuevo tipo de test, los métodos del apartado precedente son insuficientes para definir adecuadamente el constructo. Más bien se procede de la siguiente manera:

• Se empieza fijando un conjunto de objetivos instruccionales.

• Se define un dominio de actuación, llamado domino del ítem, ligado a cada objetivo a partir del cual poder hacer inferencias correctas sobre la base de las puntuaciones en el test.

• Este dominio es su campo o esfera. Una población bien definida de ítems a partir de la que se podría construir más de una forma –paralela- del test, por selección de una muestra de ítems a partir de la misma. Por ello también se denomina a esta aproximación como muestreo de un domino.

• Se opta por producir un conjunto de especificaciones del dominio del ítem más que crear todos los posibles ítems uno por uno, de manera que sean tan estructurados que al concretarlas en ítems concretos, éstos sean intercambiables.

Así se establecen una serie de métodos para describir los items referidos al dominio, pero uno de los más comentados es referido a la especificación de los items. Este tipo de procedimiento incluye:

• Especificar las fuentes de contenido del ítem. • Descripciones del problema o del estímulo. • Características de respuesta correcta. • Y en el caso de respuestas de elección múltiple, la respuesta incorrecta.

3. OPERACIONALIZACIÓN DE CONSTRUCTOS

La operacionalización de constructos es el proceso que va de la definición de un concepto al instrumento de medida.

Los constructos es una categoría, una abstracción que se define a través de la alusión a otros conceptos, un concepto se define a partir de otros conceptos.

El grado de precisión de la definición de un constructo, va a depender de los conceptos que se utilizan en su definición. Como un concepto se define a partir de otros, según las relaciones que tengan entre ellos, de la teoría de los otros conceptos, dependerá la precisión de un concepto, por ello cuanto mayor es el desarrollo de la teoría mayor será la precisión en los conceptos.

Los conceptos no se pueden medir directamente, se miden las definiciones operativas de ese concepto, por ello los conceptos requieren operacionalización.Los conceptos que se manejan en enfermería son vagamente definidos.

Constructo ---- Facetas ---- Dimensiones ---- Indicadores de definiciones operativas.

El Concepto se puede situar en una escala en arreglo a su complejidad y esto depende de las facetas que contenga.

Facetas o factores de un concepto: son los diferentes aspectos que componen un concepto, organizados y en estrecha relación entre ellos. No todos contribuyen de la misma forma ni en el mismo grado. Ejemplo: Satisfacción - trato. Facetas que lo componen: información, pericia, continuidad cuidados, organización de los cuidados, etc.

Page 53: Manual de Medicion Psicologica. 2011 (2)

Dimensiones: miden los aspectos o facetas, es lo medible dentro del concepto. Ejemplo: se mide la frecuencia, la intensidad, el ritmo, el ciclo, etc.

Indicadores: son las características observables. Es traducir un concepto en valoración numérica. Ejemplo: la risa, el llanto, la agitación.

Los hay mejores y peores, para valorarlo hay que tener en cuenta ver un conjunto de criterios:

Kerlinger (1988, 3ª edic.) dice que los constructos pueden ser definidos usando otros constructos Por ejemplo, al definir inteligencia como “la aptitud para pensar en forma abstracta” o como “agudez mental”. Una definición es constitutiva cuando define un constructo por medio de otro constructo. Por ejemplo, definir “ansiedad como miedo subjetivo”. Según Torgerson (1958) todos los constructos para ser útiles científicamente deben poseer un significado constitutivo.

Existen otro tipo de definiciones que son las definiciones operacionales. Una definición operacional de un constructo se refiere a las operaciones mediante las cuales un investigador determina la presencia o ausencia (o la magnitud) de un fenómeno. Estas operaciones son mediciones o registros numéricos, por ejemplo: los puntajes de los tests para medir inteligencia y otras aptitudes, la longitud del recorrido de un ratón en un laberinto, los tiempos de reacción frente a distintos estímulos, la cantidad de errores que se presentan en alguna actividad motora, la cantidad de palabras memorizada, entre otras. De ahí la ingerencia de las técnicas estadísticas en la investigación psicológica en donde siempre hay que operacionalizar los constructos para poder estudiarlos.

4. TABLA DE ESPECIFICACIONES

En definitiva, se construye una tabla de especificaciones cruzando contenidos y operaciones y se detallan los ítems para cada combinación, indicando en los márgenes la proporción de ítems de cada categoría o contenido cubierto.

"Una tabla de especificaciones sirve para relacionar los objetivos con la evaluación”.

Una tabla de especificaciones representa la forma en que la prueba será diseñada, es un plano previo de ella o un esbozo del alcance y énfasis respecto de los contenidos y objetivos vistos en clase y en un determinado período lectivo.

Es una modalidad de planificación.Permite orientar la confección de un instrumento evaluativoCautela una representatividad a un nivel muy específico.Considera como elementos centrales: las conductas y contenidos de los objetivos a evaluar, el número de ítemes, el tipo, su puntuación y el tiempo que involucra la respuesta de cada uno de ellos.

a. CARACTERISTICAS DE LA TABLA DE ESPECIFICACIONES

a. Tener en cuenta los objetivos pretendidosb. Tener presente la materia o contenidosc. Determinar la importancia relativa de cada objetivo y área para darles en el examen una

extensión proporcional a su importanciad. Seleccionar el tipo de prueba más adecuada a la situación e. Calcular el número de preguntas que corresponden a cada objetivo y áreaf. Determinar el grado de dificultad de las preguntas.g. Hacer un esquema general del examen.

Page 54: Manual de Medicion Psicologica. 2011 (2)

TABLA DE ESPECIFICACIONES

Variable a medir

DefiniciónDimensiones

Operacionalización Indicadores Ítemes

Se consigna el constructo

Definición del constructo, debe contenercategorías, dimensiones o capítulos

Miden los aspectos o facetas, es lo medible dentro del concepto. Ejemplo: se mide la frecuencia, la intensidad, el ritmo, el ciclo, etc.

Se especifica el tipode respuesta que serequiere adecuado al objetivo que hacereferencia al proceso subyacente: Comprender, analizar, deducir, inferir

Explicitar elproducto del contenidorequerido

Para pruebas objetivas pueden ser:CompletamientoJerarquizaciónVerdadero falsoAparejamientoElección múltiple

Ejemplo de Variable: Paranoia

VARIABLE DEFINICIONTEORICA

DIMENSIONES INDICADORES ITEM

Es una psicosis delirante generalmente crónicas, cuya gravedad puede variar según sea la estructura de la personalidad que se ve afectada y se organizan como desarrollos delirantes.

Desconfían de las personas

Enunciados AfirmativosSiempre sospecho si lo que me dicen no es verdad._No confió fácilmente en mis amigos_pienso que lo que realice yo siempre estará bien.Enunciados Negativos_Siempre acepto invitaciones de personas que me llamen la atención._acepto los consejos de mis amigos porque sé que les intereso._no cuestiono las explicaciones que me dan mis allegados.

Abusan del razonamiento deductivo que parten de los prejuicios

Enunciados Afirmativos_.Pienso que las personas que usan armas pueden lastimarme._creo que las personas que me miran mucho están tramando contra mí.

Page 55: Manual de Medicion Psicologica. 2011 (2)

PARANOIA

1. COGNITIVA Forman sus propias creencias

Enunciados Afirmativos_Siempre debo fijarse que nadie me este mirando mucho._ No debo sentarme cerca de otras personas en el autobús._Si una persona saluda a mi enamorado(a) antes que a mí, es porque está interesado en él (la)

Piensan que los demás quieren perjudicarlos

Enunciados Afirmativos_No comparto mis ideas porque sé que me las podrian robar._Las personas que se me acercan sin que les llame deben estar planeando algo contra mí.Enunciados Negativos_siempre confió en los buenos deseos de los demás

Tienen pensamiento obstinado

Enunciados Afirmativos_Siempre debo hacer lo que pienso sin importar lo que lo digan los demás_ Aunque todo este en contra de lo que yo quiero hacer igual lo hago._Siempre defiendo lo que pienso aunque mis argumentos ya no sean validos para otros.Enunciados Negativos_ cuando me doy cuenta que mis ideas no son lógicas desisto de ellas._me desagrada aferrarme a algo que me causa malestar.

Tienen la idea contante de que algo malo les podría suceder

Enunciados Afirmativos_ Sé que en algún momento alguien me querrá lastimarme._ Debo cuidar mi salud siempre, porque podría enfermar de algo grave.Enunciados Negativos_No exagero en mis cuidados personales._no me sugestiono con que algo malo me sucederá._realizo mis actividades diarias sin la preocupación de que una desgracia me asecha.

Tienen pensamiento rígido

Enunciados Afirmativos_Pienso que sólo hay una manera de resolver un problema._ Escucho los consejos de los demás pero nunca les tomo interés.Enunciados Negativos_siempre busco diferentes alternativas para resolver un problema.

Tienen pensamiento extremista.

Enunciados Afirmativos_Si una persona no me apoya significa que no me estima._Si una persona no es mi amiga entonces es mi enemiga.Enunciados Negativos_si una persona piensa distinto de mí no significa necesariamente que este equivocada.

Piensan que sus ideas triviales tienen una verdadera lógica

Enunciados Afirmativos_Creo que las cosas sin importancia nos darán las respuestas que buscamos._Me preocupo mucho porque sé que sólo así me respetaran.

Tienen ideas de grandiosidad

Enunciados Afirmativos_Los demás deberían imitar todas mis actitudes.

Page 56: Manual de Medicion Psicologica. 2011 (2)

_en una reunión social siempre soy el punto de atención._Las personas me tienen envidia porque saben que soy la mejor.Enunciados Negativos_Pienso que todos tenemos algo especial que demostrar.

Se preocupan por encontrar las claves que revelan las intenciones de los demás

_Siempre estoy atenta de las acciones de algunas personas que me pareciesen sospechosas para desenmascararlos_Utilizo artefactos como camaras, filmadoras, grabadoras para vigilar a ciertos individuos que no gozan de mi confianza.Enunciados Negativos_no me interesa observar demasiado a alguien hasta que comenta un error.

Recuerdan constantemente sus malas experiencias

Enunciados Afirmativos_Recuerdo perfectamente un momento en mi vida en el que me humillaron.Enunciados Negativos_No conservo aquellas experiencias que fueron desagradables para mí.

Piensan que los demás tienen sus mismos prejuicios

Enunciados Afirmativos_Siempre llevo una vestimenta elegante porque sino las personas me criticaran._Mis amigos (as) no se acercan a las personas de color porque saben que son de mal vivir._ Al dialogar con alguien noto que esta cuidando de no mencionarme detalles íntimos de su vida._Las personas no dan datos importantes de su vidaPor temor a que se aprovechen de ello.

Piensan que razonan mejor que los demás

Enunciados Afirmativos_Nadie que conozco es tan analista como yo._Mis conclusiones siempre son las más acertadas.Enunciados Negativos_para realizar un trabajo pienso que dos cerebros piensan mejor que uno

Creen que merecen mayor respeto que los demás

Enunciados Afirmativos_Siempre espero que me saluden primero antes de hacerlo yo._No me agrada tener que esperar turno para que se me atienda.Enunciados Negativos_pienso que todos tenemos los mismos derechos.

Se preocupan en exceso de la fidelidad de quienes los rodea

Enunciados Afirmativos_no me es suficiente las explicaciones de mi pareja._Siempre exijo pruebas para poder creer en lo que me dicen._vigilo a mi pareja para comprobar si lo que me dice es cierto.Enunciados Negativos_no dudo de las explicaciones de mi pareja_ no necesito seguir a alguien para creer en lo que me dice.

Temen dar información que pueda ser utilizada como arma por sus

Enunciados Afirmativos_temo que si comparto mis vivencias lo usen para dañarme._siento angustia cuando alguien quiere ser mi amigo.

Page 57: Manual de Medicion Psicologica. 2011 (2)

enemigos.

LECCION 4

ELABORACION DE LOS ITEMS

1. INTRODUCCION

Mientras que la mayoría de los atributos físicos (altura, peso, etc.) resultan directamente medibles, los atributos (constructos o rasgos) psicosociales resultan ser conceptualizaciones teóricas que no son accesibles a la medición directa y para los que no existen "metros" o "balanzas" diseñados para medirlos de manera precisa. La actitud hacia el aborto, el nivel de cohesión grupal, el grado de extroversión, el cociente intelectual, la postura hacia el consumo de drogas, el grado de liderazgo, todos ellos son constructos que deben medirse mediante instrumentos específicamente diseñados: los tests, cuestionarios o inventarios. Nadie dudaría de que un metro bien diseñado mide longitud y que lo hace de manera precisa, pero la bondad y la precisión de un cuestionario no se puede presuponer; más bien son una cuestión de grado y siempre susceptibles de mejora.

En definitiva, un cuestionario está formado por una serie de elementos o ítems (elementos, reactivos, preguntas, cuestiones, situaciones análogas) a los que cada individuo debe responder. Después de cuantificar las respuestas de una persona a los elementos del cuestionario, se pretende asignar una puntuación (a veces varias) a esa persona respecto al constructo o atributo que se pretende medir con el cuestionario, una puntuación que debería indicar el grado en que la persona participa del atributo, constructo o rasgo a evaluar.

Page 58: Manual de Medicion Psicologica. 2011 (2)

Nos enfrentamos así a un proceso de medición indirecta que incluye la misma construcción del instrumento de medida, proceso que se inicia con la definición clara del constructo a evaluar.

2. ELABORACION DE ITEMS

Conjunto de enunciado, cuyo objetivo es medir las características de un constructo.Es una unidad básica de información de un instrumento de evaluación y generalmente consta de una jerarquía y de una respuesta cerrada o abierta.La definición de cada ítem ha de ser exhaustiva y mutuamente excluyente. Por otro lado, al formular la pregunta deben tenerse en cuenta factores como la comprensión, así como la aceptabilidad para el paciente. Se deben utilizar preguntas breves y fáciles comprensión. No emplear palabras que induzcan una reacción estereotipada. No redactar preguntas en forma negativa. Evitar el uso de las interrogaciones (por qué). No formular preguntas tan obvias. Evitar preguntas que obliguen el uso de cálculos o memoria. Los ítems deben de ordenarse de acuerdo a su complejidad.

Según lo afirman Tornimbeni (2004) existen pautas convencionales para la redacción de ítems de prueba. Estas incluyen recomendaciones tales como: redactar ítems congruentes con el objetivo de medición y evitar los ítems demasiado largos (de más de 20 vocablos), las oraciones complejas con ambigüedades de sentido, las frases con dobles negaciones, el uso de expresiones extremas (nunca, siempre, todos) y utilizar el lenguaje más apropiado al nivel de maduración y educativo de la población (Osterlind, 1990). Para Nunnally (1991) los dos errores más comunes en la redacción de ítems son: a) ambigüedad (preguntas difusas que admiten varias respuestas) y b) trivialidad (centrarse en aspectos poco importantes del rasgo o dominio en cuestión).Existen formatos de selección de respuesta y de construcción de respuesta, los primeros facilitan la calificación automatizada y pueden aplicarse con facilidad a gran cantidad de evaluados. El formato de selección de respuesta en presentar una elección de respuestas y requerir la selección de una alternativa. Existen tres tipos: los ítems de opción múltiple, los ítems de relación y los ítems de verdadero/falso. Un reactivo de opción múltiple consta de tres elementos un enunciado o base del ítem, una alternativa u opción correcta o clave y varias alternativas u opciones incorrectas llamadas distractores.

3. REGLAS GENERALES

a. Verificar que el ítem corresponda con los propósitos de la evaluación, la estructura de la prueba y con las dimensiones disciplinares Todas las preguntas de una prueba deben ser independientes entre sí.

b. La información de un ítem no debe servir de pauta para contestar otra, ni la respuesta a un ítem debe depender de haber encontrado primero la de otra anterior.

c. Evitar los ítems que pueden contestarse por sentido común y aquellos cuya respuesta dependa únicamente de recordar un término, un símbolo, un dato o la fecha en que ocurrió un evento.

d. Evitar expresiones rebuscadas que puedan confundir. Se recomienda emplear un lenguaje directo, sencillo y comprensible.

e. Los ítems no deben tener juicios de valores explícitos o implícitos.

4. REGLAS SOBRE LOS ENUNCIADOS

a. Los enunciados deben ser afirmativos, en caso de ser necesaria la negación, se debe resaltar para llamar la atención hacia la formulación negativa. La doble negación afecta la comprensión (“No es cierto que no procedan los recursos”).

b. Evitar enunciados demasiado extensos y poco atractivos ya que desmotivan la lectura, disminuyen el tiempo de respuesta y fatigan.

c. Garantizar la coherencia interna del enunciado y de este con las opciones de respuesta.

5. REGLAS SOBRE LAS OPCIONES

Page 59: Manual de Medicion Psicologica. 2011 (2)

a. Las opciones de respuesta deben pertenecer al mismo campo semántico.b. Las opciones de un ítem no deben dar indicaciones sobre la clave por ofrecer un cierto

contraste evidente de: o longitud precisión / imprecisión o uso común / técnico o generalización/particularización

c. No se deben repetir expresiones en las opciones de respuesta, si éstas se pueden incluir en el enunciado del ítem. Repetir la misma palabra del enunciado en cualquiera de las opciones lleva a que sea elegida como respuesta, sin serlo necesariamente.

d. Debe evitarse en las opciones las expresiones “todas o ninguna de las anteriores”, en su lugar es necesario construir alternativas de respuesta plausibles para las personas que no tengan el dominio conceptual que exige el ítem.

e. Realizar una revisión gramatical y ortográfica de cada uno de los Ítems.

6. REACTIVOS DE ENSAYO

a. Requieren menos tiempo para la elaboraciónb. Reducen la probabilidad de que los examinandos respondan en forma correcta a los

reactivos por simple adivinación. c. A veces son tan generales que pueden ser interpretadas de manera diferente por

diferentes personas. d. El número de preguntas que pueden ser respondidas generalmente en una clase

puede ser insuficiente para determinar el conocimiento que tiene una persona de la materia de la prueba.

e. Otra desventaja que presentan las pruebas de ensayo son la susceptibilidad al engaño por los individuos con facilidad de palabra que no cuentan con información

f. Su calificación es subjetiva y lleva mucho tiempo.g. Como regla general no deberán usarse reactivos de ensayo cuando el mismo

conocimiento o habilidad puedan ser evaluados por reactivos objetivos. h. Cuando se plantean preguntas de ensayo, la persona que redacta los objetivos debe

tener en cuenta una serie de indicaciones para tratar de hacer las preguntas de manera tan objetiva como sea posible: o Definir la tarea y redactar los reactivos de manera clarao usar un número pequeño de reactivos que deberán responder todos los

examinadoso estructurar la respuesta de los reactivos de forma que los expertos en la materia

estén de acuerdo que una respuesta es mejor que otrao hacer que los examinandos respondan a cada reactivo en una hoja por separado

7. REACTIVOS DE RESPUESTA CORTA, DE VERDADERO Y FALSO Y DE APAREJAMIENTO

a. Pueden calificarse de manera fácil e imparcialb. Permiten un muestreo más amplio del contenido que en las pruebas de ensayo. c. Al preparar las pruebas objetivas debe tenerse cuidado de lograr que los reactivos

resulten claros, precisos y gramaticalmente correctos.d. Las personas que redactan reactivos deben tener sumo cuidado de no incluir claves

para las respuestas correctas y evitar los reactivos interrelacionados o entrelazados. o Dos reactivos están interrelacionados cuando el planteamiento de uno proporciona

una señal para la respuesta del otro. o Dos reactivos están entrelazados cuando es necesario conocer la respuesta a uno

de ellos para llegar a la respuesta correcta del otro.

8. REACTIVOS DE RESPUESTA CORTA

Page 60: Manual de Medicion Psicologica. 2011 (2)

a. Se encuentran a caballo entre los reactivos de ensayo y los reactivos de reconocimiento.

b. Se plantea una tarea en la que se requiere que los examinados completen uno o más espacios en blanco de una afirmación incompleta con las palabras o frases correctas, o que den una respuesta breve a una pregunta.

c. Tienen serias limitaciones :o Son inapropiados para medir objetivos instruccionales complejos o Debido a que puede haber más de una respuesta correcta, la calificación no

siempre es por completo objetivad. Al elaborar reactivos de respuesta corta deberán seguirse las siguientes directrices:

o Las preguntas directas son preferibles a las afirmaciones incompletas.o Plantee los reactivos de forma que las respuestas sean breves y no ambiguas.o Si se utiliza información incompleta, coloque el espacio en blanco al final de la

afirmación.o Haga que todos los espacios en blanco sean de la misma extensión.o Evite usar múltiples espacios en blanco en el mismo reactivo, en especial si es

poco claro el significado de la tarea.o Indique las unidades en que se deben expresar las respuestas numéricas.

9. REACTIVOS DE VERDADERO Y FALSO

a. Es de los más sencillo de elaborarb. Permiten un amplio rastreo del contenido de la materiac. Inconvenientes:

o Se interesan por información trivial o se elaboran copiando afirmaciones literales de un texto.

o Fomentan la memorización o Son de carácter ambiguo o No pueden usarse para medir objetivos instruccionales más complejos. o Debido a que la calificación total de una prueba de este tipo, puede estar afectada

por la tendencia del examinado a adivinar, la precisión de la calificación puede ser cuestionable.

d. Sirven para afirmar el grado de dominio que tienen los estudiantes en un área particular del conocimiento

e. Si los reactivos están bien diseñados, pueden medir más que la simple memoria. Para ello podemos preguntar si:o un concepto, condición o evento implica o es una consecuencia de otro eventoo un concepto, condición o evento es un subconjunto, ejemplo o categoría de otro

eventoo ambos conceptos, condiciones o eventos son verdaderos

f. A la hora de elaborar reactivos es recomendable que atendamos a las siguientes sugerencias:o Las afirmaciones plantean asuntos importantes, de un carácter que no es rival.o Afirmaciones relativamente cortas, y verdaderas o falsas sin lugar a dudas.o Evitar los reactivos planteados de forma negativa, especialmente los de doble

negación.o Evitar los reactivos ambiguos y capciosos.o Evite los determinantes específicos del tipo nunca, siempre, a menudo, en

ocasiones…E n caso de que se usen deben incluirse tanto en las afirmaciones verdaderas como en las falsas.

o En las afirmaciones de opinión, cite la fuente.o Las afirmaciones verdaderas y las falsas deben ser aproximadamente de la misma

longitud y el número de afirmaciones verdaderas debe ser similar al de las falsas.

Page 61: Manual de Medicion Psicologica. 2011 (2)

o Las respuestas erróneas debemos plantearlas de modo más atractivo que las falsas, de tal manera que los errores populares o los determinantes específicos sugieran que las respuestas erróneas son correctas.

10. REACTIVOS DE EMPAREJAMIENTO

a. Tanto los reactivos de verdadero y falso como los de opción múltiple son en cierto sentido, variedades de los reactivos de aparejamiento. o La tarea del examinando en un reactivo de aparejamiento es acoplar las opciones

con la respuesta correcta. o El aparejamiento normalmente es uno a uno, pero también puede ser de una

respuesta a varias premisas, de varias respuestas a una premisa o de varias respuestas a varias premisas.

b. Lamentablemente los reactivos de aparejamiento se utilizan normalmente para la memorización de acontecimientos.

c. Para la elaboración de los reactivos de acontecimiento es preciso que tengamos en cuenta una serie de consideraciones:o Ordenar la premisa y las opciones de respuesta en un formato claro y lógico de

columnas.o Usar entre seis y quince premisas, con dos o tres opciones de respuesta más que

premisas.o Numerar las premisas de manera sucesiva y colocar letras (a, b, etc.) antes de las

respuestaso Especificar con claridad las bases para realizar el aparejamiento.

o Colocar todo el reactivo en una sola página.d. Hay dos tipos especiales de reactivos de aparejamiento el reactivo de reordenamiento,

en el cual se requiere que los examinados clasifiquen un número fijo de categorías predeterminadas. También hay otro tipo de reactivos conocidos como reactivo de rango, los individuos reordenan un conjunto de opciones en orden de la primera a la última (de la más alta a la más baja).

11. SELECCIÓN MÚLTIPLE CON ÚNICA RESPUESTA

Las partes básicas de un ítem de selección múltiple son el contexto, el enunciado y las opciones de respuesta, como se muestra en el gráfico.

a. CONTEXTOEs la información que sitúa conceptualmente al evaluado. Provee elementos necesarios y suficientes para focalizar la tarea de evaluación. En un sentido amplio, el contexto abarca todo el saber previo del evaluado sobre el objeto de evaluación; no obstante, en el proceso de elaboración de un ítem, es usual que el evaluador encuentre pertinente y necesario presentar un texto u otro tipo de información que contribuya a precisar las condiciones del problema, las variables que es prudente considerar, o para ubicar en el tiempo y en el espacio la problemática, etc. El contexto puede ser un texto –por ejemplo, en ítems de comprensión de lectura-, una gráfica, un dibujo, una tabla o cualquier otra forma de presentación de la información a partir de la cual se deriva el enunciado. La selección o elaboración del contexto es una labor exigente en cuanto su propósito es justamente contextualizar y no confundir al evaluado; debe estar articulado con la tarea de evaluación y no debe convertirse en factor que disminuya del tiempo disponible para responder; es decir, su extensión y complejidad deben considerarse, también, a la luz de las condiciones logísticas de la evaluación.

b. ENUNCIADOEs el planteamiento, propiamente dicho, de la problemática que se espera sea resuelta por el evaluado. En el enunciado se hace explícita la tarea de evaluación y, por tanto, dirige el esfuerzo del evaluado para generar o seleccionar una respuesta, por lo cual es fundamental que esté escrito en lenguaje claro y preciso. Tradicionalmente los enunciados de ítems de selección múltiple se plantean en forma de pregunta, o como una proposición. En el primer caso, las opciones se redactan

Page 62: Manual de Medicion Psicologica. 2011 (2)

como respuestas a la pregunta; en el segundo caso, el enunciado constituye la primera parte de una proposición y cada una de las opciones debe completar coherentemente el enunciado. La utilización de una u otra forma de plantear el enunciado es decisión del evaluador y generalmente tiene que ver con la facilidad para redactar, tanto el enunciado como las opciones. Conviene tener en cuenta, eso sí, que la redacción en forma de pregunta resulta mucho más clara para poblaciones infantiles; es decir, los niños parecen responder mejor a la tarea de evaluación cuando el enunciado es una pregunta que cuando es una proposición incompleta. Cualquiera sea la forma en que se redacte el enunciado, es importante verificar su claridad, precisión y articulación con las opciones de respuesta.

c. OPCIONES DE RESPUESTALas opciones son posibles respuestas a la problemática planteada en el enunciado. En el formato de selección múltiple con única respuesta, como su nombre lo indica, sólo una de estas opciones es verdaderamente pertinente y completa para solucionar el problema –tarea de evaluación-; las demás opciones, aunque pueden ser vistas como respuestas plausibles por los evaluados que no dominan la tarea de evaluación, no responden en forma completa o pertinente a la problemática formulada. Otros formatos de selección admiten más de una opción como respuesta válida. En la actualidad, cada vez con más frecuencia, los instrumentos de evaluación educativa incorporan formatos de ítems en los cuales cada opción de respuesta es ponderada de acuerdo con su grado de validez o pertinencia; es lo que se denomina ítems de crédito parcial, y su elaboración supone que todas las opciones son respuestas válidas, aunque cada una en distinto grado, dependiendo de diferentes condiciones planteadas o posibles de inferir del contexto y del enunciado. Se busca con este tipo de ítems, más que valorar, en una categorización dicotómica, si el evaluado respondió o no respondió a la tarea de evaluación, que sea posible identificar perfiles o estilos de desempeño.

12. REGLAS PARA LA ELABORACIÓN DE ÍTEMS DE SELECCIÓN MÚLTIPLE CON ÚNICA RESPUESTA

a. ASPECTOS GENERALES

• No es recomendable trabajar contrarreloj cuando se busca tener un instrumento de calidad. Haga una programación juiciosa de todas las fases del diseño del instrumento y, particularmente, de la fase de elaboración de ítems contemplando tiempos de revisión, ajustes y edición.

• Conforme el equipo de trabajo con base en las competencias de cada miembro y en su saber sobre el objeto de evaluación; el dominio en la disciplina o campo que se evaluará debe combinarse con el conocimiento en medición y evaluación. En lo posible, cuente con el apoyo de alguien con experiencia en el tema.

• Planee sesiones de inducción para quienes vayan a elaborar ítems y asegúrese de que comprenden el propósito del instrumento y los demás planteamientos básicos del marco de fundamentación y de las especificaciones de prueba. Si se trata de personas sin experiencia, deben ser entrenados además en las técnicas de elaboración de ítems.

• Un buen ítem, por lo general, ha experimentado toda una metamorfosis desde su versión original. Durante la fase de elaboración de los ítems, realice sesiones de socialización o análisis conjunto de los ítems elaborados por cada miembro del equipo, con el fin de que cada uno tenga oportunidad de hacer aportes a la cualificación de todos los ítems (tanto en lo que refiere a la forma como al contenido).

• Evite usar eufemismos y prefiera un lenguaje directo, sin sacrificar el nivel técnico y académico del proceso. La claridad y concreción en el lenguaje debe ser una consideración permanente; utilice dibujos, gráficos o tablas sólo si estos en realidad aportan a la comprensión de la tarea de evaluación; tenga en cuenta el tiempo que el evaluado debe emplear para leer instrucciones, contextos, enunciados y opciones, y el tiempo total del cual dispone para responder.

Page 63: Manual de Medicion Psicologica. 2011 (2)

• Asegúrese de que en ninguna parte del instrumento (portada, textos, instrucciones, ítems, etc.) haya errores de ortografía, de gramática o de puntuación, que no se incluya incorrectamente abreviaciones, citas, nombres, cifras, fechas, etc.

13. REGLAS SOBRE EL CONTENIDO DE LOS ÍTEMS

• Evite elaborar ítems que confunden al evaluado. Diferentes estudios han establecido cuáles son algunas de las situaciones que llevan a percibir los ítems como confusos; entre éstas están:

a) Contenido trivialb) Presencia de información irrelevantec) Presentación ambigua de las opciones de respuestad) Discriminación muy fina –difícil de percibir entre las opciones de respuesta e) Presentación de información en modo distinto a como ha sido aprendida por la

población evaluada, dentro de su proceso educativo.

• Cada ítem debe corresponder a una tarea de evaluación definida en la estructura de prueba.

• Evite evaluar el mismo aspecto específico con varios ítems. Aproveche cada ítem para hacer cada vez más completa la evaluación.

• Plantee una sola problemática en cada ítem.• Evite ítems que incluyan posiciones ideológicas o prejuicios; tenga en cuenta que las

proposiciones prejuiciosas pueden resultar en una ofensa para cualquiera de los evaluados. Se exceptúa esta recomendación si justamente dichas posiciones son el objeto de evaluación; entonces será obligatorio incluirlas.

• El vocabulario utilizado debe ser adecuado para la población objetivo.• Cada ítem debe ser independiente y no proveer información para responder a otros.• No utilice ítems que aparezcan en libros, revistas u otros documentos, como base

para sus ítems. Elabore ítems originales.• Evite ítems en los cuales se indague la opinión (parecer no argumentado) del

evaluado (a menos que el instrumento justamente pretenda servir para un sondeo de opinión).

• Evite plantear ítems cuya respuesta válida se determine según la opinión de quien la elabora.

• Balancee la complejidad de los ítems para que el instrumento cubra los niveles de habilidad de la población objetivo, es decir, la prueba debe incluir ítems de dificultad alta, media y baja.

14. REGLAS SOBRE CONSTRUCCIÓN DEL ENUNCIADO• Si plantea el enunciado en forma de proposición incompleta asegúrese de usar

conjugaciones verbales, género y número adecuados para las opciones de respuesta que planteará. Si lo escribe en forma de pregunta asegúrese de usar adecuadamente signos de interrogación y la estructura gramatical de una pregunta.

• Presente en el enunciado la tarea de evaluación.• Escriba con claridad. • Evite texto excesivo.• Redacte el enunciado en forma positiva; es decir, evite negaciones.

15. REGLAS SOBRE CONSTRUCCIÓN DE OPCIONES DE RESPUESTA• Asegure la concordancia gramatical entre la proposición del enunciado y cada opción.• Organice las opciones en un orden lógico (alfabético, longitud, etc.) o numérico.• Mantenga la independencia entre las opciones. Éstas no deben solaparse o

intersectarse y no deben ser sinónimas.• Refiérase en todas las opciones al problema planteado en el enunciado. Evite opciones

fácilmente descartables.• Elabore opciones de respuesta de longitud similar.• Evite colocar como opción:

- Todos los anteriores - Ninguno de los anteriores- A y B son correctas (o cualquier combinación de opciones)

Page 64: Manual de Medicion Psicologica. 2011 (2)

- No sé• Redacte las opciones en forma positiva, es decir, evite negaciones. Si debe colocar una

negación, resáltela (use negrilla o mayúsculas sostenidas).• No repita en las opciones frases contenidas en el enunciado.• Elabore ítems con 4 opciones de respuesta. Elaborar opciones plausibles es

dispendioso; seguramente ganará calidad en las que redacte si no son demasiadas. Hay referencia de distintos estudios que analizaron la cantidad de opciones útiles para los propósitos de evaluación12 13 ; si bien no existe consenso alrededor de un único número de opciones, se encuentra a menudo conveniente, en cuanto a facilidad de redacción y capacidad de discriminación, trabajar con 4 opciones; para poblaciones de infantes puede ser conveniente usar 3 opciones.

• Evite en las opciones el uso de adverbios como: “Siempre” “Nunca” “Totalmente” “Absolutamente” “Completamente”

• La posición de la opción válida debe balancearse entre todos los ítems del instrumento. Es recomendable que aparezca proporcionalmente en cada posición posible.

• Evite que la opción válida pueda ser identificada fácilmente por contraste con las demás opciones, por alguna de las siguientes situaciones:

- tener la mayor longitud- ser la proposición de mayor precisión o imprecisión- estar redactada en un tipo lenguaje diferente (técnico o común)- tener el mayor nivel de generalización o de particularidad - tener las mismas palabras que el enunciado- referirse a una problemática o tema diferente• Justifique adecuadamente cada una de las opciones para garantizar que sólo hay una

válida y que las demás son plausibles para quienes no dominan completamente la tarea de evaluación

16. FORMACIÓN Y REPRODUCCIÓN DE UN TEST

Antes de formar un prueba deben tomarse decisiones finales sobre asuntos tales como si la longitud de la prueba se ajusta para los límites de tiempo, la agrupación u ordenación de los reactivos en las páginas del cuadernillo de prueba, dónde se marcarán las respuestas, la reproducción del cuadernillo de la prueba y la hoja de respuestas, la información que debe incluirse en las instrucciones de la prueba.

a. Extensión de la pruebaHay que tener en cuenta los límites de tiempo, el grado y nivel de lectura de los examinados, la extensión y dificultad de los reactivos.

o La experiencia previa con reactivos del mismo tipo general que los incluidos en una prueba es un indicio que nos ayuda a determinar si los límites de tiempo son apropiados.

o Responder a una pregunta de opción múltiple lleva el mismo tiempo que contestar a 2 de V – F

o A menos que los reactivos sean muy largos o demasiado difíciles la mayoría de los estudiantes terminarán la prueba en el tiempo asignada.

o Existen diferencias entre los estudiantes en cuanto al tiempo que requieren para terminar una prueba.

Hay un conjunto de factores que interaccionan entre sí (preparación, personalidad, estado emocional y físico del estudiante, naturaleza, dificultad del material de la prueba y del ambiente del examen) haciendo difícil predecir cuánto tiempo le llevará a un alumno terminar una determinada prueba.

b. Ordenamiento de los reactivos

Page 65: Manual de Medicion Psicologica. 2011 (2)

o Es un indicio que tienen en consideración los estudiantes cuando están indecisos de qué respuesta es más probable. De hecho es más posible que elijan las opciones b y c que otras como a y d.

o Es aconsejable ordenar los reactivos de opción múltiple y de verdadero y falso de tal manera que no sigan un patrón, por ejemplo ordenarlos por orden alfabético o aleatorizando las opciones.

o En los reactivos de aparejamiento o reordenamiento, la tarea de los examinados no es tan ardua para el examinado si colocamos todas las premisas y opciones de respuesta en la misma página.

o Colocar los reactivos de respuesta corta en grupos de cinco o algo así también puede reducir los errores al presentar y cualificar una prueba.

o Debe proporcionarse espacio suficiente para responder a los reactivos de respuesta corta y a los de ensayo.

o Podemos suponer que la tarea de los examinados es más sencilla cuando se agrupan juntos reactivos del mismo tipo, pero la evidencia al respecto no es concluyente.

o En aquellas pruebas que contienen reactivos objetivos y reactivos de ensayo, estos últimos suelen colocarse al final puesto que requieren más tiempo y diferentes procesos de pensamiento que los primeros.

o El principal objetivo de los diseñadores debe ser preocuparse menos por el ordenamiento de los reactivos e interesarse más en asegurarse de que están bien escritos y que miden lo que se supone que deben medir.

c. Hoja de respuestas

o En la mayoría de las pruebas que se administran en un aula, especialmente en los primeros grados, es aconsejable que los estudiantes marquen o escriban sus respuestas en el cuadernillo de la prueba ya que ello genera menos errores al indicar la respuesta.

o En los reactivos objetivos también facilita la calificación el hecho de que los examinados escriban las letras o respuestas en los espacios marginales situados a la izquierda de las preguntas.

o Las hojas de respuesta por separado, que son más fáciles de calificar, pueden usarse a partir de los últimos años de la escuela elemental.

d. Instrucciones en los tests

o Es aconsejable escribir las instrucciones en negrita para evitar que los examinados las salten

o En una prueba individual las instrucciones se dan de manera oral. o Indiferentemente de si las instrucciones se dan de manera oral o escrita, en ellas

debe informarse a los examinados sobre cuál es el propósito de la prueba, cómo deben indicarse las respuestas, el tipo de ayuda que pueden esperar si no entienden algo, tiempo que tienen para terminar la prueba, calificación de las respuesta, si es recomendable adivinar cuando se tenga duda y cómo corregir si cometieron un error.

o Cuando las instrucciones se den de manera oral deben leerse de forma lenta, clara y exactamente como aparecen impresas. Además después de haber leído las instrucciones debe permitirse a los examinados hacer preguntas.

o En las pruebas de respuesta múltiple hay una gran variedad de temas y/o tipos de reactivos en los que es necesario dar instrucciones específicas de cada parte. Las instrucciones que atañen a muchos de los mismos asuntos pueden variar con el tipo de reactivos objetivos.

Page 66: Manual de Medicion Psicologica. 2011 (2)
Page 67: Manual de Medicion Psicologica. 2011 (2)

TERCERA UNIDADVALIDACION DE LOS TEST PSICOMETRICOS

LECCION 1ANALISIS DE ITEMS

1. INTRODUCCION

Se aplica el pre-test, a una muestra representativa de la población o universo a la cual está destinada la prueba y con los resultados que se obtengan se efectuará el análisis de ítemes.

Los tests psicométricos deben satisfacer ciertos requisitos inherentes a todo recurso destinado a la medición, con el objeto de que sus resultados presenten la mayor correspondencia con la realidad. En tal sentido, los psicólogos tratan de demostrar que sus pruebas miden realmente aquello para la cual fueron elaboradas; que dichas mediciones contienen un margen de error estándar tolerable de medida y que los resultados que nos ofrecen, permiten describir, clasificar y/o predecir algún aspecto del comportamiento de los testados a los cuales se les ha aplicado dichos instrumentos.

Los procedimientos para satisfacer tales requisitos pueden diferir en mayor o menor grado, pero todos suponen un análisis estadístico de parámetros que la psicometría utiliza comúnmente. El análisis de ítemes es uno de los recursos básicos utilizados en la construcción de instrumentos de medición utilizables en psicología, educación y otros campos relacionados (Tavella, 1978).

Page 68: Manual de Medicion Psicologica. 2011 (2)

Para su realización, el análisis de ítemes requiere de un psicólogo con conocimientos en estadística. Si bien existen en la actualidad programas para computadoras con los que se realizan sofisticados análisis de ítemes , cuyo paso superior es el análisis factorial, es conveniente que el profesional psicólogo tenga un conocimiento detallado de estos procedimientos de análisis para una mejor interpretación y evaluación de los resultados de las pruebas.

2. ANALISIS DE ITEMS

Es el estudio de las propiedades de los elementos (preguntas) de un test directamente relacionada con las propiedades de éste.

Es la capacidad que posee cada ítem para discriminar entre aquellos sujetos que alcanzan objetivos buscado, nos permite determinar fácilmente el grado con que esta propiedad se cumple.

Es un conjunto de procedimientos estadísticos que tienen por objeto conocer el comportamiento de cada una de las unidades básicas del test (ítemes), y el de su conjunto. El uso de recursos estadísticos y la interpretación de esa información permite asegurar la validez, confiabilidad, eficiencia predictiva, etc., del test en construcción (Tavella, 1978).

El análisis de ítemes no implica un procedimiento mecánico, pero impone un riguroso respeto a un conjunto de normas cuya violación perjudica la validez de los de los resultados obtenidos con el análisis estadístico.

El análisis de ítemes puede realizarse también en un test ya construido como es el caso de pruebas extranjeras que son traídos a nuestro país. En este caso, dichos tests deben ser adaptados y luego sometidos a un análisis de ítemes para averiguar sus cualidades psicométricas en nuestras poblaciones. Para efectuar dicho análisis, el psicólogo debe obtener la información más amplia posible acerca de la prueba (debe consultar artículos científicos, manuales, monografías, técnicas, etc.), lo cual permitirá orientar productivamente la adaptación y el análisis.

Es determinar el funcionamiento real de cada uno de los ítems o preguntas de un examen, y la frecuencia con que cada una de las posibles respuestas fue elegida por los sujetos.

3. Etapas del análisis de ítemes

a. El psicólogo debe seleccionar la muestra a la cual se aplicará el pretest para investigar el comportamiento psicométrico de la prueba en su conjunto, de sus subtests (si los hubiera), y de cada uno de los ítemes que componen los subtests y la totalidad del test. Es necesario que dicha muestra sea extraída al azar (mediante las técnicas de muestreo), de la población a la cual está destinada la prueba; la muestra debe tener un tamaño suficiente (el psicólogo debe estudiar los tipos de muestreo probabilística y los procedimientos para estimar los tamaños de muestras necesarios).

b. El psicólogo debe tomar las medidas necesarias para asegurarse que el pretest sea administrado de acuerdo con los requisitos que permitan el máximo aprovechamiento de la información recogida durante la aplicación. Entre las medidas más importantes tenemos:

b.1 Antes de la aplicación, reunir y revisar los materiales: cuadernillos, protocolos u hojas de respuesta, lápices, borrador, tajador, cronómetro, etc. El material debe tener un número suficiente para los examinados y estar en estado impecable de presentación.

b.2 Decidir que harán los examinados que terminan antes del tiempo previsto, ¿abandonarán el aula? ¿se les asignará una tarea adicional?, etc.

Page 69: Manual de Medicion Psicologica. 2011 (2)

b.3 Organizar el lugar físico de la aplicación: ambiente adecuado, iluminación, frío, calor, ventilación; prevenir interrupciones innecesarias; comprobar que todos los examinados estén cómodamente sentados y separados suficientemente.

b.4 Distribuir los materiales a los testados (cuadernillos, etc.)b.5 Pedir a los examinados que llenen toda la información solicitada en el protocolo u

hoja de respuestas.b.6 Leer en voz alta las instrucciones de la prueba y la manera como los examinados

deben registrar sus respuestas (marcar un aspa, encerrar en un círculo, sombrear espacios, etc.

b.7 Dar las instrucciones respecto de lo que deben de hacer los examinados que terminan antes del tiempo previsto.

b.8 Comprobar durante la aplicación si los testados están registrando sus respuestas adecuadamente o en la forma indicada.

b.9 Si surge un inconveniente con el contenido de alguna pregunta, la cual implique una revisión rápida por parte de los examinadores, indicar al testado que, por el momento pase al siguiente reactivo.

b.10 Es conveniente, por razones de seguridad y vigilancia, considerar un número suficiente de ayudantes en la aplicación de las pruebas, que eviten cualquier posibilidad de copia u acto doloso.

b.11 Concluida la aplicación, recoger ordenadamente los materiales empezando por los protocolos u hojas de respuesta.

b.12 Luego, en un recinto cómodo, analizar cada hoja de respuesta minuciosamente y observar: Si hay reactivos a los que se les ha dado más de una respuesta, tratar de

determinar si alguna de ellas es la que el probando considera válida y si esto no es posible, anular todas las alternativas que el testado ha marcado.

Señalar las respuestas omitidas o no contestadas tachando los espacios vacios.

En la calificación o cómputo, contabilizar las respuestas correctas y registrar el puntaje directo, crudo o bruto en el espacio o recuadro correspondiente en el protocolo u hoja de respuestas.

Siempre que sea posible, verificar el cómputo, haciendo que otra persona califique nuevamente los protocolos u hojas de respuestas.

c. El psicólogo debe planificar el registro y el tratamiento de la información, de acuerdo con los medios disponibles para el tratamiento estadístico de los datos, en virtud a los siguientes pasos:

c.1 Ordenar los protocolos u hojas de respuesta en estricto orden de méritos, desde el puntaje más alto hasta el puntaje más bajo.

c.2 Elaborar una matriz de puntajes de itemes binarios o dicotómicos (conjunto de hileras o renglones y columnas ordenadas de manera horizontal y vertical, respectivamente), en donde, los datos correspondientes a las hileras corresponden a la performance de cada uno de los testados; en tanto que la información proveniente de las columnas corresponde al funcionamiento de los ítemes).

c.3 Computar los valores “p” de cada ítem (proporción de respuesta correcta que alcanzó cada reactivo), y “q” (proporción de respuesta incorrecta que alcanzó cada item).

c.4Calcular la varianza de cada item, que implica multiplicar la proporción de respuesta correcta por la proporción de respuesta incorrecta (pq), así como también calcular la desviación estándar del item que implica la raiz cuadrada de la varianza.

c.5 Computar si la distribución de puntajes sigue un patrón normal (campana o curva de Gauss), a través de las pruebas de Kolmogorov-Smirnov, Ji cuadrada o los coeficientes de asimetría (alfa 3) y curtosis (alfa 4).

Page 70: Manual de Medicion Psicologica. 2011 (2)

c.6 Calcular la media o promedio aritmético, la varianza y la desviación estándar de las puntuaciones totales del item (y de las parciales en el caso de que hubiera subtests).

c.7 Computar los coeficientes de consistencia interna del test ( o de los subtests en caso los hubiere), a través de los coeficientes Kuder Richardson (KR).

c.8 Calcular los índices de homogeneidad (IH) de cada reactivo a través de los coeficientes de correlación entre el ítem y el test (representado por la columna de puntaje directo o puntaje compuesto); en buena cuenta se trata de una correlación item-test (rit). En caso de haber subtests, se calculará la correlación tomando el valor del item del subtest con el puntaje total del subtest, y luego la del item con el puntaje total del test.

c.9 Calcular la concomitancia entre el puntaje del subtest (si los hubiere), y el puntaje total del test, a través del coeficiente de correlación de Pearson. El coeficiente resultante debe ser corregido por la fórmula de corrección, dado que cuando se relaciona un subtest con el test, el coeficiente tiende a “inflarse” y arrojar valores espúreos ya que el puntaje del subtest también forma parte del puntaje del test.

c.10 Computar la intercorrelación de puntajes de los subtests (si los hubiere), a través del coeficiente de correlación de Pearson. El coeficiente resultante no debe sobrepasar el valor de 0.40.

c.11 Calcular la correlación entre los ítemes (correlación item-item; rii ), a través del coeficiente de correlación de Pearson. También se puede utilizar la fórmula abreviada del coeficiente fi.

c.12 Cuando no se dispone de tiempo para realizar todo el proceso de análisis de ítemes, pueden efectuarse procedimientos simplificados utilizando o dividiendo a la muestra en dos grupos: superior e inferior (sobre el punto, ver más adelante la técnica simplificada de análisis de ítemes).

c.13 Un análisis de ítemes completo incluye representaciones gráficas (polígonos de frecuencias, histogramas, etc.), de la distribución de frecuencias de los puntajes totales (y de los subtests -si los hubiere-); asimismo, tabulación de las proporciones de respuestas correctas de cada ítem, corregidas para el efecto del azar y proporción (o análisis) de elección de cada uno de las opciones incorrectas o distractores; también elaboración de matrices de varianzas y covarianzas para los subtests (si los hubiere) y de varianzas y covarianzas para los ítemes.

c.14 Computar la correlación múltiple entre el puntaje total del test y los puntajes de los subtests (si los hubiere), con estimación de los coeficientes de regresión parcial, para la ponderación de cada uno de los subtests.

c.15 Finalmente, es optativo la realización del análisis factorial de la matriz de intercorrelaciones de los ítemes para establecer factores comunes (Tavella, 1978).

Los ítems o cuestiones se han formulado de manera lógica para que midan (y lo hagan bien) el constructo, variable, o rasgo que interesa evaluar con el cuestionario. Ahora bien, el grado en que cada ítem es un "buen medidor" del rasgo de interés es algo que se puede comprobar estadísticamente de manera sencilla si obtenemos tres indicadores para cada ítem:

a) El índice de dificultad.b) El índice de homogeneidad.c) El índice de validez.

Para ello, tras aplicar el cuestionario provisional a una muestra de sujetos representativa de la población a la que va dirigida la prueba (se aconseja entre 5 y 10 veces más sujetos que ítems), y una vez cuantificadas las respuestas de cada individuo, se forma una matriz de datos de sujetos x ítems:

a. ÍNDICE DE DIFICULTAD DEL ITEM (ID)

Page 71: Manual de Medicion Psicologica. 2011 (2)

Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestión, por lo que sólo tiene sentido calcularlo para ítems de tests de rendimiento óptimo (con respuestas correctas e incorrectas).

La dificultad de un ítem se entiende como la proporción de personas que responden correctamente un reactivo de una prueba. Entre mayor sea esta proporción, menor será su dificultad.

Lo que quiere decir que se trata de una relación inversa: a mayor dificultad del ítem, menor será su índice (Wood, 1960). Este primer indicador sirve para cuantificar el grado de dificultad de cada cuestión, por lo que sólo tiene sentido su cálculo para ítems de tests de rendimiento óptimo.

Para calcular la dificultad de un ítem, se divide simplemente el número de personas que contestó correctamente el ítem entre el número total de personas que contestó el ítem (correcta o incorrectamente). Usualmente, a esta proporción se le denota con una p, e indica la dificultad del ítem (Crocker & Algina, 1986). Se calcula con la siguiente fórmula:

Donde: pi = Indice de dificultad del reactivo iAi = Número de aciertos en el reactivo iNi = Número de aciertos más número de errores en el reactivo i

El nivel medio de dificultad del examen debe oscilar entre 0.5 y 0.6, distribuyéndose los valores de p de la manera siguiente: 5% de reactivos fáciles, 20% medianamente fáciles, 50% con una dificultad media, 20% medianamente difíciles y 5% difíciles. Indicadores:

Muy difíciles : ID<0.25 (10%) Difíciles : ID >0.25 y <0.45 (20%) Normales : ID >0.44 y <0.55 (40%) Fáciles : ID >0.54 y <0.75 (20%) Muy fáciles : ID >0.74 (10%)

El valor del índice de dificultad esta directamente relacionado con la media del test: la media del test es igual a la suma de los índices de dificultad de los ítems.

El nivel o grado de dificultad de un ítem esta determinado por la proporción de sujetos, respecto al total, que responden en forma correcta una determinada pregunta.Este índice nos muestra que tan fácil (valores cercanos a 1) o difícil (valores cercanos a 0) es la prueba.

En los tests de personalidad o actitudes no cabe hablar de índice de dificultad, pero todo lo que hemos dicho del I.D. cabe afirmarlo respecto de la proporción de sujetos que saturan con el atributo, esto es, que responden en el sentido de manifestar el constructo que estamos midiendo.

Pero además, el I.D. puede utilizarse también para ofrecer una idea aproximada del poder discriminativo de un ítem. Si la dificultad de un ítem es nula (es decir, I.D.=1), querrá decir que esa cuestión es demasiado fácil y todos los sujetos la acertarán independientemente de su nivel de conocimiento; es decir, ese ítem no sirve para distinguir (discriminar) a los sujetos que “saben” de los que “no saben” por lo que no puede considerarse como un buen elemento evaluador. Exactamente lo mismo ocurrirá

Page 72: Manual de Medicion Psicologica. 2011 (2)

con un ítem que tenga un índice de dificultad de 0, es decir, tan difícil que no lo acierte ningún sujeto de la muestra.

Así pues, los ítems idóneos para incluir en una prueba de rendimiento óptimo serán aquellos que tengan un I.D. próximo a 0.5 (dificultad media y discriminación alta), siendo además aconsejable incluir siempre algún ítem más fácil (colocados al principio por razones obvias de motivación) y alguno más difícil (al final del cuestionario) para garantizar el poder discriminativo general del test.

Interpretación: a medida que el ID aumenta, el ítem es más fácil (en propiedad habría que llamarlo índice de facilidad); además, en muchos tests no tiene sentido de hablar de ID, ej, los cuestionarios de personalidad, que no tienen respuestas acertadas o erróneasLimitaciones: el ID no es una propiedad intrínseca del ítem, su valor depende de la muestra de sujetos a la que se aplique (la solución la da la Teoría de Respuesta a los Ítems)En ítems de elección múltiple, para corregir los efectos del azar, se suele utilizar la fórmula:

Donde:

A: Número de sujetos que aciertan el ítem

E: Número de sujetos que fallan el ítemK: Número de alternativas del ítemN: Número de sujetos que intentan resolver el ítem

La varianza de un ítem puede expresarse en términos de su ID: σj2 = PjQj, donde Pj

sería la proporción de sujetos que aciertan el ítem (su ID) y Qj = (1 – Pj). (la dificultad media de los ítems maximiza su varianza)

b. INDICE DE HOMOGENEIDAD O DISCRIMINACION DEL ITEM (IH)

El índice de homogeneidad de un ítem nos informa del grado en que dicho ítem está midiendo lo mismo que la globalidad del test; es decir, del grado en que es consistente, homogéneo con el total de la prueba.

Dicho IH se define como la correlación existente entre las puntuaciones obtenidas por los sujetos en un determinado ítem y la puntuación total de esos mismos sujetos en el test completo.

Dado que el índice de homogeneidad de un ítem es un indicador del grado en que ese ítem mide lo mismo que la prueba completa, es “coherente” con el total de la prueba, habrá que eliminarlo si su I.H. está muy próximo a 0 ya que esto indicará que ítem y prueba completa tienen muy poca relación entre sí; es decir, miden cosas completamente diferentes. Por el contrario, los ítems cuya correlación con la puntuación total sea cercana a 1 serán muy homogéneos, muy consistentes entre sí y medirán todos lo mismo (como en el caso de los tres ítems utilizados en el ejemplo).

Si la prueba y un ítem miden la misma habilidad o competencia, podemos esperar que quien tuvo una puntuación alta en todo el test deberá tener altas probabilidades de contestar correctamente el ítem. También debemos esperar lo contrario, es decir, que

Page 73: Manual de Medicion Psicologica. 2011 (2)

quien tuvo bajas puntuaciones en el test, deberá tener pocas probabilidades de contestar correctamente el reactivo. Así, un buen ítem debe discriminar entre aquellos que obtuvieron buenas calificaciones en la prueba y aquellos que obtuvieron bajas calificaciones.

Usualmente, se utilizan dos formas para determinar el poder discriminativo de un ítem: el índice de discriminación y el coeficiente de discriminación. Aunque hay varias maneras equivalentes de calcular el índice de discriminación, en este trabajo utilizaremos la siguiente fórmula:

Donde: Di = Índice de discriminación del reactivo iGA aciertos = Número de aciertos en el reactivo i del 27% de personas con las puntuaciones más altas en el test.GB aciertos = Número de aciertos en el reactivo i del 27% de personas con las puntuaciones más bajas en el test.N grupo mayor = Número de personas en el grupo más numeroso (GA o GB).

Indicador:

D > 0.39 Conservar D entre 0.30 y 0.39 Bueno Mejorar D entre 0.20 - 0.29 Regular Revisar D entre 0.00 - 0.20 Pobre Descartar D < -0.01 Pésima Descartar

Un ítem tiene poder discriminativo si distingue entre los sujetos que puntúan alto y los que puntúan bajo en el test (si permite distinguir entre sujetos eficaces frente a ineficaces).Indica la capacidad del ítem para distinguir entre los sujetos de mayor conocimiento y los de menor.Este índice mide qué tan capaz es un ítem para medir las diferencias individuales; desde el punto de vista de objetivo evaluado.Proporciona un indicador bruto del desempeño en cada item por separado de los respondientes competentes frente a los menos competentes

a. Correlación biserial-puntual (ρbp) (aplicación de la correlación de Pearson entre una variable dicotómica y otra cuantitativa; fórmula:

Donde:μp: media en el test de los sujetos que aciertan el ítemμx: media del testσx: desviación típica del testp: proporción de sujetos que aciertan el ítemq : (1 – p).

Page 74: Manual de Medicion Psicologica. 2011 (2)

Al calcular el índice de discriminación, a la puntuación total del test hay que descontarle el ítem cuyo índice de discriminación se pretende hallar (X – j); en caso contrario, se puede usar la siguiente corrección:

Donde:

ρj(x-j): correlación entre el ítem j y el test tras descontar el ítem (x – j)ρjx: correlación ítem-test cuando el ítem está incluido en el testσx: desviación típica del test σj: desviación típica del ítem

b. Correlación biserial (ρb): se usa cuando una variable no dicotómica se dicotomiza (se pierde información)

Donde:μp: media en el test de los sujetos que aciertan el ítemμx: media del testσx: desviación típica del testp: proporción de sujetos que aciertan el ítemy: ordenada correspondiente al valor de la puntuación típica en la curva normal

que deja por debajo un área igual a p

Notas: es una estimación de la correlación de Pearson, y puede dar valores superiores a 1 si alguna de las variables es platicúrtica o bimodal.

La relación entre ρbp y ρb viene dada por:

c. Coeficiente phi (φ): es la correlación de Pearson para dos variables dicotómicas

d. Correlación tetracórica: ambas variables dicotomizadas y se asumen distribuidas normalmente

e. Índice basado en las proporciones de aciertos:

d = Pc – Pi

Donde:Pc: proporción de sujetos competentes (puntúan > Md) que aciertan el ítemPi: proporción de sujetos incompetentes que también aciertan el ítem

Relación con algunos parámetros del testa) Variabilidad: la desviación típica del test está estrechamente relacionada con el

índice de discriminación de los ítems

Donde:σX: desviación típica del test

Page 75: Manual de Medicion Psicologica. 2011 (2)

σj: desviación típica del ítem jρj(x-j): índice de discriminación del ítem j

Si los ítems son dicotómicos, su desviación típica vendrá dada por:

sustituyendo:

Donde Pj es la proporción de sujetos que aciertan el ítem (su ID)

b) Fiabilidad: la fiabilidad de un test puede expresarse en:

O en el caso de que los ítems sean dicotómicos:

En suma, los parámetros de los tests, poder discriminativo (σx) y fiabilidad (α) pueden expresarse en términos del índice de dificultad de los ítems (Pj) y de su índice de discriminación (ρjX)

c. INDICE DE VALIDEZ DE UN ITEM (IV)

Pretende expresar el grado en que un ítem es capaz de predecir (pronosticar) el rendimiento de un sujeto medido a través de una variable externa elegida como indicadora del mismo; por lo tanto, el índice de validez se calculará mediante la correlación entre las puntuaciones de un grupo de sujetos en ese ítem y las puntuaciones de esos mismos sujetos en la variable externa elegida como criterio de validación.

El índice de validez de un ítem refleja el grado en que el ítem esta conectado con la variable que el test intenta predecir (criterio).

La puntuación de los N sujetos en un ítem pueden correlacionarse también con las que estos sujetos obtienen en un criterio de validación externa del test, esta correlación define el índice de validez del ítem.

El criterio de validación es una medida diferente del test para reflejar el mismo rasgo u otro muy relacionado, de tal manera que si el test mide lo que se pretende, debería correlacionar de forma elevada con el criterio.

La conexión entre el índice de validez de los ítems y el coeficiente de validez del test la da:

donde:ρxy: coeficiente de validez del testn: número de ítems del testσj: desviación típica del ítem jρjY: índice de validez del ítem jρjX: índice de discriminación del ítem j

Page 76: Manual de Medicion Psicologica. 2011 (2)

Si los ítems son dicotómicos, entonces: y por tanto:

La fórmula anterior es muy importante, pues expresa el coeficiente de validez del test en función de tres parámetros de los ítems: dificultad (Pj), discriminación (ρjX) y validez (ρjY)

Una paradoja clásica: al maximizar la fiabilidad del test eligiendo ítems con índices de discriminación elevados se rebaja el coeficiente de validez del test (cuanto mayores son los índices de validez de los ítems del test menores son sus índices de discriminación)

Comentarios finales:1) no confundir índice de validez con la validez factorial de los ítems2) ponderación de ítems: puede ser interesante a veces ponderar ítems: regresión

múltiple3) en el proceso de selección de ítems que van a constituir el test definitivo:

(i) se da mayor error si se eligen ítems con índices de discriminación y validez elevados

(ii) el índice de discriminación de un ítem es la correlación ítem-test y depende no sólo del ítem sino del resto de ítems: selección de ítems en pasos o etapas

Page 77: Manual de Medicion Psicologica. 2011 (2)

LECCION 2

VALIDEZ DEL TEST

1. INTRODUCCION

La validez es un aspecto crucial de la medición psicológica y se relaciona con la investigación del significado teórico de las puntuaciones obtenidas por medio de un test (Oliden, 2003).

Las puntuaciones evidencian propiedades de validez cuando se verifica que el test realmente mide el constructo que pretende medir, justificando adecuadamente las inferencias realizadas en función de sus resultados (Nunnally, 1991).

Cuando estimamos la validez de un test, necesitamos saber qué rasgo deseamos que mida.  Este rasgo se llama variable de criterio.  Nos interesa saber qué tan bien corresponden las posiciones de los sujetos en la distribución de los puntajes obtenidos a sus posiciones en el continuo que representa la variable de criterio (Magnusson, 1969).  

La situación ideal en lo concerniente a la validez es que una prueba represente adecuadamente y mida la varianza relevante del constructo, o dicho de otra manera, que las interpretaciones de los resultados de un test estén libres de sesgo de medición (Pérez y Olaz, 2008).  En tal sentido, la teoría de la validez se relaciona con el concepto de sesgo, definido como un error sistemático que produce distorsión en las puntuaciones adulterando su significado teórico (Oliden, 2003).  El hecho que las puntuaciones de un test sean confiables es una condición necesaria pero no suficiente para que sean validas (Muñiz, 1998).

Page 78: Manual de Medicion Psicologica. 2011 (2)

A pesar de su importancia, el concepto de validez es uno de los más complejos y controvertidos de la teoría de los tests (Angoff, 1998; APA, 1999).

En la historia del concepto de validez pueden identificarse tres etapas principales (Pérez y Olaz, 2008).  Según estos autores, en la primera etapa llamada operacional predomina el operacionalismo dominante de la epistemotología de la primera mitad del siglo XX.  Aquí, la validez tratada desde una perspectiva meramente predictiva es sinónimo de la correlación entre las puntuaciones de un test y algún criterio que intenta predecir (Martínez Arias, 1995).  Sin embargo, este tipo de validez no resultaba útil para muchas pruebas en donde ellas mismas constituyen su propio criterio como en el caso de los tests de rendimiento lo cual llevó a introducir el concepto de validez de contenido

La segunda etapa coincide con la publicación del trabajo de Cronbach y Meehl (1955), los cuales consideran por primera vez la llamada validez de constructo como aspecto esencial e inclusivo de las restantes dimensiones de la validez (Martínez Arias, 1995). 

En este período se distinguen tres tipos de validez: predictiva, de contenido y de constructo.  La última etapa guarda relación con la versión de las Normas Técnicas para los Tests Psicológicos y Educativos (APA, 1999), donde se define la validez como la adecuación, significación y utilidad de las inferencias específicas hechas a partir de las puntuaciones de los tests.

Asimismo, la APA (1999), propuso cinco tipos de evidencia de la validez, basadas en: el contenido del test, la estructura interna del test, el proceso de respuestas al test, las relaciones con otras variables externas al test y las consecuencias de su aplicación.

Para verificar la validez de las inferencias realizadas a partir de las puntuaciones de un test se usan procedimientos similares a los utilizados para contrastar cualquier hipótesis científica, es decir, el acopio de evidencias que confirmen o refuten esas inferencias (Pérez y Olaz, 2008).

El producto final del proceso de validación es la medición de un constructo que: a)Esté bien definido en términos de una variedad de observación y eventualmente, b)Se correlacione con otros constructos de interés.

Como podemos apreciar la validez, como la confiabilidad y la consistencia, es un término genérico que se da a una clase de conceptos y procedimientos estrechamente relacionados.  Desde esta perspectiva y como ya hemos visto,  la validez se puede definir en varios niveles y de diversos modos.   En el caso de la validez de las pruebas hay que tener en cuenta (Brown, 1980): 1)¿Qué es lo que mide la prueba? y 2)¿Hasta qué punto mide la prueba lo que dice medir?.  Inclusive, el sentido del concepto se puede comunicar mediante diversos tipos de interrogantes a los que intentan responder los análisis de validez (Brown, 1980): ¿qué rasgos está midiendo la prueba?, ¿mide la prueba el rasgo para el que fue construida?, ¿qué se puede predecir a partir de las calificaciones de la prueba?, ¿qué porcentaje de la varianza en las calificaciones de la prueba se puede atribuir a la variable que mide?.

Debido a que la determinación de la validez puede incluir varios procedimientos, la validez como la confiabilidad es siempre específica de las situaciones, es decir que, en condiciones diferentes, al utilizar muestras distintas o métodos diferentes de análisis, se obtendrán resultados diversos.  Así podemos hablar de la validez del test, en forma legítima, sólo en ciertas condiciones específicas.

En términos estadísticos la validez se define como la proporción de la varianza verdadera que es relevante para los fines del examen.  En este caso, relevante se refiere a lo que atribuible a la variable que mide la prueba. 

Esta última puede ser un rasgo o atributo, o bien, alguna medida observada independientemente.  Por lo tanto, la validez de una prueba se define ya sea por medio de (1) la extensión con que la prueba mide un rasgo subyacente específico hipotético o

Page 79: Manual de Medicion Psicologica. 2011 (2)

construcción, o bien, (2) la relación entre las calificaciones de la prueba y alguna medida de criterio externo (al primer aspecto también se le denomina validez interna o funcional y al segundo validez externa).

Definir la validez como la proporción de la varianza relevante, implica que la varianza verdadera se puede dividir en dos componentes: la varianza relevante y otra varianza confiable, pero varianza irrelevante.  En otras palabras, la variable estable (confiable o verdadera) en las calificaciones de la prueba se compone de dos elementos: lo atribuible a la variable que mide la prueba (varianza relevante o válida) y lo atribuible a otras causas (varianza confiable o irrelevante); o, dicho de otra manera, la variabilidad de un conjunto de calificaciones se determina por medio de la varianza válida, es decir, la atribuible a causas confiables, pero irrelevantes (o sea los errores constantes), y la varianza de error de medición (errores al azar).

La distinción entre confiabilidad y validez  implica que, a diferencia de la confiabilidad, que está influenciada sólo por los errores de medida no sistemáticos, la validez de una prueba se ve afectada tanto por los errores no sistemáticos como por los sistemáticos (constantes).  Por esta razón, una prueba puede ser confiable sin ser válida, pero no puede ser válida si no es confiable.  En resumen, la confiabilidad es una condición necesaria, pero no suficiente para la validez.  Técnicamente, la validez (relacionada con los criterios) de una prueba, como lo indica la correlación entre la prueba y una medida externa de criterio, nunca podrá ser mayor que la raíz cuadrada del coeficiente de confiabilidad de las formas paralelas (Aiken, 1996).

2. VALIDEZ

Validez es el grado en que una situación o instrumento de medida, mide lo que realmente pretende o quiere medir. A la validez en ocasiones se le denomina “exactitud”. Validez es el criterio fundamental para valorar si el resultado obtenido en un estudio es el adecuado.

La validez puede introducir error sistemático que afecta al tamaño y dirección del efecto encontrado. El error de medida se suma al error de muestreo disminuyendo la capacidad. El error sistemático se puede confundir con el efecto real que es el efecto sistemático, el hecho de que existan unos sistemas se puede confundir con el resultado final. Una situación de baja fiabilidad enmascara el efecto.

Cronbach en 1971 señalaba que la validación es el proceso por medio del cual el investigador que desarrolla cuestionarios obtiene evidencia para sustentar sus inferencias. Este proceso de validación requiere un estudio empírico dirigido a recolectar la evidencia requerida.

La validez se ve como una evaluación -más que una característica- de cuán apropiadas y adecuadas son las interpretaciones y los usos que se hacen de los resultados del cuestionario.

En la evaluación de la validez de un cuestionario se busca que las interpretaciones de los resultados se basen en evidencia de que el cuestionario mide lo que realmente se quiere que mida, que los resultados no se vean afectados por variables o factores irrelevantes a lo que se quiere medir. En otras palabras, la evaluación de la validez de un cuestionario concierne los resultados y las consecuencias de las decisiones que se toman con esos resultados.

Por otra parte, Trochim señala que el concepto de validez no debe limitarse solamente a la validez del cuestionario, sino que debe poder hablarse de la validez de cualquier tipo de operacionalización de un constructo.

La evidencia de validez es lo que permite al investigador estar relativamente seguro que no ha errado en el proceso de traducir un constructo a una realidad operante. Según Trochim, esta visión permite hablar de validez tanto cuando se trata de cuestionarios, pruebas,

Page 80: Manual de Medicion Psicologica. 2011 (2)

programas, tratamientos y hasta de muestreo (si se considera que la muestra no es otra cosa que la operacionalización de un constructo llamado población).

3. CARACTERÍSTICAS DE LA VALIDEZ

a. La validez se refiere a la adecuacidad de la interpretación de los resultados para un grupo determinado de individuos. La validez no es una propiedad del cuestionario; aunque, por costumbre, se sigue hablando de la validez del cuestionario.

b. La validez es una cuestión de grado. No existe en términos absolutos. No se puede decir que el cuestionario es válido o inválido. Aumenta o disminuye dependiendo de la calidad de la evidencia que la sustenta. Nuevas evidencias pueden incrementarla o reducirla. Hoy día la validación de una inferencia se presenta como el proceso de determinar si la teoría y las evidencias empíricas respaldan esta inferencia.

c. La validez se refiere siempre a un tipo de uso o interpretación específico. No se puede hablar de la validez de un cuestionario sea cual fuere su uso. A veces los usos son muy próximos, pero aún así hay diferencias.

d. La validez es un concepto unitario. No se puede hablar de diferentes tipos de validez (contenido, constructo, criterio). Se habla más bien de un concepto –validez- y de diversos tipos de evidencia.

e. Para hablar de validez se requiere un juicio evaluativo comprensivo que dictamine si las interpretaciones y usos de los resultados se justifican con la evidencia producida.

4. TIPOS DE VALIDEZ

a. VALIDEZ DE CONTENIDO

Responde a la pregunta ¿los reactivos que constituyen la prueba son realmente una muestra representativa del dominio de contenido (dominio conductual) que nos interesa?. Así pues la validación de contenido consiste en determinar lo adecuado del muestreo de reactivos del universo de reactivos potenciales y la validez de contenido es una “medida” de lo adecuado del muestreo. Ponemos “medida” entre comillas, debido a que, la validez de contenido consiste en una serie de estimaciones u opiniones, que no proporcionan un índice cuantitativo de la validez (no utiliza procedimientos estadísticos).

El contenido significa los constituyentes sustantivos de la “materia” o “tema”, sus componentes reales o informativos. Este tipo de validez se asocia por lo común a las pruebas de rendimiento, aunque no hay razón por la que no pueda aplicarse el concepto en otros campos de las pruebas psicológicas (pruebas de aptitud, habilidades, etc.). En las pruebas psicológicas de rendimiento, se hará hincapié, primordialmente, en el área temática que se cubre (por ejemplo: geometría, lenguaje, etc.), y en los procesos utilizados para responder a los reactivos. El modo de la respuesta tendrá la menor importancia.

La validez de contenido alude a la necesidad de garantizar que el test constituye una muestra adecuada y representativa de los contenidos que se pretende evaluar con él (Muñiz, 1994). Este tipo de validez surge a partir del análisis del contenido de la prueba (Aiken, 1996).

La validez de contenido es llamada algunas veces validez curricular y se refiere a la adecuación del muestreo de un determinado universo de contenido. Se determina examinando el contenido mismo del test y juzgando el grado en que mide verdaderamente los objetivos importantes de un curso o que constituyen una muestra verdaderamente representativa de la materia de instrucción en sus aspectos esenciales

Page 81: Manual de Medicion Psicologica. 2011 (2)

(Cortada de Kohan, 1999). La validez de contenido cuando se trata de los tests de personalidad se llama validez aparente.

La validez de contenido está en función de lo adecuado del muestreo de reactivos y el procedimiento por excelencia para establecer este tipo de validez es someter a la prueba a una valoración por jueces expertos, quienes evaluarán pregunta por pregunta con respecto a los criterios de pertinencia, relevancia, claridad, redacción y suficiencia y, los resultados de esta evaluación permitirán incluir, retirar o reestructurar los ítemes (Medellín Lozano, 2001).

En la validez de contenido, los reactivos de la prueba deben ser una muestra representativa del universo de las conductas o contenidos posibles. El muestreo representativo implica la selección de reactivos en proporción a su enfásis o importancia.

En la construcción de pruebas, el proceso de muestreo de reactivos, tomados de un banco de ítemes potenciales, implica, primeramente la división del dominio de contenido en cierto número de categorías o subcategorías cada una de las cuales representa un área relevante de contenido. A continuación se asigna un peso proporcional a cada categoría, y, finalmente, se muestrean al azar los reactivos de cada categoría, hasta alcanzar el número requerido.

En la práctica, el muestreo de la última etapa no es al azar. Una de las razones para esto es que los reactivos seleccionados (después del análisis de ítemes), tienen que satisfacer, en general, ciertos requisitos estadísticos como por ejemplo, tener una dificultad apropiada. Otra razón, en los tests de rendimiento, es que se puede desear un equilibrio de contenido dentro de cada categoría. En tercer lugar, los reactivos se escogen a veces para que desempeñen funciones específicas, por ejemplo, para que sirvan de “calentamiento” o para probar los límites de los conocimientos de los mejores alumnos.

Asimismo, no hay nada que exija que la prueba sea homogénea. Puesto que, hasta las unidades de instrucción (unidades de aprendizaje, “lecciones”, etc.), más limitadas suelen incluir una gran variedad de contenidos y capacidades, el exigir una elevada homogeneidad sería indeseable y poco realista (Ebel, 1968).

Puede resultar conveniente un nivel elevado de homogeneidad dentro de las subáreas (si el test tiene varias áreas); pero no es necesario que la prueba completa sea homogénea; sin embargo, si nos interesa la validez de contenido de una prueba destinada a medir alguna construcción o rasgo psicológico, será conveniente una elevada homogeneidad (como vemos, todas estas situaciones influirán en el proceso de construcción de un test dependiendo si éste es de rendimiento o de aptitud).

La validez de contenido se determina mediante la comparación sistemática de los reactivos de la prueba con el dominio conductual de contenido postulado. La clave está en el “muestreo”. Generalmente para esta operación se recurre a expertos.

Este procedimiento de validación es lógico y racional y tiene algunas dificultades: no hay índices estadísticos, asimismo, los distintos jueces pueden no estar de acuerdo en cuanto a la validez de contenido de una prueba; asimismo, la falta de claridad en la especificidad del dominio hará que resulten difíciles los juicios de validez de contenido.Existen varios procedimientos que hacen que el proceso sea más objetivo, por ejemplo, se debe lograr una definición específica del dominio del contenido, una descripción que delineará el universo, los conocimientos y las capacidades pertinentes y el origen de los materiales utilizados (si se trata de un examen de rendimiento). También se podrían definir subcategorías importantes y especificar su enfásis proporcional. Además, el constructor de la prueba podría especificar qué contenidos y qué habilidades fueron medidas por cada reactivo. Actualmente, se utilizan algunos de estos pasos. El universo de contenido se suele establecer en forma bastante detallada

Page 82: Manual de Medicion Psicologica. 2011 (2)

y casi siempre se dispone de una clasificación de reactivos por contenido y categoría de habilidades.

En cierto sentido, la validez de contenido es una propiedad general de la prueba; más bien que una situación específica. Si el constructor de la prueba define claramente el universo de contenido y selecciona reactivos que lo representen, tendrá o no tendrá éxito (de manera más precisa tendrá éxito en cierto grado), al alcanzar su meta.Aún cuando podamos no estar de acuerdo con su definición de dominio, debemos evaluar la prueba en función de lo bien que alcance la meta especificada, hasta que punto represente el dominio, tal y como lo definió su constructor (también se le denomina validez curricular).

Validez de Facie. Se confunde fácilmente con la de contenido. Una prueba tiene validez de facie cuando los reactivos parece que miden lo que se supone que tiene que medir la prueba. La validez de facie se determina mediante un examen bastante superficial de la prueba y considera solamente la relevancia obvia. Esta validez puede ser una consideración importante, si la relevancia aparente de los reactivos influye en la motivación del sujeto, por ejemplo, poner preguntas en lenguaje y contenido infantil en una prueba destinada a adultos. En algunas situaciones, el sujeto puede no sentirse motivado a obtener buenos resultados, al sentir que la prueba es poco importante para la decisión que va a tomar.

LECCION 3

VALIDEZ DE CONCURRENTE Y PREDICTIVA

1. INTRODUCCION

La validez, en términos generales, se refiere al grado en que un instrumento realmente mide la variable que pretende medir. Por ejemplo, un instrumento para medir la inteligencia válida debe medir la inteligencia y no la memoria. Una prueba sobre conocimientos de Historia debe medir esto y no conocimientos de literatura histórica. Aparentemente es sencillo lograr la validez. Después de todo, como dijo un estudiante, “pensamos en la variable y vemos cómo hacer preguntas sobre esa variable”. Esto seria factible en unos cuantos casos (como lo sería el “sexo” de una persona). Sin embargo, la situación no es tan simple cuando se trata de variables como la motivación, la calidad de servicio a los clientes, la actitud hacia un candidato político y menos aun con sentimientos y emociones, así como diversas variables con las que trabajamos en ciencias sociales. La validez es una cuestión más compleja que debe alcanzarse en todo instrumento de medición que se aplica. Kerlinger (1979, p. 138) plantea la siguiente pregunta respecto a la validez: ¿Está usted midiendo lo que usted cree que está midiendo? Si es así, su medida es válida; si no, no lo es.

2. TIPOS DE VALIDEZ DE CRITERIO

Page 83: Manual de Medicion Psicologica. 2011 (2)

La validez de criterio establece la validez de un instrumento de medición comparándolo con algún criterio externo.

En la validez de criterio deseamos saber hasta qué punto podemos generalizar (o predecir) hacia el éxito que habrá de tener una persona en la ejecución de una tarea diferente.

a. Validez concurrente. El criterio se fija en el presente. Los resultados del instrumento se correlacionan con el criterio en el mismo momento del tiempo.

b. Validez predictiva. Los resultados del instrumento se correlacionan con un criterio fijado en el futuro. Por ejemplo, una prueba de admisión a la universidad debe reflejar el comportamiento del estudiante a lo largo de la carrera.

Características de la evaluación de criterio a.Debe ser relevante. Debe reflejar los aspectos más relevantes del criterio conceptual. b.Debe ser confiable. La confiabilidad del criterio afecta a la validez de criterio en la misma

medida que la confiabilidad del predictor.

3. VALIDEZ CONCURRENTE

La validez concurrente se da por medio de la comprobación, mediante el uso de medidas estadísticas de coeficiente de correlación, con un coeficiente de validez, en que se juzga en el sentido en que cuanto más alto sea este coeficiente, mayor será este tipo de validez.

El coeficiente se halla teniendo en cuenta un criterio de validación que se da al mismo tiempo que los datos del instrumento. Se emplea esta validez para saber el estado de una persona en el momento actual, por ello es necesario que el criterio externo se dé en el momento presente. Relacionamos los datos del test con los datos externos que se están dando al mismo tiempo. Sirve para clasificar al sujeto en base a esa medida; Conlleva diagnóstico, clasificación y descripción. Incluye el error típico de medida del test como el error de criterio. Si el criterio no es objetivo o significativo el test no es confiable, la validez concurrente no da datos significativos. Si mide lo que se quiere medir este coeficiente de validez se acercará a 1 y significa que el test es válido para hacer clasificaciones.

4. VALIDEZ PREDICTIVA

La palabra predicción o predictivo normalmente se la asocia con visión o anticipación de futuro. En este sentido, cuando estudiamos la validez predictiva de un instrumento lo que nos interesa es determinar hasta dónde podemos anticipar el desempeño futuro de una persona en una actividad determinada, a partir de su ejecución actual en dicho instrumento; por ejemplo, se podría estudiar, hasta dónde la Prueba de Aptitud de Universidades predice el éxito académico de los estudiantes en los primeros semestres universitarios, o anticipar el desempeño futuro de un vendedor a partir de su ejecución en un test de inteligencia social.

En consecuencia, la validez predictiva, también llamada validez de criterio externo o validez empírica, se estudia comparando los puntajes de un instrumento (variable independiente) con una o más variables externas (variables dependientes) denominadas variables criterio. Se asume que tales criterios, indicadores del desempeño futuro, están teórica y lógicamente relacionados con el rasgo representado en el instrumento bajo estudio. Esta comparación entre los puntajes de la variable en estudio y los de la variable criterio se expresa a través de un coeficiente de correlación, el cual se interpreta como un índice de validez. Entre más alta sea la correlación entre una medida o medidas de aptitud académica y el promedio de notas, tomado como variable criterio, mejor será la validez predictiva de la prueba de aptitud académica.

Es importante destacar que la validez predictiva suele estar asociada con problemas y resultados prácticos; es decir, el interés no es tanto en lo que está detrás del desempeño en la prueba, sino más bien en ayudar a resolver problemas prácticos y tomar decisiones.

Page 84: Manual de Medicion Psicologica. 2011 (2)

Muchos de estos problemas y toma de decisiones están relacionados con la evaluación, selección y asignación de personas para diferentes actividades (estudio, trabajo, deporte, arte, etc).

La validez de criterio establece la validez de un instrumento de medición comparándola con algún criterio externo. Este criterio es un estándar con el que se juzga la validez del instrumento (Wiersma, 1986). Entre los resultados del instrumento de medición se relacionen más al criterio, la validez del criterio será mayor. Por ejemplo, un investigador valida un examen sobre manejo de aviones, mostrando la exactitud con que el examen predice qué tan bien Un grupo de pilotos puede operar un aeroplano

Si el criterio se fija en el presente, se habla de validez concurrente (los resultados del instrumento se correlacionan con el criterio en el mismo momento o punto del tiempo). Por ejemplo, un cuestionario para detectar las preferencias del electorado por los distintos partidos contendientes, puede validarse aplicándolo tres o cuatro días antes de la elección y sus resultados compararlos con los resultados finales de la elección (si no hay fraude,desde luego).

Si el criterio se fija en el futuro, se habla de validez predicativa. Por ejemplo, una prueba para determinar la capacidad administrativa de altos ejecutivos se puede validar comparando sus resultados con el futuro desempeño de los ejecutivos medidos.

La validez de criterio puede ser validez concurrente o validez predictiva. La validez concurrente generalmente se alcanza fácilmente con estudios transversales pero la validez predictiva requiere de un estudio longitudinal.

Page 85: Manual de Medicion Psicologica. 2011 (2)

LECCION 4

VALIDEZ DE CONSTRUCTO

1. INTRODUCCION

La validez de constructo es la principal de los tipos de validez, en tanto que «la validez de constructo es el concepto unificador que integra las consideraciones de validez de contenido y de criterio en un marco común para probar hipótesis acerca de relaciones teóricamente relevantes» (Messick, 1980; p.1015), en este mismo sentido (Cronbach, 1984; p.126) señala que «la meta final de la validación es la explicación y comprensión y, por tanto, esto nos lleva a considerar que toda validación es validación de constructo».

La génesis de la validez de constructo como un concepto integrador de validez hay que situarla en la primera versión de los Standards for Educational and Psychological Testing (APA, 1954) y en la publicación del influyente trabajo de Cronbach y Meehl (1955). Según estos autores, esta validez consiste en un análisis de la significación de las puntuaciones de los instrumentos de medida expresada en términos de los conceptos psicológicos asumidos en su medición. Como señala Martínez Arias (1995), este nuevo concepto de validez se empieza a percibir fundamental y básico y, aún más importante, como integrando a los anteriores enfoques de validez —heredados de las tradiciones empirista (validez criterial) y racionalista (validez de contenido)—, poniéndose así los cimientos para este enfoque globalizador que va a echar por tierra la concepción tripartita de la validez y va a defender una concepción unificada de la misma, en la cual parece haber un consenso emergente acerca del papel central desempeñado por la validez de constructo (Moss, 1992).

Los trabajos de Cronbach (1980, 1982, 1988), Guion (1977, 1980), Loevinger (1957) y Tenopyr (1977) destacan por su apoyo a esta perspectiva integradora, mas la figura clave es la de Samuel Messick (1975, 1980, 1981, 1988, 1989, 1994, 1995). Messick (1995)

Page 86: Manual de Medicion Psicologica. 2011 (2)

afirma que ‘la validez unificada integra consideraciones de contenido, criterio y consecuencias en un marco de referencia de constructo para la evaluación empírica de hipótesis racionales acerca del significado de las puntuaciones y de relaciones relevantes desde el punto de vista teórico, incluyendo las de naturaleza científica y aplicada’.

2. VALIDEZ DE CONSTRUCTO

La validez de construcción es importante, siempre que se diseñe una prueba psicológica para medir algún atributo o alguna cualidad (construcción), que se suponga, tengan las personas. Responde a la pregunta: ¿cómo se puede explicar psicológicamente la puntuación del test?, ¿qué construcción psicológica mide la prueba?, ¿hasta qué punto mide bien la prueba psicológica esta construcción?, etc. En este tipo de validez, se enfoca la atención en la construcción (“en el constructo”) en la característica que se está midiendo.

La validez de constructo (Crombach y Meehl, 1955), se refiere a la recogida de evidencia empírica que garantice la existencia de un constructo psicológico en las condiciones exigibles a cualquier otro modelo o teoría científica.

Una prueba no es un conjunto de ítemes que se juntan al azar para predecir un criterio, es más bien una medida o índice de un concepto, teoría o constructo psicológico, o de otro tipo (Muñiz, 1994).

Este tipo de validez se obtiene por medio de un estudio sistemático de la eficacia de la prueba como medida de un constructo psicológico específico (Aiken, 1996).

(Cortada de Kohan, 1999), nos dice que la validez de constructo se refiere a precisar “cuáles son las cualidades psicológicas que un test mide”, y se evalúa “demostrando que ciertos constructos explican en cierta medida el desempeño en el test”.

(Medellín Lozano, 2001), nos dice que este tipo de validez se obtiene mediante la acumulación de evidencias respecto al rasgo que mide la prueba y está centrada en el rasgo y se puede utilizar para el estudio de las diferencias individuales y para el desarrollo de teorías psicológicas.

En el ámbito de la psicología se han utilizado con mucha frecuencia dos procedimientos metodológicos, el análisis factorial y la matriz multirrasgo-multimétodo, para obtener datos acerca de la validez de constructos psicológicos, denominándose, respectivamente, validez factorial y validez convergente-discriminante (Muñiz, 1994).

El proceso de la validación de construcción, puede verse como la construcción de una miniteoría acerca de una prueba psicológica. La lógica de la validez de constructo, en muchos aspectos, así como en sus métodos, son esencialmente los del método científico.

La construcción de la miniteoría tiene tres pasos: (1) en base a la teoría sostenida en ese momento respecto a la prueba psicológica, el investigador deduce ciertas hipótesis sobre la conducta esperada de las personas que obtienen diferentes calificaciones en ellas, (2) se reúne datos que confirman o no esas hipótesis, y (3) en base a los datos acumulados, toma la decisión relativa a si la teoría, de hecho, explica adecuadamente los datos. Si no es así, tiene que revisar su teoría y repetir el proceso hasta lograr una explicación más adecuada. En este sentido, el proceso de validación es de continua reformulación y refinamiento.

Al determinar la validez de construcción, el propósito es identificar todos los factores que influyen en la ejecución del test y determinar el grado en que influyen cada uno de ellos. Ejemplo: (Kline, 1985), sirviéndose de un test hipotético sobre la ansiedad: propuso una serie de hipótesis cuyos resultados globales nos pueden decir si el test tiene validez de constructo:

Page 87: Manual de Medicion Psicologica. 2011 (2)

a. Los que obtienen elevadas puntuaciones será más probable que acaben en clínicas psiquiátricas que aquellos con puntajes bajos.

b. Será más fácil que les receten drogas psicotrópicas a los que tienen altas puntuaciones que a los de bajos puntajes.}

c. Los hijos de los de puntuaciones altas tendrán mayores probabilidades de tener una puntuación alta en test de ansiedad, que los hijos de quienes tuvieron bajas puntuaciones.

d. El test de ansiedad se correlacionará alta y significativamente (más allá de 0.60), con otros sobre dicha ansiedad caracterizada.

e. El test de ansiedad no se correlacionará con variables que no resulten conexas con la misma.

f. Los grupos psiquiátricos caracterizados como ansiosos alcanzarán en el test unas puntuaciones más altas que los de control.

g. En el test de ansiedad, los sujetos evaluados por supervisores y colegas como ansiosos, lograrán mayores puntuaciones que quienes están considerados como no ansiosos.

Es necesario tener presente que los resultados de los estudios que hagamos realmente no “validan” o “prueban” la teoría completa, puesto que nunca se puede demostrar una construcción en forma absoluta; solamente se puede aceptar como la mejor definición de trabajo.

Si los resultados son negativos, hay por lo menos tres interpretaciones posibles: la prueba puede no medir la construcción, el marco teórico puede ser erróneo permitiendo inferencias incorrectas o bien, quizá, el diseño del experimento no permite una prueba apropiada de la hipótesis. La falla del diseño experimental suele ser la más fácil de detectar; pero no siempre se puede experimentar con claridad el lugar exacto de la falla. Esta interpretación ambigua de los resultados negativos es un inconveniente evidente del procedimiento de validación de los constructos.

En la práctica, (Cortada de Kohan 1999), habla de dos categorías fundamentales de la validez: la validez directa o primaria y la validez secundaria o derivada. Una prueba tiene validez directa en la medida en que las tareas incluidas en ella representan verdaderamente y en la debida proporción, las clases de tareas que dan lugar a una definición operacional para la variable o rasgo en cuestión; mientras que, un test posee validez secundaria cuando los puntajes se correlacionan con otros puntajes de un criterio que posee, a su vez, validez directa o primaria.

En tal sentido, pertenecerían a la validez directa: la validez de contenido, la validez curricular, la validez intrínseca, la validez aparente y la validez por definición; y, corresponderían a la validez secundaria: la validez empírica, la validez concurrente, la validez predictiva, la validez factorial y la validez de constructo (Cortada de Kohan, 1999).

a. Métodos para calcular la validez.

El método más simple para calcular la validez implica obtener el índice de correlación de Pearson entre los puntajes del test y los puntajes del criterio externo (Cortada de Kohan, 1999). Cuando por alguna razón este sistema no puede utilizarse, ya que supone el mismo tipo de nivel de medición y homocedasticidad las variables, se puede utilizar otro tipo de coeficiente de validez como los biseriales o el índice de correlación tetracórico cuando el criterio tiene una clasificación en dos categorías: si o no, o verdadero-falso. Algunas veces se utiliza la correlación múltiple.

Cuando la prueba se utiliza para pronosticar el desempeño en alguna situación de la vida cotidiana, la validez suele definirse como la correlación entre la prueba y alguna medida del desempeño en la situación de la vida real. En este caso, la

Page 88: Manual de Medicion Psicologica. 2011 (2)

correlación debe ser explicada lógicamente y uno de los enfoques más adecuados es la teoría factorial (Crombach, 1984).

b. Validez y análisis factorial

Las evidencias relacionadas con la estructura interna de una prueba nos van a indicar si las relaciones entre los reactivos y las dimensiones (factores, escalas), permiten confirmar la existencia de los constructos que el test pretende medir. El marco conceptual de una prueba puede proponer una dimensión unitaria de comportamiento o varios factores ( Pérez y Olaz, 2008).Una encuesta podría construirse para medir salud orgánica y emocional. Ejemplo: si las intercorrelaciones entre los reactivos confirman la presencia de esos dos factores teóricos, ésta es una información relevante para la evidencia de validez vinculada con la estructura interna del test (APA, 1999).Resulta necesario comprobar estadísticamente que los reactivos se agrupen de la manera que se ha realizado la propuesta teórica, y para dicha finalidad el procedimiento adecuado es el análisis factorial (Carretero-Dios y Pérez, 2005).Debemos tener presente que el análisis factorial es un método estadístico utilizado para analizar las intercorrelaciones entre datos observables (Martínez Arias, 1995). Ejemplo: si se administran 90 reactivos o preguntas a 1,400 sujetos, el primer paso implica calcular las correlaciones de cada elemento con los demás. Luego, al observar la matriz de correlaciones obtenidas apreciaremos ciertas agrupaciones entre los reactivos, lo cual va a revelar la presencia de rasgos o factores comunes.En la práctica, cuando utilizamos el análisis factorial por lo general se va a reducir el número de variables inicialmente consideradas y el comportamiento de cada sujeto puede describirse con referencia a un número relativamente pequeño de factores o rasgos comunes (Anastasi y Urbina, 1998).

c. El meta-análisis en la generalización de la validez

A lo largo del capítulo hemos mencionado en repetidas oportunidades que la validez de una prueba está relacionada con la muestra particular que se ha utilizado en dicho proceso, lo cual implica la presencia de una limitación que debe ser tratada convenientemente con los procedimientos de generalización de la validez.En tal sentido, el método más utilizado en la actualidad es el meta-análisis, el cual permite integrar y combinar los hallazgos de diversas investigaciones empíricas mediante técnicas específicas. En el caso de la utilización de este método para el tratamiento de la generalización de la validez, surgió como respuesta a los coeficientes débiles de correlación obtenidos en muchos estudios relacionados con la temática test-criterio (Martínez Arias, 1995). Todo ello estaba vinculado con resultados contradictorios obtenidos en estudios relacionados sobre una misma temática, los cuales eran resueltos por medio de revisiones narrativas o de resúmenes verbales que implicaban una metodología subjetiva e informal, que sin duda, fue sometida a todo tipo de críticas. Frente a esta situación los especialistas consideraron al meta-análisis como la solución más atinada para enfrentar esta problemática.

Metodológicamente, el meta-análisis convierte los hallazgos estadísticos de estudios empíricos independientes a una métrica común, provee una estimación simple de la fortaleza de la relación entre determinadas variables y permite comprobar estadísticamente si una serie de investigaciones, conjuntamente considerados, apoyan o refutan las hipótesis de investigación (Multon, Brown y Lent, 1991).Operativamente, el meta-análisis se inicia con la reunión, clasificación y codificación de los estudios existentes sobre una temática, lo cual infiere la consideración, clasificación y codificación de las características sustantivas y metodológicas de los estudios particulares (tales como tipo y duración de una intervención o tratamiento experimental, tipo de muestra e instrumentos utilizados) (Pérez y Olaz, 2008).

Page 89: Manual de Medicion Psicologica. 2011 (2)

En la medida que los hallazgos de los estudios a tener en cuenta podrían ser difíciles de contrastar directamente, se les debe convertir a una medida común. Las dos medidas más usadas para cuantificar e integrar los hallazgos de los estudios independientes son los niveles de significación y las medidas de tamaño del efecto. La primera informa los resultados obtenidos han ocurrido probablemente al azar, mientras que la segunda nos indica la intensidad de la relación o el efecto de interés (Gómez Benito, 1987).No obstante su importancia actual, el meta-análisis no está exento de críticas y entre las más importantes tenemos:

a. El sesgo de publicación o de selección editorial a favor de investigaciones cuyos resultados favorecen las hipótesis de estudio. Sobre el punto, la bibliografía especializada sugiere incluir en los meta-análisis, investigaciones sin publicar, lo cual permite que el investigador contraste los hallazgos de investigaciones publicadas frente a las no-publicadas y de ese modo inferir la probabilidad de sesgo en la publicación.b. La inclusión de investigaciones poco rigurosas conjuntamente con estudios bien diseñados, lo cual afecta la interpretación que hace el meta-análisis, ya que esta situación compromete la validez interna del procedimiento (Wolf, 1986).c. La existencia en algunos casos del problema de las “peras y las manzanas”, metáfora referida a que las conclusiones producto del meta-análisis son inadecuadas toda vez que tienen como base la integración de investigaciones que incluyen diferentes definiciones de variables y tipos de muestras o instrumentos.

d. Técnicas de la validez de constructo

d.1 Técnica de los grupos conocidos

Tenemos una opinión que hay que valorar y no tenemos criterio o estándar, el procedimiento consiste en aplicar el instrumento a dos o más grupos y ver si discrimina.Ejemplo: Un grupo de pacientes crónicos compuesto por un grupo de pacientes hipertensos y otro grupo de pacientes con esclerosis múltiple. Si mi instrumento de medida discrimina a ambos grupos (es decir me dice que los hipertensos tienen mayor calidad de vida que los pacientes con esclerosis múltiple) es que tiene validez.

d.2 Matriz multimétodo-multirrasgo

Es el más sofisticado de todos aunque se utiliza poco, por ser complejo en el sentido de que requiere utilizar muchas medidas diferentes. El instrumento de medida introduce una fuente de variación, es la racionalidad.Ejemplo: medir el grado de satisfacción mediante un cuestionario, una entrevista y la observación y posteriormente se estudiará la convergencia entre los tres resultados.Que se debe esperar en las medidas, que haya convergencia (es decir gran concordancia entre lo que miden los tres métodos). El método de medida influye mucho en las puntuaciones como ocurre en el cuestionario, hay que ver hasta que punto las mediciones son convergentes para una misma medición.MTMM nos permite medir varios métodos con varias variables.

d.3 Análisis factorial

Para cada faceta o dimensión hay varios ítems o indicadores, la validez estructural o factorial intenta discernir el grado en que los indicadores de un concepto reflejan dicho concepto, son parte de él o lo constituyen.

Page 90: Manual de Medicion Psicologica. 2011 (2)

El análisis factorial es una técnica estadística que examina la estructura interna de la unidad de medida, mide si los indicadores tienen algo en común, es decir si tienen un común denominador, mide las correlaciones entre los indicadores e intenta descubrir si hay algo subyacente. Los ítems deben tener un común denominador que debe aflorar estadísticamente. La estructura subyacente o común denominador se llama factor (faceta).

Page 91: Manual de Medicion Psicologica. 2011 (2)

CUARTA UNIDADCONFIABILIDAD Y NORMATIVIDAD DE LOS TEST

LECCION 1CONFIABILIDAD

1. INTRODUCCION

Al evaluar la utilidad de una prueba o test, a menudo hay dos preguntas que es necesario formularse, las cuales aunque son diferentes, de alguna manera están relacionadas. La primera pregunta es: ¿con cuánta exactitud la muestra de ítemes o tareas representa al universo de donde fueron seleccionados? La segunda pregunta es ¿con qué fidelidad corresponde este universo al atributo latente que se va a medir? La primera pregunta se relaciona con lo que comúnmente se denomina confiabilidad de la medida; mientras que la segunda se refiere a su validez.

En este artículo nos referiremos, particularmente, a la primera de estas dos características de las pruebas y escalas, por ser éstos los instrumentos que plantean mayores exigencias técnicas en su proceso de desarrollo. Esta característica es fundamental cuando se trata de medir rasgos o atributos psicológicos. De allí que deban ser cuidadosamente establecidas en las llamadas pruebas formales, como parte de lo que hemos denominado el estudio técnico del instrumento.

2. CONFIABILIDAD

La confiabilidad se refiere a la consistencia de los resultados. En el análisis de la confiabilidad se busca que los resultados de un cuestionario concuerden con los resultados del mismo cuestionario en otra ocasión. Si esto ocurre se puede decir que hay un alto

Page 92: Manual de Medicion Psicologica. 2011 (2)

grado de confiabilidad. También se habla de confiabilidad cuando dos o más evaluadores evalúan al mismo estudiante sobre el mismo material y se obtienen puntuaciones semejantes.

La mayoría de autores en psicometría define a la confiabilidad como “el grado de precisión o consistencia con el cual una prueba mide lo que mide” (Tyler, 1972). Como quiera que la confiabilidad se ve afectada por la naturaleza de la población a la cual se aplica la prueba, se produce una ampliación de la primera definición: “la confiabilidad de un test es la precisión con la que el test mide lo que mide, en una población dada y en las condiciones normales de aplicación (Anstey, 1976).

La confiabilidad se refiere a la estabilidad de las mediciones cuando no existen razones teóricas ni empíricas para suponer que la variable a medir haya sido modificada diferencialmente para los sujetos, por lo que se asume su estabilidad, mientras no se demuestre lo contrario (Muñiz, 1994).

La confiabilidad significa la consistencia entre los puntajes de un test obtenidos por los mismos individuos en distintas ocasiones o entre diferentes conjuntos de ítemes equivalentes (APA, 1999).La confiabilidad puede entenderse como la exactitud o precisión de una medición, o el grado en el cual las puntuaciones de un test están libres de esos errores de medición. Esta exactitud o precisión de las puntuaciones permite que éstas se mantengan constantes en diferentes circunstancias ( Tornimbeni, Pérez y Olaz, 2008).

La definición estadística de la confiabilidad en la teoría clásica de los tests, se entiende como la proporción entre la varianza verdadera y la varianza total. El coeficiente de confiabilidad para la relación entre dos tests paralelos da el valor numérico para la proporción entre la varianza de la distribución de los puntajes verdaderos y la varianza de la distribución de los puntajes obtenidos en los tests (Magnusson, 1969).

La confiabilidad de una prueba se expresa como un número decimal positivo que va desde 0.00 hasta 1.00. r11 = 1.00, indica la confiabilidad perfecta y r11 = 0.00, indica la total falta de confiabilidad.

Técnicamente, la confiabilidad se calcula al analizar los efectos de las variaciones en las condiciones de administración y el contenido de los tests en las calificaciones. Sobre el particular, tenemos que tener en cuenta que la confiabilidad está influenciada sólo por los cambios no sistemáticos que tienen efectos diferentes en las distintas personas e influyen en la varianza de error del test y por tanto en su confiabilidad.

a. Tipos de Confiabilidad

a.1 Se pueden realizar varias estimaciones de la confiabilidad de una prueba dependiendo de cuáles serán las fuentes de error que más nos interesan. La mayoría de los índices de confiabilidad se expresan como coeficientes de correlación y por tanto, se denominan coeficientes de confiabilidad cuyo valor numérico va de 0 a +1.

a.2 El valor que se obtenga dependerá del grupo (muestra) de sujetos que ha sido examinado y de los orígenes de error que influyen en las calificaciones. Por lo tanto, no existe la confiabilidad de una prueba psicológica y lo que existe son muchos coeficientes de confiabilidad para cualquier prueba, tantos como hay diferentes condiciones para la estimación de la confiabilidad. Asimismo, un coeficiente de confiabilidad es una medida de la cantidad de inconfiabilidad que no indica las causas de esta falta de confiabilidad y más bien indica lo mucho que puede esperarse que varíen las calificaciones y no las razones de su variación.

a.3 La estabilidad.

Page 93: Manual de Medicion Psicologica. 2011 (2)

Una medida de confiabilidad es la correlación entre medidas repetidas (o sea entre una prueba y una reaplicación). Esta estimación se denomina coeficiente de estabilidad, el cual es la correlación (obtenida a través del coeficiente producto de los momentos de Pearson), entre las calificaciones de dos aplicaciones de la misma forma de la prueba psicológica, separadas por un período de tiempo.

Este coeficiente se utiliza en las pruebas que miden rasgos psicológicos que se supone que son relativamente estables a través del tiempo (por ejemplo: la mayor parte de las aptitudes y las capacidades y muchas características de la personalidad). Además, siempre que se utilizan las calificaciones de una prueba en la toma de decisiones sobre planes a largo plazo (por ejemplo: aptitudes e intereses), es esencial una medida de la estabilidad de las calificaciones al paso del tiempo.

Incluso, para las características que varían con el tiempo, conviene, por lo común tener conocimientos sobre el grado de estabilidad de las calificaciones de las pruebas en períodos cortos. Se parte de la suposición de que la característica que mide la prueba es estable en el tiempo; asimismo, que no existe ningún efecto diferencial del olvido (si el tiempo de reaplicación es muy posterior), o de la práctica (si la reaplicación se produce en un lapso corto respecto a la primera); y, por último, que no debe producirse ningún aprendizaje diferencial entre las dos aplicaciones.

Cualquier variable que influya en la ejecución de una aplicación, pero no en la otra, reducirá también la correlación. El muestreo de los reactivos no afecta el coeficiente de estabilidad, puesto que se utiliza la misma forma de la prueba en las dos aplicaciones (o sea el mismo conjunto de reactivos). El coeficiente de estabilidad se obtiene por el método test-retest.

a.4 Equivalencia. Se obtiene a través del método de las formas equivalentes. Puesto que

cualquier prueba contiene sólo una muestra de todos los reactivos posibles, se pueden construir varias formas paralelas de una prueba. Estas cubren el mismo contenido, utilizan los mismos tipos de reactivos, tienen un grado de dificultad igual e igual variabilidad (media aritmética y varianza similares).

La suposición primordial al calcular un coeficiente de equivalencia es la de que las formas, de hecho, son equivalentes. Para determinar la confiabilidad se aplicará primero una de ellas y a continuación, con un período mínimo de tiempo transcurrido, la segunda. La correlación de los resultados (a través del coeficiente de Pearson), nos dará el coeficiente de equivalencia.

En este método, las faltas de similaridad en las calificaciones se pueden atribuir principalmente a diferencias en el muestreo de reactivos (o sea formas de la prueba).

a.5 Estabilidad y equivalencia.

Si se dispone de formas alternativas de una prueba será posible determinar la confiabilidad mediante una combinación de los dos métodos anteriores.

El procedimiento consistirá en aplicar una forma de prueba (forma A), dejar que transcurra cierto período de tiempo y, a continuación, administrar la otra forma (forma B). El coeficiente de estabilidad y equivalencia será la correlación (a través del coeficiente de Pearson), entre los dos conjuntos de calificaciones y proporcionará la prueba más rigurosa y dará la estimación más baja de confiabilidad.

Page 94: Manual de Medicion Psicologica. 2011 (2)

a.6 Confiabilidad por mitades

Se obtiene con el método de la división por mitades emparejadas o “Split half method”, dado que en algunas situaciones no es posible utilizar el índice de confiabilidad de estabilidad o de formas equivalentes, siendo siempre necesario estimar de alguna forma la confiabilidad.

Con el método de mitades emparejadas, los ítemes de una sola aplicación del test se dividen en dos mitades (mitad A: ítemes pares; mitad B: ítemes impares), y se califican en forma independiente. Los puntajes de las dos mitades se correlacionan a través del coeficiente de Pearson. Como el resultado es de la mitad del test, es necesario corregirlo para estimar la confiabilidad de todo el test.

Esta corrección se hace con la fórmula Spearman Brown. Este método supone que las dos partes en que se divide el test son tests paralelos o equivalentes. Se interpreta como un coeficiente de equivalencia. Puesto que las dos formas (mitades), se aplican en esencia en forma simultánea, sólo las fluctuaciones a corto plazo podrán afectar la confiabilidad.

a.7 Finalmente, queda claro que el coeficiente de confiabilidad (obtenido por cualquiera de los métodos), es básicamente un coeficiente de correlación entre dos grupos de puntajes e indica el grado con el cual los individuos mantienen sus posiciones dentro de un grupo. Abarca valores desde 0 a +1 y no pueden ser negativos como otros coeficientes de correlación.

En términos estadísticos, el valor numérico del coeficiente de confiabilidad de un test corresponde exactamente a la proporción de la varianza de los puntajes del test que se debe a las diferencias verdaderas entre los individuos en el “rasgo” que estudiamos mediante el test.

b. Evaluación de la Confiabilidad

b.1 Según Cortada de Kohan, 1999, la evaluación de la confiabilidad de una prueba implica dos tipos de operaciones: una experimental y otra estadística. Mediante la primera se aplica la prueba a un grupo definido de sujetos en razón a un plan experimental específico manteniendo las condiciones de control experimental.

En segundo lugar, los calificativos que constituyen el resultado de tal administración deben analizarse a través de procedimientos adecuados para producir un estadístico que represente la consistencia de la prueba. Estas dos operaciones son algo independientes ya que los mismos procedimientos estadísticos pueden usarse a datos logrados de maneras muy diversas.

b.2 Existen por los menos tres factores que influyen en la confiabilidad o la falta de consistencia de una prueba (Cortada de Kohan, 1999):a)La adecuación de las tareas a los sujetos. Las tareas que son demasiado fáciles o que son suceptibles de distintas interpretaciones no generarán resultados confiables.b)La constancia o estabilidad de la aptitud del probando para realizar las tareas que la prueba implica. Las personas varían hora a hora y día a día en su energía, equilibrio emocional, cansancio, etc. Si estos factores afectan la realización de la tarea del probando, la consistencia de la prueba se verá reducida significativamente.c)La coherencia y objetividad del sujeto que califica la prueba. En la medida que los calificativos que se asignen dependan de elementos subjetivos del momento, antes que de normas coherentes, aplicadas en forma objetiva a todos las pruebas, entonces los puntajes carecerán de confiabilidad. Esta situación nos hace ver que la confiabilidad no es una propiedad de la prueba en sí misma, sino una propiedad del test cuando se administra a una determinada muestra de sujetos.

Page 95: Manual de Medicion Psicologica. 2011 (2)

c. Teoría de la confiabilidad en el modelo clásico

c.1 En la teoría clásica de los tests, el calificativo que obtiene un probando en un test consta de una calificación “real” más algún error no sistemático de medida.

La calificación real se define como la media o promedio de los puntajes que se obtendrían si un sujeto respondiera el test una cantidad infinita de veces. Dicho calificativo nunca puede medirse con exactitud sino que debe calcularse en base al puntaje obtenido por el sujeto en el test.

c.2 En la teoría clásica de los tests, la varianza de las calificaciones obtenida por un grupo de sujetos ( S Obs), es igual a la varianza de sus puntuaciones reales (SReal), más la varianza de errores no sistemáticos de medición (SErr), tal y como se indica a continuación:

c.3 Por lo tanto, la confiabilidad de la prueba (r11), se define como la relación entre la varianza real con la varianza obtenida o la proporción de la varianza obtenida que se explica por la varianza real, tal y como se indica a continuación:

c.4 La proporción de la varianza obtenida que se explica por la varianza de error, o no se explica por la varianza real, puede deducirse de las fórmulas anteriores como:

d. Confiabilidad Absoluta. Error estándar de medida (ESm)

d.1 Hemos mencionado anteriormente que en la ecuación clásica, la confiabilidad implica que, el puntaje obtenido por un sujeto, ( tj ), es el producto de sumar un puntaje verdadero (Tj), más un puntaje de error (ej), respectivamente:

tj = Tj + ej

Los puntajes de error (ej), son debidos al azar y se producen por acción de factores cuyo efecto varía de una ocasión a otra en que se aplique el test, es decir, por factores diferentes a los que determinan los puntajes verdaderos (Tj), de los sujetos. En la ecuación indicada, no sabemos el valor de Tj ni de ej.

En relación al error, es importante considerar los siguientes supuestos:

El puntaje verdadero de un probando en un test es el calificativo que tendría si no existe error en la medición y se puede definir como la media o promedio de las puntuaciones alcanzadas por la misma persona en infinitas aplicaciones del test.

Se asume que no hay correlación entre los puntajes verdaderos y el error de medición.

Se asume que los errores en las pruebas diferentes no están correlacionados.

Estos tres supuestos no son comprobables directamente, sólo se van a justificar si las inferencias realizadas a partir de las predicciones del modelo se confirman.

d.2 El objetivo fundamental de la confiabilidad es calcular el error existente en las medidas, es decir, el valor del error. Esta estimación se expresa a través del coeficiente de confiabilidad que es la correlación lineal entre administraciones de la misma prueba o de formas paralelas o equivalentes en el mismo grupo de sujetos.

Page 96: Manual de Medicion Psicologica. 2011 (2)

d.3 En el caso de que no existiesen errores entre las puntuaciones obtenidas en las aplicaciones de los tests, la correlación sería perfecta y tendría un valor de 1, en cuyo caso el test sería confiable.

d.4 Un estadístico muy utilizado para describir fuentes de variabilidad en los calificativos de un test, es la varianza.

e. Causas de errores de medición

e.1 En la práctica, existen diversas causas que originan errores de medición. En nuestro caso estudiaremos tres causas de errores de medición: los errores inherentes a la prueba, sobre todo los que se deben al muestreo de reactivos; los errores asociados a las condiciones de aplicación de la prueba; los errores relacionados con el examinador y los errores debidos a las fluctuaciones de las características del examinado.

e.2 En la medida que cada causa de error tendrá su mayor influencia en circunstancias diferentes, serán posibles varios tipos de rangos que estimaciones de confiabilidad: consistencia en el tiempo (el coeficiente de estabilidad); consistencia sobre las formas de las pruebas (el coeficiente de equivalencia) y consistencia sobre el tiempo y las formas de las pruebas, al mismo tiempo (el coeficiente de estabilidad y equivalencia).

e.3 En cada caso, un índice apropiado de confiabilidad, el coeficiente de confiabilidad, es la correlación entre las calificaciones de dos aplicaciones de la prueba. Asimismo, existen procedimientos para determinar la confiabilidad cuando se aplica sólo una forma de la prueba, además de un método (el error estándar de medida: ESm), para determinar la cantidad de error en las calificaciones obtenidas por un sujeto y los factores que influyen en los coeficientes de confiabilidad.

e.4 Finalmente, hay que tener en cuenta la consistencia interna u homogeneidad de las pruebas.

e.5 Las fuentes de varianza de error de medición señalados por Ugarriza, 2004, son los siguientes:

Factores inherentes a la prueba misma Si los reactivos no son similares en contenido, en índices de dificultad y

distribución de sus puntuaciones en las pruebas equivalentes. También puede ocurrir en una sola prueba cuando los reactivos en su

mayoría no miden un rasgo puro. Reactivos muy difíciles que hacen que el sujeto tenga que adivinar. Ambigüedad en la redacción de los ítemes e instrucciones, lo que puede

originar respuestas inestables. Límites de tiempo restrictivo que fomentan el apresuramiento en la

lectura y en la respuesta. Longitud de la prueba.

Errores en las condiciones de administración y otras situaciones que pueden producir distracciones Errores al marcar las respuestas Errores en el registro de tiempo y calificación Interrupciones inesperadas y otras situaciones que pueden producir

distracciones Factores relacionados con el ambiente de la prueba: la temperatura del

salón, el nivel de iluminación y la cantidad de ventilación y ruido.

Variables relacionadas con el examinador La subjetividad en la calificación de ciertas pruebas de personalidad no

estructuradas o semiestructuradas y en ciertas pruebas académicas (como los exámenes de ensayo) e incluso en la observación conductual.

Errores inherentes al examinado

Page 97: Manual de Medicion Psicologica. 2011 (2)

Entrenamiento específico, ansiedad, estar enfermo, fallas de atención o el efecto de fármacos entre otros

f. Confiabilidad relativa. El coeficiente de confiabilidad

El coeficiente de confiabilidad es un coeficiente de correlación entre un grupo de puntajes e indica el grado con el cual los sujetos mantienen sus posiciones dentro de un grupo. Comprende valores que oscilan de 0 a +1. Técnicamente, cuanto más se acerque el coeficiente a 1 más confiable será la prueba (o el procedimiento de medición), y viceversa.

El coeficiente de confiabilidad señala la cuantía en que las medidas de las pruebas están libres de errores aleatorios. Así por ejemplo: un coeficiente de 0.95 quiere decir que en la muestra y condiciones establecidas (situación experimental, instrucciones, etc.), el 95% de la varianza de los calificativos se deben a la auténtica medida y sólo el 5% a errores aleatorios (Crombach, 1972).

f.1 Factores que influyen en los coeficientes de confiabilidad

Ya conocemos varias fuentes de error que influyen en la magnitud de la correlación obtenida; sabemos que el coeficiente de estabilidad equivalencia da por lo común la estimación más baja de confiabilidad debido a que hay más factores que tienen probabilidades de influir en las puntuaciones.

Contrariamente, la correlación de mitades corregida produce por lo común la estimación más alta, puesto que tienen probabilidades de intervenir un número menor de factores.

Sin embargo, hay otros factores que influyen también en el coeficiente de confiabilidad y son los siguientes:

Rango de calificaciones (puntuaciones obtenidas). Todos los coeficientes de correlación se ven afectados por el rango de distribución de las calificaciones. Al disminuir la variabilidad (al hacerse más pequeña la desviación estándar), el coeficiente de correlación disminuye y al aumentar la variabilidad (al hacerse más grande la desviación estándar), el coeficiente se incrementa.

Longitud de la prueba. Al agregar más ítemes, asegurándonos que son igualmente confiables, se incrementará la confiabilidad de la prueba. Esto se produce porque el aumento de la longitud produce esencialmente un rango más amplio de calificaciones (mayor variabilidad y por lo tanto una desviación estándar más grande). El efecto del aumento de longitud de la prueba se puede determinar, en igualdad de otros factores mediante la fórmula de Spearman-Brown.

Dificultad de la prueba. Si una prueba es muy fácil o muy difícil para un grupo, el rango de calificaciones (la variabilidad), se estrechará y se reducirá la confiabilidad. Esto implica que para elevar al máximo la confiabilidad, el nivel de dificultad de una prueba debe ser tal que produzca la distribución más amplia posible de puntuaciones (en el análisis de los ítemes la distribución más amplia de las calificaciones, en unión de otros factores, se obtendrá al utilizar reactivos con “p” = 0.50), es decir, cuando la mitad del grupo responde al reactivo correctamente (o en la dirección indicada).

Velocidad. La velocidad puede influir en la confiabilidad. De hecho, la confiabilidad por mitades no se practica cuando la velocidad es uno de los factores importantes en la ejecución de la prueba. Los coeficientes de

Page 98: Manual de Medicion Psicologica. 2011 (2)

confiabilidad obtenidos mediante la aplicación de una prueba de alta velocidad, son sobreestimaciones y se deberán tomar con cuidado. En este tipo de tests se deben utilizar los métodos de estimación de la confiabilidad que se vean menos afectados por la velocidad.

g. Métodos prácticos para obtener el coeficiente de confiabilidad

Existen varios métodos prácticos para estimar el coeficiente de confiabilidad y cada uno de ellos tiene sus propias ventajas y desventajas y controlan más o menos fuentes de error que vienen por ejemplo de factores personales: cansancio, motivación, fluctuación de la atención, etc., y factores ambientales: presencia de perturbaciones externas que distraen al sujeto y otros factores más.

h. Reglas para obtener una elevada confiabilidad

1. Cuanto mayor es el número de ítemes que constituyen la prueba (que midan la misma dimensión o factor), más elevada es la confiabilidad.2. Cuanto más extenso el tiempo empleado para la resolución del test, mayor es la confiabilidad.3. Cuanto menor es la amplitud de dificultad de los ítemes, mayor será la confiabilidad del test.4. Cuanto más objetivo es el sistema de calificación o cómputo, más confiable será el test.5. Cuanto más alta la probabilidad de obtener una respuesta correcta por azar o adivinación, más baja será la confiabilidad.6. Cuanto más homogéneo sea el contenido, más confiable será el test.7. Cuanto más acostumbrada esté la muestra de sujetos a que se le administren pruebas, más alta será la confiabilidad.8. Los reactivos de contenido emocional (en un test de conocimiento o aprovechamiento), tienden a disminuir la confiabilidad.9. La disposición mental de los examinados, la falta de motivación, o la mala interpretación de las instrucciones del test, disminuyen la confiabilidad.

Page 99: Manual de Medicion Psicologica. 2011 (2)

LECCION 2

METODOS DE LA CONFIABILIDAD

1. INTRODUCCION

Es importante tener en cuenta, que la confiabilidad se refiere, específicamente a los errores aleatorios, tal cual menciona Martínez Arias (1996). Podemos hablar de dos tipos de errores: los errores aleatorios que, como tales, no pueden ser controlados y no se pueden predecir y los errores sistemáticos que son controlables y pueden ser explicados por alguna fuente de variación sistemática. De ambos errores los únicos que interesan a la teoría de la fiabilidad son los errores aleatorios.

2. METODO DEL TEST-RETEST

Este método consiste en aplicar la misma prueba en dos oportunidades a la misma muestra de sujetos, con un determinado intervalo entre las dos aplicaciones, para finalmente calcular la correlación entre los calificativos obtenidos en la primera y segunda oportunidad. El coeficiente más comúnmente utilizado para calcular la confiabilidad con este método es el de la correlación momento-producto de Pearson, aunque esto depende del nivel o escala de medición (nominal, ordinal o de intervalo), empleado por el test.

Cuando un coeficiente de correlación es utilizado para estimar la estabilidad de los calificativos de un test, también suele llamarse coeficiente de estabilidad.

Si bien su administración es sencilla, sin embargo presenta algunos inconvenientes. En algunos casos por ejemplo, puede presentarse incomodidad o malestar en los sujetos que son sometidos a la misma prueba en dos oportunidades produciéndose una disposición desfavorable en la segunda aplicación.

Esta situación exige experiencia de parte del psicólogo para provocar una adecuada motivación en las personas examinadas. En tal sentido, si se ha considerado una entrega

Page 100: Manual de Medicion Psicologica. 2011 (2)

de resultados a los sujetos, esta puede efectuarse después de concluir la segunda administración y así garantizar la motivación de los examinados.

En otros casos, si el intervalo de tiempo transcurrido entre las dos administraciones es muy corto, en tests que miden habilidades, pueden obtenerse una correlación falsamente alta. Por el contrario, si el intervalo de tiempo entre las dos aplicaciones es muy prolongado, se corre el riesgo de que las diferencias entre los calificativos se deban a cambios reales en los sujetos examinados en la variable que está estudiándose, más que a una escasa confiabilidad de la prueba.

Por lo anteriormente señalado, es conveniente que el tiempo transcurrido entre una y otra aplicación del test, debería delimitarse atendiendo a las características de la variable medida y del universo meta de la prueba.

Consiste en correlacionar las puntuaciones obtenidas en dos ocasiones diferentes por los mismos sujetos en el mismo test (y, por lo tanto, refleja el grado de estabilidad del test). El principal problema de este método es el de determinar la cantidad óptima de tiempo que debe transcurrir entre la primera y la segunda aplicación ya que si el período intermedio es muy breve, las puntuaciones pueden variar por efecto del aprendizaje (recuerdo de las respuestas a los ítems) y/o de la fatiga de los sujetos, alterando con ello la fiabilidad real del test. Por el contrario, si el período entre aplicaciones es muy largo, las puntuaciones empíricas pueden variar porque el rasgo que estamos midiendo no sea estable en el tiempo, es decir, que evolucione, cambie, se modifique, por lo que este método sólo debe emplearse con rasgos teóricamente estables, es decir, que no varíen con el paso del tiempo como pueden ser el CI o la personalidad.

En este procedimiento un mismo instrumento de medición (o ítems o indicadores) es aplicado dos o más veces a un mismo grupo de personas, después de un periodo de tiempo. Si la correlación entre los resultados de las diferentes aplicaciones es altamente positiva, el instrumento se considera confiable. Se trata de una especie de diseño panel. Desde luego, el periodo de tiempo entre las mediciones es un factor a considerar. Si el periodo es largo y la variable susceptible de cambios, ello puede confundir la interpretación del coeficiente de confiabilidad obtenido por este procedimiento. Y si el periodo es corto las personas pueden recordar cómo contestaron en la primera aplicación del instrumento, para aparecer como más consistentes de lo que son en realidad (Bohrnstedt, 1976).

3. METODO DE FORMAS EQUIVALENTES O PARALELAS

Mediante este método se puede examinar la consistencia interna pero también la estabilidad temporal de un conjunto de puntajes. La mecánica consiste en aplicar dos formas equivalentes o paralelas de un test a un mismo grupo de sujetos. Cuando el método se usa para verificar la estabilidad, la aplicación de la segunda forma se hace después de transcurrido un tiempo prudencial y luego se correlacionan los resultados obtenidos.

Si bien es cierto, este método es más completo que el anterior toda vez que permite controlar algunas fuentes de error aleatorio como: diversos tipos de reactivos, diferentes condiciones físicas y mentales de los probandos, diferente situación medio ambiental, etc., sin embargo, presenta algunos inconvenientes.

Para ser consideradas equivalentes, dos pruebas deben reunir ciertos requisitos tales como: tener las mismas características formales (cantidad de ítemes, escala de respuesta, etc.) y estadísticas (tener medias y desviaciones estándar semejantes, coeficientes de correlación elevados entre ambas formas, etc.) (APA, 1999).Un ejemplo de este método puede ser los resultados obtenidos de las correlaciones de las formas S y T del APT (Test de Aptitudes Diferenciales de Bennett, Seashore y Wesman, 2,000).

Page 101: Manual de Medicion Psicologica. 2011 (2)

Si dos formas de un test pretenden medir un mismo rasgo, parece razonable esperar que los resultados empíricos de ambas en una población correlacionen de forma elevada. Si esto es así, ambas formas manifiestan un elevado grado de precisión a la hora de reflejar los diversos niveles de rasgo. Si ambas correlacionasen de forma mínima, no podemos fiarnos de que reflejen fidedignamente los niveles de rasgo.

Pues bien, definimos inicialmente el coeficiente de fiabilidad como la correlación entre los resultados que proporcionan dos formas paralelas de un mismo test. Teóricamente, este método consistiría entonces en correlacionar las puntuaciones obtenidas por los sujetos en dos formas paralelas de un mismo test (mide por tanto el grado de equivalencia entre ellas). Aunque ésta es la forma que se deriva directamente del modelo de la TCT (recordad la importancia que se da a su definición en esta teoría) tiene el enorme inconveniente de que exige el diseño de dos formas paralelas de un mismo instrumento; diseño que, al margen de costoso en tiempo y esfuerzo, es muy difícil de conseguir.

Sin embargo, el desarrollo teórico de este tercer método de aproximación al estudio de la fiabilidad relativa de un test resulta muy útil para comprender mejor el significado y modo de interpretación del coeficiente de fiabilidad de un test, así que vamos a verlo con detenimiento.

En este procedimiento no se administra el mismo instrumento de medición, sino dos o más versiones equivalentes de éste. Las versiones son similares en contenido, instrucciones, duración y otras características. Las versiones generalmente dos, son administradas a un mismo grupo de personas dentro de un periodo de tiempo relativamente corto. El instrumento es confiable si la correlación entre los resultados de ambas administraciones es significativamente positiva. Los patrones de respuesta deben variar poco entre las aplicaciones

Page 102: Manual de Medicion Psicologica. 2011 (2)

LECCION 3

METODOS DE LA CONFIABILIDAD

1. INTRODUCCION

El criterio de confiabilidad del instrumento, se determina en la presente investigación, por el coeficiente de Alfa Cronbach, desarrollado por J. L. Cronbach, requiere de una sola administración del instrumento de medición y produce valores que oscilan entre cero y uno. (Hernández, y otros, ob. cit.). Es aplicable a escalas de varios valores posibles, por lo que puede ser utilizado para determinar la confiabilidad en escalas cuyos ítems tienen como respuesta más de dos alternativas. Su formula determina el grado de consistencia y precisión; la escala de valores que determina la confiabilidad está dada por los siguientes valores:

2. METODO DE DIVISION O MITADES EMPAREJADAS

Mediante este método se verifica la consistencia interna de las puntuaciones de una prueba, en otras palabras, el grado en que las diferentes partes de la prueba miden la misma variable.

La mecánica a seguir es primero aplicar la prueba en una ocasión a una muestra de sujetos y posteriormente se divide el test en dos mitades comparables, obteniéndose de este modo dos puntuaciones para cada sujeto de la muestra.

Finalmente, se correlacionan los calificativos correspondientes a ambas mitades de la prueba por medio de un coeficiente de correlación. Este método fue muy utilizado antes de que se dispusiera de computadoras personales en razón a que los estadísticos exigidos son más fáciles de hallar manualmente que el coeficiente alfa.

Page 103: Manual de Medicion Psicologica. 2011 (2)

Quizás el problema inicial de este método sea lograr que las mitades obtenidas puedan ser comparables. Por ejemplo, los ítemes de muchos tests tienen un arreglo en espiral y se construyen con un nivel de dificultad creciente, de tal manera que si se divide el test en dos mitades, sin lugar a dudas, no resultarían compatibles. En otros casos puede ocurrir que los sujetos se vean más afectados por el cansancio y la fatiga hacia el final del test incidiendo en los calificativos de la segunda parte. Frente a esto, algunos especialistas separan los reactivos en dos mitades, una de pares y otra de impares; y otros aparean los reactivos con un criterio estadístico para luego asignarlos al azar a cada una de las mitades.

Es el más utilizado porque sólo se necesita aplicar una vez el test y calcular la correlación obtenida por los sujetos en cada una de las dos mitades en que se puede dividir dicho test. Como un test puede tener múltiples “dos mitades”, habitualmente escogeremos las puntuaciones de los ítems pares y las correlacionaremos con las de los ítems impares (rPI). Basta con hacer una pequeña transformación sobre esta correlación (mediante la conocida como fórmula de Spearman-Brown para la longitud doble y que veremos con más detenimiento en próximos apartados) y tendremos el coeficiente de fiabilidad del test (que, en este caso, es un indicador directo de la consistencia interna del test)

Los procedimientos anteriores (medida de estabilidad y método de formas alternas), requieren cuando menos dos administraciones de la medición en el mismo grupo de individuos. En cambio, el método de mitades-partidas requiere sólo una aplicación de la medición. Específicamente, el conjunto total de ítems (o componentes) es dividido en dos mitades y las puntuaciones o resultados de ambas son comparados. Si el instrumento es confiable, las puntuaciones de ambas mitades deben estar fuertemente correlacionadas. Un individuo con baja puntuación en una mitad, tenderá a tener también una baja puntuación en la otra mitad.

3. METODOS DE COEFICIENTE ALFA DE CRONBACH

Comparten con el anteriormente mencionado dos aspectos importantes: en primer lugar, permiten comprobar la consistencia interna de los calificativos del test y en segundo término, requieren una sola aplicación del test (Thorndike, 1989).El caso es que, a partir de una única administración de una prueba a una muestra de sujetos, se logra una estimación del grado de covarianza de los reactivos, usando como estadístico el coeficiente alfa de Crombach o la fórmula alternativa de Kuder-Richardson (KR20), cuando los reactivos son dicotómicos o binarios y tienen diversos grados de dificultad.

El coeficiente alfa puede considerarse como la media o promedio de todas las correlaciones de partición por mitades posibles (Cohen y Swerdlik, 2000). Según Muñiz (2001), el coeficiente alfa expresa el grado de covariación de los ítemes de un test, o en qué medida los diferentes ítemes de un test miden una misma variable.

Actualmente, es el estadístico más utilizado para calcular la consistencia interna de una prueba compuesta por ítemes politómicos, es decir, con varias alternativas y a cuya clave o respuesta correcta puede puntuarse con diferentes valores.Sobre el punto, existe otro estadístico llamado Kuder-Richardson 21, el cual es utilizado cuando los reactivos también son binarios pero además poseen el mismo grado de dificultad. KR21, tiene dos versiones: KR21A y KR21B, las cuales deben arrojar el mismo resultado.

El coeficiente KR21, en cualquiera de sus formulaciones, generalmente no arroja los mismos resultados que KR20. KR20, es un coeficiente más preciso y es el más utilizado por los constructores de pruebas.Los elaboradores de tests consideran que KR21 tiende a subestimar el valor de KR20, por ello en las aplicaciones de sus modalidades A y B se logran puntajes inferiores a los obtenidos con KR20. En la aplicación de la fórmula KR21 de Gronlund inclusive, se obtienen valores inferiores a KR21A y KR21B y que podría considerarse como el nivel mínimo posible de hallar acerca de la consistencia interna (Thorndike y Hagen, 1973).

Page 104: Manual de Medicion Psicologica. 2011 (2)

A estas alturas podemos indicar que tanto el método de división o partición en mitades como el coeficiente alfa, son inapropiados para verificar la confiabilidad de tests de velocidad o tiempo limitado (Anastasi y Urbina, 1998). En estos casos deben utilizarse métodos alternativos, como el test-retest o el de formas equivalentes o paralelas ( Tornimbeni, Pérez y Olaz, 2008).

Asimismo, cuando los ítemes de un test o escala son numerosos (superiores a 30), el coeficiente alfa tiende a ser demasiado elevado (Cortina, 1993). En este caso se recomienda el uso adicional del coeficiente de correlación inter-ítem, menos influido por el número de ítemes de una escala. La magnitud recomendable del coeficiente de correlación inter-ítem debe situarse entre 0.15 y 0.50 (Carretero-Dios y Pérez, 2005).

En muchos tests psicométricos, los indicadores de fiabilidad relativa no aparecen expresados en función de sus coeficientes correspondientes sino en base a un potente estimador de los mismos que se conoce como coeficiente de Cronbach.

Simplificando, podemos decir que el coeficiente alfa, propuesto por Cronbach (1951), estudia la fiabilidad de un test entendiéndola como el grado en que todos los ítems que lo componen miden el mismo rasgo (unidimensionalidad del test) y, por supuesto, si lo miden bien. Es, por lo tanto, una medida de la consistencia interna del test, de la coherencia existente entre todos sus ítems.

Su fórmula puede verse expresada en términos muy variados: varianzas, correlaciones e, incluso, covarianza, por lo que existen múltiples alternativas para su cálculo como, por ejemplo, la planteada por Kuder y Richardson. De este modo, lo único que nos va a interesar a nosotros aquí es poder interpretarlo como medida de la fiabilidad de un test cuando encontremos referencia a él al revisar las características psicométricas de alguno de ellos.

En estos términos, debemos entender que es un estimador del coeficiente de fiabilidad de un test, de tal manera que si el valor de es elevado, la fiabilidad del test también lo será. Este coeficiente de consistencia interna siempre tendrá un valor menor o igual al de la fiabilidad del test y sólo coincidirán cuando todos los ítems sean paralelos entre sí; es decir, cuando la consistencia interna entre ellos sea máxima y, por lo tanto, podamos afirmar que están midiendo la misma dimensión o rasgo psicológico.

Este coeficiente desarrollado por J. L. Cronbach requiere una sola administración del instrumento de medición y produce valores que oscilan entre O y 1. Su ventaja reside en que no es necesario dividir en dos mitades a los ítems del instrumento de medición, simplemente se aplica la medición y se calcula el coeficiente.

Page 105: Manual de Medicion Psicologica. 2011 (2)

LECCION 4

TRANSFORMACION DE PUNTAJES DIRECTOS

1. INTRODUCCION

Los puntajes directos, “crudos” o “brutos” de un test, sea éste los de una prueba recientemente construída u otro test ya utilizado, no significan nada por sí mismas a menos que se les compare con algún patrón o tabla de medida.

Para comprender el significado de una puntuación directa, “cruda” o “bruta” de un test requerimos de una información complementaria. Para obtener dicha información existen dos métodos básicos: referencia al criterio y referencia a la norma.

En este capítulo nos centraremos fundamentalmente en la referencia a la norma por ser la más utilizada en nuestro medio. Dentro de esta perspectiva trataremos las puntuaciones derivadas tales como los percentiles, las puntuaciones estándar o típicas y las estandarizadas.

2. Interpretación de la puntuación de un test con referencia a la norma

Un puntaje directo, “crudo” o “bruto” de una prueba se interpreta con referencia a la norma cuando se convierte el puntaje del sujeto en una posición con respecto al grupo que ha sido examinado por el test y que se convierte en grupo normativo.Ejemplo: Jaime resolvió los problemas de la escala avanzada de matrices progresivas de Raven, mejor que el 85 por 100 de una muestra representativa de alumnos del quinto de secundaria de Lima Metropolitana.

3. Estandarización o Tipificación

El proceso de estandarización implica adaptar una prueba a una realidad diferente para la que fue creada. Infiere establecer procedimientos unívocos para la aplicación, calificación e interpretación de un test. Por otra parte, la adaptación muchas veces supone traducir el test a un idioma diferente, por lo que los psicólogos especialistas deben manejar

Page 106: Manual de Medicion Psicologica. 2011 (2)

correctamente lo concerniente a traducción, dicción, vocabulario, ortografía, gramática, etc., a fin de poner el instrumento “a punto”.

Si las condiciones de administración y cómputo están perfectamente definidas y su utilización es idéntica para todos los sujetos a examinarse, es decir, se cumplen con todos los requisitos de un test psicométrico, entonces queda como aspecto más importante la interpretación, la cual (con relación a la norma), queda perfectamente definida con la obtención de normas o baremos.

Las normas obtenidas se sistematizan en una tabla de normas o baremo que sirve para transformar los puntajes directos en puntajes derivados susceptibles de interpretación estadística.

4. Normalización o Baremación

Es un procedimiento que permite transformar los puntajes directos, “crudos” o “brutos” de un test en puntajes equivalentes sobre la base de un criterio de baremación y teniendo como base la curva de distribución normal.

La tabla de normas o baremo, permite comparar el puntaje directo obtenido por un sujeto con la distribución de los puntajes obtenidos en el test por el grupo normativo.

5. El grupo normativo y sus características

El grupo normativo es llamado también muestra de normalización, constituye el “grupo histórico” de sujetos sobre los cuales se han calculado las normas.Una norma es una afirmación de cómo se han desempeñado una población o universo de referencia en un test, basándose en los cálculos hechos sobre el grupo normativo. Una población de referencia son los sujetos que comparten una o más características tales como edad cronológica; sexo; nivel educativo; estado civil; ubicación geográfica; lugar de residencia, etc.

Un grupo normativo comprende las siguientes características:

A. Definición. El grupo debe estar perfectamente definido. Esto se realiza sobre la base de las variables de estudio. Ejemplo: estudiantes secundarios de ambos sexos comprendidos entre los 11 y 17 años de edad que cursan del 1° al 5° de secundaria diurna en colegios nacionales de Lima Metropolitana. Las normas son válidas solamente para los examinados que tengan las mismas características que definen al grupo normativo.

B. RepresentatividadCuando las medidas estadísticas (media o promedio; desviación estándar, etc.), que se estimen van a ser generalizadas a la población general, es necesario que el grupo normativo sea representativo de tal universo para que las medidas tengan validez.

C. Tamaño suficienteEl grupo normativo es una muestra para calcular los parámetros estadísticos de la población; por lo tanto, el tamaño del grupo normativo viene dado en función de la precisión con que se desee hacer dichas estimaciones.

6. Puntuaciones derivadas: Tipos

Page 107: Manual de Medicion Psicologica. 2011 (2)

Los puntajes directos se transforman mediante procedimientos estadísticos en puntuaciones derivadas, las cuales permiten una interpretación psicológica de los calificativos obtenidos.

Las puntuaciones derivadas que más se utilizan en psicología son: percentiles; puntuaciones estándar o típicas y puntuaciones estándar o típicas normalizadas.

A. PERCENTIL (Pc) (Sinonimia: rango percentil, rango decil).

Se define como “puntos de una distribución continua debajo de las cuales se encuentran porcentajes dados de la muestra”. El percentil obtenido por un sujeto nos dice qué proporción del grupo normativo ha alcanzado un rendimiento inferior a él.El percentil representa un orden en la ejecución expresada en porcentajes (constituye una escala ordinal).VentajasEs el puntaje derivado más rápido de entender y el de más fácil comunicación al lego, lo que lo hace muy satisfactorio para informar a las personas que carecen de una formación estadística. Además, se puede interpretar de una manera exacta, aún, cuando la distribución de los puntajes del test no sean estrictamente normales (campana de Gauss).Desventajas.Al no tener distancias iguales (por ser una escala ordinal y no de intervalo), tiende a exagerar las pequeñas diferencias hacia la zona media, diferencias que no son importantes y reduce el tamaño aparente de diferencias realmente importantes y amplias en los extremos de la distribución. Por otra parte, es poco adecuado para los análisis estadísticos (no se pueden emplear operaciones aritméticas entre ellos.

En el presente capítulo vamos a desarrollar cuatro formas de obtención de percentiles.

B. PUNTUACIONES ESTÁNDAR O TÍPICAS.Son puntuaciones derivadas que se obtienen en base a la media o promedio aritmético y a la desviación estándar o típica de la distribución de puntajes del test (distribución empírica de puntajes del test).Ventajas.Son útiles para los análisis estadísticos (se asume que se dan en una escala de intervalo).Desventajas.No pueden ser fácilmente interpretados cuando las distribuciones empíricas de puntajes del test se alejan del patron de la distribución normal (campana de Gauss), lo cual puede llevar a conclusiones erróneas.

C. PUNTUACIONES ESTÁNDAR O TÍPICAS NORMALIZADAS.-

En este caso, la distribución de puntajes empíricos sigue estrictamente el patrón de la distribución normal (campana de Gauss). De esta manera, cada puntuación adquiere un significado estadístico preciso.

Cuando la distribución empírica no sigue estrictamente el patrón de distribución normal se procede a la normalización de la curva. Esta consiste básicamente en determinar para distintas proporciones de la distribución empírica qué valor “z” de la curva normal les corresponde. En realidad lo que se está haciendo es “ajustar” la distribución empírica a una distribución normal.

El caso es que, los puntajes estándar que obtenemos son normalizados. La nueva distribución ya no tiene la misma forma de la original (como sí la tenía los puntajes estándar). Si se calcula, el promedio de esta distribución es 0 y su DE es 1 (puntaje estándar “z”).

La puntuación normalizada tiene características importantes para la interpretación de las puntuaciones. Al estar basada en la curva normal, cada uno de los puntajes tiene

Page 108: Manual de Medicion Psicologica. 2011 (2)

un significado estadístico conciso ya que el porcentaje de individuos que se encuentran arriba y debajo de cada puntaje se conoce exactamente en una escala que tiene una media y una desviación conocidas. Esto es muy importante, por ejemplo, cuando los resultados del test se utilizan en selección y consejo. En estos casos, se da importancia no a la comparación entre diferencias a distintos niveles de puntajes, sino a la posición relativa de un individuo en una distribución cuyas propiedades son conocidas.

La normalización puede necesitarse también para otros fines. Así, cuando usamos diferencias inter o intra individuales, necesitamos los puntajes de los individuos en una escala de intervalo.

Por otra parte, como quiera que las puntuaciones normalizadas tienen unidades de medida iguales y su amplitud es la misma en una u otra distribución, se utilizan como técnica básica para la interpretación de los resultados de las pruebas psicológicas y pedagógicas.

Asimismo, las puntuaciones normalizadas adquieren mayor significado cuando comprendemos su relación con la distribución o curva normal llamada también curva de Gauss, la cual tiene las siguientes propiedades (Escotet, 1973):

a. La curva es simétrica. La media o promedio aritmético, la mediana y el modo coinciden en la mitad de la curva.

b. La curva es asintótica en relación al eje de la abcisa. Esto nos indica que las colas de la curva nunca llegan a tocar el eje horizontal y se extienden desde el infinito negativo, hasta el infinito positivo.

c. La ordenada máxima de la curva se ubica en la media, donde la unidad de la curva normal es igual a 0.3989 y z = 0.

d. A partir de los puntos donde se ubican ( + -), 1 desviaciones estándar (encima o debajo de la media o promedio), la curva cambia en relación al eje de las abcisas de convexa a cóncava.

e. Entre (+ - ) 1 desviación estándar cubren el 68.26 por ciento del área de la curva, tal y como podemos apreciar en la tabla que se aprecia a continuación:

La mayor ventaja de transformar puntajes brutos, “directos” o “crudos” a puntuaciones normalizadas, es que con las primeras tendríamos un número infinito de distribuciones normales con diferentes medias o promedio aritméticos y desviaciones estándar, mientras que con puntuaciones normalizadas podemos relacionar todas las distribuciones normales a una distribución de frecuencia relativa. De esta manera, cuando la curva normal es utilizada como referencia, a través de las puntuaciones normalizadas, recibe el nombre de distribución normal estándar, en donde el promedio de dicha distribución es 0 y la desviación estándar es 1.Escala X.-La escala X no es una escala normalizada, ya que viene dada por los puntajes directos, “crudos” o “brutos”. En otras palabras, si un sujeto ha obtenido 80/100 puntos en un examen, 80/100 es su puntuación X. Por lo tanto, para elaborar una escala X, solamente necesitamos conocer las puntuaciones directas y la media aritmética de dichas puntuaciones.

Escala Z.-Esta es una escala de puntuaciones estándar que comprende generalmente cuatro unidades a cada lado de la media o promedio, la mitad positiva y la otra mitad negativa. Asume como unidad de medida la desviación típica o estándar obtenida de las puntuaciones directas, “crudas” o “brutas”. En razón a que una puntuación normalizada tiene como características que la desviación estándar de una distribución no se altera por la sustracción de una constante y que la variabilidad de un grupo de puntuaciones determina la interpretación de la posición relativa.

Page 109: Manual de Medicion Psicologica. 2011 (2)

Escala P (Percentil).-La escala percentil es una de las más utilizadas por los psicólogos. Constituye una escala ordinal sin suposiciones con respecto al cero arbitrario y las unidades. Comprende desde 0 a 100 y se expresa en percentiles.

El percentil 30 (P30), es el punto de la escala por debajo del cual se encuentra el 30% de los sujetos, o también el percentil 84 (P84), es el punto de la escala por debajo del cual se encuentra el 84% de los sujetos.

Cuando hablamos de la desviación o amplitud semiintercuartilar decimos que la mediana es el punto de la distribución de frecuencias debajo o encima de la cual se encuentra el 50% de los casos, y que el primer cuartil (Q1), marca el punto debajo del cual se encuentra el 25% de los casos y el tercer cuartil (Q3), el 75% de los casos. Pues bien, en vez de dividir nuestra muestra o colectivo en cuarteles (25%), la dividimos en cien partes iguales y a los diversos puntos de la escala que separan las partes de porcentajes de 1 se les llama percentiles o centiles. En la práctica tenemos 100 espacios y 99 puntos percentiles.El método para calcular y construir la escala percentilar es esencialmente igual al utilizado en el cálculo de la mediana.

Normas Locales (Baremos o Normas de Centro).

Para ser útiles, las normas o baremos deben permitir al profesional psicólogo comparar a un sujeto, examinado o probando, con sus posibles compañeros y competidores. Muchas veces, encontramos que las normas generales no son de gran utilidad toda vez que existen múltiples diferencias entre las diversas regiones geográficas, las profesiones, los colegios, etc. Esta situación se agudiza en países como el nuestro donde los grupos humanos son tan heterogéneos, que resulta necesario elaborar normas locales o baremos de centro. Por ejemplo: si el psicólogo trabaja en un centro educativo de nivel socio económico muy alto, debe elaborar tablas de normas o baremos para la población en la cual desempeña sus funciones. Estas normas serán expresadas en los puntajes derivados que dicho profesional estime conveniente de acuerdo al tipo de prueba, población, confiabilidad, validez, etc.

Page 110: Manual de Medicion Psicologica. 2011 (2)
Page 111: Manual de Medicion Psicologica. 2011 (2)

GLOSARIO

Actitud y Evaluación de Actitudes. Se entiende por actitud una predisposición organizada y duradera con componentes cognoscitivos, afectivos y conductuales, que orienta a la persona a pensar, sentir, percibir o a comportarse de una manera determinada hacia un referente u objeto cognoscitivo. Se evalúan usualmente mediante inventarios, es decir, listas de afirmaciones asociadas con el objeto de la actitud, a las cuales el Sujeto responde, indicando en una escala su disposición positiva o negativa hacia esa afirmación. Análisis de ítems. Procedimiento cuantitativo mediante el cual se determina el funcionamiento de los Ítems de una prueba o encuesta. Permite establecer el número y proporción de sujetos que responde la Clave y cada uno de los Distractores, así como la Correlación Biserial de las opciones con el puntaje total en la prueba o con un Criterio de Validación externo. Análisis Factorial. Véase Factor Anava de Hoyt. Procedimiento para al cálculo de la Confiabilidad de Consistencia Interna de una prueba, que establece la relación entre la varianza debida a los sujetos, los ítems y la varianza total del test. Aptitud y Pruebas de Aptitudes. Una aptitud es una combinación de habilidades, conocimientos y otras características, innatas o adquiridas, que indican el potencial de un individuo para aprender a desarrollar un buen rendimiento en un área particular si se le provee de educación y entrenamiento. Entre los tests aptitudinales se incluyen los que evalúan la habilidad académica general (llamados comúnmente de habilidad mental o de inteligencia), los de habilidades especiales tales como verbal, numérica, mecánica o musical; tests de apresto para el aprendizaje; tests de pronóstico que evalúan tanto la habilidad como el aprendizaje anterior y son usados para predecir el rendimiento futuro – usualmente en un campo específico, como una lengua extranjera, taquigrafía, etc. También se habla de “aptitud” en un sentido más amplio, por lo que la “aptitud musical”, por ejemplo, se referiría a una combinación de características físicas y mentales, y de aspectos motivacionales, intereses y otras características, que conducen a lograr un buen rendimiento en música. Batería de Pruebas. Una Batería de Pruebas es un grupo de tests estandarizados sobre una misma muestra de población, de manera que los resultados en los diferentes tests son comparables. También se concibe como un conjunto de tests desarrollados para evaluar habilidades interrelacionadas entre sí teóricamente y/o empíricamente y asociadas con la realización de una tarea o con los estudios académicos. Cuando se aplican todas las pruebas como batería, es posible elaborar un Perfil Psicométrico de la persona. Es usual que las variables a explorar con los tests de una Batería se seleccionen de manera que tengan validez

Page 112: Manual de Medicion Psicologica. 2011 (2)

factorial o que tengan altas correlaciones entre los ítems de una prueba, pero bajas entre pruebas. Un ejemplo de batería es el Test Diferencial de Aptitudes de Bennet y Seashore. CEEB. Transformación lineal derivada introducida por el College Entrance Examination Board de USA, de Media 500 y Desviación Típica 100. Su gran amplitud permite la comparación de resultados de grandes grupos de sujetos, acumulados de año en año. Clave de Corrección. Es el conjunto de respuestas correctas a las preguntas de una Prueba Psicométrica. La clave de corrección, también debe indicar la ponderación dada a cada una de las respuestas para el cálculo del puntaje bruto total. Cociente Intelectual (CI). Indicador del nivel de inteligencia utilizado en las primeras pruebas psicométricas y que se calculaba mediante la división de Edad Mental (calculada por el test) y Edad Cronológica (edad real del Sujeto) multiplicada por 100. Un valor de 100 (igual edad mental y edad cronológica) indica normalidad, mientras que por debajo indica “retardo” y por encima “aceleración”. Cociente Intelectual de Desviación (CI Desviación). Sustituto del Cociente Intelectual original se desarrolló por las diferencias existentes en la varianza de las puntuaciones del Cociente Intelectual en los diferentes niveles de edad, que dificultaban la interpretación de los resultados. Es en realidad una transformación que tiene una media de 100 y una desviación típica de 15. Colectivas, Pruebas. Pruebas que se pueden aplicar a grupos de sujetos para su evaluación. Este concepto se contrapone al de Pruebas Individuales. Coeficiente Alfa. Estimado de confiabilidad de consistencia interna propuesto por Cronbach. Para ítems binarios, da resultados iguales a la fórmula Kuder Richardson 21 (KR21). Coeficiente de Correlación. Medida del grado de asociación que existe entre dos conjuntos de medidas realizadas en el mismo grupo de individuos. El más conocido y utilizado con Pruebas Psicométricas es Producto Momento de Pearson, aunque existen otros como correlación por rangos, biserial, tetracórico, etc. Tiene un recorrido entre +1.00 y –1.00 (asociación perfecta positiva o negativa), pasando por 0.00 (ausencia de relación entre ambas medidas). La correlación indica solamente asociación entre variables, no relaciones causales. Confiabilidad. El grado en que un test es consistente al medir la variable que mide. Algunas palabras asociadas con la Confiabilidad son estabilidad, exactitud, consistencia y precisión, así como el Error Estándar de Medida. La Confiabilidad se expresa usualmente mediante coeficientes de correlación, obtenidos a partir de los puntajes en dos aplicaciones de la misma prueba al mismo grupo de Sujetos o haciendo uso de pruebas paralelas aplicadas al mismo grupo de sujetos. También se define como Consistencia Interna, que se obtiene mediante la determinación de las intercorrelaciones o Covarianzas de los ítems (véase KR21 y Coeficiente Alfa).Construcción de pruebas, fases de la. Las pruebas psicométricas se construyen mediante un cuidadoso proceso, que garantiza la calidad de las mismas. Tavella identifica varias fases: 1) Preparatoria, en la que se define (teórica y operacionalmente) la variable a explorar, se establecen las especificaciones del instrumento, se elaboran los ítems, se depuran cualitativamente mediante el juicio de expertos, se elaboran instrucciones y se estructura el instrumento. 2) Exploratoria, en la cual se aplica a una muestra informal de sujetos de la misma población a la cual va dirigida, se realiza análisis de ítems para determinar su calidad y se depura el instrumento. 3) Experimental, en la cual se aplica el instrumento ya depurado en la fase anterior a muestras formales de sujetos, hasta conocer mejor el instrumento, elaborar estudios de validez y confiabilidad y normas. 4) Definitiva, en la cual ya se considera que el instrumento está listo para su uso en grupos extensos de la población, así como para la realización de estudios normativos a gran escala. Constructo. Las variables psicológicas no son observables directamente, por lo que se infieren a través de la observación de la conducta de las personas, y se plantean en términos teóricos. Son inventados y adoptados en forma deliberada y consciente por la comunidad científica, es decir, “construidos” por los investigadores y teóricos de la psicología. Contaminación del Criterio. Situación en la cual, una persona que debe establecer un Criterio de Validación conoce de antemano las puntuaciones obtenidas por los sujetos en la prueba y sesga su juicio por ese conocimiento. Por ejemplo, un maestro que debe indicar el nivel de habilidad verbal de un grupo de alumnos, pero conoce con antelación los resultados de la prueba de razonamiento verbal que va a ser validada con su evaluación. Corrección (puntuación) de Pruebas. Es la asignación de puntajes a las respuestas dadas por un sujeto a las preguntas de una prueba. La mayoría de las veces se realiza mediante la asignación de un punto por cada respuesta correcta (ítems binarios), es decir, que coincida con

Page 113: Manual de Medicion Psicologica. 2011 (2)

la clave de respuestas (ver Clave de Corrección), aunque también son posibles otras formas de corrección, como restar a las respuestas correctas una proporción de las incorrectas. Consulte también Puntaje Directo o Puntaje Bruto. Corrección de Puntajes por Azar. Los ítems de opciones múltiples permiten responder al azar y alcanzar un cierto número de aciertos, es decir, permiten la adivinación de las respuestas. Por ejemplo, en una prueba de 40 ítems de cuatro opciones, la probabilidad de marcar la respuesta correcta por azar es de 25%, lo que permite establecer una media de puntajes por azar de 10 puntos y una desviación típica de 2,73 (en una distribución binomial, la media es 0,25x40= 8 puntos y la desviación típica raíz de 0,25X0,75x40= 2,73). Por ello se han propuesto formas de corrección por puntajes por azar. La más común es la siguiente, en donde Xc es puntaje corregido, C es el número de respuestas correctas, I es el número de incorrectas y k es el número de opciones. Estas fórmulas asumen que toda respuesta incorrecta es una respuesta al azar; lo usual es que se le recomiende al Sujeto, que se abstenga de dar respuestas en las que no esté completamente seguro y se le advierta sobre el uso de la fórmula de corrección. 1−−=kICXc Corrección por atenuación. La correlación entre dos variables se modera en su magnitud, por el nivel de confiabilidad de cada uno de las medidas. Esto hace que el resultado aparente ser más bajo, que la correlación que se obtendría si se contase con medidas perfectamente confiables. Para determinar el nivel de asociación que se obtendría con medidas confiables, se hace uso de la corrección por atenuación, que se obtiene por la fórmula siguiente, en donde rTG es la correlación entre los puntajes verdaderos, rtg es la correlación obtenida entre las dos variables, rtt es la confiabilidad de una de las medidas y rgg es la confiabilidad de la otra. ttggTGrrrr.tg= Correlación Punto Biserial. Estimado de la correlación Producto Momento de Pearson que se calcula entre una variable continua y una variable dicotómica. Se aplica en el Análisis de Items para determinar la asociación entre el puntaje total en el test y el puntaje obtenido en la Clave y cada uno de los distractores. Se calcula mediante la fórmula siguiente, en donde Mp es la media obtenida por las personas que respondieron correctamente el ítem, Mq la media de los que respondieron de manera incorrecta, p es la probabilidad de respuesta correcta del ítem, q la probabilidad de respuestas incorrectas y Sx la desviación típica de la prueba. pqSxMqMprpb−= Correlación Múltiple. La correlación que se establece entre una variable predicha y varias variables predictoras en contraste con la Correlación simple. Por ejemplo, el rendimiento universitario (Criterio) que se predice haciendo uso de los resultados en varios tests (variables predictoras). La Correlación Múltiple tiene especial aplicación en las Ecuaciones de Regresión Múltiple, que permiten establecer una recta de regresión que incluye varias variables predictoras de la forma siguiente (en donde K es una constante, βnXn es la ponderación que se le da a cada una de las variables predictoras): Y´ = K + β1X1 + β2X2 + β3X3 Correlación Múltiple por Pasos. Correlación Múltiple que se establece entre una variable predicha y varias variables predictoras en forma progresiva. Para ello, se toma el coeficiente de correlación más alto de todas las predictoras con la predicha, y se establece una recta de regresión, que permite establecer la correlación entre Y y Y´. La siguiente variable predictora se correlaciona con los residuos para establecer si correlaciona en forma significativa. Si es así, se incorpora al cálculo de la recta de regresión del siguiente nivel. Se deja de incorporar variables cuando una variable predictora no correlaciona en forma significativa con los residuos. Correlación simple. Relación que se establece entre una variable predictora (o independiente) y una variable predicha (o Criterio). Es el modelo más sencillo de correlación. Véase Correlación Producto Momento de Pearson. Correlación producto momento de Pearson. Coeficiente de correlación que permite establecer el grado de asociación entre dos variables continuas. Dado que se fundamenta en los mínimos cuadrados, exige que las variables guarden una relación lineal entre ambas y que presenten homocedasticidad. Se calcula mediante la fórmula: YXxySNSYYXXrΣ−−=))(( Covarianza. Grado en que dos o más variables varían unas con relación a las otras. Pueden ser variables continuas o dicotómicas, como en el caso de los ítems. Se puede establecer mediante índices de covarianza, que en el caso de los ítems se determina mediante la fórmula siguiente: cov. = pij – pi.pj. En realidad, la covarianza es la correlación entre dos variables multiplicada por sus desviaciones típicas. Criterio de Validación. Es un estándar mediante el cual se evalúa la validez de un test. Se requiere que sean también una medida de algún tipo, es decir, que se expresen en una Escala

Page 114: Manual de Medicion Psicologica. 2011 (2)

Cuantitativa. Pueden ser el rendimiento en otra variable como otro test, la apreciación de un supervisor en el trabajo, los juicios de un profesor, notas en un curso, etc. Usualmente se establece una correlación entre el rendimiento en el test y la puntuación en el criterio para decidir cuál es el grado de asociación entre el test y el criterio, lo que permite predecir el rendimiento a futuro o determinar el nivel actual en el criterio. Desviación Típica. Es una medida de la variabilidad o dispersión de una distribución de puntajes. Mientras menos dispersos están las puntuaciones alrededor de la Media menor es la desviación típica, mientras más se dispersan, mayor es la Desviación Típica. Cuando se trata de una Distribución Normal, existen algunas relaciones importantes. Por ejemplo, a una desviación típica por encima y por debajo de la Media se encuentra el 68,26% de la distribución. El cálculo de la Desviación Típica se realiza mediante el cálculo de la raíz cuadrada de la sumatoria de los desvíos de los puntajes con respecto a la media elevados al cuadrado. Es también la raíz cuadrada de la Varianza.Dificultad de los ítems. El grado de dificultad de un ítem se determina mediante la proporción de respuestas correctas (cociente entre respuestas correctas divididas entre el número de respuestas totales). La proporción que se obtiene se denomina a la media del ítem, o “la p del ítem” y es un indicador directo de su facilidad, o inverso de la dificultad, ya que su valor, comprendido entre 0 y 1, indica que mientras más se acerca a 0 es más difícil el ítem (puesto que fue respondido por un menor número de personas) y mientras más se acerca a 1 es más fácil (respondido por un mayor número de personas). Distribución bivariada normal. Modelo matemático que permite describir la distribución de los puntajes de un grupo en dos variables simultáneamente. Para utilizar este modelo, es importante que los datos que se describen con esta distribución muestren normalidad en sus distribuciones marginales, linearidad en su relación e igualdad de varianza en todos los niveles de ambas variables (homocedasticidad). Distribución Normal. Es una distribución de puntajes que tienen en su representación gráfica, la típica forma de una campana. Es llamada también Campana de Gauss. En una distribución normal, los puntajes se distribuyen en forma simétrica alrededor de la media, con tantos casos hacia arriba como hacia abajo para distancias iguales. Los casos se concentran cerca de la media y disminuyen en frecuencia a medida que se alejan de la media, de acuerdo a una ecuación matemática muy precisa. La Media, Mediana y Moda son idénticos en una Distribución Normal, ya que existe simetría. No toda distribución simétrica es necesariamente normal. Nada indica en realidad que los rasgos psicológicos se distribuyan de manera normal en la población de manera independiente del test que los mide; sin embargo, asumir que se distribuyen en forma normal en la población o en muestras de la misma y hacer que las puntuaciones en el test se distribuyan en forma normal, es útil porque permite hacer uso de las propiedades conocidas de la Curva Normal para obtener conclusiones y realizar predicciones. Efecto Halo. Efecto subjetivo que ocurre cuando al evaluar a una persona la impresión que causa una variable o aspecto del sujeto afecta la evaluación en otras variables. Por ejemplo, la buena presencia de una persona determina que se considere que su nivel de razonamiento debe ser alto y se indica así en la evaluación. Error Estándar de Estimación. Al aplicar rectas de regresión para estimar el rendimiento en otra variable, como un Criterio, si la correlación no es perfecta (rxy = 1.0) se comete un error de estimación del criterio. Se utiliza para establecer la posible magnitud del error presente en la estimación (Y´) y para determinar Intervalos de Confianza. Se calcula mediante la fórmula Se = Sx√1-rxy2 (en donde Se es el error estándar de estimación, Sx es la desviación típica de la variable a predecir, y rxy2 es la correlación entre el predictor y la variable predicha elevada al cuadrado. Error Estándar de la Diferencia. Estadístico que permite establecer si las diferencias entre los puntajes obtenidos por una persona en dos pruebas o por dos personas en la misma prueba, son diferentes entre sí en forma lo suficientemente significativa como para afirmar que subyacen diferencias en los conocimientos o habilidades que se están midiendo. Se calcula mediante la fórmula siguiente, en la que St es la Desviación Típica de la escala de medición y rxx es el Coeficiente de Confiabilidad: xxrSSetd−=1(2 Error Estándar de Medida Sem. Es un estadístico que estima la posible magnitud del error presente en un puntaje individual. El Error Estándar de Medida indica la diferencia que puede existir entre el Puntaje Obtenido y el Puntaje Real o Verdadero (T), que se supone que refleja la verdadera posición del individuo en un continuo subyacente; esa diferencia se debe a errores de medida. Mientras mayor es el Error Estándar de Medida, menos confiable es la puntuación obtenida. El Error Estándar de Medida es una magnitud tal, que en aproximadamente dos

Page 115: Manual de Medicion Psicologica. 2011 (2)

terceras partes de los casos, el puntaje obtenido no diferirá más de un Error Estándar por encima o por debajo del Puntaje Real. En teoría se puede decir, que en 2 de cada 3 casos, el puntaje obtenido se encuentra en una banda que se extiende del Puntaje Real más o menos un Error Estándar de Medida; pero debido a que el Puntaje Real nunca se puede conocer, la práctica establece que, para la interpretación, se puede revertir la relación Puntaje Verdadero – Puntaje Obtenido. Se calcula mediante la fórmula siguiente, en la que St es la Desviación Típica de la escala de medición y rxx es el Coeficiente de Confiabilidad: xxtemrSS−=1 Escala. La sucesión de números en función de los cuales se realiza la medición. Clásicamente se distinguen cuatro niveles: Nominal, Ordinal, Intervalo, Razón. También se entiende por escalas, las transformaciones de puntajes que se realizan a escalas de propiedades conocidas, tales como Estaninas Percentiles, puntaje Z, Puntaje H, etc. Estadística Descriptiva e Inferencial. La E. Descriptiva es una rama de la estadística aplicada que permite describir las características de las distribuciones en función de los datos obtenidos. La E. Inferencial es una rama de la estadística que permite realizar inferencias sobre el comportamiento de los estadísticos en la población o un segmento de ella. Ambas son absolutamente necesarias en el trabajo estadístico de los datos psicométricos. Estanina. Escala de nueve puntos estandarizados. El nombre proviene del inglés Stanine (standard nine), que tiene valores del 1 al 9, con una Media de 5 y una Desviación Típica de 2. Cada Estanina, excepto la 1 y la 9, tiene media desviación típica de ancho, y la Estanina 5 tiene un cuarto de desviación típica por encima y un cuarto por debajo de la media. Cada Estanina contiene un determinado porcentaje de la distribución, de acuerdo a la siguiente Tabla: Evaluación. Es la comparación de una situación actual con un estándar. En el caso de las pruebas psicométricas, los resultados cuantitativos (véase Medición), se comparan con estándares para establecer cómo rindió la persona, es decir, evaluar el resultado; la evaluación puede ser la comparación con una Norma, o con un Perfil Psicométrico. Usualmente la evaluación constituye un juicio de valor. Factores. En medición psicométrica, factor es un rasgo hipotético que subyace a una variable y que influye sistemáticamente en el rendimiento en los ítems de un test o los puntajes en dos o más tests y por lo tanto, hace que el rendimiento en diferentes tests esté correlacionado. El término “factor” se refiere estrictamente a la variable teórica, que se deriva por un proceso de análisis factorial a partir de una matriz de intercorrelaciones entre tests. Sin embargo, también se utiliza para denotar la interpretación psicológica que se le da a la variable, por ejemplo, el rasgo mental que se asume que está representado por la variable, tales como habilidad verbal, habilidad numérica, etc. Frecuencia. Es el número de observaciones que corresponde a un determinado puntaje en una escala. Usualmente las observaciones son los sujetos que obtuvieron ese puntaje. Frecuencia Acumulada. Es el número de observaciones acumuladas hasta el límite superior de un determinado puntaje en una escala. Se acumula siempre desde las puntuaciones más bajas en la Escala hacia los más altos. H (Escala H). Escala a la que se transforman en forma lineal los puntajes con Media de 100 y Desviación Típica 20. Homogeneidad. Grado de similitud que existe entre los elementos de una Población con relación a ciertos atributos; la Población puede ser de Sujetos, Items, o de Contenidos o Conceptos. Cuanto se trata de sujetos, la Homogeneidad se puede establecer en forma comparativa mediante la Varianza de una distribución de puntajes obtenidos por dos o más grupos de sujetos; el que tiene la menor Varianza es más homogéneo, en este caso hablamos de Homogeneidad de la Muestra. Cuando se trata de los ítems de una prueba, se establece mediante H de Horst, KR21, ó el Coeficiente Alfa de Cronbach, que se fundamentan en la covarianza entre los ítems; en este caso hablamos de Homogeneidad de la Prueba. Intervalo de Confianza. Recorrido que se establece alrededor de un estadístico (calculado en una Muestra) para determinar la ubicación de un parámetro (de la Población) con un determinado Nivel de Confianza. Se establece en función de los estadísticos de muestreo del estadístico en cuestión, para lo que es usual utilizar las propiedades de la Distribución Normal. Por ejemplo, el Intervalo de Confianza de la Media permite estimar la Media de la Población (μ), haciendo uso del error estándar de la Media multiplicado por la z correspondiente al Nivel de Confianza seleccionado. Inventario de Personalidad. Es un tipo de Prueba Psicométrica que consiste en un cuestionario o lista de chequeo, usualmente autoadministrada, diseñada para obtener información de variables no intelectuales de un individuo. Los inventarios usualmente evalúan rasgos tales como intereses, actitudes, motivación, etc. (véase Pruebas de Personalidad).

Page 116: Manual de Medicion Psicologica. 2011 (2)

Ítems. Son los estímulos o reactivos que se presentan a los sujetos para que respondan y pongan de manifiesto conductas asociadas con un atributo determinado. Dependiendo del tipo de prueba, los ítems varían sustancialmente. Un tipo común de ítem son los de opciones múltiples, que presentan un problema en el “pie” y varias opciones de respuesta de las cuales sólo una es la correcta (la clave) y las otras son Distractores, que sirven para atraer la respuesta de quienes no conocen realmente la respuesta correcta. Items binarios. Son los ítems que aceptan como puntuación solamente 1 ó 0. Por contraste, los Items No Binarios aceptan puntuaciones de más de 1, o con valores decimales. Los ítems binarios tiene aceptación tanto por su facilidad de corrección, como porque han demostrado gran estabilidad en las puntuaciones y en su nivel de dificultad en muestras sucesivas. Items No binarios. Son ítems que no se puntúan sólo como 1 ó 0. Son usados frecuentemente, pero no exclusivamente, en inventarios de personalidad o en la medición de Actitudes e Inventarios de Personalidad, en los que pueden haber escalas de aproximación de cada afirmación a la forma usual de comportamiento del sujeto. KR21. Estadístico que permite determinar la confiabilidad de consistencia interna de una prueba. Deriva su nombre de las fórmulas propuestas por Kuder y Richardson en Psychometrika en los años 30, de las cuales la número 21 fue particularmente exitosa. Tiene estrecha relación con Alfa de Cronchach. Se calcula con la fórmula siguiente en donde KR21 es el coeficiente de consistencia interna, m es el número de ítems de la prueba, S2j es la varianza del ítem y S2x es la varianza total del test: ⎟⎟⎠⎞⎜⎜⎝⎛−−=Σ222111SxSmmKRi Media o Media Aritmética. Es el promedio de las puntuaciones obtenidas por un grupo en un test. Se obtiene mediante la suma de las puntuaciones y la división entre el número de ellas. Medición. Consiste en la asignación de numerales a las propiedades de los objetos o eventos de acuerdo a ciertas reglas (Stevens). En medición psicológica, los objetos son las manifestaciones de los atributos psicológicos o constructos. Se fundamenta en varios supuestos: a) la asunción de la existencia de un continuo subyacente con direccionalidad, b) la existencia de un solo puntaje verdadero para cada sujeto, c) la variabilidad entre sujetos con relación al puntaje verdadero y d) la posibilidad de obtener manifestaciones asociadas con la posición que la persona ocupa en el continuo subyacente. De esta manera, se asignan puntuaciones, de acuerdo a ciertas reglas, a las manifestaciones de conducta asociadas al atributo psicológico que se desea medir. Las puntuaciones se interpretan en función de la teoría psicométrica y psicológica, para inferir acerca de la conducta actual, de la futura o de las potencialidades de la persona. La medición usualmente implica la existencia de un propósito y una decisión que debe tomarse con relación a los Sujetos de la medición o de los atributos medidos. Mediana. Es la puntuación en una distribución de puntajes por encima de la cual se encuentra el cincuenta por ciento de las observaciones. Medidas de Dispersión. Estadísticos que permiten establecer la variabilidad de un conjunto de datos. Por ejemplo: la Varianza, y la Desviación Típica. Medidas de Tendencia Central. Estadísticos que permiten conocer la ubicación de la distribución en un continuo, por ejemplo: Media, Mediana y Moda, Moda. Es la puntuación que tiene la frecuencia más alta en una distribución. Algunas distribuciones pueden ser bimodales o multimodales. Muestra. Una parte de una Población o universo; un subconjunto de observaciones de una población. Si la población está compuesta de individuos, la Muestra constituye un grupo de individuos provenientes de esa población. Se desea que las Muestras sean representativas de la población para poder inferir los parámetros de la población a partir de los estadísticos de la Muestra. La representatividad se logra asegurando que todos los individuos de la población tienen la misma probabilidad de ser seleccionados para la Muestra, se habla así de muestreo probabilístico. Esto se logra mediante esquemas de muestreos entre los que se incluyen como sus elementos básicos: Muestreo por Azar Simple, Muestreo por Azar Sistemático, Muestreo Estratificado, Muestreo por Conglomerado. Estos esquemas exigen contar con una descripción exhaustiva de los elementos de la población a fin de identificar cada uno de ellos. Cuando no se cuenta con esa descripción se hace uso de muestreos por cuotas, en los cuales se definen los atributos que influyen sobre la variable a evaluar y luego se completan “cuotas” de personas en cada una de los niveles de esos atributos. N. Número de sujetos incluidos en un grupo de sujetos o en un grupo normativo. Normas. Es la expresión estadística del rendimiento típico de un grupo en una prueba. Usualmente se expresa mediante valores estadísticos o mediante un conjunto de puntajes en una escala de propiedades conocidas. Sirven como referencia para darle significado a los

Page 117: Manual de Medicion Psicologica. 2011 (2)

puntajes brutos o puntajes directos, que se obtienen en las Pruebas Psicométricas. Las normas se basan en el rendimiento real de un grupo de personas en una prueba. Dicho grupo se selecciona especialmente para que tenga el mayor grado de similitud, en variables importantes, con los individuos que serán evaluados con la prueba. Debido a que se trata de rendimiento promedio o típico, las Normas no deben ser consideradas como estándares o niveles deseables de rendimiento. También es importante que al construir Normas se definan con claridad las características de los sujetos del grupo, con relación a variables importantes tales como edad, nivel educativo, profesión. Los tipos más comunes de Normas son expresadas en escalas como las Percentiles, Estaninas, Puntaje Z y Puntaje H. Piso de una Prueba. Es el nivel más bajo que se puede medir con una prueba. Cuando un individuo obtiene una puntaje que coincide o que está muy cerca del puntaje más bajo posible, se dice que la prueba tiene un “piso” muy alto para él y que se le debe administrar una prueba más fácil (véase Techo de una Prueba). Población. Grupo de elementos (que pueden ser personas, ítems, conceptos, etc. ) que se definen como pertenecientes a un todo y del cual se obtiene una Muestra. También, una colección de todas las observaciones que se pueden identificar de acuerdo a ciertas reglas. Pruebas Aptitudinales. Son pruebas Psicométricas que miden habilidades y otras características, ya sean innatas o adquiridas, que indican la capacidad de un individuo para aprender o desarrollarse en un área particular académica o laboral, siempre y cuando se le provea entrenamiento adecuado y oportunidades. Las Pruebas Aptitudinales incluyen tantohabilidades académicas generales (llamadas comúnmente habilidad mental o inteligencia), como habilidades especiales como habilidad verbal, numérica, cuantitativa o musical. En general se utilizan para predecir el rendimiento futuro, usualmente en un campo específico, como programas de entrenamiento o en el trabajo. Pruebas Cognoscitivas. Son Pruebas Psicométricas destinadas a medir aspectos intelectuales de la estructura mental o psicológica del individuo. Incluyen las Pruebas de Conocimientos, las Pruebas Aptitudinales, Las Pruebas de Habilidades y las Pruebas de Personalidad. Pruebas de Conocimiento. Son pruebas Psicométricas que permiten medir el dominio de información en un campo determinado u área del conocimiento. Por ejemplo, dominio de información sobre técnicas de contabilidad. Son llamadas también Pruebas de Rendimiento. Pruebas de Diagnóstico. Son tests utilizados para establecer áreas específicas de fortalezas y debilidades, y que se utilizan, en oportunidades, para determinar el origen causal de debilidades y desarrollar programas de intervención individual o grupal. Tales Pruebas permiten establecer medidas de los componentes de habilidades o conocimientos más complejos. Pruebas de Habilidades. Son Pruebas Psicométricas que miden rasgos cognoscitivos que se han desarrollado a través del entrenamiento, de las oportunidades laborales o de las actividades en la vida cotidiana. Entre ellas se pueden contar las habilidades de lectura, ortografía, redacción. Al igual que en las aptitudes, una definición más amplia y comprensiva de las habilidades probablemente deba incluir también factores asociados con la motivación, los intereses y oportunidades, que permiten que una persona desarrolle sus aptitudes. También es posible percibir las habilidades como la plataforma para el desarrollo en nuevos campos, por lo cual tienen también un carácter de aptitudes. Pruebas de Personalidad. Son Pruebas Psicométricas destinadas a medir uno o más aspectos no intelectuales de la estructura mental o psicológica del individuo. Permite obtener información acerca de características afectivas del individuo (emocionales, motivacionales, actitudinales, etc.) que se diferencian de sus habilidades o procesos intelectuales. Las Pruebas de Personalidad incluyen: a) los llamados inventarios de personalidad y de ajuste, que intentan medir la posición de la persona en rasgos tales como dominancia, sociabilidad, introversión, locus de control, autoestima, etc., mediante el uso de respuestas autodescriptivas a una serie de preguntas o afirmaciones. b) Escalas de rating, que exigen que el sujeto se compare, o sea comparado por otros, con respecto a ciertos rasgos. c) Inventarios de opinión o actitudes. Algunos autores también incluyen los inventarios de intereses y creencias como pruebas de personalidad. Pruebas de Potencia. Son Pruebas diseñadas para medir el nivel de rendimiento independientemente de la velocidad de respuesta. Por ello, usualmente no tienen límite de tiempo o se otorga a los sujetos suficiente tiempo para que puedan terminar sin dificultad. Es usual que los reactivos o ítems se ordenen de manera creciente de acuerdo a su dificultad. Pruebas de Velocidad. Son Pruebas diseñadas para evaluar habilidades asociadas con la velocidad de respuesta y establecen su varianza en función de la velocidad de respuesta.

Page 118: Manual de Medicion Psicologica. 2011 (2)

Usualmente contienen muchos ítems relativamente fáciles, que si se contase con suficiente tiempo serían respondidos por todos los sujetos, pero como deben ser respondidos bajo condiciones de presión de tiempo, usualmente no se logran responder todos. Pruebas Psicométricas. Véase Tests Psicométricos Pruebas Referidas a Dominio. Son pruebas diseñadas para proveer información sobre conocimientos o habilidades específicas que posee el sujeto de manera directa con relación al dominio que evalúa el test. Tales tests cubren usualmente unidades de contenido y están estrechamente relacionadas con procesos de instrucción. Sus puntajes tienen significado en función de lo que el estudiante sabe o puede hacer, más que en relación con los puntajes obtenidos por un grupo de referencia o grupo normativo. Fueron propuestas inicialmente por Glaser en 1963 y se comenzaron llamando Pruebas Referidas a Criterios, nombre que fue abandonado debido al carácter polisémico en Psicometría del término Criterio, que también puede ser entendido como Criterio de Validación y como Punto de Corte. Psicometría. Medición de los atributos psicológicos. En general constituyen métodos experimentales que permiten poner de manifiesto conductas asociadas con los atributos psicológicos; a esas manifestaciones se les asignan numerales que permiten establecer el nivel relativo en que se encuentra ubicada la persona con relación al atributo. Los Test Psicométricos son uno de los métodos de la Psicometría. Puntaje Derivado. Son puntajes que se transforman a escalas de propiedades conocidas. Estas escalas, de las cuales lasa más conocidas con los Puntajes Z, C.I., Desviación H, CEEB y T, tienen una media y una desviación típica determinada lo que permite interpretar las puntuaciones en función de dónde se ubican en la escala. Por ejemplo H tiene una Media de 100 puntos y una Desviación Típica de 20, lo que se representa como H(100,20). Algunos puntajes Derivados son transformaciones lineales de los Puntajes Directos, mientras que otros son transformaciones No Lineales, como el caso de las Estaninas o T. Puntaje Directo o Puntaje Bruto. Son los puntajes que se obtienen directamente de la asignación de numerales a las respuestas a una Prueba Psicométrica. Usualmente se obtienen de asignar un punto por cada respuesta correcta. En los casos en que existe una corrección por puntajes al azar, es usual que se calcule mediante la fórmula X = C – l/(k-1) En donde X es el puntaje obtenido, C las preguntas respondidas correctamente, l las respondidas incorrectamente y K el número de opciones de las preguntas de la Prueba Psicométrica. Punto de Corte o de aprobación. Se refiere al puntaje por encima del cual se considera que el sujeto cumple con ciertos requisitos de ingreso, aprobación de una materia o de selección para un empleo. Pueden ser establecidos fundamentados en estudios que demuestran que a partir de ese punto existe mayor probabilidad de éxito en el trabajo o en los estudios, o de manera más o menos arbitraria, para permitir el ingreso a un cierto número de personas a la institución, como cuando existe un cupo limitado. También ha sido denominado Criterio, pero, por el carácter polisémico (muchos referentes o significados) de éste término, es conveniente no utilizarlo en éste contexto. Software Psicométrico. Programas de computación utilizados para la Corrección de Pruebas, la administración de pruebas por computadora o para el procesamiento de información. En Venezuela se producen y comercializan dos programas: Microitem, que permite el análisis de ítems, la corrección de pruebas de opciones múltiples con ítems binarios y no binarios, y la elaboración de normas, producido por Massimo Di Salvatore de la Universidad Central de Venezuela y PsicoMet, que permite la corrección de pruebas, la elaboración de informes psicométricos grupales e individuales, la administración de una base de datos de elegibles y la elaboración de normas internas, producido y distribuido por Psico Consult C.A. Ninguno de estos programas permite la administración de pruebas por computadora, pero tienen la ventaja de que permiten el procesamiento de cualquier prueba binaria de opciones múltiples. Spearman Brown, Fórmula de Profecía. La confiabilidad de un test tiene una relación directa con el número de ítems. Cuando se duplica el número de ítems, la confiabilidad es mayor. Cuando se calcula la confiabilidad por el método de división por mitades, se obtiene la confiabilidad de la mitad de la prueba, por lo que se hace necesario ajustar para la totalidad de los ítems. Sujeto. Es una de las forma de referirse a las personas que presentan Pruebas Psicométricas o que participan en un experimento. Tabla de Especificaciones. Son tablas que permiten definir el contenido de una prueba; son particularmente útiles para la elaboración de Pruebas de Conocimiento y para determinar su validez. Usualmente se establecen como tablas de doble entrada (aunque pueden incluir más de dos dimensiones), una de las cuales indica el contenido del proceso de aprendizaje y la otra

Page 119: Manual de Medicion Psicologica. 2011 (2)

alguna definición de las habilidades que la persona logró durante ese proceso (es usual usar la Taxonomía del Dominio Cognoscitivo de B. Bloom y otros). Tablas de Expectación. Son tablas que muestran la relación entre los puntajes de un test predictivo y el rendimiento en un criterio determinado. La relación se puede expresar de maneras diferentes tales como: a) El promedio de rendimiento en el criterio. b) El porcentaje de casos en cada uno de los niveles sucesivos. c) La probabilidad de obtener una puntuación en el criterio, dada una puntuación en la Prueba. Las Tablas de Expectación son comunes para la predicción del éxito académico o laboral, son de fácil elaboración y comprensión. Se diferencian las Tablas de Expectación Individual de las Tablas de Expectación Institucional ,ya que en las primeras se indica la probabilidad de obtención de un determinado resultado en el Criterio, mientras que en las segundas se plantea solamente la probabilidad de éxito o fracaso en el mismo. El nivel más avanzado incluye varias variables predictoras y se construyen a partir de rectas de regresión múltiple. Techo de una Prueba. Es el nivel más alto de habilidad que se puede medir con un test. Cuando un individuo logra un puntaje que coincide o que está cerca del puntaje más alto posible, se dice que el test tiene un “techo”, muy bajo para él y es necesario administrarle una prueba que sea más difícil (véase Piso de una Prueba). Tendencia Central (medidas de). Las medidas de tendencia central proveen una representación del rendimiento de un grupo, indica la tendencia del grupo de medidas. Las más conocidas son la media, la mediana y el modo. Tests Psicométricos. “Un test psicológico constituye esencialmente una medida objetiva y tipificada de una muestra de conducta” Anastasi, Anne. Rodríguez y Feliú lo definen como “... un conjunto de estímulos seleccionados haciendo uso de una fundamentación teórica, psicológica y psicométrica, en función de un propósito. Estos estímulos son presentados a sujetos en condiciones controladas con el objeto de poner de manifiesto conductas relevantes que debidamente interpretadas con base a normas y/o criterios permiten la toma de decisiones respecto a un individuo, un grupo o un proceso.” Transcripción de Resultados. Es la acción de registrar en un programa de computación (por ejemplo, el PsicoMet) las respuestas dadas por los sujetos a las preguntas de una Prueba Psicométrica. Transformación de puntajes. Los Puntajes Directos que se obtienen por la asignación de numerales a las respuestas de los sujetos, usualmente no tienen una significación inmediata. Por ello se realizan transformaciones a escalas de propiedades conocidas, que permiten contar con un resultado más fácilmente interpretable en función del rendimiento de grupos normativos. Se reconocen al menos dos tipos de transformaciones: lineales y no lineales. Las lineales se realizan mediante ecuaciones que utilizan estadísticos como la media y la desviación típica y no modifican la forma de la distribución (por ello existe una relación rectilínea entre los puntajes directos y sus puntajes transformados); las más conocidas son z, Z, y H. Las no lineales hacen uso de ciertas propiedades, como el número de casos acumulados en la distribución y el puntaje transformado (por ello existe una relación no lineal entre los puntajes directos y sus puntajes transformados); las más conocidas son los Percentiles, Estaninas, Pentiles, zn y T. Validación Cruzada. Procedimiento mediante el cual la validez de una prueba establecida en una muestra poblacional se verifica con otra muestra proveniente de la misma población. Es usual derivar rectas de regresión cuando se hacen estudios de validez; al realizar un estudio de Validación Cruzada, se utiliza esa recta para determinar los mejores valores predichos en otra muestra de la población, y luego se verifica qué tan cerca está la predicción de los resultados obtenidos en el Criterio de Validación haciendo uso de métodos correlacionales. Validez. La medida en que el test mide lo que se pretende que mida, es decir, que sirva para lo que se pretende utilizar. El término validez, por lo tanto, tiene connotaciones diferentes dependiendo el uso para el cual se propone y para diferentes tipos de tests. Se habla así de Validez Aparente, Validez de Constructo, Validez de Contenido, Validez Empírica o Criterial, Validez Aparente. Es la medida en que el test aparenta ser un instrumento eficiente de medición. En realidad tiene más que ver con lo que los Sujetos piensan del instrumento y la situación en que se aplica y la credibilidad que pueden tener en el proceso de evaluación y la atención que prestarán a la misma. Validez de Constructo. Pretende establecer hasta qué grado la varianza total observada se puede explicar en función de variables (Constructos) derivados de una teoría. Para realizar estudios de validez de constructo, es necesario contar con una buena descripción teórica, que permita derivar hipótesis y probarlas haciendo uso del instrumento. En la medida en que se obtienen los resultados predichos por la teoría, se dice que hay validez de constructo.

Page 120: Manual de Medicion Psicologica. 2011 (2)

Validez de Contenido. Determinación de si una prueba mide lo que se supone que debe medir con relación a la Tabla de Especificaciones que describe el universo de evaluación (tópicos de contenido, habilidades desarrolladas, etc.). Se establece cuando un grupo de expertos analiza cualitativamente los ítems y determina dónde se ubican con relación a las celdas de la Tabla de Especificaciones. Si existe coincidencia entre los juicios de los expertos y lo que se prevé que mida cada ítem, se dice que hay validez de contenido. Es decir, se trata de determinar qué grado de representatividad tiene la prueba con respecto a universo de conceptos que se pretende medir. Se aplica de manera particular en las Pruebas de Rendimiento, que evalúan un contenido determinado. Validez Empírica o Criterial. Establece la relación entre el rendimiento en el test y las puntuaciones obtenidas en una variable externa (criterio) que se supone mide el mismo atributo que el test. Hace uso de métodos correlacionales (véase Correlación), que permiten establecer el grado de asociación entre ambas variables. La validación empírica se fundamenta en estudios que tienden a ser de carácter aplicado, puesto que a menudo interesa solamente la capacidad predictiva de los resultados de la prueba con relación al criterio. Cuando el criterio se toma algún tiempo después de la aplicación de la prueba, se habla de validez predictiva, como cuando se trata de predecir el rendimiento universitario a partir de una prueba de aptitud académica. Cuando se toman la medida en el test y en el criterio en forma simultánea se habla de validez concurrente, como cuando se trata de realizar un diagnóstico de los conocimientos de un grupo de personas. Varianza. Medida de la dispersión de los puntajes en una distribución. Se calcula mediante el promedio de los desvíos de cada puntaje con respecto a la Media elevados al cuadrado. Varianza del ítem. En ítems binarios se determina mediante la multiplicación de pxq, en donde p es la proporción de respuestas correctas y q la de respuestas incorrectas al ítem. En este tipo de ítems, su valor está contenido entre 0 y 0,25. En ítems no binarios, tanto para su cálculo como para establecer sus límites, es necesario conocer el recorrido de la escala de los ítems. La raíz cuadrada de la varianza del ítem constituye la desviación típica del ítem.z o puntaje Estándar. Es un término general que se refiere a la transformación de puntajes a escalas de propiedades conocidas. En el caso de los puntajes z (minúscula) es una transformación referida al número de desviaciones con respecto a la media a la que se encuentra un determinado puntaje. Se calcula mediante la fórmula siguiente (en donde X es un puntaje determinado, X es la Media y D.T. es la Desviación Típica) z = (X – X) / D.T. Z (Escala Z). Transformación lineal de Media de 50 puntos y Desviación Típica de 10 puntos. zn (z normalizada). Transformación a una escala de Media = 0 y Desviación Típica = 10, fundamentada en las proporciones acumuladas hasta el punto medio de la clase haciendo uso de la Tabla z de áreas bajo la curva normal. Es una transformación no lineal.

Page 121: Manual de Medicion Psicologica. 2011 (2)
Page 122: Manual de Medicion Psicologica. 2011 (2)

BIBLIOGRAFIA

1. Tovella, M. (1988). Análisis de los Ítemes e la construcción de instrumentos psicométricos. México Trillas.

2. Bastin, G. (1968). Los Test Psicométricos. Buenos Aires Kapelusz.

3. Adkins Wood, D. (1968). Elaboración de test. México Trillas.

4. Glass,G., Stanley,J. (1986). Métodos estadísticos aplicados en las ciencias sociales. España Florento Hall Internacional.

5. Sieguel, Sidney. (1978). Estadística no paramétrica aplicada a las ciencias de la conducta. México Trillas.

6. Cortada, N., Carr, J. (1979). Estadística Aplicada. Buenos Aires. Ediciones Previas.

7. Numnaly Jun. (1979). Introducción a la medición Psicológica. Buenos Aires Centro Regional de Ayuda Técnica.

8. Numnaly, Jun. (1991). Teoría Psicométrica. México. Trillas.

9. Robert L. Thorndike. (1989). Psicometría Aplicada. Limusa. México.

10. Manning, S., Rosentock, E. (1979). Elaboración de escalas de actitudes y psicofísica clásica. México. Trillas.

11. Magnuson, D. (1986). Teoría de los Test. México Trillas.

12. Woolfolk, Anita . (1990). Psicología Educativa. Tercera Edición. P.H.H. Prentice Hall. México.

13. Escotet , Miguel. (1985). Estadística Psicoeducativa Trillas México.

14. Smith, Milton. (1971). Estadística Simplificada para Psicólogos y Educadores. Manual Moderno México

Page 123: Manual de Medicion Psicologica. 2011 (2)