psicometrÍa - personal.us.espersonal.us.es/vararey/psicometria.pdf · 6 comprensivas del fenómeno...

1

PSICOMETRÍA:

TEORÍA CLÁSICA DE LOS TESTS

Carlos Camacho Martínez Vara de Rey

Universidad de Sevilla

3

INDICE

Capítulo 1.- Teoría Clásica de los Tests

1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.2.- Fiabilidad y validez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3.- Tipos de errores de medida y sus consecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.4.- Fundamentos de la teoría clásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.5.- Definición de coeficiente de fiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.6.- Teoría clásica de los tests y modelos estructurales . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.6.1.- Modelo de medida en puntuaciones estandarizadas . . . . . . . . . . . . . . . . . . . . . . 17

Capítulo 2.- Fiabilidad

2.1.- Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2.- Procedimientos basados en dos aplicaciones del test . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2.1.- El método del test-retest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2.2.- El método de las formas paralelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.3.- Procedimientos basados en una única aplicación del test . . . . . . . . . . . . . . . . . . . . . . . 27

2.3.1.- Método de las dos mitades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.3.2.- Fórmula de Rulon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.3.3.- Fórmula de Flanagan y Guttman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

2.3.4.- El coeficiente Alpha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.3.4.1.- Coeficiente Alpha con elementos dicotómicos . . . . . . . . . . . . . . . . . . . . . 36

2.4.- Fiabilidad de un test compuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.5.- Fiabilidad desde la perspectiva del análisis de la varianza . . . . . . . . . . . . . . . . . . . . . . 43

2.6.- Estimación de las puntuaciones verdaderas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

2.7.- Factores que afectan al coeficiente de fiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2.7.1.- Fiabilidad y variabilidad de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2.7.2.- Fiabilidad y longitud del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

4

2.7.2.1.- Cálculo de la longitud de un test para lograr una fiabilidad

prefijada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

2.7.2.2.- Reducción de la longitud del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

2.7.3.- Fiabilidad y limitación del tiempo de aplicación del test . . . . . . . . . . . . . . . . . . . 61

2.7.4.- Fiabilidad y características del ítem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

2.8.- Valoración de los distintos coeficientes de fiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 64

2.9.- Tratamiento informatizado de la fiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

2.9.1.- Método de las dos mitades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

2.9.2.- Coeficiente Alpha y análisis de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

2.9.3.- Coeficiente Alpha con elementos dicotómicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

Capítulo 3.- Validez

3.1.- Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

3.2.- Validez referida al criterio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

3.2.1.- Predicción del criterio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

3.2.2.- Validez y fiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

3.2.3.- Validez y longitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

3.2.4.- Validez y variabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

3.3.- Validez de contenido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

3.4.- Validez de constructo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

3.4.1.- Matrices multirrasgo-multimétodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

3.4.2.- Análisis factorial exploratorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

3.4.3.- Modelos estructurales como validez de constructo . . . . . . . . . . . . . . . . . . . . . . 104

3.5.- Tratamiento informatizado de la validez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

APENDICE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

REFERENCIAS BIBLIOGRAFICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

5

1.- TEORIA CLASICA DE LOS TESTS

1.1. Introducción

Frecuentemente preocupa al investigador en ciencias humanas encontrar nuevas pruebas y más

sofisticadas que permitan analizar la complejidad de los datos de observación. Nada que objetar

a este legítimo interés, pero hay que decir que no siempre se tiene el mismo cuidado en cuestiones

tan básicas como el procedimiento de recogida de los datos (muestreo) y la forma de medirlo

(validez y fiabilidad). Ambos aspectos, fundamentales (y relacionados) a la hora de establecer

conclusiones pertinentes.

Aquí, en las próximas páginas trataremos esta última cuestión: el problema de la medida, y en

particular, el problema de la medida en psicología. Desarrollaremos en una primera instancia el

modelo lineal clásico en la teoría de los tests, igualmente denominado, Teoría Clásica de los

Tests o bien TCT, por ser, digamos, la teoría original y vigente durante un cierto tiempo. Hoy día

se ha visto superada por otros planteamientos tales como los debidos a la Teoría de la

Generalizabilidad o bien, a la Teoría de Respuesta al Item, de supuestos más restrictivos, y que

serán tratados más adelante. No obstante, hay que decir que a efectos prácticos, la TCT ofrece

buenos resultados y es ampliamente utilizada actualmente, lo que justifica su inclusión en estas

páginas.

Comenzaremos, ofreciendo una primera aproximación a los conceptos de fiabilidad y validez,

conceptos que serán desarrollados cuando se trate in extenso estos aspectos. Expondremos a

continuación los diferentes tipos de errores de medición que pueden dar lugar en cualquier

investigación psicológica, para analizar a renglón seguido sus consecuencias a la hora de extraer

conclusiones. Destacaremos, con ello, la importancia de una correcta medición en los fenómenos

humanos. Por último, y esta es la parte nuclear de este trabajo, ofreceremos los recursos

necesarios para lograr una aceptable medición con nuestras variables objetos de estudio.

Hemos de decir que aunque el lector encontrará en las próximas páginas una cabal exposición

de los conceptos básicos de la TCT, no obstante, en la medida de lo posible, recurriremos a

nutrirnos de los planteamientos de la Regresión Múltiple y Modelos Estructurales. Creemos que

con ello, sin menoscabo de rigor expositivo, lograremos formulaciones más simples y

6

comprensivas del fenómeno de la medición en psicología.

1.2.- Fiabilidad y validez

Toda medida ha de ser válida y fiable; esto es, ha de medir aquello que nos proponemos (validez)

y además ha de medirlo con precisión (fiabilidad). Son éstas definiciones muy generales, pero que

nos sirven, por el momento, para nuestros propósitos inmediatos.

La fiabilidad, en cuanto precisión, es un concepto que no puede ser conocido en términos

absolutos, si entendemos por precisión el grado de correspondencia entre la medida empírica

realizada y la magnitud real de aquello que estamos midiendo. Es obvio que la única información

de la que disponemos en cualquier medida es precisamente esa medida, y por tanto, desconocemos

la verdadera magnitud de lo medido. Es por ello que se recurre a otro concepto de fiabilidad que

nos permita de forma indirecta saber si estamos midiendo con cierta precisión. Esta hace

referencia a la estabilidad o constancia en las medidas. Aquí el término "fiabilidad" corresponde

a su autentico significado; es fiable aquello que se mantiene constante en situaciones semejantes.

Como de las personas que nos podemos fiar (hasta que se meten en política). Un test, por ejemplo,

es fiable si cada vez que aplica a los mismos sujetos proporciona los mismos resultados. Y es a

partir de la constancia como inferimos la precisión del instrumento, que es el concepto que

realmente nos interesa; cuanto más constante, más preciso, ya que suponemos que la puntuación

verdadera estará dentro del rango de la variabilidad observada, y en consecuencia, cuanto menor

variabilidad más estrecho será el campo donde se encuentre la puntuación verdadera, y

deduciremos que estamos midiendo con mayor precisión.

El concepto de validez es algo más complejo, aunque no lo parezca en esta primera aproximación

que hemos ofrecido. Parece una obviedad sin más complicaciones afirmar como hemos hecho que

"una medida es válida si mide aquello que pretendemos". Según esta definición, un metro es

válido para medir longitudes y una balanza lo es para medir pesos. Y no parece necesario en este

contexto replantearse la validez del metro o de la balanza, ya que las magnitudes físicas están ahí,

al alcance de la mano. Pero en psicología las cosas cambian sustancialmente. ¿Dónde está aquello

que pretendemos medir?. ¿Realmente, tal test mide la inteligencia?. ¿No medirá razonamiento o

fluidez verbal?. ¿Y cuando mido ansiedad, estoy seguro de que no estaré midiendo depresión?.

En psicología la cuestión es que las variables más que darse en la naturaleza (peso, longitud,

densidad) son variables creadas por nosotros mismos. Se trata de conceptos -constructos- de

nuestra propia elaboración. En estas circunstancias, convendremos que en este terreno ya es más

difícil saber cuando medimos, qué es exactamente lo que estamos midiendo. En una primera

aproximación (ya diremos más adelante cómo) consideraremos la validez como la

correspondencia entre lo medido y el concepto de referencia o constructo. Es evidente que la

obtención de la validez obedece más a consideraciones teóricas que empíricas. En la fiabilidad

7

Figura 1.1.- Modelo estructural aplicado a la medida

no nos preguntamos qué estamos midiendo sino con cuanta precisión, y este grado de precisión

es fácil de determinar (indirectamente) por la constancia de los resultados. Hay un aspecto

cuantitativo, empírico al cual aferrarse como criterio de fiabilidad. Por el contrario, en la validez,

el "qué" otorga a la cuestión una dimensión cualitativa, dependiendo de nuestra especial

consideración sobre los que son las cosas.

Aunque los conceptos de validez y fiabilidad son diferentes, existe una cierta implicación mutua

que comentaremos seguidamente. Una buena fiabilidad no implica necesariamente una buena

validez, pero una mala fiabilidad sí implica una deficiente validez. Por el contrario una buena

validez, necesariamente exige una fiabilidad previa igualmente buena. Lo comentaremos

brevemente, y nos serviremos, además, de un gráfico que facilite su comprensión.

Vayámonos a un caso extremo. Supongamos que medimos la inteligencia de las personas en base

a la longitud de cierta línea de la mano izquierda. Está claro que aunque midamos con gran rigor

dicha línea -alta fiabilidad- de poco nos servirá (para despecho de los quirománticos) como

indicativo de la inteligencia de los sujetos. De hecho, si tomáramos como criterio de inteligencia

algún test reconocido, tal como el Weschler, poca relación habría con el mismo. Se observa, pues,

que una alta fiabilidad no obliga a nada a la validez. Por el contrario, una mala fiabilidad sí

conlleva una deficiente validez. Si medimos la inteligencia de un sujeto con un cierto test en el

que un día se le indica que es un genio y al siguiente que es un subnormal, de poco nos servirá

para conocer la inteligencia de dicho individuo (suponemos que no le ha pasado nada grave de

un día para otro). Por último, una alta validez subsume una alta fiabilidad. Si el test que estamos

mencionando predice de forma rigurosa la inteligencia es porque hay precisión también en la

medida, si no no habría ningún tipo de rigor. Veámoslo de forma gráfica recurriendo a diagramas

de caminos o diagrama path.

8

Supongamos que X es la puntuación empírica, τ, la puntuación verdadera, y ξ el constructo que

se entiende es fiel reflejo de lo que pretendemos medir. Hemos puesto las flecha en la dirección

que se propone en los modelo estructurales, aunque es un aspecto susceptible de ser discutido;

suponemos que la puntuación empírica deriva de la verdadera, que a su vez depende del

constructo. Es evidente, que una fuerte ligazón entre X y τ (buena fiabilidad) no afecta a la ligazón

ente τ y ξ, pero si ξ y X están ligados (buena validez) necesariamente lo serán los pasos

intermedios. Por último, una ausencia de relación entre X y τ (mala fiabilidad) anula la relación

entre X y ξ.

1.3.- Tipos de errores de medida y sus consecuencias

Como hemos indicado al comienzo de este capítulo, no siempre se es lo suficientemente

cuidadoso en la medición de las variables. Como veremos, esta fase, previa a todo análisis

estadístico, condiciona de manera importante los resultados de toda investigación. De no

realizarse adecuadamente quedarán desvirtuadas de manera significativa las conclusiones

obtenidas. En estas circunstancias, ¿qué valor tendrán nuestras decisiones?.

En este apartado examinaremos los diferentes tipos de errores posibles y sus consecuencias. En

aras de una cierta simplicidad nos ceñiremos a investigaciones donde se estudia la relación entre

dos variables cuantitativas. Entendemos que como botón de muestra puede resultar

suficientemente ilustrativo. Para ver sus implicaciones en situaciones más complejas, tales como

la regresión múltiple o aquellas que derivan de ecuaciones estructurales, donde intervienen

múltiples ecuaciones, puede consultarse Bollen (1989, págs. 151-176).

El término error de medida comprende errores de muy diferente naturaleza. Aquí, distinguiremos,

de acuerdo con Jenck y colaboradores (1979, págs.. 34-36), tres tipos de errores fundamentales:

a) conceptuales, b) sistemáticos y c) aleatorios.

Los errores conceptuales son consecuencia no tanto de medir mal una determinada variable como

medir equivocadamente otra en su lugar. Se trata de un problema relativamente frecuente en

psicología donde no suele estar muy claro qué es lo que estamos midiendo. Ocurre, por ejemplo,

cuando utilizamos una prueba de razonamiento o de vocabulario como expresión de la

inteligencia, o bien cuando tomamos los ingresos como indicativo del nivel social. Son errores,

diríamos cualitativos, y quedarían enmarcados dentro del tema de la validez, que estudiaremos

más adelante.

9

Los errores sistemáticos son aquellos que siempre se producen en una misma dirección. Por

ejemplo, un cierto instrumento puede medir siempre de más, o bien, todos los individuos de un

grupo han realizado un cierto test con diez minutos menos del tiempo especificado en el manual,

o bien, un encuestador induce sistemáticamente a una determinada respuesta. Todas estas

situaciones darán lugar a respuestas sesgadas que repercutirán en los estimadores obtenidos. Es

obvio que la estadística como tal poco tiene que hacer con este tipo de errores, donde sólo cabe

ser cuidadoso en la planificación y desarrollo de toda investigación.

Por último, los errores aleatorios son consecuencia de los múltiples factores que inciden en toda

medición y que introducen en la misma una cierta variabilidad. A diferencia de los errores

sistemáticos, los errores aleatorios no guardan relación alguna con las variables objetos de nuestro

estudio; se suponen que unas veces actúan en un sentido y otras en otro, de forma tal que quedan

compensados entre ellos y a la larga su suma valdrá cero. Posiblemente un determinado sujeto

tenga la misma inteligencia hoy que mañana, pero si le aplicásemos el mismo test en ambos días,

presumiblemente obtenga puntuaciones diferentes. Variables tales como estado de ánimo,

cansancio, grado de adivinación, errores de codificación ..etc, puedan afectar a los resultados de

la prueba aplicada. Tales errores hacen referencia a la precisión de las medidas y entran dentro del

terreno de la fiabilidad, que será tratado más adelante.

Los errores conceptuales y los errores sistemáticos son consecuencia fundamentalmente de un

diseño defectuoso. En el caso de los conceptuales, planteamientos teóricos más rigurosos en torno

a la naturaleza de las variables es lo que se hace exigible, mientras que en los sistemáticos, se hace

necesario un mayor control sobre aquellas variables extrañas que inciden en la investigación, en

el sentido de mantener su constancia en todo momento.

Los errores aleatorios, aunque pueden reducirse con una mejora en el diseño, nunca pueden ser

eliminados por completo. Los errores de medida son inherentes a la misma medición. Nunca serán

controlados en su totalidad, por lo que la estadística ha de hacerse cargo de ellos. Su naturaleza

de "aleatorios" con sus supuestos de media cero e incorrelación los hace idóneos para ser tratados

estadísticamente y conocer su cuantía, cuestión que no es posible con los otros tipos de errores.

En lo que sigue, y situándonos dentro del contexto de la regresión bivariada, comprobaremos de

qué forma afecta el error de medición sobre el modelo de regresión planteado. Veremos en primer

lugar qué ocurre cuando es la variable dependiente la medida con error, para tratar a continuación

las consecuencia de una mala medida sobre la variable independiente.

Supongamos entonces que disponemos del siguiente modelo estimado:

10

Y ' a % bX % e (1.1)

Y ( ' Y % u (1.2)

Y ( ' Y % u ' a % bX % (e % u) (1.3)

X ( ' X % u (1.4)

E(b) ' βρxx ) (1.5)

donde la variable Y ha sido medida con un cierto error u. Esto es, en lugar de Y hemos obtenido

Y*:

Entonces, el nuevo modelo estimado será:

Se comprueba que la parte sistemática del modelo sigue siendo equivalente (se mantienen los

mismos coeficientes de regresión), pero ha aumentado su componente de error. Como

consecuencia de ello, la varianza residual será mayor, lo que implica una disminución en el valor

de R2 del modelo, al mismo tiempo que los estimadores, aunque insesgados, serán menos

eficientes, ya que dicha varianza residual afecta a la varianza de tales estimadores.

Cuando el error de medida afecta a la variable independiente, la situación es algo más compleja.

Supongamos, en este caso, como anteriormente, que en vez de X hemos obtenido X*:

En este caso, la modificación en los valores de X, además de la pérdida consiguiente en R2,

afectará a la misma estructura de la ecuación de regresión; esto es, los estimadores resultarán

sesgados. De hecho, se demuestra (ver apéndice):

Lo que expresa que la esperanza matemática de b no se corresponde con el parámetro ß, como

debería suponerse si resultase insesgado, sino que queda afectada por el coeficiente de fiabilidad

ρxx' de la variable X (valor que definiremos en la próximas páginas).

11

X ' V % e (1.6)

1.4.- Fundamentos de la teoría clásica de los tests

Como se acaba de indicar, los errores de medida originan graves distorsiones en la misma

naturaleza de la relación entre las variables implicadas en las investigaciones objeto de estudio.

Tales errores pueden minimizarse hasta un cierto grado, pero nunca eliminarse. La balanza más

precisa que podamos imaginar, siempre sufrirá un cierto desgaste en sus piezas a lo largo del

tiempo, habrá una mínima fricción entre sus componentes, o simplemente, nuestro ángulo de

visión al observar el instrumento no será en todo momento exactamente el mismo. Y si esto

ocurre cuando estudiamos objetos, qué será cuando investigamos sujetos. En fenómenos humanos

no hay forma de garantizarse un perfecto control sobre todas y cada una de las variables.

Precisamente, como hay un elemento de error insoslayable, la única aproximación posible a tales

fenómenos es a través de la estadística. Las decisiones se toman siempre con un determinado

margen de probabilidad, lo que conlleva necesariamente riesgo de error asociados.

Descartaremos, por el momento, los errores conceptuales y sistemáticos (para algunos, autores,

ambos sistemáticos) como debidos a problema de diseño y/o de fundamentación teórica, y nos

concentraremos sobre los errores aleatorios, susceptibles de ser abordados (indirectamente) desde

la teoría matemática que expondremos a continuación. Veremos, cómo desde los supuestos del

modelo de medida, desde sus restricciones impuestas, podemos acotar, hasta cierto punto, la

cuantía de los errores de medida.

Este modelo de medida, expuesto originalmente por Spearman, y que se denomina ecuación

fundamental de la teoría clásica de los test, viene a decir lo siguiente:

La puntuación empírica (X) obtenida por un determinado sujeto equivale a su puntuación

verdadera (V) más un cierto error (e). Esta ecuación resulta bastante obvia y razonable, pero hay

que insistir que no es tanto la constatación de una realidad como la definición de un supuesto. Por

ejemplo, entendemos que las puntuaciones empíricas son combinaciones lineales de las

puntuaciones verdaderas y de los errores (modelo lineal), y no que los errores tienen una relación

multiplicativa con las puntuaciones verdaderas, lo que daría lugar a otro tipo de modelo no lineal.

De la ecuación (1.6) lo único realmente obvio es la puntuación X obtenida por un determinado

sujeto. Pero, ¿qué decir de la puntuación verdadera y del error?. Aquí no hay ninguna evidencia,

y es a través de conjeturas como estimamos su valor.

12

V ' E(X ) (1.7)

E(e) ' 0 (1.8)

E(X ) ' E(V ) % E(e ) ' E(V ) (1.9)

ρve

' 0 (1.10)

ρejek

' 0 (1.11)

Sobre la puntuación verdadera se han dicho muchas cosas. Tal como se considera en este contexto

de la teoría clásica, no es alguna cualidad real inherente a las personas e inmutable que se

encuentran en éstas al estilo de las ideas platónicas y que se refleja, como en el mito de la

caverna, en cierto grado (con error), dando lugar a la puntuación observada. Podría ser así, pero

aquí queda restringido a la esperanza matemática de la puntuación empírica; esto es, la media

de un cierto rasgo si se aplicase a determinado sujeto la misma prueba "infinito" número de veces.

Esta definición tiene muchas ventajas, porque la puntuación verdadera deja de ser algo intangible

para ser algo que puede ser fácilmente operativizada. Ya podemos "encontrar" (tras infinitos

intentos) la puntuación verdadera y manejarla. Así:

Respecto al error, decir, como ya se ha afirmado, que es aleatorio. Esto implica que una veces nos

equivocaremos por exceso y otras por defecto, y que a la larga (también después de infinitas

veces) habrá simetría y que la cantidad de errores positivos equivaldrá a los negativos. Así:

Este supuesto, es en realidad el mismo que el anterior, ya que el ser la media de los errores cero,

la puntuación verdadera coincidirá con la media de las empíricas:

Igualmente, se asume que la correlación entre los errores y las puntuaciones verdaderas es igual

a cero. Esta suposición es lógica, ya que si son aleatorios no tendrán nada que ver con ninguna

característica de los sujetos. Así:

Igualmente, y por la misma razón, no deberán correlacionar con otros errores en otras medidas:

Y por último, dos supuesto más, necesarios para hacer inferencias estadísticas, hacen referencia

a la normalidad de los errores y a la homocedasticidad o igualdad de varianza de los mismos.

13

X ' V % e (1.6)

σ2x ' σ

2v % σ

2e (1.12)

Var(X) ' Var(V%e) ' Var(X) % Var(e) % 2Cov(V,e) ' Var(X) % Var(e)

ρxx´

'σ

2v

σ2x

(1.13)

ρxx´

' ρ2vx (1.14)

ρvx

' ρxx´ (1.15)

1.5.- Definición del coeficiente de fiabilidad

Como hemos indicado:

De donde se deduce::

Efectivamente:

ya que la correlación (y por tanto, la covarianza) entre las puntuaciones verdaderas y los errores

es cero.

Y a partir de aquí definiremos como coeficiente de fiabilidad a la razón entre la varianza

verdadera y la empírica. Esto es:

Su valor refleja, precisamente, la proporción que de la varianza empírica (o total de X) explica la

varianza verdadera. Obviamente, dicho coeficiente es indicativo de la bondad de la medida;

cuanto más saturada esté la puntuación empírica de la verdadera, más fiable será la medida. Tiene

connotaciones con el modelo de regresión. De hecho, podemos plantear la ecuación (1.1) como

un modelo de regresión con su variable dependiente X y su variable independiente V. En este caso,

el coeficiente de fiabilidad coincide con la correlación al cuadrado entre X y V, que, como se sabe,

expresa la proporción de variación explicada por V en X. Esto es:

Por otro lado, definiremos el índice de fiabilidad como la correlación entre las puntuaciones

verdaders y empírica. De esta forma:

14

X ' V % e (1.6)

x ' λv % e (1.16)

Figura 1.2. Modelo estructural aplicado a la medida

1.6.- Teoría clásica de los tests y modelos estructurales

Es nuestra intención exponer en las páginas siguientes la TCT desde el recurso de los modelos

estructurales. Entendemos que dicha teoría puede ser incorporada, sin menoscabo de su

integridad, dentro de tales modelos. Lograremos de esta forma: a) una mayor simplicidad en las

demostraciones, b) una mayor claridad expositiva gracias a los recursos gráficos que proporcionan

los diagramas causales y c) lo que es más importante, conseguiremos, además, una visión

unificadora de la estadística que redundará todo ello en una mayor comprensión de los conceptos

aquí expuestos.

Podemos expresar la ecuación conocida:

de la siguiente manera, según la terminología LISREL:

En términos gráficos:

Se supone que la variable exógena, marcada con un círculo (como corresponde a las variables no

observables según la nomenclatura LISREL) es la puntuación verdadera, en el sentido de que es

ella la que "origina" o "causa" la variable endógena X. Aunque operativamente hemos definido

15

E (X*V ) ' V (1.17)

E(X*V) ' E((V%e)*V) ' E(V*V) % E(e*V) ' V (1.18)

X ' V % e (1.6)

X ' E(X*V) ' V (1.19)

V ' X & e

V como la media de X, podemos afirmar, no obstante, en términos teóricos, que la variable X es

una medida efectuada sobre la variable V, y por tanto, depende de ésta.

Obsérvese la ecuación (1.16). donde la ausencia del término constante (ordenada en el origen)

muestra que la recta de regresión pasa por el origen del sistema de ejes cartesianos. La pendiente,

por otro lado, vale 1, tal como se refleja en el diagrama causal como medida del efecto de la

variable V sobre X. Es indicativo de que las medias condicionadas de X a lo largo de toda la recta

de regresión, coinciden con las correspondientes puntuaciones verdaderas (y no solamente, que

la variable no observable V se expresa en la misma escala que la observada X). Esto es:

Como fácilmente podemos comprobar:

ya que el valor medio de V para cada V es precisamente el valor V, y por otro lado, al ser los

errores independientes de las puntuaciones verdaderas se seguirá cumpliendo que para cada nivel

de V su media seguirá siendo cero.

Así pues, como conclusión, podemos considerar que si hemos afirmado que la puntuación

empírica de un determinado sujeto equivale a su puntuación verdadera más el error:

entonces, ocurre que a nivel poblacional (esto es, la generalidad de los casos) nos encontramos

con la siguiente ecuación de regresión:

Es importante señalar esta circunstancia, porque más adelante necesitaremos determinar la

ecuación de regresión que liga las puntuaciones verdaderas con las empíricas, y aunque aquí se

cumple, igualmente, que a nivel individual:

16

V ' X

E(V*X) ' E(X&e)*X) ' E(X*X) & E(e*X) ' X & E(e*X) (1.20)

β 'E(xv)

E(x 2)'

E((v%e)v)

E(x 2)'

E(v 2) % E(ev)

E(x 2)'

E(v 2)

E(x 2)' ρ

2vx (1.21)

α ' V & ¯bX ' X & ρ2xvX ' (1 & ρ

2xv)X (1.22)

V ' α % βX ' (1 & ρ2xv)X % ρ

2xvX (1.23)

sin embargo, a nivel poblacional no sucede que:

ya que si suponemos, como anteriormente, que la recta de regresión pasa por los promedios de V

condicionados a los distintos valores de X:

donde los errores sí están correlacionados con la variable X. De hecho, como se sabe, el cuadrado

de dicha correlación es precisamente, la proporción de varianza no explicada por el modelo. Como

consecuencia de todo ello, el promedio de los errores para los diferentes valores de X no será cero.

Habrá un sesgo sobre X que hará que las puntuaciones verdaderas no coincidan con las empíricas.

Podemos comprobar fácilmente que la pendiente de la recta no es ahora la unidad sino .ρ2vx

Efectivamente:

Además esta circunstancia afectará a la ordenada en el origen:

Por tanto:

17

x ' σv

v

σv

% e

x

σx

'σ

v

σx

v

σv

%e

σx

x s ' λv s % e s (1.24)

λ 'σ

v

σx

' ρvx (1.25)

X V e

S))))))))))))))))))))))))

5 6 -1

6 6 0

7 6 1

8 9 -1

9 9 0

10 9 1

11 12 -1

12 12 0

13 12 1

S))))))))))))))))))))))))

Tabla 1.1. Datos hipotéticos

1.6.1.- Modelo de medida en puntuaciones estandarizadas

Para ciertos casos, conviene utilizar la ecuación estructural en puntuaciones estandarizadas. Para

ello, en base a la ecuación (1.6) en diferenciales, multipliquemos y dividamos la puntuación

verdadera por su desviación tipo:

A continuación, dividamos ambos miembros de la ecuación por la desviación tipo de la

puntuación empírica:

Como consecuencia de ello obtenemos el modelo en puntuaciones estandarizadas:

donde:

Ejemplo 1.1.- Tengamos los siguientes datos hipotéticos, donde se observan las puntuaciones

empíricas X, verdaderas V y los términos de error e:

18

Valid

Variable Mean Variance Minimum Maximum N Label

E ,00 ,75 -1,00 1,00 9

V 9,00 6,75 6,00 12,00 9

X 9,00 7,50 5,00 13,00 9

Tabla 1.2. Resumen estadístico

- - Correlation Coefficients - -

E V X

E 1,0000 ,0000 ,3162

( 9) ( 9) ( 9)

P= , P=1,000 P= ,407

V ,0000 1,0000 ,9487

( 9) ( 9) ( 9)

P=1,000 P= , P= ,000

X ,3162 ,9487 1,0000

( 9) ( 9) ( 9)

P= ,407 P= ,000 P= ,

Tabla 1.12. Matriz de correlaciones

Esto supuesto, determinar las siguientes ecuaciones: a) de X sobre V, b) de V sobre X, y c) de Zx

sobre Zv.

SOL:

a) Al objeto de facilitar la presentación de resultados, recurriremos al comando REGRESSION

del SPSS. Observemos en primer lugar el descriptivo de estos datos, al objeto de comprobar los

supuestos del modelo:

Se observa que las medias de los errores es cero. Asimismo que las puntuaciones verdaderas y

empíricas coinciden en sus promedios. Por otro lado, merced a la incorrelación entre puntuaciones

verdaderas y errores, se comprueba la equivalencia de la variancias empírica como suma de la

verdadera y del error.

La matriz de correlaciones muestra los restantes supuestos del modelo:

19

Multiple R ,94868

R Square ,90000

Adjusted R Square ,88571

Standard Error ,92582

Analysis of Variance

DF Sum of Squares Mean Square

Regression 1 54,00000 54,00000

Residual 7 6,00000 ,85714

F = 63,00000 Signif F = ,0001

------------------ Variables in the Equation ------------------

Variable B SE B Beta T Sig T

V 1,000000 ,125988 ,948683 7,937 ,0001

Tabla 1.3. Análisis de regresión de X sobre V

X ' V

Los errores no han de correlacionar con las puntuaciones verdaderas, aunque sí debe hacerlo con

las empíricas (es la parte no explicada de éstas).

Comprobados estos supuestos, veamos la ecuación de regresión de X sobre V:

Obsérvese cómo la ecuación de regresión es:

b) Por el contrario, si deseamos conocer la ecuación de regresión de V sobre X:

20

Multiple R ,94868

R Square ,90000

Adjusted R Square ,88571

Standard Error ,87831

Analysis of Variance

DF Sum of Squares Mean Square

Regression 1 48,60000 48,60000

Residual 7 5,40000 ,77143

F = 63,00000 Signif F = ,0001

------------------ Variables in the Equation ------------------

Variable B SE B Beta T Sig T

X ,900000 ,113389 ,948683 7,937 ,0001

Tabla 1.4. Análisis de regresión de V sobre X

V ' 0.9X

Zx' 0.9487Z

v

En este caso, la ecuación de regresión tiene por coeficiente de regresión el valor de la correlación

al cuadrado, o lo que es lo mismo, su coeficiente de fiabilidad. Así:

c) Se comprueba que en estandarizadas, tal como puede observarse bajo el epígrafe de Beta en

cualquiera de las tablas anteriores, es:

21

2.- FIABILIDAD

2.1.- Introducción

Como se ha indicado, la fiabilidad de un instrumento hace referencia a su precisión; esto es, a

la medida en que las puntuaciones empíricas son reflejo de las verdaderas. Mide el grado de

ajuste entre ambas, y en una primera aproximación la hemos definido como la proporción que

de la varianza empírica explica la varianza verdadera, que, como se sabe, viene indicado por el

valor de .ρ2vx

Esta definición, no obstante, no es operativa por cuanto no disponemos jamás de ninguna

"puntuación verdadera". Todas las puntuaciones son el resultado de mediciones. Son, pues,

puntuaciones empíricas con sus correspondientes errores implícitos. Necesitamos, en

consecuencia, abordar el problema desde otra perspectiva. De forma indirecta podemos conocer

la fiabilidad de una determinado instrumento mediante la variabilidad de sus mediciones. Si la

variabilidad observada es pequeña deduciremos que la puntuación verdadera, al estar dentro del

rango de variación de las puntuaciones empíricas, no estará muy lejos de éstas. Por el contrario,

una gran variabilidad será indicativo de amplios márgenes para la puntuación verdadera, lo que

será indicativo de que nuestro instrumento no es muy preciso.

De esta forma, visto desde otra perspectiva, la constancia o estabilidad del instrumento mostrará

su fiabilidad. Así, un determinado test será fiable si tras diferentes pasadas a los mismos

individuos ofrece parecidos resultados. En términos matemáticos la fiabilidad de un test quedará

reflejada mediante la correlación de las puntuaciones obtenidas consigo mismas. Cuanto mayor

correlación, más parecidas o constantes serán las tales puntuaciones, y en consecuencia, mayor

será su fiabilidad.

No conviene confundir la constancia de las mediciones con la constancia de lo medido. Un objeto

que no cambia deberá proporcionar equivalentes resultados en diferentes pasadas si nuestro

instrumento es fiable, pero si cambia, y entendemos que nuestro instrumento es fiable, entonces

dicho instrumento deberá reflejar tal cambio. Será fiable aunque proporcione diferentes

mediciones. Este aspecto es importante, pues si bien en las ciencias físicas cabe esperar que un

objeto permanezca idéntico a sí mismo a lo largo de diferentes mediciones, no ocurre otro tanto

en fenómenos humanos. Una persona puede cambiar ciertos rasgos psicológicos, tales como las

22

Dos aplicaciones del test

test-retest

formas paralelas

Una aplicación del test

dos mitades

Alpha de Crombach

Figura 2.1. Cuadro esquemático de los distintos coeficientes de fiabilidad

actitudes o las emociones, con una relativa facilidad. En este caso un test que mida tales cambios

será más fiable que el que no lo hiciera, aunque hemos de reconocer la dificultad que entraña

distinguir tales cambios medidos como modificaciones reales.

Queremos enfatizar con ello las dificultades que entrañan las mediciones de rasgos psicológicos

frente a las mediciones en otros ámbitos de la ciencia, donde el elemento subjetivo es de menor

importancia. A tal efecto, en un intento de encontrar un procedimiento idóneo para determinar

la fiabilidad, se han planteado, dentro de la TCT, diferentes enfoques para el cálculo del

coeficiente de fiabilidad. Todos están basados en el coeficiente de correlación de Pearson.

Distinguiremos, a este respecto, y muy a grosso modo, procedimientos basados en dos

aplicaciones del test, bien sea el mismo test -método del test-retest- o dos test equivalentes -

método de las formas paralelas-, de aquellos procedimientos basados en una única aplicación del

test, bien sea dividiendo éste en dos mitades -método de las dos mitades-o bien considerando

todos y cada uno de los ítemes como elementos independientes -Alpha de Crombach-. De forma

esquemática:

No obstante, hemos de decir que no puede afirmarse a priori cual de estos procedimientos es el

más adecuado. Veremos que distintas circunstancias harán aconsejable unas veces un

procedimiento y otras veces otro, o incluso ambos. Digamos, en principio, que mediante dos

aplicaciones del test medimos fundamentalmente la fiabilidad como estabilidad del instrumento,

mientras que merced al procedimiento de una única aplicación medimos la consistencia interna

del mismo.

23

Figura 2.2. Diagrama path para el método del test-retest

x ' ρvx

v % e

x´ ' ρvx´

v % e´(2.1)

2.2.- Procedimientos basados en dos aplicaciones del test

2.2.1.- El método del test-retest

Este quizás sea el procedimiento más sencillo para determinar la fiabilidad de un test. Consiste

básicamente en aplicar el mismo test al mismo grupo de individuos en dos ocasiones distintas.

Posteriormente se calcula el coeficiente de correlación de Pearson con las dos series de

puntuaciones obtenidas. En la medida que dicha correlación sea alta entenderemos que el test

mide de forma parecida a los sujetos estudiados y que por lo tanto, presenta una alta fiabilidad.

Gráficamente, podemos representa esta situación mediante el siguiente diagrama causal:

cuyas ecuaciones correspondientes (en estandarizadas) son:

Obsérvese que si sobre la figura 2.1 aplicamos la regla del trazado es fácil comprobar que la

24

ρxx´

' ρvx

ρvx´

' ρ2xv

correlación entre las puntuaciones empíricas del test equivale al cuadrado de la correlación entre

las puntuaciones del test y sus puntuaciones verdaderas. Así:

ya que se entiende que x y x´ no son más que distintas aplicaciones del mismo test. Se comprueba

de esta forma que la fiabilidad considerada como proporción que de la varianza empírica es la

verdadera, es equivalente a la correlación entre dos aplicaciones de un mismo test.

El procedimiento del test-retest tiene la ventaja de que resulta fácil su aplicación y es poco

costoso llevarlo a la práctica. No obstante, presenta serios inconvenientes. En primer lugar, es

de importancia capital el intervalo de tiempo transcurrido entre una y otra aplicación del test. Si

el tiempo es corto, el factor memoria ejercerá un notable influjo en el sentido de que los sujetos,

al recordar los ítemes, tenderán a responder de la misma manera que anteriormente, sin

molestarse en realizar un nuevo esfuerzo en su resolución. En consecuencia, cometerá los

mismos fallos y aciertos. De esta forma, el coeficiente de fiabilidad será mayor de lo que

realmente le corresponde.

Podemos resolver, parcialmente, el efecto de la memoria, incrementando el intervalo temporal

entre las dos aplicaciones del test. Pero este procedimiento deja de ser efectivo si el tiempo de

intervalo es grande, por cuanto durante ese tiempo los sujetos pueden variar en el rasgo medido,

tal como sucede en el período infantil donde el proceso de maduración es importante. En estas

circunstancias, el test presentará un coeficiente de fiabilidad más bajo del que realmente le

corresponde, ya que si los sujetos han cambiado, su detección por parte del test indicará una alta

precisión y no al contrario.

El supuesto de que los errores permanecen incorrelacionados en ambas aplicaciones del test,

puede verse también afectado. De hecho, si el período de tiempo transcurrido es corto, las

mismas variables omitidas (esto es, el residuo e) pueden estar influyendo en los resultados de

ambas medidas del test. El efecto de estas variables no contempladas daría lugar a una

sobreestimación de la fiabilidad real.

Un último problema hace referencia a la reactividad de los sujetos a la prueba. Es posible que

la misma medida induzca un cambio en los sujetos, y esto afecte a la segunda medida. Por

ejemplo, un test en que se nos mida la actitud frente al racismo puede sensibilizarnos de tal

forma al tema que en la siguiente pasada modifiquemos nuestras respuestas. En este caso, la

reactividad provocará una disminución en la correlación, infravalorándose la auténtica fiabilidad.

Por estas razones, podemos considerar que el método del test-retest es un procedimiento

25

X1' V % e

1

X2 ' V % e2

(2.2)

adecuado cuando se miden rasgos que varían poco en el tiempo, en donde la práctica no ejerce

especial influencia y procurando que el intervalo temporal no sea ni excesivamente corto ni muy

largo (no existe una respuesta única respecto a cuánto es el tiempo conveniente, depende del tipo

de prueba realizada). Pruebas tales como atención, rapidez preceptiva, cálculo numérico , etc..

pueden ser adecuadas para ser sometidas al método del test-retest.

El coeficiente de fiabilidad obtenido mediante este procedimiento se denomina coeficiente de

estabilidad por cuanto refleja el grado en que las medidas se mantienen estables a lo largo de las

dos aplicaciones del test.

2.2.2.- El método de las formas paralelas

Este método consiste en aplicar a un mismo grupo de individuos dos formas paralelas del mismo

test. Dos formas se dicen que son paralelas cuando miden los mismos aspectos con el mismo tipo

de cuestiones (que no iguales). Si la muestra de sujetos a la que se aplica el test es representativa

de la población, el coeficiente de correlación obtenido con ambas series de puntuaciones, será

una estimación del coeficiente de fiabilidad de dicho test.

La característica de las pruebas paralelas es que aún estando constituidas por ítemes diferentes,

éstos, uno a uno, han de medir el mismo rasgo y de las misma manera, lo que implica igualdad

de medias, varianzas y covarianzas entre los elementos de ambos tests.

Es evidente la dificultad que entraña lograr formas exactamente paralelas, por lo que parece más

razonable hablar de formas alternativas mas bien que de formas paralelas, donde se entiende que

ambos tests no son por completo equivalentes sino dos intentos de que lo sean. Estrictamente

hablando, la ecuación correspondiente a las formas paralelas sería:

ya que se supone que ambas pruebas presentan la misma puntuación verdadera. Por otro lado,

el diagrama path sería el mismo que el de la Figura 2.2.

Si de forma más realista consideramos que sólo son posibles formas alternativas, la ecuación

sería en este caso:

26

X1' V

1% e

1

X2 ' V2 % e2

(2.3)

x2

φ21

1 2

Figura 2.3. Diagrama path para el método de formas paralelas

ρx1x2

' ρv1x1

(ρv1v2

(ρv2x2

(2.4)

ρx1x2

' ρ2vx (2.5)

donde se espera que V1 y V2 sean lo más similares posibles. En este caso, el diagrama path sería:

Se observa que la fiabilidad del test, en este caso, depende no sólo de la ausencia de errores en

la medida, sino también del grado de similitud de ambas formas. Así:

Cuando se cumple que V1=V2 tendremos la igualdad conocida:

Dentro del procedimiento de formas alternativas distinguiremos brevemente diferentes

situaciones según sea el grado de paralelismo entre las distintas formas. Así se habla de

puntuaciones tau-equivalentes y puntuaciones congenéricas. Las puntuaciones tau-equivalentes

(de true, verdadera, en inglés) se refiere a cuando ambas formas tienen la misma puntuación

verdadera, pero los errores de medida no tienen la misma varianza, lo que implica diferentes

27

varianzas empíricas en las medidas. Las puntuaciones congenéricas, por el contrario, se

caracterizan porque las medidas no tienen la misma puntuación verdadera (sino que una de las

formas es combinación lineal de la otra) ni tampoco la misma varianza del error. Para una mayor

profundización a este respecto, puede consultarse en castellano la obra de Martínez Arias (1995).

El método de las formas paralelas sería el procedimiento idóneo sino fuera por la dificultad que

entraña la elaboración de pruebas realmente equivalentes. Cuando esto sucede es difícil distinguir

lo que es cambio en la puntuación verdadera de la falta de fiabilidad (Carmines y Zeller, 1979,

pág. 40). No obstante, esta forma (en la versión que hemos apuntado como alternativa) presenta

algunas ventajas respecto al método del test-retest. Al tratarse de formas diferentes, no existe el

efecto de memoria anteriormente señalado. Por esta misma razón los errores de medida entre

ambas aplicaciones tendrán menos probabilidad de estar correlacionados.

Algunas dificultades permanecen aún vigentes con este procedimiento. Puede presentarse

reactividad al test de forma tal que en la segunda pasada haya cambiado la actitud del sujeto, y

por otro lado, se mantienen algunos efectos del intervalo temporal entre ambas aplicaciones del

test. Si el período de tiempo es corto, cierto influjo puede traslucirse (más por efecto de práctica

que de memoria) y si el intervalo es largo puede, como el caso del test-retest, cambiar el rasgo

a medir del sujeto.

2.3.- Procedimientos basados en una única aplicación del test

2.3.1.- Método de las dos mitades

Se trata de aplicar un único test a un mismo grupo de individuos representativos de una cierta

población. A continuación se divide el test en dos mitades; esto es, la mitad de los ítemes

configura uno de los tests y la otra mitad de los ítemes el otro test. La correlación de Pearson

aplicada con las puntuaciones totales de ambas mitades constituirá el coeficiente de fiabilidad.

La intención es crear dos partes que sean lo más paralelas o equivalentes posible. A este respecto,

existen varios posibles procedimientos para realizar la partición. El más usual consiste en

seleccionar los ítemes pares como constituyentes de una mitad, y los ítemes impares formado

parte de la otra. Pero podemos utilizar también una asignación aleatoria para cada una de las

partes. No es conveniente, por ejemplo, elegir la primera mitad de los ítemes para configurar un

test y la segunda mitad, para el otro test, ya que es frecuente que los ítemes vayan creciendo

28

ρXX´

'2ρ

xx´

1 % ρxx´

(2.6)

progresivamente en dificultad con lo que lograríamos dos tests distintos. Además, si el test

tuviera una cierta longitud, el efecto de la fatiga incidiría en mayor grado sobre la segunda parte

que sobre la primera, y, por otro lado, posiblemente hubiera ítemes sin responder de la segunda

parte.

Ha de hacerse notar que con este procedimiento estamos dividiendo el test original en dos partes,

y por tanto, el coeficiente de fiabilidad calculado con ambas mitades es el coeficiente de

fiabilidad de un test de longitud la mitad del que estamos tratando. De esta forma, si el test que

administramos tiene 50 ítemes, al dividirlo por la mitad, en realidad estamos calculando la

fiabilidad de un test de 25 ítemes (como si fueran formas paralelas de 25 elementos cada una),

por lo que al final debemos efectuar una cierta "corrección" sobre la coeficiente obtenido

intentando determinar cual sería el coeficiente de un test longitud el doble del que disponemos

y equivalente a éste. La siguiente fórmula debida a Spearman-Brown, y que desarrollaremos más

adelante, permite dicha estimación:

donde:

ρXX´: Coeficiente del test de longitud doble

ρxx´: Coeficiente original

El método de las dos mitades, desde la consideración de que las dos mitades son equivalentes,

presenta la misma ecuación que el método de las formas paralelas, bien sea la ecuación 2.2 si se

cumplen todos los supuestos del modelo, o bien la ecuación 2.3 si se plantea como formas

alternativas. Gráficamente sucede otro tanto (ver figuras 2.2 y 2.3).

Este procedimiento recoge las ventajas principales de los dos métodos anteriores, al mismo

tiempo, que elimina sus mayores inconvenientes. El simple hecho de ser una única aplicación

supone un cierto ahorro de esfuerzo, tiempo y dinero. Por otro lado, al aplicarse simultáneamente

formas distintas de un mismo test, suprimimos el efecto del intervalo temporal a la par que

eliminamos el posible efecto de memoria.

La principal desventaja del método de la dos mitades consiste en que el valor del coeficiente de

fiabilidad obtenido depende de cómo hayan quedado repartidos los ítemes en cada una de las

mitades. Posiblemente la correlación entre lo ítemes pares e impares sea diferente que la

correlación entre la primera mitad y la segunda o entre dos agrupaciones cualesquiera realizada

29

ρxx´

' 1 &σ

2d

σ2x

(2.7)

con los ítemes de manera aleatoria. Si esto ocurriera tendríamos tantos coeficientes de fiabilidad

para un determinado test como formas posibles de agrupaciones existieran, lo que es lo mismo

que decir que dicho test carece de un verdadero coeficiente de fiabilidad.

Si no hay un criterio único de la división en las dos mitades y al mismo tiempo se exige

paralelismo en ambas mitades entonces está claro que todos y cada uno de los ítemes del test han

de medir el mismo rasgo y de la misma manera. Esta es la única manera de garantizase que los

diferentes coeficientes de fiabilidad posibles coincidan. Y para ello, como veremos, el coeficiente

Alpha de Crombach, calculado con la correlación media entre todos los ítemes, es más

conveniente.

Se deduce de ello que el coeficiente de fiabilidad obtenido por el método de las dos mitades

como indicador de la consistencia interna de un test es de dudoso valor. Si se plantea como una

forma cómoda de pruebas paralelas (o mejor, alternativas), entonces sí podemos reafirmar su

utilidad, siempre y cuando nos preocupemos de lograr pares de ítemes equivalentes y que vayan

a parar éstos a cada una de las mitades.

2.3.2.- Fórmula de Rulon

En el caso particular de que el procedimiento de las dos mitades se resuelva mediante el

agrupamiento de los items pares e impares, existen algunas formulas alternativas más sencillas

del cálculo del coeficiente de correlación de Pearson entre ambas mitades más el añadido de la

corrección de Spearman-Brown. Expondremos en primer lugar, la fórmula desarrollada por

Rulon y posteriormente, la desarrollada por Flanagan y Guttman. Ambas fórmulas, como se

verán, son totalmente equivalentes. Comenzaremos por Rulon. Su fórmula es la siguiente:

donde:

: varianza de la diferencias entre las puntuaciones pares e impares σ2d

Para su demostración, partamos de la definición de coeficiente de fiabilidad:

30

ρxx´

'σ

2v

σ2x

'σ

2x & σ

2e

σ2x

' 1 &σ

2e

σ2x

(2.8)

σ2d ' σ

2e

σ2e ' E(e)2 ' E(e

p%e

i)2 ' E(e

p)2%E(e

i)2 (2.9)

σ2d ' Var(X

p&X

i) ' Var (V%e

p) & (V%e

i) ' Var(e

p&e

i)

' E(ep&e

i)2 ' E(e

p)2 % E(e

i)2 ' σ

2e

(2.10)

ρxx´

' 2 1 &σ

2p%σ

2i

σ2x

(2.11)

Ahora, comparando (2.7) con (2.8) tan sólo hemos de demostrar que:

Si consideramos el error total como suma de los errores pares más los impares, tendremos que

la varianza del error será:

ya que se supone que los errores tienen de media cero y no están correlacionados.

En relación a la varianza de la diferencia entre puntuaciones pares e impares:

cuyo valor, como puede observarse en (2.9) coincide con la varianza del error.

2.3.3.- Fórmula de Flanagan y Guttman

Esta fórmula desarrollada por Flanagan y Guttman, de forma independiente entre sí, proporciona

el mismo valor que la fórmula de Rulon. De hecho, como comprobaremos, son totalmente

equivalentes. Presenta, quizás, la pequeña ventaja de ser más sencilla en su aplicación. Su

expresión es la siguiente:

Efectivamente, si recurrimos a Rulon:

31

ρxx´

' 1 &σ

2d

σ2x

'σ

2x&σ

2d

σ2x

'

'σ

2p%σ

2i %2ρ

piσ

pσi& (σ

2p%σ

2i &2ρ

piσ

pσ

i)

σ2x

'4ρ

piσ

pσ

i

σ2x

ρxx´

' 2 1 &σ

2p%σ

2i

σ2x

' 2σ

2x

σ2x

&σ

2p%σ

2i

σ2x

' 2σ

2x&σ

2p&σ

2i

σ2p

'

' 2σ

2p%σ

2i %2ρ

piσ

pσ

i&σ

2p&σ

2i

σ2x

'4ρ

piσ

pσ

i

σ2x

Ítem

Sujeto 1 2 3 4 5 6 7 8 Impar Par Dif. Total +)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))), * 1 1 0 0 0 1 1 0 0 2 1 1 3 * * 2 0 1 1 0 0 1 1 1 2 3 -1 5 * * 3 1 1 1 0 1 1 0 0 3 2 1 5 * * 4 1 1 1 1 1 1 1 1 4 4 0 8 * * 5 1 1 0 0 1 1 1 1 3 3 0 6 * * 6 1 0 0 1 1 1 1 0 3 2 1 5 * * 7 0 1 1 0 0 1 1 0 2 2 0 4 * * 8 1 0 0 0 0 0 1 1 2 1 1 3 * * 9 1 0 1 1 1 1 0 1 3 3 0 6 * * 10 1 0 0 0 0 0 0 1 1 1 0 2 * .))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))-

TABLA 2.1. Datos ficticios de un test compuesto por 8 ítemes aplicado a un grupo de 10 personas.

donde hemos considerado la varianza de las puntuaciones empíricas (totales) como la suma de

las puntuaciones pares más las impares.

Procediendo de manera equivalente con la fórmula de Flanagan y Guttman.

Se comprueba que ambas expresiones son equivalentes.

Ejemplo 2.1.- Se ha aplicado un test compuesto por 8 ítemes a un grupo de 10 personas. Las

puntuaciones obtenidas vienen ofrecidas en la siguiente tabla:

32

Total Impar Par Dif. S)))))))))))))))))))))))))))))))))))))))))))))))))))Q Media 4.700 2.500 2.200 0.300

Des. tipo 1.676 0.806 0.980 0.640 Varianza 2.810 0.650 0.960 0.410 S)))))))))))))))))))))))))))))))))))))))))))))))))))

TABLA 2.2. Resumen estadístico de los datos de la Tabla 2.1

rpi' 0.760

rxx´

'2r

pi

1 % rpi

'2(0.760

1 % 0.760' 0.863

rxx´

' 1 &S

2d

S2x

' 1 &0.410

2.810' 0.854

Con estos datos, calcular:

a) Coeficiente de fiabilidad por el método de las dos mitades

b) Coeficiente según la fórmula de Rulon

c) Coeficiente según la fórmula de Flanagan y Guttman

SOL:

Los estadísticos obtenidos con las distintas partes del test son:

a) Calculando el coeficiente de correlación entre los ítemes pares e impares del test,

obtendremos:

Aplicando la corrección de Spearman-Brown:

b) El coeficiente según Rulon será:

1 Ver más adelante el apartado donde se relaciona fiabilidad y longitud del test, para su demostración.

33

rxx´

' 2 1 &S

2p %S

2i

S2x

' 2 1 &0.96%0.65

2.810' 0.854

α 'nρ

xx´

1% (n&1)ρxx´

(2.12)

c) Y según Flanagan y Guttman:

Se observa que el coeficiente de Rulon es coincidente con el de Flanagan y Guttman. La similitud

de éstos con el calculado mediante el método de las dos mitades va en función de grado de

paralelismo entre los ítemes pares e impares del test. En este caso, son bastante parecidos.

2.3.4.- El coeficiente Alpha

Como acabamos de indicar el método de los mitades no es un buen procedimiento para

determinar la fiabilidad de un test, en cuanto consistencia interna. Un test puede subdividirse de

múltiples maneras en dos mitades, obteniéndose numerosos coeficientes distintos de fiabilidad,

con lo que obviamente, carecemos de un único coeficiente de fiabilidad para dicho test.

A este respecto, se han propuesto procedimientos que permitan obtener una idea de la

consistencia interna del test con un único coeficiente. El más conocido es el coeficiente Alpha

de Crombach (Crombach, 1951) basado en la correlación media entre todos los ítemes de un test.

Para su cálculo, se procede a considerar cada ítem del test como si fuera un test de longitud

unidad y acto seguido, se calcular la correlación media de dichos ítemes entre sí. Por último se

aplica la fórmula de Spearman-Brown 1, que permite determinar la fiabilidad de un test de

longitud n veces superior de los test de longitud unidad (el test total tiene n ítemes). De esta

forma, logramos con un único coeficiente tener información global del grado de consistencia

interna de dicha prueba. Su fórmula es la siguiente:

donde:

: correlación media de todos los ítemes entre síρxx´

34

α 'n

n&11 &

jn

j'1

σ2j

σ2x

(2.13)

Como resulta un tanto laborioso calcular la correlación media de todos los ítemes entre sí

(cuestión cada día más irrelevante con la profusión de ordenadores personales), una fórmula

alternativa de más fácil aplicación es (ver apéndice):

donde:

n : número de ítemes del test

: varianza del ítem j σ2j

: varianza total del testσ2x

El coeficiente Alpha expresa el grado en que todos los ítemes miden el mismo rasgo. En su

extremo todos los ítemes serán paralelos. Entonces, coincidirá con el procedimiento de las dos

mitades, o más fácilmente, será suficiente con determinar la correlación entre dos ítemes

cualesquiera, y aplicar Spearman-Brown. Además, en este caso, el valor del coeficiente, como

se sabe, será precisamente .ρ2vx

Lo habitual es que no se consigan ítemes estrictamente paralelos, y en consecuencia, el valor del

coeficiente Alpha será inferior al existente en el supuesto de paralelismo. Por esta razón dicho

coeficiente marcará la cota inferior en el valor de la fiabilidad obtenida si en un mismo test se

aplicasen los otros métodos de fiabilidad mencionados, basados en el supuesto de paralelismo.

Para una demostración más formal de estos aspectos, puede consultarse en castellano,

Santisteban (1990), págs. 86-92, o bien, Martínez Arias (1995), págs. 122-127.

Hay que tener ciertas precauciones a la hora de interpretar el coeficiente Alpha como indicador

de la unidimensionalidad de los ítemes. Aunque es cierto que su valor es mayor cuanto mayor

sea la correlación promedio entre los ítemes, no es menos cierto que su magnitud depende de

otros factores tales como el número de ítemes en cuestión o el número de factores subyacentes

en cada ítem. Por esta razón, hay que recurrir a otros procedimientos estadísticos que

complementen Alpha.

En este sentido, cuando existan dentro de una prueba varios subtests, como es relativamente

frecuente (personalidad, inteligencia ..etc) resulta necesario calcular el coeficiente de fiabilidad

35

Item Sujeto 1 2 3 4 5 6 Total +)))))))))))))))))))))))))))))))))), * 1 1 2 2 1 1 1 8 * * 2 3 2 3 3 1 2 14 * * 3 4 3 3 4 4 2 20 * * 4 2 1 1 2 1 1 8 * * 5 4 5 5 5 3 2 24 * * 6 2 3 2 2 2 1 12 * * 7 3 3 4 3 2 1 16 * * 8 5 4 4 3 4 3 23 * .))))))))))))))))))))))))))))))))))-

TABLA 2.2. Datos supuestos de un test compuesto por ítemes cuantitativos

separadamente para cada una de las partes, para finalmente calcular la fiabilidad global del test

como una combinación lineal de tales subtests. Incluso, aunque operemos con un test

supuestamente unidimensional, es conveniente aplicarle alguna prueba estadística, tal como el

análisis factorial en un intento de encontrar los factores subyacentes. En este caso, dependiendo

del resultado del análisis podríamos configurar distintos subtests (o no) dependiendo de la

estructura factorial obtenida. Ver Carmines y Zeller (1979), págs 59-70, para una discusión al

respecto.

Por último, digamos que el coeficiente Alpha, además de ser un indicador de la precisión con que

un conjunto de ítemes miden un cierto rasgo psicológico en función de su coherencia o

consistencia interna (correlación entre ítemes), puede tomarse también como una medida de la

representatividad del test, en el sentido de que una alta correlación media entre ítemes será

indicativo de una pequeña variabilidad en los mismos. En este caso, se entiende que los ítemes

particulares con los que estamos operando no son más que una muestra aleatoria del hipotético

universo que engloba el conjunto de ítemes que expresan el rasgo medido (Nunnally, 1978). La

puntuación verdadera es la que obtendría el sujeto en ese supuesto universo. De esta forma, en

la medida en que la muestra de ítemes tenga una pequeña dispersión podemos hacer mejores

estimaciones -mayor precisión- a la hora de inferir los verdaderos valores en el universo de

procedencia. Este planteamiento está estrechamente ligado con la Teoría de la Generalizabilidad,

que no será abordado aquí por el momento, aunque haremos una tímida aproximación a este

planteamiento mediante el análisis de la varianza aplicado a la fiabilidad.

Ejemplo 2.2.- Tengamos los siguientes datos hipotéticos referidos a la aplicación de un test

formados por ítemes cuantitativos con una escala de 1 a 5 puntos:

36

jn

j'1σ2j ' 7.642

ITEM

1 2 3 4 5 6 Total +)))))))))))))))))))))))))))))))))))))))))))))))))), Varianzas *1.501 1.360 1.501 1.360 1.438 0.484 34.484 * .))))))))))))))))))))))))))))))))))))))))))))))))))-

TABLA 2.3. Varianzas de los ítemes y total

α 'n

n&11 &

jn

j'1

σ2j

σ2x

'6

51 &

7.642

34.484' 0.934

X '

jN

i'1

X

N' p

Tengamos el siguiente resumen descriptivo:

Aplicando la fórmula (2.13):

2.3.4.- Coeficiente Alpha con elementos dicotómicos

Con cierta frecuencia los elementos de un test se plantean en términos de verdadero o falso, sí

o no, acuerdo o desacuerdo ..etc; esto es, de forma dicotómica. En este caso, si valoramos como

"uno" una de las alternativas y como "cero" la otra, tendremos que la media de las puntuaciones

coincidirá con la proporción de las respuestas dadas como "unos":

37

S2x '

jN

i'1

X 2

N& X

2' p & p 2 ' p(1&p) ' p(q

KR20

'n

n&11 &

jn

j'1

pjq

j

σ2x

(2.14)

jn

j'1

pjq

j' npq ' np(1&p) ' np & np 2 ' np &

(np)2

n' X &

X2

n(2.15)

KR21

'n

n&11 &

X &X

2

n

σ2x

(2.16)

Y la varianza:

De esta forma, la ecuación (2.13), cuando operamos con ítemes dicotómicos queda transformada

en la siguiente:

Ecuación propuesta por Kuder y Richardson en 1937, y que ocupaba el lugar número 20 en el

artículo publicado en aquel entonces, razón por la cual se le conoce como KR20.

La ecuación (2.14) puede simplificarse aún más. Si se da la circunstancia de que todos los ítemes

son de equivalente dificultad, en el sentido de que son resueltos por la misma proporción de

sujetos. Entonces:

ya que al ser p la media de un ítem cualquiera, la media de n ítemes iguales será np.

Sustituyendo, ahora, en (2.15):

Expresión denominada KR21 por ser la fórmula 21 del mencionado artículo de Kuder y

Richardson.

38

jn

j'1pjqj' 1.75

ITEM

1 2 3 4 5 6 7 8

S))))))))))))))))))))))))))))))))))))))))))))))Q

pj 0.8 0.5 0.5 0.3 0.6 0.8 0.6 0.4

qj 0.2 0.5 0.5 0.7 0.4 0.2 0.4 0.6

pjqj 0.16 0.25 0.25 0.21 0.24 0.16 0.24 0.24

S))))))))))))))))))))))))))))))))))))))))))))))Q

TABLA 2.3. Varianzas de los ítemes dicotómicos

KR20

'n

n&11 &

jn

j'1

pjq

j

σ2x

'8

71 &

1.75

2.810' 0.431

Ejemplo 2.3.- Calcular el coeficiente Alpha de fiabilidad sobre los datos de la tabla 2.1.

SOL:

Ya que estamos operando con ítemes dicotómicos, calculemos los diferentes valores de pj y qj,

tal como se refleja en la siguiente tabla:

Se observa que tales ítemes son de diferente dificultad. Así pues, apliquemos KR20:

Obsérvese la baja cuantía de este coeficiente frente a aquellos basados en el procedimiento de

las dos mitades. Aquí, al ser precisamente la correlación media, se contemplan todos los ítemes

en su cálculo, mientras que cuando se agrupan éstos en dos bloques, sólo se computan los totales

de dichos bloques quedando enmascarada, de esta forma, mucha información relevante.

2 El lector interesado puede encontrar en Harman (1976) una buena introducción al análisis factorial.En Carmines y Zeller (1979), en el apéndice, se trata el papel de dicha técnica en la fiabilidad.

39

ρXX´

' 1 &

jk

j'1

σ2xj& j

k

j'1

σ2xjρ

jj´

σ2X

(2.17)

2.4.- Fiabilidad de un test compuesto

Aunque el coeficiente Alpha parece pensado para pruebas en las que existe una cierta

unidimensionalidad en el rasgo medido, no obstante, no hay impedimento alguno para que sea

aplicado en baterías compuestas por varios subtests que reflejen rasgos psicológicos diferentes.

En este caso, la prueba global será considerada como una combinación lineal de los subtests

implicados, donde la fiabilidad final será obtenida ponderando las diferentes fiabilidades de tales

subtests según la siguiente fórmula propuesta por Nunnally (1978), (ver apéndice):

Hay que prevenir al lector de la tentación de aplicar (como a veces se hace) la fórmula (2.13) del

coeficiente Alpha, como si los distintos subtest fueran los ítemes de un cierto test. Este hecho

sólo sería admisible cuando los diferentes subtests midieran el mismo rasgo en cuestión, lo que

no suele ser habitual, ya que cuando se elabora una batería de pruebas es porque se entiende que

las pruebas que la integran miden diferentes aspecto. En caso contrario, no habría necesidad de

elaborar distintas pruebas con nombres distintos.

Una solución para estas situaciones, si queremos ser precavidos, es recurrir a la técnica del

análisis factorial 2. Si todos los ítemes saturan un único factor, no hay problema y se aplica Alpha

sin más. En caso contrario, si los ítemes se reparten en varios factores, será cuestión de definir

primeramente tales factores, y a continuación tratarlos como pruebas distintas que configuran un

aspecto global. Aquí, si deseamos la fiabilidad del test total, habremos de aplicar (2.17).

Ejemplo 2.4.- Tengamos un test formado a su vez por tres subtest, a saber, A, B y C. El subtest

A es una prueba de razonamiento formada or 5 ítemes valorados por 1 y 0 según la espuesta sea

o no correcta. El subtest B, compuesto por 3 ítemes, hace referencia a la memoria, y en cada uno

de los ítemes se refleja el número de objetos recordados sobre un total de 10. Y, por último, el

subtest C, relativo a la compensión verbal, está formado por 4 ítemes valorados por 1 y 0, según

se reconozca o no la palabra expuesta. Los datos vienen expresados en la siguiente tabla:

40

SUBTEST A SUBTEST B SUBTEST C

Sujeto 1 2 3 4 5 TA 1 2 3 TB 1 2 3 4 TC

+)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))), * 1 1 1 0 1 1 4 5 7 9 21 1 1 1 1 4 * * 2 0 1 1 1 0 3 8 9 10 27 0 0 0 0 0 * * 3 1 1 1 1 1 5 1 2 1 4 1 1 1 0 3 * * 4 1 1 1 0 1 4 7 6 5 18 0 1 1 0 2 * * 5 1 1 0 1 1 4 3 2 3 8 1 0 0 1 2 * * 6 0 0 0 0 1 1 7 8 7 22 0 1 0 0 1 * * 7 0 1 1 1 0 3 10 9 9 28 0 1 1 1 3 * * 8 1 0 0 0 0 1 5 4 6 15 1 0 1 0 2 * * 9 1 0 1 1 1 4 4 4 3 11 0 1 0 1 2 * * 10 1 0 0 1 1 3 6 5 4 15 1 1 0 1 3 *

TABLA 2.4. Ilustración del coeficiente Alpha para un test compuesto de varios subtests

jn

j'1pjqj' 1.120 σ2x

A' 1.560

ITEM

1 2 3 4 5

S))))))))))))))))))))))))))))Q

pj 0.7 0.6 0.5 0.7 0.7

qj 0.3 0.4 0.5 0.3 0.3

pjqj 0.21 0.24 0.25 0.21 0.21

S))))))))))))))))))))))))))))Q

TABLA 2.5. Varianzas del Subtest A

KR20

'n

n&11 &

jn

j'1

pjq

j

σ2x

'5

41 &

1.120

1.560' 0.353

En relación al subtest A tenemos:

En consecuencia:

En relación al Subtest B:

41

jn

j'1σ2j ' 20.490

ITEM

1 2 3 Total +))))))))))))))))))))))))))))))), Varianzas *6.040 6.240 8.210 55.690 * .)))))))))))))))))))))))))))))))-

TABLA 2.6. Varianzas del Subtest B

α 'n

n&11 &

jn

j'1

σ2j

σ2x

'3

21 &

20.490

55.690' 0.948

jn

j'1pjqj' 0.960 σ2x

C' 1.160

ITEM

1 2 3 4

S)))))))))))))))))))))))Q

pj 0.5 0.7 0.5 0.5

qj 0.5 0.3 0.5 0.5

pjqj 0.25 0.21 0.25 0.25

S)))))))))))))))))))))))Q

TABLA 2.7. Varianzas del Subtest C

KR20

'n

n&11 &

jn

j'1

pjq

j

σ2x

'4

31 &

0.960

1.160' 0.230

Por tanto:

Y en relación al Subtest C:

Su fiabilidad será:

Para calcular la fiabilidad del test compuesto, hemos de configurar la siguiente tabla con las

42

SUBTEST

Sujeto A B C TOTAL +))))))))))))))))))))))))))))))))))))), * 1 4 21 4 29 * * 2 3 27 0 30 * * 3 5 4 3 12 * * 4 4 18 2 24 * * 5 4 8 2 14 * * 6 1 22 1 24 * * 7 3 28 3 34 * * 8 1 15 2 18 * * 9 4 11 2 17 * * 10 3 15 3 21 * .)))))))))))))))))))))))))))))))))))))-

TABLA 2.7. Puntuaciones totales de los subtests y del test completo

ITEM

1 2 3 Total +))))))))))))))))))))))))))))))), Varianzas *1.560 55.690 1.160 47.010 * .)))))))))))))))))))))))))))))))-

TABLA 2.9. Varianzas del test compuesto

ρXX´

'1&j

k

j'1

σ2xj&j

k

j'1

σ2xjρ

jj´

σ2X

'1&58.41& (1.56(0.353%5.569(0.948%1.16(0.23)

47.01' 0.898

puntuaciones totales de cada subtest junto con las puntuaciones totales del test:

Cuyas varianzas son:

Aplicando (2.17):

43

α 'n

n&11 &

jn

j'1

σ2j

σ2x

'3

21 &

58.410

47.010' &0.364

Obsérvese que la fiabilidad resultante es bastante aceptable. Si nos hubiéramos sentidos tentados

a aplicar Alpha el resultado obtenido hubiera sido el siguiente:

El valor del coeficiente de fiabilidad es de baja cuantía y negativo, lo que indica ausencia de

consistencia interna entre los subtests de la prueba. Esta situación es razonable, ya que si se ha

dividido el test compuesto en subtests es porque éstos son distintos entre sí. No cabe esperar, en

consecuencia, unidimensionalidad entre ellos, y no es correcto, en este caso, aplicar Alpha.

2.5.- Fiabilidad desde la perspectiva del análisis de la varianza

No es nuestra intención profundizar aquí en la aplicaciones del análisis de la varianza y sus

relaciones con la fiabilidad, ya que esta materia será objeto de estudio más adelante en la Teoría

de la Generalizabilidad. Tan sólo decir que desde la perspectiva de dicha teoría los

planteamientos clásicos expuestos quedan encuadrados en un marco de referencia más amplio,

exento de algunas de las serias limitaciones impuestas a la TCT. Como se sabe, el enfoque clásico

asume algunos supuestos, tales como el paralelismo de los tests o bien una cierta consideración

unívoca del error de medida, aspectos ambos que difícilmente se cumplen en la realidad. La

consecuencia de ello es que a TCT carece de la flexibilidad necesaria para adaptarse a las posibles

situaciones que puedan presentarse en la medición.

El análisis de la varianza, por su mismo cometido, contempla las distintas fuentes de variabilidad

de los datos de observación, tanto la debida a los individuos como a los tratamientos -ítemes-,

o incluso si se aplican los mismos tratamientos en diferentes ocasiones tendremos la oportunidad

de estudiar el efecto de la memoria o el aprendizaje en la ejecución de lo sujetos y distinguirlo

de los otros componentes de variación. De esta forma quedará obviada el supuesto de paralelismo

y el error quedará marginado a reductos cada vez más estrechos, ofreciéndosenos la oportunidad

de distinguir lo realmente relevante de lo insustancial.

Por lo que aquí respecta, nos limitaremos a uno de los enfoques más sencillo del análisis de la

varianza: el modelo de un factor para medidas repetidas, también definido como un diseño

44

ρxx´

'σ

2p & σ

2e

σ2p

(2.18)

Items

Personas 1 2 ... i ... n Medias )))))))))))))))))))))))))))))))))))))))))))))))))) _ 1 X11 X12 X1i ... X1n P1 _ 2 X21 X21 X1i ... X2n P2 ............................................. _ p Xp1 Xp2 Xpi ... Xpn Pp ............................................. _ N XN1 XN2 XNi ... XNn PN )))))))))))))))))))))))))))))))))))))))))))))))))) _ _ _ _ _ Medias I1 I2 Ii In X S)))))))))))))))))))))))))))))))))))))))))))))))))Q

TABLA 2.10. Matriz de datos para N personas y n ítems

Xpi' X % (P

p& X) % (I

i& X) % (X

pi& P

p& I

i% X) (2.19)

cruzado p*i, siendo p las personas e i las condiciones de medida (ítemes). Aplicaremos este tipo

de modelos para obtener el coeficiente de fiabilidad entendido como cociente entre la varianza

verdadera (de las puntuaciones de las personas) y la varianza empírica. Se tendrá la ocasión de

comprobar su coincidencia con el coeficiente Alpha de Crombach. Así:

A este respecto, tengamos la siguiente tabla:

La puntuación Xpi queda descompuesta de la siguiente manera:

donde:

45

X : media global

Pp& X : efecto atribuible a la persona

Ii& X : efecto atribuible al ítem

Xpi& P

p& I

i% X : residuo una vez eliminado el efecto debido

a la persona y al ítem

Xpi' µ % (µ

p&µ) % (µ

i&µ) % (X

pi&µ

p&µ

i%µ) (2.20)

Xpi& µ ' (µ

p&µ) % (µ

i&µ) % (X

pi&µ

p&µ

i%µ) (2.21)

jn

i'1j

n

i'1

(Xpi& µ)2 ' nj

n

p'1

(µp&µ)2 % Nj

n

i'1

(µi&µ)2 % j

n

i'1j

n

i'1

(Xpi&µ

p&µ

i%µ)2 (2.22)

En términos del modelo lineal general:

A partir de esta ecuación podemos obtener la siguiente:

En términos de suma de cuadrados:

con cuyos datos configuraremos la siguiente tabla referida al análisis de la varianza:

46

njn

p'1

(µp&µ)2

σ2p

kjn

i'1

(µi&µ)2 σ

2i

jk

i'1j

n

i'1

(Xpi&µ

p&µ

i%µ)2

σ2e

jk

i'1j

n

i'1

(Xpi& µ)2

Fuente de Grados de Suma de Varianza variación libertad cuadrados

S))))))))))))))))))))))))))))))))))))))))))))))))))))))))) Personas n-1 Items k-1 Residual (n-1)(k-1) Total n(k-1) )))))))))))))))))))))))))))))))))))))))))))))))))))))))))

Tabla 2.11. Análisis de la varianza

Item Sujeto 1 2 3 4 5 6 Medias +))))))))))))))))))))))))))))))))))))))))))))))))))))))))), * 1 1 2 2 1 1 1 1.333 * * 2 3 2 3 3 1 2 2.333 * * 3 4 3 3 4 4 2 3.333 * * 4 2 1 1 2 1 1 1.333 * * 5 4 5 5 5 3 2 4 * * 6 2 3 2 2 2 1 2 * * 7 3 3 4 3 2 1 2.667 * * 8 5 4 4 3 4 3 3.833 * .)))))))))))))))))))))))))))))))))))))))))))))))))))))))))- Medias 3 2.875 3 2.875 2.25 1.625 2.604

TABLA 2.12. Medias por personas e ítemes sobre los datos del ejemplo 2.2.

Ejemplo 2.5.- Calcular el coeficiente de fiabilidad mediante el análisis de la varianza tomando

como referencia los datos del ejemplo 2.2.

SOL:

Configuremos la siguiente tabla:

47

kjn

p'1

(µp&µ)2 ' 6 (1.333&2.604)2%...%(3.833&2.604)2 ' 45.979

njk

i'1

(µp&µ)2 ' 8 (3&2.604)2%...%(1.625&2.604)2 ' 12.352

jn

p'1j

k

i'1

(Xpi& µ)2 ' (1&2.604)2%...%(3&2.604)2 ' 73.479

jn

p'1j

k

i'1

(Xpi& µ

p&µ

i%µ)2 ' j

n

p'1j

k

i'1

(Xpi& µ)2& kj

n

p'1

(µp&µ)2%nj

k

i'1

(µi&µ)2 '

' 73.479&(45.979%12.352) ' 15.146

Fuente de Suma de Grados de Varianza variación cuadrados libertad

S))))))))))))))))))))))))))))))))))))))))))))))))))))))))) Personas 45.479 7 6.5 Itemes 12.352 5 2.47 Residual 15.146 35 0.433 Total 73.479

Tabla 2.13. Cálculo del coeficiente de fiabilidad mediante el análisis de la varianza

Sobre estos datos, calculemos la suma de cuadrados entre las personas:

La suma de cuadrados entre ítemes será:

La suma de cuadrados total:

Y la suma de cuadrados residual será:

En consecuencia:

48

V ' α % βX ' (1 & ρ2xv)X % ρ

2xvX (1.21)

V ' α % βX ' (1 & ρxx´

)X % ρxx´

X (2.23)

v ' βx ' ρxx´

x (2.24)

Zv' ρ

vxZ

x' ρ

xx´Z

x (2.25)

Se observa que su valor coincide con el coeficiente Alpha obtenido anteriormente.

2.6.- Estimación de las puntuaciones verdaderas

Aunque la puntuación verdadera de un sujeto nunca es manifiesta, puede ser inferida a partir de

las puntuaciones observadas. Tal como se expuso en la expresión (1.21), la ecuación que liga las

puntuaciones verdaderas y empíricas es:

Desconocemos también aquí el valor de , pero como se sabe, puede ser estimado a partirρ2vx

de ρxx´. Por tanto:

En puntuaciones diferenciales, prescindiremos de la ordenada en origen:

Y en puntuaciones estandarizadas:

Se observa, por cuanto ρxx´ suele ser menor que cero, que los valores estimados para puntuaciones

diferenciales y estandarizadas seran menores que sus puntuaciones empíricas correspondientes,

lo que se traduce, en puntuaciones directas, que los valores predichos estarán más proximos a la

media del grupo (mayor cuanto menor sea ρxx´). Aunque a nivel global se comprueba que la media

de las puntuaciones verdaderas coincide con las empíricas, no sucede otro tanto cuando se trata

de pronosticar V a partir de ciertos valores de X. Se debe al conocido efecto (en su sentido

etimológico) de la regresión, entendida como regresión a la media. Para una mejor comprensión

de este efecto regresión, ver Freedman y otros (1978), págs. 200-206).

Las ecuaciones anteriores premiten establecer estimaciones puntuales de V. Más conveniente es,

como se sabe, recurrir a estimaciones por intervalo. De esta forma, la puntuación verdadera se

encontrará entre los siguientes límites:

49

V± t(n&1,α)

σv.x (2.26)

σv.x ' σ

x1&ρ

xx´ρ

xx´ (2.27)

σ2v.x ' E v& v 2 ' E v&ρ

xx´x 2 ' E(v)2 % ρ

2xx´E(x 2) & 2ρ

xx´E(vx)

' σ2v % ρ

xx´σ

2x & 2ρ

xx´σ

xσ

vρ

vx

σ2v ' ρ

xx´σ

2x

ρvx

' ρxx´

'σ

v

σx

σ2v.x ' ρ

xx´σ

2x % ρ

2xx´σ

2x & 2ρ

xx´σ

vσ

x

σv

σx

'

' ρxx´

σ2x % ρ

2xx´σ

2x & 2ρ

2xx´ σ

2x '

' ρxx´

σ2x & ρ

2xx´σ

2x ' ρ

xx´σ

2x (1&ρ

xx)

σv.x ' σ

x(1&ρ

xx) ρ

xx´

siendo σv.x la desviación tipo de las diferencias . Su valor es el siguiente:V& V

Efectivamente, utilizando puntuaciones diferenciales:

Pero de (1.13) se deduce:

Y por otro lado

Así pues:

En consecuencia:

Esta misma expresión, en términos del error tipo de medida:

50

σv.x ' σ

eρ

xx´ (2.28)

σZv.Zx

' (1&ρxx´

)ρxx´ (2.29)

V ' α % βX ' (1 & ρxx´

)X % ρxx´

X ' (1&0.934)(15.625 % 0.934(18 ' 17.843

σv.x ' σ

x1&ρ

xx´ρ

xx´' 5.872 1&0.934 0.934 ' 1.458

En puntuaciones diferenciales las fórmulas (2.27) y (2.28) se mantienen exactamente iguales, ya

que tal cambio de escala, como se sabe, no afecta ni a la varianza ni al coeficiente de fiabilidad.

Por el contrario, en puntuaciones estandarizadas, el coeficiente de fiabilidad, como correlación

no se verá alterado, pero sí la varianza, cuyo valor será la unidad. Por tanto:

Ejemplo 2.6.- Sobre los datos del ejemplo 2.2, determinar, con un intervalo de confianza del

0.95, la puntuación verdadera de un sujeto que ha obtenido en la prueba una puntuación de 18

puntos. Ofrecer los resultados en: a) puntuaciones directas, b) diferenciales y c) típicas.

SOL:

a) Puntuaciones directas. Determinemos, primeramente, la puntuación verdadera estimada

para dicho sujeto:

Por otro lado:

En consecuencia, la puntuación verdadera se encontrará entre los siguientes límites (con una

probabilidad de 0.95):

51

V& t(5,0.05)

σv.x

' 17.843&2.571(1.458 ' 14.094

V% t(5,0.05)σv.x ' 17.843%2.571(1.458 ' 21.592

x ' 18&15.625 ' 2.375

v ' βx ' ρxx´

x ' 0.934(2.375 ' 2.218

v& t(5,0.05)

σv.x

' 2.218&2.571(1.458 ' &1.530

v% t(5,0.05)σv.x ' 2.218%2.571(1.458 ' 5.967

Zx'

18&15.625

5.872' 0.404

Zv' ρ

xx´Z

x' 0.934(0.404 ' 0.391

b) Puntuaciones diferenciales. Para un sujeto que haya obtenido 18 puntos su puntuación

diferencial será:

Su puntuación verdadera estimada:

Y los límites para la puntuación verdadera, al nivel de confianza de 0.95 :

c) Puntuaciones típicas. Para dicho sujeto su puntuación típica será:

Su puntuación verdadera estimada:

En este caso el error tipo de estimación será:

52

σZv.Zx

' (1&ρxx´

)ρxx´

' (1&0.934)(0.934 ' 0.248

Zv& t

(5,0.05)σ

Zv.Zx' 0.391&2.571(0.248 ' &0.247

Zv% t

(5,0.05)σ

Zv.Zx' 0.391%2.571(0.248 ' 1.029

Y los límites para la puntuación verdadera tipificada, al nivel de confianza de 0.95 :

52

. ..

.

..

...

. .. .

..

.

.

.

..

.

.

..

.

.

.

..

.

..

..

...

.

..

.

.

.

.

..

...

....

..

.

.

.

..

..

.

..

..

.

...

. ...

..

.

...

..

.

.

.

....

.. .

..

.

... .

..

. .

. ... ...

. ..

..

.

.. .

..

...

. ..

. .. .

.

.

.... .

.

. .....

...

.. .

...

..

.

.

..

.

..

..

... ..

.

.. .

.. .

... .

.. .

.. ..

Figura 4.9.- Efecto de la variabilidad sobre la correlación

2.7.- Factores que afectan al coeficiente de fiabilidad

Trataremos en las próximas páginas los factores más relevantes que inciden sobre el valor del

coeficiente de fiabilidad de un determinado test: variabilidad de la muestra, longitud del test,

limitación del tiempo y características de los items.

Como puede observarse, algunos de estos factores hacen referencia, como cabría esperar, a los

elementos constituyentes del test (longitud del test y características de los items), pero otros son ajenos

al mismo (variabilidad de la muestra y limitación del tiempo). Todo ello implica una cierta paradoja

con respecto a la variabilidad de la muestra, por cuanto hace depender la precisión de un test no sólo

de sí mismo sino de aquello que mide, lo que da lugar a tantas fiabilidades como muestras potenciales

a las que se aplique el test.

2.7.1.- Fiabilidad y variabilidad de la muestra

Como acaba de indicarse el coeficiente de fiabilidad, como en un principio podría suponerse, no

depende exclusivamente de las características intrínsecas del instrumento de medida, sino que también

depende de ciertos aspectos externos como son la variabilidad del grupo sobre el que se efectúa la

medición. Esta circunstancia da lugar a que no exista un único coeficiente de fiabilidad para cada test

sino tantos como muestras a las que se aplique. Es importante destacar este aspecto por cuanto implica

que el profesional de psicología, a la hora de aplicar un determinado test, no ha de conformarse con

el coeficiente de fiabilidad que venga indicado en el manual de referencia de dicho test en cuestión,

sino que ha de adaptarlo a su propia muestra, según explicaremos en las próximas líneas.

El coeficiente de fiabilidad, como un coeficiente de correlación que es, viene afectado por las

varianzas de las variables consideradas, en el sentido de que a mayor variabilidad de las mismas,

mayor correlación.

Supóngase a este respecto, que correlacionamos entre sí dos pruebas de inteligencia. En el gráfico de

la fig. 4.9. se observa que si consideramos todo el rango de variación para ambas variables, la nube

de puntos resulta un tanto estilizada, expresándose un cierto grado de correlación. Si extraemos una

submuestra de los datos originales (rango de variabilidad menor), comprobaremos igualmente, que ésta

resulta más redondeada, y en consecuencia, el grado de correlación será menor que cuando se

contempla el rango completo.

53

ρxx´

'σ

2

v

σ2

x

'σ

2

v

σ2

v % σ2

e

σ2

e1' σ

2

1 1&ρ11´

σ2

e2' σ

2

2 1&ρ22´

Var(e*v) ' σ2

e

σ2

1 1&ρ11´

' σ2

2 1&ρ22´

En otros términos, es fácil entender que si los sujetos son significativamente distintos entre sí

(variabilidad alta) en cuanto a inteligencia, tenderán a mantenerse las posiciones relativas en ambas

pruebas y el coeficiente de correlación será, por consiguiente, alto. Por el contrario, para un grupo de

personas muy similares entre sí en cuanto a inteligencia, será relativamente fácil alterar sus posiciones

en ambas pruebas, ya que hay otros factores variables que inciden en este rendimiento, obteniéndose

un coeficiente de correlación más bajo.

En este sentido, la misma fórmula original, utilizada para definir el coeficiente de fiabilidad, puede

ser ilustrativa para expresar lo que estamos comentando. Como se sabe por ecuación 2.14:

(2.35)

Dado que la varianza del error es lo único constante y característico de un determinado test, en la

medida en que los sujetos realmente difieren entre sí en el atributo que se mide, el numerador

representa una mayor proporción de varianza total; y, portanto la fiabilidad es mayor. Por el contrario,

en la medida que los sujetos sean semejantes entre sí en sus puntuaciones verdaderas, mayor parte de

su varianza es debida al error de medida, y, por tanto, el coeficiente de fiabilidad es menor.

Supongamos, a este respecto, que tenemos dos poblaciones con varianzas en el test en cuestión cuyos

valores son y respectivamente. Por otro lado, sus coeficientes de fiabilidad asociados son ρ11´σ2

1 σ2

2

y ρ22´. Esto supuesto, tendremos que las varianzas de los errores para ambas poblaciones es:

(2.36)

Por otro lado, la condición de homocedasticidad implica que la varianza de los errores se mantiene

constante para cualquier valor del rasgo medido. Así:

(2.37)

Igualando, en consecuencia, las ecuaciones de (2.36):

(2.38)

54

ρ22´

' 1 &σ

2

1

σ2

2

1&ρ11´ (2.39)

σ2

e2# σ

2

e1

ρ22´

# 1 &σ

2

1

σ2

2

1&ρ11´

Despejando ρ22´

Esta fórmula ha de aplicarse con ciertas precauciones (Lord y Novick, págs. 130-131), ya que no

siempre se cumple el supuesto de homocedasticidad, en especial cuando ρ22´ se obtiene a partir de la

subpoblación donde se extrajo ρ11´.

En estas circunstancias:

(2.40)

Lo que da lugar a que:

(2.41)

Una buena idea con carácter preventivo (Gulliksen, 1950, pág. 111) consiste en comprobar mediante

la prueba de comparación de varianzas, si se cumple la igualdad merced a las ecuacionesσ2

e1' σ

2

e2

indicadas en (2.36), esto es, en base a los cálculos de y . σ2

1 1&ρ11´

σ2

2 1&ρ22´

2.7.2.- Fiabilidad y longitud del test

Otro aspecto que juega un papel importante en el valor de la fiabilidad de un test es el número de items

que lo configuran, en el sentido de que cuanto mayor sean el número de elementos del test mayor será

su fiabilidad.

Desde el supuesto que toda medición conlleva un cierto error aleatorio, es lógico considerar que cuanto

mayor sea el número de mediciones (items) más compensados quedarán tales errores aleatorios (unos

positivos y otros negativos) lográndose cada vez más una suma de cero para estos errores, y logrando,

en consecuencia, un valor empírico (con el conjunto de items) más próximo al valor verdadero.

No obstante, hay que decir que sólo hasta un cierto punto podremos mejorar la fiabilidad de un test

en base al incremento del número de items, y que no es suficiente, como veremos más adelante, con

aumentar dicho número para lograr la fiabilidad deseada. Además nunca podremos llevar la cantidad

de items demasiado lejos, por cuanto incrementaremos igualmente la fatiga de los sujetos examinados,

lo que a su vez, incidirá en un mayor error en la respuesta, invalidándose así nuestros propósitos

55

ρXX´

'kρ

xx´

1% (k&1)ρxx´

ρxx´

'σ

2

v

σ2

x

σ2

v ' σ2 v1%v

2% ...%v

k'j

k

i'1

σ2

vj% j

k

j'1j

k

h'1

σvjvh

' kσ2

v%k(k&1)σ2

v ' k 2σ2

v

σ2

x ' σ2 x1%x

2% ...%x

k' j

k

i'1

σ2

xj% j

k

j'1j

k

h'1

σxjxh

'

' Kσ2

x%k(k&1)ρxjxh

σjσ

h' kσ

2

x%k(k&1)ρxx´

σ2

x

originales. Otra limitación importante es que se entiende que los items añadidos han de ser paralelos

o equivalentes, objetivo no siempre fácil de conseguir. No obstante, a pesar de estos inconvenientes,

merece destacarse la importancia del incremento de la longitud del test como procedimiento para

mejorar la fiabilidad del mismo.

La fórmula que nos permite conocer el efecto que sobre la fiabilidad ejerce el hecho de multiplicar

por k el número de items iniciales es la ya citada de Spearman-Brown.

Su expresión es:

(2.42)

Siendo ρXX´ fiabilidad final lograda a partir de la fiabilidad inicial ρxx´, y "k" es el número de veces que

el test resultante contiene la longitud del test original.

Para su demostración partamos de la definición conocida de fiabilidad como cociente entre la varianza

verdadera y la empírica (recordar la expresión 2.14):

y veamos el efecto que tiene tanto sobre la varianza verdadera como la empírica el hecho de

multiplicar por k la longitud inicial.

En relación a la varianza verdadera:

(2.43)

ya que, bajo el supuesto de pruebas paralelas, coincidirán sus puntuaciones verdaderas (las varianzas

serán todas iguales y las covarianzas coincidirán con sus varianzas).

En relación a la varianza empírica:

(2.44)

ya que por paralelismo, las varianzas (y desviaciones tipo) empíricas serán todas iguales, y las

correlaciones entre pruebas paralelas coincidirán con el coeficiente de fiabilidad.

56

ρXX´

'σ

2

V

σ2

X

'k 2σ

2

v

kσ2

x%k(k&1)ρxx´

σ2

x

'k 2σ

2

v

kσ2

x 1% (k&1)ρxx´

'kρ

xx´

1% (k&1)ρxx´

1 2 3 4 5 6 7 8 9 10

0

0,2

0,4

0,6

0,8

1

k

ρxx´

Figura 2.10.- Efecto de la longitud del test sobre su fiabilidad

Sustituyendo (2.43) y (2.44) en (2.14) obtendremos la fórmula de Spearman-Brown citada (ver

expresión 2.45):

(2.45)

Resulta interesante representar gráficamente cómo varía la fiabilidad en función de los valores de k.

En este sentido, ofrecemos a continuación el efecto del aumento de la longitud sobre tres supuestos

tests, A, B y C, cuyos coeficientes de fiabilidad son respectivamente 0.2, 0.5 y 0.8.

Se observa en el anterior gráfico que cuanto mayor es el valor de k mayor será su fiabilidad, pero que

la ganancia observada no es proporcional al valor de la longitud del test, sino que por el contrario, la

variación es decreciente, lo que sugiere que a partir de un cierto punto no es rentable invertir en items

añadidos. Aquí, como en otros órdenes de la vida, hay una cierta relación coste-beneficio que hay que

tener presente en todo momento si no queremos invertir todas nuestras energías en prácticamente nada.

De ello se deduce que la fórmula de Spearman-Brown no es una pócima mágica para hacer fiables tests

carentes de toda precisión. Lo razonable es fabricar ya de partida un buen instrumento de medida, que

obviamente sea susceptible de mejora, también por este procedimiento. Aunque como veremos, un

buen test podría reducir su contenido si esto facilita su manejo y la pérdida de precisión no es

importante. En este sentido, el valor de k, como se tendrá ocasión de comprobar, puede ser menor que

la unidad.

57

ρXX´

'kρ

xx´

1% (k&1)ρxx´

'3(0.87

1%(3&1)(0.87' 0.95

k 'ρ

XX´(1&ρ

xx´)

ρxx´

(1&ρXX´

)

Ejemplo 2.7.- Un test, cuyo coeficiente de fiabilidad vale 0.87 se ha hecho 3 veces mayor. Calcular

su nueva fiabilidad.

SOL:

Apliquemos la fórmula (2.33):

Ejemplo 2.8.- Un test compuesto por 25 elementos y curo coeficiente de fiabilidad es 0.75 se ha

incrementado en 40 items bien construidos y paralelos s loa anteriores. Calcula la nueva fiabilidad.

SOL:

Si originalmente tenemos 25 y le añadimos 40 más, disponemos al final de 65 items. El incremento

habrá sido:

k '65

25' 2.6

En consecuencia, la fiabilidad alcanzada será:

2.7.2.1.- Cálculo de la longitud de un test para lograr una fiabilidad prefijada

Puede sernos de interés, dado un cierto test, lograr un determinado nivel de fiabilidad que hayamos

establecido de antemano. Para ello deberemos conocer el número de items que habremos de añadir a

los existentes. A este respecto podemos recurrir a la fórmula de Spearman-Brown con tan sólo

despejar k de la fórmula (2.33). De esta forma obtendremos la siguiente expresión:

k '65

25' 2.6

Ejemplo 2.9.- Tengamos un test compuesto por 50 items y cuya fiabilidad sea 0.8. ¿En cúantos items

deberíamos incrementarlo para conseguir una fiabilidad de 0.9?

SOL: k '65

25' 2.6

58

ρXX´

'kρ

xx´

1% (k&1)ρxx´

'0.667(0.95

1%(0.667&1)(0.95' 0.927

50(2.25 ' 112.5 – 113 items

k '100

150' 0.667

113 & 50 ' 63 items

Apliquemos la expresión (2.36):

Si inicialmente disponíamos de 50items, ahora pasaremos a tener:

En consecuencia, habremos de añadir:

2.7.2.2.- Reducción de la longitud de test

Normalemente la fórmula de Spearman-Brown se utiliza para mejorar la fiabilidad de un test, dándose

por entendido que el valor de k es superior a la unidad, pero nada impide que deseemos optimizar un

determinado test relativamente largo y lo hagamos más manejable reduciendo elementos, si esto no

implica una merma sustancial de su fiabilidad.

Ejemplo 2.10.- Tengamos un test compuesto por 150 items cuya fiabilidad es 0.95. Supongamos que

por diferentes razones estimamos que no es conveniente aplicar más de 100 elementos, ¿Cuál será la

fiabilidad si eliminamos 50 items del mismo?

SOL:

En este caso k será:

Aplicando Spearman-Brown:

Se observa que la fiabilidad es bastante aceptable.

Ejemplo 2.11.- Supongamos que disponemos de los datos del problema anterior, pero en este caso nos

conformamos con una fiabilidad de 0.9. ¿Cuántos elementos deberemos eliminar?

SOL:

59

k 'ρ

XX´(1&ρ

xx´)

ρxx´

(1&ρXX´

)'

0.9((1&0.95)

0.95((1&0.9)' 0.474

150(0.474 ' 71.053 – 71 items

150 & 71 ' 79 items

Apliquemos (2.36):

La longitud final será:

En consecuencia, habremos de suprimir:

2.7.3.- Fiabilidad y limitación del tiempo de aplicación del test

A este respecto, hemos de distinguir previamente los test de velocidad de los test de potencia. Los tests

de velocidad se caracterizan por el contenido de items todos ellos de fácil resolución, donde se valora

exclusivamente la rapidez de ejecución de los mismos. Por el contrario, en los test de potencia, los

items son de diferente complejidad, y lo que cuenta es la capacidad intelectual -poder mental- de los

sujetos en su resolución. Normalmente, los tests suelen ser mixtos, en el sentido de que se aplican en

un determinado intervalo de tiempo (aunque, no de forma muy restrictiva), pero, a su vez, los items son

de dificultad creciente. Existen toda una serie de indicadores que permiten conocer los índices de

velocidad/potencia para cada test en cuestión. Aquí no los mencionaremos, pero puede encontrarse una

exposición de los fundamentales en Martínez Arias (1995, págs. 88-90) o bien en Muñiz (1994, págs.

34-36).

La fiabilidad, debida a la escasez de tiempo, queda afectada, es obvio decirlo, en los tests donde la

velocidad es un factor a considerar. Y puede quedar afectada de diferentes maneras. Si se aplica, por

ejemplo, el método de las dos mitades, de forma tal que se correlaciona la primera mitad de los items

con la segunda mitad, entonces, está claro, que en esta segunda parte habrá más items no contestados,

que puntuarán como cero, lo que dará lugar a una baja fiabilidad (menor cuanto mayor sea el índice de

velocidad/potencia, esto es, cuanto más fáciles sean los items). Cuando se utiliza el método de las dos

mitades correlacionando elementos pares con los impares, diseño de emparejamiento que es el más

frecuente para equilibrar en ambas mitades el efecto de la fatiga, entonces la rapidez de respuesta de

los sujetos se acumula a la fiabilidad propiamente dicha del test y da como resultado un coeficiente de

fiabilidad sobrevalorado. En los ejemplos prácticos del tema dos, cuando se realiza el análisis de items

de las distintas subescalas del PMA con los alumnos de Psicometría, se puede ampliar este aspecto y

comprobar cómo, hasta cierto punto, se puede comprobar que con sujetos de nivel Universitario estas

subescalas miden velocidad de respuesta más que habilidades intelectuales concretas. En este caso,

cuanta más falta de tiempo haya, más items valdrán cero, y en consecuencia, mayor será la correlación

entre ellos, resultando una fiabilidad sobredimensionada.

En los tests de velocidad, donde se entiende que los items son fáciles, lo que cuenta es la rapidez. Y si

es la rapidez lo que medimos, necesitaremos varias medidas de dicha rapidez para conocer la fiabilidad

60

σ2

X ' Cov(X,X) ' Cov X, jk

j'1

xj

' jk

j'1

Cov X,xj' j

k

j'1

σXσ

jρ

jX

σX' j

k

j'1

σjρ

jX

de nuestro test. De donde se deduce que son los procedimientos del test-retest y de formas paralelas

(con las limitaciones de tales métodos, ya comentadas), los recomendables para medir la fiabilidad de

este tipo de tests.

2.7.2.- Fiabilidad y características del ítem

Es evidente que la fiabilidad de un test, como suma de un conjunto de items, dependerá de las

naturaleza de éstos. Hablando con propiedad, depende de tales items y las relaciones entre ellos. Hasta

ahora, hemos hablado exclusivamente de la fiabilidad como correlación, pero por aquello de que todo

conjunto es mayor que la suma de las partes, habremos considerar también tales partes y no sólo sus

interrelaciones.

Es importante la naturaleza de cada ítem, por cuanto de la calidad de los elementos constituyentes

derivará la bondad del conjunto. Además, cuanto mejor construidos estén los items, menor número de

ellos necesitaremos para configurar un buen test, logrando de esta forma un instrumento más sencillo

y de más fácil aplicación.

Trataremos aquí, tres aspectos constitutivos de los items que inciden sobre la fiabilidad del test, a

saber: a) el índice de discriminación, b) el índice de fiabilidad y c), el índice de dificultad. Todos ellos

afectan, como veremos, a la varianza total del test, que como se ha tratado al comienzo de este capítulo

incide sobre la fiabilidad del mismo, ya que siempre se pretende que el test sea suficientemente sensible

y detecte diferencias entre los sujetos por muy pequeñas que sean, sobre todo en tests referidos a la

norma. Para un tratamiento más extenso del Análisis de Items remitimos al lector al tema dos.

Se define como índice de discriminación del ítem a la correlación entre las puntuaciones de un

determinado ítem y las puntuaciones totales del test. Se entiende que el test sirve para discriminar entre

unos sujetos y otros en relación a un cierto rasgo de interés, de forma tal que permita distinguir aquello

sujetos que presentan un nivel alto de aquellos otros más bajos en dicho rasgo. Según esto, si la

correlación de un determinado ítem con el conjunto del test es elevado, dicho ítem contribuirá

igualmente a distinguir unos sujetos de otros, de ahí su nombre. A este índice se le suele llamar también

índice de homogeneidad, por cuanto expresa la contribución de dicho ítem a medir lo mismo que es test

en su conjunto.

Veamos cómo el índice de discriminación del ítem afecta a la varianza total del test. Como se sabe, la

varianza de una determinada variable no es más que la covarianza de dicha variable consigo misma. Y

considerando que la puntuación total del test equivale a la suma de las puntuaciones de los items,

tendremos:

(2.46)

Y simplificando:

(2.47)

61

σj' p

j(1&p

j) ' p

jq

j

σX' j

k

j'1

ρjX

pjq

j

α 'n

n&11 &

jn

j'1

pjq

j

jn

j'1

ρjX

pjq

j

2

α 'n

n&11 &

jn

j'1

σ2

j

jk

j'1

σjρ

jX

2

Se observa que la desviación tipo del test depende de las desviaciones tipo de los distintos items y de

los coeficientes de discriminación de éstos. Al producto de σjρjX se le denomina, precisamente, índice

de fiabilidad del ítem. De esta forma, la desviación tipo del test equivale a suma de los índices de

fiabilidad de los diferentes items.

Por otro lado, en lo que se refiere a la desviación tipo de los items, se sabe que si operamos en

puntuaciones dicotómicas:

(2.48)

donde pj hace referencia a la proporción de " unos" -esto es, proporción de aciertos- existentes en tales

items. Si tomamos este valor como indicativo del índice de dificultad para cada ítem, tendremos que:

(2.49)

Si deseamos saber cómo afectan estos valores (índice de discriminación, de fiabilidad y dificultad)

sobre la fiabilidad, por ejemplo, sobre el coeficiente Alpha:

(2.50)

Si operásemos con datos cuantitativos, prescindiremos del índice de dificultad tal como aquí ha sido

definido, obteniendo:

(2.51)

lo que pone de manifiesto de qué forma la dificultad de los items afectan a la fiabilidad global del test

(supuesto índices de discriminación diferentes de cero). En este sentido cuanto mayor sea la varianza

de los ítems, así como su índice de discriminación, mayor es el coeficiente de fialidad del test.

62

2.8.- Valoración de los distintos coeficientes de fiabilidad

Básicamente hay dos conceptos de fiabilidad: a) la fiabilidad como consistencia de las medidas, b) la

fiabilidad como estabilidad en el tiempo. El primer tipo de fiabilidad se logra, tras una única aplicación

del test, mediante las correlaciones entre los distintos items de dicho test o agrupaciones de los mismos

(especialmente, en dos mitades). El segundo tipo de fiabilidad se consigue tras distintas aplicaciones

(habitualmente dos) bien del test o de formas paralelas (o alternativas), y calculando la correlación entre

ellas.

Hay que decir que ambas medidas de la precisión son realmente concepciones distintas de la fiabilidad

y no conviene confundirlas. Ciertos tests, como los estrictamente de velocidad, solamente admite un

tipo de fiabilidad, pero frecuentemente ambas medidas son complementarias y siempre que se puedan

convienen aplicarse conjuntamente (recordemos lo dicho lo dicho a este respecto al principio de este

tema). Podemos, de esta forma, encontrarnos con un test que presente una alta consistencia interna, pero

una pequeña estabilidad temporal, o al revés. O bien, coincidan en ambos aspectos. Obviamente, un

test que sea consistente en el sentido de que todos sus componentes configuren una única pieza, y que

además como instrumento, aguante el paso del tiempo manteniéndose en sus mediciones, será un test

óptimo. Aunque esto no implica necesariamente que un test heterogeneo (con baja consistencia interna)

sea un mal test. Más bien ocurre al contrario en algunos casos. Por poner un ejemplo, los buenos tests

de rendimiento o de selección profesional suelen ser heterogéneos, por lo que respecta a los constructos

psicológicos que lo integran. En el mismo sentido un test que ofrezca medidas con baja estabilidad

temporal no tiene por qué ser poco fiable, pues, si lo sujetos han cambiado en el aributo durante ese

intervalo de tiempo, es bueno el test que refleje ese cambio.

En lo que hace referencia a los distintos procedimientos, cuyo común denominador es el hacer una

única aplicación del test, podemos afirmar que el coeficiente Alpha es el idóneo. Puede demostrarse

además que las fórmulas de Rulon y Flanagan y Guttman son casos particulares de Alpha (ver Muñiz

(1994) págs 50-54). Son fórmulas simplicadoras del mismo que no tienen sentido actualmente con los

recursos informáticos al alcance de cualquiera.

Además si lo que se pretende es la coherencia interna de todos los items, mejor será considerarlos

individualmente que no en dos bloques, donde siempre será dudoso el criterio de asignación de los

distintos items en cada uno de tales bloques, y por otro lado, aunque los bloques coincidan en lo que

hace referencia en su puntuación total, pueden esconder una cierta diversidad en su interior que queda

enmascarada. Pero si lo que se pretende, por el contrario es utilizar un procedimiento económico para

calcular la fiabilidad de un tests heterogéneo, podemos aprovechar esa diversidad interior de la que

acabamos de hablar para dar cabida a la heterogeneidad que contempla el atributo. Bastaría con tener,

para cada aspecto del atributo, dos items o indicadores paralelos, que pasarían cada uno a formar parte

de una de las mitades del test.

En cuanto a los procedimientos que implican dos (o más) aplicaciones del test (o tests), lo más

razonable es plantearlo como formas alternativas. Como en el caso de Alpha, es el planteamiento menos

restrictivo. Suponer formas paralelas o equivalentes no es más que una utopía imposible de conseguir.

El método de las dos mitades parece que reúne las ventajas del método de las formas paralelas (o

alternativas) al mismo tiempo que se logra en una única aplicación del test, pero en realidad más que

63

contener todas las ventajas lo que tiene son todos los inconvenientes, y al final resulta insatisfactorio,

ya que no contempla la estabilidad en el tiempo ni la verdadera consistencia entre todos los items por

cuanto opera con bloques donde tales items quedan agrupados. Por ello precisamente es la solución

adecuada cuando se quiere calcular la fiabiidad por dos-mitades cuando el tests es heterogeneo en su

conjunto aunque con dos mitades paralelas o alternativas. Hay que tener cuidado de no aplicar este

procedimiento (dos mitades) en pruebas de rapidez, pues podría ser falseada la fiabilidad por aspectos

camuflados en la seriación como: rapidez de respuesta, dificultad del ítem, aprendizaje, fatiga, ... etc..

Hay cierto tipo de tests como el Binet o el Terman, que miden rasgos complejos, donde lo más

conveniente es recurrir a la fiabilidad como estabilidad -diferentes aplicaciones de la misma prueba-.

No puede aplicarse Alpha o equivalente por cuanto el contenido es variado y las intercorrelaciones

obtenidas serían bajas aún cuando hubiera una gran estabilidad entre las mediciones tras diferentes

pasadas. No obstante, hay que decir que en esta situación (cuando se elabora un test) es preferibl

desentrañar previamente la estructura interna de lo complejo -distinguir los rasgos unitarios que alberga-

, aplicar Alpha a cada uno de estos rasgos, y finalmente, determinar la fiabilidad de un test compuesto

según la fórmula (2.17). A este respecto, se aconseja recurrir a algún procedimiento, que como el

análisis factorial permite determinar los rasgos -factores- que componen un cierto material complejo,

siendo las variables que saturan un determinado factor, los items de dicho rasgo. De esta manera

logramos no solamente una fiabilidad que en la práctica es fiable sino que lo es sobre la base de una

fundamentación teórica.

En definitiva, de los procedimientos basados en una aplicación del test -fiabilidad como consistencia-

el coeficiente Alpha, por las razones apuntadas, es el más adecuado. Proceder a realizar varias pasadas

-fiabilidad como estabilidad- puede quedar justificado por razones prácticas cuando el material es

complejo, pero resulta aconsejable desentrañar previamente su estructura y aplicar Alpha. Así pues, al

final, acabamos en el coeficiente Alpha como el preferible en la mayor parte de los casos. No obstante,

no puede generalizarse su uso sin más. Como hemos apuntado, en los tests de velocidad es más

apropiado realizar diferentes pasadas -test-retest o formas paralelas- para cuantificar su fiabilidad.

2.9.- Tratamiento informático de la fiabilidad

Desarrollaremos a continuación algunos de los ejemplo realizados en este capitulo mediante el recurso

informático que proporciona el paquete estadístico SPSS. En particular utilizaremos el programa

Escalas.

2.9.1.- Coemzaremos con el coefciente de fiabiliad mediante ek método de las dos mitades, junto con

el de Flanagan. En este sentido, retomemos los datos de ejemplo 2.1:

64

A este respecto:

A continuación:

65

Los resultados:

Obsérvese cómo en dicha tabla se nos proporciona el coeficiente de correlación entre las dos mitades,

antes y después de aplicar la corrección de Spearman-Brown. Además calcula el coeficiente de

Flanagan y Guttman, cuyo valor es el mismo que el de Rulon, no hallado aquí. Por otro lado, nos ofrece

información del coeficiente Alpha e cada una de las mistades del test. Es interesante este dato porque

nosinforma que a nivel de item la prueba deja bastante que desear en lo que se refiere a su fiabiliad, en

especial con la primera parte. En este sentido, conviene destacar que operando con las mitades se

obtienen un buen coeficiente de fiabilidad, lo que no ocurre cuando operamos con los items. Se deduce

de ello, como ya hemos comentado, que el método de las dos mitades puede llegar a enmascarar

información relevante.

71

3.- VALIDEZ

3.1.- Introducción

Indicábamos en el capítulo primero que toda medida debía cumplir dos condiciones: validez y

fiabilidad. La validez garantiza que midamos aquello que nos proponemos (y no otra cosa), y la

fiabilidad, que lo midamos con precisión. La fiabilidad hace referencia al rigor en la medida, la

validez, a la adecuación de la misma.

Se supone que el lector tiene cierta familiaridad con el término validez, tratado en otros contextos

de la estadística tal como la regresión múltiple o los modelos estructurales. Como se recuerda,

un modelo resultaba válido si realmente resultaba útil, eficaz para los propósitos que fue

concebido. Lo mismo puede decirse del concepto de validez aplicado a los tests. Un test se dice

válido si satisface nuestros objetivos. La validación hace referencia al proceso que permite ir

apurando, delimitando y perfeccionando cada vez más nuestro instrumento de medida. Así, el

examen de psicometría será válido si realmente permite discriminar los distintos grados de

conocimiento que los estudiantes tienen de esta materia. Como en estas cuestiones nunca

tendremos la última palabra, los docentes en su afán por mejorar su instrumento, irán

reelaborando la forma y contenido de las evaluaciones -validación- en un intento de lograr que

las pruebas se ajusten lo mejor posible al nivel de conocimiento de los alumnos.

Dicho así la validez parece un concepto sencillo. No obstante, si somos rigurosos validar una

prueba obliga a saber qué es realmente lo que mide. Y aquí está el problema. Y aunque hay que

decir que en última instancia la validez implica conocer la naturaleza de lo que tenemos entre

manos -validez de constructo-, para propósitos menos pretenciosos podemos conformarnos con

algo menos, tal como sucede con la denominada validez referida al criterio donde la fuerza del

test radica en su relación con una pauta externa de conducta, claramente definida y en la validez

de contenido, donde importa que el conjunto de ítemes de la prueba refleje lo más

exhaustivamente posible el conjunto de capacidades que integran un determinado rasgo

psicológico.

La validez referida al criterio tiene un carácter fundamentalmente predictivo. Interesa a través

de un test, que se supone correlacionado con alguna conducta relevante, establecer inferencias

72

sobre esa conducta de interés. De esta forma podremos elaborar un test orientado a seleccionar

administrativos en una empresa si tenemos constancia de la relación entre dicha prueba y las

capacidades manifiestas en las labores de gestión. O bien una determinada prueba podrá ser

indicativa del posible futuro éxito académico en la universidad, y utilizar dicha prueba a efectos

de pronósticos.

La validez referida al criterio tiene un interés práctico, funcional. Históricamente, hasta los años

50 ha sido el tipo de validez preponderante. Pero se han hecho notar sus deficiencias, y

frecuentemente interesa conocer las razones intrínsecas por las cuales una prueba es válida, y no

solamente por su ligazón con el criterio externo de referencia. Por otro lado, no siempre nos

interesa predecir o pronosticar un cierto criterio. Frecuentemente el criterio en sí, sin más, es

nuestro objeto de estudio, y necesitamos justificarlo en base a sus propios materiales. Por

ejemplo, el examen de psicometría como tal prueba de evaluación necesita ser justificada sin más

referencia que a sí misma. En este caso es evidente que el examen debe reflejar los contenidos

explicados en dicha materia. Esta es la intención de la denominada validez de contenido. Se

supone que la materia objeto de estudio engloba un cierto universo de elementos, y la prueba

debe ser una muestra representativa de tal universo o dominio.

Por último, la validez de constructo pretende llegar aún más lejos. Obedece, como cabe suponer,

a los últimos avances en este tema. No es suficiente con tener constancia de los elementos que

integran un determinado rasgo psicológico. Interesa igualmente conocer cómo tales elementos

configuran el rasgo en cuestión. Volviendo al ejemplo del examen de psicometría, en la validez

de contenido (y aún menos en la validez referida al criterio) no nos preguntamos si el rendimiento

en esta materia depende de la inteligencia, motivación, memoria o simplemente nuestras

habilidades sociales. Sólo nos preguntamos por las cuestiones relevantes que integran su dominio

de contenido. En la validez de constructo, por el contrario, interesan en especial cómo están

relacionados todos estos factores, cuál es su estructura, qué entramado configuran. Podemos

afirmar que aquí hay contenido más forma. Se denomina validez de constructo por cuanto se trata

de una elaboración (mental) -modelo- que intenta dar cuenta de la naturaleza de los rasgos

psicológicos. A diferencia de los otros tipos de validez, es fundamentalmente conceptual, teórico,

busca la comprensión más que la funcionalidad, e intenta responder a cuestiones tales como qué

es la inteligencia (o la depresión o la asertividad), de qué factores depende, cómo están

entrelazados entre sí. Recursos estadísticos tales como el análisis factorial o la matriz

multirrasgo-multimétodo, serán, como veremos, sus herramientas usuales.

En las páginas que siguen profundizaremos en los diferentes tipos de validez mencionados, así

como en los procedimientos y análisis de datos pertinentes.

73

3.2.- Validez referida al criterio

La validez referida al criterio (también denominada validez predictiva o validez de pronóstico)

satisface un cierto grado de exigencias, aunque no demasiado. Como ya hemos indicado, es un

tipo de validez útil para determinado contextos, ateórico, pragmático, donde lo que interesa es

que las cosas funcionen aunque no sepamos exactamente por qué. Este tipo de validez se

denomina "referida al criterio" porque el punto de partida hace referencia a alguna conducta, que

se entiende que es clara, manifiesta, evidente per se. Esta conducta es lo que se denomina

criterio, y es, precisamente la que queremos inferir a partir de otra cosa, más sencilla en su

ejecución, tal como un determinado test, que suponemos fuertemente correlacionado con el

criterio, y nos puede servir, hasta cierto punto, como sustituto del mismo. El valor de la cuantía

de la validez de un determinado test se expresa mediante el coeficiente de correlación de Pearson

(supuesta linealidad de la relación), que se denomina en este contexto coeficiente de validez.

Este tipo de validez es frecuentemente utilizado en el ámbito industrial, tal como en selección

de personal, en el contexto escolar, en pruebas de pronóstico académico o de selección a algún

centro, tal como la universidad, y también en contexto clínico, como seguimiento de terapias etc.

En todos estos casos, el test proporciona de forma mucho más sencilla información sobre la tarea

si necesidad de realiza ésta. Por ejemplo, supongamos que deseamos becar a diez estudiantes de

BUP para que estudien psicología en la Universidad de Sevilla. Tomaremos como criterio de

validez el rendimiento académico. A este respecto, se ha elaborado un test con un grupo

representativo de los estudiantes de la Facultad de Psicología, que presenta una alta correlación

con el rendimiento medio de los mismos. En estas circunstancias, podremos utilizar el

mencionado test como pronóstico del posible éxito en esta carrera. Si aplicamos el test a un

grupo de estudiantes de BUP, aquellos que obtengan puntuaciones altas en la prueba -los diez

mejores- muy probablemente serán igualmente brillantes cuando acometan los estudios

universitarios. De esta forma, el test en cuestión será válido para pronosticar el éxito académico

de los estudiantes en la facultad mencionada.

Obsérvese que aquí no nos preguntamos por las razones que dan lugar a que un sujeto sea un

buen estudiante universitario. Tan sólo nos importa que exista una fuerte correlación entre el test

y el criterio de referencia. Esta es la garantía de un buen pronóstico. Nada de teoría, sólo eficacia.

Como señala Nunnally (1987, pág. 101): "si se descubriera que jugar bien al fútbol correlacionase

fuertemente con el éxito académico, la calidad en el juego sería una medida válida para predecir

tal éxito".

La validez referida al criterio tiene algunas variantes. Se habla de validez concurrente cuanto el

test y el criterio se miden al mismo tiempo (o casi). Cuando el criterio se mide con posterioridad

74

al test, nos encontramos con la validez predictiva o de pronóstico. Por último, si el criterio es

previo a la prueba, la validez correspondiente se denomina validez retrospectiva. Según las

circunstancias, aplicaremos uno u otro tipo de validez. Por ejemplo, en el caso mencionado de

los estudiantes de BUP, se trata de validez predictiva ya que con el test anticipamos su futuro

rendimiento académico. Pero si deseamos aplicar un test que permita identificar algún trastorno

en la infancia de un sujeto, la validez será retrospectiva. Y un caso de validez concurrente, ahora

que estamos en la era de la informática, sería si un test por ordenador, a efectos de diagnóstico,

sustituyese eficazmente la opinión de una comisión de psicólogos expertos.

Estrictamente hablando lo que se valida no es un test sino el uso que se hace mismo. En este

sentido un mismo test puede aplicarse para diferentes cometidos, y en consecuencia, presentar

diferentes "valideces". No siempre existe el mismo criterio para un cierto test, y aunque existiese,

probablemente iría modificándose su valor a lo largo del tiempo. Por ejemplo, podría darse el

caso de un test que midiera la capacidad para aprender idiomas y se utilizase tanto para predecir

las calificaciones de los estudiantes de inglés como de francés. Es obvio que la correlaciones de

dicho test con estos idiomas serán distintas, y por tanto, sus coeficientes de validez. Por otro

lado, puede cambiar de un año para otro las exigencias en los departamentos donde se cursan

estas materias, y en consecuencia, quedar modificado los distintos coeficientes de validez

respectivos.

Este hecho, más que expresar una de la cualidades del coeficiente de validez, lo que muestra es

una de sus más notorias insuficiencias. Es extraordinariamente difícil, como señala Magnusson

(1969, pág. 155) encontrar una buena medida del criterio, o mejor, encontrar la verdadera medida

del criterio. Como dice este autor, normalmente no disponemos del criterio verdadero sino más

bien de criterios asequibles, esto es, a los que razonablemente tenemos acceso. Muchas

dificultades son del índole práctica, a la hora de definir el grupo normativo sobre el que se

asignará las puntuaciones del criterio. Por ejemplo, en el caso del test orientado a idiomas, sería

conveniente elaborar tantos tests como idiomas, ya que está claro, que el inglés, francés o alemán,

por citar tan sólo algunos idiomas, no exigen equivalentes capacidades. Por otro lado, dentro de

cada idioma hay diferentes especialidades, por lo que si queremos predecir el éxito futuro de un

determinado estudiante, necesitaremos como criterio las puntuaciones medias de los sujetos de

un determinado idioma que han cursado una especialidad concreta. Así, podríamos seguir

indefinidamente. Al final no habría muestra suficiente de donde obtener el criterio.

Otras dificultades son de carácter teórico y cuestionan lo que podríamos llamar la validez del

criterio. Este quizás sea el problema fundamental de este tipo de validez. Aquí, el criterio se

suele considerar dado más que algo que debamos elaborar, como sucede en la validez de

contenido y constructo, que se tratarán más adelante. Se busca el criterio en alguna conducta

75

ρxc

' ρξx(ρ

ξc

reconocible, más que fabricarlo según los requisitos pertinentes. Por ejemplo, en el caso que se

estamos tratando las calificaciones en los exámenes se consideran el referente último, pero como

todo el mundo sabe, no siempre los exámenes representan el nivel de conocimientos de una

materia. Otras veces se recurre al juicio de personas que se suponen conocen el tema, así

profesionales en medicina o superiores del cuerpo de policía pueden juzgar quienes solicitan ser

candidatos a ingresar en sus respectivos centros, pero también aquí hay tener cuidado, no suceda

que no elijamos los mejores sino los más convenientes para nuestros intereses, como se cita en

Nunnally y Bernstein (1995, pág. 108) donde en una prueba de selección para la policía, los

mejores evaluados por sus superiores eran precisamente los más inadaptados, esto es, los más

sumisos.

Así pues, en la práctica se elige un criterio, digamos razonable, y se trabaja con el mismo como

referente del test, pero debe quedar claro, como indica Bollen (1989, pág. 186), que entonces, la

correlación entre el test y el criterio no expresa la validez de dicho test. En la figura 3.1 se ilustra

cómo la puntuaciones observadas del test X y del criterio C son expresiones de la variable ξ (no

observable) que pretendemos medir, y que denominaremos constructo:

En este caso, la correlación entre el test y el criterio será (operando en puntuaciones

estandarizadas):

lo que demuestra que dicha correlación queda mediatizada por el grado en el que el criterio

refleja la verdadera dimensión del rasgo en cuestión.

76

ξ

X

C

Figura 3.1. Correlación entre la medida X y el criterio C como expresión de la variable latente ξ

Por esta razón, en la medida que difícilmente el criterio observado corresponderá con lo que

pretendemos medir, parece más apropiado definir, de acuerdo con Lord y Novick (1968, pág.

261) la validez referida al criterio como la correlación entre el test y alguna conducta observable

(validez empírica), o bien como la correlación entre el test y algún constructo teórico (validez

teórica). Cuando tengamos la dudosa garantía de que el constructo y la conducta observable

coinciden (ξ=C), entonces podremos utilizar la ecuación de regresión para determinar el valor

en el criterio que obtendrá un sujeto al que se le haya aplicado un determinado test. A este

cometido dedicamos las siguientes páginas. Más adelante, con la validez de contenido y de

constructo, ampliaremos estos conceptos.

3.2.1.- Predicción del criterio

Como hemos indicado (con las oportunas reservas) para ciertos casos no muy exigentes,

podemos plantearnos validar un determinado test en base a la correlación del mismo con alguna

conducta que de forma clara y evidente refleja aquello que pretendemos medir, y que tomamos

como criterio. En este caso, si suponemos que ambas variables están relacionadas linealmente

y se cumplen otros supuestos conocidos tales como normalidad de los errores homocedasticidad

... etc, podemos aventurarnos a utilizar las técnicas de la correlación y regresión estadística al

objeto de cuantificar la magnitud de la relación a través del coeficiente de validez, así como

77

Y ' B0%B

1X

1%B

2X

2%...%B

kX

k%ε (3.1)

y 'XB%ε (3.2)

y ' Xb % e (3.3)

y ' Xb (3.4)

establecer inferencias respecto al criterio mediante la ecuación de regresión.

Aunque nos hemos referido, por razones de simplicidad, a un único test y a un único criterio,

normalmente se mejora la predicción cuando se utilizan baterías de tests al respecto. Así, para

pronosticar el posible éxito académico será más conveniente disponer de un conjunto de pruebas

que considere variables tales como inteligencia, motivación, personalidad ...etc. En este caso, el

coeficiente de validez corresponderá al coeficiente de correlación múltiple.

No profundizaremos en las técnicas de la regresión múltiple, que se supone ya conoce el lector.

No obstante, una buena introducción puede encontrarse en Pedhazur (1982). En castellano, una

aproximación sencilla se ofrece en Domenech (1985) y otra más completa en Peña (1986).

Como se sabe, el modelo de regresión establece que una determinada variable de criterio Y

puede obtenerse a partir de un conjunto de variables predictoras X, combinando éstas

linealmente, según la siguiente expresión:

o bien, en forma matricial:

donde:

y: vector de valores de la variable criterio

X: matriz correspondiente a las k variables predictoras

B: vector de parámetros o coeficientes del modelo

ε: vector de errores o residuos

Este mismo modelo en términos de los datos muestrales será:

donde hemos sustituido el vector B de parámetros por el vector b referido a sus estimadores, y

el vector ε de residuos a nivel poblacional por el vector e de residuos a nivel muestral.

A partir de los datos observados podremos obtener mediante mínimos cuadrados la ecuación:

78

b ' X´X &1Xý (3.5)

R 2 'b´Xý & (1ý)2/N

yý & (1ý)2/N(3.6)

F 'R 2/k

1&R 2 /(N&k&1)(3.7)

Yo' b0%b1Xo1

%b2Xo2%...%b

kX

ok' X

)

ob (3.8)

y ± t(α,gl )

(Se (3.9)

Se' S

2res 1 % X´

o(X´X )&1X

o(3.10)

que mejor se ajuste a la nube de puntos que configuran los datos muestrales. Como se sabe, el

vector de parámetros estimados corresponde a la siguiente expresión:

El coeficiente de correlación múltiple (aquí de validez) al cuadrado:

Y la validez del modelo, que en este caso equivale a determinar la validez del conjunto de tests

a efectos de pronosticar el criterio:

Por otro lado, si deseamos pronosticar las puntuaciones en el criterio para un determinado sujeto

a partir de sus puntuaciones obtenidas en la batería de pruebas, habremos de aplicar la ecuación

de regresión muestral, sustituyendo en las variables predictoras los valores obtenidos en los

distintos tests:

Con esto obtendremos una estimación puntual. Si deseamos mayor seguridad en el pronóstico,

procederemos a determinar el intervalo de confianza, que nos permita definir unos márgenes

dentro de los cuales tengamos una cierta garantía (alta probabilidad) de que se encuentren los

valores predichos. Así:

donde:

79

Sujeto X1 X2 Y

+)))))))))))))))))))))))))))))))), * 1 8 7 7 * * 2 7 8 5 * * 3 9 6 7 * * 4 6 5 4 * * 5 9 6 8 * * 6 6 5 4 * * 7 3 3 2 * * 8 6 7 5 * * 9 5 6 5 * * 10 4 7 6 * .))))))))))))))))))))))))))))))))-

TABLA 3.1. Datos supuestos para predecir rendimiento en inglés en basea memoria y fluidez verbal

siendo:

Sres: desviación tipo residual o no explicada.

X´o: vector de valores obtenidos en las k pruebas (más la unidad).

Ejemplo 3.1.- Tengamos a continuación los datos en dos tests: memoria (X1) y fluidez verbal (X2)

utilizados para el pronóstico de las calificaciones en inglés (Y):

Sobre estos datos determinar:

a) Ecuación de regresión que permita predecir el rendimiento en inglés a partir de las

calificaciones e memoria y fluidez verbal.

b) Coeficiente de validez

c) Validez del modelo propuesto

d) Puntuación prevista para un sujeto que haya obtenido 4 puntos en memoria y 5 puntos en

fluidez verbal.

SOL:

a) Ecuación de regresión. Definamos, primeramente, las matrices existentes:

80

X '

1 8 7

1 7 8

1 9 6

1 6 5

1 9 6

1 6 5

1 3 3

1 6 7

1 5 6

1 4 7

y '

7

5

4

7

8

4

2

5

5

6

b ' X´X &1Xý '

10 63 60

63 433 389

60 389 378

&153

359

332

'

&0.8496

0.5631

0.4336

Y ' b0%b

1X

1%b

2X

2' &0.8496 % 0.5631X

1% 0.4336X

2

R2y.12 '

b´Xý & (1ý)2/N

yý & (1ý)2/N'

301.106 & 280.9

309 & 280.9'

20.206

28.1' 0.7191

Ry.12 ' 0.7191 ' 0.8480

Apliquemos a continuación (3.5):

Por tanto, la ecuación de regresión será:

b) Coeficiente de validez. Como se sabe, hace referencia a la correlación múltiple. Así pues:

lo que es indicativo de que entre ambos tests dan cuenta casi del 72% de la variación observada en

rendimiento en inglés.

El coeficiente de validez valdrá:

81

F 'R 2/k

1&R 2 /(N&k&1)'

0.7191/2

(1&0.7191)/7' 8.96

F(2,7,0.05)

' 4.74

Yo' X

)

ob ' 1 4 5

&0.8496

0.5631

0.4336

' 3.5711

S2res ' j (Y&Y )2((1&R 2)

N&k&1'

28.1((1&0.7191)

7' 1.128

c) Validez del modelo. Nos preguntamos por la utilidad de ambos tests a efectos de predecir el

rendimiento en inglés. Equivale a preguntarnos por la validez del modelo, ya que hemos supuesto

que el rendimiento en este idioma se obtiene combinando linealmente ambas pruebas. Por tanto:

Buscando en la tabla F de Snedecor para 2 y 7 grados de libertad respectivamente, y al nivel de

significación de 0.05:

Como 8.96>4.74, rechazaremos la hipótesis nula con un riesgo (máximo) del 0.05. El modelo

puede considerarse útil a efectos de pronósticos. o si se quiere, ambos tests pueden aplicarse para

predecir las calificaciones en inglés.

d) La puntuación predicha para un sujeto que haya obtenido 4 y 5 puntos en memoria y fluidez

verbal será:

Antes de proceder a aplicar (3.9) hemos de conocer la varianza residual. Podemos calcularla a partir

de la suma de cuadrados total (que viene expresado en el denominado de R2). Multiplicado esta

suma por (1-R2) obtendremos la suma de cuadrados no explicada o residual. Ya por último,

dividiremos por sus grados de libertad N-k-1. Por tanto:

Así pues:

82

Se' S

2res 1 % X

o´(X´X )&1X

o' 1.128 1 % 1 4 5

10 63 60

63 433 389

60 389 378

&11

4

5

' 1.189

y % t(0.05,7)

(Se' 3.571 % 2.37(1.189 ' 6.388

y & t(0.05,7)(Se' 3.571 & 2.37(1.189 ' 0.754

Por tanto:

lo que se interpreta que para una puntuación de 4 puntos en memoria y 5 puntos en fluidez verbal,

cabe esperar, con una probabilidad de 0.95, de que la puntuación en rendimiento oscile entre 0.754

y 6.388 puntos. Como puede comprobarse este margen es demasiado amplio, y tiene aquí escaso

valor a efectos de pronósticos como consecuencia del tamaño de muestra tan reducido que, por

razones didácticas, estamos manejando.

3.2.2.- Validez y fiabilidad

Como se ha indicado, validez hace referencia a la adecuación de la medida, y fiabilidad a la

precisión con que se realiza esa medida. De ello se deduce que hay dos tipos de errores

superpuestos en el valor del coeficiente de validez, tal como se ilustró en la figura 1.1., uno que

hace referencia a la mayor o menor adecuación y otro, a la mayor o menor precisión. Ambos

afectan a la validez. Es obvio que en la medida en que se mejore la fiabilidad de un test mejoremos

su validez. Aunque hay que decir que en el caso extremo de obtener una medida cuya validez sea

cero, nada lograremos aumentando su fiabilidad; tan sólo estaremos consiguiendo medir cada vez

mejor algo completamente distinto a lo propuesto. Como el que tiene una balanza de gran precisión

para medir la estatura. Por esta razón se dice que la fiabilidad es condición necesaria pero no

suficiente para mejorar el grado de validez de una cierta medida.

En el caso de la validez referida al criterio hemos de considerar, además, que tal criterio, como

medida empírica que es, contemplará un cierto error de medida. Quiere decir esto que el criterio,

a su vez, presentará una cierta fiabilidad. Lo ilustramos en la siguiente figura donde se representan

las puntuaciones verdaderas Vx y Vy del test y el criterio respectivamente, junto a sus medidas

empíricas o indicadores:

83

Vx Vy

X Y

Figura 3.2. Representación del efecto de la fiabilidad sobre la validez

ρxy

' ρxvx(ρ

vxvy(ρ

vyy (3.11)

ρvxvy

'ρ

xy

ρxvx(ρ

vyy

(3.12)

ρvxvy

'ρ

xy

ρxx´

ρyy´

'ρ

xy

ρxx´(ρ

yy´

(3.13)

Suponiendo que operamos con puntuaciones estandarizadas, y aplicando la regla del trazado:

de donde:

Pero como se sabe, el índice de fiabilidad de una medida es precisamente la raíz cuadrada de su

coeficiente de fiabilidad. Así pues:

Esta fórmula se denomina fórmula de atenuación o corrección por atenuación por cuanto

proporciona la validez del test cuando se han eliminado los errores de medida tanto en la variable

predictora como en el criterio. Como se indica en (3.11) la correlación entre test y criterio obtenida

empíricamente está atenuada o disminuida por las imprecisiones en las mediciones. En este sentido,

la fórmula (3.13) proporciona tal correlación una vez desatenuada.

84

ρvxvy

'ρ

x1y1

ρx1x´1

ρy1y´1

(3.14)

ρvxvy

'ρ

x2y2

ρx2x´2

ρy2y´2

(3.15)

ρx1y1

ρx1x´1

ρy1y´1

'ρ

x2y2

ρx2x´2

ρy2y´2

ρx2y2

'ρ

x1y1

ρx1x´1

ρy1y´1

ρx2x´2

ρy2y´2

'ρ

x1y1

ρx1x´1

(ρy1y´1

ρx2x´2

(ρy2y´2

(3.16)

La fórmula anterior tiene un interés más bien teórico, ya que en la práctica nunca nos libraremos

de los errores de medida. Un caso más realista puede dar lugar cuando hemos mejorado la

fiabilidad de un test o de su criterio (o ambos) y deseamos comprobar el efecto sobre la validez del

mismo. En este sentido, la fórmula (3.13) nos será especialmente útil. Supongamos a este respecto,

que operamos sobre un test X1 y un criterio Y1, entonces como acabamos de indicar:

Modifiquemos, ahora, test y criterio hasta lograr un test X2 y un criterio Y2 con una fiabilidad

mejorada. Es obvio que esta circunstancia no modifica la correlación entre las puntuaciones

verdaderas del test y del criterio. Así pues:

Igualando (3.14) y (3.15):

A partir de aquí podremos calcular la nueva validez :ρx2y2

Esta fórmula tiene carácter general. Tomándola como referencia puede utilizarse para toda una

casuística de situaciones. En los ejemplos que exponemos a continuación se consideran algunos

de los casos posibles que pueden presentarse:

Ejemplo 3.2.- Un determinado test tiene un coeficiente de fiabilidad de 0.45. El coeficiente de

fiabilidad del criterio es 0.4 y el coeficiente de validez es 0.35. ¿Cuál será la nueva validez si se

mejora la fiabilidad del test hasta 0.85 y la fiabilidad del criterio hasta 0.90?.

85

ρx2y2

'ρ

x1y1

ρx1x´1

(ρy1y´1

ρx2x´2

(ρy2y´2

'0.35

0.45(0.40

0.85(0.90

' 0.722

ρvxvy

'ρ

xy

ρxx´(ρ

yy´

'0.45

0.5(0.6' 0.822

ρx2y2

'ρ

x1y1

ρx1x´1

(ρy1y´1

ρx2x´2

(ρy2y´2

'ρ

x1y1

ρx1x´1

ρx2x´2

'0.60

0.65

0.90

' 0.706

SOL:

Apliquemos (3.16):

Ejemplo 3.3.- Tengamos un test que presenta una validez de 0.45. Por otro laso, su fiabilidad es

de 0.5 y la fiabilidad del criterio es 0.6. Calcular la validez suponiendo que eliminásemos, tanto

del test como del criterio, los errores del medida.

SOL:

Podemos aplicar (3.16), donde y valen la unidad, o bien, directamente (3.13). Asíρx2x´2

ρy2y´2

pues:

Ejemplo 3.4.- Un test presenta una validez de 0.6 y una fiabilidad inicial de 0.65. Si mejoramos

su fiabilidad hasta 0.9, ¿en cuánto lograremos mejorar su validez?.

SOL:

Por el enunciado se deduce que no se ha intervenido sobre la fiabilidad del criterio. Esto

significa que y son iguales, luego su cociente valdrá la unidad. Así pues, en este casoρy1y´1

ρy2y´2

la fórmula (3.16) deviene en la siguiente:

86

ρx2y2

'ρ

x1y1

ρx1x´1

(ρy1y´1

ρx2x´2

(ρy2y´2

'ρ

x1y1

ρy1y´1

ρy2y´2

'0.55

0.6

0.83

' 0.647

ρx2y2

'ρ

x1y1

ρx1x´1

(ρy1y´1

ρx2x´2

(ρy2y´2

'ρ

x1y1

ρx1x´1

(ρy1y´1

k1ρx1x´1

1%(k1&1)ρ

x1x´1

k2ρy1y´1

1% (k2&1)ρ

y1y´1

ρx2y2

'k

1k

2ρ

x1y1

k1%k

1(k

1&1)ρ

x1x´1k

2%k

2(k

2&1)ρ

y1y´1

(3.17)

Ejemplo 3.5.- Un determinado test presenta una validez de 0.53. ¿Qué validez alcanzaremos si la

fiabilidad del criterio pasa a ser de 0.6 a 0.83?.

SOL:

Este caso es parecido al anterior. Aquí, permanece constante la fiabilidad del test. Por tanto:

3.2.3.- Validez y longitud

En el apartado anterior hemos visto la relación entre la validez y la fiabilidad tanto del test como

del criterio. En la práctica, un procedimiento relativamente frecuente para intervenir sobre la

fiabilidad es, como se sabe, incrementando el número de medidas -ítemes- del instrumento en

cuestión. En este sentido, si nos interesa conocer la forma en que la longitud del test o el criterio

afecta al coeficiente de validez tan sólo hemos de sustituir en (3.16) y por susρx2x´2

ρy2y´2

equivalentes según la formula de Spearman-Brown. De esta forma, si incrementamos el test k1

veces y el criterio k2 veces, tendremos:

Simplificando:

Si sólo incrementamos el test, dejando constante el criterio, entonces k2=1. La validez será:

87

ρx2y

'k

1(1ρ

x1y

k1%k

1(k

1&1)ρ

x1x´11%1(1&1)ρ

yy´

'k

1ρ

x1y

k1%k

1(k

1&1)ρ

x1x´1

(3.18)

ρxy2

'1(k

2ρ

xy1

1%1(1&1)ρxx´

k2%k

2(k

2&1)ρ

y1y´1

'k

2ρ

xy1

k2%k

2(k

2&1)ρ

y1y´1

(3.19)

k1'

ρ2x2y 1&ρ

x1x´1

ρ2x1y&ρ

x1x´1ρ

2x2y

(3.20)

k2'

ρ2xy2

1&ρy1y´1

ρ2xy1&ρ

y1y´1ρ

2xy2

(3.21)

ρx2y2

'k

1k

2ρ

x1y1

k1%k

1(k

1&1)ρ

x1x´1k

2%k

2(k

2&1)ρ

y1y´1

'2(2(0.57

(2%2(2&1)(0.65)(2%2(2&1)(0.73)'0.675

Y en el caso de que sólo incrementásemos el criterio:

Si nos interesa saber el número de veces que debemos incrementar un cierto test para lograr una

validez deseada (sin modificar el criterio), a partir de (3.18) despejaremos k1:

Y si sólo aumentásemos el criterio, procederemos igualmente respecto a (3.19):

Ejemplo 3.6.- Tengamos un test, cuyo coeficiente de validez es 0.57, su fiabilidad es 0.65, y la

fiabilidad del criterio 0.73. Supongamos que duplicamos tanto la fiabilidad del test como la del

criterio. Esto supuesto, determinar el nuevo coeficiente de validez.

SOL:

Apliquemos (3.17):

88

ρx2y

'k

1ρ

x1y

k1%k

1(k

1&1)ρ

x1x´1

'3(0.46

3%3(3&1)(0.6' 0.537

35%24 ' 60 ítemes

k1 '60

35' 1.714

ρx2y

'k

1ρ

x1y

k1%k

1(k

1&1)ρ

x1x´1

'1.714(0.54

1.714%1.714(1.714&1)(0.66' 0.583

Ejemplo 3.7.- Un test presenta una fiabilidad de 0.6 y una validez de 0.46. ¿Cuál será su validez

si aumentamos la longitud del test tres veces?.

SOL:

Se supone, por el enunciado, que le criterio no ha sido modificado. Por tanto, aplicaremos

(3.18):

Ejemplo 3.8.- Un test compuesto por 35 ítemes presenta una fiabilidad de 0.66 y una validez de

0.45. ¿Cuál será la nueva validez si incrementásemos el test en 25 ítemes más?.

SOL:

Si tenemos 35 ítemes y le añadimos 25, el total será:

Y el número de veces que habrá aumentado:

Por tanto:

Ejemplo 3.9.- Un test compuesto por 40 ítemes presenta una validez de 0.5 y una fiabilidad de

0.55. ¿Cuántos elementos habremos de añadir para conseguir una validez de 0.6?.

SOL:

Apliquemos (3.20):

89

k1'

ρ2x2y 1&ρ

x1x´1

ρ2x1y&ρ

x1x´1ρ

2x2y

'0.62 (1&0.55)

0.52&0.55(0.62' 3.115

40(3.115 ' 124.615 – 125 ítemes

125 & 40 ' 85 ítemes

Habremos de incrementarlo 3.115 veces. Si inicialmente disponíamos de 40 ítemes, deberemos

alcanzar:

Luego habremos de añadir:

3.2.4.- Validez y variabilidad

El coeficiente de validez, como coeficiente de correlación, vendrá afectado por la variabilidad de

la muestra donde se aplica, en el sentido de cuanto mayor sea ésta, mayor será el coeficiente de

validez. Ocurre lo mismo que con el coeficiente de fiabilidad, situación ya tratada anteriormente.

Aquí, por razones de simplicidad, consideraremos tan sólo el caso bivariado -un único test y un

único criterio-. Situaciones más complejas, donde se contemplan tres o más variables predictoras

pueden estudiarse en Yela (1980, págs. 190-220), Martínez Arias (1995, págs. 390-405) o Muñiz

(1994, págs. 130-137). Un tratamiento más extenso puede encontrase en Gulliksen (1950, págs.

129-172).

Es relativamente frecuente, en el caso de la validez referida al criterio, que el coeficiente de validez

se calcule con un grupo de sujetos seleccionados y no con todos aquellos a los que se les aplicó el

test. Por ejemplo, si utilizamos un determinado test para seleccionar pilotos, el coeficiente de

validez podría calcularse correlacionando las puntuaciones del test con la habilidades manifiestas

por los pilotos en la ejecución de su tarea. Está claro que no hemos seleccionado a todos los sujetos

que se presentaron a las pruebas de acceso, si no tan sólo a un grupo reducido de ellos -los mejores-

, y que por tanto, pertenecerán al rango superior de puntuaciones del test (y no a todo el rango del

test). Su variabilidad será menor, y en consecuencia, el coeficiente de validez calculado con estos

sujetos será inferior al obtenido si se calculara con todos las personas a las que se aplico el test.

Este es el problema que se conoce como restricción de rango, y que suele presentarse en estas

situaciones. La solución consistirá en intentar recomponer, asumiendo ciertos supuestos, la

situación en la que están presentes todos los sujetos a los que les fue aplicado el test.

90

. ..

.

..

...

. .. .

..

.

.

..

.

.

.

..

.

.

.

..

.

...

.

...

.

..

.

.

.

.

..

.

..

....

.

.

.

.

..

..

.

..

.

.

...

. ...

..

.

.....

..

....

.. .

....

. ...

. ... ...

. .

..

.

.. .

..

...

. ..

. .. .

.

.

.... .

.

. .....

...

. ..

.

..

...

. .. .

..

.

.

..

.

.

.

..

.

.

.

..

.

...

.

...

.

..

.

.

.

.

..

.

..

....

.

.

.

.

..

..

.

..

.

.

...

. ...

..

.

.....

..

....

.. .

....

. ...

. ... ...

. .

..

.

.. .

..

.. .

. ..

. .. .

.

.

.... .

.

. .....

...

No seleccionados Seleccionados

. .... . ....

....

.

...

.

...

.....

...

..

..

.. .

....

. ..

. ... ...

. .

..

.....

...

..

..

.. .

....

. ..

. ... ...

. .

.

. .... . ....

....

.

...

.

....

.

.

Y

Figura 3.3. Efecto de la restricción de rango sobre el coeficiente de validez

ρxy

σy

σx

' ρXY

σY

σX

(3.22)

En la figura 3.3 se observa precisamente cómo el grupo de seleccionados, al comprender un rango

de variación menor que el total de los sujetos a los que se les aplicó el test, presenta un diagrama

de dispersión más redondeado, lo que es indicativo de un coeficiente de correlación inferior.

Como de la única información que disponemos es la correlación para el grupo seleccionado,

intentaremos calcular a partir de ésta la correlación para todo el rango de variación de los sujetos.

Para ello asumiremos los siguientes supuestos: a) la pendiente es la misma, tanto para el grupo

reducido como el total de los sujetos, y b) la dispersión de lo sujetos es también equivalente. De

esta forma, para el primer supuesto, igualaremos ambas pendientes:

donde hemos utilizado letras mayúsculas para los sujetos de rango completo y letras minúsculas

para los sujetos de la muestra reducida.

Y en relación al segundo supuesto, igualaremos sus errores tipos de estimación:

91

σy

1&ρ2xy ' σ

Y1&ρ

2XY

(3.23)

σY'

ρxy

σyσ

X

ρXY

σx

(3.24)

σy

1&ρ2xy '

ρxy

σyσ

X

ρXY

σx

1&ρ2XY

ρXY

'σ

Xρ

xy

σ2Xρ

2xy% (1&ρ

2xy)σ

2x

(3.25)

σY' σ

y1%ρ

2xy

σ2X

σ2x

&1 (3.26)

Si despejamos σY de (3.22):

Y sustituimos su valor en (3.23):

Despejando ρXY:

Si deseamos conocer σY, sustituiremos esta expresión en (3.24). Haciendo operaciones

obtendremos:

Ejemplo 3.10.- Se aplicó un test de tareas administrativas a 1000 candidatos para ingresar en la

Junta de Andalucía. La varianza de estos sujetos en el test fue de 30 puntos. Se seleccionaron 25

aspirantes. Sabiendo que la varianza de la muestra elegida es de 5 puntos y que la correlación del

test con las tareas administrativas, tras un año de trabajo, es de 0.5, determinar el coeficiente de

validez para el total de los aspirantes.

92

ρXY

'σ

Xρ

xy

σ2Xρ

2xy% (1&ρ

2xy)σ

2x

'30(0.5

30(0.52% (1&0.52)(5

' 0.816

SOL:

Apliquemos (3.25):

Se observa que al trabajar con el grupo de aspirantes, la validez pasa de 0.5 a 0.816.

93

3.3.- Validez de contenido

En la validez referida al criterio se da por hecho que el criterio es el referente último. Es una

validez, digamos, prestada por el criterio. Se supone que un determinado examen se adecua a

los contenidos que los alumnos deben conocer y que en el examen de conducir se refleja el

conjunto de habilidades necesarias para manejar un vehículo correctamente. De esta forma, si

el test correlaciona con el examen, consideraremos que es válido. Pero es obvio que el

criterio, a su vez, puede carecer de validez. Ha de justificarse. Y por otro lado, como ya

hemos indicado, muchas medidas no necesitan de ningún referente externo al que aferrarse

como criterio de validez. Frecuentemente, la misma prueba es nuestro único referente, así

para validar una prueba de ortografía no necesitamos más que dicha prueba.

La validez de contenido es una validez fundamentalmente teórica. En la medida que un test

registra una parcela de nuestro comportamiento hemos de intentar garantizar que dicho test

contenga una muestra relevante y representativa (Messick, 1975) de los diversos contenidos

que integran tal parcela de nuestra conducta.

En psicología nunca tendremos la seguridad total de que una prueba contenga los verdaderos

contenidos, y en la proporción adecuada, de aquello que pretendemos medir. Las variables

psicológicas no están ahí, como una silla o una mesa, al alcance de cualquiera que pretenda

medirlas. Muy al contrario, tales variables son elaboraciones mentales que hacemos los

humanos, y en este sentido, presentan una cierta dosis de subjetividad imposible de soslayar.

Debe haber un cierto acuerdo por parte de la comunidad científica, que obviamente, nunca

será general -todos y cada uno-, que garantice la definición de los rasgos psicológicos objetos

de nuestra mediciones. No hay así, en psicología, realidad objetiva sino realidad construida

socialmente.

De esta forma, Crocker y Algina (1986, pág. 218) proponen los siguientes pasos en la

elaboración de los contenidos adecuados de un test:

1. Definir el dominio o universo de contenidos objetivo del test.

2. Seleccionar un conjunto de expertos cualificados en dicho dominio.

3. Proporcionar un marco estructurado para el proceso de emparejar ítems con el

dominio referido.

4. Recogida y resumen de los datos resultantes del proceso de emparejamiento

mencionado.

94

El primer punto es el punto relevante. Implica definir lo más exhaustivamente posible el

universo de contenidos del test, normalmente en términos de objetivos de instrucción o

categorías de conducta, así como la ponderación que se asigna a cada uno de los contenidos

de la prueba, si se entendiese que no todos los objetivos o categorías tienen la misma

importancia en el rasgo a medir.

La intención es lograr un conjunto de ítems que reflejen el dominio mencionado. Para ello se

recurre al concurso de expertos a quienes se les entregarán junto a los objetivos a medir una

serie de ítems que deberán emparejar con tales objetivos. Al final, se asegurará que el test

contiene todos los ítems necesarios y en la proporción adecuada.

Por último, se ofrece un resumen estadístico de los resultados obtenidos, tal como el

porcentaje de ítems que se emparejan a los objetivos, índice de congruencia ítem-objetivo,

correlación entre el peso dado al objetivo y el número de ítems que lo miden ... etc. Ver a este

respecto, Crocker y Algina (1986, págs. 221-222).

Para una mayor garantía en todo este proceso de elaboración de ítems, puede plantearse su

realización por duplicado (Crombach, 1971); esto es, dos equipos independientes realizan el

mismo proceso, y a continuación se establece una comparativa entre ellos para comprobar el

grado de similaridad entre los mismos.

En definitiva, la validez de contenido, es una validez fundamentalmente de carácter teórico.

Suele aplicarse en tests con un cierto grado de concrecion tales como los tests educativos.

Para cuestiones más abstractas, tales como inteligencia o personalidad, es más difícil lograr

consenso en su definición conceptual. No obstante, hay que decir que la validez de contenido

es condición necesaria para toda validez, que como veremos en las siguientes páginas, se

tomará, como referencia primera para determinar (tras procedimientos empíricos) la

estructura interna de los distintos constituyentes de un cierto campo de conducta -validez de

constructo-.

3.4.- Validez de constructo

Es frecuente en psicología, a la hora de operar con rasgos de conducta, apelar a conceptos

tales como inteligencia, ansiedad o personalidad. Y como acabamos de indicar, tales rasgos

no son fáciles de operativizar en un serie de variables observadas. Más razonable resulta

suponer que se manifiestan en una variedad de conductas concretas, y aunque quedan

expresadas en tales conductas, las conductas particulares no se identifican con los rasgos en

cuestión. De esta forma, en relación a la inteligencia, supondremos ciertas conductas

concretas

95

son indicadores de algo que podemos considerar como inteligencia. Este "algo" que se

supone subyace tras la conducta inteligente es lo que se denomina constructo, que no es más

que «una idea desarrollada para permitir la categorización y descripción de algunas

conductas directamente observables» (Crocker y Algina, 1986, págs. 230). Los constructos

son, pues, concepciones que tenemos de la realidad para una mejor comprensión de la misma,

y que no son susceptibles de ser observados directamente. En un sentido literal,

construcciones mentales que los humanos nos hacemos de la realidad.

En este sentido, «validez de constructo sería el grado en el que un test mide el constructo que

pretende medir» (Lord y Novick, pág. 278). Esta definición, como puede comprobarse, es

muy parecida a la de validez referida al criterio, con la diferencia que aquí el criterio es

precisamente el constructo (que se entiende ha sido justificado conceptual y empíricamente

como la medida correcta del rasgo en cuestión). Tiene, igualmente, cierta relación con la

validez de contenido porque, como veremos, el material base para elaborar los constructos es

precisamente el conjunto de elementos que suponemos integran un cierto rasgo psicológico,

no vaya a ser que en la configuración de los constructos "no estén todos los que son, ni sean

todos los que estén".

Nos resta, pues, explicar cómo se elabora un constructo. En principio, digamos que es una

idea de como funcionan las cosas basada en la observación del comportamiento de esas

mismas cosas. Quiere decir esto que un constructo está formado por consideraciones teóricas,

pero basadas en evidencias empíricas. En este aspecto se diferencia de la validez de

contenido, exclusivamente teórica, inspirada tan sólo en el juicio de expertos.

Podemos afirmar que los constructos son modelos explicativos referidos al rasgo o conducta

que se pretende explicar. Son elaboraciones que presentan un cierto grado de complejidad, y

que exigen, en consecuencia, el concurso de un conjunto de variables observadas, que se

toman como indicadores del constructo en cuestión. Se deduce de ello que es a partir del

material de partida suministrado por un conjunto de variables y sus interrelaciones cómo

determinamos la estructura de dicho material, de donde podrán extraerse uno o varios

constructos, y en este último caso, las relaciones funcionales entre tales constructos. Por eso

decíamos al principio, cuando definíamos los distintos tipos de validez, que la validez de

constructo añadía la forma al material que proporcionaba la validez de contenido. Y en este

aspecto se lograba una definición más completa.

De una manera más concreta, consideraremos que los pasos habituales implícitos en el

proceso en la validación de constructo son los siguientes:

96

1. Formulación del modelo, así como la especificación -hipótesis- de las

relaciones entre las variables y los constructos.

2. Elaboración de los ítems o indicadores que representen manifestaciones

específicas del constructo.

3. Recogida de datos que permitan comprobar las hipótesis establecidas.

4. Interpretación y explicación de los datos obtenidos a la luz del modelo

propuesto.

Hay que decir, que como en todo proceso en el que se va configurando algo, estos pasos

nunca son únicos y definitivos. No hay una secuencialidad rigurosa que exige partir del punto

primero y acabar en el último. Los modelos, en su depuración, frecuentemente exigen

numerosos tanteos, idas y venidas diríamos, hasta conseguir un resultado final satisfactorio.

Esto significa que si en el punto cuarto no hemos logrado recabar suficientemente el modelo,

podremos volver sobre nuestros propios pasos y reformular dicho modelo, e introducir

nuevas variables o eliminar algunas. Digamos que en el proceso de configuración de

modelos, el camino a recorrer es más bien espiral que lineal.

Tal como hemos expuesto los distintos pasos a seguir, se supone que el investigador parte de

una cierta idea preconcebida de cómo funcionan las cosas. De esta forma, este proceso lo

enmarcaríamos dentro de lo que podríamos denominar confirmación de modelos. Aquí

veremos (superficialmente) un procedimiento estadístico -análisis factorial confirmatorio- útil

para estos menesteres. No obstante, hay que decir que con cierta frecuencia el investigador

desconoce hipótesis explícitas a priori de la estructura de la información de partida, o

simplemente prefiere realizar tanteos previos antes de decidirse a establecer tales hipótesis, y

procede a comenzar con una fase exploratoria -análisis factorial exploratorio-. Igualmente,

puede ser útil recurrir a ayudas complementarias que nos aseguren la medida de un

constructo, tal como las basadas en las matrices multirrasgo-multimétodo, que nos ofrecen

ciertas garantías cuando distintos métodos en la medición de un mismo rasgo convergen, o

bien divergen cuando lo que se mide son diferentes rasgos con un mismo método. También,

cuando investigaciones experimentales o estudios correlacionales permiten afianzar nuestros

supuestos. De todas formas, hay que decir, que los modelos, como las teorías, nunca quedan

confirmadas definitivamente. La evidencia empírica, como veremos, ayuda a corroborar el

modelo, pero nunca a confirmarlo del todo.

La validez de constructo se entiende como un proceso amplio en el que se aprovechan todas

las evidencias que ayuden a comprender el significado de un determinado constructo. De esta

forma, es necesario que los contenidos represente el dominio que pretendemos -validez de

contenido-. Además, nuestro constructo quedará reforzado si correlaciona con variables

externas con las que teóricamente está ligado -validez referida a criterio- y si no correlaciona

97

con aquellas con las que no debe. Por ejemplo, una prueba de inteligencia, debe contener

ítems que a juicio de los expertos implican las distintas facetas de la inteligencia, y además,

debe correlacionar con variables tales como rendimiento académico y no debe hacerlo con

variables como personalidad o afinidad política. Igualmente, estudios diferenciales y

experimentales deben proporcionar información adicional. De esta forma, siguiendo con el

tema de la inteligencia, habrá que esperar que niños de diez años presenten puntuaciones en

el test superior a los niños de ocho años -estudio diferencial- o bien, por ejemplo, que la

ansiedad afecte al resultado del test -estudio experimental-.

En definitiva, en la validez de constructo recurre el investigador a todas las evidencias

posibles -relaciones con otras variables y constructos-. Al final resulta que la validez de

constructo es tan amplia como un modelo o teoría que hayamos elaborado de algún aspecto

de la conducta. Por esta razón, es a l-a postre, el recurso de los análisis basados en los

modelos estructurales de donde se nutren los constructos psicológicos. Aunque hay que decir

aquí también que por mucha teoría y por mucha evidencia que dispongamos nunca estaremos

seguros de que nuestro constructo es realmente el constructo que pretendemos medir. En el

siguiente gráfico, podemos comprobar cómo el constructo ξ1 correlaciona con la variable X1,

cuando en realidad el constructo que expresa dicha variable es ξ2:

Supongamos que un investigador desconoce tal relación. Si operamos en estandarizadas,

98

tenemos que:

Se observa que la correlación entre ζ1 y X1, que es una correlación espúrea, puede ser

relativamente fuerte sin ambos constructos presentan igualmente una fuerte relación. El

supuesto investigador, que ignora esta circunstancia, concluiría equivocadamente en base a la

correlación obtenida, que el valor obtenido en X1 es una medida válida del constructo ζ1.

No profundizaremos especialmente en estos procedimientos, que vienen extensamente

desarrollados en Martínez Arias (1995). Veremos sucintamente tan sólo algunos de ellos, que

serán expuestos de forma tal que proporcionen una cierta visión comprensiva de la validez de

constructo que de forma tan enmarañada suele venir expuesta en numerosos textos.

3.4.1.- Matrices multirrasgo-multimétodo

En la validación de constructo se pretende fundamentalmente corroboración empírica de los

supuestos establecidos. En este sentido, frecuentemente se recurren a diversos

procedimientos, que en el proceso mencionado anteriormente de configuración de modelos,

nos ayuden a ir aquilatando el constructo que estamos elaborando. Uno de estos

procedimientos está basado en la denominada matriz multirrasgo-multimétodo (Campbell y

Fiske, 1959) que básicamente consiste en medir varios constructos por varios métodos. Se

entiende que si los diferentes métodos son coincidentes a la hora de medir un mismo rasgo,

entonces hay ciertas garantías de la solidez del rasgo en cuestión -validez convergente-. Por

otro lado, cuando se miden diferentes rasgos por el mismo método deberá haber divergencia -

validez discriminante-.

Supongamos que deseamos estudiar dos rasgos de personalidad tales como Neuroticismo y

Extroversión en un grupo de sujetos. Para ello recurrimos a dos tests diferentes: Rorschach y

MMPI. Calculamos las distintas correlaciones entre todas las variables implicadas y

obtenemos la matriz reflejada en la tabla 3.2.

211211 xx=

99

En cursiva se presentan los diferentes coeficientes de fiabilidad ya que tales valores hacen

referencia a dos aplicaciones del mismo test. Como cabe esperar son elevados. La validez

convergente, o lo que es lo mismo, la correlación entre dos pruebas distintas del mismo rasgo,

ha sido expresada en negrilla. También aquí si el constructo es el que se pretende que sea, las

correlaciones serán altas. En subrayado se encuentran las correlaciones de distintos rasgos

medidos por el mismo test -validez discriminante-. Lógicamente no ha de haber correlaciones

o éstas serán bajas. Por último, distintos rasgos medidos por diferentes test, que vienen

expresados en letra normal, igualmente no deben correlacionar.

Obsérvese la diferencia (y semejanza) entre fiabilidad y validez convergente, tal como la

entienden Campbell y Fiske. Mientras que fiabilidad hace referencia a la medición del mismo

rasgo por métodos equivalentes, validez expresa la medición del mismo rasgo por métodos lo

más diferentes posibles. Hemos dicho también "semejanza" porque en la medida en que en la

fiabilidad no logramos medidas realmente paralelas nos estaremos aproximando a la noción

de validez. Si la intención es medir lo mismo con otros ítems, se hace difícil en estos casos

distinguir validez de fiabilidad.

De hecho, estos autores reconocen que el problema de la validez no queda resuelto con este

procedimiento. Nunca estaremos seguros de que estamos midiendo el mismo constructo. Lo

más que se puede decir es que si diferentes métodos producen resultados similares cuando se

intenta medir un mismo rasgo, tendremos entonces más confianza en la validez de nuestras

medidas que si sucediera lo contrario. Se deduce de ello que la validez convergente

proporciona la base para inferir el constructo, pero no se deduce de ella el constructo mismo.

Diríamos que es condición necesaria pero no suficiente. Al final, los constructos son

hipótesis, y como tales hipótesis -ya lo hemos comentado- contienen un plus que no queda

agotado en evidencias empíricas.

Rorschach MMPI

Extro. Neuro. Extro. Neuro.┌─────────────────────────────────┐│ │

Extro.│ 0.93 │Rorschach │ │

Neuro.│ 0.19 0.96 ││ ││ ││ │

Extro.│ 0.82 0.13 0.95 │MMPI │ │

Neuro.│ 0.21 0.77 0.18 0.97 │└─────────────────────────────────┘

100

La cuestión interesante que introduce el método basado en las matrices multirrasgos-

multimétodos es el de utilizar varios indicadores en la medición de los distintos rasgos, lo

que siempre otorga consistencia a la medida, no solamente en términos de fiabilidad sino

también de validez. Ya veremos en el próximo apartado con las técnicas de análisis factorial

exploratorio, y aún más, con los modelos estructurales, el interés de este procedimiento.

3.4.2.- Análisis factorial exploratorio

Como en el caso anterior, se intenta también aquí encontrar consistencias a través de distintas

mediciones. Disponemos de un conjunto de indicadores y queremos saber qué pautas

presentan. Dicho de otro modo, disponemos de una serie de mediciones y a través de sus

intercorrelaciones intentamos determinar las fuentes de variación común subyacente a tales

observaciones. Como consecuencia del análisis estadístico se concluye en la denominada

matriz factorial donde bajo el epígrafe de factores aparecen las distintas variables que

comparten varianza. Los factores, en la medida que indican fuentes distintas de variación, se

interpretan como las dimensiones subyacentes al conjunto de observables. En este sentido, se

ha querido ver tales dimensiones como los constructos que configuran la parcela de conducta

observada.

No pretendemos que el lector comprenda cabalmente la técnica del análisis factorial sino tan

solo que tenga una cierta comprensión de la misma a través de los ejemplos que

expondremos. Para una profundización al respecto pueden consultarse las obras de Gorsuch

(1983), Harman (1976) o Ferrando (1993).

Unos de los ejemplos más ilustrativos donde se ha aplicado el análisis factorial ha sido en la

medición de la inteligencia, como instrumento de ayuda en la conceptualización de la misma.

Supongamos a este respecto que no sabemos muy bien cuáles son las funciones que integran

la inteligencia, pero más o menos conocemos conductas en las que suponemos se manifiesta

la misma, tales como dominio del vocabulario, comprensión de conceptos, ciertas

operaciones aritméticas, manejo de figuras geométricas ... etc. Sometemos a una serie de

personas al conjunto de ítems que suponemos expresan inteligencia, y que aparecen en la

siguiente figura. Tras el análisis estadístico obtenemos la matriz factorial de orden 9*3,

donde las filas representan las variables y la columnas, las dimensiones o factores, tal como

presentamos a continuación:

101

Variable Factor I Factor II Factor III Comunalidad┌────────────────────────────────────────────────────────────────┐│ Vocabu1ario 0.85 0.02 0.12 0.737 ││ Comprensión 0.74 0.14 0.01 0.567 ││ Fluidez verbal 0.45 0.10 0.40 0.373 ││ Sinónimos 0.75 0.03 0.04 0.565 ││ Rompecabezas 0.11 0.76 0.09 0.598 ││ Semejanzas 0.15 0.54 0.03 0.315 ││ Figuras 0.01 0.67 0.21 0.531 ││ Cubos 0.13 0.71 0.10 0.531 ││ Sumas 0.35 0.29 0.86 0.750 │├────────────────────────────────────────────────────────────────┤│ Var. Explicada 2.21 1.93 0.98 ││ Prop. Var. Exp. 24.54 21.52 10.88 │└────────────────────────────────────────────────────────────────┘

En las columnas encabezadas por los factores se encuentran las correlaciones de las variables

con dicho factor. A éstos valores se les denominan saturaciones. Por ejemplo, en el primer

factor la prueba de vocabulario presenta una correlación de 0.85, lo que se interpreta como

una varianza explicada de 0.723 por parte del factor respecto a dicha variable. Se observa,

igualmente, que hay ciertas familias de variables. Así, la mencionada prueba de vocabulario

junto a la de comprensión, fluidez verbal y sinónimos están emparentadas por sus

saturaciones en el primer factor. Otro tanto sucede en el segundo factor con las pruebas de

rompecabezas, semejanzas, completar figuras y construcción de Cubos. Hay, por último, un

tercer factor, con saturaciones importantes en fluidez verbal y sumas (número de sumas). La

tabla se completa con una cuarta columna denominada comunalidad que expresa el total de la

varianza de la prueba explicada por el conjunto de los factores. Si retomamos la prueba de

vocabulario tendremos que entre todos los factores explican 0.7232+0.022+0.122=0.737; esto

es, el 41% de varianza de dicha prueba. Si sumamos igualmente los cuadrados de las fiilas

obtendremos para cada factor la varianza explicada por el mismo sobre el conjunto de prueba

aplicadas. Así, en el caso del primer factor el valor es de 2.21. Si tenemos en cuenta, al operar

con variables estandarizadas, que el total de varianza de las nueve pruebas valdrá

precisamente 9, entonces interpretaremos el valor de 2.21 como que dicho factor explica la

proporción de 2.21/9=0.2454, o lo que es lo mismo, el primer factor explica un 24.54% de la

variabilidad total de los datos. Como los demás factores explican menos podemos considerar

que el mencionado factor tiene un peso mayor en la inteligencia que los restantes.

Estos datos necesitan ser interpretados en los términos de la investigación realizada, o lo que

es lo mismo, hemos de interpretarlo en términos psicológicos. Hemos hablado de "familias"

de variables. Se trata ahora de ver el parentesco que presentan las mismas y ponerles algún

nombre que las identifique. En este caso, podemos suponer que hay un primer factor o

dimensión que por las variables que la integran podremos denominarla como factor verbal, ya

que en todas ellas el común denominador es un cierto discurso mental en el que interviene el

102

lenguaje. El segundo factor, podremos denominarlo como factor manipulativo, en

contraposición al anterior, ya que se entiende que el lenguaje no forma parte del mismo, sino

un tipo de razonamiento, digamos, de carácter manipulativo. Por último, el número de

palabras que puedan expresarse en un cierto tiempo, o bien el número de sumas capaz de

realizarse, lo denominaremos como factor de rapidez.

Al objeto de simplificar el modelo, podemos considerar que aquellas saturaciones con

valores iguales o inferiores a 0.35 son irrelevantes. Transformando en cero tales valores,

obtendremos la siguiente matriz factorial:

Como consecuencia de ello obtendremos el siguiente modelo, que exponemos gráficamente:

Variable Factor I Factor II Factor III┌─────────────────────────────────────────────────┐│ Vocabulario 0.85 0.00 0.00 ││ Comprensión 0.74 0.00 0.00 ││ Fluidez verbal 0.45 0.00 0.40 ││ Sinónimos 0.75 0.00 0.00 ││ Rompecabezas 0.00 0.76 0.00 ││ Semejanzas 0.00 0.54 0.00 ││ Figuras 0.00 0.67 0.00 ││ Cubos 0.00 0.71 0.00 ││ Sumas 0.00 0.00 0.86 │

103

Podríamos sentirnos tentados a considerar que con este modelo hemos logrado determinar la

estructura de la inteligencia. En este sentido, se ha llegado a afirmar que el procedimiento

factorial proporciona validez factorial, lo cual no es correcto. Habría que hablar, más bien, de

composición factorial de las medidas, tal como sugiere Nunnally (1978, pág. 127), ya que el

análisis factorial por sí mismo no valida nada -no–es más que una transformación

matemática-, y en este sentido, tan sólo estructura un determinado material. Ofrece una salida

con un cierto grado de consistencia, pero que obviamente depende del material que hayamos

suministrado de entrada -validez de contenido-. Posiblemente, si hubiéramos introducido

otros ítems (por ejemplo alguna prueba de atención) o bien, si en lugar de utilizar una matriz

de transformación ortogonal que proporciona factores incorrelados, hubiéramos recurrido a

una matriz de transformación oblicua, lo factores serían distintos y correlacionados. Se

deduce, pues, que el análisis factorial es un instrumento puramente mecánico, que permite

según ciertas restricciones estructurar un determinado material, y que tiene un interés

puramente orientativo como veremos más adelante, cuando expongamos la lógica de los

modelos estructurales.

Igual que en el caso de la matriz multirrasgo-multimétodo, el rasgo común medido es lo que

se entiende por constructo. Aquí el constructo es la consecuencia de un cierto tanteo

matemático -contexto exploratorio- que desemboca en la matriz factorial citada, mientras que

en caso de la denominada validez convergente explícitamente hemos medido lo que

suponemos que es el mismo rasgo, por diferentes métodos. Del parecido en las correlaciones

deducimos lo acertado de nuestros propósitos y concluimos que hay algo común, que es

nuestro rasgo objeto de estudio. Es una deducción que establecemos a partir de la matriz de

correlaciones, un tanto a ojo de buen cubero, mientras que en el caso factorial hay un aparato

matemático que registra y nos ofrece las pautas comunes subyacentes. Se observa, pues, que

ambas técnicas son más complentarias que excluyentes, aunque hay que decir que el

procedimiento factorial, menos exigente, y como fase previa, de carácter exploratorio

cuando no se conoce muy bien la naturaleza de las cosas, es más frecuentemente utilizado.

Hay que hacer también aquí algunas observaciones a la validez factorial, no solamente a lo

discutible del término, tal como hemos apuntado, sino incluso al concepto de composición

factorial en el sentido de si la estructura obtenida permite discriminar rasgos o constructos

distintos o tan sólo que pueda haber una apariencia falaz de una estructura en la naturaleza de

lo medido que no es más que un artificio, resultado de mediciones distintas (que no de

mediciones que miden distintas cosas). Tal como sugieren Carmines y Zeller (1979, pág. 65-

70) en un interesante ejemplo, donde se estudia la composición factorial de la autoestima, y

donde supuestamente ítems que miden lo mismo pero planteados de diferente forma ofrecen

(equivocadamente) dimensiones distintas en un análisis factorial, debido a que el formato de

presentación fue precisamente el que marcó la pauta diferenciadora en las puntuaciones.

104

El análisis factorial aplicado a la validez ofrece este elemento de confusión. Paradójicamente

esta técnica es más útil para la fiabilidad donde sólo nos cuestionamos la consistencia de las

medidas sin más supuestos, que para la validez. Aquí hay que considerarla fundamentalmente

como un instrumento que permite ir aquilatando y configurando un constructo, junto a otras

evidencias empíricas, más que como exponente de la teoría explicativa de la validez de

constructo. La teoría exige de evidencias empíricas, pero tales evidencias no garantiza la

teoría. Al final hay una cierta circularidad en los planteamientos

3.4.3.- Modelos estructurales como validez de constructo

El análisis factorial exploratorio es útil en las primeras fases como tanteo que ayuda a tener

una idea de la posible estructura de un determinado material. Esta fase tiene un interés

fundamentalmente orientativo y se caracteriza por carecer de hipótesis previas, claramente

definidas, de cómo funcionan las cosas. Justo lo contrario del planteamiento de los modelos

estructurales como procedimiento para determinar la validez de constructo. Aquí, el

investigador, en base a sus conocimientos teóricos del tema, y virtualmente ayudado por

técnicas tales como el análisis factorial comentado, propone el modelo explicativo del

fenómeno a estudiar. Así, en el ejemplo que estamos tratando, supone que el tercer factor no

tiene una interpretación clara y subsume todos los ítems en dos constructos. Además,

considera, que en cuanto inteligencia los factores verbal y manipulativo no son

independientes. Así, establece el siguiente modelo:

Figura 3.2. Modelo de Análisis Factorial Confirmatorio

105

Por otro lado, puede ocurrir que su objetivo no se limite a estudiar la inteligencia per se, sino

que tenga interés en integrarla en modelos más complejos donde se alcance mayor riqueza

explicativa. De esta manera, puede crear un marco más amplio donde tenga cabida

constructos tales como Nivel social y Rendimiento escolar. A este respecto puede tomar

como indicadores del Nivel social las siguientes variables: a) Ingresos, b) Estudios y c)

Ocupación. Y como indicadores del Rendimiento escolar: a) Examen, b) Evaluación del

profesor y c) Autoevaluación. Supongamos, igualmente, que por razones de simplicidad

disponemos de dos indicadores de Inteligencia. De esta manera hemos agrupado en una única

prueba todos los ítems que integran el constructo que hemos denominado Inteligencia verbal.

Y lo mismo con los ítems que integran la Inteligencia verbal. Así, elaboraremos el siguiente

modelo ampliado con carácter explicativo del Rendimiento en función de la Inteligencia y el

Nivel social:

Figura 3.3. Modelo estructural aplicado a la validez de constructo

Como puede comprobarse, en este modelo se contemplan tres constructos o variables

latentes. Hay dos constructos ξ1 (Inteligencia) y ξ2 (Nivel social), que consideraremos como

variables exógenas, y un constructo η1 (Rendimiento) que hace aquí el papel de variable

endógena. La ecuación estructural que las liga es:

++= 12121111

106

En términos matriciales:

1

2

1

12111 +=

η = Γ ξ + ζ

Por otro lado, en lo que respecta al modelo de medida tenemos para los indicadores del

Rendimiento:

En notación matricial:

y = Λy η + ε

donde y1, y2 e y3 hace referencia a las variables Examen, Evaluación del profesor y

Autoevaluación.

Y en relación a los indicadores de Inteligencia y Nivel social:

En notación matricial:

31313

21212

11111

+=y

+=y

+=y

3

2

1

1

31

21

11

3

2

1

+=

y

y

y

52525

42424

32323

21212

11111

+=x

+=x

+=x

+=x

+=x

107

x = Λx ξ + δ

donde x1 y x2 hacen referencia a los factores verbal y manipulativo de la inteligencia, y x3, x4

y x5 expresan respectivamente las variables Ingresos, Estudios y Ocupación como

indicadores del constructo Nivel social.

Una vez definido el modelo, mediante el diagrama causal y las ecuaciones que lo integran, se

procede a determinar la validez -validez de constructo- del mismo, que consiste, como se

sabe, en comprobar la viabilidad del modelo especificado. Dicho en otros términos, el modelo

se considera válido si los datos son coherentes (merced a una determinada prueba estadística)

con la estructura especificada. De dicha coherencia no se deduce que hayamos definido el

modelo correcto, sino tan solo un modelo, de los (probablemente) muchos posibles, tal que la

matriz de varianzas-covarianzas reproducida por el modelo no discrepe significativamente de

la matriz de varianzas-covarianzas elaborada a partir de los datos reales. Se trata de aceptar la

hipótesis nula, que como es bien conocido, conlleva un riesgo desconocido β de equivocarse.Este es el problema de siempre cuando queremos asegurarnos de la validez de nuestras

concepciones de la realidad. Elaboramos una teoría que exige de evidencias empíricas, pero a

su vez, tales evidencias no garantiza la teoría formulada. Al final hay una cierta circularidad

en el proceso que impide tomar una conclusión definitiva, aunque existe la esperanza de que

el esfuerzo no haya sido en vano y haya una cierta progresión hacia la verdad de nuestros

planteamientos.

No nos extenderemos en estos aspectos, que serían demasiado prolijo desarrollar, y que en

parte se supone conoce el lector. Nos hemos limitado a hacer una breve exposición, -al hilo

del modelo que nos concierne- de la lógica de los modelos estructurales. Para una mayor

profundización al respecto recomendamos la excelente obra de Bollen (1989).

5

4

3

2

1

2

1

52

42

32

21

11

5

4

3

2

1

+

0

0

0

0

0

=

x

x

x

x

x

108

3.5.- Tratamiento informatizado de la validez

Aquí, como en el caso de la fiabilidad, ofreceremos algunos de los recursos informáticos

proporcionados por el paquete estadístico SPSS. Hay que decir que para el tratamiento de la

validez no existe ningún programa específico, sino que se utilizan aquellos de propósito

general que puedan ser aplicados para cada caso en concreto. De esta forma, para la validez

referida al criterio se recurre al comando REGRESSION, y para la validez de constructo, bien

el análisis factorial -comando FACTOR- o bien, para los modelos estructurales, el comando

LISREL, que actualmente se encuentra implementado en el SPSS, aunque hablando con

propiedad no pertenece al mismo.

En estas páginas nos limitaremos a exponer la aplicación estadística basada en la regresión

múltiple correspondiente al ejemplo 3.1 y que da cuenta de la validez referida al criterio. Para

la validez de constructo no hemos considerado oportuno recurrir a ninguna aplicación por

cuanto se exige un cierto conocimiento en técnicas multivariantes que no hemos tratado por

el momento, y el objetivo teórico, expuesto más arriba, era tan sólo ofrecer al lector una

cierta comprensión de tema.

En relación al ejemplo 3.1, si indicamos las instrucciones siguientes:

obtendremos los siguientes resultado:

REGRESSION/VARIABLES = ALL/DEPENDENT = INGLES/METHOD ENTER MEMORIA FLUIDEZ .

109

El coeficiente de correlación múltiple es precisamente el coeficiente de validez. El análisis de la

varianza nos indica si la variable predictora explica suficientemente (en términos estadísticos) de la

variable criterio. Como puede observarse, la significación de la F de Snedecor es próxima a 0.01, lo

que es demostrativo que el modelo de regresión utilizado aquí se considera válido. Por último se nos

ofrece información sobre la ecuación de regresión. Se presentan los coeficientes de regresión en

directas y estandarizadas, así como la significación estadística de tales coeficientes. Por ejemplo, la

ecuación de regresión en directas será:

Equation Number 1 Dependent Variable.. INGLES

Block Number 1. Method: Enter FLUIDEZ MEMORIA

Variable(s) Entered on Step Number1.. MEMORIA2.. FLUIDEZ

Multiple R ,84798R Square ,71908Adjusted R Square ,63881Standard Error 1,06193

Analysis of VarianceDF Sum of Squares Mean Square

Regression 2 20,20609 10,10304Residual 7 7,89391 1,12770

F = 8,95897 Signif F = ,0118

------------------ Variables in the Equation ------------------Variable B SE B Beta T Sig TFLUIDEZ ,433623 ,277463 ,347053 1,563 ,1621MEMORIA ,563162 ,195924 ,638313 2,874 ,0238(Constant) -,849660 1,623071 -,523 ,6168

X0.43362+X0.56316+0.84966-=Y 21ˆ

110

APENDICE

1.5.- Efecto del error sobre la variable independiente

Cuando las variables son medidas sin error, el estimador de resulta insesgado y su valor es (en

diferenciales): = ∑∑(a.1)

Supongamos ahora que medimos la variable independiente con un cierto error, de forma tal que∗ = + . El nuevo estimador valdrá:

∗ = ∑( + )∑( + ) = ∑∑ + ∑(a.2)

Ya que suponemos que el error de medida no correlaciona ni con la variable Y ni con la X.

Despejando ∑ de (a.1) y sustituyendo su valor en (a.2):

∗ = ∑∑ +∑ = ∑∑ + ∑ = ∑∑ + ∑ = ´(a.3)

Donde ´ definido, como veremos más adelante, como el coeficiente de fiabilidad de la variable X,

que expresa la proporción de variación explicada de la puntuación verdadera de la total.

Y en términos de sus esperanzas matemáticas:

( ∗) = ( ) ( ´) = ´(a.4)

Ya que b y ´ son independientes.

111

2.1.3.- Coeficiente Alpha

Consideremos en primer lugar la varianza total del test como la varianza de la suma de los elementos

del mismo. Como se sabe, la varianza de una suma de variables es igual a la suma de sus varianzas

más sus covarianzas:

= ( + +⋯+ ) = +Igualmente, se sabe que la correlación entre dos variables equivale a a covarianza entre ellas partido

por el producto de sus respectivas desviaciones tipo:

=Luego:

=Por otro lado, si partimos del supuesto que todos los ítems son paralelos, sus varianzas serán iguales:

=Y lo mismo las correlaciones entre ellos:

= ( − 1)Así pues:

= + ( − 1) = +( − 1) = +( − 1)

112

Despejando :

= − ∑( − 1)∑(a.5)

Valor que expresa la correlación entre dos ítems cualesquiera del test. Es la fiabilidad, por así

decirlo, de un test de longitud unidad. Para un test k veces mayor, que es precisamente el test

completo:

= 1 + ( − 1)Sustituyendo por su valor:

= 1 + ( − 1) = − ∑( − 1)∑1 + ( − 1) − ∑( − 1)∑(a.6)

En relación al denominador:

1 + ( − 1) − ∑( − 1)∑ = 1 + −∑∑ = 1 + ∑ + ∑∑ =1 + ∑ − 1 = ∑

Sustituyendo en (a.6):

= − ∑( − 1)∑∑ = − 1 − ∑ = − 1 1 − ∑

113

2.17.-Fiabilidad de un test compuesto

El coeficiente de fiabilidad para una variable suma de otras dos será:

= = ( + +⋯+ )( + +⋯+ )En relación al numerador, como se sabe, la varianza de una suma equivale a la suma de sus varianzas

más la suma de sus covarianzas:

= ( + +⋯+ ) = +Por otro lado, la covarianza entre puntuaciones verdaderas equivale a la covarianza entre las

varianzas empíricas correspondientes:

, = ( − ), ( − ) = , + , + , + ,= ,Ya que se entiende que los errores de medida no correlacionan con las mediciones de otras variables

ni con otros errores. Así:

= ( + +⋯+ ) = +(a.7)

En relación a las puntuaciones empíricas:

= ( + +⋯+ ) = +

114

De donde:

= −Sustituyendo en (a.7):

= + = + −(a.8)

En relación a las varianzas de las puntuaciones verdaderas:

=Por tanto: =Sustituyendo en (a.8):

= = ∑ + − ∑ = 1 − ∑ − ∑

115

REFERENCIAS BIBLIOGRAFICAS

Arce, C. (1994) Técnicas de construcción de escalas psicológicas. Madrid, Síntesis.

Batista, J.M. y Coenders, G (2000) Modelos de ecuaciones estructurales. Madrid, La Muralla.

Bollen, K. A. (1989): Structural equations with latent variables. New York: John Wiley.

Campbell, D. T. & Fiske, D. W. (1959): Convergent and discriminant validation by multitrait-multimethod matrix. Psychologicl Bulletin, 56, 81-105.

Carmines, E. G. & Zeller, R. A. (1979): Reliability and validity assessment. Beverly Hills, CA: SagePublications.

Crocker, L. & Algina, J. (1986): Introduction to classical and modern test theory. New York: Holt,Rinehart & Winston.

Crombach, L. J. (1951): Coefficient alpha and the internal structure of tests. Psychometrica, 16, 297-334.

Crombach, L. J. (1971): Test validation. En R. L, Thorndike (Ed.). Educational Measurement. 2- Ed.Washington, D. C: American Council on Education.

Domenech, J. M. (1985): Métodos estadísticos: modelo lineal de regresión. Barcelona: Herder

Freedman y otros (1993): Estadística. 2- Ed. Barcelona: Antoni Bosch.

Ferrando, P. J. (1993): Introducción al análisis factorial. Barcelona: PPU.

Gorsuch, R. L. (1983): Factor analysis. Hillsdale, NJ: Lawrence Erlbaum.

Gulliksen, H. (1950): Theory of Mental Tests. New York: John Wiley

Harman, H. H. (1976): Modern Factor Analysis. Chicago: University of Chicago Press. (Trad.castellana en Ed. Saltes).

Jenks, C, y et al. (1979): Who gets ahead?. New York: Basic Books.

Kuder, G. F. & Richardson, M. W. (1937): The theory of estimation of test reliability.Psychometrika, 2, 151-160

Lord, F. M. & Novick, M. R. (1968): Statistical theories of mental test score. Reading, MA: AddisonWesley.

Magnuson, D, (1969): Teoría de los tests. México: Trillas.

Martínez Arias, R. (1995): Psicometría: Teoría de los tests psicológicos y educativos. Madrid:Síntesis.

Messick, S. (1975): The standar problem: Meaning and values in measurement and evaluation.American Psychologist, 29, 955-966.

Muñiz, J. (1991) Introducción a los métodos psicofísicos. Barcelona:PPU.

Muñiz, J. (coord.) (1996) Psicometría . Madrid: Universitas.

Muñiz, J. (1994): Teoría clásica de los tests. Madrid: Pirámide

Nunnally, J. C. (1987): Teoría psicométrica. México: Trillas.

116

Nunnally, J. C. & Bernstein, I. J (1995): Teoría psicométrica. 3- Ed. México: McGrawhill.

Pedhazur, E. J. (1982): Múltiple regression in behavioral research. (2- Ed.). New York: Holt,Rinehart and Winston.

Peña, D. (1986): Estadística: Modelos y métodos. Vol. II. Madrid: Alianza.

Santisteban, C. (1990): Psicometría. Teoría y práctica en la construcción de tests. Madrid: Norma.

Thurstone, L.L. (1929) Theory of attitude measuremen. Psychological Review,36 , 222-241.

Yela, M. (1980): Introducción a la teoría de los tests. Madrid: Facultad de Psicología. UniversidadComplutense.

psicometrÍa - personal.us.espersonal.us.es/vararey/psicometria.pdf · 6 comprensivas del fenómeno...

Documents