psicometrÍa - personal.us.espersonal.us.es/vararey/psicometria.pdf · 6 comprensivas del fenómeno...
TRANSCRIPT
1
PSICOMETRÍA:
TEORÍA CLÁSICA DE LOS TESTS
Carlos Camacho Martínez Vara de Rey
Universidad de Sevilla
3
INDICE
Capítulo 1.- Teoría Clásica de los Tests
1.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.- Fiabilidad y validez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.- Tipos de errores de medida y sus consecuencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.- Fundamentos de la teoría clásica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5.- Definición de coeficiente de fiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6.- Teoría clásica de los tests y modelos estructurales . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6.1.- Modelo de medida en puntuaciones estandarizadas . . . . . . . . . . . . . . . . . . . . . . 17
Capítulo 2.- Fiabilidad
2.1.- Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.- Procedimientos basados en dos aplicaciones del test . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.1.- El método del test-retest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2.2.- El método de las formas paralelas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.- Procedimientos basados en una única aplicación del test . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.1.- Método de las dos mitades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.2.- Fórmula de Rulon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.3.3.- Fórmula de Flanagan y Guttman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3.4.- El coeficiente Alpha . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.4.1.- Coeficiente Alpha con elementos dicotómicos . . . . . . . . . . . . . . . . . . . . . 36
2.4.- Fiabilidad de un test compuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.5.- Fiabilidad desde la perspectiva del análisis de la varianza . . . . . . . . . . . . . . . . . . . . . . 43
2.6.- Estimación de las puntuaciones verdaderas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.7.- Factores que afectan al coeficiente de fiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.7.1.- Fiabilidad y variabilidad de la muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.7.2.- Fiabilidad y longitud del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4
2.7.2.1.- Cálculo de la longitud de un test para lograr una fiabilidad
prefijada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.7.2.2.- Reducción de la longitud del test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
2.7.3.- Fiabilidad y limitación del tiempo de aplicación del test . . . . . . . . . . . . . . . . . . . 61
2.7.4.- Fiabilidad y características del ítem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
2.8.- Valoración de los distintos coeficientes de fiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2.9.- Tratamiento informatizado de la fiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.9.1.- Método de las dos mitades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.9.2.- Coeficiente Alpha y análisis de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.9.3.- Coeficiente Alpha con elementos dicotómicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
Capítulo 3.- Validez
3.1.- Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.2.- Validez referida al criterio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
3.2.1.- Predicción del criterio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
3.2.2.- Validez y fiabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
3.2.3.- Validez y longitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
3.2.4.- Validez y variabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.3.- Validez de contenido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.4.- Validez de constructo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
3.4.1.- Matrices multirrasgo-multimétodo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
3.4.2.- Análisis factorial exploratorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
3.4.3.- Modelos estructurales como validez de constructo . . . . . . . . . . . . . . . . . . . . . . 104
3.5.- Tratamiento informatizado de la validez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
APENDICE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
REFERENCIAS BIBLIOGRAFICAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5
1.- TEORIA CLASICA DE LOS TESTS
1.1. Introducción
Frecuentemente preocupa al investigador en ciencias humanas encontrar nuevas pruebas y más
sofisticadas que permitan analizar la complejidad de los datos de observación. Nada que objetar
a este legítimo interés, pero hay que decir que no siempre se tiene el mismo cuidado en cuestiones
tan básicas como el procedimiento de recogida de los datos (muestreo) y la forma de medirlo
(validez y fiabilidad). Ambos aspectos, fundamentales (y relacionados) a la hora de establecer
conclusiones pertinentes.
Aquí, en las próximas páginas trataremos esta última cuestión: el problema de la medida, y en
particular, el problema de la medida en psicología. Desarrollaremos en una primera instancia el
modelo lineal clásico en la teoría de los tests, igualmente denominado, Teoría Clásica de los
Tests o bien TCT, por ser, digamos, la teoría original y vigente durante un cierto tiempo. Hoy día
se ha visto superada por otros planteamientos tales como los debidos a la Teoría de la
Generalizabilidad o bien, a la Teoría de Respuesta al Item, de supuestos más restrictivos, y que
serán tratados más adelante. No obstante, hay que decir que a efectos prácticos, la TCT ofrece
buenos resultados y es ampliamente utilizada actualmente, lo que justifica su inclusión en estas
páginas.
Comenzaremos, ofreciendo una primera aproximación a los conceptos de fiabilidad y validez,
conceptos que serán desarrollados cuando se trate in extenso estos aspectos. Expondremos a
continuación los diferentes tipos de errores de medición que pueden dar lugar en cualquier
investigación psicológica, para analizar a renglón seguido sus consecuencias a la hora de extraer
conclusiones. Destacaremos, con ello, la importancia de una correcta medición en los fenómenos
humanos. Por último, y esta es la parte nuclear de este trabajo, ofreceremos los recursos
necesarios para lograr una aceptable medición con nuestras variables objetos de estudio.
Hemos de decir que aunque el lector encontrará en las próximas páginas una cabal exposición
de los conceptos básicos de la TCT, no obstante, en la medida de lo posible, recurriremos a
nutrirnos de los planteamientos de la Regresión Múltiple y Modelos Estructurales. Creemos que
con ello, sin menoscabo de rigor expositivo, lograremos formulaciones más simples y
6
comprensivas del fenómeno de la medición en psicología.
1.2.- Fiabilidad y validez
Toda medida ha de ser válida y fiable; esto es, ha de medir aquello que nos proponemos (validez)
y además ha de medirlo con precisión (fiabilidad). Son éstas definiciones muy generales, pero que
nos sirven, por el momento, para nuestros propósitos inmediatos.
La fiabilidad, en cuanto precisión, es un concepto que no puede ser conocido en términos
absolutos, si entendemos por precisión el grado de correspondencia entre la medida empírica
realizada y la magnitud real de aquello que estamos midiendo. Es obvio que la única información
de la que disponemos en cualquier medida es precisamente esa medida, y por tanto, desconocemos
la verdadera magnitud de lo medido. Es por ello que se recurre a otro concepto de fiabilidad que
nos permita de forma indirecta saber si estamos midiendo con cierta precisión. Esta hace
referencia a la estabilidad o constancia en las medidas. Aquí el término "fiabilidad" corresponde
a su autentico significado; es fiable aquello que se mantiene constante en situaciones semejantes.
Como de las personas que nos podemos fiar (hasta que se meten en política). Un test, por ejemplo,
es fiable si cada vez que aplica a los mismos sujetos proporciona los mismos resultados. Y es a
partir de la constancia como inferimos la precisión del instrumento, que es el concepto que
realmente nos interesa; cuanto más constante, más preciso, ya que suponemos que la puntuación
verdadera estará dentro del rango de la variabilidad observada, y en consecuencia, cuanto menor
variabilidad más estrecho será el campo donde se encuentre la puntuación verdadera, y
deduciremos que estamos midiendo con mayor precisión.
El concepto de validez es algo más complejo, aunque no lo parezca en esta primera aproximación
que hemos ofrecido. Parece una obviedad sin más complicaciones afirmar como hemos hecho que
"una medida es válida si mide aquello que pretendemos". Según esta definición, un metro es
válido para medir longitudes y una balanza lo es para medir pesos. Y no parece necesario en este
contexto replantearse la validez del metro o de la balanza, ya que las magnitudes físicas están ahí,
al alcance de la mano. Pero en psicología las cosas cambian sustancialmente. ¿Dónde está aquello
que pretendemos medir?. ¿Realmente, tal test mide la inteligencia?. ¿No medirá razonamiento o
fluidez verbal?. ¿Y cuando mido ansiedad, estoy seguro de que no estaré midiendo depresión?.
En psicología la cuestión es que las variables más que darse en la naturaleza (peso, longitud,
densidad) son variables creadas por nosotros mismos. Se trata de conceptos -constructos- de
nuestra propia elaboración. En estas circunstancias, convendremos que en este terreno ya es más
difícil saber cuando medimos, qué es exactamente lo que estamos midiendo. En una primera
aproximación (ya diremos más adelante cómo) consideraremos la validez como la
correspondencia entre lo medido y el concepto de referencia o constructo. Es evidente que la
obtención de la validez obedece más a consideraciones teóricas que empíricas. En la fiabilidad
7
Figura 1.1.- Modelo estructural aplicado a la medida
no nos preguntamos qué estamos midiendo sino con cuanta precisión, y este grado de precisión
es fácil de determinar (indirectamente) por la constancia de los resultados. Hay un aspecto
cuantitativo, empírico al cual aferrarse como criterio de fiabilidad. Por el contrario, en la validez,
el "qué" otorga a la cuestión una dimensión cualitativa, dependiendo de nuestra especial
consideración sobre los que son las cosas.
Aunque los conceptos de validez y fiabilidad son diferentes, existe una cierta implicación mutua
que comentaremos seguidamente. Una buena fiabilidad no implica necesariamente una buena
validez, pero una mala fiabilidad sí implica una deficiente validez. Por el contrario una buena
validez, necesariamente exige una fiabilidad previa igualmente buena. Lo comentaremos
brevemente, y nos serviremos, además, de un gráfico que facilite su comprensión.
Vayámonos a un caso extremo. Supongamos que medimos la inteligencia de las personas en base
a la longitud de cierta línea de la mano izquierda. Está claro que aunque midamos con gran rigor
dicha línea -alta fiabilidad- de poco nos servirá (para despecho de los quirománticos) como
indicativo de la inteligencia de los sujetos. De hecho, si tomáramos como criterio de inteligencia
algún test reconocido, tal como el Weschler, poca relación habría con el mismo. Se observa, pues,
que una alta fiabilidad no obliga a nada a la validez. Por el contrario, una mala fiabilidad sí
conlleva una deficiente validez. Si medimos la inteligencia de un sujeto con un cierto test en el
que un día se le indica que es un genio y al siguiente que es un subnormal, de poco nos servirá
para conocer la inteligencia de dicho individuo (suponemos que no le ha pasado nada grave de
un día para otro). Por último, una alta validez subsume una alta fiabilidad. Si el test que estamos
mencionando predice de forma rigurosa la inteligencia es porque hay precisión también en la
medida, si no no habría ningún tipo de rigor. Veámoslo de forma gráfica recurriendo a diagramas
de caminos o diagrama path.
8
Supongamos que X es la puntuación empírica, τ, la puntuación verdadera, y ξ el constructo que
se entiende es fiel reflejo de lo que pretendemos medir. Hemos puesto las flecha en la dirección
que se propone en los modelo estructurales, aunque es un aspecto susceptible de ser discutido;
suponemos que la puntuación empírica deriva de la verdadera, que a su vez depende del
constructo. Es evidente, que una fuerte ligazón entre X y τ (buena fiabilidad) no afecta a la ligazón
ente τ y ξ, pero si ξ y X están ligados (buena validez) necesariamente lo serán los pasos
intermedios. Por último, una ausencia de relación entre X y τ (mala fiabilidad) anula la relación
entre X y ξ.
1.3.- Tipos de errores de medida y sus consecuencias
Como hemos indicado al comienzo de este capítulo, no siempre se es lo suficientemente
cuidadoso en la medición de las variables. Como veremos, esta fase, previa a todo análisis
estadístico, condiciona de manera importante los resultados de toda investigación. De no
realizarse adecuadamente quedarán desvirtuadas de manera significativa las conclusiones
obtenidas. En estas circunstancias, ¿qué valor tendrán nuestras decisiones?.
En este apartado examinaremos los diferentes tipos de errores posibles y sus consecuencias. En
aras de una cierta simplicidad nos ceñiremos a investigaciones donde se estudia la relación entre
dos variables cuantitativas. Entendemos que como botón de muestra puede resultar
suficientemente ilustrativo. Para ver sus implicaciones en situaciones más complejas, tales como
la regresión múltiple o aquellas que derivan de ecuaciones estructurales, donde intervienen
múltiples ecuaciones, puede consultarse Bollen (1989, págs. 151-176).
El término error de medida comprende errores de muy diferente naturaleza. Aquí, distinguiremos,
de acuerdo con Jenck y colaboradores (1979, págs.. 34-36), tres tipos de errores fundamentales:
a) conceptuales, b) sistemáticos y c) aleatorios.
Los errores conceptuales son consecuencia no tanto de medir mal una determinada variable como
medir equivocadamente otra en su lugar. Se trata de un problema relativamente frecuente en
psicología donde no suele estar muy claro qué es lo que estamos midiendo. Ocurre, por ejemplo,
cuando utilizamos una prueba de razonamiento o de vocabulario como expresión de la
inteligencia, o bien cuando tomamos los ingresos como indicativo del nivel social. Son errores,
diríamos cualitativos, y quedarían enmarcados dentro del tema de la validez, que estudiaremos
más adelante.
9
Los errores sistemáticos son aquellos que siempre se producen en una misma dirección. Por
ejemplo, un cierto instrumento puede medir siempre de más, o bien, todos los individuos de un
grupo han realizado un cierto test con diez minutos menos del tiempo especificado en el manual,
o bien, un encuestador induce sistemáticamente a una determinada respuesta. Todas estas
situaciones darán lugar a respuestas sesgadas que repercutirán en los estimadores obtenidos. Es
obvio que la estadística como tal poco tiene que hacer con este tipo de errores, donde sólo cabe
ser cuidadoso en la planificación y desarrollo de toda investigación.
Por último, los errores aleatorios son consecuencia de los múltiples factores que inciden en toda
medición y que introducen en la misma una cierta variabilidad. A diferencia de los errores
sistemáticos, los errores aleatorios no guardan relación alguna con las variables objetos de nuestro
estudio; se suponen que unas veces actúan en un sentido y otras en otro, de forma tal que quedan
compensados entre ellos y a la larga su suma valdrá cero. Posiblemente un determinado sujeto
tenga la misma inteligencia hoy que mañana, pero si le aplicásemos el mismo test en ambos días,
presumiblemente obtenga puntuaciones diferentes. Variables tales como estado de ánimo,
cansancio, grado de adivinación, errores de codificación ..etc, puedan afectar a los resultados de
la prueba aplicada. Tales errores hacen referencia a la precisión de las medidas y entran dentro del
terreno de la fiabilidad, que será tratado más adelante.
Los errores conceptuales y los errores sistemáticos son consecuencia fundamentalmente de un
diseño defectuoso. En el caso de los conceptuales, planteamientos teóricos más rigurosos en torno
a la naturaleza de las variables es lo que se hace exigible, mientras que en los sistemáticos, se hace
necesario un mayor control sobre aquellas variables extrañas que inciden en la investigación, en
el sentido de mantener su constancia en todo momento.
Los errores aleatorios, aunque pueden reducirse con una mejora en el diseño, nunca pueden ser
eliminados por completo. Los errores de medida son inherentes a la misma medición. Nunca serán
controlados en su totalidad, por lo que la estadística ha de hacerse cargo de ellos. Su naturaleza
de "aleatorios" con sus supuestos de media cero e incorrelación los hace idóneos para ser tratados
estadísticamente y conocer su cuantía, cuestión que no es posible con los otros tipos de errores.
En lo que sigue, y situándonos dentro del contexto de la regresión bivariada, comprobaremos de
qué forma afecta el error de medición sobre el modelo de regresión planteado. Veremos en primer
lugar qué ocurre cuando es la variable dependiente la medida con error, para tratar a continuación
las consecuencia de una mala medida sobre la variable independiente.
Supongamos entonces que disponemos del siguiente modelo estimado:
10
Y ' a % bX % e (1.1)
Y ( ' Y % u (1.2)
Y ( ' Y % u ' a % bX % (e % u) (1.3)
X ( ' X % u (1.4)
E(b) ' βρxx ) (1.5)
donde la variable Y ha sido medida con un cierto error u. Esto es, en lugar de Y hemos obtenido
Y*:
Entonces, el nuevo modelo estimado será:
Se comprueba que la parte sistemática del modelo sigue siendo equivalente (se mantienen los
mismos coeficientes de regresión), pero ha aumentado su componente de error. Como
consecuencia de ello, la varianza residual será mayor, lo que implica una disminución en el valor
de R2 del modelo, al mismo tiempo que los estimadores, aunque insesgados, serán menos
eficientes, ya que dicha varianza residual afecta a la varianza de tales estimadores.
Cuando el error de medida afecta a la variable independiente, la situación es algo más compleja.
Supongamos, en este caso, como anteriormente, que en vez de X hemos obtenido X*:
En este caso, la modificación en los valores de X, además de la pérdida consiguiente en R2,
afectará a la misma estructura de la ecuación de regresión; esto es, los estimadores resultarán
sesgados. De hecho, se demuestra (ver apéndice):
Lo que expresa que la esperanza matemática de b no se corresponde con el parámetro ß, como
debería suponerse si resultase insesgado, sino que queda afectada por el coeficiente de fiabilidad
ρxx' de la variable X (valor que definiremos en la próximas páginas).
11
X ' V % e (1.6)
1.4.- Fundamentos de la teoría clásica de los tests
Como se acaba de indicar, los errores de medida originan graves distorsiones en la misma
naturaleza de la relación entre las variables implicadas en las investigaciones objeto de estudio.
Tales errores pueden minimizarse hasta un cierto grado, pero nunca eliminarse. La balanza más
precisa que podamos imaginar, siempre sufrirá un cierto desgaste en sus piezas a lo largo del
tiempo, habrá una mínima fricción entre sus componentes, o simplemente, nuestro ángulo de
visión al observar el instrumento no será en todo momento exactamente el mismo. Y si esto
ocurre cuando estudiamos objetos, qué será cuando investigamos sujetos. En fenómenos humanos
no hay forma de garantizarse un perfecto control sobre todas y cada una de las variables.
Precisamente, como hay un elemento de error insoslayable, la única aproximación posible a tales
fenómenos es a través de la estadística. Las decisiones se toman siempre con un determinado
margen de probabilidad, lo que conlleva necesariamente riesgo de error asociados.
Descartaremos, por el momento, los errores conceptuales y sistemáticos (para algunos, autores,
ambos sistemáticos) como debidos a problema de diseño y/o de fundamentación teórica, y nos
concentraremos sobre los errores aleatorios, susceptibles de ser abordados (indirectamente) desde
la teoría matemática que expondremos a continuación. Veremos, cómo desde los supuestos del
modelo de medida, desde sus restricciones impuestas, podemos acotar, hasta cierto punto, la
cuantía de los errores de medida.
Este modelo de medida, expuesto originalmente por Spearman, y que se denomina ecuación
fundamental de la teoría clásica de los test, viene a decir lo siguiente:
La puntuación empírica (X) obtenida por un determinado sujeto equivale a su puntuación
verdadera (V) más un cierto error (e). Esta ecuación resulta bastante obvia y razonable, pero hay
que insistir que no es tanto la constatación de una realidad como la definición de un supuesto. Por
ejemplo, entendemos que las puntuaciones empíricas son combinaciones lineales de las
puntuaciones verdaderas y de los errores (modelo lineal), y no que los errores tienen una relación
multiplicativa con las puntuaciones verdaderas, lo que daría lugar a otro tipo de modelo no lineal.
De la ecuación (1.6) lo único realmente obvio es la puntuación X obtenida por un determinado
sujeto. Pero, ¿qué decir de la puntuación verdadera y del error?. Aquí no hay ninguna evidencia,
y es a través de conjeturas como estimamos su valor.
12
V ' E(X ) (1.7)
E(e) ' 0 (1.8)
E(X ) ' E(V ) % E(e ) ' E(V ) (1.9)
ρve
' 0 (1.10)
ρejek
' 0 (1.11)
Sobre la puntuación verdadera se han dicho muchas cosas. Tal como se considera en este contexto
de la teoría clásica, no es alguna cualidad real inherente a las personas e inmutable que se
encuentran en éstas al estilo de las ideas platónicas y que se refleja, como en el mito de la
caverna, en cierto grado (con error), dando lugar a la puntuación observada. Podría ser así, pero
aquí queda restringido a la esperanza matemática de la puntuación empírica; esto es, la media
de un cierto rasgo si se aplicase a determinado sujeto la misma prueba "infinito" número de veces.
Esta definición tiene muchas ventajas, porque la puntuación verdadera deja de ser algo intangible
para ser algo que puede ser fácilmente operativizada. Ya podemos "encontrar" (tras infinitos
intentos) la puntuación verdadera y manejarla. Así:
Respecto al error, decir, como ya se ha afirmado, que es aleatorio. Esto implica que una veces nos
equivocaremos por exceso y otras por defecto, y que a la larga (también después de infinitas
veces) habrá simetría y que la cantidad de errores positivos equivaldrá a los negativos. Así:
Este supuesto, es en realidad el mismo que el anterior, ya que el ser la media de los errores cero,
la puntuación verdadera coincidirá con la media de las empíricas:
Igualmente, se asume que la correlación entre los errores y las puntuaciones verdaderas es igual
a cero. Esta suposición es lógica, ya que si son aleatorios no tendrán nada que ver con ninguna
característica de los sujetos. Así:
Igualmente, y por la misma razón, no deberán correlacionar con otros errores en otras medidas:
Y por último, dos supuesto más, necesarios para hacer inferencias estadísticas, hacen referencia
a la normalidad de los errores y a la homocedasticidad o igualdad de varianza de los mismos.
13
X ' V % e (1.6)
σ2x ' σ
2v % σ
2e (1.12)
Var(X) ' Var(V%e) ' Var(X) % Var(e) % 2Cov(V,e) ' Var(X) % Var(e)
ρxx´
'σ
2v
σ2x
(1.13)
ρxx´
' ρ2vx (1.14)
ρvx
' ρxx´ (1.15)
1.5.- Definición del coeficiente de fiabilidad
Como hemos indicado:
De donde se deduce::
Efectivamente:
ya que la correlación (y por tanto, la covarianza) entre las puntuaciones verdaderas y los errores
es cero.
Y a partir de aquí definiremos como coeficiente de fiabilidad a la razón entre la varianza
verdadera y la empírica. Esto es:
Su valor refleja, precisamente, la proporción que de la varianza empírica (o total de X) explica la
varianza verdadera. Obviamente, dicho coeficiente es indicativo de la bondad de la medida;
cuanto más saturada esté la puntuación empírica de la verdadera, más fiable será la medida. Tiene
connotaciones con el modelo de regresión. De hecho, podemos plantear la ecuación (1.1) como
un modelo de regresión con su variable dependiente X y su variable independiente V. En este caso,
el coeficiente de fiabilidad coincide con la correlación al cuadrado entre X y V, que, como se sabe,
expresa la proporción de variación explicada por V en X. Esto es:
Por otro lado, definiremos el índice de fiabilidad como la correlación entre las puntuaciones
verdaders y empírica. De esta forma:
14
X ' V % e (1.6)
x ' λv % e (1.16)
Figura 1.2. Modelo estructural aplicado a la medida
1.6.- Teoría clásica de los tests y modelos estructurales
Es nuestra intención exponer en las páginas siguientes la TCT desde el recurso de los modelos
estructurales. Entendemos que dicha teoría puede ser incorporada, sin menoscabo de su
integridad, dentro de tales modelos. Lograremos de esta forma: a) una mayor simplicidad en las
demostraciones, b) una mayor claridad expositiva gracias a los recursos gráficos que proporcionan
los diagramas causales y c) lo que es más importante, conseguiremos, además, una visión
unificadora de la estadística que redundará todo ello en una mayor comprensión de los conceptos
aquí expuestos.
Podemos expresar la ecuación conocida:
de la siguiente manera, según la terminología LISREL:
En términos gráficos:
Se supone que la variable exógena, marcada con un círculo (como corresponde a las variables no
observables según la nomenclatura LISREL) es la puntuación verdadera, en el sentido de que es
ella la que "origina" o "causa" la variable endógena X. Aunque operativamente hemos definido
15
E (X*V ) ' V (1.17)
E(X*V) ' E((V%e)*V) ' E(V*V) % E(e*V) ' V (1.18)
X ' V % e (1.6)
X ' E(X*V) ' V (1.19)
V ' X & e
V como la media de X, podemos afirmar, no obstante, en términos teóricos, que la variable X es
una medida efectuada sobre la variable V, y por tanto, depende de ésta.
Obsérvese la ecuación (1.16). donde la ausencia del término constante (ordenada en el origen)
muestra que la recta de regresión pasa por el origen del sistema de ejes cartesianos. La pendiente,
por otro lado, vale 1, tal como se refleja en el diagrama causal como medida del efecto de la
variable V sobre X. Es indicativo de que las medias condicionadas de X a lo largo de toda la recta
de regresión, coinciden con las correspondientes puntuaciones verdaderas (y no solamente, que
la variable no observable V se expresa en la misma escala que la observada X). Esto es:
Como fácilmente podemos comprobar:
ya que el valor medio de V para cada V es precisamente el valor V, y por otro lado, al ser los
errores independientes de las puntuaciones verdaderas se seguirá cumpliendo que para cada nivel
de V su media seguirá siendo cero.
Así pues, como conclusión, podemos considerar que si hemos afirmado que la puntuación
empírica de un determinado sujeto equivale a su puntuación verdadera más el error:
entonces, ocurre que a nivel poblacional (esto es, la generalidad de los casos) nos encontramos
con la siguiente ecuación de regresión:
Es importante señalar esta circunstancia, porque más adelante necesitaremos determinar la
ecuación de regresión que liga las puntuaciones verdaderas con las empíricas, y aunque aquí se
cumple, igualmente, que a nivel individual:
16
V ' X
E(V*X) ' E(X&e)*X) ' E(X*X) & E(e*X) ' X & E(e*X) (1.20)
β 'E(xv)
E(x 2)'
E((v%e)v)
E(x 2)'
E(v 2) % E(ev)
E(x 2)'
E(v 2)
E(x 2)' ρ
2vx (1.21)
α ' V & ¯bX ' X & ρ2xvX ' (1 & ρ
2xv)X (1.22)
V ' α % βX ' (1 & ρ2xv)X % ρ
2xvX (1.23)
sin embargo, a nivel poblacional no sucede que:
ya que si suponemos, como anteriormente, que la recta de regresión pasa por los promedios de V
condicionados a los distintos valores de X:
donde los errores sí están correlacionados con la variable X. De hecho, como se sabe, el cuadrado
de dicha correlación es precisamente, la proporción de varianza no explicada por el modelo. Como
consecuencia de todo ello, el promedio de los errores para los diferentes valores de X no será cero.
Habrá un sesgo sobre X que hará que las puntuaciones verdaderas no coincidan con las empíricas.
Podemos comprobar fácilmente que la pendiente de la recta no es ahora la unidad sino .ρ2vx
Efectivamente:
Además esta circunstancia afectará a la ordenada en el origen:
Por tanto:
17
x ' σv
v
σv
% e
x
σx
'σ
v
σx
v
σv
%e
σx
x s ' λv s % e s (1.24)
λ 'σ
v
σx
' ρvx (1.25)
X V e
S))))))))))))))))))))))))
5 6 -1
6 6 0
7 6 1
8 9 -1
9 9 0
10 9 1
11 12 -1
12 12 0
13 12 1
S))))))))))))))))))))))))
Tabla 1.1. Datos hipotéticos
1.6.1.- Modelo de medida en puntuaciones estandarizadas
Para ciertos casos, conviene utilizar la ecuación estructural en puntuaciones estandarizadas. Para
ello, en base a la ecuación (1.6) en diferenciales, multipliquemos y dividamos la puntuación
verdadera por su desviación tipo:
A continuación, dividamos ambos miembros de la ecuación por la desviación tipo de la
puntuación empírica:
Como consecuencia de ello obtenemos el modelo en puntuaciones estandarizadas:
donde:
Ejemplo 1.1.- Tengamos los siguientes datos hipotéticos, donde se observan las puntuaciones
empíricas X, verdaderas V y los términos de error e:
18
Valid
Variable Mean Variance Minimum Maximum N Label
E ,00 ,75 -1,00 1,00 9
V 9,00 6,75 6,00 12,00 9
X 9,00 7,50 5,00 13,00 9
Tabla 1.2. Resumen estadístico
- - Correlation Coefficients - -
E V X
E 1,0000 ,0000 ,3162
( 9) ( 9) ( 9)
P= , P=1,000 P= ,407
V ,0000 1,0000 ,9487
( 9) ( 9) ( 9)
P=1,000 P= , P= ,000
X ,3162 ,9487 1,0000
( 9) ( 9) ( 9)
P= ,407 P= ,000 P= ,
Tabla 1.12. Matriz de correlaciones
Esto supuesto, determinar las siguientes ecuaciones: a) de X sobre V, b) de V sobre X, y c) de Zx
sobre Zv.
SOL:
a) Al objeto de facilitar la presentación de resultados, recurriremos al comando REGRESSION
del SPSS. Observemos en primer lugar el descriptivo de estos datos, al objeto de comprobar los
supuestos del modelo:
Se observa que las medias de los errores es cero. Asimismo que las puntuaciones verdaderas y
empíricas coinciden en sus promedios. Por otro lado, merced a la incorrelación entre puntuaciones
verdaderas y errores, se comprueba la equivalencia de la variancias empírica como suma de la
verdadera y del error.
La matriz de correlaciones muestra los restantes supuestos del modelo:
19
Multiple R ,94868
R Square ,90000
Adjusted R Square ,88571
Standard Error ,92582
Analysis of Variance
DF Sum of Squares Mean Square
Regression 1 54,00000 54,00000
Residual 7 6,00000 ,85714
F = 63,00000 Signif F = ,0001
------------------ Variables in the Equation ------------------
Variable B SE B Beta T Sig T
V 1,000000 ,125988 ,948683 7,937 ,0001
Tabla 1.3. Análisis de regresión de X sobre V
X ' V
Los errores no han de correlacionar con las puntuaciones verdaderas, aunque sí debe hacerlo con
las empíricas (es la parte no explicada de éstas).
Comprobados estos supuestos, veamos la ecuación de regresión de X sobre V:
Obsérvese cómo la ecuación de regresión es:
b) Por el contrario, si deseamos conocer la ecuación de regresión de V sobre X:
20
Multiple R ,94868
R Square ,90000
Adjusted R Square ,88571
Standard Error ,87831
Analysis of Variance
DF Sum of Squares Mean Square
Regression 1 48,60000 48,60000
Residual 7 5,40000 ,77143
F = 63,00000 Signif F = ,0001
------------------ Variables in the Equation ------------------
Variable B SE B Beta T Sig T
X ,900000 ,113389 ,948683 7,937 ,0001
Tabla 1.4. Análisis de regresión de V sobre X
V ' 0.9X
Zx' 0.9487Z
v
En este caso, la ecuación de regresión tiene por coeficiente de regresión el valor de la correlación
al cuadrado, o lo que es lo mismo, su coeficiente de fiabilidad. Así:
c) Se comprueba que en estandarizadas, tal como puede observarse bajo el epígrafe de Beta en
cualquiera de las tablas anteriores, es:
21
2.- FIABILIDAD
2.1.- Introducción
Como se ha indicado, la fiabilidad de un instrumento hace referencia a su precisión; esto es, a
la medida en que las puntuaciones empíricas son reflejo de las verdaderas. Mide el grado de
ajuste entre ambas, y en una primera aproximación la hemos definido como la proporción que
de la varianza empírica explica la varianza verdadera, que, como se sabe, viene indicado por el
valor de .ρ2vx
Esta definición, no obstante, no es operativa por cuanto no disponemos jamás de ninguna
"puntuación verdadera". Todas las puntuaciones son el resultado de mediciones. Son, pues,
puntuaciones empíricas con sus correspondientes errores implícitos. Necesitamos, en
consecuencia, abordar el problema desde otra perspectiva. De forma indirecta podemos conocer
la fiabilidad de una determinado instrumento mediante la variabilidad de sus mediciones. Si la
variabilidad observada es pequeña deduciremos que la puntuación verdadera, al estar dentro del
rango de variación de las puntuaciones empíricas, no estará muy lejos de éstas. Por el contrario,
una gran variabilidad será indicativo de amplios márgenes para la puntuación verdadera, lo que
será indicativo de que nuestro instrumento no es muy preciso.
De esta forma, visto desde otra perspectiva, la constancia o estabilidad del instrumento mostrará
su fiabilidad. Así, un determinado test será fiable si tras diferentes pasadas a los mismos
individuos ofrece parecidos resultados. En términos matemáticos la fiabilidad de un test quedará
reflejada mediante la correlación de las puntuaciones obtenidas consigo mismas. Cuanto mayor
correlación, más parecidas o constantes serán las tales puntuaciones, y en consecuencia, mayor
será su fiabilidad.
No conviene confundir la constancia de las mediciones con la constancia de lo medido. Un objeto
que no cambia deberá proporcionar equivalentes resultados en diferentes pasadas si nuestro
instrumento es fiable, pero si cambia, y entendemos que nuestro instrumento es fiable, entonces
dicho instrumento deberá reflejar tal cambio. Será fiable aunque proporcione diferentes
mediciones. Este aspecto es importante, pues si bien en las ciencias físicas cabe esperar que un
objeto permanezca idéntico a sí mismo a lo largo de diferentes mediciones, no ocurre otro tanto
en fenómenos humanos. Una persona puede cambiar ciertos rasgos psicológicos, tales como las
22
Dos aplicaciones del test
test-retest
formas paralelas
Una aplicación del test
dos mitades
Alpha de Crombach
Figura 2.1. Cuadro esquemático de los distintos coeficientes de fiabilidad
actitudes o las emociones, con una relativa facilidad. En este caso un test que mida tales cambios
será más fiable que el que no lo hiciera, aunque hemos de reconocer la dificultad que entraña
distinguir tales cambios medidos como modificaciones reales.
Queremos enfatizar con ello las dificultades que entrañan las mediciones de rasgos psicológicos
frente a las mediciones en otros ámbitos de la ciencia, donde el elemento subjetivo es de menor
importancia. A tal efecto, en un intento de encontrar un procedimiento idóneo para determinar
la fiabilidad, se han planteado, dentro de la TCT, diferentes enfoques para el cálculo del
coeficiente de fiabilidad. Todos están basados en el coeficiente de correlación de Pearson.
Distinguiremos, a este respecto, y muy a grosso modo, procedimientos basados en dos
aplicaciones del test, bien sea el mismo test -método del test-retest- o dos test equivalentes -
método de las formas paralelas-, de aquellos procedimientos basados en una única aplicación del
test, bien sea dividiendo éste en dos mitades -método de las dos mitades-o bien considerando
todos y cada uno de los ítemes como elementos independientes -Alpha de Crombach-. De forma
esquemática:
No obstante, hemos de decir que no puede afirmarse a priori cual de estos procedimientos es el
más adecuado. Veremos que distintas circunstancias harán aconsejable unas veces un
procedimiento y otras veces otro, o incluso ambos. Digamos, en principio, que mediante dos
aplicaciones del test medimos fundamentalmente la fiabilidad como estabilidad del instrumento,
mientras que merced al procedimiento de una única aplicación medimos la consistencia interna
del mismo.
23
Figura 2.2. Diagrama path para el método del test-retest
x ' ρvx
v % e
x´ ' ρvx´
v % e´(2.1)
2.2.- Procedimientos basados en dos aplicaciones del test
2.2.1.- El método del test-retest
Este quizás sea el procedimiento más sencillo para determinar la fiabilidad de un test. Consiste
básicamente en aplicar el mismo test al mismo grupo de individuos en dos ocasiones distintas.
Posteriormente se calcula el coeficiente de correlación de Pearson con las dos series de
puntuaciones obtenidas. En la medida que dicha correlación sea alta entenderemos que el test
mide de forma parecida a los sujetos estudiados y que por lo tanto, presenta una alta fiabilidad.
Gráficamente, podemos representa esta situación mediante el siguiente diagrama causal:
cuyas ecuaciones correspondientes (en estandarizadas) son:
Obsérvese que si sobre la figura 2.1 aplicamos la regla del trazado es fácil comprobar que la
24
ρxx´
' ρvx
ρvx´
' ρ2xv
correlación entre las puntuaciones empíricas del test equivale al cuadrado de la correlación entre
las puntuaciones del test y sus puntuaciones verdaderas. Así:
ya que se entiende que x y x´ no son más que distintas aplicaciones del mismo test. Se comprueba
de esta forma que la fiabilidad considerada como proporción que de la varianza empírica es la
verdadera, es equivalente a la correlación entre dos aplicaciones de un mismo test.
El procedimiento del test-retest tiene la ventaja de que resulta fácil su aplicación y es poco
costoso llevarlo a la práctica. No obstante, presenta serios inconvenientes. En primer lugar, es
de importancia capital el intervalo de tiempo transcurrido entre una y otra aplicación del test. Si
el tiempo es corto, el factor memoria ejercerá un notable influjo en el sentido de que los sujetos,
al recordar los ítemes, tenderán a responder de la misma manera que anteriormente, sin
molestarse en realizar un nuevo esfuerzo en su resolución. En consecuencia, cometerá los
mismos fallos y aciertos. De esta forma, el coeficiente de fiabilidad será mayor de lo que
realmente le corresponde.
Podemos resolver, parcialmente, el efecto de la memoria, incrementando el intervalo temporal
entre las dos aplicaciones del test. Pero este procedimiento deja de ser efectivo si el tiempo de
intervalo es grande, por cuanto durante ese tiempo los sujetos pueden variar en el rasgo medido,
tal como sucede en el período infantil donde el proceso de maduración es importante. En estas
circunstancias, el test presentará un coeficiente de fiabilidad más bajo del que realmente le
corresponde, ya que si los sujetos han cambiado, su detección por parte del test indicará una alta
precisión y no al contrario.
El supuesto de que los errores permanecen incorrelacionados en ambas aplicaciones del test,
puede verse también afectado. De hecho, si el período de tiempo transcurrido es corto, las
mismas variables omitidas (esto es, el residuo e) pueden estar influyendo en los resultados de
ambas medidas del test. El efecto de estas variables no contempladas daría lugar a una
sobreestimación de la fiabilidad real.
Un último problema hace referencia a la reactividad de los sujetos a la prueba. Es posible que
la misma medida induzca un cambio en los sujetos, y esto afecte a la segunda medida. Por
ejemplo, un test en que se nos mida la actitud frente al racismo puede sensibilizarnos de tal
forma al tema que en la siguiente pasada modifiquemos nuestras respuestas. En este caso, la
reactividad provocará una disminución en la correlación, infravalorándose la auténtica fiabilidad.
Por estas razones, podemos considerar que el método del test-retest es un procedimiento
25
X1' V % e
1
X2 ' V % e2
(2.2)
adecuado cuando se miden rasgos que varían poco en el tiempo, en donde la práctica no ejerce
especial influencia y procurando que el intervalo temporal no sea ni excesivamente corto ni muy
largo (no existe una respuesta única respecto a cuánto es el tiempo conveniente, depende del tipo
de prueba realizada). Pruebas tales como atención, rapidez preceptiva, cálculo numérico , etc..
pueden ser adecuadas para ser sometidas al método del test-retest.
El coeficiente de fiabilidad obtenido mediante este procedimiento se denomina coeficiente de
estabilidad por cuanto refleja el grado en que las medidas se mantienen estables a lo largo de las
dos aplicaciones del test.
2.2.2.- El método de las formas paralelas
Este método consiste en aplicar a un mismo grupo de individuos dos formas paralelas del mismo
test. Dos formas se dicen que son paralelas cuando miden los mismos aspectos con el mismo tipo
de cuestiones (que no iguales). Si la muestra de sujetos a la que se aplica el test es representativa
de la población, el coeficiente de correlación obtenido con ambas series de puntuaciones, será
una estimación del coeficiente de fiabilidad de dicho test.
La característica de las pruebas paralelas es que aún estando constituidas por ítemes diferentes,
éstos, uno a uno, han de medir el mismo rasgo y de las misma manera, lo que implica igualdad
de medias, varianzas y covarianzas entre los elementos de ambos tests.
Es evidente la dificultad que entraña lograr formas exactamente paralelas, por lo que parece más
razonable hablar de formas alternativas mas bien que de formas paralelas, donde se entiende que
ambos tests no son por completo equivalentes sino dos intentos de que lo sean. Estrictamente
hablando, la ecuación correspondiente a las formas paralelas sería:
ya que se supone que ambas pruebas presentan la misma puntuación verdadera. Por otro lado,
el diagrama path sería el mismo que el de la Figura 2.2.
Si de forma más realista consideramos que sólo son posibles formas alternativas, la ecuación
sería en este caso:
26
X1' V
1% e
1
X2 ' V2 % e2
(2.3)
x2
φ21
1 2
Figura 2.3. Diagrama path para el método de formas paralelas
ρx1x2
' ρv1x1
(ρv1v2
(ρv2x2
(2.4)
ρx1x2
' ρ2vx (2.5)
donde se espera que V1 y V2 sean lo más similares posibles. En este caso, el diagrama path sería:
Se observa que la fiabilidad del test, en este caso, depende no sólo de la ausencia de errores en
la medida, sino también del grado de similitud de ambas formas. Así:
Cuando se cumple que V1=V2 tendremos la igualdad conocida:
Dentro del procedimiento de formas alternativas distinguiremos brevemente diferentes
situaciones según sea el grado de paralelismo entre las distintas formas. Así se habla de
puntuaciones tau-equivalentes y puntuaciones congenéricas. Las puntuaciones tau-equivalentes
(de true, verdadera, en inglés) se refiere a cuando ambas formas tienen la misma puntuación
verdadera, pero los errores de medida no tienen la misma varianza, lo que implica diferentes
27
varianzas empíricas en las medidas. Las puntuaciones congenéricas, por el contrario, se
caracterizan porque las medidas no tienen la misma puntuación verdadera (sino que una de las
formas es combinación lineal de la otra) ni tampoco la misma varianza del error. Para una mayor
profundización a este respecto, puede consultarse en castellano la obra de Martínez Arias (1995).
El método de las formas paralelas sería el procedimiento idóneo sino fuera por la dificultad que
entraña la elaboración de pruebas realmente equivalentes. Cuando esto sucede es difícil distinguir
lo que es cambio en la puntuación verdadera de la falta de fiabilidad (Carmines y Zeller, 1979,
pág. 40). No obstante, esta forma (en la versión que hemos apuntado como alternativa) presenta
algunas ventajas respecto al método del test-retest. Al tratarse de formas diferentes, no existe el
efecto de memoria anteriormente señalado. Por esta misma razón los errores de medida entre
ambas aplicaciones tendrán menos probabilidad de estar correlacionados.
Algunas dificultades permanecen aún vigentes con este procedimiento. Puede presentarse
reactividad al test de forma tal que en la segunda pasada haya cambiado la actitud del sujeto, y
por otro lado, se mantienen algunos efectos del intervalo temporal entre ambas aplicaciones del
test. Si el período de tiempo es corto, cierto influjo puede traslucirse (más por efecto de práctica
que de memoria) y si el intervalo es largo puede, como el caso del test-retest, cambiar el rasgo
a medir del sujeto.
2.3.- Procedimientos basados en una única aplicación del test
2.3.1.- Método de las dos mitades
Se trata de aplicar un único test a un mismo grupo de individuos representativos de una cierta
población. A continuación se divide el test en dos mitades; esto es, la mitad de los ítemes
configura uno de los tests y la otra mitad de los ítemes el otro test. La correlación de Pearson
aplicada con las puntuaciones totales de ambas mitades constituirá el coeficiente de fiabilidad.
La intención es crear dos partes que sean lo más paralelas o equivalentes posible. A este respecto,
existen varios posibles procedimientos para realizar la partición. El más usual consiste en
seleccionar los ítemes pares como constituyentes de una mitad, y los ítemes impares formado
parte de la otra. Pero podemos utilizar también una asignación aleatoria para cada una de las
partes. No es conveniente, por ejemplo, elegir la primera mitad de los ítemes para configurar un
test y la segunda mitad, para el otro test, ya que es frecuente que los ítemes vayan creciendo
28
ρXX´
'2ρ
xx´
1 % ρxx´
(2.6)
progresivamente en dificultad con lo que lograríamos dos tests distintos. Además, si el test
tuviera una cierta longitud, el efecto de la fatiga incidiría en mayor grado sobre la segunda parte
que sobre la primera, y, por otro lado, posiblemente hubiera ítemes sin responder de la segunda
parte.
Ha de hacerse notar que con este procedimiento estamos dividiendo el test original en dos partes,
y por tanto, el coeficiente de fiabilidad calculado con ambas mitades es el coeficiente de
fiabilidad de un test de longitud la mitad del que estamos tratando. De esta forma, si el test que
administramos tiene 50 ítemes, al dividirlo por la mitad, en realidad estamos calculando la
fiabilidad de un test de 25 ítemes (como si fueran formas paralelas de 25 elementos cada una),
por lo que al final debemos efectuar una cierta "corrección" sobre la coeficiente obtenido
intentando determinar cual sería el coeficiente de un test longitud el doble del que disponemos
y equivalente a éste. La siguiente fórmula debida a Spearman-Brown, y que desarrollaremos más
adelante, permite dicha estimación:
donde:
ρXX´: Coeficiente del test de longitud doble
ρxx´: Coeficiente original
El método de las dos mitades, desde la consideración de que las dos mitades son equivalentes,
presenta la misma ecuación que el método de las formas paralelas, bien sea la ecuación 2.2 si se
cumplen todos los supuestos del modelo, o bien la ecuación 2.3 si se plantea como formas
alternativas. Gráficamente sucede otro tanto (ver figuras 2.2 y 2.3).
Este procedimiento recoge las ventajas principales de los dos métodos anteriores, al mismo
tiempo, que elimina sus mayores inconvenientes. El simple hecho de ser una única aplicación
supone un cierto ahorro de esfuerzo, tiempo y dinero. Por otro lado, al aplicarse simultáneamente
formas distintas de un mismo test, suprimimos el efecto del intervalo temporal a la par que
eliminamos el posible efecto de memoria.
La principal desventaja del método de la dos mitades consiste en que el valor del coeficiente de
fiabilidad obtenido depende de cómo hayan quedado repartidos los ítemes en cada una de las
mitades. Posiblemente la correlación entre lo ítemes pares e impares sea diferente que la
correlación entre la primera mitad y la segunda o entre dos agrupaciones cualesquiera realizada
29
ρxx´
' 1 &σ
2d
σ2x
(2.7)
con los ítemes de manera aleatoria. Si esto ocurriera tendríamos tantos coeficientes de fiabilidad
para un determinado test como formas posibles de agrupaciones existieran, lo que es lo mismo
que decir que dicho test carece de un verdadero coeficiente de fiabilidad.
Si no hay un criterio único de la división en las dos mitades y al mismo tiempo se exige
paralelismo en ambas mitades entonces está claro que todos y cada uno de los ítemes del test han
de medir el mismo rasgo y de la misma manera. Esta es la única manera de garantizase que los
diferentes coeficientes de fiabilidad posibles coincidan. Y para ello, como veremos, el coeficiente
Alpha de Crombach, calculado con la correlación media entre todos los ítemes, es más
conveniente.
Se deduce de ello que el coeficiente de fiabilidad obtenido por el método de las dos mitades
como indicador de la consistencia interna de un test es de dudoso valor. Si se plantea como una
forma cómoda de pruebas paralelas (o mejor, alternativas), entonces sí podemos reafirmar su
utilidad, siempre y cuando nos preocupemos de lograr pares de ítemes equivalentes y que vayan
a parar éstos a cada una de las mitades.
2.3.2.- Fórmula de Rulon
En el caso particular de que el procedimiento de las dos mitades se resuelva mediante el
agrupamiento de los items pares e impares, existen algunas formulas alternativas más sencillas
del cálculo del coeficiente de correlación de Pearson entre ambas mitades más el añadido de la
corrección de Spearman-Brown. Expondremos en primer lugar, la fórmula desarrollada por
Rulon y posteriormente, la desarrollada por Flanagan y Guttman. Ambas fórmulas, como se
verán, son totalmente equivalentes. Comenzaremos por Rulon. Su fórmula es la siguiente:
donde:
: varianza de la diferencias entre las puntuaciones pares e impares σ2d
Para su demostración, partamos de la definición de coeficiente de fiabilidad:
30
ρxx´
'σ
2v
σ2x
'σ
2x & σ
2e
σ2x
' 1 &σ
2e
σ2x
(2.8)
σ2d ' σ
2e
σ2e ' E(e)2 ' E(e
p%e
i)2 ' E(e
p)2%E(e
i)2 (2.9)
σ2d ' Var(X
p&X
i) ' Var (V%e
p) & (V%e
i) ' Var(e
p&e
i)
' E(ep&e
i)2 ' E(e
p)2 % E(e
i)2 ' σ
2e
(2.10)
ρxx´
' 2 1 &σ
2p%σ
2i
σ2x
(2.11)
Ahora, comparando (2.7) con (2.8) tan sólo hemos de demostrar que:
Si consideramos el error total como suma de los errores pares más los impares, tendremos que
la varianza del error será:
ya que se supone que los errores tienen de media cero y no están correlacionados.
En relación a la varianza de la diferencia entre puntuaciones pares e impares:
cuyo valor, como puede observarse en (2.9) coincide con la varianza del error.
2.3.3.- Fórmula de Flanagan y Guttman
Esta fórmula desarrollada por Flanagan y Guttman, de forma independiente entre sí, proporciona
el mismo valor que la fórmula de Rulon. De hecho, como comprobaremos, son totalmente
equivalentes. Presenta, quizás, la pequeña ventaja de ser más sencilla en su aplicación. Su
expresión es la siguiente:
Efectivamente, si recurrimos a Rulon:
31
ρxx´
' 1 &σ
2d
σ2x
'σ
2x&σ
2d
σ2x
'
'σ
2p%σ
2i %2ρ
piσ
pσi& (σ
2p%σ
2i &2ρ
piσ
pσ
i)
σ2x
'4ρ
piσ
pσ
i
σ2x
ρxx´
' 2 1 &σ
2p%σ
2i
σ2x
' 2σ
2x
σ2x
&σ
2p%σ
2i
σ2x
' 2σ
2x&σ
2p&σ
2i
σ2p
'
' 2σ
2p%σ
2i %2ρ
piσ
pσ
i&σ
2p&σ
2i
σ2x
'4ρ
piσ
pσ
i
σ2x
Ítem
Sujeto 1 2 3 4 5 6 7 8 Impar Par Dif. Total +)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))), * 1 1 0 0 0 1 1 0 0 2 1 1 3 * * 2 0 1 1 0 0 1 1 1 2 3 -1 5 * * 3 1 1 1 0 1 1 0 0 3 2 1 5 * * 4 1 1 1 1 1 1 1 1 4 4 0 8 * * 5 1 1 0 0 1 1 1 1 3 3 0 6 * * 6 1 0 0 1 1 1 1 0 3 2 1 5 * * 7 0 1 1 0 0 1 1 0 2 2 0 4 * * 8 1 0 0 0 0 0 1 1 2 1 1 3 * * 9 1 0 1 1 1 1 0 1 3 3 0 6 * * 10 1 0 0 0 0 0 0 1 1 1 0 2 * .))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))-
TABLA 2.1. Datos ficticios de un test compuesto por 8 ítemes aplicado a un grupo de 10 personas.
donde hemos considerado la varianza de las puntuaciones empíricas (totales) como la suma de
las puntuaciones pares más las impares.
Procediendo de manera equivalente con la fórmula de Flanagan y Guttman.
Se comprueba que ambas expresiones son equivalentes.
Ejemplo 2.1.- Se ha aplicado un test compuesto por 8 ítemes a un grupo de 10 personas. Las
puntuaciones obtenidas vienen ofrecidas en la siguiente tabla:
32
Total Impar Par Dif. S)))))))))))))))))))))))))))))))))))))))))))))))))))Q Media 4.700 2.500 2.200 0.300
Des. tipo 1.676 0.806 0.980 0.640 Varianza 2.810 0.650 0.960 0.410 S)))))))))))))))))))))))))))))))))))))))))))))))))))
TABLA 2.2. Resumen estadístico de los datos de la Tabla 2.1
rpi' 0.760
rxx´
'2r
pi
1 % rpi
'2(0.760
1 % 0.760' 0.863
rxx´
' 1 &S
2d
S2x
' 1 &0.410
2.810' 0.854
Con estos datos, calcular:
a) Coeficiente de fiabilidad por el método de las dos mitades
b) Coeficiente según la fórmula de Rulon
c) Coeficiente según la fórmula de Flanagan y Guttman
SOL:
Los estadísticos obtenidos con las distintas partes del test son:
a) Calculando el coeficiente de correlación entre los ítemes pares e impares del test,
obtendremos:
Aplicando la corrección de Spearman-Brown:
b) El coeficiente según Rulon será:
1 Ver más adelante el apartado donde se relaciona fiabilidad y longitud del test, para su demostración.
33
rxx´
' 2 1 &S
2p %S
2i
S2x
' 2 1 &0.96%0.65
2.810' 0.854
α 'nρ
xx´
1% (n&1)ρxx´
(2.12)
c) Y según Flanagan y Guttman:
Se observa que el coeficiente de Rulon es coincidente con el de Flanagan y Guttman. La similitud
de éstos con el calculado mediante el método de las dos mitades va en función de grado de
paralelismo entre los ítemes pares e impares del test. En este caso, son bastante parecidos.
2.3.4.- El coeficiente Alpha
Como acabamos de indicar el método de los mitades no es un buen procedimiento para
determinar la fiabilidad de un test, en cuanto consistencia interna. Un test puede subdividirse de
múltiples maneras en dos mitades, obteniéndose numerosos coeficientes distintos de fiabilidad,
con lo que obviamente, carecemos de un único coeficiente de fiabilidad para dicho test.
A este respecto, se han propuesto procedimientos que permitan obtener una idea de la
consistencia interna del test con un único coeficiente. El más conocido es el coeficiente Alpha
de Crombach (Crombach, 1951) basado en la correlación media entre todos los ítemes de un test.
Para su cálculo, se procede a considerar cada ítem del test como si fuera un test de longitud
unidad y acto seguido, se calcular la correlación media de dichos ítemes entre sí. Por último se
aplica la fórmula de Spearman-Brown 1, que permite determinar la fiabilidad de un test de
longitud n veces superior de los test de longitud unidad (el test total tiene n ítemes). De esta
forma, logramos con un único coeficiente tener información global del grado de consistencia
interna de dicha prueba. Su fórmula es la siguiente:
donde:
: correlación media de todos los ítemes entre síρxx´
34
α 'n
n&11 &
jn
j'1
σ2j
σ2x
(2.13)
Como resulta un tanto laborioso calcular la correlación media de todos los ítemes entre sí
(cuestión cada día más irrelevante con la profusión de ordenadores personales), una fórmula
alternativa de más fácil aplicación es (ver apéndice):
donde:
n : número de ítemes del test
: varianza del ítem j σ2j
: varianza total del testσ2x
El coeficiente Alpha expresa el grado en que todos los ítemes miden el mismo rasgo. En su
extremo todos los ítemes serán paralelos. Entonces, coincidirá con el procedimiento de las dos
mitades, o más fácilmente, será suficiente con determinar la correlación entre dos ítemes
cualesquiera, y aplicar Spearman-Brown. Además, en este caso, el valor del coeficiente, como
se sabe, será precisamente .ρ2vx
Lo habitual es que no se consigan ítemes estrictamente paralelos, y en consecuencia, el valor del
coeficiente Alpha será inferior al existente en el supuesto de paralelismo. Por esta razón dicho
coeficiente marcará la cota inferior en el valor de la fiabilidad obtenida si en un mismo test se
aplicasen los otros métodos de fiabilidad mencionados, basados en el supuesto de paralelismo.
Para una demostración más formal de estos aspectos, puede consultarse en castellano,
Santisteban (1990), págs. 86-92, o bien, Martínez Arias (1995), págs. 122-127.
Hay que tener ciertas precauciones a la hora de interpretar el coeficiente Alpha como indicador
de la unidimensionalidad de los ítemes. Aunque es cierto que su valor es mayor cuanto mayor
sea la correlación promedio entre los ítemes, no es menos cierto que su magnitud depende de
otros factores tales como el número de ítemes en cuestión o el número de factores subyacentes
en cada ítem. Por esta razón, hay que recurrir a otros procedimientos estadísticos que
complementen Alpha.
En este sentido, cuando existan dentro de una prueba varios subtests, como es relativamente
frecuente (personalidad, inteligencia ..etc) resulta necesario calcular el coeficiente de fiabilidad
35
Item Sujeto 1 2 3 4 5 6 Total +)))))))))))))))))))))))))))))))))), * 1 1 2 2 1 1 1 8 * * 2 3 2 3 3 1 2 14 * * 3 4 3 3 4 4 2 20 * * 4 2 1 1 2 1 1 8 * * 5 4 5 5 5 3 2 24 * * 6 2 3 2 2 2 1 12 * * 7 3 3 4 3 2 1 16 * * 8 5 4 4 3 4 3 23 * .))))))))))))))))))))))))))))))))))-
TABLA 2.2. Datos supuestos de un test compuesto por ítemes cuantitativos
separadamente para cada una de las partes, para finalmente calcular la fiabilidad global del test
como una combinación lineal de tales subtests. Incluso, aunque operemos con un test
supuestamente unidimensional, es conveniente aplicarle alguna prueba estadística, tal como el
análisis factorial en un intento de encontrar los factores subyacentes. En este caso, dependiendo
del resultado del análisis podríamos configurar distintos subtests (o no) dependiendo de la
estructura factorial obtenida. Ver Carmines y Zeller (1979), págs 59-70, para una discusión al
respecto.
Por último, digamos que el coeficiente Alpha, además de ser un indicador de la precisión con que
un conjunto de ítemes miden un cierto rasgo psicológico en función de su coherencia o
consistencia interna (correlación entre ítemes), puede tomarse también como una medida de la
representatividad del test, en el sentido de que una alta correlación media entre ítemes será
indicativo de una pequeña variabilidad en los mismos. En este caso, se entiende que los ítemes
particulares con los que estamos operando no son más que una muestra aleatoria del hipotético
universo que engloba el conjunto de ítemes que expresan el rasgo medido (Nunnally, 1978). La
puntuación verdadera es la que obtendría el sujeto en ese supuesto universo. De esta forma, en
la medida en que la muestra de ítemes tenga una pequeña dispersión podemos hacer mejores
estimaciones -mayor precisión- a la hora de inferir los verdaderos valores en el universo de
procedencia. Este planteamiento está estrechamente ligado con la Teoría de la Generalizabilidad,
que no será abordado aquí por el momento, aunque haremos una tímida aproximación a este
planteamiento mediante el análisis de la varianza aplicado a la fiabilidad.
Ejemplo 2.2.- Tengamos los siguientes datos hipotéticos referidos a la aplicación de un test
formados por ítemes cuantitativos con una escala de 1 a 5 puntos:
36
jn
j'1σ2j ' 7.642
ITEM
1 2 3 4 5 6 Total +)))))))))))))))))))))))))))))))))))))))))))))))))), Varianzas *1.501 1.360 1.501 1.360 1.438 0.484 34.484 * .))))))))))))))))))))))))))))))))))))))))))))))))))-
TABLA 2.3. Varianzas de los ítemes y total
α 'n
n&11 &
jn
j'1
σ2j
σ2x
'6
51 &
7.642
34.484' 0.934
X '
jN
i'1
X
N' p
Tengamos el siguiente resumen descriptivo:
Aplicando la fórmula (2.13):
2.3.4.- Coeficiente Alpha con elementos dicotómicos
Con cierta frecuencia los elementos de un test se plantean en términos de verdadero o falso, sí
o no, acuerdo o desacuerdo ..etc; esto es, de forma dicotómica. En este caso, si valoramos como
"uno" una de las alternativas y como "cero" la otra, tendremos que la media de las puntuaciones
coincidirá con la proporción de las respuestas dadas como "unos":
37
S2x '
jN
i'1
X 2
N& X
2' p & p 2 ' p(1&p) ' p(q
KR20
'n
n&11 &
jn
j'1
pjq
j
σ2x
(2.14)
jn
j'1
pjq
j' npq ' np(1&p) ' np & np 2 ' np &
(np)2
n' X &
X2
n(2.15)
KR21
'n
n&11 &
X &X
2
n
σ2x
(2.16)
Y la varianza:
De esta forma, la ecuación (2.13), cuando operamos con ítemes dicotómicos queda transformada
en la siguiente:
Ecuación propuesta por Kuder y Richardson en 1937, y que ocupaba el lugar número 20 en el
artículo publicado en aquel entonces, razón por la cual se le conoce como KR20.
La ecuación (2.14) puede simplificarse aún más. Si se da la circunstancia de que todos los ítemes
son de equivalente dificultad, en el sentido de que son resueltos por la misma proporción de
sujetos. Entonces:
ya que al ser p la media de un ítem cualquiera, la media de n ítemes iguales será np.
Sustituyendo, ahora, en (2.15):
Expresión denominada KR21 por ser la fórmula 21 del mencionado artículo de Kuder y
Richardson.
38
jn
j'1pjqj' 1.75
ITEM
1 2 3 4 5 6 7 8
S))))))))))))))))))))))))))))))))))))))))))))))Q
pj 0.8 0.5 0.5 0.3 0.6 0.8 0.6 0.4
qj 0.2 0.5 0.5 0.7 0.4 0.2 0.4 0.6
pjqj 0.16 0.25 0.25 0.21 0.24 0.16 0.24 0.24
S))))))))))))))))))))))))))))))))))))))))))))))Q
TABLA 2.3. Varianzas de los ítemes dicotómicos
KR20
'n
n&11 &
jn
j'1
pjq
j
σ2x
'8
71 &
1.75
2.810' 0.431
Ejemplo 2.3.- Calcular el coeficiente Alpha de fiabilidad sobre los datos de la tabla 2.1.
SOL:
Ya que estamos operando con ítemes dicotómicos, calculemos los diferentes valores de pj y qj,
tal como se refleja en la siguiente tabla:
Se observa que tales ítemes son de diferente dificultad. Así pues, apliquemos KR20:
Obsérvese la baja cuantía de este coeficiente frente a aquellos basados en el procedimiento de
las dos mitades. Aquí, al ser precisamente la correlación media, se contemplan todos los ítemes
en su cálculo, mientras que cuando se agrupan éstos en dos bloques, sólo se computan los totales
de dichos bloques quedando enmascarada, de esta forma, mucha información relevante.
2 El lector interesado puede encontrar en Harman (1976) una buena introducción al análisis factorial.En Carmines y Zeller (1979), en el apéndice, se trata el papel de dicha técnica en la fiabilidad.
39
ρXX´
' 1 &
jk
j'1
σ2xj& j
k
j'1
σ2xjρ
jj´
σ2X
(2.17)
2.4.- Fiabilidad de un test compuesto
Aunque el coeficiente Alpha parece pensado para pruebas en las que existe una cierta
unidimensionalidad en el rasgo medido, no obstante, no hay impedimento alguno para que sea
aplicado en baterías compuestas por varios subtests que reflejen rasgos psicológicos diferentes.
En este caso, la prueba global será considerada como una combinación lineal de los subtests
implicados, donde la fiabilidad final será obtenida ponderando las diferentes fiabilidades de tales
subtests según la siguiente fórmula propuesta por Nunnally (1978), (ver apéndice):
Hay que prevenir al lector de la tentación de aplicar (como a veces se hace) la fórmula (2.13) del
coeficiente Alpha, como si los distintos subtest fueran los ítemes de un cierto test. Este hecho
sólo sería admisible cuando los diferentes subtests midieran el mismo rasgo en cuestión, lo que
no suele ser habitual, ya que cuando se elabora una batería de pruebas es porque se entiende que
las pruebas que la integran miden diferentes aspecto. En caso contrario, no habría necesidad de
elaborar distintas pruebas con nombres distintos.
Una solución para estas situaciones, si queremos ser precavidos, es recurrir a la técnica del
análisis factorial 2. Si todos los ítemes saturan un único factor, no hay problema y se aplica Alpha
sin más. En caso contrario, si los ítemes se reparten en varios factores, será cuestión de definir
primeramente tales factores, y a continuación tratarlos como pruebas distintas que configuran un
aspecto global. Aquí, si deseamos la fiabilidad del test total, habremos de aplicar (2.17).
Ejemplo 2.4.- Tengamos un test formado a su vez por tres subtest, a saber, A, B y C. El subtest
A es una prueba de razonamiento formada or 5 ítemes valorados por 1 y 0 según la espuesta sea
o no correcta. El subtest B, compuesto por 3 ítemes, hace referencia a la memoria, y en cada uno
de los ítemes se refleja el número de objetos recordados sobre un total de 10. Y, por último, el
subtest C, relativo a la compensión verbal, está formado por 4 ítemes valorados por 1 y 0, según
se reconozca o no la palabra expuesta. Los datos vienen expresados en la siguiente tabla:
40
SUBTEST A SUBTEST B SUBTEST C
Sujeto 1 2 3 4 5 TA 1 2 3 TB 1 2 3 4 TC
+)))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))))), * 1 1 1 0 1 1 4 5 7 9 21 1 1 1 1 4 * * 2 0 1 1 1 0 3 8 9 10 27 0 0 0 0 0 * * 3 1 1 1 1 1 5 1 2 1 4 1 1 1 0 3 * * 4 1 1 1 0 1 4 7 6 5 18 0 1 1 0 2 * * 5 1 1 0 1 1 4 3 2 3 8 1 0 0 1 2 * * 6 0 0 0 0 1 1 7 8 7 22 0 1 0 0 1 * * 7 0 1 1 1 0 3 10 9 9 28 0 1 1 1 3 * * 8 1 0 0 0 0 1 5 4 6 15 1 0 1 0 2 * * 9 1 0 1 1 1 4 4 4 3 11 0 1 0 1 2 * * 10 1 0 0 1 1 3 6 5 4 15 1 1 0 1 3 *
TABLA 2.4. Ilustración del coeficiente Alpha para un test compuesto de varios subtests
jn
j'1pjqj' 1.120 σ2x
A' 1.560
ITEM
1 2 3 4 5
S))))))))))))))))))))))))))))Q
pj 0.7 0.6 0.5 0.7 0.7
qj 0.3 0.4 0.5 0.3 0.3
pjqj 0.21 0.24 0.25 0.21 0.21
S))))))))))))))))))))))))))))Q
TABLA 2.5. Varianzas del Subtest A
KR20
'n
n&11 &
jn
j'1
pjq
j
σ2x
'5
41 &
1.120
1.560' 0.353
En relación al subtest A tenemos:
En consecuencia:
En relación al Subtest B:
41
jn
j'1σ2j ' 20.490
ITEM
1 2 3 Total +))))))))))))))))))))))))))))))), Varianzas *6.040 6.240 8.210 55.690 * .)))))))))))))))))))))))))))))))-
TABLA 2.6. Varianzas del Subtest B
α 'n
n&11 &
jn
j'1
σ2j
σ2x
'3
21 &
20.490
55.690' 0.948
jn
j'1pjqj' 0.960 σ2x
C' 1.160
ITEM
1 2 3 4
S)))))))))))))))))))))))Q
pj 0.5 0.7 0.5 0.5
qj 0.5 0.3 0.5 0.5
pjqj 0.25 0.21 0.25 0.25
S)))))))))))))))))))))))Q
TABLA 2.7. Varianzas del Subtest C
KR20
'n
n&11 &
jn
j'1
pjq
j
σ2x
'4
31 &
0.960
1.160' 0.230
Por tanto:
Y en relación al Subtest C:
Su fiabilidad será:
Para calcular la fiabilidad del test compuesto, hemos de configurar la siguiente tabla con las
42
SUBTEST
Sujeto A B C TOTAL +))))))))))))))))))))))))))))))))))))), * 1 4 21 4 29 * * 2 3 27 0 30 * * 3 5 4 3 12 * * 4 4 18 2 24 * * 5 4 8 2 14 * * 6 1 22 1 24 * * 7 3 28 3 34 * * 8 1 15 2 18 * * 9 4 11 2 17 * * 10 3 15 3 21 * .)))))))))))))))))))))))))))))))))))))-
TABLA 2.7. Puntuaciones totales de los subtests y del test completo
ITEM
1 2 3 Total +))))))))))))))))))))))))))))))), Varianzas *1.560 55.690 1.160 47.010 * .)))))))))))))))))))))))))))))))-
TABLA 2.9. Varianzas del test compuesto
ρXX´
'1&j
k
j'1
σ2xj&j
k
j'1
σ2xjρ
jj´
σ2X
'1&58.41& (1.56(0.353%5.569(0.948%1.16(0.23)
47.01' 0.898
puntuaciones totales de cada subtest junto con las puntuaciones totales del test:
Cuyas varianzas son:
Aplicando (2.17):
43
α 'n
n&11 &
jn
j'1
σ2j
σ2x
'3
21 &
58.410
47.010' &0.364
Obsérvese que la fiabilidad resultante es bastante aceptable. Si nos hubiéramos sentidos tentados
a aplicar Alpha el resultado obtenido hubiera sido el siguiente:
El valor del coeficiente de fiabilidad es de baja cuantía y negativo, lo que indica ausencia de
consistencia interna entre los subtests de la prueba. Esta situación es razonable, ya que si se ha
dividido el test compuesto en subtests es porque éstos son distintos entre sí. No cabe esperar, en
consecuencia, unidimensionalidad entre ellos, y no es correcto, en este caso, aplicar Alpha.
2.5.- Fiabilidad desde la perspectiva del análisis de la varianza
No es nuestra intención profundizar aquí en la aplicaciones del análisis de la varianza y sus
relaciones con la fiabilidad, ya que esta materia será objeto de estudio más adelante en la Teoría
de la Generalizabilidad. Tan sólo decir que desde la perspectiva de dicha teoría los
planteamientos clásicos expuestos quedan encuadrados en un marco de referencia más amplio,
exento de algunas de las serias limitaciones impuestas a la TCT. Como se sabe, el enfoque clásico
asume algunos supuestos, tales como el paralelismo de los tests o bien una cierta consideración
unívoca del error de medida, aspectos ambos que difícilmente se cumplen en la realidad. La
consecuencia de ello es que a TCT carece de la flexibilidad necesaria para adaptarse a las posibles
situaciones que puedan presentarse en la medición.
El análisis de la varianza, por su mismo cometido, contempla las distintas fuentes de variabilidad
de los datos de observación, tanto la debida a los individuos como a los tratamientos -ítemes-,
o incluso si se aplican los mismos tratamientos en diferentes ocasiones tendremos la oportunidad
de estudiar el efecto de la memoria o el aprendizaje en la ejecución de lo sujetos y distinguirlo
de los otros componentes de variación. De esta forma quedará obviada el supuesto de paralelismo
y el error quedará marginado a reductos cada vez más estrechos, ofreciéndosenos la oportunidad
de distinguir lo realmente relevante de lo insustancial.
Por lo que aquí respecta, nos limitaremos a uno de los enfoques más sencillo del análisis de la
varianza: el modelo de un factor para medidas repetidas, también definido como un diseño
44
ρxx´
'σ
2p & σ
2e
σ2p
(2.18)
Items
Personas 1 2 ... i ... n Medias )))))))))))))))))))))))))))))))))))))))))))))))))) _ 1 X11 X12 X1i ... X1n P1 _ 2 X21 X21 X1i ... X2n P2 ............................................. _ p Xp1 Xp2 Xpi ... Xpn Pp ............................................. _ N XN1 XN2 XNi ... XNn PN )))))))))))))))))))))))))))))))))))))))))))))))))) _ _ _ _ _ Medias I1 I2 Ii In X S)))))))))))))))))))))))))))))))))))))))))))))))))Q
TABLA 2.10. Matriz de datos para N personas y n ítems
Xpi' X % (P
p& X) % (I
i& X) % (X
pi& P
p& I
i% X) (2.19)
cruzado p*i, siendo p las personas e i las condiciones de medida (ítemes). Aplicaremos este tipo
de modelos para obtener el coeficiente de fiabilidad entendido como cociente entre la varianza
verdadera (de las puntuaciones de las personas) y la varianza empírica. Se tendrá la ocasión de
comprobar su coincidencia con el coeficiente Alpha de Crombach. Así:
A este respecto, tengamos la siguiente tabla:
La puntuación Xpi queda descompuesta de la siguiente manera:
donde:
45
X : media global
Pp& X : efecto atribuible a la persona
Ii& X : efecto atribuible al ítem
Xpi& P
p& I
i% X : residuo una vez eliminado el efecto debido
a la persona y al ítem
Xpi' µ % (µ
p&µ) % (µ
i&µ) % (X
pi&µ
p&µ
i%µ) (2.20)
Xpi& µ ' (µ
p&µ) % (µ
i&µ) % (X
pi&µ
p&µ
i%µ) (2.21)
jn
i'1j
n
i'1
(Xpi& µ)2 ' nj
n
p'1
(µp&µ)2 % Nj
n
i'1
(µi&µ)2 % j
n
i'1j
n
i'1
(Xpi&µ
p&µ
i%µ)2 (2.22)
En términos del modelo lineal general:
A partir de esta ecuación podemos obtener la siguiente:
En términos de suma de cuadrados:
con cuyos datos configuraremos la siguiente tabla referida al análisis de la varianza:
46
njn
p'1
(µp&µ)2
σ2p
kjn
i'1
(µi&µ)2 σ
2i
jk
i'1j
n
i'1
(Xpi&µ
p&µ
i%µ)2
σ2e
jk
i'1j
n
i'1
(Xpi& µ)2
Fuente de Grados de Suma de Varianza variación libertad cuadrados
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))) Personas n-1 Items k-1 Residual (n-1)(k-1) Total n(k-1) )))))))))))))))))))))))))))))))))))))))))))))))))))))))))
Tabla 2.11. Análisis de la varianza
Item Sujeto 1 2 3 4 5 6 Medias +))))))))))))))))))))))))))))))))))))))))))))))))))))))))), * 1 1 2 2 1 1 1 1.333 * * 2 3 2 3 3 1 2 2.333 * * 3 4 3 3 4 4 2 3.333 * * 4 2 1 1 2 1 1 1.333 * * 5 4 5 5 5 3 2 4 * * 6 2 3 2 2 2 1 2 * * 7 3 3 4 3 2 1 2.667 * * 8 5 4 4 3 4 3 3.833 * .)))))))))))))))))))))))))))))))))))))))))))))))))))))))))- Medias 3 2.875 3 2.875 2.25 1.625 2.604
TABLA 2.12. Medias por personas e ítemes sobre los datos del ejemplo 2.2.
Ejemplo 2.5.- Calcular el coeficiente de fiabilidad mediante el análisis de la varianza tomando
como referencia los datos del ejemplo 2.2.
SOL:
Configuremos la siguiente tabla:
47
kjn
p'1
(µp&µ)2 ' 6 (1.333&2.604)2%...%(3.833&2.604)2 ' 45.979
njk
i'1
(µp&µ)2 ' 8 (3&2.604)2%...%(1.625&2.604)2 ' 12.352
jn
p'1j
k
i'1
(Xpi& µ)2 ' (1&2.604)2%...%(3&2.604)2 ' 73.479
jn
p'1j
k
i'1
(Xpi& µ
p&µ
i%µ)2 ' j
n
p'1j
k
i'1
(Xpi& µ)2& kj
n
p'1
(µp&µ)2%nj
k
i'1
(µi&µ)2 '
' 73.479&(45.979%12.352) ' 15.146
Fuente de Suma de Grados de Varianza variación cuadrados libertad
S))))))))))))))))))))))))))))))))))))))))))))))))))))))))) Personas 45.479 7 6.5 Itemes 12.352 5 2.47 Residual 15.146 35 0.433 Total 73.479
Tabla 2.13. Cálculo del coeficiente de fiabilidad mediante el análisis de la varianza
Sobre estos datos, calculemos la suma de cuadrados entre las personas:
La suma de cuadrados entre ítemes será:
La suma de cuadrados total:
Y la suma de cuadrados residual será:
En consecuencia:
48
V ' α % βX ' (1 & ρ2xv)X % ρ
2xvX (1.21)
V ' α % βX ' (1 & ρxx´
)X % ρxx´
X (2.23)
v ' βx ' ρxx´
x (2.24)
Zv' ρ
vxZ
x' ρ
xx´Z
x (2.25)
Se observa que su valor coincide con el coeficiente Alpha obtenido anteriormente.
2.6.- Estimación de las puntuaciones verdaderas
Aunque la puntuación verdadera de un sujeto nunca es manifiesta, puede ser inferida a partir de
las puntuaciones observadas. Tal como se expuso en la expresión (1.21), la ecuación que liga las
puntuaciones verdaderas y empíricas es:
Desconocemos también aquí el valor de , pero como se sabe, puede ser estimado a partirρ2vx
de ρxx´. Por tanto:
En puntuaciones diferenciales, prescindiremos de la ordenada en origen:
Y en puntuaciones estandarizadas:
Se observa, por cuanto ρxx´ suele ser menor que cero, que los valores estimados para puntuaciones
diferenciales y estandarizadas seran menores que sus puntuaciones empíricas correspondientes,
lo que se traduce, en puntuaciones directas, que los valores predichos estarán más proximos a la
media del grupo (mayor cuanto menor sea ρxx´). Aunque a nivel global se comprueba que la media
de las puntuaciones verdaderas coincide con las empíricas, no sucede otro tanto cuando se trata
de pronosticar V a partir de ciertos valores de X. Se debe al conocido efecto (en su sentido
etimológico) de la regresión, entendida como regresión a la media. Para una mejor comprensión
de este efecto regresión, ver Freedman y otros (1978), págs. 200-206).
Las ecuaciones anteriores premiten establecer estimaciones puntuales de V. Más conveniente es,
como se sabe, recurrir a estimaciones por intervalo. De esta forma, la puntuación verdadera se
encontrará entre los siguientes límites:
49
V± t(n&1,α)
σv.x (2.26)
σv.x ' σ
x1&ρ
xx´ρ
xx´ (2.27)
σ2v.x ' E v& v 2 ' E v&ρ
xx´x 2 ' E(v)2 % ρ
2xx´E(x 2) & 2ρ
xx´E(vx)
' σ2v % ρ
xx´σ
2x & 2ρ
xx´σ
xσ
vρ
vx
σ2v ' ρ
xx´σ
2x
ρvx
' ρxx´
'σ
v
σx
σ2v.x ' ρ
xx´σ
2x % ρ
2xx´σ
2x & 2ρ
xx´σ
vσ
x
σv
σx
'
' ρxx´
σ2x % ρ
2xx´σ
2x & 2ρ
2xx´ σ
2x '
' ρxx´
σ2x & ρ
2xx´σ
2x ' ρ
xx´σ
2x (1&ρ
xx)
σv.x ' σ
x(1&ρ
xx) ρ
xx´
siendo σv.x la desviación tipo de las diferencias . Su valor es el siguiente:V& V
Efectivamente, utilizando puntuaciones diferenciales:
Pero de (1.13) se deduce:
Y por otro lado
Así pues:
En consecuencia:
Esta misma expresión, en términos del error tipo de medida:
50
σv.x ' σ
eρ
xx´ (2.28)
σZv.Zx
' (1&ρxx´
)ρxx´ (2.29)
V ' α % βX ' (1 & ρxx´
)X % ρxx´
X ' (1&0.934)(15.625 % 0.934(18 ' 17.843
σv.x ' σ
x1&ρ
xx´ρ
xx´' 5.872 1&0.934 0.934 ' 1.458
En puntuaciones diferenciales las fórmulas (2.27) y (2.28) se mantienen exactamente iguales, ya
que tal cambio de escala, como se sabe, no afecta ni a la varianza ni al coeficiente de fiabilidad.
Por el contrario, en puntuaciones estandarizadas, el coeficiente de fiabilidad, como correlación
no se verá alterado, pero sí la varianza, cuyo valor será la unidad. Por tanto:
Ejemplo 2.6.- Sobre los datos del ejemplo 2.2, determinar, con un intervalo de confianza del
0.95, la puntuación verdadera de un sujeto que ha obtenido en la prueba una puntuación de 18
puntos. Ofrecer los resultados en: a) puntuaciones directas, b) diferenciales y c) típicas.
SOL:
a) Puntuaciones directas. Determinemos, primeramente, la puntuación verdadera estimada
para dicho sujeto:
Por otro lado:
En consecuencia, la puntuación verdadera se encontrará entre los siguientes límites (con una
probabilidad de 0.95):
51
V& t(5,0.05)
σv.x
' 17.843&2.571(1.458 ' 14.094
V% t(5,0.05)σv.x ' 17.843%2.571(1.458 ' 21.592
x ' 18&15.625 ' 2.375
v ' βx ' ρxx´
x ' 0.934(2.375 ' 2.218
v& t(5,0.05)
σv.x
' 2.218&2.571(1.458 ' &1.530
v% t(5,0.05)σv.x ' 2.218%2.571(1.458 ' 5.967
Zx'
18&15.625
5.872' 0.404
Zv' ρ
xx´Z
x' 0.934(0.404 ' 0.391
b) Puntuaciones diferenciales. Para un sujeto que haya obtenido 18 puntos su puntuación
diferencial será:
Su puntuación verdadera estimada:
Y los límites para la puntuación verdadera, al nivel de confianza de 0.95 :
c) Puntuaciones típicas. Para dicho sujeto su puntuación típica será:
Su puntuación verdadera estimada:
En este caso el error tipo de estimación será:
52
σZv.Zx
' (1&ρxx´
)ρxx´
' (1&0.934)(0.934 ' 0.248
Zv& t
(5,0.05)σ
Zv.Zx' 0.391&2.571(0.248 ' &0.247
Zv% t
(5,0.05)σ
Zv.Zx' 0.391%2.571(0.248 ' 1.029
Y los límites para la puntuación verdadera tipificada, al nivel de confianza de 0.95 :
52
. ..
.
..
...
. .. .
..
.
.
.
..
.
.
..
.
.
.
..
.
..
..
...
.
..
.
.
.
.
..
...
....
..
.
.
.
..
..
.
..
..
.
...
. ...
..
.
...
..
.
.
.
....
.. .
..
.
... .
..
. .
. ... ...
. ..
..
.
.. .
..
...
. ..
. .. .
.
.
.... .
.
. .....
...
.. .
...
..
.
.
..
.
..
..
... ..
.
.. .
.. .
... .
.. .
.. ..
Figura 4.9.- Efecto de la variabilidad sobre la correlación
2.7.- Factores que afectan al coeficiente de fiabilidad
Trataremos en las próximas páginas los factores más relevantes que inciden sobre el valor del
coeficiente de fiabilidad de un determinado test: variabilidad de la muestra, longitud del test,
limitación del tiempo y características de los items.
Como puede observarse, algunos de estos factores hacen referencia, como cabría esperar, a los
elementos constituyentes del test (longitud del test y características de los items), pero otros son ajenos
al mismo (variabilidad de la muestra y limitación del tiempo). Todo ello implica una cierta paradoja
con respecto a la variabilidad de la muestra, por cuanto hace depender la precisión de un test no sólo
de sí mismo sino de aquello que mide, lo que da lugar a tantas fiabilidades como muestras potenciales
a las que se aplique el test.
2.7.1.- Fiabilidad y variabilidad de la muestra
Como acaba de indicarse el coeficiente de fiabilidad, como en un principio podría suponerse, no
depende exclusivamente de las características intrínsecas del instrumento de medida, sino que también
depende de ciertos aspectos externos como son la variabilidad del grupo sobre el que se efectúa la
medición. Esta circunstancia da lugar a que no exista un único coeficiente de fiabilidad para cada test
sino tantos como muestras a las que se aplique. Es importante destacar este aspecto por cuanto implica
que el profesional de psicología, a la hora de aplicar un determinado test, no ha de conformarse con
el coeficiente de fiabilidad que venga indicado en el manual de referencia de dicho test en cuestión,
sino que ha de adaptarlo a su propia muestra, según explicaremos en las próximas líneas.
El coeficiente de fiabilidad, como un coeficiente de correlación que es, viene afectado por las
varianzas de las variables consideradas, en el sentido de que a mayor variabilidad de las mismas,
mayor correlación.
Supóngase a este respecto, que correlacionamos entre sí dos pruebas de inteligencia. En el gráfico de
la fig. 4.9. se observa que si consideramos todo el rango de variación para ambas variables, la nube
de puntos resulta un tanto estilizada, expresándose un cierto grado de correlación. Si extraemos una
submuestra de los datos originales (rango de variabilidad menor), comprobaremos igualmente, que ésta
resulta más redondeada, y en consecuencia, el grado de correlación será menor que cuando se
contempla el rango completo.
53
ρxx´
'σ
2
v
σ2
x
'σ
2
v
σ2
v % σ2
e
σ2
e1' σ
2
1 1&ρ11´
σ2
e2' σ
2
2 1&ρ22´
Var(e*v) ' σ2
e
σ2
1 1&ρ11´
' σ2
2 1&ρ22´
En otros términos, es fácil entender que si los sujetos son significativamente distintos entre sí
(variabilidad alta) en cuanto a inteligencia, tenderán a mantenerse las posiciones relativas en ambas
pruebas y el coeficiente de correlación será, por consiguiente, alto. Por el contrario, para un grupo de
personas muy similares entre sí en cuanto a inteligencia, será relativamente fácil alterar sus posiciones
en ambas pruebas, ya que hay otros factores variables que inciden en este rendimiento, obteniéndose
un coeficiente de correlación más bajo.
En este sentido, la misma fórmula original, utilizada para definir el coeficiente de fiabilidad, puede
ser ilustrativa para expresar lo que estamos comentando. Como se sabe por ecuación 2.14:
(2.35)
Dado que la varianza del error es lo único constante y característico de un determinado test, en la
medida en que los sujetos realmente difieren entre sí en el atributo que se mide, el numerador
representa una mayor proporción de varianza total; y, portanto la fiabilidad es mayor. Por el contrario,
en la medida que los sujetos sean semejantes entre sí en sus puntuaciones verdaderas, mayor parte de
su varianza es debida al error de medida, y, por tanto, el coeficiente de fiabilidad es menor.
Supongamos, a este respecto, que tenemos dos poblaciones con varianzas en el test en cuestión cuyos
valores son y respectivamente. Por otro lado, sus coeficientes de fiabilidad asociados son ρ11´σ2
1 σ2
2
y ρ22´. Esto supuesto, tendremos que las varianzas de los errores para ambas poblaciones es:
(2.36)
Por otro lado, la condición de homocedasticidad implica que la varianza de los errores se mantiene
constante para cualquier valor del rasgo medido. Así:
(2.37)
Igualando, en consecuencia, las ecuaciones de (2.36):
(2.38)
54
ρ22´
' 1 &σ
2
1
σ2
2
1&ρ11´ (2.39)
σ2
e2# σ
2
e1
ρ22´
# 1 &σ
2
1
σ2
2
1&ρ11´
Despejando ρ22´
Esta fórmula ha de aplicarse con ciertas precauciones (Lord y Novick, págs. 130-131), ya que no
siempre se cumple el supuesto de homocedasticidad, en especial cuando ρ22´ se obtiene a partir de la
subpoblación donde se extrajo ρ11´.
En estas circunstancias:
(2.40)
Lo que da lugar a que:
(2.41)
Una buena idea con carácter preventivo (Gulliksen, 1950, pág. 111) consiste en comprobar mediante
la prueba de comparación de varianzas, si se cumple la igualdad merced a las ecuacionesσ2
e1' σ
2
e2
indicadas en (2.36), esto es, en base a los cálculos de y . σ2
1 1&ρ11´
σ2
2 1&ρ22´
2.7.2.- Fiabilidad y longitud del test
Otro aspecto que juega un papel importante en el valor de la fiabilidad de un test es el número de items
que lo configuran, en el sentido de que cuanto mayor sean el número de elementos del test mayor será
su fiabilidad.
Desde el supuesto que toda medición conlleva un cierto error aleatorio, es lógico considerar que cuanto
mayor sea el número de mediciones (items) más compensados quedarán tales errores aleatorios (unos
positivos y otros negativos) lográndose cada vez más una suma de cero para estos errores, y logrando,
en consecuencia, un valor empírico (con el conjunto de items) más próximo al valor verdadero.
No obstante, hay que decir que sólo hasta un cierto punto podremos mejorar la fiabilidad de un test
en base al incremento del número de items, y que no es suficiente, como veremos más adelante, con
aumentar dicho número para lograr la fiabilidad deseada. Además nunca podremos llevar la cantidad
de items demasiado lejos, por cuanto incrementaremos igualmente la fatiga de los sujetos examinados,
lo que a su vez, incidirá en un mayor error en la respuesta, invalidándose así nuestros propósitos
55
ρXX´
'kρ
xx´
1% (k&1)ρxx´
ρxx´
'σ
2
v
σ2
x
σ2
v ' σ2 v1%v
2% ...%v
k'j
k
i'1
σ2
vj% j
k
j'1j
k
h'1
σvjvh
' kσ2
v%k(k&1)σ2
v ' k 2σ2
v
σ2
x ' σ2 x1%x
2% ...%x
k' j
k
i'1
σ2
xj% j
k
j'1j
k
h'1
σxjxh
'
' Kσ2
x%k(k&1)ρxjxh
σjσ
h' kσ
2
x%k(k&1)ρxx´
σ2
x
originales. Otra limitación importante es que se entiende que los items añadidos han de ser paralelos
o equivalentes, objetivo no siempre fácil de conseguir. No obstante, a pesar de estos inconvenientes,
merece destacarse la importancia del incremento de la longitud del test como procedimiento para
mejorar la fiabilidad del mismo.
La fórmula que nos permite conocer el efecto que sobre la fiabilidad ejerce el hecho de multiplicar
por k el número de items iniciales es la ya citada de Spearman-Brown.
Su expresión es:
(2.42)
Siendo ρXX´ fiabilidad final lograda a partir de la fiabilidad inicial ρxx´, y "k" es el número de veces que
el test resultante contiene la longitud del test original.
Para su demostración partamos de la definición conocida de fiabilidad como cociente entre la varianza
verdadera y la empírica (recordar la expresión 2.14):
y veamos el efecto que tiene tanto sobre la varianza verdadera como la empírica el hecho de
multiplicar por k la longitud inicial.
En relación a la varianza verdadera:
(2.43)
ya que, bajo el supuesto de pruebas paralelas, coincidirán sus puntuaciones verdaderas (las varianzas
serán todas iguales y las covarianzas coincidirán con sus varianzas).
En relación a la varianza empírica:
(2.44)
ya que por paralelismo, las varianzas (y desviaciones tipo) empíricas serán todas iguales, y las
correlaciones entre pruebas paralelas coincidirán con el coeficiente de fiabilidad.
56
ρXX´
'σ
2
V
σ2
X
'k 2σ
2
v
kσ2
x%k(k&1)ρxx´
σ2
x
'k 2σ
2
v
kσ2
x 1% (k&1)ρxx´
'kρ
xx´
1% (k&1)ρxx´
1 2 3 4 5 6 7 8 9 10
0
0,2
0,4
0,6
0,8
1
k
ρxx´
Figura 2.10.- Efecto de la longitud del test sobre su fiabilidad
Sustituyendo (2.43) y (2.44) en (2.14) obtendremos la fórmula de Spearman-Brown citada (ver
expresión 2.45):
(2.45)
Resulta interesante representar gráficamente cómo varía la fiabilidad en función de los valores de k.
En este sentido, ofrecemos a continuación el efecto del aumento de la longitud sobre tres supuestos
tests, A, B y C, cuyos coeficientes de fiabilidad son respectivamente 0.2, 0.5 y 0.8.
Se observa en el anterior gráfico que cuanto mayor es el valor de k mayor será su fiabilidad, pero que
la ganancia observada no es proporcional al valor de la longitud del test, sino que por el contrario, la
variación es decreciente, lo que sugiere que a partir de un cierto punto no es rentable invertir en items
añadidos. Aquí, como en otros órdenes de la vida, hay una cierta relación coste-beneficio que hay que
tener presente en todo momento si no queremos invertir todas nuestras energías en prácticamente nada.
De ello se deduce que la fórmula de Spearman-Brown no es una pócima mágica para hacer fiables tests
carentes de toda precisión. Lo razonable es fabricar ya de partida un buen instrumento de medida, que
obviamente sea susceptible de mejora, también por este procedimiento. Aunque como veremos, un
buen test podría reducir su contenido si esto facilita su manejo y la pérdida de precisión no es
importante. En este sentido, el valor de k, como se tendrá ocasión de comprobar, puede ser menor que
la unidad.
57
ρXX´
'kρ
xx´
1% (k&1)ρxx´
'3(0.87
1%(3&1)(0.87' 0.95
k 'ρ
XX´(1&ρ
xx´)
ρxx´
(1&ρXX´
)
Ejemplo 2.7.- Un test, cuyo coeficiente de fiabilidad vale 0.87 se ha hecho 3 veces mayor. Calcular
su nueva fiabilidad.
SOL:
Apliquemos la fórmula (2.33):
Ejemplo 2.8.- Un test compuesto por 25 elementos y curo coeficiente de fiabilidad es 0.75 se ha
incrementado en 40 items bien construidos y paralelos s loa anteriores. Calcula la nueva fiabilidad.
SOL:
Si originalmente tenemos 25 y le añadimos 40 más, disponemos al final de 65 items. El incremento
habrá sido:
k '65
25' 2.6
En consecuencia, la fiabilidad alcanzada será:
2.7.2.1.- Cálculo de la longitud de un test para lograr una fiabilidad prefijada
Puede sernos de interés, dado un cierto test, lograr un determinado nivel de fiabilidad que hayamos
establecido de antemano. Para ello deberemos conocer el número de items que habremos de añadir a
los existentes. A este respecto podemos recurrir a la fórmula de Spearman-Brown con tan sólo
despejar k de la fórmula (2.33). De esta forma obtendremos la siguiente expresión:
k '65
25' 2.6
Ejemplo 2.9.- Tengamos un test compuesto por 50 items y cuya fiabilidad sea 0.8. ¿En cúantos items
deberíamos incrementarlo para conseguir una fiabilidad de 0.9?
SOL: k '65
25' 2.6
58
ρXX´
'kρ
xx´
1% (k&1)ρxx´
'0.667(0.95
1%(0.667&1)(0.95' 0.927
50(2.25 ' 112.5 – 113 items
k '100
150' 0.667
113 & 50 ' 63 items
Apliquemos la expresión (2.36):
Si inicialmente disponíamos de 50items, ahora pasaremos a tener:
En consecuencia, habremos de añadir:
2.7.2.2.- Reducción de la longitud de test
Normalemente la fórmula de Spearman-Brown se utiliza para mejorar la fiabilidad de un test, dándose
por entendido que el valor de k es superior a la unidad, pero nada impide que deseemos optimizar un
determinado test relativamente largo y lo hagamos más manejable reduciendo elementos, si esto no
implica una merma sustancial de su fiabilidad.
Ejemplo 2.10.- Tengamos un test compuesto por 150 items cuya fiabilidad es 0.95. Supongamos que
por diferentes razones estimamos que no es conveniente aplicar más de 100 elementos, ¿Cuál será la
fiabilidad si eliminamos 50 items del mismo?
SOL:
En este caso k será:
Aplicando Spearman-Brown:
Se observa que la fiabilidad es bastante aceptable.
Ejemplo 2.11.- Supongamos que disponemos de los datos del problema anterior, pero en este caso nos
conformamos con una fiabilidad de 0.9. ¿Cuántos elementos deberemos eliminar?
SOL:
59
k 'ρ
XX´(1&ρ
xx´)
ρxx´
(1&ρXX´
)'
0.9((1&0.95)
0.95((1&0.9)' 0.474
150(0.474 ' 71.053 – 71 items
150 & 71 ' 79 items
Apliquemos (2.36):
La longitud final será:
En consecuencia, habremos de suprimir:
2.7.3.- Fiabilidad y limitación del tiempo de aplicación del test
A este respecto, hemos de distinguir previamente los test de velocidad de los test de potencia. Los tests
de velocidad se caracterizan por el contenido de items todos ellos de fácil resolución, donde se valora
exclusivamente la rapidez de ejecución de los mismos. Por el contrario, en los test de potencia, los
items son de diferente complejidad, y lo que cuenta es la capacidad intelectual -poder mental- de los
sujetos en su resolución. Normalmente, los tests suelen ser mixtos, en el sentido de que se aplican en
un determinado intervalo de tiempo (aunque, no de forma muy restrictiva), pero, a su vez, los items son
de dificultad creciente. Existen toda una serie de indicadores que permiten conocer los índices de
velocidad/potencia para cada test en cuestión. Aquí no los mencionaremos, pero puede encontrarse una
exposición de los fundamentales en Martínez Arias (1995, págs. 88-90) o bien en Muñiz (1994, págs.
34-36).
La fiabilidad, debida a la escasez de tiempo, queda afectada, es obvio decirlo, en los tests donde la
velocidad es un factor a considerar. Y puede quedar afectada de diferentes maneras. Si se aplica, por
ejemplo, el método de las dos mitades, de forma tal que se correlaciona la primera mitad de los items
con la segunda mitad, entonces, está claro, que en esta segunda parte habrá más items no contestados,
que puntuarán como cero, lo que dará lugar a una baja fiabilidad (menor cuanto mayor sea el índice de
velocidad/potencia, esto es, cuanto más fáciles sean los items). Cuando se utiliza el método de las dos
mitades correlacionando elementos pares con los impares, diseño de emparejamiento que es el más
frecuente para equilibrar en ambas mitades el efecto de la fatiga, entonces la rapidez de respuesta de
los sujetos se acumula a la fiabilidad propiamente dicha del test y da como resultado un coeficiente de
fiabilidad sobrevalorado. En los ejemplos prácticos del tema dos, cuando se realiza el análisis de items
de las distintas subescalas del PMA con los alumnos de Psicometría, se puede ampliar este aspecto y
comprobar cómo, hasta cierto punto, se puede comprobar que con sujetos de nivel Universitario estas
subescalas miden velocidad de respuesta más que habilidades intelectuales concretas. En este caso,
cuanta más falta de tiempo haya, más items valdrán cero, y en consecuencia, mayor será la correlación
entre ellos, resultando una fiabilidad sobredimensionada.
En los tests de velocidad, donde se entiende que los items son fáciles, lo que cuenta es la rapidez. Y si
es la rapidez lo que medimos, necesitaremos varias medidas de dicha rapidez para conocer la fiabilidad
60
σ2
X ' Cov(X,X) ' Cov X, jk
j'1
xj
' jk
j'1
Cov X,xj' j
k
j'1
σXσ
jρ
jX
σX' j
k
j'1
σjρ
jX
de nuestro test. De donde se deduce que son los procedimientos del test-retest y de formas paralelas
(con las limitaciones de tales métodos, ya comentadas), los recomendables para medir la fiabilidad de
este tipo de tests.
2.7.2.- Fiabilidad y características del ítem
Es evidente que la fiabilidad de un test, como suma de un conjunto de items, dependerá de las
naturaleza de éstos. Hablando con propiedad, depende de tales items y las relaciones entre ellos. Hasta
ahora, hemos hablado exclusivamente de la fiabilidad como correlación, pero por aquello de que todo
conjunto es mayor que la suma de las partes, habremos considerar también tales partes y no sólo sus
interrelaciones.
Es importante la naturaleza de cada ítem, por cuanto de la calidad de los elementos constituyentes
derivará la bondad del conjunto. Además, cuanto mejor construidos estén los items, menor número de
ellos necesitaremos para configurar un buen test, logrando de esta forma un instrumento más sencillo
y de más fácil aplicación.
Trataremos aquí, tres aspectos constitutivos de los items que inciden sobre la fiabilidad del test, a
saber: a) el índice de discriminación, b) el índice de fiabilidad y c), el índice de dificultad. Todos ellos
afectan, como veremos, a la varianza total del test, que como se ha tratado al comienzo de este capítulo
incide sobre la fiabilidad del mismo, ya que siempre se pretende que el test sea suficientemente sensible
y detecte diferencias entre los sujetos por muy pequeñas que sean, sobre todo en tests referidos a la
norma. Para un tratamiento más extenso del Análisis de Items remitimos al lector al tema dos.
Se define como índice de discriminación del ítem a la correlación entre las puntuaciones de un
determinado ítem y las puntuaciones totales del test. Se entiende que el test sirve para discriminar entre
unos sujetos y otros en relación a un cierto rasgo de interés, de forma tal que permita distinguir aquello
sujetos que presentan un nivel alto de aquellos otros más bajos en dicho rasgo. Según esto, si la
correlación de un determinado ítem con el conjunto del test es elevado, dicho ítem contribuirá
igualmente a distinguir unos sujetos de otros, de ahí su nombre. A este índice se le suele llamar también
índice de homogeneidad, por cuanto expresa la contribución de dicho ítem a medir lo mismo que es test
en su conjunto.
Veamos cómo el índice de discriminación del ítem afecta a la varianza total del test. Como se sabe, la
varianza de una determinada variable no es más que la covarianza de dicha variable consigo misma. Y
considerando que la puntuación total del test equivale a la suma de las puntuaciones de los items,
tendremos:
(2.46)
Y simplificando:
(2.47)
61
σj' p
j(1&p
j) ' p
jq
j
σX' j
k
j'1
ρjX
pjq
j
α 'n
n&11 &
jn
j'1
pjq
j
jn
j'1
ρjX
pjq
j
2
α 'n
n&11 &
jn
j'1
σ2
j
jk
j'1
σjρ
jX
2
Se observa que la desviación tipo del test depende de las desviaciones tipo de los distintos items y de
los coeficientes de discriminación de éstos. Al producto de σjρjX se le denomina, precisamente, índice
de fiabilidad del ítem. De esta forma, la desviación tipo del test equivale a suma de los índices de
fiabilidad de los diferentes items.
Por otro lado, en lo que se refiere a la desviación tipo de los items, se sabe que si operamos en
puntuaciones dicotómicas:
(2.48)
donde pj hace referencia a la proporción de " unos" -esto es, proporción de aciertos- existentes en tales
items. Si tomamos este valor como indicativo del índice de dificultad para cada ítem, tendremos que:
(2.49)
Si deseamos saber cómo afectan estos valores (índice de discriminación, de fiabilidad y dificultad)
sobre la fiabilidad, por ejemplo, sobre el coeficiente Alpha:
(2.50)
Si operásemos con datos cuantitativos, prescindiremos del índice de dificultad tal como aquí ha sido
definido, obteniendo:
(2.51)
lo que pone de manifiesto de qué forma la dificultad de los items afectan a la fiabilidad global del test
(supuesto índices de discriminación diferentes de cero). En este sentido cuanto mayor sea la varianza
de los ítems, así como su índice de discriminación, mayor es el coeficiente de fialidad del test.
62
2.8.- Valoración de los distintos coeficientes de fiabilidad
Básicamente hay dos conceptos de fiabilidad: a) la fiabilidad como consistencia de las medidas, b) la
fiabilidad como estabilidad en el tiempo. El primer tipo de fiabilidad se logra, tras una única aplicación
del test, mediante las correlaciones entre los distintos items de dicho test o agrupaciones de los mismos
(especialmente, en dos mitades). El segundo tipo de fiabilidad se consigue tras distintas aplicaciones
(habitualmente dos) bien del test o de formas paralelas (o alternativas), y calculando la correlación entre
ellas.
Hay que decir que ambas medidas de la precisión son realmente concepciones distintas de la fiabilidad
y no conviene confundirlas. Ciertos tests, como los estrictamente de velocidad, solamente admite un
tipo de fiabilidad, pero frecuentemente ambas medidas son complementarias y siempre que se puedan
convienen aplicarse conjuntamente (recordemos lo dicho lo dicho a este respecto al principio de este
tema). Podemos, de esta forma, encontrarnos con un test que presente una alta consistencia interna, pero
una pequeña estabilidad temporal, o al revés. O bien, coincidan en ambos aspectos. Obviamente, un
test que sea consistente en el sentido de que todos sus componentes configuren una única pieza, y que
además como instrumento, aguante el paso del tiempo manteniéndose en sus mediciones, será un test
óptimo. Aunque esto no implica necesariamente que un test heterogeneo (con baja consistencia interna)
sea un mal test. Más bien ocurre al contrario en algunos casos. Por poner un ejemplo, los buenos tests
de rendimiento o de selección profesional suelen ser heterogéneos, por lo que respecta a los constructos
psicológicos que lo integran. En el mismo sentido un test que ofrezca medidas con baja estabilidad
temporal no tiene por qué ser poco fiable, pues, si lo sujetos han cambiado en el aributo durante ese
intervalo de tiempo, es bueno el test que refleje ese cambio.
En lo que hace referencia a los distintos procedimientos, cuyo común denominador es el hacer una
única aplicación del test, podemos afirmar que el coeficiente Alpha es el idóneo. Puede demostrarse
además que las fórmulas de Rulon y Flanagan y Guttman son casos particulares de Alpha (ver Muñiz
(1994) págs 50-54). Son fórmulas simplicadoras del mismo que no tienen sentido actualmente con los
recursos informáticos al alcance de cualquiera.
Además si lo que se pretende es la coherencia interna de todos los items, mejor será considerarlos
individualmente que no en dos bloques, donde siempre será dudoso el criterio de asignación de los
distintos items en cada uno de tales bloques, y por otro lado, aunque los bloques coincidan en lo que
hace referencia en su puntuación total, pueden esconder una cierta diversidad en su interior que queda
enmascarada. Pero si lo que se pretende, por el contrario es utilizar un procedimiento económico para
calcular la fiabilidad de un tests heterogéneo, podemos aprovechar esa diversidad interior de la que
acabamos de hablar para dar cabida a la heterogeneidad que contempla el atributo. Bastaría con tener,
para cada aspecto del atributo, dos items o indicadores paralelos, que pasarían cada uno a formar parte
de una de las mitades del test.
En cuanto a los procedimientos que implican dos (o más) aplicaciones del test (o tests), lo más
razonable es plantearlo como formas alternativas. Como en el caso de Alpha, es el planteamiento menos
restrictivo. Suponer formas paralelas o equivalentes no es más que una utopía imposible de conseguir.
El método de las dos mitades parece que reúne las ventajas del método de las formas paralelas (o
alternativas) al mismo tiempo que se logra en una única aplicación del test, pero en realidad más que
63
contener todas las ventajas lo que tiene son todos los inconvenientes, y al final resulta insatisfactorio,
ya que no contempla la estabilidad en el tiempo ni la verdadera consistencia entre todos los items por
cuanto opera con bloques donde tales items quedan agrupados. Por ello precisamente es la solución
adecuada cuando se quiere calcular la fiabiidad por dos-mitades cuando el tests es heterogeneo en su
conjunto aunque con dos mitades paralelas o alternativas. Hay que tener cuidado de no aplicar este
procedimiento (dos mitades) en pruebas de rapidez, pues podría ser falseada la fiabilidad por aspectos
camuflados en la seriación como: rapidez de respuesta, dificultad del ítem, aprendizaje, fatiga, ... etc..
Hay cierto tipo de tests como el Binet o el Terman, que miden rasgos complejos, donde lo más
conveniente es recurrir a la fiabilidad como estabilidad -diferentes aplicaciones de la misma prueba-.
No puede aplicarse Alpha o equivalente por cuanto el contenido es variado y las intercorrelaciones
obtenidas serían bajas aún cuando hubiera una gran estabilidad entre las mediciones tras diferentes
pasadas. No obstante, hay que decir que en esta situación (cuando se elabora un test) es preferibl
desentrañar previamente la estructura interna de lo complejo -distinguir los rasgos unitarios que alberga-
, aplicar Alpha a cada uno de estos rasgos, y finalmente, determinar la fiabilidad de un test compuesto
según la fórmula (2.17). A este respecto, se aconseja recurrir a algún procedimiento, que como el
análisis factorial permite determinar los rasgos -factores- que componen un cierto material complejo,
siendo las variables que saturan un determinado factor, los items de dicho rasgo. De esta manera
logramos no solamente una fiabilidad que en la práctica es fiable sino que lo es sobre la base de una
fundamentación teórica.
En definitiva, de los procedimientos basados en una aplicación del test -fiabilidad como consistencia-
el coeficiente Alpha, por las razones apuntadas, es el más adecuado. Proceder a realizar varias pasadas
-fiabilidad como estabilidad- puede quedar justificado por razones prácticas cuando el material es
complejo, pero resulta aconsejable desentrañar previamente su estructura y aplicar Alpha. Así pues, al
final, acabamos en el coeficiente Alpha como el preferible en la mayor parte de los casos. No obstante,
no puede generalizarse su uso sin más. Como hemos apuntado, en los tests de velocidad es más
apropiado realizar diferentes pasadas -test-retest o formas paralelas- para cuantificar su fiabilidad.
2.9.- Tratamiento informático de la fiabilidad
Desarrollaremos a continuación algunos de los ejemplo realizados en este capitulo mediante el recurso
informático que proporciona el paquete estadístico SPSS. En particular utilizaremos el programa
Escalas.
2.9.1.- Coemzaremos con el coefciente de fiabiliad mediante ek método de las dos mitades, junto con
el de Flanagan. En este sentido, retomemos los datos de ejemplo 2.1:
64
A este respecto:
A continuación:
65
Los resultados:
Obsérvese cómo en dicha tabla se nos proporciona el coeficiente de correlación entre las dos mitades,
antes y después de aplicar la corrección de Spearman-Brown. Además calcula el coeficiente de
Flanagan y Guttman, cuyo valor es el mismo que el de Rulon, no hallado aquí. Por otro lado, nos ofrece
información del coeficiente Alpha e cada una de las mistades del test. Es interesante este dato porque
nosinforma que a nivel de item la prueba deja bastante que desear en lo que se refiere a su fiabiliad, en
especial con la primera parte. En este sentido, conviene destacar que operando con las mitades se
obtienen un buen coeficiente de fiabilidad, lo que no ocurre cuando operamos con los items. Se deduce
de ello, como ya hemos comentado, que el método de las dos mitades puede llegar a enmascarar
información relevante.
71
3.- VALIDEZ
3.1.- Introducción
Indicábamos en el capítulo primero que toda medida debía cumplir dos condiciones: validez y
fiabilidad. La validez garantiza que midamos aquello que nos proponemos (y no otra cosa), y la
fiabilidad, que lo midamos con precisión. La fiabilidad hace referencia al rigor en la medida, la
validez, a la adecuación de la misma.
Se supone que el lector tiene cierta familiaridad con el término validez, tratado en otros contextos
de la estadística tal como la regresión múltiple o los modelos estructurales. Como se recuerda,
un modelo resultaba válido si realmente resultaba útil, eficaz para los propósitos que fue
concebido. Lo mismo puede decirse del concepto de validez aplicado a los tests. Un test se dice
válido si satisface nuestros objetivos. La validación hace referencia al proceso que permite ir
apurando, delimitando y perfeccionando cada vez más nuestro instrumento de medida. Así, el
examen de psicometría será válido si realmente permite discriminar los distintos grados de
conocimiento que los estudiantes tienen de esta materia. Como en estas cuestiones nunca
tendremos la última palabra, los docentes en su afán por mejorar su instrumento, irán
reelaborando la forma y contenido de las evaluaciones -validación- en un intento de lograr que
las pruebas se ajusten lo mejor posible al nivel de conocimiento de los alumnos.
Dicho así la validez parece un concepto sencillo. No obstante, si somos rigurosos validar una
prueba obliga a saber qué es realmente lo que mide. Y aquí está el problema. Y aunque hay que
decir que en última instancia la validez implica conocer la naturaleza de lo que tenemos entre
manos -validez de constructo-, para propósitos menos pretenciosos podemos conformarnos con
algo menos, tal como sucede con la denominada validez referida al criterio donde la fuerza del
test radica en su relación con una pauta externa de conducta, claramente definida y en la validez
de contenido, donde importa que el conjunto de ítemes de la prueba refleje lo más
exhaustivamente posible el conjunto de capacidades que integran un determinado rasgo
psicológico.
La validez referida al criterio tiene un carácter fundamentalmente predictivo. Interesa a través
de un test, que se supone correlacionado con alguna conducta relevante, establecer inferencias
72
sobre esa conducta de interés. De esta forma podremos elaborar un test orientado a seleccionar
administrativos en una empresa si tenemos constancia de la relación entre dicha prueba y las
capacidades manifiestas en las labores de gestión. O bien una determinada prueba podrá ser
indicativa del posible futuro éxito académico en la universidad, y utilizar dicha prueba a efectos
de pronósticos.
La validez referida al criterio tiene un interés práctico, funcional. Históricamente, hasta los años
50 ha sido el tipo de validez preponderante. Pero se han hecho notar sus deficiencias, y
frecuentemente interesa conocer las razones intrínsecas por las cuales una prueba es válida, y no
solamente por su ligazón con el criterio externo de referencia. Por otro lado, no siempre nos
interesa predecir o pronosticar un cierto criterio. Frecuentemente el criterio en sí, sin más, es
nuestro objeto de estudio, y necesitamos justificarlo en base a sus propios materiales. Por
ejemplo, el examen de psicometría como tal prueba de evaluación necesita ser justificada sin más
referencia que a sí misma. En este caso es evidente que el examen debe reflejar los contenidos
explicados en dicha materia. Esta es la intención de la denominada validez de contenido. Se
supone que la materia objeto de estudio engloba un cierto universo de elementos, y la prueba
debe ser una muestra representativa de tal universo o dominio.
Por último, la validez de constructo pretende llegar aún más lejos. Obedece, como cabe suponer,
a los últimos avances en este tema. No es suficiente con tener constancia de los elementos que
integran un determinado rasgo psicológico. Interesa igualmente conocer cómo tales elementos
configuran el rasgo en cuestión. Volviendo al ejemplo del examen de psicometría, en la validez
de contenido (y aún menos en la validez referida al criterio) no nos preguntamos si el rendimiento
en esta materia depende de la inteligencia, motivación, memoria o simplemente nuestras
habilidades sociales. Sólo nos preguntamos por las cuestiones relevantes que integran su dominio
de contenido. En la validez de constructo, por el contrario, interesan en especial cómo están
relacionados todos estos factores, cuál es su estructura, qué entramado configuran. Podemos
afirmar que aquí hay contenido más forma. Se denomina validez de constructo por cuanto se trata
de una elaboración (mental) -modelo- que intenta dar cuenta de la naturaleza de los rasgos
psicológicos. A diferencia de los otros tipos de validez, es fundamentalmente conceptual, teórico,
busca la comprensión más que la funcionalidad, e intenta responder a cuestiones tales como qué
es la inteligencia (o la depresión o la asertividad), de qué factores depende, cómo están
entrelazados entre sí. Recursos estadísticos tales como el análisis factorial o la matriz
multirrasgo-multimétodo, serán, como veremos, sus herramientas usuales.
En las páginas que siguen profundizaremos en los diferentes tipos de validez mencionados, así
como en los procedimientos y análisis de datos pertinentes.
73
3.2.- Validez referida al criterio
La validez referida al criterio (también denominada validez predictiva o validez de pronóstico)
satisface un cierto grado de exigencias, aunque no demasiado. Como ya hemos indicado, es un
tipo de validez útil para determinado contextos, ateórico, pragmático, donde lo que interesa es
que las cosas funcionen aunque no sepamos exactamente por qué. Este tipo de validez se
denomina "referida al criterio" porque el punto de partida hace referencia a alguna conducta, que
se entiende que es clara, manifiesta, evidente per se. Esta conducta es lo que se denomina
criterio, y es, precisamente la que queremos inferir a partir de otra cosa, más sencilla en su
ejecución, tal como un determinado test, que suponemos fuertemente correlacionado con el
criterio, y nos puede servir, hasta cierto punto, como sustituto del mismo. El valor de la cuantía
de la validez de un determinado test se expresa mediante el coeficiente de correlación de Pearson
(supuesta linealidad de la relación), que se denomina en este contexto coeficiente de validez.
Este tipo de validez es frecuentemente utilizado en el ámbito industrial, tal como en selección
de personal, en el contexto escolar, en pruebas de pronóstico académico o de selección a algún
centro, tal como la universidad, y también en contexto clínico, como seguimiento de terapias etc.
En todos estos casos, el test proporciona de forma mucho más sencilla información sobre la tarea
si necesidad de realiza ésta. Por ejemplo, supongamos que deseamos becar a diez estudiantes de
BUP para que estudien psicología en la Universidad de Sevilla. Tomaremos como criterio de
validez el rendimiento académico. A este respecto, se ha elaborado un test con un grupo
representativo de los estudiantes de la Facultad de Psicología, que presenta una alta correlación
con el rendimiento medio de los mismos. En estas circunstancias, podremos utilizar el
mencionado test como pronóstico del posible éxito en esta carrera. Si aplicamos el test a un
grupo de estudiantes de BUP, aquellos que obtengan puntuaciones altas en la prueba -los diez
mejores- muy probablemente serán igualmente brillantes cuando acometan los estudios
universitarios. De esta forma, el test en cuestión será válido para pronosticar el éxito académico
de los estudiantes en la facultad mencionada.
Obsérvese que aquí no nos preguntamos por las razones que dan lugar a que un sujeto sea un
buen estudiante universitario. Tan sólo nos importa que exista una fuerte correlación entre el test
y el criterio de referencia. Esta es la garantía de un buen pronóstico. Nada de teoría, sólo eficacia.
Como señala Nunnally (1987, pág. 101): "si se descubriera que jugar bien al fútbol correlacionase
fuertemente con el éxito académico, la calidad en el juego sería una medida válida para predecir
tal éxito".
La validez referida al criterio tiene algunas variantes. Se habla de validez concurrente cuanto el
test y el criterio se miden al mismo tiempo (o casi). Cuando el criterio se mide con posterioridad
74
al test, nos encontramos con la validez predictiva o de pronóstico. Por último, si el criterio es
previo a la prueba, la validez correspondiente se denomina validez retrospectiva. Según las
circunstancias, aplicaremos uno u otro tipo de validez. Por ejemplo, en el caso mencionado de
los estudiantes de BUP, se trata de validez predictiva ya que con el test anticipamos su futuro
rendimiento académico. Pero si deseamos aplicar un test que permita identificar algún trastorno
en la infancia de un sujeto, la validez será retrospectiva. Y un caso de validez concurrente, ahora
que estamos en la era de la informática, sería si un test por ordenador, a efectos de diagnóstico,
sustituyese eficazmente la opinión de una comisión de psicólogos expertos.
Estrictamente hablando lo que se valida no es un test sino el uso que se hace mismo. En este
sentido un mismo test puede aplicarse para diferentes cometidos, y en consecuencia, presentar
diferentes "valideces". No siempre existe el mismo criterio para un cierto test, y aunque existiese,
probablemente iría modificándose su valor a lo largo del tiempo. Por ejemplo, podría darse el
caso de un test que midiera la capacidad para aprender idiomas y se utilizase tanto para predecir
las calificaciones de los estudiantes de inglés como de francés. Es obvio que la correlaciones de
dicho test con estos idiomas serán distintas, y por tanto, sus coeficientes de validez. Por otro
lado, puede cambiar de un año para otro las exigencias en los departamentos donde se cursan
estas materias, y en consecuencia, quedar modificado los distintos coeficientes de validez
respectivos.
Este hecho, más que expresar una de la cualidades del coeficiente de validez, lo que muestra es
una de sus más notorias insuficiencias. Es extraordinariamente difícil, como señala Magnusson
(1969, pág. 155) encontrar una buena medida del criterio, o mejor, encontrar la verdadera medida
del criterio. Como dice este autor, normalmente no disponemos del criterio verdadero sino más
bien de criterios asequibles, esto es, a los que razonablemente tenemos acceso. Muchas
dificultades son del índole práctica, a la hora de definir el grupo normativo sobre el que se
asignará las puntuaciones del criterio. Por ejemplo, en el caso del test orientado a idiomas, sería
conveniente elaborar tantos tests como idiomas, ya que está claro, que el inglés, francés o alemán,
por citar tan sólo algunos idiomas, no exigen equivalentes capacidades. Por otro lado, dentro de
cada idioma hay diferentes especialidades, por lo que si queremos predecir el éxito futuro de un
determinado estudiante, necesitaremos como criterio las puntuaciones medias de los sujetos de
un determinado idioma que han cursado una especialidad concreta. Así, podríamos seguir
indefinidamente. Al final no habría muestra suficiente de donde obtener el criterio.
Otras dificultades son de carácter teórico y cuestionan lo que podríamos llamar la validez del
criterio. Este quizás sea el problema fundamental de este tipo de validez. Aquí, el criterio se
suele considerar dado más que algo que debamos elaborar, como sucede en la validez de
contenido y constructo, que se tratarán más adelante. Se busca el criterio en alguna conducta
75
ρxc
' ρξx(ρ
ξc
reconocible, más que fabricarlo según los requisitos pertinentes. Por ejemplo, en el caso que se
estamos tratando las calificaciones en los exámenes se consideran el referente último, pero como
todo el mundo sabe, no siempre los exámenes representan el nivel de conocimientos de una
materia. Otras veces se recurre al juicio de personas que se suponen conocen el tema, así
profesionales en medicina o superiores del cuerpo de policía pueden juzgar quienes solicitan ser
candidatos a ingresar en sus respectivos centros, pero también aquí hay tener cuidado, no suceda
que no elijamos los mejores sino los más convenientes para nuestros intereses, como se cita en
Nunnally y Bernstein (1995, pág. 108) donde en una prueba de selección para la policía, los
mejores evaluados por sus superiores eran precisamente los más inadaptados, esto es, los más
sumisos.
Así pues, en la práctica se elige un criterio, digamos razonable, y se trabaja con el mismo como
referente del test, pero debe quedar claro, como indica Bollen (1989, pág. 186), que entonces, la
correlación entre el test y el criterio no expresa la validez de dicho test. En la figura 3.1 se ilustra
cómo la puntuaciones observadas del test X y del criterio C son expresiones de la variable ξ (no
observable) que pretendemos medir, y que denominaremos constructo:
En este caso, la correlación entre el test y el criterio será (operando en puntuaciones
estandarizadas):
lo que demuestra que dicha correlación queda mediatizada por el grado en el que el criterio
refleja la verdadera dimensión del rasgo en cuestión.
76
ξ
X
C
Figura 3.1. Correlación entre la medida X y el criterio C como expresión de la variable latente ξ
Por esta razón, en la medida que difícilmente el criterio observado corresponderá con lo que
pretendemos medir, parece más apropiado definir, de acuerdo con Lord y Novick (1968, pág.
261) la validez referida al criterio como la correlación entre el test y alguna conducta observable
(validez empírica), o bien como la correlación entre el test y algún constructo teórico (validez
teórica). Cuando tengamos la dudosa garantía de que el constructo y la conducta observable
coinciden (ξ=C), entonces podremos utilizar la ecuación de regresión para determinar el valor
en el criterio que obtendrá un sujeto al que se le haya aplicado un determinado test. A este
cometido dedicamos las siguientes páginas. Más adelante, con la validez de contenido y de
constructo, ampliaremos estos conceptos.
3.2.1.- Predicción del criterio
Como hemos indicado (con las oportunas reservas) para ciertos casos no muy exigentes,
podemos plantearnos validar un determinado test en base a la correlación del mismo con alguna
conducta que de forma clara y evidente refleja aquello que pretendemos medir, y que tomamos
como criterio. En este caso, si suponemos que ambas variables están relacionadas linealmente
y se cumplen otros supuestos conocidos tales como normalidad de los errores homocedasticidad
... etc, podemos aventurarnos a utilizar las técnicas de la correlación y regresión estadística al
objeto de cuantificar la magnitud de la relación a través del coeficiente de validez, así como
77
Y ' B0%B
1X
1%B
2X
2%...%B
kX
k%ε (3.1)
y 'XB%ε (3.2)
y ' Xb % e (3.3)
y ' Xb (3.4)
establecer inferencias respecto al criterio mediante la ecuación de regresión.
Aunque nos hemos referido, por razones de simplicidad, a un único test y a un único criterio,
normalmente se mejora la predicción cuando se utilizan baterías de tests al respecto. Así, para
pronosticar el posible éxito académico será más conveniente disponer de un conjunto de pruebas
que considere variables tales como inteligencia, motivación, personalidad ...etc. En este caso, el
coeficiente de validez corresponderá al coeficiente de correlación múltiple.
No profundizaremos en las técnicas de la regresión múltiple, que se supone ya conoce el lector.
No obstante, una buena introducción puede encontrarse en Pedhazur (1982). En castellano, una
aproximación sencilla se ofrece en Domenech (1985) y otra más completa en Peña (1986).
Como se sabe, el modelo de regresión establece que una determinada variable de criterio Y
puede obtenerse a partir de un conjunto de variables predictoras X, combinando éstas
linealmente, según la siguiente expresión:
o bien, en forma matricial:
donde:
y: vector de valores de la variable criterio
X: matriz correspondiente a las k variables predictoras
B: vector de parámetros o coeficientes del modelo
ε: vector de errores o residuos
Este mismo modelo en términos de los datos muestrales será:
donde hemos sustituido el vector B de parámetros por el vector b referido a sus estimadores, y
el vector ε de residuos a nivel poblacional por el vector e de residuos a nivel muestral.
A partir de los datos observados podremos obtener mediante mínimos cuadrados la ecuación:
78
b ' X´X &1X´y (3.5)
R 2 'b´X´y & (1´y)2/N
y´y & (1´y)2/N(3.6)
F 'R 2/k
1&R 2 /(N&k&1)(3.7)
Yo' b0%b1Xo1
%b2Xo2%...%b
kX
ok' X
)
ob (3.8)
y ± t(α,gl )
(Se (3.9)
Se' S
2res 1 % X´
o(X´X )&1X
o(3.10)
que mejor se ajuste a la nube de puntos que configuran los datos muestrales. Como se sabe, el
vector de parámetros estimados corresponde a la siguiente expresión:
El coeficiente de correlación múltiple (aquí de validez) al cuadrado:
Y la validez del modelo, que en este caso equivale a determinar la validez del conjunto de tests
a efectos de pronosticar el criterio:
Por otro lado, si deseamos pronosticar las puntuaciones en el criterio para un determinado sujeto
a partir de sus puntuaciones obtenidas en la batería de pruebas, habremos de aplicar la ecuación
de regresión muestral, sustituyendo en las variables predictoras los valores obtenidos en los
distintos tests:
Con esto obtendremos una estimación puntual. Si deseamos mayor seguridad en el pronóstico,
procederemos a determinar el intervalo de confianza, que nos permita definir unos márgenes
dentro de los cuales tengamos una cierta garantía (alta probabilidad) de que se encuentren los
valores predichos. Así:
donde:
79
Sujeto X1 X2 Y
+)))))))))))))))))))))))))))))))), * 1 8 7 7 * * 2 7 8 5 * * 3 9 6 7 * * 4 6 5 4 * * 5 9 6 8 * * 6 6 5 4 * * 7 3 3 2 * * 8 6 7 5 * * 9 5 6 5 * * 10 4 7 6 * .))))))))))))))))))))))))))))))))-
TABLA 3.1. Datos supuestos para predecir rendimiento en inglés en basea memoria y fluidez verbal
siendo:
Sres: desviación tipo residual o no explicada.
X´o: vector de valores obtenidos en las k pruebas (más la unidad).
Ejemplo 3.1.- Tengamos a continuación los datos en dos tests: memoria (X1) y fluidez verbal (X2)
utilizados para el pronóstico de las calificaciones en inglés (Y):
Sobre estos datos determinar:
a) Ecuación de regresión que permita predecir el rendimiento en inglés a partir de las
calificaciones e memoria y fluidez verbal.
b) Coeficiente de validez
c) Validez del modelo propuesto
d) Puntuación prevista para un sujeto que haya obtenido 4 puntos en memoria y 5 puntos en
fluidez verbal.
SOL:
a) Ecuación de regresión. Definamos, primeramente, las matrices existentes:
80
X '
1 8 7
1 7 8
1 9 6
1 6 5
1 9 6
1 6 5
1 3 3
1 6 7
1 5 6
1 4 7
y '
7
5
4
7
8
4
2
5
5
6
b ' X´X &1X´y '
10 63 60
63 433 389
60 389 378
&153
359
332
'
&0.8496
0.5631
0.4336
Y ' b0%b
1X
1%b
2X
2' &0.8496 % 0.5631X
1% 0.4336X
2
R2y.12 '
b´X´y & (1´y)2/N
y´y & (1´y)2/N'
301.106 & 280.9
309 & 280.9'
20.206
28.1' 0.7191
Ry.12 ' 0.7191 ' 0.8480
Apliquemos a continuación (3.5):
Por tanto, la ecuación de regresión será:
b) Coeficiente de validez. Como se sabe, hace referencia a la correlación múltiple. Así pues:
lo que es indicativo de que entre ambos tests dan cuenta casi del 72% de la variación observada en
rendimiento en inglés.
El coeficiente de validez valdrá:
81
F 'R 2/k
1&R 2 /(N&k&1)'
0.7191/2
(1&0.7191)/7' 8.96
F(2,7,0.05)
' 4.74
Yo' X
)
ob ' 1 4 5
&0.8496
0.5631
0.4336
' 3.5711
S2res ' j (Y&Y )2((1&R 2)
N&k&1'
28.1((1&0.7191)
7' 1.128
c) Validez del modelo. Nos preguntamos por la utilidad de ambos tests a efectos de predecir el
rendimiento en inglés. Equivale a preguntarnos por la validez del modelo, ya que hemos supuesto
que el rendimiento en este idioma se obtiene combinando linealmente ambas pruebas. Por tanto:
Buscando en la tabla F de Snedecor para 2 y 7 grados de libertad respectivamente, y al nivel de
significación de 0.05:
Como 8.96>4.74, rechazaremos la hipótesis nula con un riesgo (máximo) del 0.05. El modelo
puede considerarse útil a efectos de pronósticos. o si se quiere, ambos tests pueden aplicarse para
predecir las calificaciones en inglés.
d) La puntuación predicha para un sujeto que haya obtenido 4 y 5 puntos en memoria y fluidez
verbal será:
Antes de proceder a aplicar (3.9) hemos de conocer la varianza residual. Podemos calcularla a partir
de la suma de cuadrados total (que viene expresado en el denominado de R2). Multiplicado esta
suma por (1-R2) obtendremos la suma de cuadrados no explicada o residual. Ya por último,
dividiremos por sus grados de libertad N-k-1. Por tanto:
Así pues:
82
Se' S
2res 1 % X
o´(X´X )&1X
o' 1.128 1 % 1 4 5
10 63 60
63 433 389
60 389 378
&11
4
5
' 1.189
y % t(0.05,7)
(Se' 3.571 % 2.37(1.189 ' 6.388
y & t(0.05,7)(Se' 3.571 & 2.37(1.189 ' 0.754
Por tanto:
lo que se interpreta que para una puntuación de 4 puntos en memoria y 5 puntos en fluidez verbal,
cabe esperar, con una probabilidad de 0.95, de que la puntuación en rendimiento oscile entre 0.754
y 6.388 puntos. Como puede comprobarse este margen es demasiado amplio, y tiene aquí escaso
valor a efectos de pronósticos como consecuencia del tamaño de muestra tan reducido que, por
razones didácticas, estamos manejando.
3.2.2.- Validez y fiabilidad
Como se ha indicado, validez hace referencia a la adecuación de la medida, y fiabilidad a la
precisión con que se realiza esa medida. De ello se deduce que hay dos tipos de errores
superpuestos en el valor del coeficiente de validez, tal como se ilustró en la figura 1.1., uno que
hace referencia a la mayor o menor adecuación y otro, a la mayor o menor precisión. Ambos
afectan a la validez. Es obvio que en la medida en que se mejore la fiabilidad de un test mejoremos
su validez. Aunque hay que decir que en el caso extremo de obtener una medida cuya validez sea
cero, nada lograremos aumentando su fiabilidad; tan sólo estaremos consiguiendo medir cada vez
mejor algo completamente distinto a lo propuesto. Como el que tiene una balanza de gran precisión
para medir la estatura. Por esta razón se dice que la fiabilidad es condición necesaria pero no
suficiente para mejorar el grado de validez de una cierta medida.
En el caso de la validez referida al criterio hemos de considerar, además, que tal criterio, como
medida empírica que es, contemplará un cierto error de medida. Quiere decir esto que el criterio,
a su vez, presentará una cierta fiabilidad. Lo ilustramos en la siguiente figura donde se representan
las puntuaciones verdaderas Vx y Vy del test y el criterio respectivamente, junto a sus medidas
empíricas o indicadores:
83
Vx Vy
X Y
Figura 3.2. Representación del efecto de la fiabilidad sobre la validez
ρxy
' ρxvx(ρ
vxvy(ρ
vyy (3.11)
ρvxvy
'ρ
xy
ρxvx(ρ
vyy
(3.12)
ρvxvy
'ρ
xy
ρxx´
ρyy´
'ρ
xy
ρxx´(ρ
yy´
(3.13)
Suponiendo que operamos con puntuaciones estandarizadas, y aplicando la regla del trazado:
de donde:
Pero como se sabe, el índice de fiabilidad de una medida es precisamente la raíz cuadrada de su
coeficiente de fiabilidad. Así pues:
Esta fórmula se denomina fórmula de atenuación o corrección por atenuación por cuanto
proporciona la validez del test cuando se han eliminado los errores de medida tanto en la variable
predictora como en el criterio. Como se indica en (3.11) la correlación entre test y criterio obtenida
empíricamente está atenuada o disminuida por las imprecisiones en las mediciones. En este sentido,
la fórmula (3.13) proporciona tal correlación una vez desatenuada.
84
ρvxvy
'ρ
x1y1
ρx1x´1
ρy1y´1
(3.14)
ρvxvy
'ρ
x2y2
ρx2x´2
ρy2y´2
(3.15)
ρx1y1
ρx1x´1
ρy1y´1
'ρ
x2y2
ρx2x´2
ρy2y´2
ρx2y2
'ρ
x1y1
ρx1x´1
ρy1y´1
ρx2x´2
ρy2y´2
'ρ
x1y1
ρx1x´1
(ρy1y´1
ρx2x´2
(ρy2y´2
(3.16)
La fórmula anterior tiene un interés más bien teórico, ya que en la práctica nunca nos libraremos
de los errores de medida. Un caso más realista puede dar lugar cuando hemos mejorado la
fiabilidad de un test o de su criterio (o ambos) y deseamos comprobar el efecto sobre la validez del
mismo. En este sentido, la fórmula (3.13) nos será especialmente útil. Supongamos a este respecto,
que operamos sobre un test X1 y un criterio Y1, entonces como acabamos de indicar:
Modifiquemos, ahora, test y criterio hasta lograr un test X2 y un criterio Y2 con una fiabilidad
mejorada. Es obvio que esta circunstancia no modifica la correlación entre las puntuaciones
verdaderas del test y del criterio. Así pues:
Igualando (3.14) y (3.15):
A partir de aquí podremos calcular la nueva validez :ρx2y2
Esta fórmula tiene carácter general. Tomándola como referencia puede utilizarse para toda una
casuística de situaciones. En los ejemplos que exponemos a continuación se consideran algunos
de los casos posibles que pueden presentarse:
Ejemplo 3.2.- Un determinado test tiene un coeficiente de fiabilidad de 0.45. El coeficiente de
fiabilidad del criterio es 0.4 y el coeficiente de validez es 0.35. ¿Cuál será la nueva validez si se
mejora la fiabilidad del test hasta 0.85 y la fiabilidad del criterio hasta 0.90?.
85
ρx2y2
'ρ
x1y1
ρx1x´1
(ρy1y´1
ρx2x´2
(ρy2y´2
'0.35
0.45(0.40
0.85(0.90
' 0.722
ρvxvy
'ρ
xy
ρxx´(ρ
yy´
'0.45
0.5(0.6' 0.822
ρx2y2
'ρ
x1y1
ρx1x´1
(ρy1y´1
ρx2x´2
(ρy2y´2
'ρ
x1y1
ρx1x´1
ρx2x´2
'0.60
0.65
0.90
' 0.706
SOL:
Apliquemos (3.16):
Ejemplo 3.3.- Tengamos un test que presenta una validez de 0.45. Por otro laso, su fiabilidad es
de 0.5 y la fiabilidad del criterio es 0.6. Calcular la validez suponiendo que eliminásemos, tanto
del test como del criterio, los errores del medida.
SOL:
Podemos aplicar (3.16), donde y valen la unidad, o bien, directamente (3.13). Asíρx2x´2
ρy2y´2
pues:
Ejemplo 3.4.- Un test presenta una validez de 0.6 y una fiabilidad inicial de 0.65. Si mejoramos
su fiabilidad hasta 0.9, ¿en cuánto lograremos mejorar su validez?.
SOL:
Por el enunciado se deduce que no se ha intervenido sobre la fiabilidad del criterio. Esto
significa que y son iguales, luego su cociente valdrá la unidad. Así pues, en este casoρy1y´1
ρy2y´2
la fórmula (3.16) deviene en la siguiente:
86
ρx2y2
'ρ
x1y1
ρx1x´1
(ρy1y´1
ρx2x´2
(ρy2y´2
'ρ
x1y1
ρy1y´1
ρy2y´2
'0.55
0.6
0.83
' 0.647
ρx2y2
'ρ
x1y1
ρx1x´1
(ρy1y´1
ρx2x´2
(ρy2y´2
'ρ
x1y1
ρx1x´1
(ρy1y´1
k1ρx1x´1
1%(k1&1)ρ
x1x´1
k2ρy1y´1
1% (k2&1)ρ
y1y´1
ρx2y2
'k
1k
2ρ
x1y1
k1%k
1(k
1&1)ρ
x1x´1k
2%k
2(k
2&1)ρ
y1y´1
(3.17)
Ejemplo 3.5.- Un determinado test presenta una validez de 0.53. ¿Qué validez alcanzaremos si la
fiabilidad del criterio pasa a ser de 0.6 a 0.83?.
SOL:
Este caso es parecido al anterior. Aquí, permanece constante la fiabilidad del test. Por tanto:
3.2.3.- Validez y longitud
En el apartado anterior hemos visto la relación entre la validez y la fiabilidad tanto del test como
del criterio. En la práctica, un procedimiento relativamente frecuente para intervenir sobre la
fiabilidad es, como se sabe, incrementando el número de medidas -ítemes- del instrumento en
cuestión. En este sentido, si nos interesa conocer la forma en que la longitud del test o el criterio
afecta al coeficiente de validez tan sólo hemos de sustituir en (3.16) y por susρx2x´2
ρy2y´2
equivalentes según la formula de Spearman-Brown. De esta forma, si incrementamos el test k1
veces y el criterio k2 veces, tendremos:
Simplificando:
Si sólo incrementamos el test, dejando constante el criterio, entonces k2=1. La validez será:
87
ρx2y
'k
1(1ρ
x1y
k1%k
1(k
1&1)ρ
x1x´11%1(1&1)ρ
yy´
'k
1ρ
x1y
k1%k
1(k
1&1)ρ
x1x´1
(3.18)
ρxy2
'1(k
2ρ
xy1
1%1(1&1)ρxx´
k2%k
2(k
2&1)ρ
y1y´1
'k
2ρ
xy1
k2%k
2(k
2&1)ρ
y1y´1
(3.19)
k1'
ρ2x2y 1&ρ
x1x´1
ρ2x1y&ρ
x1x´1ρ
2x2y
(3.20)
k2'
ρ2xy2
1&ρy1y´1
ρ2xy1&ρ
y1y´1ρ
2xy2
(3.21)
ρx2y2
'k
1k
2ρ
x1y1
k1%k
1(k
1&1)ρ
x1x´1k
2%k
2(k
2&1)ρ
y1y´1
'2(2(0.57
(2%2(2&1)(0.65)(2%2(2&1)(0.73)'0.675
Y en el caso de que sólo incrementásemos el criterio:
Si nos interesa saber el número de veces que debemos incrementar un cierto test para lograr una
validez deseada (sin modificar el criterio), a partir de (3.18) despejaremos k1:
Y si sólo aumentásemos el criterio, procederemos igualmente respecto a (3.19):
Ejemplo 3.6.- Tengamos un test, cuyo coeficiente de validez es 0.57, su fiabilidad es 0.65, y la
fiabilidad del criterio 0.73. Supongamos que duplicamos tanto la fiabilidad del test como la del
criterio. Esto supuesto, determinar el nuevo coeficiente de validez.
SOL:
Apliquemos (3.17):
88
ρx2y
'k
1ρ
x1y
k1%k
1(k
1&1)ρ
x1x´1
'3(0.46
3%3(3&1)(0.6' 0.537
35%24 ' 60 ítemes
k1 '60
35' 1.714
ρx2y
'k
1ρ
x1y
k1%k
1(k
1&1)ρ
x1x´1
'1.714(0.54
1.714%1.714(1.714&1)(0.66' 0.583
Ejemplo 3.7.- Un test presenta una fiabilidad de 0.6 y una validez de 0.46. ¿Cuál será su validez
si aumentamos la longitud del test tres veces?.
SOL:
Se supone, por el enunciado, que le criterio no ha sido modificado. Por tanto, aplicaremos
(3.18):
Ejemplo 3.8.- Un test compuesto por 35 ítemes presenta una fiabilidad de 0.66 y una validez de
0.45. ¿Cuál será la nueva validez si incrementásemos el test en 25 ítemes más?.
SOL:
Si tenemos 35 ítemes y le añadimos 25, el total será:
Y el número de veces que habrá aumentado:
Por tanto:
Ejemplo 3.9.- Un test compuesto por 40 ítemes presenta una validez de 0.5 y una fiabilidad de
0.55. ¿Cuántos elementos habremos de añadir para conseguir una validez de 0.6?.
SOL:
Apliquemos (3.20):
89
k1'
ρ2x2y 1&ρ
x1x´1
ρ2x1y&ρ
x1x´1ρ
2x2y
'0.62 (1&0.55)
0.52&0.55(0.62' 3.115
40(3.115 ' 124.615 – 125 ítemes
125 & 40 ' 85 ítemes
Habremos de incrementarlo 3.115 veces. Si inicialmente disponíamos de 40 ítemes, deberemos
alcanzar:
Luego habremos de añadir:
3.2.4.- Validez y variabilidad
El coeficiente de validez, como coeficiente de correlación, vendrá afectado por la variabilidad de
la muestra donde se aplica, en el sentido de cuanto mayor sea ésta, mayor será el coeficiente de
validez. Ocurre lo mismo que con el coeficiente de fiabilidad, situación ya tratada anteriormente.
Aquí, por razones de simplicidad, consideraremos tan sólo el caso bivariado -un único test y un
único criterio-. Situaciones más complejas, donde se contemplan tres o más variables predictoras
pueden estudiarse en Yela (1980, págs. 190-220), Martínez Arias (1995, págs. 390-405) o Muñiz
(1994, págs. 130-137). Un tratamiento más extenso puede encontrase en Gulliksen (1950, págs.
129-172).
Es relativamente frecuente, en el caso de la validez referida al criterio, que el coeficiente de validez
se calcule con un grupo de sujetos seleccionados y no con todos aquellos a los que se les aplicó el
test. Por ejemplo, si utilizamos un determinado test para seleccionar pilotos, el coeficiente de
validez podría calcularse correlacionando las puntuaciones del test con la habilidades manifiestas
por los pilotos en la ejecución de su tarea. Está claro que no hemos seleccionado a todos los sujetos
que se presentaron a las pruebas de acceso, si no tan sólo a un grupo reducido de ellos -los mejores-
, y que por tanto, pertenecerán al rango superior de puntuaciones del test (y no a todo el rango del
test). Su variabilidad será menor, y en consecuencia, el coeficiente de validez calculado con estos
sujetos será inferior al obtenido si se calculara con todos las personas a las que se aplico el test.
Este es el problema que se conoce como restricción de rango, y que suele presentarse en estas
situaciones. La solución consistirá en intentar recomponer, asumiendo ciertos supuestos, la
situación en la que están presentes todos los sujetos a los que les fue aplicado el test.
90
. ..
.
..
...
. .. .
..
.
.
..
.
.
.
..
.
.
.
..
.
...
.
...
.
..
.
.
.
.
..
.
..
....
.
.
.
.
..
..
.
..
.
.
...
. ...
..
.
.....
..
....
.. .
....
. ...
. ... ...
. .
..
.
.. .
..
...
. ..
. .. .
.
.
.... .
.
. .....
...
. ..
.
..
...
. .. .
..
.
.
..
.
.
.
..
.
.
.
..
.
...
.
...
.
..
.
.
.
.
..
.
..
....
.
.
.
.
..
..
.
..
.
.
...
. ...
..
.
.....
..
....
.. .
....
. ...
. ... ...
. .
..
.
.. .
..
.. .
. ..
. .. .
.
.
.... .
.
. .....
...
No seleccionados Seleccionados
. .... . ....
....
.
...
.
...
.....
...
..
..
.. .
....
. ..
. ... ...
. .
..
.....
...
..
..
.. .
....
. ..
. ... ...
. .
.
. .... . ....
....
.
...
.
....
.
.
Y
Figura 3.3. Efecto de la restricción de rango sobre el coeficiente de validez
ρxy
σy
σx
' ρXY
σY
σX
(3.22)
En la figura 3.3 se observa precisamente cómo el grupo de seleccionados, al comprender un rango
de variación menor que el total de los sujetos a los que se les aplicó el test, presenta un diagrama
de dispersión más redondeado, lo que es indicativo de un coeficiente de correlación inferior.
Como de la única información que disponemos es la correlación para el grupo seleccionado,
intentaremos calcular a partir de ésta la correlación para todo el rango de variación de los sujetos.
Para ello asumiremos los siguientes supuestos: a) la pendiente es la misma, tanto para el grupo
reducido como el total de los sujetos, y b) la dispersión de lo sujetos es también equivalente. De
esta forma, para el primer supuesto, igualaremos ambas pendientes:
donde hemos utilizado letras mayúsculas para los sujetos de rango completo y letras minúsculas
para los sujetos de la muestra reducida.
Y en relación al segundo supuesto, igualaremos sus errores tipos de estimación:
91
σy
1&ρ2xy ' σ
Y1&ρ
2XY
(3.23)
σY'
ρxy
σyσ
X
ρXY
σx
(3.24)
σy
1&ρ2xy '
ρxy
σyσ
X
ρXY
σx
1&ρ2XY
ρXY
'σ
Xρ
xy
σ2Xρ
2xy% (1&ρ
2xy)σ
2x
(3.25)
σY' σ
y1%ρ
2xy
σ2X
σ2x
&1 (3.26)
Si despejamos σY de (3.22):
Y sustituimos su valor en (3.23):
Despejando ρXY:
Si deseamos conocer σY, sustituiremos esta expresión en (3.24). Haciendo operaciones
obtendremos:
Ejemplo 3.10.- Se aplicó un test de tareas administrativas a 1000 candidatos para ingresar en la
Junta de Andalucía. La varianza de estos sujetos en el test fue de 30 puntos. Se seleccionaron 25
aspirantes. Sabiendo que la varianza de la muestra elegida es de 5 puntos y que la correlación del
test con las tareas administrativas, tras un año de trabajo, es de 0.5, determinar el coeficiente de
validez para el total de los aspirantes.
92
ρXY
'σ
Xρ
xy
σ2Xρ
2xy% (1&ρ
2xy)σ
2x
'30(0.5
30(0.52% (1&0.52)(5
' 0.816
SOL:
Apliquemos (3.25):
Se observa que al trabajar con el grupo de aspirantes, la validez pasa de 0.5 a 0.816.
93
3.3.- Validez de contenido
En la validez referida al criterio se da por hecho que el criterio es el referente último. Es una
validez, digamos, prestada por el criterio. Se supone que un determinado examen se adecua a
los contenidos que los alumnos deben conocer y que en el examen de conducir se refleja el
conjunto de habilidades necesarias para manejar un vehículo correctamente. De esta forma, si
el test correlaciona con el examen, consideraremos que es válido. Pero es obvio que el
criterio, a su vez, puede carecer de validez. Ha de justificarse. Y por otro lado, como ya
hemos indicado, muchas medidas no necesitan de ningún referente externo al que aferrarse
como criterio de validez. Frecuentemente, la misma prueba es nuestro único referente, así
para validar una prueba de ortografía no necesitamos más que dicha prueba.
La validez de contenido es una validez fundamentalmente teórica. En la medida que un test
registra una parcela de nuestro comportamiento hemos de intentar garantizar que dicho test
contenga una muestra relevante y representativa (Messick, 1975) de los diversos contenidos
que integran tal parcela de nuestra conducta.
En psicología nunca tendremos la seguridad total de que una prueba contenga los verdaderos
contenidos, y en la proporción adecuada, de aquello que pretendemos medir. Las variables
psicológicas no están ahí, como una silla o una mesa, al alcance de cualquiera que pretenda
medirlas. Muy al contrario, tales variables son elaboraciones mentales que hacemos los
humanos, y en este sentido, presentan una cierta dosis de subjetividad imposible de soslayar.
Debe haber un cierto acuerdo por parte de la comunidad científica, que obviamente, nunca
será general -todos y cada uno-, que garantice la definición de los rasgos psicológicos objetos
de nuestra mediciones. No hay así, en psicología, realidad objetiva sino realidad construida
socialmente.
De esta forma, Crocker y Algina (1986, pág. 218) proponen los siguientes pasos en la
elaboración de los contenidos adecuados de un test:
1. Definir el dominio o universo de contenidos objetivo del test.
2. Seleccionar un conjunto de expertos cualificados en dicho dominio.
3. Proporcionar un marco estructurado para el proceso de emparejar ítems con el
dominio referido.
4. Recogida y resumen de los datos resultantes del proceso de emparejamiento
mencionado.
94
El primer punto es el punto relevante. Implica definir lo más exhaustivamente posible el
universo de contenidos del test, normalmente en términos de objetivos de instrucción o
categorías de conducta, así como la ponderación que se asigna a cada uno de los contenidos
de la prueba, si se entendiese que no todos los objetivos o categorías tienen la misma
importancia en el rasgo a medir.
La intención es lograr un conjunto de ítems que reflejen el dominio mencionado. Para ello se
recurre al concurso de expertos a quienes se les entregarán junto a los objetivos a medir una
serie de ítems que deberán emparejar con tales objetivos. Al final, se asegurará que el test
contiene todos los ítems necesarios y en la proporción adecuada.
Por último, se ofrece un resumen estadístico de los resultados obtenidos, tal como el
porcentaje de ítems que se emparejan a los objetivos, índice de congruencia ítem-objetivo,
correlación entre el peso dado al objetivo y el número de ítems que lo miden ... etc. Ver a este
respecto, Crocker y Algina (1986, págs. 221-222).
Para una mayor garantía en todo este proceso de elaboración de ítems, puede plantearse su
realización por duplicado (Crombach, 1971); esto es, dos equipos independientes realizan el
mismo proceso, y a continuación se establece una comparativa entre ellos para comprobar el
grado de similaridad entre los mismos.
En definitiva, la validez de contenido, es una validez fundamentalmente de carácter teórico.
Suele aplicarse en tests con un cierto grado de concrecion tales como los tests educativos.
Para cuestiones más abstractas, tales como inteligencia o personalidad, es más difícil lograr
consenso en su definición conceptual. No obstante, hay que decir que la validez de contenido
es condición necesaria para toda validez, que como veremos en las siguientes páginas, se
tomará, como referencia primera para determinar (tras procedimientos empíricos) la
estructura interna de los distintos constituyentes de un cierto campo de conducta -validez de
constructo-.
3.4.- Validez de constructo
Es frecuente en psicología, a la hora de operar con rasgos de conducta, apelar a conceptos
tales como inteligencia, ansiedad o personalidad. Y como acabamos de indicar, tales rasgos
no son fáciles de operativizar en un serie de variables observadas. Más razonable resulta
suponer que se manifiestan en una variedad de conductas concretas, y aunque quedan
expresadas en tales conductas, las conductas particulares no se identifican con los rasgos en
cuestión. De esta forma, en relación a la inteligencia, supondremos ciertas conductas
concretas
95
son indicadores de algo que podemos considerar como inteligencia. Este "algo" que se
supone subyace tras la conducta inteligente es lo que se denomina constructo, que no es más
que «una idea desarrollada para permitir la categorización y descripción de algunas
conductas directamente observables» (Crocker y Algina, 1986, págs. 230). Los constructos
son, pues, concepciones que tenemos de la realidad para una mejor comprensión de la misma,
y que no son susceptibles de ser observados directamente. En un sentido literal,
construcciones mentales que los humanos nos hacemos de la realidad.
En este sentido, «validez de constructo sería el grado en el que un test mide el constructo que
pretende medir» (Lord y Novick, pág. 278). Esta definición, como puede comprobarse, es
muy parecida a la de validez referida al criterio, con la diferencia que aquí el criterio es
precisamente el constructo (que se entiende ha sido justificado conceptual y empíricamente
como la medida correcta del rasgo en cuestión). Tiene, igualmente, cierta relación con la
validez de contenido porque, como veremos, el material base para elaborar los constructos es
precisamente el conjunto de elementos que suponemos integran un cierto rasgo psicológico,
no vaya a ser que en la configuración de los constructos "no estén todos los que son, ni sean
todos los que estén".
Nos resta, pues, explicar cómo se elabora un constructo. En principio, digamos que es una
idea de como funcionan las cosas basada en la observación del comportamiento de esas
mismas cosas. Quiere decir esto que un constructo está formado por consideraciones teóricas,
pero basadas en evidencias empíricas. En este aspecto se diferencia de la validez de
contenido, exclusivamente teórica, inspirada tan sólo en el juicio de expertos.
Podemos afirmar que los constructos son modelos explicativos referidos al rasgo o conducta
que se pretende explicar. Son elaboraciones que presentan un cierto grado de complejidad, y
que exigen, en consecuencia, el concurso de un conjunto de variables observadas, que se
toman como indicadores del constructo en cuestión. Se deduce de ello que es a partir del
material de partida suministrado por un conjunto de variables y sus interrelaciones cómo
determinamos la estructura de dicho material, de donde podrán extraerse uno o varios
constructos, y en este último caso, las relaciones funcionales entre tales constructos. Por eso
decíamos al principio, cuando definíamos los distintos tipos de validez, que la validez de
constructo añadía la forma al material que proporcionaba la validez de contenido. Y en este
aspecto se lograba una definición más completa.
De una manera más concreta, consideraremos que los pasos habituales implícitos en el
proceso en la validación de constructo son los siguientes:
96
1. Formulación del modelo, así como la especificación -hipótesis- de las
relaciones entre las variables y los constructos.
2. Elaboración de los ítems o indicadores que representen manifestaciones
específicas del constructo.
3. Recogida de datos que permitan comprobar las hipótesis establecidas.
4. Interpretación y explicación de los datos obtenidos a la luz del modelo
propuesto.
Hay que decir, que como en todo proceso en el que se va configurando algo, estos pasos
nunca son únicos y definitivos. No hay una secuencialidad rigurosa que exige partir del punto
primero y acabar en el último. Los modelos, en su depuración, frecuentemente exigen
numerosos tanteos, idas y venidas diríamos, hasta conseguir un resultado final satisfactorio.
Esto significa que si en el punto cuarto no hemos logrado recabar suficientemente el modelo,
podremos volver sobre nuestros propios pasos y reformular dicho modelo, e introducir
nuevas variables o eliminar algunas. Digamos que en el proceso de configuración de
modelos, el camino a recorrer es más bien espiral que lineal.
Tal como hemos expuesto los distintos pasos a seguir, se supone que el investigador parte de
una cierta idea preconcebida de cómo funcionan las cosas. De esta forma, este proceso lo
enmarcaríamos dentro de lo que podríamos denominar confirmación de modelos. Aquí
veremos (superficialmente) un procedimiento estadístico -análisis factorial confirmatorio- útil
para estos menesteres. No obstante, hay que decir que con cierta frecuencia el investigador
desconoce hipótesis explícitas a priori de la estructura de la información de partida, o
simplemente prefiere realizar tanteos previos antes de decidirse a establecer tales hipótesis, y
procede a comenzar con una fase exploratoria -análisis factorial exploratorio-. Igualmente,
puede ser útil recurrir a ayudas complementarias que nos aseguren la medida de un
constructo, tal como las basadas en las matrices multirrasgo-multimétodo, que nos ofrecen
ciertas garantías cuando distintos métodos en la medición de un mismo rasgo convergen, o
bien divergen cuando lo que se mide son diferentes rasgos con un mismo método. También,
cuando investigaciones experimentales o estudios correlacionales permiten afianzar nuestros
supuestos. De todas formas, hay que decir, que los modelos, como las teorías, nunca quedan
confirmadas definitivamente. La evidencia empírica, como veremos, ayuda a corroborar el
modelo, pero nunca a confirmarlo del todo.
La validez de constructo se entiende como un proceso amplio en el que se aprovechan todas
las evidencias que ayuden a comprender el significado de un determinado constructo. De esta
forma, es necesario que los contenidos represente el dominio que pretendemos -validez de
contenido-. Además, nuestro constructo quedará reforzado si correlaciona con variables
externas con las que teóricamente está ligado -validez referida a criterio- y si no correlaciona
97
con aquellas con las que no debe. Por ejemplo, una prueba de inteligencia, debe contener
ítems que a juicio de los expertos implican las distintas facetas de la inteligencia, y además,
debe correlacionar con variables tales como rendimiento académico y no debe hacerlo con
variables como personalidad o afinidad política. Igualmente, estudios diferenciales y
experimentales deben proporcionar información adicional. De esta forma, siguiendo con el
tema de la inteligencia, habrá que esperar que niños de diez años presenten puntuaciones en
el test superior a los niños de ocho años -estudio diferencial- o bien, por ejemplo, que la
ansiedad afecte al resultado del test -estudio experimental-.
En definitiva, en la validez de constructo recurre el investigador a todas las evidencias
posibles -relaciones con otras variables y constructos-. Al final resulta que la validez de
constructo es tan amplia como un modelo o teoría que hayamos elaborado de algún aspecto
de la conducta. Por esta razón, es a l-a postre, el recurso de los análisis basados en los
modelos estructurales de donde se nutren los constructos psicológicos. Aunque hay que decir
aquí también que por mucha teoría y por mucha evidencia que dispongamos nunca estaremos
seguros de que nuestro constructo es realmente el constructo que pretendemos medir. En el
siguiente gráfico, podemos comprobar cómo el constructo ξ1 correlaciona con la variable X1,
cuando en realidad el constructo que expresa dicha variable es ξ2:
Supongamos que un investigador desconoce tal relación. Si operamos en estandarizadas,
98
tenemos que:
Se observa que la correlación entre ζ1 y X1, que es una correlación espúrea, puede ser
relativamente fuerte sin ambos constructos presentan igualmente una fuerte relación. El
supuesto investigador, que ignora esta circunstancia, concluiría equivocadamente en base a la
correlación obtenida, que el valor obtenido en X1 es una medida válida del constructo ζ1.
No profundizaremos especialmente en estos procedimientos, que vienen extensamente
desarrollados en Martínez Arias (1995). Veremos sucintamente tan sólo algunos de ellos, que
serán expuestos de forma tal que proporcionen una cierta visión comprensiva de la validez de
constructo que de forma tan enmarañada suele venir expuesta en numerosos textos.
3.4.1.- Matrices multirrasgo-multimétodo
En la validación de constructo se pretende fundamentalmente corroboración empírica de los
supuestos establecidos. En este sentido, frecuentemente se recurren a diversos
procedimientos, que en el proceso mencionado anteriormente de configuración de modelos,
nos ayuden a ir aquilatando el constructo que estamos elaborando. Uno de estos
procedimientos está basado en la denominada matriz multirrasgo-multimétodo (Campbell y
Fiske, 1959) que básicamente consiste en medir varios constructos por varios métodos. Se
entiende que si los diferentes métodos son coincidentes a la hora de medir un mismo rasgo,
entonces hay ciertas garantías de la solidez del rasgo en cuestión -validez convergente-. Por
otro lado, cuando se miden diferentes rasgos por el mismo método deberá haber divergencia -
validez discriminante-.
Supongamos que deseamos estudiar dos rasgos de personalidad tales como Neuroticismo y
Extroversión en un grupo de sujetos. Para ello recurrimos a dos tests diferentes: Rorschach y
MMPI. Calculamos las distintas correlaciones entre todas las variables implicadas y
obtenemos la matriz reflejada en la tabla 3.2.
211211 xx=
99
En cursiva se presentan los diferentes coeficientes de fiabilidad ya que tales valores hacen
referencia a dos aplicaciones del mismo test. Como cabe esperar son elevados. La validez
convergente, o lo que es lo mismo, la correlación entre dos pruebas distintas del mismo rasgo,
ha sido expresada en negrilla. También aquí si el constructo es el que se pretende que sea, las
correlaciones serán altas. En subrayado se encuentran las correlaciones de distintos rasgos
medidos por el mismo test -validez discriminante-. Lógicamente no ha de haber correlaciones
o éstas serán bajas. Por último, distintos rasgos medidos por diferentes test, que vienen
expresados en letra normal, igualmente no deben correlacionar.
Obsérvese la diferencia (y semejanza) entre fiabilidad y validez convergente, tal como la
entienden Campbell y Fiske. Mientras que fiabilidad hace referencia a la medición del mismo
rasgo por métodos equivalentes, validez expresa la medición del mismo rasgo por métodos lo
más diferentes posibles. Hemos dicho también "semejanza" porque en la medida en que en la
fiabilidad no logramos medidas realmente paralelas nos estaremos aproximando a la noción
de validez. Si la intención es medir lo mismo con otros ítems, se hace difícil en estos casos
distinguir validez de fiabilidad.
De hecho, estos autores reconocen que el problema de la validez no queda resuelto con este
procedimiento. Nunca estaremos seguros de que estamos midiendo el mismo constructo. Lo
más que se puede decir es que si diferentes métodos producen resultados similares cuando se
intenta medir un mismo rasgo, tendremos entonces más confianza en la validez de nuestras
medidas que si sucediera lo contrario. Se deduce de ello que la validez convergente
proporciona la base para inferir el constructo, pero no se deduce de ella el constructo mismo.
Diríamos que es condición necesaria pero no suficiente. Al final, los constructos son
hipótesis, y como tales hipótesis -ya lo hemos comentado- contienen un plus que no queda
agotado en evidencias empíricas.
Rorschach MMPI
Extro. Neuro. Extro. Neuro.┌─────────────────────────────────┐│ │
Extro.│ 0.93 │Rorschach │ │
Neuro.│ 0.19 0.96 ││ ││ ││ │
Extro.│ 0.82 0.13 0.95 │MMPI │ │
Neuro.│ 0.21 0.77 0.18 0.97 │└─────────────────────────────────┘
100
La cuestión interesante que introduce el método basado en las matrices multirrasgos-
multimétodos es el de utilizar varios indicadores en la medición de los distintos rasgos, lo
que siempre otorga consistencia a la medida, no solamente en términos de fiabilidad sino
también de validez. Ya veremos en el próximo apartado con las técnicas de análisis factorial
exploratorio, y aún más, con los modelos estructurales, el interés de este procedimiento.
3.4.2.- Análisis factorial exploratorio
Como en el caso anterior, se intenta también aquí encontrar consistencias a través de distintas
mediciones. Disponemos de un conjunto de indicadores y queremos saber qué pautas
presentan. Dicho de otro modo, disponemos de una serie de mediciones y a través de sus
intercorrelaciones intentamos determinar las fuentes de variación común subyacente a tales
observaciones. Como consecuencia del análisis estadístico se concluye en la denominada
matriz factorial donde bajo el epígrafe de factores aparecen las distintas variables que
comparten varianza. Los factores, en la medida que indican fuentes distintas de variación, se
interpretan como las dimensiones subyacentes al conjunto de observables. En este sentido, se
ha querido ver tales dimensiones como los constructos que configuran la parcela de conducta
observada.
No pretendemos que el lector comprenda cabalmente la técnica del análisis factorial sino tan
solo que tenga una cierta comprensión de la misma a través de los ejemplos que
expondremos. Para una profundización al respecto pueden consultarse las obras de Gorsuch
(1983), Harman (1976) o Ferrando (1993).
Unos de los ejemplos más ilustrativos donde se ha aplicado el análisis factorial ha sido en la
medición de la inteligencia, como instrumento de ayuda en la conceptualización de la misma.
Supongamos a este respecto que no sabemos muy bien cuáles son las funciones que integran
la inteligencia, pero más o menos conocemos conductas en las que suponemos se manifiesta
la misma, tales como dominio del vocabulario, comprensión de conceptos, ciertas
operaciones aritméticas, manejo de figuras geométricas ... etc. Sometemos a una serie de
personas al conjunto de ítems que suponemos expresan inteligencia, y que aparecen en la
siguiente figura. Tras el análisis estadístico obtenemos la matriz factorial de orden 9*3,
donde las filas representan las variables y la columnas, las dimensiones o factores, tal como
presentamos a continuación:
101
Variable Factor I Factor II Factor III Comunalidad┌────────────────────────────────────────────────────────────────┐│ Vocabu1ario 0.85 0.02 0.12 0.737 ││ Comprensión 0.74 0.14 0.01 0.567 ││ Fluidez verbal 0.45 0.10 0.40 0.373 ││ Sinónimos 0.75 0.03 0.04 0.565 ││ Rompecabezas 0.11 0.76 0.09 0.598 ││ Semejanzas 0.15 0.54 0.03 0.315 ││ Figuras 0.01 0.67 0.21 0.531 ││ Cubos 0.13 0.71 0.10 0.531 ││ Sumas 0.35 0.29 0.86 0.750 │├────────────────────────────────────────────────────────────────┤│ Var. Explicada 2.21 1.93 0.98 ││ Prop. Var. Exp. 24.54 21.52 10.88 │└────────────────────────────────────────────────────────────────┘
En las columnas encabezadas por los factores se encuentran las correlaciones de las variables
con dicho factor. A éstos valores se les denominan saturaciones. Por ejemplo, en el primer
factor la prueba de vocabulario presenta una correlación de 0.85, lo que se interpreta como
una varianza explicada de 0.723 por parte del factor respecto a dicha variable. Se observa,
igualmente, que hay ciertas familias de variables. Así, la mencionada prueba de vocabulario
junto a la de comprensión, fluidez verbal y sinónimos están emparentadas por sus
saturaciones en el primer factor. Otro tanto sucede en el segundo factor con las pruebas de
rompecabezas, semejanzas, completar figuras y construcción de Cubos. Hay, por último, un
tercer factor, con saturaciones importantes en fluidez verbal y sumas (número de sumas). La
tabla se completa con una cuarta columna denominada comunalidad que expresa el total de la
varianza de la prueba explicada por el conjunto de los factores. Si retomamos la prueba de
vocabulario tendremos que entre todos los factores explican 0.7232+0.022+0.122=0.737; esto
es, el 41% de varianza de dicha prueba. Si sumamos igualmente los cuadrados de las fiilas
obtendremos para cada factor la varianza explicada por el mismo sobre el conjunto de prueba
aplicadas. Así, en el caso del primer factor el valor es de 2.21. Si tenemos en cuenta, al operar
con variables estandarizadas, que el total de varianza de las nueve pruebas valdrá
precisamente 9, entonces interpretaremos el valor de 2.21 como que dicho factor explica la
proporción de 2.21/9=0.2454, o lo que es lo mismo, el primer factor explica un 24.54% de la
variabilidad total de los datos. Como los demás factores explican menos podemos considerar
que el mencionado factor tiene un peso mayor en la inteligencia que los restantes.
Estos datos necesitan ser interpretados en los términos de la investigación realizada, o lo que
es lo mismo, hemos de interpretarlo en términos psicológicos. Hemos hablado de "familias"
de variables. Se trata ahora de ver el parentesco que presentan las mismas y ponerles algún
nombre que las identifique. En este caso, podemos suponer que hay un primer factor o
dimensión que por las variables que la integran podremos denominarla como factor verbal, ya
que en todas ellas el común denominador es un cierto discurso mental en el que interviene el
102
lenguaje. El segundo factor, podremos denominarlo como factor manipulativo, en
contraposición al anterior, ya que se entiende que el lenguaje no forma parte del mismo, sino
un tipo de razonamiento, digamos, de carácter manipulativo. Por último, el número de
palabras que puedan expresarse en un cierto tiempo, o bien el número de sumas capaz de
realizarse, lo denominaremos como factor de rapidez.
Al objeto de simplificar el modelo, podemos considerar que aquellas saturaciones con
valores iguales o inferiores a 0.35 son irrelevantes. Transformando en cero tales valores,
obtendremos la siguiente matriz factorial:
Como consecuencia de ello obtendremos el siguiente modelo, que exponemos gráficamente:
Variable Factor I Factor II Factor III┌─────────────────────────────────────────────────┐│ Vocabulario 0.85 0.00 0.00 ││ Comprensión 0.74 0.00 0.00 ││ Fluidez verbal 0.45 0.00 0.40 ││ Sinónimos 0.75 0.00 0.00 ││ Rompecabezas 0.00 0.76 0.00 ││ Semejanzas 0.00 0.54 0.00 ││ Figuras 0.00 0.67 0.00 ││ Cubos 0.00 0.71 0.00 ││ Sumas 0.00 0.00 0.86 │
103
Podríamos sentirnos tentados a considerar que con este modelo hemos logrado determinar la
estructura de la inteligencia. En este sentido, se ha llegado a afirmar que el procedimiento
factorial proporciona validez factorial, lo cual no es correcto. Habría que hablar, más bien, de
composición factorial de las medidas, tal como sugiere Nunnally (1978, pág. 127), ya que el
análisis factorial por sí mismo no valida nada -no–es más que una transformación
matemática-, y en este sentido, tan sólo estructura un determinado material. Ofrece una salida
con un cierto grado de consistencia, pero que obviamente depende del material que hayamos
suministrado de entrada -validez de contenido-. Posiblemente, si hubiéramos introducido
otros ítems (por ejemplo alguna prueba de atención) o bien, si en lugar de utilizar una matriz
de transformación ortogonal que proporciona factores incorrelados, hubiéramos recurrido a
una matriz de transformación oblicua, lo factores serían distintos y correlacionados. Se
deduce, pues, que el análisis factorial es un instrumento puramente mecánico, que permite
según ciertas restricciones estructurar un determinado material, y que tiene un interés
puramente orientativo como veremos más adelante, cuando expongamos la lógica de los
modelos estructurales.
Igual que en el caso de la matriz multirrasgo-multimétodo, el rasgo común medido es lo que
se entiende por constructo. Aquí el constructo es la consecuencia de un cierto tanteo
matemático -contexto exploratorio- que desemboca en la matriz factorial citada, mientras que
en caso de la denominada validez convergente explícitamente hemos medido lo que
suponemos que es el mismo rasgo, por diferentes métodos. Del parecido en las correlaciones
deducimos lo acertado de nuestros propósitos y concluimos que hay algo común, que es
nuestro rasgo objeto de estudio. Es una deducción que establecemos a partir de la matriz de
correlaciones, un tanto a ojo de buen cubero, mientras que en el caso factorial hay un aparato
matemático que registra y nos ofrece las pautas comunes subyacentes. Se observa, pues, que
ambas técnicas son más complentarias que excluyentes, aunque hay que decir que el
procedimiento factorial, menos exigente, y como fase previa, de carácter exploratorio
cuando no se conoce muy bien la naturaleza de las cosas, es más frecuentemente utilizado.
Hay que hacer también aquí algunas observaciones a la validez factorial, no solamente a lo
discutible del término, tal como hemos apuntado, sino incluso al concepto de composición
factorial en el sentido de si la estructura obtenida permite discriminar rasgos o constructos
distintos o tan sólo que pueda haber una apariencia falaz de una estructura en la naturaleza de
lo medido que no es más que un artificio, resultado de mediciones distintas (que no de
mediciones que miden distintas cosas). Tal como sugieren Carmines y Zeller (1979, pág. 65-
70) en un interesante ejemplo, donde se estudia la composición factorial de la autoestima, y
donde supuestamente ítems que miden lo mismo pero planteados de diferente forma ofrecen
(equivocadamente) dimensiones distintas en un análisis factorial, debido a que el formato de
presentación fue precisamente el que marcó la pauta diferenciadora en las puntuaciones.
104
El análisis factorial aplicado a la validez ofrece este elemento de confusión. Paradójicamente
esta técnica es más útil para la fiabilidad donde sólo nos cuestionamos la consistencia de las
medidas sin más supuestos, que para la validez. Aquí hay que considerarla fundamentalmente
como un instrumento que permite ir aquilatando y configurando un constructo, junto a otras
evidencias empíricas, más que como exponente de la teoría explicativa de la validez de
constructo. La teoría exige de evidencias empíricas, pero tales evidencias no garantiza la
teoría. Al final hay una cierta circularidad en los planteamientos
3.4.3.- Modelos estructurales como validez de constructo
El análisis factorial exploratorio es útil en las primeras fases como tanteo que ayuda a tener
una idea de la posible estructura de un determinado material. Esta fase tiene un interés
fundamentalmente orientativo y se caracteriza por carecer de hipótesis previas, claramente
definidas, de cómo funcionan las cosas. Justo lo contrario del planteamiento de los modelos
estructurales como procedimiento para determinar la validez de constructo. Aquí, el
investigador, en base a sus conocimientos teóricos del tema, y virtualmente ayudado por
técnicas tales como el análisis factorial comentado, propone el modelo explicativo del
fenómeno a estudiar. Así, en el ejemplo que estamos tratando, supone que el tercer factor no
tiene una interpretación clara y subsume todos los ítems en dos constructos. Además,
considera, que en cuanto inteligencia los factores verbal y manipulativo no son
independientes. Así, establece el siguiente modelo:
Figura 3.2. Modelo de Análisis Factorial Confirmatorio
105
Por otro lado, puede ocurrir que su objetivo no se limite a estudiar la inteligencia per se, sino
que tenga interés en integrarla en modelos más complejos donde se alcance mayor riqueza
explicativa. De esta manera, puede crear un marco más amplio donde tenga cabida
constructos tales como Nivel social y Rendimiento escolar. A este respecto puede tomar
como indicadores del Nivel social las siguientes variables: a) Ingresos, b) Estudios y c)
Ocupación. Y como indicadores del Rendimiento escolar: a) Examen, b) Evaluación del
profesor y c) Autoevaluación. Supongamos, igualmente, que por razones de simplicidad
disponemos de dos indicadores de Inteligencia. De esta manera hemos agrupado en una única
prueba todos los ítems que integran el constructo que hemos denominado Inteligencia verbal.
Y lo mismo con los ítems que integran la Inteligencia verbal. Así, elaboraremos el siguiente
modelo ampliado con carácter explicativo del Rendimiento en función de la Inteligencia y el
Nivel social:
Figura 3.3. Modelo estructural aplicado a la validez de constructo
Como puede comprobarse, en este modelo se contemplan tres constructos o variables
latentes. Hay dos constructos ξ1 (Inteligencia) y ξ2 (Nivel social), que consideraremos como
variables exógenas, y un constructo η1 (Rendimiento) que hace aquí el papel de variable
endógena. La ecuación estructural que las liga es:
++= 12121111
106
En términos matriciales:
1
2
1
12111 +=
η = Γ ξ + ζ
Por otro lado, en lo que respecta al modelo de medida tenemos para los indicadores del
Rendimiento:
En notación matricial:
y = Λy η + ε
donde y1, y2 e y3 hace referencia a las variables Examen, Evaluación del profesor y
Autoevaluación.
Y en relación a los indicadores de Inteligencia y Nivel social:
En notación matricial:
31313
21212
11111
+=y
+=y
+=y
3
2
1
1
31
21
11
3
2
1
+=
y
y
y
52525
42424
32323
21212
11111
+=x
+=x
+=x
+=x
+=x
107
x = Λx ξ + δ
donde x1 y x2 hacen referencia a los factores verbal y manipulativo de la inteligencia, y x3, x4
y x5 expresan respectivamente las variables Ingresos, Estudios y Ocupación como
indicadores del constructo Nivel social.
Una vez definido el modelo, mediante el diagrama causal y las ecuaciones que lo integran, se
procede a determinar la validez -validez de constructo- del mismo, que consiste, como se
sabe, en comprobar la viabilidad del modelo especificado. Dicho en otros términos, el modelo
se considera válido si los datos son coherentes (merced a una determinada prueba estadística)
con la estructura especificada. De dicha coherencia no se deduce que hayamos definido el
modelo correcto, sino tan solo un modelo, de los (probablemente) muchos posibles, tal que la
matriz de varianzas-covarianzas reproducida por el modelo no discrepe significativamente de
la matriz de varianzas-covarianzas elaborada a partir de los datos reales. Se trata de aceptar la
hipótesis nula, que como es bien conocido, conlleva un riesgo desconocido β de equivocarse.Este es el problema de siempre cuando queremos asegurarnos de la validez de nuestras
concepciones de la realidad. Elaboramos una teoría que exige de evidencias empíricas, pero a
su vez, tales evidencias no garantiza la teoría formulada. Al final hay una cierta circularidad
en el proceso que impide tomar una conclusión definitiva, aunque existe la esperanza de que
el esfuerzo no haya sido en vano y haya una cierta progresión hacia la verdad de nuestros
planteamientos.
No nos extenderemos en estos aspectos, que serían demasiado prolijo desarrollar, y que en
parte se supone conoce el lector. Nos hemos limitado a hacer una breve exposición, -al hilo
del modelo que nos concierne- de la lógica de los modelos estructurales. Para una mayor
profundización al respecto recomendamos la excelente obra de Bollen (1989).
5
4
3
2
1
2
1
52
42
32
21
11
5
4
3
2
1
+
0
0
0
0
0
=
x
x
x
x
x
108
3.5.- Tratamiento informatizado de la validez
Aquí, como en el caso de la fiabilidad, ofreceremos algunos de los recursos informáticos
proporcionados por el paquete estadístico SPSS. Hay que decir que para el tratamiento de la
validez no existe ningún programa específico, sino que se utilizan aquellos de propósito
general que puedan ser aplicados para cada caso en concreto. De esta forma, para la validez
referida al criterio se recurre al comando REGRESSION, y para la validez de constructo, bien
el análisis factorial -comando FACTOR- o bien, para los modelos estructurales, el comando
LISREL, que actualmente se encuentra implementado en el SPSS, aunque hablando con
propiedad no pertenece al mismo.
En estas páginas nos limitaremos a exponer la aplicación estadística basada en la regresión
múltiple correspondiente al ejemplo 3.1 y que da cuenta de la validez referida al criterio. Para
la validez de constructo no hemos considerado oportuno recurrir a ninguna aplicación por
cuanto se exige un cierto conocimiento en técnicas multivariantes que no hemos tratado por
el momento, y el objetivo teórico, expuesto más arriba, era tan sólo ofrecer al lector una
cierta comprensión de tema.
En relación al ejemplo 3.1, si indicamos las instrucciones siguientes:
obtendremos los siguientes resultado:
REGRESSION/VARIABLES = ALL/DEPENDENT = INGLES/METHOD ENTER MEMORIA FLUIDEZ .
109
El coeficiente de correlación múltiple es precisamente el coeficiente de validez. El análisis de la
varianza nos indica si la variable predictora explica suficientemente (en términos estadísticos) de la
variable criterio. Como puede observarse, la significación de la F de Snedecor es próxima a 0.01, lo
que es demostrativo que el modelo de regresión utilizado aquí se considera válido. Por último se nos
ofrece información sobre la ecuación de regresión. Se presentan los coeficientes de regresión en
directas y estandarizadas, así como la significación estadística de tales coeficientes. Por ejemplo, la
ecuación de regresión en directas será:
Equation Number 1 Dependent Variable.. INGLES
Block Number 1. Method: Enter FLUIDEZ MEMORIA
Variable(s) Entered on Step Number1.. MEMORIA2.. FLUIDEZ
Multiple R ,84798R Square ,71908Adjusted R Square ,63881Standard Error 1,06193
Analysis of VarianceDF Sum of Squares Mean Square
Regression 2 20,20609 10,10304Residual 7 7,89391 1,12770
F = 8,95897 Signif F = ,0118
------------------ Variables in the Equation ------------------Variable B SE B Beta T Sig TFLUIDEZ ,433623 ,277463 ,347053 1,563 ,1621MEMORIA ,563162 ,195924 ,638313 2,874 ,0238(Constant) -,849660 1,623071 -,523 ,6168
X0.43362+X0.56316+0.84966-=Y 21ˆ
110
APENDICE
1.5.- Efecto del error sobre la variable independiente
Cuando las variables son medidas sin error, el estimador de resulta insesgado y su valor es (en
diferenciales): = ∑∑(a.1)
Supongamos ahora que medimos la variable independiente con un cierto error, de forma tal que∗ = + . El nuevo estimador valdrá:
∗ = ∑( + )∑( + ) = ∑∑ + ∑(a.2)
Ya que suponemos que el error de medida no correlaciona ni con la variable Y ni con la X.
Despejando ∑ de (a.1) y sustituyendo su valor en (a.2):
∗ = ∑∑ +∑ = ∑∑ + ∑ = ∑∑ + ∑ = ´(a.3)
Donde ´ definido, como veremos más adelante, como el coeficiente de fiabilidad de la variable X,
que expresa la proporción de variación explicada de la puntuación verdadera de la total.
Y en términos de sus esperanzas matemáticas:
( ∗) = ( ) ( ´) = ´(a.4)
Ya que b y ´ son independientes.
111
2.1.3.- Coeficiente Alpha
Consideremos en primer lugar la varianza total del test como la varianza de la suma de los elementos
del mismo. Como se sabe, la varianza de una suma de variables es igual a la suma de sus varianzas
más sus covarianzas:
= ( + +⋯+ ) = +Igualmente, se sabe que la correlación entre dos variables equivale a a covarianza entre ellas partido
por el producto de sus respectivas desviaciones tipo:
=Luego:
=Por otro lado, si partimos del supuesto que todos los ítems son paralelos, sus varianzas serán iguales:
=Y lo mismo las correlaciones entre ellos:
= ( − 1)Así pues:
= + ( − 1) = +( − 1) = +( − 1)
112
Despejando :
= − ∑( − 1)∑(a.5)
Valor que expresa la correlación entre dos ítems cualesquiera del test. Es la fiabilidad, por así
decirlo, de un test de longitud unidad. Para un test k veces mayor, que es precisamente el test
completo:
= 1 + ( − 1)Sustituyendo por su valor:
= 1 + ( − 1) = − ∑( − 1)∑1 + ( − 1) − ∑( − 1)∑(a.6)
En relación al denominador:
1 + ( − 1) − ∑( − 1)∑ = 1 + −∑∑ = 1 + ∑ + ∑∑ =1 + ∑ − 1 = ∑
Sustituyendo en (a.6):
= − ∑( − 1)∑∑ = − 1 − ∑ = − 1 1 − ∑
113
2.17.-Fiabilidad de un test compuesto
El coeficiente de fiabilidad para una variable suma de otras dos será:
= = ( + +⋯+ )( + +⋯+ )En relación al numerador, como se sabe, la varianza de una suma equivale a la suma de sus varianzas
más la suma de sus covarianzas:
= ( + +⋯+ ) = +Por otro lado, la covarianza entre puntuaciones verdaderas equivale a la covarianza entre las
varianzas empíricas correspondientes:
, = ( − ), ( − ) = , + , + , + ,= ,Ya que se entiende que los errores de medida no correlacionan con las mediciones de otras variables
ni con otros errores. Así:
= ( + +⋯+ ) = +(a.7)
En relación a las puntuaciones empíricas:
= ( + +⋯+ ) = +
114
De donde:
= −Sustituyendo en (a.7):
= + = + −(a.8)
En relación a las varianzas de las puntuaciones verdaderas:
=Por tanto: =Sustituyendo en (a.8):
= = ∑ + − ∑ = 1 − ∑ − ∑
115
REFERENCIAS BIBLIOGRAFICAS
Arce, C. (1994) Técnicas de construcción de escalas psicológicas. Madrid, Síntesis.
Batista, J.M. y Coenders, G (2000) Modelos de ecuaciones estructurales. Madrid, La Muralla.
Bollen, K. A. (1989): Structural equations with latent variables. New York: John Wiley.
Campbell, D. T. & Fiske, D. W. (1959): Convergent and discriminant validation by multitrait-multimethod matrix. Psychologicl Bulletin, 56, 81-105.
Carmines, E. G. & Zeller, R. A. (1979): Reliability and validity assessment. Beverly Hills, CA: SagePublications.
Crocker, L. & Algina, J. (1986): Introduction to classical and modern test theory. New York: Holt,Rinehart & Winston.
Crombach, L. J. (1951): Coefficient alpha and the internal structure of tests. Psychometrica, 16, 297-334.
Crombach, L. J. (1971): Test validation. En R. L, Thorndike (Ed.). Educational Measurement. 2- Ed.Washington, D. C: American Council on Education.
Domenech, J. M. (1985): Métodos estadísticos: modelo lineal de regresión. Barcelona: Herder
Freedman y otros (1993): Estadística. 2- Ed. Barcelona: Antoni Bosch.
Ferrando, P. J. (1993): Introducción al análisis factorial. Barcelona: PPU.
Gorsuch, R. L. (1983): Factor analysis. Hillsdale, NJ: Lawrence Erlbaum.
Gulliksen, H. (1950): Theory of Mental Tests. New York: John Wiley
Harman, H. H. (1976): Modern Factor Analysis. Chicago: University of Chicago Press. (Trad.castellana en Ed. Saltes).
Jenks, C, y et al. (1979): Who gets ahead?. New York: Basic Books.
Kuder, G. F. & Richardson, M. W. (1937): The theory of estimation of test reliability.Psychometrika, 2, 151-160
Lord, F. M. & Novick, M. R. (1968): Statistical theories of mental test score. Reading, MA: AddisonWesley.
Magnuson, D, (1969): Teoría de los tests. México: Trillas.
Martínez Arias, R. (1995): Psicometría: Teoría de los tests psicológicos y educativos. Madrid:Síntesis.
Messick, S. (1975): The standar problem: Meaning and values in measurement and evaluation.American Psychologist, 29, 955-966.
Muñiz, J. (1991) Introducción a los métodos psicofísicos. Barcelona:PPU.
Muñiz, J. (coord.) (1996) Psicometría . Madrid: Universitas.
Muñiz, J. (1994): Teoría clásica de los tests. Madrid: Pirámide
Nunnally, J. C. (1987): Teoría psicométrica. México: Trillas.
116
Nunnally, J. C. & Bernstein, I. J (1995): Teoría psicométrica. 3- Ed. México: McGrawhill.
Pedhazur, E. J. (1982): Múltiple regression in behavioral research. (2- Ed.). New York: Holt,Rinehart and Winston.
Peña, D. (1986): Estadística: Modelos y métodos. Vol. II. Madrid: Alianza.
Santisteban, C. (1990): Psicometría. Teoría y práctica en la construcción de tests. Madrid: Norma.
Thurstone, L.L. (1929) Theory of attitude measuremen. Psychological Review,36 , 222-241.
Yela, M. (1980): Introducción a la teoría de los tests. Madrid: Facultad de Psicología. UniversidadComplutense.