análisis de correspondenciascon spss
DESCRIPTION
SPSSTRANSCRIPT
-
FACULTAD DE INGENIERA DEPARTAMENTO ACADMICO DE CIENCIAS EXACTAS
DIRECCIN DE INFORMACIN ESTADSTICA
UNIVERSIDAD CATLICA
SANTO TORIBIO DE MOGROVEJO
AANNLLIISSIISS DDEE DDAATTOOSS
PPrrooggrraammaa ddee EEssppeecciiaalliizzaacciinn
CCOONN SSPPSSSS
VVeerrssiinn 1155..00
eenn EEssppaaoo
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
2
MMDDUULLOO AAVVAANNZZAADDOO
PPrreeppaarraaddoo ppoorr
EEEEEEEEssssssssttttttttaaaaaaaadddddddd........ MMMMMMMMaaaaaaaannnnnnnnuuuuuuuueeeeeeeellllllll HHHHHHHHuuuuuuuurrrrrrrrttttttttaaaaaaaaddddddddoooooooo SSSSSSSSnnnnnnnncccccccchhhhhhhheeeeeeeezzzzzzzz
CChhiiccllaayyoo,, 22000088
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
3
ANALISIS DE CORRESPONDENCIAS CON EL SPSS 16
El anlisis de correspondencias es una tcnica de interdependencia que facilita tanto la
reduccin dimensional de una clasificacin de objetos (productos, personas, etc.) sobre
un conjunto de atributos y el mapa perceptual de objetos relativos a estos atributos. Los
investigadores se enfrentan constantemente a la necesidad de cuantificar datos
cualitativos que encuentran en variables nominales. Una de las ventajas del anlisis de
correspondencias es que permite acomodar tanto datos no mtricos como relaciones
no lineales.
En su forma ms bsica el anlisis de correspondencias emplea una tabla de
contingencia, que es la tabulacin cruzada de dos variables categricas. A continuacin
transforma los datos no mtricos en un nivel mtrico y realiza una reduccin
dimensional (similar al anlisis factorial) y un mapa perceptual (Similar al anlisis
multidimensional). Por ejemplo, la preferencia por una marca de los encuestados
pueden ser tabulados de forma cruzada con variables demogrficas (sexo, categoras
de rentas, ocupacin) indicando cuanta gente que prefiere cada una de las marcas,
entra dentro de cada categora demogrfica. A travs del anlisis de correspondencias,
la asociacin o correspondencia de marcas y las caractersticas distintivas de
aquellos que prefieren cada marca se muestran en un mapa bi o tridimensional, tanto
de marcas como caractersticas de los encuestados. Las marcas percibidas como
similares estn localizadas estn localizadas en una cercana unas de otras. De la
misma forma las caractersticas ms distintivas de los encuestados que prefieren cada
marca estn determinadas tambin por la proximidad de las categoras de de las
variables demogrficas respecto de la posicin de la marca. El anlisis de las
correspondencias proporciona una representacin multivariante de la interdependencia
de datos no mtricos que no es posible realizar con otros mtodos.
Examinemos a continuacin una situacin simple de CA para lograr cierta perspectiva
de sus principios bsicos. A continuacin, discutiremos cada uno de los seis pasos en
el proceso de toma de decisiones. Se pondr especial nfasis en aquellos elementos
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
4
nicos del CA en comparacin con los mtodos de descomposicin del anlisis
multidimensional.
Un ejemplo sencillo
Examinemos una situacin sencilla como introduccin al CA. En su forma ms bsica,
CA examina las relaciones entre categoras d datos nominales en una tabla de
contingencia, la tabulacin cruzada de dos variables categricas. Por ejemplo,
supongamos que las cifras de ventas de los productos A, B y C se dividen en tres
categoras de edades (adultos jvenes, con edades comprendidas entre los 18 y los 35
aos; adultos con edades comprendidas entre 36 y los 55 aos; y tercera edad,
mayores de 56 aos). Los datos de tabulacin cruzada se muestran en la siguiente
tabla.
Tabla N 1 Ventas por producto segn edad
Ventas del producto Categora de edad A B C Total
Jvenes 20 20 20 60 Adultos 40 10 40 90 Tercera Edad 20 10 40 70
Total 80 40 100 220
Lo datos muestran que las unidades vendidas varan sustancialmente por productos (El
producto C tiene las mayores ventas totales, el producto B las ms bajas) y por grupos
de edad (los adultos de edades medias compran ms unidades, los jvenes los que
menos). Pero queremos identificar cualquier patrn de ventas de tal forma que
podamos afirmar que los jvenes compran ms el producto X o que los adultos
compran ms el producto Z. Para hacer esto, necesitamos una medida de
estandarizacin de unidades de ventas que considere simultneamente las diferencias
en las ventas para una combinacin de producto especfico-categora de edad. A
continuacin, si todava vemos que un cierto grupo de edad compra ms unidades de
un producto que las esperadas, podemos asociar ese grupo de edad con ese producto.
En una representacin grfica, los grupos edad se localizaran ms cerca de productos
con los cuales estn altamente asociados y ms lejos de grupos con asociaciones ms
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
5
bajas. Del mismo modo, queremos ser capaces de ver cualquier producto y ver sus
asociaciones con varios grupos de edad.
Clculo de una medida de asociacin
El anlisis de correspondencias utiliza uno de los conceptos estadsticos ms bsicos,
la Chi cuadrado, para estandarizar las ventas (valores de frecuencia) y formar las
bases de las asociaciones. La Chi cuadrado es una medida estandarizada de las
frecuencias observadas de cada celda contiene las frecuencias esperadas de celdas.
En nuestros datos de tabulacin cruzada, cada celda contiene las ventas para una
combinacin producto grupo de edad. El procedimiento de la Chi cuadrado procede a
continuacin en tres pasos para calcular un valor de Chi cuadrado para cada celda:
1. Clculo de las ventas esperadas. El primer paso es calcular las ventas
esperadas para una celda como si no existiese asociacin. Las ventas
esperadas se definen como la probabilidad conjunta de la combinacin de
columna (producto) y fila (grupo de edad). Esta se calcula como la probabilidad
marginal para el producto (ventas de ese producto para todos los grupos de
edad / ventas totales para todos los grupos de edad y producto) por la
probabilidad marginal para el grupo de edad (ventas de ese grupo de edad para
todos los productos / ventas totales para todos los grupos de edad). A
continuacin este valor se multiplica por las ventas totales para todos los grupos
de edad y todos los productos. Puede simplificarse cancelando trminos de tal
forma que la ecuacin es:
totalesventaslasdeconjunto
productodetipodeltotalesventasxedaddecategoraportotalesVentasesperadasVentas
____
)_____()_____(_ =
En nuestro ejemplo, las ventas esperadas de los jvenes que compran el producto
A son de 21,28 unidades como se muestra en el siguiente clculo:
82,21220
8060_ _, =
=AproductojvenesesperadasVentas
Este clculo se realiza para cada celda, con los resultados que se muestran en la
tabla 2.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
6
Tabla N 2 Clculo de los valores de similitud de la chi cuadrado para datos de la tabulacin cruzada
Ventas del producto
Categora de edad A B C Total
Jvenes Ventas 20 20 20 60
Porcentaje de columna 25 50 20 27.27 Porcentaje de fila 33.33 33.33 33.33 100 Ventas esperadas 21.82 10.91 27.27 60
Diferencia 1.82 -9.09 7.27 Valor Chi cuadrado 0.152 7.58 1.94 9.67
Similitud -0.15 7.58 -1.94 Adultos
Ventas 40 10 40 90 Porcentaje de columna 50 25 40 40.91
Porcentaje de fila 44.44 11.11 44.44 100 Ventas esperadas 32.73 16.36 40.91 90
Diferencia -7.27 6.36 0.91 Valor Chi cuadrado 1.616 2.47 0.02 4.11
Similitud 1.62 -2.47 -0.02
Tercera Edad Ventas 20 10 40 70
Porcentaje de columna 25 25 40 31.82 Porcentaje de fila 28.57 14.29 571.43 100.0 Ventas esperadas 25.45 12.73 31.82 70.0
Diferencia 5.45 2.73 -8.18 Valor Chi cuadrado 1.17 0.58 2.10 3.86
Similitud -1.17 -0.58 2.10
Total Ventas 80 40 100 220
Porcentaje de columna 100 100 100 100 Porcentaje de fila 36.36 18.18 45.45 100 Ventas esperadas 80 40 100 220
Diferencia Valor Chi cuadrado 2.94 10.63 4.06 17.63
82.21220
8060
_
)__()__(_ )__( =
=
=
generalTotal
columnadetotalfiladeTotalesperadasventas Aproductojvenes
82,12082,21)_()_(_, === realesVentasesperadasVentasDiferencia AproductoJvenes
( ) ( )15,0
82,21
82,1
__
22
_, ===EsperadasVantas
DiferenciaCuadradoChiValor AproductoJvenes
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
7
2. Diferencia entre valores observados y esperados. El siguiente paso es calcular
la diferencia entre las ventas esperadas y las observadas como sigue:
)_()_( ObservadasVentasEsperadasVentasDiferencia = , Para nuestro ejemplo de
la celda para los jvenes que compran el producto A, la diferencia es
2082.2182.1 = . Una gran diferencia positiva significara que la combinacin
producto grupo de edad tiene menos ventas que las que cabra esperar (una
asociacin negativa) y una gran diferencia negativa indicara asociaciones
positivas (laceada de las ventas observadas mayor que las ventas esperadas).
Las diferencias para cada celda se muestran tambin en la tabla 2.
3. Calcular el valor de la Chi-Cuadrado: El paso final es estandarizar las diferencias
entre las celdas de tal forma que se puedan realizar fcilmente las
comparaciones. La estandarizacin es necesaria porque sera mucho ms fcil
que se presenten diferencias si las frecuencias (ventas) fueran mucho ms altas
comparadas con una celda con slo unas pocas ventas. As que,
estandarizamos las diferencias para formar un valor de una Chi-Cuadrado
dividiendo cada diferencia al cuadrado por el valor esperado de las ventas. Por
tanto, el valor de la Chi-Cuadrado para una celda se calcula de la siguiente
forma:
( ) ( )esperadasVentas
DiferenciaceldaunadeCuadradoChiValor
____
2
2 =
Para nuestro ejemplo, el valor de la Chi-Cuadrado sera:
( ) ( ) 15,082,21
82,12
_,
2 == AproductojvenesCuadradoChi
Los valores de la Chi-Cuadrado pueden convertire en medidas de similitud
aplicando el signo opuesto de la diferencia. Por tanto para nuestro ejemplo
anterior de la celda, el valor Chi-Cuadrado de 0,15 podra decirse que es u valor
de similitud de -0,15, dado que la diferencia era positiva. Esto es necesario
porque el clculo de la Chi-Cuadrado eleva al cuadrado las diferencias y los
signos negativos, de tal forma que se eliminen. Los valores negativos indican
menos asociacin (similitud) y los valores positivos indican una mayor
asociacin. Los valores de la Ch-Cuadrado para cada celda se muestran en la
tabla 2.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
8
Las celdas con Grandes valores de similitud positivos (indicando una asociacin
positiva) son los jvenes, producto B (+7,58), Adultos, producto A (+1,62) y
tercera edad, producto C (+2,10). Cada uno de estos pares estaran muy
cercanos en un mapa perceptual. Las cldas con grandes valores de similitud
(que significan que las ventas esperadas exceden a las reales, o una asociacin
positiva) seran los jvenes, producto C (-1,94), Adultos, producto B (-2,47) y
tercera edad, producto A (-1,17). Donde sea posible, estas categoras deberan
estar alegadas en el mapa.
Creacin del mapa perceptual
Los valores de similitud (denominados Chi-Cuadrado) ofrecen una medida
estandarizada de la asociacin, con estas medidas de asociacin, CA crea una
medida de distancia mtrica y crea dimensiones ortogonales sobre las cuales se
pueden colocar las categoras para tener ms en cuenta la fortaleza de la
asociacin representada por las distancias de la Chi-Cuadrado. Podemos
considerar en primer lugar una solucin unidimensional, a continuacin
aumentar a dos dimensiones y seguir hasta que alcancemos l mximo nmero
de dimensiones. El mximo es uno menos el menor nmero de las fila o
columnas. En este ejemplo solo podemos tener dos dimensiones (nmero de
filas menos nmero de columnas menos uno = 3-1=2). El mapa perceptual es
bidimensional y se muestra en la figura 1.
De acuerdo con nuestro examen de ls distancias Chi-Cuadrado, el grupo de
edad de los adultos jvenes est ms cerca del producto B, los de la edad
mediana estn ms cerca del producto A y los de la edad ms avanzada estn
cerca al producto C. Asimismo, se representan tambin las asociaciones
negativas en las posiciones y de los productos y grupos de edad. El investigador
puede examinar el mapa perceptual para entender las preferencias del producto
entre los grupos de edad basndose en sus patrones de venta Pero no
conocemos por qu existen los patrones de venas, sino slo cmo identificarlos.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
9
Grfico N 1 Mapa perceptual del anlisis de correspondencias
0
2
4
6
8
10
12
14
16
0 2 4 6 8 10 12 14 16
Dimensin I
Dimensin II
Primer paso: OBJETIVOS DEL ANLISIS DE CORRESPONDENCIAS (CA)
El CA puede tener dos objetivos bsicos:
1. Asociacin entre categoras de columna o fila. El CA puede utilizarse para
examinar la asociacin entre las categoras de slo una fila o una columna. Un
uso tpico es el examen de las categoras de una escala, como la escala de
Likert (cinco categoras que van del totalmente de acuerdo al totalmente en
desacuerdo) u otras escalas cualitativas (es decir, excelente, bueno, regular,
malo). Las categoras pueden compararse para ver si dos de ellas pueden ser
combinadas (es decir, estn muy prximas en el mapa) o si se ofrecen
discriminacin (es decir, estn muy prximas en el mapa) o si ofrecen
discriminacin (es decir, estn localizadas separadamente en el mapa
perceptual).
2. Asociacin entre categoras de filas y columnas. En esta aplicacin, el inters
est en representar la asociacin entre categoras de filas y columnas, de la
misma forma que por ejemplo producto por grupo de edad.
Producto B
Jvenes
Producto B
Adultos
Producto C
Personas de la tercera edad
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
10
El investigador debe determinar los objetivos especficos del anlisis debido a que
ciertas decisiones se basan en el tipo de objetivo elegido. El CA ofrece una
representacin multivariante de interdependencia para datos no mtricos que no es
posible realizar con otros mtodos. El investigador debe asegurarse incluir a todas
las variables relevantes apropiadas.
Segundo paso: Diseo de la investigacin mediante anlisis de
correspondencias (CA)
El anlisis de correspondencias solo requiere de una matriz de datos rectangular
(Tabulacin cruzada) de entradas no negativas. Las filas y las columnas no tienen
significados predeterminados(es decir los atributos no siempre tienen que ser filas)
pero en su lugar representan las respuestas de una o ms variables categricas.
Las categoras para una fila o una columna no tienen que ser necesariamente una
nica variable sino que pueden representar cualquier conjunto de relaciones. Como
ejemplo principal tenemos el mtodo de escoja cualquiera en el que se da a los
encuestados un conjunto de objetos y caractersticas. Los encuestados indican a
continuacin los objetos, si es que hay alguno, estn descritos por esas
caractersticas. Ntese que el encuestado pede elegir cualquier nmero de objetos
para cada caracterstica, en lugar de un nmero ya especificado (es decir, elegir
slo el objeto que mejor se describe o el mejor de los objetos). En esta situacin, la
tala de tabulacin cruzada sera el nmero total de veces que cada objeto est
descrito por cada caracterstica.
La tabulacin cruzada de ms de dos variables bajo la forma de una matriz
multientrada se conoce como el anlisis de correspondencias mltiple. En un
procedimiento bastante similar al anlisis de dos entradas, las variables adicionales
son ajustadas, de forma que todas las categoras estn situadas en el mismo
espacio multidimensional.
Tercer Paso: Supuestos del anlisis de correspondencias.
El anlisis de correspondencias comparte con las tcnicas de anlisis
multidimensional ms tradicionales una relativa libertad respecto a sus supuestos
bsicos. El uso de daos estrictamente no mtricos en su forma ms simple (datos
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
11
de tabulacin cruzada) representa igualmente bien relaciones lineales y no lineales.
La falta de supuestos, sin embargo, no debe llevar al investigador a no esforzarse
en conseguir la comparabilidad de los objetos y, dado que es una tcnica de
composicin, a considerar la generalidad de los atributos utilizados.
Curto paso: Obtencin de resultados con anlisis de correspondencias y valoracin del ajuste conjunto
Con una tabulacin cruzada, las frecuencias para cualquier combinacin de filas y
columnas de las categoras estn relacionadas con otras combinaciones basadas
en frecuencias marginales. Este procedimiento proporciona una expectativa
condicionada (un valor Chi-cuadrado). Una vez obtenido, estos valores de la Chi-
cuadrado se estandarzan y se convierten en una distancia mtrica, y a continuacin
en un proceso mucho ms parecido al anlisis multidimensional, se definen
soluciones de dimensiones reducidas. Estos factores relacionan simultneamente
filas y columnas en un nico grafico conjunto. El resultado es una representacin de
categoras de filas y/o columnas (es decir arcas y atributos) en el mismo grfico.
Existen varios programas que realizan el anlisis de correspondencias, entre los
que podemos citar el SPSS.
Para evaluar el ajuste conjunto, el investigador debe identificar en primer lugar el
nmero apropiado de dimensiones y su importancia. El nmero mximo de
dimensiones que pueden ser estimadas es uno menos el nmero ms pequeo de
filas o columnas. Por ejemplo con seis columnas y ocho filas, el nmero mximo de
dimensiones sera cinco, dado que seis (nmero de columnas) menos uno. Los
autovalores tambin conocidos como valores singulares, se obtienen para cada
dimensin, e indican la contribucin relativa de cada dimensin en la explicacin de
la variacin en las categoras. El SPSS introduce una medida denominada inercia,
que tambin mide la variacin explicada y est directamente desarrollada con el
autovalor. El investigador selecciona el nmero de dimensiones basndose en el
nivel conjunto de explicacin deseada de la variacin y el aumento de explicacin
ganado por la adicin de otra dimensin. Se puede decir como norma general, que
aquellas dimensiones con inercia (autovalores) mayor que 0.2 deberan ser
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
12
incluidas en el anlisis. Utilizar una representacin tridimensional o menor facilita la
interpretacin.
Quinto paso: Interpretacin de los resultados.
Una vez que se ha establecido la dimensionalidad, el investigador puede identificar
una asociacin de categoras con otras categoras por su proximidad despus de
hacer la normalizacin apropiada. El investigador debe seleccionar el tipo de
normalizacin, y determinar si las comparaciones se van ha hacer entre categoras
de filas, categoras de columnas o categoras de filas y columnas. En muchos
casos, se desean comparar categoras de filas y columnas. Pueden existir muchos
casos, sin embargo, en los cuales el inters se centra slo en filas o columnas,
como cuando se examinan las categoras de una escala para ver si pueden ser
combinadas. Hasta este momento, hay debate acerca de si es apropiado comparar
entre categoras de filas y columnas. Algunos programas informticos ofrecen un
procedimiento de normalizacin que permite esta comparacin directa. Si slo se
dispone de un fila o columna normalizada, se proponen procedimientos alternativos
para hacer todas las categoras comparables, pero todava hay desacuerdo en su
xito. En los casos para los cuales no se pueden hacer comparaciones directas, la
correspondencia general todava se mantiene y pueden distinguirse patrones
especficos.
Si el investigador est interesado en definir el carcter de una o ms dimensiones
en trminos de las categoras de filas y columnas, existen medidas descriptivas que
indican la asociacin de cada categora con una dimensin especfica. De carcter
similar a las cargas de los factores, estas medidas detallan la medida de la
asociacin individualmente para cada dimensin as como colectivamente. De las
medidas colectivas, se puede hacer una evaluacin del ajuste para cada categora.
Sexto paso: Validacin de los resultados
La naturaleza composicional del anlisis de correspondencias ofrece al investigador
ms posibilidades de validar los resultados. Como con todas las tcnicas del
anlisis multidimensional, hay que hacer ms nfasis en asegurar la generalizacin
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
13
mediante anlisis split o multimuestra Sin embargo como con otras tcnicas de
elaboracin de mapas preceptales, debe establecerse la generalidad de los
objetos (individualmente y como un conjunto). Puede evaluarse la sensibilidad de
los resultados a la adicin o sustraccin de un atributo. El objetivo es evaluar si el
anlisis es dependiente de slo unos pocos objetos y/o atributos. En cada caso el
investigador debe entender el verdadero significado de los resultados en trminos
de os objetos y los atributos.
Visin de conjunto del anlisis de correspondencias
El anlisis de correspondencias ofrece al investigador varias ventajas. En primer
lugar, puede presentarse en un espacio perceptual la tabulacin cruzada simple de
variables categricas mltiples, tales como atributos de los productos versus
marcas. Este enfoque permite al investigador analizar las respuestas existentes o
conseguir respuestas con el tipo de medida menos restrictivo, al nivel nominal o
categrico. Por ejemplo en encuestado solo necesita decir si no para un nmero de
objetos sobre un nmero de atributos. A continuacin, estas respuestas se pueden
incluir en una tabla de tabulacin cruzada y ser analizadas. Otras tcnicas, como el
anlisis factorial necesitan requieren clasificaciones de intervalo de cada atributo
para cada objeto.
En segundo lugar, CA representa no solo las relaciones entre filas y columnas, sino
tambin las relaciones entre categoras tanto de filas como de columnas. Por
ejemplo s las columnas fueran atributos, muchos atributos cercanos tendran todos
perfiles similares para todos los productos. Con ello se forma un grupo de atributos
bastante similar al factor obtenido mediante anlisis de componentes principales.
Finalmente lo ms importante, CA puede ofrecer una representacin conjunta de
categoras de filas y columnas en la misma dimensionalidad.
Sin embargo el CA tambin tiene desventajas o limitaciones. La primera es que la
tcnica y no del todo apropiada para la contrastacin de hiptesis. Si se desea la
relacin cuantitativa de categoras, se sugieren mtodos tales como modelos no
lineales. El anlisis de correspondencias es ms apropiado para anlisis
exploratorio d los datos. En segundo lugar el CA, como ocurre con muchos otros
mtodos de reduccin de la dimensionalidad, no cuenta con un mtodo para
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
14
determinar concluyentemente el nmero de dimensiones apropiado. Como ocurre
con otros mtodos similares, el investigador debe sopesar la interpretabilidad con la
parsimonia de la representacin de los datos. Finalmente, a tcnica es muy sensible
a los casos atpicos, en trminos tanto de filas como de columnas. Tambin a
efectos de generalizacin, se pueden presentar problemas si s omiten algn objeto
o atributo relevante.
Anlisis de correspondencias con el SPSS15
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
15
Uno de los objetivos del anlisis de correspondencias es describir las relaciones existentes entre dos variables nominales, recogidas en una tabla de correspondencias, sobre un espacio de pocas dimensiones, mientras que al mismo tiempo se describen las relaciones entre las categoras de cada variable. Para cada variable, las distancias sobre un grfico entre los puntos de categoras reflejan las relaciones entre las categoras, con las categoras similares representadas prximas unas a otras. La proyeccin de los puntos de una variable sobre el vector desde el origen hasta un punto de categora de la otra variable describe la relacin entre ambas variables.
El anlisis de las tablas de contingencia a menudo incluye examinar los perfiles de fila y de columna, as como contrastar la independencia a travs del estadstico de chi-cuadrado. Sin embargo, el nmero de perfiles puede ser bastante grande y la prueba de chi-cuadrado no revelar la estructura de la dependencia. El procedimiento Tablas de contingencia ofrece varias medidas y pruebas de asociacin pero no puede representar grficamente ninguna relacin entre las variables.
El anlisis factorial es una tcnica tpica para describir las relaciones existentes entre variables en un espacio de pocas dimensiones. Sin embargo, el anlisis factorial requiere datos de intervalo y el nmero de observaciones debe ser cinco veces el nmero de variables. Por su parte, el anlisis de correspondencias asume que las variables son nominales y permite describir las relaciones entre las categoras de cada variable, as como la relacin entre las variables. Adems, el anlisis de correspondencias se puede utilizar para analizar cualquier tabla de medidas de correspondencia que sean positivas.
Ejemplo. El anlisis de correspondencias se puede utilizar para representar grficamente la relacin entre la categora laboral y el hbito de fumar. Observar que, en relacin al tabaco, el comportamiento de los subdirectores difiere del de las secretarias, pero el comportamiento de stas no difiere del de los directores. Asimismo observar, que el tabaquismo pronunciado se encuentra asociado a los subdirectores, mientras que el tabaquismo leve se encuentra asociado a las secretarias.
Estadsticos y grficos. Medidas de correspondencia, perfiles de fila y de columna, valores propios, puntuaciones de fila y de columna, inercia, masa, estadsticos de confianza para las puntuaciones de fila y de columna, estadsticos de confianza para los valores propios, grficos de transformacin, grficos de los puntos de fila, grficos de los puntos de columna y diagramas de dispersin biespaciales.
Consideraciones sobre los datos
Datos. Las variables categricas que se van a analizar se encuentran escaladas a nivel nominal.
Para los datos agregados o para una medida de correspondencia distinta de las frecuencias,
utilice una variable de ponderacin con valores de similaridad positivos. De manera alternativa,
para datos tabulares, utilice la sintaxis para leer la tabla.
Supuestos. El mximo nmero de dimensiones utilizado en el procedimiento depende del
nmero de categoras activas de fila y de columna y del nmero de restricciones de igualdad. Si
no se utilizan criterios de igualdad y todas las categoras son activas, la dimensionalidad mxima
es igual al nmero de categoras de la variable con menos categoras menos uno. Por ejemplo, si
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
16
una variable dispone de cinco categoras y la otra de cuatro, el nmero mximo de dimensiones
es tres. Las categoras suplementarias no son activas. Por ejemplo, si una variable dispone de
cinco categoras, dos de las cuales son suplementarias, y la otra variable dispone de cuatro
categoras, el nmero mximo de dimensiones es dos. Considere todos los conjuntos de
categoras con restriccin de igualdad como una nica categora. Por ejemplo, si una variable
dispone de cinco categoras, tres de las cuales tienen restriccin de igualdad, dicha variable se
debe tratar como si tuviera tres categoras en el momento de calcular la dimensionalidad
mxima. Dos de las categoras no tienen restriccin y la tercera corresponde a las tres categoras
restringidas. Si se especifica un nmero de dimensiones superior al mximo, se utilizar el valor
mximo.
Procedimientos relacionados. Si hay implicadas ms de dos variables, utilice el anlisis de
correspondencias mltiple. Si se deben escalar las variables de forma ordinal, utilice el anlisis
de componentes principales categrico.
Para obtener un anlisis de correspondencias
Elija en los mens:
Analizar
Reduccin de datos
Anlisis de correspondencias...
Seleccione una variable de filas.
Seleccione una variable de columnas.
Defina los rangos para las variables.
Pulse en Aceptar.
Definir rango de filas en Anlisis de correspondencias
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
17
Debe definir un rango para la variable de filas. Los valores mnimo y mximo especificados deben ser nmeros enteros. En el anlisis, se truncarn los valores de los datos fraccionarios. Se ignorar en el anlisis cualquier valor de categora que est fuera del rango especificado.
Inicialmente, todas las variables estarn sin restringir y activas. Puede restringir las categoras de fila para igualarlas a otras categoras de fila o puede definir cualquier categora de fila como suplementaria.
Las categoras deben ser iguales. Las puntuaciones de las categoras deben ser iguales. Utilice las restricciones de igualdad si el orden obtenido para las categoras no es el deseado o si no se corresponde con lo intuitivo. El mximo nmero de categoras de fila que se puede restringir para que sean consideradas iguales es el nmero total de categoras de fila activas menos 1. Utilice la sintaxis para imponer restricciones de igualdad a diferentes conjuntos de categoras. Por ejemplo, utilice la sintaxis para imponer la restriccin de que sean consideradas iguales las categoras 1 y 2 y, por otra parte, que sean consideradas iguales las categoras 3 y 4.
La categora es suplementaria. Las categoras suplementarias no influyen en el anlisis pero se representan en el espacio definido por las categoras activas. Las categoras suplementarias no juegan ningn papel en la definicin de las dimensiones. El nmero mximo de categoras de fila suplementarias es el nmero total de categoras de fila menos 2.
Para definir el rango de una fila en anlisis de correspondencias
Seleccione la variable de fila en el cuadro de dilogo Anlisis de correspondencias.
Pulse en Definir rango.
Introduzca los valores mnimo y mximo para las variables de fila.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
18
Pulse en Actualizar.
Pulse en Continuar.
Si lo desea, puede especificar restricciones de igualdad entre las categoras de la variable de
fila y definir algunas categoras como suplementarias. Para cada categora que se deba
restringir o definir como suplementaria, seleccione la categora de la lista de categoras
generada por Actualizar y seleccione La categora es suplementaria o Las categoras deben ser
iguales. Para las restricciones de igualdad, se deben designar, al menos, dos categoras como
iguales.
Definir rango de columnas en Anlisis de correspondencias
Debe definir un rango para la variable de columnas. Los valores mnimo y mximo especificados deben ser nmeros enteros. En el anlisis, se truncarn los valores de los datos fraccionarios. Se ignorar en el anlisis cualquier valor de categora que est fuera del rango especificado.
Inicialmente, todas las variables estarn sin restringir y activas. Puede restringir las categoras de columna para igualarlas a otras categoras de columna o puede definir cualquier categora de columna como suplementaria.
Las categoras deben ser iguales. Las puntuaciones de las categoras deben ser iguales. Utilice las restricciones de igualdad si el orden obtenido para las categoras no es el deseado o si no se corresponde con lo intuitivo. El nmero mximo de categoras de columna al que se puede imponer la restriccin de igualdad es el nmero total de categoras de columna activas menos 1. Utilice la sintaxis para imponer restricciones de igualdad a diferentes conjuntos de
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
19
categoras. Por ejemplo, utilice la sintaxis para imponer la restriccin de que sean consideradas iguales las categoras 1 y 2 y, por otra parte, que sean consideradas iguales las categoras 3 y 4.
La categora es suplementaria. Las categoras suplementarias no influyen en el anlisis pero se representan en el espacio definido por las categoras activas. Las categoras suplementarias no juegan ningn papel en la definicin de las dimensiones. El nmero mximo de categoras de columna suplementarias es el nmero total de categoras de columna menos 2.
Para definir un rango de columnas en anlisis de correspondencias
Seleccione la variable de columna en el cuadro de dilogo Anlisis de correspondencias.
Pulse en Definir rango.
Escriba los valores mnimo y mximo para las variables de columna.
Pulse en Actualizar.
Pulse en Continuar.
Si lo desea, puede especificar restricciones de igualdad entre las categoras de la variable de
columna y definir algunas categoras como suplementarias. Para cada categora que se deba
restringir o definir como suplementaria, seleccione la categora de la lista de categoras
generada por Actualizar y seleccione La categora es suplementaria o Las categoras deben ser
iguales. Para las restricciones de igualdad, se deben designar, al menos, dos categoras como
iguales.
Anlisis de correspondencias: Modelo El cuadro de dilogo Modelo permite especificar el nmero de dimensiones, la medida de
distancia, el mtodo de estandarizacin y el mtodo de normalizacin.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
20
Dimensiones en la solucin. Especifique el nmero de dimensiones. En general,
seleccione el menor nmero de dimensiones que necesite para explicar la mayor parte
de la variacin. El mximo nmero de dimensiones depende del nmero de categoras
activas utilizadas en el anlisis y de las restricciones de igualdad. El mximo nmero de
dimensiones es el menor entre:
El nmero de categoras de fila activas menos el nmero de categoras de fila
con restriccin de igualdad, ms el nmero de conjuntos de categoras de fila
que se han restringido.
El nmero de categoras de columna activas menos el nmero de categoras de
columna con restriccin de igualdad, ms el nmero de conjuntos de categoras
de columna que se han restringido.
Medida de distancia. Puede seleccionar la medida de distancia entre las filas y
columnas de la tabla de correspondencias. Seleccione una de las siguientes opciones:
Chi-cuadrado. Utiliza una distancia ponderada entre los perfiles, donde la
ponderacin es la masa de las filas o de las columnas. Esta distancia es
necesaria para el anlisis de correspondencias tpico.
Eucldea. Utiliza la raz cuadrada de la suma de los cuadrados de las diferencias
entre los pares de filas y entre los pares de columnas.
Mtodo de estandarizacin. Seleccione una de las siguientes opciones:
Se eliminan las medias de filas y columnas. Se centran las filas y las columnas.
Este mtodo es necesario para el anlisis de correspondencias tpico.
Se eliminan las medias de filas. Slo se centran las filas.
Se eliminan las medias de columnas. Slo se centran las columnas.
Se igualan los totales de fila y se eliminan las medias. Antes de centrar las filas,
se igualan los mrgenes de fila.
Se igualan los totales de columna y se eliminan las medias. Antes de centrar las
columnas, se igualan los mrgenes de columna.
Mtodo de normalizacin. Seleccione una de las siguientes opciones:
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
21
Simtrico. Para cada dimensin, las puntuaciones de fila son la media
ponderada de las puntuaciones de columna divididas por el valor propio
coincidente y las puntuaciones de columna son la media ponderada de las
puntuaciones de fila divididas por el valor propio coincidente. Utilice este mtodo
si desea examinar las diferencias o similaridades entre las categoras de las dos
variables.
Principal. Las distancias entre los puntos de fila y los puntos de columna son
aproximaciones de las distancias en la tabla de correspondencias de acuerdo
con la medida de distancia seleccionada. Utilice este mtodo si desea examinar
las diferencias entre las categoras de una o de ambas variables en lugar de las
diferencias entre las dos variables.
Principal por fila. Las distancias entre los puntos de fila son aproximaciones de
las distancias en la tabla de correspondencias de acuerdo con la medida de
distancia seleccionada. Las puntuaciones de fila son la media ponderada de las
puntuaciones de columna. Utilice este mtodo si desea examinar las diferencias
o similaridades entre las categoras de la variable de filas.
Principal por columna. Las distancias entre los puntos de columna son
aproximaciones de las distancias en la tabla de correspondencias de acuerdo
con la medida de distancia seleccionada. Las puntuaciones de columna son la
media ponderada de las puntuaciones de fila. Utilice este mtodo si desea
examinar las diferencias o similaridades entre las categoras de la variable de
columnas.
Personalizado. Debe especificar un valor entre 1 y 1. El valor 1 corresponde
a Principal por columna. El valor 1 corresponde a Principal por fila. El valor 0
corresponde a simtrico. Todos los dems valores dispersan la inercia entre las
puntuaciones de columna y de fila en diferentes grados. Este mtodo es til para
generar diagramas de dispersin biespaciales a medida.
Para especificar el modelo en anlisis de correspondencias
Elija en los mens:
Analizar
Reduccin de datos
Anlisis de correspondencias...
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
22
En el cuadro de dilogo Anlisis de correspondencias, pulse en Modelo.
Anlisis de correspondencias: Estadsticos
El cuadro de dilogo Estadsticos permite especificar los resultados numricos producidos.
Tabla de correspondencias. Es la tabla de contingencia de las variables de entrada con los totales marginales de fila y columna.
Inspeccin de los puntos de fila. Para cada categora de fila, las puntuaciones, la masa, la inercia, la contribucin a la inercia de la dimensin y la contribucin de la dimensin a la inercia del punto.
Inspeccin de los puntos de columna. Para cada categora de columna, las puntuaciones, la masa, la inercia, la contribucin a la inercia de la dimensin y la contribucin de la dimensin a la inercia del punto.
Perfiles de fila. Para cada categora de fila, la distribucin a travs de las categoras de la variable de columna.
Perfiles de col. Para cada categora de columna, la distribucin a travs de las categoras de la variable de fila.
Permutaciones de la tabla de correspondencias. La tabla de correspondencias reorganizada de tal manera que las filas y las columnas estn en orden ascendente de acuerdo con las puntuaciones en la primera dimensin, Si lo desea, puede especificar el nmero de la dimensin mxima para el que se generarn las tablas permutadas. Se generar una tabla permutada para cada dimensin desde 1 hasta el nmero especificado.
Estadsticos de confianza para puntos de fila. Incluye la desviacin tpica y las correlaciones para todos los puntos de fila no suplementarios.
Estadsticos de confianza para puntos de columna. Incluye la desviacin tpica y las correlaciones para todos los puntos de columna no suplementarios.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
23
Para seleccionar estadsticos en anlisis de correspondencias
Elija en los mens:
Analizar
Reduccin de datos
Anlisis de correspondencias...
En el cuadro de dilogo Anlisis de correspondencias, pulse en Estadsticos.
Anlisis de correspondencias: Grficos
El cuadro de dilogo Grficos permite especificar qu grficos se van a generar.
Diagramas de dispersin. Produce una matriz de todos los grficos por parejas de las dimensiones. Los diagramas de dispersin disponibles incluyen:
Diagrama de dispersin biespacial. Produce una matriz de diagramas conjuntos de los puntos de fila y de columna. Si est seleccionada la normalizacin principal, el diagrama de dispersin biespacial no estar disponible.
Puntos de fila. Produce una matriz de diagramas de los puntos de fila. Puntos de columna. Produce una matriz de diagramas de los puntos de
columna.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
24
Si lo desea, puede especificar el nmero de caracteres de etiqueta de valor que se va a utilizar al etiquetar los puntos. Este valor debe ser un entero no negativo menor o igual que 20.
Grfico de lneas. Produce un grfico para cada dimensin de la variable seleccionada. Los grficos de lneas disponibles incluyen:
Categoras de fila transformadas. Produce un grfico de los valores originales para las categoras de fila frente a las puntuaciones de fila correspondientes.
Categoras de columna transformadas. Produce un grfico de los valores originales para las categoras de columna frente a las puntuaciones de columna correspondientes.
Si lo desea, puede especificar el nmero de caracteres de etiqueta de valor que se va a utilizar al etiquetar los ejes de categoras. Este valor debe ser un entero no negativo menor o igual que 20.
Dimensiones del grfico. Permite controlar las dimensiones que se muestran en los resultados.
Muestra todas las dimensiones de la solucin. Todas las dimensiones de la solucin se muestran en un diagrama de dispersin matricial.
Restringe el nmero de dimensiones. Las dimensiones mostradas se restringen a los pares representados. Si restringe las dimensiones, deber seleccionar las dimensiones menor y mayor que se van a representar. La dimensin menor puede variar desde 1 hasta el nmero de dimensiones de la solucin menos 1 y se representa respecto a las dimensiones mayores. El valor de la dimensin mayor puede oscilar variar desde 2 hasta el nmero de dimensiones de la solucin e indica la dimensin mayor que se utilizar al representar los pares de dimensiones. Esta especificacin se aplica a todos los grficos multidimensionales solicitados.
Para crear grficos en anlisis de correspondencias
Elija en los mens:
Analizar
Reduccin de datos
Anlisis de correspondencias...
En el cuadro de dilogo Anlisis de correspondencias, pulse en Grficos.
Funciones adicionales del comando CORRESPONDENCE
Se puede personalizar el anlisis de correspondencias si se pegan las selecciones en una ventana de sintaxis y se edita la sintaxis del comando CORRESPONDENCE resultante. El lenguaje de comandos de SPSS tambin permite:
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
25
Especificar datos tabulares como entrada en lugar de utilizar datos por caso (mediante el subcomando TABLE = ALL).
Especificar el nmero de caracteres de etiqueta de valor que se utilizan al etiquetar los puntos para cada tipo de diagrama de dispersin matricial o diagrama de dispersin biespacial matricial (mediante el subcomando PLOT).
Especificar el nmero de caracteres de etiqueta de valor que se utilizan al etiquetar los puntos para cada tipo de grfico de lneas (mediante el subcomando PLOT).
Escribir una matriz de puntuaciones de fila y de columna en un archivo de datos matriciales de SPSS (mediante el subcomando OUTFILE).
Escribir una matriz de estadsticos de confianza (varianzas y covarianzas) para los valores propios y las puntuaciones en un archivo de datos matriciales (mediante el subcomando OUTFILE).
Especificar varios conjuntos de categoras para igualar (mediante el subcomando EQUAL).
EJEMPLO DE ANALISIS DE CORRESPONDECIAS SIMPLES
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
26
Partimos de los datos recogidos en una encuesta realizada a 105 personas. El
cuestionario preguntaba por las caractersticas principales asociadas a una serie de
productos de consumo muy habitual.
La finalidad del estudio es identificar con qu caractersticas se asocian los distintos
productos para posesionarlos en funcin de su aceptabilidad. Tambin se busca
encontrar asociaciones entre productos en virtud de la valoracin de sus
caractersticas por los encuestados.
En el cuestionario se consideraron 12 productos, y para cada uno de ellos se
presentaron 12 caractersticas, pidiendo al encuestado que reflejara para cada
producto las caractersticas que consideraba adecuadas al mismo. Los resultados
obtenidos se presentan en la siguiente tabla de correspondencias.
CARACTERSTICA
PRODUCTO MODERNO AMIGABLE SOLIDARIO JUVENIL EXPORTABLE ELEGANTE CONFIABLE CREATIVO ECONMICO DIVERTIDO CLSICO
LEVIS 56 13 4 51 74 8 31 26 0 10 20
LOIS 31 9 5 58 17 4 11 17 18 21 13
BENNETTON 35 25 59 31 61 21 9 38 10 17 13
ZARA 52 23 6 45 29 30 16 18 65 12 15
OPEL 12 4 3 14 40 23 23 8 29 2 25
VOLKSWAGEN 27 1 5 15 56 29 47 21 9 4 24
SEAT 18 19 4 27 22 8 19 16 50 12 22
AUDI 35 0 2 6 56 64 55 16 3 1 44
COCACOLA 32 41 23 50 81 7 19 35 19 31 35
KAS 19 25 12 36 10 1 9 16 32 23 13
PEPSICOLA 31 19 25 38 49 3 11 13 26 21 13
CASERA 3 19 7 5 3 1 16 9 37 9 53
SUPLEMENTO 44 59 28 55 20 24 37 30 33 49 19
La ltima fila de la tabla de datos representa una categora suplementaria
introducida en el cuestionario y que no se considerar activa en el anlisis.
Como buscamos asociaciones y dependencias entre las categoras de dos variables
cualitativas, podemos asociar nuestro problema con un anlisis de
correspondencias simples. Para llevarlo a cabo, comenzaremos introduciendo los
datos como se muestra en la figura E1.1 en la cual aparecen los cdigos de los
productos y las caractersticas, en cambio si visualizamos sus etiquetas la base
podra apreciarse como en la figura E1.2.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
27
Figura E1.1
Figura E1.2
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
28
El siguiente paso es ponderar los casos por las frecuencias absolutas. Para ello se
elige en el men del SPSS casosPonderarDatos _ tal como aparece en las figuras
E1.3 y E1.4 y se pulsa Aceptar .
Figura E1.3
Figura E1.4
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
29
Para realizar un anlisis de correspondencias simples, elija en los mens
enciascorresponddeAnlisisdatosdeduccinAnalizar ____Re como se muestra
en la figura E1.5 y seleccione las variables y las especificaciones para el anlisis,
como aparece en la figura E1.6.
Figura E1.5
Figura E1.6
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
30
Previamente hemos debido cargar la base de datos corresps mediante
DatosAbrirArchivo . Esta base contiene los datos sobre determinados
productos del mercado y las variables a analizar son la Marca del Producto
(Producto) y sus caractersticas (Caracterstica). En nuestro caso hemos introducido
una categora suplementaria de nombre Suplemento para la variable Producto.
En cuanto a los datos, las variables categricas que se van ha analizar se
encuentran escaladas a nivel nominal. Para los datos agregados o para una medida
de correspondencia distinta de frecuencias, utilice una variable de ponderacin con
valores de similaridad positivos. De manera alternativa, para datos tabulares, utilice
la sintaxis para leer la tabla.
En cuanto a los supuestos, el mximo nmero de dimensiones utlizado en el
procedimiento depende del nmero de categoras activas de fila y de columna y del
nmero de restricciones de igualdad. Si no se utilizan criterios de igualdad y todas
las categoras son activas, la dimensionalidad mxima es igual al nmero de
categoras de la variable con menos categoras menos uno. Por ejemplo, Si una
variable dispone de cinco categoras y la otra de cuatro, el nmero mximo de
dimensiones es tres.
Las categoras suplementarias no son activas. Por ejemplo, si una variable dispone
de dispone de 5 categoras, dos de las cuales son suplementarias, y la otra variable
dispone de 4 categoras, el nmero mximo de dimensiones es 2.
En los campos Fila y Columna de la figura E1.6 se introduce las dos variables a
cruzar en la tabla de contingencia. En los botones Definir rango un rango para la
variables de Fila (Fig. E1.7) y columnas (Fig. E1.8). Los valores mnimo y mximo
deben ser nmeros enteros. En el anlisis se truncaran los valores de los datos
fraccionarios. Se ignorar en el anlisis cualquier valor de categora que est fuera
del rango especificado. Inicialmente todas las variables estarn sin restringir y
activas. Se puede restringir las categoras de fila para igualarlas a otras categoras
de fila (campo Restricciones para las categoras) o puede definir cualquier categora de
fila como suplementaria. Las categoras deben ser iguales es una restriccin que indica
que las puntuaciones de las categoras deben ser iguales. Utilice las restricciones
de igualdad si el orden obtenido para las categoras no es el deseado o si no se
corresponde con lo intuitivo. El mximo nmero de categoras de fila que se puede
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
31
restringir para que sean consideradas iguales es el nmero total de categoras de
fila activas menos uno.
La categora es suplementaria, es una restriccin que indica que las categoras
suplementarias no influyen en el anlisis pero se representan en el espacio definido
por las categoras activas. Las categoras suplementarias no juegan ningn papel
en la definicin de las dimensiones. El nmero mximo de categoras de fila
suplementaria es el nmero total de categoras de fila menos 2.
Al pulsar Continuar en la figura E1.8 ya tenemos definidas las variables y sus
categoras.
Fig. E1.7
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
32
Fig. E1.8
El botn Modelo de la figura E1.9 nos lleva al cuadro de dilogo Modelo (Figura
E1.10) que permite especificar el nmero de dimensiones, a medida de la distancia,
el mtodo de estandarizacin y el mtodo de normalizacin.
Figura E1.9
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
33
Figura E1.10
En la opcin dimensiones en la solucin especifique el nmero de dimensiones. En
general, seleccione el menor nmero de dimensiones que necesite para explicar la
mayor parte de la variacin. El mximo nmero de dimensiones depende del
nmero de categoras activas utilizadas en el anlisis y de las restricciones de
igualdad. El mximo nmero de dimensiones es el menor entre el nmero de las
categoras de fila activas menos el nmero de categoras de fila con restriccin de
igualdad, ms el nmero de conjuntos de categoras de fila que se han restringido y
el nmero de categoras de columna activas menos el nmero de categoras de
columna con restriccin de igualdad, ms el nmero de conjuntos de categoras de
columna que se han restringido.
En el cuadro Medida de distancia puede seleccionar la media de distancia entre las
filas y columnas de la tabla de correspondencias. Seleccione Chi-cuadrado (utiliza
una distancia ponderada entre los perfiles, donde la ponderacin es la masa de las
filas o de las columnas siendo una distancia necesaria para el anlisis de
correspondencias tpico) o Eucldea (utiliza la raz cuadrada de la suma de los
cuadrados de las diferencias entre los pares de filas y entre los pares de columnas).
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
34
En el cuadro Mtodo de estandarizacin seleccione la opcin Se eliminan las medias de
filas y columnas para centrar las filas y las columnas (este mtodo es necesario para
el anlisis de correspondencias tpico), seleccione Se eliminan las medias de filas slo
para centrar las filas, seleccione Se eliminan las medias de columnas slo para centrar
las columnas, seleccione Se igualan los totales de fila y se eliminan las medias para
igualar los mrgenes de fila antes de centrar las filas. Seleccione Se igualan los
totales de columnas y se eliminan las medias para igualar los mrgenes de columna
antes de centrar las columnas.
En el cuadro Mtodo de normalizacin seleccione una de las siguientes opciones:
Simtrico: Para cada dimensin, las puntuaciones de fila son la media ponderada de
las puntuaciones de columnas divididas por el valor propio coincidente y las
puntuaciones de columna son la media ponderada de las puntuaciones de fila
divididas por el valor propio coincidente. Utilice este mtodo si desea examinar las
diferencias o similaridades entre las categoras de las dos variables.
Principal: Las distancias entre los puntos de fila y los puntos de columna son
aproximaciones de las distancias en la tabla de correspondencias de acuerdo con la
medida de distancia seleccionada. Utilice este mtodo si desea examinar las
diferencias entre las categoras de una o de ambas variables en lugar de las
diferencias entre dos variables.
Principal por fila: Las distancias entre los puntos de fila son aproximaciones de las
distancias en la tabla de correspondencias de acuerdo con la medida de distancia
seleccionada. Las puntuaciones de fila son la media ponderada de las puntuaciones
de columna. Utilice este mtodo si desea examinar las diferencias o similaridades
entre las categoras de la variable de filas.
Principal por columna: Las distancias entre los puntos de columna son
aproximaciones de las distancias en la tabla de correspondencias de acuerdo con la
medida de distancia seleccionada. Las puntuaciones de columna son la media
ponderada de las puntuaciones de fila. Utilice este mtodo si desea examinar las
diferencias o similaridades entre las categoras de la variable de columnas.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
35
Personalizado: Debe especificar un valor entre -1 y 1. El valor -1 corresponde a
Principal por columna. El valor 1 corresponde a Principal por fila. El valor 0
corresponde a Simtrico. Todos los dems valores dispersan la inercia entre las
puntuaciones de columna y de fila en diferentes grados. Este mtodo es til para
generar diagramas de dispersin biespaciales a medida.
El botn Estadsticos de la figura E1.9 nos lleva al cuadro de dilogo Estadsticos
(E1.11), que permite especificar los resultados numricos producidos. Las opciones
posibles son: Tabla de correspondencias, que ofrece la tabla de contingencia de las
variables de entrada con los totales marginales de fila y columna; Inspeccin de los
puntos de fila, que ofrece para categora de fila las puntuaciones, la masa, la inercia, la
contribucin a la inercia de la dimensin y la contribucin de la dimensin de la inercia
del punto; Inspeccin de los puntos de columna, que ofrece para categora de columna de
puntuaciones, la masa, la inercia, la contribucin a la inercia de la dimensin y la
contribucin de la dimensin a la inercia del punto; Perfiles de fila, que ofrece para cada
categora de fila la distribucin a travs de las categoras de la variable de columna;
Perfiles de col., que ofrece para cada categora de columna la distribucin a travs de
las categoras de la variable de fila y Permutaciones de la tabla de correspondencias, que
ofrece la tabla de correspondencias reorganizada de tal manera que las filas y las
columnas estn en orden ascendente de acuerdo con las puntuaciones en la primera
dimensin.
Si lo desea, puede especificar el nmero de la dimensin mxima para el que se
generarn las tablas permutadas. Se generar una tabla permutada para cada
dimensin desde 1 hasta el nmero especificado. La opcin Estadsticos de confianza
para puntos de fila incluye la desviacin tpica y las correlaciones para todos los puntos
de fila no suplementarios y la opcin Estadsticos de confianza para puntos de columna
incluye la desviacin tpica y las correlaciones para todos los puntos de columna no
suplementarios.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
36
Figura E1.11
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
37
Figura E1.12
El botn Grficos de la figura N E1.9 nos lleva al cuadro de dilogo Grficos de la
figura E1.12 que permite especificar que grficos se van a generar. La opcin
Diagramas de dispersin produce una matriz de todos los grficos por parejas de las
dimensiones.
Los diagramas de dispersin disponibles incluyen: Diagramas de dispersin
biespacial (produce una matriz de diagramas conjuntos de los puntos de fila y de
columna y si est seleccionada la normalizacin principal, el diagrama de dispersin
biespacial no estar disponible), Puntos de fila (produce una matriz de diagramas de los
puntos de fila), Puntos de columna (produce una matriz de diagramas de los puntos de
columna). Si lo desea, puede especificar el nmero de caracteres de etiqueta de valor
que se va a utilizar al etiquetar los puntos. Este valor debe ser un entero no negativo
menor o igual que 20.
La opcin Grfico de lneas produce un grfico para cada dimensin de la variable
seleccionada. Los grficos de lneas disponibles incluyen: Categoras de fila
transformadas (produce un grfico de los valores originales para las categoras de fila
frente a las puntuaciones de fila correspondientes) y Categoras de columna transformadas
(produce un grfico de los valores originales para las categoras de columna frente a
las puntuaciones de columna correspondientes). Si lo desea, puede especificar el
nmero de caracteres de etiqueta de valor que se va a utilizar al etiquetar los ejes de
categoras. Este valor debe ser un entero no negativo menor o igual a 20.
En todas la figuras el botn Restablecer permite restablecer todas las opciones
por efecto del sistema y elimina del cuadro de dilogo todas las asignaciones hechas
con las variables.
Una vez elegidas las especificaciones, se pulsa el botn Aceptar en la figura
E1.9 para obtener los resultados del anlisis de correspondencias segn se muestra en
la Figura E1.13. En la parte izquierda de la Figura podemos ir seleccionando los
distintos tipos de resultados haciendo clic sobre ellos. Tambin se ven los resultados
desplazndose a los largo de la pantalla.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
38
En las figuras E1.14 a E1.17 se presentan varias salidas tabulares de entre las
mltiples que ofrece el procedimiento y en las figuras E1.18 a E1.20 se presentan
varias salidas grficas de entre las mltiples que ofrece el procedimiento.
La figura E1.13 muestra la tabla de contingencia para las dos variables con sus
marginales. La figura E1.14 muestra los perfiles de la fila y columna, que son las
proporciones en cada fila y columna de cada celda basadas en los totales marginales.
Los grficos de puntos fila y columna de las figuras E1.18 a E1.20 representan estas
proporciones para la localizacin geomtrica de los puntos.
La figura E1.15 muestra un cuadro resumen con la solucin factorial que
representa la relacin entre las variables fila y columna en tan pocas dimensiones
como es posible. En nuestro caso las dos primeras dimensiones explican un 66,4 de la
inercia total de la nube de puntos. La primera dimensin presenta un valor propio
de valor 0,403 (inercia = = 0,4032 = 0,163), que expresada en relacin a la inercia total
de la nube 0,395, presenta un 41,2%. La segunda dimensin presenta una inercia de
0,100, lo que supone un 25,2% de la inercia total de la nube, lo que la hace menos
importante que la primera. Los valores propios pueden interpretarse como la
correlacin entre las puntuaciones de filas y columnas. Para cada dimensin, el
cuadrado del valor propio es igual a la inercia y por tanto es otra medida de la
importancia de esa dimensin. Como los dos primeros ejes explican slo el 66,4% de la
inercia total de la nube, podra ser conveniente considerar tambin el tercero para
alcanzar el 81,2%(el 90,4% con el cuadro).
En la figura E1.15 tambin aparece el valor del estadstico Chi-cuadrado con un p-
valor menor que 0,01, lo que nos lleva a rechazar la hiptesis nula de independencia entre
las dos variables al 99%. Para los dos ejes retenidos tambin se ve su desviacin tpica y el
coeficiente de correlacin entre ellos.
En le examen de los puntos fila y columna (Figuras E1.16 y E1.17) se ofrecen las
contribuciones a la inercia total de cada punto fila y columna. Los puntos fila y columna que
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
39
contribuyen sustancialmente a la inercia de una dimensin son importantes para esa dimensin.
La primera columna de las tablas de examen presenta las etiquetas de las modalidades de las
variables. La segunda columna presenta las masas (frecuencia marginal relativa). Las dos
columnas siguientes presentan las coordenadas de cada punto en los dos factores retenidos
(puntuaciones en la dimensin). La columna siguiente muestra inercia de cada punto. Las cuatro
columnas siguientes presentan las contribuciones absolutas y relativas a los ejes retenidos. La
ltima columna presenta la calidad de la presentacin en el subespacio considerado (plano de los
dos primeros ejes).
A la hora de interpretar los ejes factoriales hay que determinar qu puntos son los que
generan buscando aquellas filas y columnas que presenten contribuciones absolutas ms
importantes. Las modalidades de las variables mejor representadas en cada eje se determinan a
travs de las contribuciones relativas.
Figura E1.13
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
40
Figura E1.14
Figura E1.15
Inercia
acumulada de las
33.9%
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
41
Figura E1.16
Figura E1.17
29.3%
46.6%
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
42
De la observacin de las tablas de las figuras E1.16 y E1.17 y los grficos de las figuras
E1.18 a E1.20, se infiere que el Primer eje factorial viene generado por la oposicin de las
caractersticas elegantes y confiables, que se sitan en el extremo negativo (figura E1.19) y que
contribuyen conjuntamente a un 50,3% de la inercia explicada para el primer eje, frente a los
tributos amigable, divertida y juvenil, situados en el extremo positivo y que aportan el 26,9% de
la inercia de eje (figura E1.17).
En cuanto a los productos, un 68,6% de la inercia procede de Audi, Volkswagen y Opel
(situadas en el extremo negativo segn las figuras E1.18 y E1.20), frente a las marcas Kas,
Pepsicola y Lois, situadas en el extremo positivo y que contribuyen conjuntamente con un 21,6%
de la inercia del eje (figura E1.16).
En cuanto a los productos y caractersticas que mejor estn representados sobre este primer
eje factorial, que sern las de contribuciones relativas ms elevadas, se observa que se corrobora
lo expuesto en los prrafos anteriores. Los productos ms importantes son Audi (94,5%),
Volkswagen (88,7%), Kas (81,5%), Pepsicola (59,2%) y Opel (51,6%). Las caractersticas ms
importantes son: confiable (85,8%), elegante (80,8%), divertido (78%), y amigable (73%).
Este primer eje factorial identifica conceptos ms serios (elegancia, fiabilidad, etc.) con
los refrescos.
En cuanto al segundo eje factorial observamos que las caractersticas econmico y
clsico se sitan en el extremo negativo y contribuyen conjuntamente a un 60,4% de la inercia
del eje, frente a las caractersticas solidario y exportable, que se sitan en el extremo positivo y
aportan un 29,3% de la inercia del eje. En cuanto a los productos, destacan por su contribucin
negativa Casera y Seat (46,6% entre ambas), y por su contribucin positiva Levis y Bennetton
(33,9% conjuntamente), que tienen las mayores contribuciones absolutas. Los puntos que mejor
estn representados en este segundo eje factorial corresponden a los productos Seat (63,8%),
Casera (56,7) y Bennetton (46,6%) y a las caractersticas econmico (67,7%), creativo (48,3%),
exterior (47,2%) y clsico (49,5%). Por tanto, este segundo eje factorial identifica productos
nacionales (Casera, Seat, etc.) con caractersticas como clsico y econmico. Por otro lado,
asocia los productos de ropa Bennetton con caractersticas como solidario, exterior o creativo.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
43
Dimensin 11,00,50,0-0,5-1,0-1,5
Dimensin 2
1,0
0,5
0,0
-0,5
-1,0
-1,5
SUPLEMENTO
CASERA
PEPSICOLA
KAS
COCACOLA
AUDI
SEAT
VOLKSWAGEN
OPEL ZARA
BENNETTON
LOIS
LEVIS
Puntos de fila para PRODUCTO
Simtrica Normalizacin
Figura E1.18
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
44
Dimensin 11,00,50,0-0,5-1,0-1,5
Dimensin 2
1,0
0,5
0,0
-0,5
-1,0
-1,5
DIFERENTE
CLSICO
DIVERTIDO
ECONMICO
CREATIVO
CONFIABLEELEGANTE
EXPORTABLE
JUVENIL
SOLIDARIO
AMIGABLE
MODERNO
Puntos de columna para CARACTERSTICA
Simtrica Normalizacin
Figura E1.19
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
45
Dimensin 11,00,50,0-0,5-1,0-1,5
Dimensin 2
1,0
0,5
0,0
-0,5
-1,0
-1,5
DIFERENTE
CLSICO
DIVERTIDO
ECONMICO
CREATIVO
CONFIABLEELEGANTE
EXPORTABLE
JUVENIL
SOLIDARIO
AMIGABLE
MODERNO
BENNETTON
COCACOLA
PEPSICOLA
LOISSUPLEMENTO
ZARA
CASERA
LEVIS
KAS
VOLKSWAGEN
AUDI
OPEL
SEAT
Puntos de columna y de fila
PRODUCTOCARACTERSTICA
Simtrica Normalizacin
Figura E1.20
En cuanto al primer plano factorial, que forman los dos primeros ejes factoriales, estn
bien representados casi todas las marcas (salvo acaso Zara y Lois) Destacando Audi,
Volstwaguen, Kas, Pepsicola y Seat (calidad de representacin superior al 75%). Las
caractersticas estn tambin bien representadas en el primer plano factorial (salvo acaso
diferente y moderno) destacando confiable, econmico, elegante, divertido y amigable
(representacin superior al 75%)
Si observamos la situacin de las modalidades sobre el plano sobre el plano (figura E1.20)
vemos que los productos extranjeros de automviles (Audi, Volkswagen y Opel) Se asocian a las
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
46
caractersticas de fiabilidad y elegancia. Casera y Seat se caracterizan por ser productos clsicos
y econmicos. Las marcas de refrescos (Kas y Pepsicola) se identifican con los conceptos de
diversin, amistad o juventud. Esta zona tambin pertenece la modalidad suplementaria y tenda
estas mismas caractersticas. Los productos de moda Benetton y Levis se asocian con
caractersticas como la creatividad, la solidaridad o el carcter internacional (exterior). El
producto Cocacola se asocia con caractersticas propias de los dos grupos antes citados.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
47
ANLISIS DE CORRESPONDENCIAS MLTIPLES
El anlisis de correspondencias mltiple cuantifica los datos nominales (categricos)
mediante la asignacin de valores numricos a los casos (objetos) y a las categoras,
de manera que los objetos de la misma categora estn cerca los unos de los otros y
los objetos de categoras diferentes estn alejados los unos de los otros. Cada objeto
se encuentra lo ms cerca posible de los puntos de categora para las categoras que
se aplican a dicho objeto. De esta manera, las categoras dividen los objetos en
subgrupos homogneos. Las variables se consideran homogneas cuando clasifican
objetos de las mismas categoras en los mismos subgrupos.
Por ejemplo, el anlisis de correspondencias mltiple se puede utilizar para representar
grficamente la relacin entre la categora laboral, la clasificacin tnica y el sexo.
Puede que encontremos que la clasificacin tnica y el sexo son capaces de
discriminar entre las personas, pero no as la categora laboral. Tambin puede que
encontremos que las categoras Latino y Afro-americano son similares entre s.
Estadsticos y grficos. Puntuaciones de objetos, medidas de discriminacin,
historial de iteraciones, correlaciones de las variables originales y transformadas,
cuantificaciones de categoras, estadsticos descriptivos, grficos de puntos de objetos,
grficos de dispersin biespacial, grficos de categoras, grficos de categoras
conjuntas, grficos de transformacin y grficos de medidas de discriminacin.
Datos. Los valores de las variables de cadena se convierten en enteros positivos por
orden alfabtico ascendente. Los valores perdidos definidos por el usuario, los valores
perdidos del sistema y los valores menores que 1 se consideran valores perdidos; se
puede aadir una constante o recodificar las variables con valores inferiores a 1 para
evitar que se pierdan los mismos.
Supuestos. Todas las variables tienen un nivel de escalamiento nominal mltiple. Los
datos deben contener al menos tres casos vlidos. El anlisis se basa en datos enteros
positivos. La opcin de discretizacin categorizar de forma automtica una variable
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
48
con valores fraccionarios, agrupando sus valores en categoras con una distribucin
casi normal y convertir de forma automtica los valores de las variables de cadena en
enteros positivos. Se pueden especificar otros esquemas de discretizacin.
Procedimientos relacionados. Para dos variables, el anlisis de
correspondencias mltiple es anlogo al anlisis de correspondencias. Si piensa que
las variables poseen propiedades ordinales o numricas, se debe utilizar el anlisis de
componentes principales categrico. Si hay conjuntos de variables que son de inters,
se debe utilizar el anlisis de correlacin cannica no lineal.
Para obtener un anlisis de correspondencias mltiple
Elija en los mens:
Analizar
Reduccin de datos
Escalamiento ptimo...
Mostrar detalles
Seleccione: Todas las variables son nominales mltiples.
Seleccione Un conjunto.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
49
Pulse en Definir.
Mostrar detalles
Seleccione al menos dos variables de anlisis y especifique el nmero de dimensiones en la
solucin.
Pulse en Aceptar.
Si lo desea, puede especificar variables suplementarias, que sern ajustadas sobre la
solucin encontrada, o variables de etiqueta para los grficos.
Este procedimiento pega la MULTIPLE CORRESPONDENCE sintaxis de comandos.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
50
Para estudiar cmo funciona el anlisis de correspondencia mltiple, se usar los datos
de Hartigan1. Este conjunto de datos contiene informacin sobre las caractersticas de
los pernos, clavos, tornillos, y tacos. El siguiente cuadro muestra el nombre de las
variables, etiquetas de las variables, y el valor asignado a las categoras de cada
variable en el conjunto de datos.
Nombre de variable
Etiqueta de Variable
Valor de los niveles
Rosca Rosca 1= No Rosca, 2=Si Rosca
Cabeza Forma de la cabeza
1=Plana, 2=Cono, 3=Redonda, 4=Copa, 5=Cilinfro
Muesca Muesca de la cabeza
1=Ranura, 2=Ninguna, 3=estrella
Punta Forma de punta
1=Plana, 2=Punta
Cobre Cobre 1=No Cobre, 2=Si Cobre
Long Longitud en milmetros
1=13mm, 2=25mm, 3=38mm, 4=51mm, 5=64mm
Objeto Objeto
1=perno1, 2=perno2, 3=perno3, 4=perno4, 5=perno5, 6=perno6, 7=clavo1, 8=clavo2, 9=Clavo3, 10=Clavo4, 11=clavo5, 12=clavo6, 13=clavo7, 14=clavo8, 15=clavoc, 16=Tornillo1, 17=tornillo2, 18=tornillo3, 19=tornillo4, 20=tornillo5, 21=tornilloc, 22=taco, 23=taco1, 24=taco2
Para obtener un anlisis de correspondencias mltiples, desde a barra de mens,
escoja: Analizar reduccin de datos Escalamiento ptimo
1 Hartigan, J.A. 1975. Clustering Algorithms. New Cork: John Wiley and Sons.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
51
Si lo desea, puede especificar variables suplementarias, que sern ajustadas sobre la solucin
encontrada, o variables de etiqueta para los grficos.
Select Thread through Length in half-inches as analysis variables.
Select object as a labeling variable.
Seleccione Todas las variables son nominales
mltiples.
Seleccione Un Conjunto.
Pulse en Definir.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
52
Click Object in the Plots group.
Select thread through object as labeling variables.
Click Continue, and then click Variable in the Plots group of the Multiple Correspondence
Analysis dialog box.
Seleccione a menos dos variables de anlisis (pudiendo ser todas) y trasldelo al lado derecho en el grupo Anlisis de variables
Seleccione objeto como
una variable de etiquetado.
Haga Click en Objeto en
el grupo Grficos
Pulse en Aceptar.
En Etiquetar Objetos, elija Variable.
Traslade las variables que aparecen en el recuadro centra Disponibles al recuadro Seleccionadas de la derecha.
Haga clic en continuar Haga clic nuevamente en Variable.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
53
Click
Click
Traslade todas las variables que aparecen en el recuadro de la izquierda al recuadro Grfico de categoras conjuntas.
Haga click en Continuar
Finalmente hacer Click en Aceptar en la ventana de Anlisis de correspondencias mltiples, con lo cual se obtienen todos los resultados del Anlisis de Correspondencia Mltiples.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
54
RESULTADOS OBTENIDOS
El anlisis de Homogeneidad puede calcular una solucin para varias dimensiones. El
nmero mximo de dimensiones es igual al menor entre el nmero de categoras
menos el nmero de variables con datos faltantes o el nmero de observaciones
menos uno. Sin embargo, rara vez se debe utilizar el mximo nmero de dimensiones.
Un nmero ms pequeo de dimensiones es ms fcil de interpretar, y despus de un
cierto nmero de dimensiones, la cantidad adicional de la asociacin tiene
representaciones insignificantes. En el anlisis de homogeneidad, es comn obtener
una, dos, o tres dimensiones solucin.
Resumen del modelo Varianza explicada
Dimensin Alfa de
Cronbach Total (Autovalores) Inercia % de la varianza 1 0.878 3.727 0.621 62.123 2 0.657 2.209 0.368 36.809
Total 5.936 0.989 Media 0.796 2.968 0.495 49.466 a El Alfa de Cronbach Promedio est basado en los autovalores promedio.
Casi la totalidad de la variabilidad de los datos se debe a la solucin, el 62,1%
contenida en la primera dimensin y el 36,8% por la segunda.
Resumen del modelo Varianza explicada
Dimensin Alfa de
Cronbach Total (Autovalores) Inercia % de la varianza 1 0.878 3.727 0.621 62.123 2 0.657 2.209 0.368 36.809
Total 5.936 0.989 Media 0.796 2.968 0.495 49.466 a El Alfa de Cronbach Promedio est basado en los autovalores promedio.
Las dos dimensiones en conjunto proporcionan una interpretacin en trminos de
distancias. Si una variable discrimina as, los objetos estarn cerca de las categoras a
las que pertenecen. Idealmente, los objetos de la misma categora estarn muy cerca
unos de otros (es decir, deben tener similares resultados), y las categoras de las
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
55
diferentes variables se acercan si pertenecen a los mismos objetos (es decir, dos
objetos que tienen los mismos resultados para una variable tambin resultaran muy
cerca unos de otros para el resto de variables en la solucin).
Varianza explicada Dimensin
Alfa de Cronbach Total (Autovalores) Inercia % de la varianza
1 0.878 3.727 0.621 62.123 2 0.657 2.209 0.368 36.809
Total 5.936 0.989 Media 0.796 2.968 0.495 49.466 a El Alfa de Cronbach Promedio est basado en los autovalores promedio.
Despus de examinar el resumen del modelo, debemos mirar los resultados de los
objetos. Podemos especificar la etiqueta de una o ms variables en el grfico de
puntuaciones de objeto. Cada variable de etiquetado produce una trama etiquetada con
los valores de esa variable. Vamos a echar un vistazo al grfico de puntuaciones de
las etiquetas de la variable objeto. Este es slo un caso de identificacin de la variable
y no se utiliz en ningn clculo.
La distancia de un objeto a la variacin de origen refleja el "promedio" de respuesta
patrn. Este patrn de respuesta promedio corresponde a la categora ms frecuente
para cada variable. Objetos con muchas de las caractersticas correspondientes a las
categoras ms frecuentes se encuentran cerca del origen. En cambio, los objetos de
caractersticas nicas que se encuentran lejos del origen.
Examinando el grfico, se puede ver que la primera dimensin (el eje horizontal)
discrimina los tornillos y pernos (que tienen rosca o hilo) de los clavos y tachuelas (que
no tienen rosca o hilos). Esto es fcilmente visto en el grfico los tornillos y pernos
estn en un extremo del eje horizontal y tachuelas (tacos) y clavos en la otra. En menor
medida, tambin la primera dimensin separa los tornillos (que tienen extremo plano)
de todos los dems (que tienen extremo en punta).
La segunda dimensin (el eje vertical) parece tornillo1 y clavo6 separado de todos los
otros objetos. Qu tienen en comn tornillo1 y clavo6?, sus valores de la variable
longitud, que son los objetos ms largos. Adems, tornillo1 se encuentra mucho ms
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
56
lejos del origen que los otros objetos, lo que sugiere que, en su conjunto, muchas de
las caractersticas de este objeto no son compartidos por los otros objetos.
El grfico de puntuaciones de los objetos es particularmente til para la deteccin de
valores atpicos. El tornillo1 se considera como atpico. Ms adelante podemos ver lo
que ocurre si separamos este objeto.
Antes de examinar el resto de grficos de las puntuaciones de los objetos, vamos a ver
si las medidas de discriminacin estn de acuerdo con lo que hemos dicho hasta
ahora. Para cada variable, una medida de discriminacin, que puede considerarse
como un componente de la carga al cuadrado, se calcula para cada dimensin. Esta
medida es tambin la diferencia de las variables cuantificadas en esa dimensin. Tiene
un valor mximo de 1, que se logra si los objetos se dividen en las puntuaciones de los
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
57
grupos mutuamente excluyentes y las puntuaciones de todos los objetos dentro de una
categora son idnticos. (Nota: Esta medida podra tener un valor superior a 1 si faltan
datos.)
Las medidas grandes de discriminacin corresponden a una gran dispersin entre las
categoras de la variable y, por consiguiente, indican un alto grado de discriminacin
entre las categoras de una variable a lo largo de esa dimensin.
El promedio de las medidas de discriminacin para cualquier dimensin es igual al
porcentaje de variacin que represent dimensin. En consecuencia, las dimensiones
estn ordenadas segn el promedio de la discriminacin. La primera dimensin tiene la
mayor media de la discriminacin, la segunda dimensin tiene el segundo mayor
promedio de la discriminacin, y as sucesivamente, de todas las dimensiones en la
solucin.
Como se observa en el grfico de puntuaciones de objetos, El eje muestra las medidas
de discriminacin que la primera dimensin se relaciona con las variables de la rosca y
la forma del extremo o punta. Estas variables tienen grandes medidas de
discriminacin en la primera dimensin y pequeas medidas de discriminacin en la
segunda dimensin. As, para estas dos variables, las categoras estn muy separadas
repartidas a lo largo de la primera dimensin solamente.
La Longitud - milmetros tiene un gran valor en la segunda dimensin, y un pequeo
valor en la primera dimensin. Resulta que la longitud es ms cercana a la segunda
dimensin, de acuerdo con la observacin del grfico de puntuaciones de objetos, la
segunda dimensin parece separar a los objetos ms largos del resto. Muesca de la
cabeza y la forma de la forma de punta tienen valores relativamente grandes en ambas
dimensiones, lo que indica la discriminacin tanto en la primera y segunda dimensin.
La variable cobre, que se encuentra muy cerca del origen, no discrimina en absoluto en
las primeras dos dimensiones. Esto tiene sentido, ya que todos los objetos pueden ser
hechos de cobre o no hechos de cobre.
-
Anlisis de datos con SPSS Departamento de Ciencias Exactas Mdulo Avanzado Direccin de Estadstica
58
Recordemos que una medida de discriminacin es la diferencia de las variables
cuantificadas a lo largo de una dimensin particular. El grfico de las medidas de
discriminacin contiene estas diferencias, lo que indica que las variables que
discriminan a lo largo de la dimensin. Sin embargo, la misma diferencia podra
corresponder a la totalidad de las categoras que se ha diseminado o moderadamente
alejadas a la mayora de las categoras estar muy juntos, con pocas diferencias de las
categoras de este grupo. El grfico de discriminacin no pueden diferenciar entre esta