master en recursos humanos análisis de conglomerados (cluster analysis): prácticas con spss ana...

Master en Recursos Humanos

Análisis de Conglomerados (Cluster Analysis): prácticas con SPSS

Ana María López

Área de Metodología de las Ciencias del Comportamiento Departamento de Psicología Experimental

• El objetivo es agrupar a los sujetos en función de su parecido en las subescalas del WISC-R.

dado que todas las variables son cuantitativas utilizaremos como medida de disimilaridad la

distancia euclídea y como procedimiento de agregación los métodos de la media, mínimo y

máximo. La matriz con la que vamos a trabajar es: datos1. Para ejecutar un análisis de

conglomerados con SPSS en primer lugar hay que seleccionar el menú Analizar como muestra

el siguiente cuadro:

Conglomerados jerárquicos

• En segundo lugar seleccionamos Conglomerados jerárquicos y accedemos al siguiente cuadro:


El cuadro contiene:1. la lista de variables del archivo. De esta lista

seleccionamos aquellas sobre las que deseemos evaluar el parecido de los sujetos. En nuestro caso son las correspondientes a las subescalas del WISC-R. Una vez seleccionadas las variables las trasladamos al cuadro Variables.

2. Existe la posibilidad de agrupar (Conglomerar) casos, este es el uso más frecuente del análisis de conglomerados, o de agrupar variables y el resultado sería el equivalente a un análisis factorial.

3. Además disponemos de una serie de botones que nos permiten acceder a las diferente opciones implementadas en SPSS. En las transparencias siguientes comentaremos las opciones de los cuadros: Estadísticos, Gráficos, Método y Guardar en este orden.


• Cuadro Estadísticos:En este cuadro podemos solicitar:1. además del Historial de conglomeración que

lo proporciona por defecto si tenemos seleccionada la opción Estadísticos dell cuadro Análisis de conglomerados jerárquico, la Matriz de distancias.

2. Podemos pedir que nos proporcione una tabla con el conglomerado de pertenencia de cada sujeto si nos decidimos por una solución en un número de conglomerados determinado o en un rango. Estas opciones son muy útiles cuando tenemos claro el número de conglomerados que constituye la solución a nuestro problema de investigación. No obstante lo más importante no es visualizar la tabla crear una variable en el archivo de datos con valores que indican el conglomerado al que pertenece el sujeto esto podemos hacerlo con las opciones del cuadro Guardar variables nuevas.


Cuadro Método:En este cuadro podemos

1. seleccionar entre una larga lista de métodos de conglomeración: vinculación inter-grupo (método de la media), vinculación intra-grupos (distancia media entre las distancias de los elementos del grupo unión), vecino más próximo (mínimo), vecino más lejano (máximo), agrupación de centroides (distancia entre centroides), agrupación de medianas (media de centroides) y Método de Ward (minimiza la varianza intragrupo). En principio convendría explorar con distintos métodos hasta encontrar la solucción más satisfactoria. El método de Ward sólo puede aplicarse a variables cuantitativas.

2. Seleccionar la medida de distancia adecuada a la métrica de las variables.

3. Podemos optar por calcular las distancias entre los sujetos a partir de puntuaciones estandarizadas con las opciones del cuadro Transformar valores. Se recomienda estandarizar cuando las variables están medidas en escalas distintas.


Cuadro Guardar variables nuevas:Este cuadro nos permite crear nuevas variables en el archivo de datos con el grupo de pertenencia de cada sujeto. Podemos crear una única variable correspondiente a una Solución única en K conglomerados. Esta variable toma valores desde 1 hasta K e indica el grupo al que pertenece el sujeto. Si seleccionamos un Rango de soluciones crea una variable para cada una de las soluciones desde Número mínimo de conglomerados hasta Número máximo de conglomerados. Por ejemplos si en Número mínimo de conglomerados escribimos 2 y en Número máximo 4 creará 3 variables: una para la solución en dos conglomerados, otras para la solución en tres conglomerados y la última para la solución en cuatro conglomerados.

Resultados


Resumen del procesamiento de los casosa,b

48 71,6 19 28,4 67 100,0N Porcentaje N Porcentaje N Porcentaje

Válidos Perdidos Total

Casos

distancia euclídea al cuadrado usadaa.

Vinculación promedio (Inter-grupos)b.

* * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * *

Dendrogram using Average Linkage (Between Groups) Rescaled Distance Cluster Combine

Vinculación simple (método del mínimo)

Dendrogram using Single Linkage

Rescaled Distance Cluster Combine

Vinculación completa (método del máximo)

Resultados:

Si a partir del dendograma anterior, en el cuadro Guardar variables nuevas, seleccionamos Rango de soluciones y en Número mínimo de conglomerados escribimos 2 y en Número máximo de conglomerados escribimos 4 se crean tres nuevas variables en el editor de datos que clasifican a los sujetos en función del cluster al que pertenecen para cada una de las soluciones en dos, tres y cuatro conglomerados. Las nuevas variables se denominan: CLU4_1, CLU3_1 y CLU2_1 como podemos observar en la porción del editor de datos siguiente.

Resultados:

La interpretación de los conglomerados depende del valor medio de las variables en cada uno de ellos. Es decir, para caracterizar a cada clase y diferenciarla de las demás vamos a obtener el centroide de cada una de ellas y vamos a realizar un gráfico de lineas. Vamos también a realizar una análisis de frecuencias para saber el número de sujetos de cada cluster y para cada solución.

Tabla de frecuencia

CLU4_1 Complete Linkage

15 22,4 31,3 31,3

13 19,4 27,1 58,3

8 11,9 16,7 75,0

12 17,9 25,0 100,0

48 71,6 100,0

19 28,4

67 100,0

1

2

3

4

Total

Válidos

SistemaPerdidos

Total

Frecuencia PorcentajePorcentaje

válidoPorcentajeacumulado


15 22,4 31,3 31,3

25 37,3 52,1 83,3

8 11,9 16,7 100,0

48 71,6 100,0

19 28,4

67 100,0

1

2

3

Total

Válidos

SistemaPerdidos

Total




23 34,3 47,9 47,9

25 37,3 52,1 100,0

48 71,6 100,0

19 28,4

67 100,0

1

2

Total

Válidos

SistemaPerdidos

Total



Resultados: Perfil de medias de cada solución

Tablas personalizadas

7 4

8 4

8 4

9 5

8 5

9 5

9 5

8 3

8 4

9 3

8 4

8 2

inf información

sem semejanzas

arit aritmética

voc vocabulario

comp comprensión

dig dígitos

fi figuras incompletas

his historietas

cub cubos

rom rompecabezas

cn claves numéricas

laber laberintos

Media

1

Media

2

CLU2_1 CompleteLinkage

0123456789

10

inf información

sem

semejanzas

arit aritmética

voc vocabulario

comp

comprensión

dig dígitos

fi figurasincom

pletas

his historietas

cub cubos

rom

rompecabezas

cn clavesnum

éricas

laber laberintos

cluster 1 cluster 2

Los gráficos de perfiles obtenerlos del archivo: perfiles



7 4 7

7 4 9

6 4 10

9 5 9

8 5 9

9 5 10

9 5 10

6 3 10

7 4 10

7 3 11

6 4 10

8 2 9

inf información

sem semejanzas

arit aritmética

voc vocabulario

comp comprensión

dig dígitos


his historietas

cub cubos

rom rompecabezas


laber laberintos

Media

1

Media

2

Media

3


02468

1012

inf in

form

ació

n

sem

sem

eja

nzas

arit a

ritmétic

a

voc

vocabula

rio

com

p

com

pre

nsió

n

dig

díg

itos

fi figura

sin

com

ple

tas

his

his

torie

tas

cub c

ubos

rom

ro

mpecabezas

cn c

laves

num

éric

as

laber

laberin

tos

cluster 1 cluster 2 cluster 3



7 3 7 4

7 3 9 5

6 2 10 6

9 3 9 6

8 4 9 6

9 3 10 8

9 4 10 6

6 3 10 3

7 4 10 4

7 4 11 3

6 2 10 5

8 2 9 3

inf información

sem semejanzas

arit aritmética

voc vocabulario

comp comprensión

dig dígitos


his historietas

cub cubos

rom rompecabezas


laber laberintos

Media

1

Media

2

Media

3

Media

4


0

2

4

6

8

10

12inf información

sem semejanzas

arit aritmética

voc vocabulario

comp comprensión

dig dígitos


his historietas

cub cubos

rom rompecabezas


laber laberintos

cluster 1 cluster 2 cluster 3 cluster 4

• Con la misma matriz y variables con las que hemos realizado el análisis de conglomerados

jerárquico vamos a realizar un análisis de conglomerados de k-medias. Ahora del menú

Clasificar seleccionamos Conglomerado de K medias

Conglomerados de k medias


El cuadro contiene:1. la lista de variables del archivo. De esta lista

seleccionamos aquellas sobre las que deseemos evaluar el parecido de los sujetos. En nuestro caso son las correspondientes a las subescalas del WISC-R. Una vez seleccionadas las variables las trasladamos al cuadro Variables.

2. Por defecto el Nº de conglomerados en que divide a los sujetos es 2 pero podemos segmentar la muestra en un número mayor de clases. Sólo tenemos que sustituir el 2 por otro número.

3. Sabemos que la primera partición la inducen un número de sujetos igual al número de conglomerados elegidos mediante diferentes procedimientos. Por defecto SPSS elige a los dos sujetos más distantes. Podemos no obstante escribir en un archivo los centros de los conglomerados que dan lugar a la primera partición marcando en Leer iniciales.

4. También podemos escribir en un archivo los centros de los conglomerados finales seleccionando Escribir finales.


Si pulsamos en los botones Guardar del cuadro anterior obtenemos podemos crear una nueva variable en el editor de datos de manera que asigne a cada sujeto un valor que identifica el conglomerado al que pertenece. :

Si pulsamos en el botón Opciones podemos seleccionar una Tabla de ANOVA con la única utilidad de identificar a las variables que desde un punto de vista descriptivo discriminan entre los conglomerados. Las inferencias a partir de estos resultados de ANOVA serían incorrectas. :

Resultados:

Análisis de conglomerados de K medias

Centros iniciales de los conglomerados

6 1

10 1

10 1

11 1

10 1

9 1

8 1

16 1

14 2

15 1

14 1

14 1

inf información

sem semejanzas

arit aritmética

voc vocabulario

comp comprensión

dig dígitos


his historietas

cub cubos

rom rompecabezas


laber laberintos

1 2

ConglomeradoHistorial de iteracionesa

14,752 11,160

,814 ,702

,415 ,361

,000 ,000

Iteración1

2

3

4

1 2

Cambio en los centrosde los conglomerados

Se ha logrado la convergencia debido a que loscentros de los conglomerados no presentan ningúncambio o éste es pequeño. El cambio máximo decoordenadas absolutas para cualquier centro es de,000. La iteración actual es 4. La distancia mínimaentre los centros iniciales es de 37,202.

a.

Resultados:

Análisis de conglomerados de K medias

Centros de los conglomerados finales

7 4

8 4

8 4

9 5

8 5

9 5

9 5

8 3

8 4

9 3

8 4

8 2

inf información

sem semejanzas

arit aritmética

voc vocabulario

comp comprensión

dig dígitos


his historietas

cub cubos

rom rompecabezas


laber laberintos

1 2

Conglomerado

0123456789

10

inf información

sem

semejanzas

arit aritmética

voc vocabulario

comp

comprensión

dig dígitos

fi figurasincom

pletas

his historietas

cub cubos

rom

rompecabezas

cn clavesnum

éricas

laber laberintos

cluster 1 cluster 2

Resultados:

ANOVA

155,462 1 4,566 46 34,051 ,000

199,432 1 7,866 46 25,355 ,000

205,962 1 9,087 46 22,665 ,000

208,046 1 9,064 46 22,954 ,000

135,668 1 9,246 46 14,673 ,000

163,695 1 9,739 46 16,809 ,000

245,833 1 6,032 46 40,754 ,000

271,847 1 7,045 46 38,587 ,000

159,399 1 6,055 46 26,326 ,000

336,154 1 7,051 46 47,678 ,000

227,637 1 9,919 46 22,949 ,000

413,149 1 6,620 46 62,410 ,000

inf información

sem semejanzas

arit aritmética

voc vocabulario

comp comprensión

dig dígitos


his historietas

cub cubos

rom rompecabezas


laber laberintos

Mediacuadrática gl

Conglomerado

Mediacuadrática gl

Error

F Sig.

Las pruebas F sólo se deben utilizar con una finalidad descriptiva puesto que los conglomerados hansido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los nivelescríticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hipótesis de que loscentros de los conglomerados son iguales.

Número de casos en cada conglomerado

22,000

26,000

48,000

19,000

1

2

Conglomerado

Válidos

Perdidos

• Dado que en la matriz además de las variables de la evaluación intelectual disponemos de otras

variables de naturaleza cualitativa tales como la presencia de ansiedad, válvulas, retrasos en el

desarrollo, etc. Vamos a realizar un análisis de conglomerados en dos fases. Para ello elegimos

Conglomerado en dos fases…

Conglomerados en dos etapas

• A diferencia del resto de los procedimientos aquí disponemos de dos cuadros: en uno

insertamos las variables cualitativas y en el otro las cuantitativas.


• Como en el resto de los cuadros de diálogo si pinchamos en el botón Gráficos podemos

seleccionar dos tipos de gráficos que nos ayudarán a interpretar el perfil de los conglomerados

tanto en las variables cualitativas como cuantitativas.


• Pulsando en el botón Resultados podemos Estadísticos Descriptivos por conglomerado y

Frecuencias de los conglomerados.


Resultados:

Conglomerados en dos fases Distribución de conglomerados

17 37,8% 25,4%

28 62,2% 41,8%

45 100,0% 67,2%

22 32,8%

67 100,0%

1

2

Combinados

Conglomerado

Casos excluidos

Total

N% de

combinados % del total

Perfiles de los conglomeradosCentroides

8,00 3,82 5,40

1,936 1,887 2,783

8,59 4,43 6,00

2,785 2,645 3,357

8,24 3,82 5,49

2,969 2,945 3,635

8,94 5,29 6,67

3,363 3,053 3,612

8,18 5,04 6,22

2,351 3,480 3,437

8,88 6,04 7,11

2,619 3,687 3,575

9,59 5,14 6,82

1,970 2,990 3,413

7,18 3,32 4,78

3,107 2,310 3,218

7,76 4,43 5,69

2,587 2,116 2,803

8,65 3,86 5,67

3,020 2,592 3,599

6,94 4,07 5,16

2,076 3,030 3,030

8,29 2,61 4,76

3,197 2,025 3,743

Media

Desv. típica

Media

Desv. típica

Media

Desv. típica

Media

Desv. típica

Media

Desv. típica

Media

Desv. típica

Media

Desv. típica

Media

Desv. típica

Media

Desv. típica

Media

Desv. típica

Media

Desv. típica

Media

Desv. típica

inf información

sem semejanzas

arit aritmética

voc vocabulario

comp comprensión

dig dígitos

fi figurasincompletas

his historietas

cub cubos

rom rompecabezascn clavesnuméricas

laber laberintos

1 2 Combinados

Conglomerado

Agrupación automática

711,054

708,351 -2,703 1,000 1,788

753,807 45,457 -16,816 1,370

815,777 61,969 -22,924 1,226

885,960 70,184 -25,963 1,061

958,224 72,264 -26,732 1,397

1040,247 82,023 -30,342 1,033

1123,052 82,805 -30,632 1,182

1209,521 86,469 -31,987 1,204

1299,394 89,873 -33,246 1,098

1390,763 91,368 -33,799 1,041

1482,737 91,974 -34,024 1,103

1576,082 93,345 -34,531 1,004

1669,477 93,395 -34,549 1,022

1763,157 93,680 -34,655 1,224

Número deconglomerados1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

Criteriobayesiano deSchwarz (BIC)

Cambioen BIC

a

Razón decambiosen BIC

b

Razón demedidas de

distanciac

Los cambios proceden del número anterior de conglomerados de latabla.

a.

Las razones de los cambios están relacionadas con el cambio para lasolución de los dos conglomerados.

b.

Las razones de las medidas de la distancia se basan en el númeroactual de conglomerados frente al número de conglomeradosanterior.

c.

Resultados:

Frecuencias

proceden procedencia

10 32,3% 7 50,0%

21 67,7% 7 50,0%

31 100,0% 14 100,0%

1

2

Combinados

ConglomeradoFrecuencia Porcentaje Frecuencia Porcentaje

1 rural 2 urbano

válvulas presencia de válvulas

3 12,0% 14 70,0%

22 88,0% 6 30,0%

25 100,0% 20 100,0%

1

2

Combinados


1 Si 2 No

retdes retraso en el desarrollo

8 26,7% 9 60,0%

22 73,3% 6 40,0%

30 100,0% 15 100,0%

1

2

Combinados


1 Si 2 No

ans ansiedad

2 10,5% 15 57,7%

17 89,5% 11 42,3%

19 100,0% 26 100,0%

1

2

Combinados


1 Si 2 No

Resultados:Importancia de los atributos

Resultados:

Variación intra-conglomerado

Resultados:

Importancia según agrupación

Resultados:

Resultados:

Prueba para una muestra

5,180 16 ,000 ,80657945 ,4764821 1,1366768

2,859 16 ,011 ,48217148 ,1246918 ,8396511

3,353 16 ,004 ,66429329 ,2442607 1,0843259

2,526 16 ,022 ,54570281 ,0878061 1,0035995

2,691 16 ,016 ,38414254 ,0815166 ,6867685

2,835 16 ,012 ,50443714 ,1271916 ,8816827

5,697 16 ,000 ,83255309 ,5227588 1,1423474

2,254 16 ,039 ,46506233 ,0277328 ,9023919

2,765 16 ,014 ,52024129 ,1214140 ,9190686

3,676 16 ,002 ,74794809 ,3165717 1,1793245

2,471 16 ,025 ,32044215 ,0455715 ,5953128

4,141 16 ,001 ,82167235 ,4010257 1,2423191

Zinf Puntua: información

Zsem Puntua: semejanzas

Zarit Puntua: aritmética

Zvoc Puntua: vocabulario

Zcomp Puntua: comprensión

Zdig Puntua: dígitos

Zfi Puntua: figurasincompletas

Zhis Puntua: historietas

Zcub Puntua: cubos

Zrom Puntua: rompecabezas

Zcn Puntua: clavesnuméricas

Zlaber Puntua: laberintos

t gl Sig. (bilateral)Diferenciade medias Inferior Superior

95% Intervalo deconfianza para la

diferencia

Valor de prueba = 0

Prueba para una muestra

-4,896 27 ,000 -,57877908 -,8213243 -,3362338

-4,458 27 ,000 -,55621925 -,8122251 -,3002134

-3,593 27 ,001 -,55012974 -,8642810 -,2359785

-2,764 27 ,010 -,42237245 -,7359185 -,1088264

-2,442 27 ,021 -,40201383 -,7397717 -,0642560

-1,501 27 ,145 -,29299391 -,6934485 ,1074607

-3,049 27 ,005 -,52683232 -,8814079 -,1722568

-4,939 27 ,000 -,59025492 -,8354870 -,3450228

-4,005 27 ,000 -,48018512 -,7261983 -,2341720

-4,283 27 ,000 -,58296876 -,8622595 -,3036781

-2,839 27 ,008 -,41865379 -,7212325 -,1160751

-6,472 27 ,000 -,63368232 -,8345916 -,4327731

Zinf Puntua: información

Zsem Puntua: semejanzas

Zarit Puntua: aritmética

Zvoc Puntua: vocabulario

Zcomp Puntua: comprensión

Zdig Puntua: dígitos

Zfi Puntua: figurasincompletas

Zhis Puntua: historietas

Zcub Puntua: cubos

Zrom Puntua: rompecabezas

Zcn Puntua: clavesnuméricas

Zlaber Puntua: laberintos

t gl Sig. (bilateral)Diferenciade medias Inferior Superior

95% Intervalo deconfianza para la

diferencia

Valor de prueba = 0

master en recursos humanos análisis de conglomerados (cluster analysis): prácticas con spss ana...

Documents