social science from mexico unam 126

73
1 UNIVERSIDAD TORCUATO DI TELLA Universidad Torcuato Di Tella 2002 Análisis de Datos

Upload: guestb23700

Post on 18-Nov-2014

745 views

Category:

Education


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Social Science From Mexico Unam 126

1

UNIVERSIDAD TORCUATO DI TELLA

Universidad Torcuato Di Tella2002

Análisis de Datos

Page 2: Social Science From Mexico Unam 126

2

UNIVERSIDAD TORCUATO DI TELLA

Análisis Discriminante

• Muchos problemas en marketing implican la investigación de diferencias entre grupos.

• Pueden compararse dos o más grupos y el problema principal es determinar si ellos difieren, y en el caso de que difirieran entender la naturaleza de esa diferencia.

• Ejemplos en los que estamos interesados en comprender las diferencias entre grupos son:– Clientes leales a una marca y no-leales

Page 3: Social Science From Mexico Unam 126

3

UNIVERSIDAD TORCUATO DI TELLA

Análisis Discriminante– Representantes de venta buenos, mediocres y malos.– Grandes consumidores y pequeños consumidores de un producto.– Consumidores que asisten a diferentes puntos de venta

(shoppings, negocios barriales, outlets etc.)

• Una alternativa es comparar estos grupos utilizando sus características socio-económicas.

• Por ejemplo calculando los promedios de ingreso, edad, nivel educativo etc. y determinar que grupo tiene los mayores valores por ejemplo.

Page 4: Social Science From Mexico Unam 126

4

UNIVERSIDAD TORCUATO DI TELLA

Análisis Discriminante

• Un problema con esta metodología es que no toma en cuenta la relación que existe entre las variables. Por ejemplo, si los grupos muestran diferencias en ingreso promedio es muy probable que también muestren diferencias en los niveles educativos ya que existe una correlación positiva entre ingresos y educación.

• Si utilizamos ingreso y educación para segmentar el mercado de consumidores estamos interesados en el efecto total de estas variables combinadas. Además de estar interesados en cual de las variables es más importante o tiene mayor impacto.

Page 5: Social Science From Mexico Unam 126

5

UNIVERSIDAD TORCUATO DI TELLA

Análisis Discriminante

• Necesitamos un mecanismo que nos permita considerar a las variables en forma simultánea.

• Una alternativa consiste en construir una combinación lineal de las variables (una suma ponderada) de forma tal que esta combinación discrimine de la mejor manera a los grupos.

• Podemos luego comparar como difieren los grupos con respecto a esta combinación lineal y también observar los pesos relativos de cada variable para determinar su importancia relativa.

Page 6: Social Science From Mexico Unam 126

6

UNIVERSIDAD TORCUATO DI TELLA

Análisis Discriminante• El Análisis Discriminante es el método por el cual

se determina la combinación lineal.• Función Discriminante de Fisher: Dos Grupos.

– Supongamos que tenemos información para dos grupos de consumidores de k variables X1, X2, …, Xk y queremos investigar las diferencias entre los individuos de los dos grupos.

– Tenemos n1 consumidores en el primer grupo y n2 en el segundo grupo tal que:

nXXXynXXXy

i

i

ikkiii

ikkiii

2,,22,11,2

1,,22,11,1

,,2,1,

,,2,1,

Page 7: Social Science From Mexico Unam 126

7

UNIVERSIDAD TORCUATO DI TELLA

Análisis Discriminante

• La separación de estos dos conjuntos de valores se establece en función de:

• Donde:

s

yyy

rcMax 21..

2

2,21,1

21

1

2

1

2

2

21

nnyyyy

s

nj

nj

jjy

Page 8: Social Science From Mexico Unam 126

8

UNIVERSIDAD TORCUATO DI TELLA

Análisis Discriminante

• El método de Fisher se basa en la maximización de la distancia promedio entre los dos grupos en términos del desvío estándar.

x2

x1

y

x xx

xxx

xooo

o o

o

o ooooo

y1

xxx xxx

x

y2

½(y1+y2)Clasificar en 1

Clasificar en 2

Page 9: Social Science From Mexico Unam 126

9

UNIVERSIDAD TORCUATO DI TELLA

Análisis Discriminante

• El análisis discriminante toma la información de todas las variables (las Xs) y las reduce a una nueva variable (y) mediante una combinación lineal.

• Esta nueva variable se construye de forma tal que su distribución provee la mayor separación posible entre los dos grupos en términos de sus promedios.

• Los coeficientes discriminantes (los s) representan la contribución relativa de cada variable a la separación.

Page 10: Social Science From Mexico Unam 126

10

UNIVERSIDAD TORCUATO DI TELLA

Análisis Discriminante

• Ejemplo: Considere los siguientes grupos de consumidores. El grupo 1 (G1) realiza sus compras en shoopings y el grupo 2 (G2) en outlets. Queremos establecer las diferencias de comportamiento entre estos dos grupos en base al ingreso y al número de compras que realizan en el año para poder decidir si un consumidor con un ingreso de 60,000 y que realiza 25 compras por año puede clasificarse en alguno de los grupos.

• La siguiente tabla muestra los datos para estas variables:

Page 11: Social Science From Mexico Unam 126

11

UNIVERSIDAD TORCUATO DI TELLA

Análisis Discriminante

Grupo 1 Grupo 2Observaciones Ingreso Compras Ingreso Compras

1 60 18,4 75 19,62 85,5 16,8 52,8 20,83 64,8 21,6 64,8 17,24 61,5 20,8 43,2 20,45 87 23,6 84 17,66 110,1 19,2 49,2 17,67 108 17,6 59,4 168 82,8 22,4 66 18,49 69 20 47,4 16,410 93 20,8 33 18,811 51 22 51 1412 81 20 63 14,8

Page 12: Social Science From Mexico Unam 126

12

UNIVERSIDAD TORCUATO DI TELLA

Análisis Discriminante

• Maximizando la función discriminante de Fisher tenemos los coeficientes 1= 0.098 y 2=0.768

• Además

• Como 25.08 > 21.27 Entonces el nuevo consumidor puede clasificarse como proveniente del G1

17.19,36.2321 yy

08.2525*768.060*098.0ˆ Xy

27.21)17.1936.23(21)(

21ˆ

21 yym

Page 13: Social Science From Mexico Unam 126

13

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores

• El propósito fundamental del análisis por factores es describir las relaciones subyacentes entre las muchas variables de una investigación en términos de unas pocas variables no observadas que se denominan factores.

• Las relaciones entre las variables se describen a través de la estructura de covarianzas (correlaciones) de las mismas.

Page 14: Social Science From Mexico Unam 126

14

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores

• El modelo de factores es motivado por el siguiente argumento: Supongamos que las variables pueden ser agrupadas por sus correlaciones. Esto es, supongamos que todas las variables agrupadas dentro de un grupo particular están altamente correlacionadas entre ellas pero tienen muy poca correlación con las variables de grupos diferentes.

• Entonces, es posible que cada grupo de variables represente un solo “factor” responsable de las correlaciones observadas.

Page 15: Social Science From Mexico Unam 126

15

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores

• Supongamos que observamos p variables agrupadas en el vector

con media y matriz de varianzas y covarianzas .• El modelo de factores postula que X se relaciona en

forma lineal con unas pocas variables no observables F1, F2, …, Fm, llamadas factores comunes, y p fuentes adicionales de variación 1, 2, …, p denominadas factores específicos.

],,,[ 21 XXXX p

Page 16: Social Science From Mexico Unam 126

16

UNIVERSIDAD TORCUATO DI TELLA

• En particular,

• ó, en notación matricial:

Análisis por Factores

pmpmpppp

mm

mm

FFFX

FFFXFFFX

2211

2222212122

1121211111

)1()1()()1(

pmmppFLX

Page 17: Social Science From Mexico Unam 126

17

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores

• El coeficiente se denomina carga de la variable i sobre el factor j. Por lo tanto, la matriz L es la matriz de las cargas factoriales.

• Note que el factor específico i esta asociado solamente con la variable Xi.

• Los p desvíos X1 - 1, X2 - 2,…, Xp - p estan expresados en términos de p+m variables aleatorias no observables: F1, F2,…, Fm, 1, 2,…, p.

ij

Page 18: Social Science From Mexico Unam 126

18

UNIVERSIDAD TORCUATO DI TELLA

• Supuestos:

Análisis por Factores

p

2

1

00

00

00

]'[ε)(,0)ε(

)()1(]'[)(,0)(

ECovE

mmmIFFEFCovFE

Page 19: Social Science From Mexico Unam 126

19

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores

• Además:

• Ya que F y son independientes.

m)(p0]εF'[),(

EFCov

Page 20: Social Science From Mexico Unam 126

20

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores

• Estructura de Covarianzas del Modelo

ijji

kmimkiki

iimii

FX

XXX

Cov

óLFXCov

Cov

Var

óLLXCov

),(

,),(.2

),(

)(

,')(.1

11

22

1

Page 21: Social Science From Mexico Unam 126

21

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores

• La porción de varianza de la variable i explicada por los m factores comunes se denomina la comunalidad de i.

• La porción de la varianza de la variable i explicada por el factor específico se denomina varianza específica.

pecíficaVarianzaEs

i

dcomunalida

imii

Var

ii

hXii

2

22

2

2

1

)(

2

Page 22: Social Science From Mexico Unam 126

22

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores

• Solución del Modelo por Componentes Principales (CP):– La solución del método de CP se puede obtener de la

especificación de la matriz de varianzas y covarianzas muestrales S en función de sus autovalores y autovectores

ˆˆˆˆˆˆˆˆˆ

21

2211),,(,),,(),,(

p

pp

donde

eee

Page 23: Social Science From Mexico Unam 126

23

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores

• Sea m < p el número de factores comunes. Entonces, la matriz de cargas factoriales estimada

esta dada por

Las varianzas específicas estimadas vienen dadas por los elementos de la diagonal principal de la matriz

~

ij

eee mm

L ˆˆˆˆˆˆ ,,,~2211

'~~ LLS

Page 24: Social Science From Mexico Unam 126

24

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores

y las comunalidades se estiman como:

m

jijiii

p

scon1

222

1

~~~

~~

,

00

00

00

~

~~~~ 22

2

2

1

2

imiiih

Page 25: Social Science From Mexico Unam 126

25

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores

• Cualquier transformación ortogonal de la matriz de cargas de factores tiene la capacidad de reproducir la matriz de varianzas y covarianzas de las variables del estudio.

• La transformación ortogonal se denomina “rotación factorial” y se la utiliza para poder interpretar los factores obtenidos.

• La rotación factorial es necesaria debido a que el método de resolución del modelo siempre da un primer factor con cargas altas en todas las variables y los siguientes factores bipolares.

Page 26: Social Science From Mexico Unam 126

26

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores

• Si es la matriz (p×m) de cargas estimada, entonces,

es una matriz (p×m) de cargas factoriales rotadas.• Note que la matriz de varianzas y covarianzas

permanece sin cambios.

ITTTTconTLL '',ˆ*ˆ

ˆ*'ˆ*ˆˆˆ'ˆˆ'ˆˆ LLLTTLLL

Page 27: Social Science From Mexico Unam 126

27

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores

• Por lo tanto, la matriz de varianzas específicas y las comunalidades permanecen inalteradas.

• Existen diversos métodos que permiten rotar los factores. Para utilizarlos uno debe decidir de alguna forma cuantos factores va a rotar.

• El método más comun de rotación es una rotación hacia lo que se denomina una “estructura simple”.

• Una estructura simple se caracteriza por que cada variable solo tiene una carga alta en un factor determinado y en el resto cargas bajas.

Page 28: Social Science From Mexico Unam 126

28

UNIVERSIDAD TORCUATO DI TELLA

Análisis por FactoresFactor 1

Factor 2

x.5

.4

x

.36

.6

Nuevo Factor 1

Nuevo Factor 2

.6.2

.76

.6

Page 29: Social Science From Mexico Unam 126

29

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores: Ejemplo

• En un estudio de preferencias, a una muestra aleatoria de consumidores se le pidió que evaluara varios atributos de un nuevo vino tinto en una escala de 1 a 7. Los resultados fueron tabulados y se construyó la siguiente matriz de correlaciones:

00.179.11.85.01.79.00.150.71.42.11.50.00.113.96.85.71.13.00.102.01.42.96.02.00.154321

543/21

)(

ColorAroma

cenapAdecuadoGusto

precioBuenVariableAtributo

.96.85

.79

Page 30: Social Science From Mexico Unam 126

30

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores: EjemploCargas de los Factores Varianzas Estimadas Comunalidades Específicas

Variable Factor 1 Factor 2

1. Buen Precio 0,02 0,99 0,98 0,022. Gusto 0,94 -0,01 0,88 0,123. Adecuado p/cena 0,13 0,98 0,98 0,024. Aroma 0,84 0,43 0,89 0,115. Color 0,97 -0,02 0,93 0,07

Autovalores 2,85 1,81Varianza total explicadaacumulada 0,57 0,93

hhe iiiijiij

~~~ˆˆ~ 221

0.94

0.84

0.99

0.98

0.97

Page 31: Social Science From Mexico Unam 126

31

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores: Ejemplo

00.181.11.91.00.81.00.153.79.44.11.53.00.111.97.91.79.11.00.101.00.44.97.01.00.1

07.0000011.0000002.0000012.0000002.

02.43.98.01.99.97.84.13.94.02.

02.97.43.84.98.13.01.94.

99.02.

~'~~ LL

Page 32: Social Science From Mexico Unam 126

32

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores: Ejemplo

• Note que la última matriz reproduce con bastante aproximación la matriz de correlaciones originales.

• Utilizando el método de los componentes principales los factores obtenidos fueron: F1 = [.56, .78, .65, .94, .80]; F2 = [.82, -.53, .75, -.10, -.54]. Verifique los valores obtenidos en el ejercicio con los factores rotados.

Page 33: Social Science From Mexico Unam 126

33

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores: Comentarios Generales

• Las cargas de los factores son las correlaciones entre las variables y el factor.

• Los cuadrados de las cargas de los factores para cada variable indican el porcentaje de la varianza explicada por el factor. (70.6% en el caso de la variable Aroma del ejemplo anterior)

Page 34: Social Science From Mexico Unam 126

34

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores: Comentarios Generales

• El promedio de las cargas al cuadrado de un factor muestra el procentaje de la varianza, en la matriz de correlación, explicada por ese factor. En nuestro ejemplo, el primer componente principal explica 2.85/5 = 0.57, 57% de la varianza.

• La suma de los promedios de las cargas al cuadrado sobre todos los factores es la proporción de la varianza, en la matriz, explicada por esos factores. En nuestro ejemplo los dos componentes principales explican el 57% + 36% = 93% de la varianza.

Page 35: Social Science From Mexico Unam 126

35

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores: Comentarios Generales

• Las cargas en las filas de una matriz de factores pueden elevarse al cuadrado y sumarse. La suma de los cuadrados de las cargas en cada fila indica la proporción de la varianza de cada variable que es explicada por los factores. En nuestro caso si tomamos por ejemplo la variable Aroma, tenemos que la suma de las cargas al cuadrado de los factores explica el 89% de la varianza de la variable.

Page 36: Social Science From Mexico Unam 126

36

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores: Métodos Alternativos de Solución

• 1. Análisis por Factores Principales

• El análisis por factores principales es idéntico al de los componentes principales excepto que en lugar de poner un valor unitario en la diagonal principal de la matriz de correlaciones se estiman valores para las comunalidades de cada variable.

Page 37: Social Science From Mexico Unam 126

37

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores: Métodos Alternativos de Solución

• El procedimiento es el siguiente. Se estiman las comunalidades, por ejemplo utilizando una regresión múltiple con cada una de las variables de la matriz como variables dependientes y el resto como independientes y se toma el R2 de cada regresión como la comunalidad correspondiente a la variable que actúa como variable dependiente. Es decir que en lugar de poner el valor unitario en la diagonal de la matriz de correlación se pone este R2. Luego se aplica el método de componentes principales.

Page 38: Social Science From Mexico Unam 126

38

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores: Métodos Alternativos de Solución

• Una vez que tenemos la matriz de factores, calculamos las comunalidades para cada variable y las comparamos con las comunalidades con las que empezamos. A menos que las diferencias sean pequeñas, lo que hacemos es poner estas nuevas comunalidades en la diagonal principal de la matriz de correlaciones y volvemos a aplicar el método de los componentes principales y a extraer el mismo número de componentes que antes.

Page 39: Social Science From Mexico Unam 126

39

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores: Métodos Alternativos de Solución

• Este ciclo se repite hasta que los valores de h2 no difieran en dos iteraciones sucesivas. Las cargas de los factores de la última iteración son las cargas finales.

Page 40: Social Science From Mexico Unam 126

40

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores: Métodos Alternativos de Solución

• 2. Análisis por Factores de Residuos Mínimos

• En el análisis por factores de residuos mínimos no se hace uso de los elementos de la diagonal principal de la matriz de correlaciones. En el método de los componentes principales, cada factor se extraía de tal forma que explicara tanta varianza como pudiera.

Page 41: Social Science From Mexico Unam 126

41

UNIVERSIDAD TORCUATO DI TELLA

Análisis por Factores: Métodos Alternativos de Solución

• En el método de los residuos mínimos, los factores se extraen de forma de minimizar la suma de los residuos al cuadrado de los elementos fuera de la diagonal principal después de que los factores se extrajeron.

• El algoritmo utilizado para extraer los factores de esta manera es muy similar al de los componentes principales pero no hace uso de los elementos de la diagonal de la matriz.

Page 42: Social Science From Mexico Unam 126

42

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• El análisis de conglomerados es una técnica estadística para agrupar a los elementos de la muestra en grupos, denominados conglomerados, de forma tal que, respecto a la distribución de los valores de las variables, por un lado, cada conglomerado sea lo más homogéneo posible y, por otro, los conglomerados sean muy distintos entre sí.

Page 43: Social Science From Mexico Unam 126

43

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• En marketing esta técnica es de particular interés porque muchas veces las firmas necesitan clasificar consumidores de forma tal de poder segmentar su mercado en grupos de consumidores que sean lo más homogeneos posibles (es decir que se comporten de forma similar).

• Esta segmentación luego sirve para que las empresas testeen nuevos productos, precios, campañas de promoción etc.

Page 44: Social Science From Mexico Unam 126

44

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• La segmentación puede basarse en muchas características: socioeconómicas, comportamiento del comprador, psicológicas, etc.

• En general, la segmentación se basa en un gran número de variables lo que representa un problema para quién realiza la clasificación.

• El análisis de conglomerados ofrece una forma posible de clasificación. Este análisis trata específicamente de como asignar objetos a grupos tales que dentro de los grupos exista mucha similaridad y entre grupos mucha diferencia.

Page 45: Social Science From Mexico Unam 126

45

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Formulación del problema: Si n es el número de observaciones en la muestra y p es el número de variables observadas, la tabla de datos que contiene las n × p observaciones tendrá n filas y p columnas.

• Cada fila se considera como como un punto en el espacio de p dimensiones. Las coordenadas de cada punto se obtienen a partir de los valores de las p variables de la observación correspondiente.

Page 46: Social Science From Mexico Unam 126

46

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• A partir de la representación de los n puntos en el espacio, teniendo en cuenta la distancia entre ellos, se tratará de agruparlos en conglomerados de forma tal que, por un lado, las distancias dentro de un mismo conglomerado sean pequeñas y, por el otro, las distancias entre conglomerados sean grandes.

Page 47: Social Science From Mexico Unam 126

47

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Ejemplo: supongamos que una agencia de venta de autos quiere promocionar la venta de un nuevo automovil deportivo. El problema que enfrenta es seleccionar clientes potenciales similares. Para ello recurre a sus archivos donde encuentra información acerca de 14 clientes anteriores sobre los cuales tiene la siguiente información: Ingreso annual (Y), edad (E), número de hijos (H).

• Además tiene información acerca de la importancia de los siguiente atributos de un automovil: velocidad (V), seguridad (S), espacio (P), diseño del auto (D).

Page 48: Social Science From Mexico Unam 126

48

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Por lo tanto, cada cliente puede ser considerado como un punto en un espacio de p=7 dimensiones (una dimensión por cada variable).

• A partir de la representación de los n=14 puntos, se trata de, teniendo en cuenta la distancia entre ellos, agruparlos en conglomerados de tal forma que, respecto del resultado de las variables, las personas pertenecientes a un mismo conglomerado sean semejantes entre sí y diferentes de las que pertenecen a otros conglomerados.

Page 49: Social Science From Mexico Unam 126

49

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Antes de poder agrupar a los clientes en conglomerados, debemos definir que es lo que se entiende por distancia entre los mismos.

• Existen diferentes medidas de distancia entre observaciones, pero la más común es la distancia euclídea.

• La distancia euclídea entre dos observaciones se define como la raíz cuadrada de la suma de los p cuadrados de las diferencias entre los valores observados de las p variables para las dos observaciones correspondientes.

Page 50: Social Science From Mexico Unam 126

50

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Es decir, esta distancia será positiva cuando las dos observaciones (en nuestro caso clientes) difieran en al menos un valor de los resultados de las variables y será cero cuando los dos individuos presenten los mismos resultados en las p=7 variables.

Page 51: Social Science From Mexico Unam 126

51

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• En nuestro ejemplo, consideremos los individuos k y j. Cada una de estas personas está representada por un punto de siete dimensiones de la forma:

• k = {Yk, Ek, Hk, Vk, Sk, Pk, Dk}

• j = {Yj, Ej, Hj, Vj, Sj, Pj, Dj}

• La distancia euclídea entre ellos se define como:

• d(k,j) = {( Yk - Yj)2 + … + (Dk - Dj)2}1/2

Page 52: Social Science From Mexico Unam 126

52

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Como puede observarse, el número de variables implicadas en el cálculo de la distancia puede ser grande. Si algunas de estas variables brindan información similar, estarán relacionadas de alguna manera, esto es, estarán correlacionadas.

• Al calcular la distancia entre dos personas, la componente debida a una variable tendrá la misma ponderación que cada una de las restantes variables.

Page 53: Social Science From Mexico Unam 126

53

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Por lo tanto si, por ejemplo, tres variables contienen la misma información, dicha información tendrá una ponderación tres veces mayor al de otra variable que no tenga la misma información y, en consecuencia, en el proceso de formación de los grupos, la primera información será más determinante que la segunda.

• Para evitar este tipo de situaciones, lo que se hace es reducir el conjunto original de variables a un subconjunto de variables que no esten correlacionadas entre sí.

Page 54: Social Science From Mexico Unam 126

54

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Una forma de hacer esto es simplemente calcular la matriz de correlaciones entre las 7 variables originales y agrupar las variables de acuerdo a esa matriz.

• Otra forma de hacer esto es partiendo de la teoría. Si la teoría me dice que dos variables me dan la misma información entonces pertenecen al mismo grupo.

Page 55: Social Science From Mexico Unam 126

55

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Supongamos que en nuestro ejemplo los tres conjuntos de variables no correlacionadas entre sí son:

• {S, P, H}, {Y, E} y {V, D}

• De estos tres grupos, el subconjunto de variables elegidas es: S, Y y V.

Page 56: Social Science From Mexico Unam 126

56

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• La distancia euclídea entre dos personas considerando únicamente la información del subconjunto de variables es:

• d(k,j) = {(Sk - Sj)2 + (Yk - Yj)2 +

+ (Vk - Vj)2}1/2

Page 57: Social Science From Mexico Unam 126

57

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Observe que esta medida tiene el inconveniente de que su valor depende de las unidades de medida de las variables.

• Si esto ocurre el problema que se presenta es que si, por ejemplo, dos personas tienen iguales medidas en dos de las variables y difieren en una unidad en la tercera, si las variables no están medidas en las mismas unidades esa diferencia de una unidad puede ser una cantidad muy grande o muy pequeña.

Page 58: Social Science From Mexico Unam 126

58

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Para solucionar este inconveniente, lo que hacemos en la práctica es considerar a las variables en forma estandarizada.

• Esto es, la variable original menos su media dividida por la desviación estándar. Creamos nuevas variables de la siguiente forma:

S

SSZS

Y

YYZY

V

VVZV

Page 59: Social Science From Mexico Unam 126

59

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Estas nuevas variables tendrán media cero y varianza igual a uno. En esta nueva situación la distancia euclídea entre las personas k y j es:

• d(k,j) = {(ZSk - ZSj)2 + (ZYk - ZYj)2 +

+ (ZVk -ZVj)2}1/2

• Una vez establecida la distancia entre las observaciones, el siguiente paso consiste en definir el criterio para la formación de los conglomerados.

Page 60: Social Science From Mexico Unam 126

60

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Existen varios métodos para la formación de los conglomerados, a continuación se expondrán dos de esos métodos.

• El Método de las K-medias• Este método de formación de conglomerados

realiza una partición de las observaciones en K grupos, donde K es un número que debe ser fijado a priori.

Page 61: Social Science From Mexico Unam 126

61

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• El procedimiento del método de las K-medias es:– Paso 1:Elegir el número de conglomerados, K.– Paso 2:Especificar los centros de los K conglomerados

iniciales (en el caso de que sean desconocidos estimarlos)– Paso 3:En función del centro más próximo, agrupar a los

individuos en conglomerados.– Paso 4:Calcular los nuevos centros de los conglomerados

obtenidos en el Paso 3.– Paso 5:Repetir los pasos 3 y 4 hasta que llegue un punto en

el que los centros en dos pasos sucesivos sean iguales.

Page 62: Social Science From Mexico Unam 126

62

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• En la práctica, lo que se hace es representar gráficamente las observaciones (cuando las variables estandarizadas son menores a cuatro) en función de los valores de las variables estandarizadas y se realiza un primer agrupamiento de acuerdo a la proximidad de las observaciones.

• Supongamos que se detectan 4 grupos diferentes, entonces K se fija en 4. Si no fuera posible representar gráficamente los valores, entonces K se fija arbitrariamente.

Page 63: Social Science From Mexico Unam 126

63

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• El segundo paso consiste en determinar los centros de estos K conglomerados.

• La solución adopatada en la práctica consiste en estimar centros iniciales temporales a partir de los primeros K casos del archivo de datos. A partir de estos centros y a partir de un proceso iterativo se trata de mejorar la solución inicial procediendo de la siguiente forma: si la menor distancia de una observación a un centro es mayor que la menor distancia entre dicho centro y los restantes o que la distancia entre los dos centros más cercanos, se sustituirá la observación por el centro más próximo.

Page 64: Social Science From Mexico Unam 126

64

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• En nuestro caso, la solución inicial corresponde a los valores de las tres variables para las cuatro primeras personas de la muestra. Supongamos que los valores son:

• Persona ZS ZY ZV• 1 0.5030 1.8384 0.2861• 2 0.5030 -0.1649 -2.4870• 3 0.5030 -1.1230 0.2861• 4 -1.9255 -0.1649 0.5942

Page 65: Social Science From Mexico Unam 126

65

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Teniendo en cuenta que los valores de las tres variables están estandarizados se puede considerar que un valor mayor a 1 (en valor absoluto) corresponde a un valor extremo de la variable.

• Hecha esta consideración, se observa que el primer centro (Conglomerado 1 ó Cluster 1) corresponde a una persona con alto valor en ZY.

• Análogamente, los centros dos, tres y cuatro tienen valores bajos de ZV, ZY y ZS, respectivamente.

Page 66: Social Science From Mexico Unam 126

66

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• A partir de esta solución inicial, se procede con las iteraciones indicadas más arriba hasta obtener centros finales.

• Obviamente, hay programas econométricos que realizan estas iteraciones automáticamente y nos brindan la solución final.

• Estimados los centros finales, el siguiente paso consiste en calcular la distancia de cada observación con cada uno de ellos.

Page 67: Social Science From Mexico Unam 126

67

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• En función de la mínima distancia obtenida, las observaciones se agruparán en cuatro conglomerados.

• Cada grupo estará formado por la persona correspondiente al centro inicial y todos aquellos tales que la distancia a dicho centro sea la mínima entre las cuatro posibles.

Page 68: Social Science From Mexico Unam 126

68

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Agrupadas las observaciones en conglomerados, el paso siguiente consiste en estimar centros de cada uno de los conglomerados para proceder a la siguiente agrupación.

• El centro de un conglomerado es el vector de las medias de las variables para el grupo de observaciones correspondientes. Es decir, se toman las personas pertenecientes a un determinado conglomerado y se calcula la media de las tres variables para esas personas. Esto se repite para cada uno de los conglomerados.

Page 69: Social Science From Mexico Unam 126

69

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Calculados los centros de los conglomerados, el siguiente paso es agrupar a las observaciones con respecto a estos nuevos centros, obteniendo una nueva solución de conglomerados.

• Para esto se calcula la distancia entre cada observación y cada uno de los cuatro centros. En función de la mínima distancia obtenida, las observaciones se agruparán en cuatro nuevos conglomerados.

• Cada grupo estará formado por todos aquellos clientes tales que la distancia al centro sea la mínima de las cuatro posibles.

Page 70: Social Science From Mexico Unam 126

70

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Este proceso se repite tantas veces como sea necesario hasta que ninguno de los centros obtenidos en una iteración se despalce respecto al de la iteración anterior.

• La solución final nos agrupará a las observaciones en cuatro aglomerados con las características deseadas.

Page 71: Social Science From Mexico Unam 126

71

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• El Método Jerárquico de Promedio entre Grupos• En los métodos jerárquicos aglomerativos, el

análisis comienza con tantos conglomerados como observaciones (cada observación es un conglomerado inicial).

• A partir de esas unidades se van formando nuevos conglomerados de forma ascendente, agrupando en cada etapa a los individuos de los dos conglomerados más próximos.

Page 72: Social Science From Mexico Unam 126

72

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• Al final del proceso todos los individuos deberían estar agrupados en un único conglomerado.

• La diferencia entre los diversos métodos jerárquicos reside en la distancia considerada para medir la proximidad entre conglomerados.

• En el método del Promedio entre Grupos se define la distancia entre dos conglomerados como el promedio de las distancias entre todos los pares de individuos, en los que cada componente del par pertenece a un conglomerado distinto.

Page 73: Social Science From Mexico Unam 126

73

UNIVERSIDAD TORCUATO DI TELLA

Análisis de Conglomerados (Cluster Analysis)

• La ventaja de este método radica en que el proceso de formación de conglomerados se puede seguir etapa por etapa.

• En consecuencia, el número de conglomerados que se desea formar se puede elegir a posteriori, en función de la solución obtenida en cada etapa.