kendall y buckland - universidad de alcalá (uah) madrid€¦ · axioma de la intersección: axioma...

27
© FJ Callealta ; LR Rivera (UAH) Introducción al Análisis de Conglomerados El concepto de Conglomerado Kendall y Buckland: Grupo de elementos contiguos de una población estadística Gengrelli (1963): Grupo de elementos tales que la distancia entre cada 2 puntos es menor que la distancia de cualquiera de ellos a algún elemento de otro conglomerado. Wallace y Boulton (1968): Grupo de elementos que pueden tratarse como equivalentes en algún sentido Análisis de Conglomerados Nº 4

Upload: others

Post on 15-Aug-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Introducción al Análisis de Conglomerados

El concepto de Conglomerado

• Kendall y Buckland: – Grupo de elementos contiguos de una población

estadística

• Gengrelli (1963): – Grupo de elementos tales que la distancia entre cada 2

puntos es menor que la distancia de cualquiera de ellos a algún elemento de otro conglomerado.

• Wallace y Boulton (1968): – Grupo de elementos que pueden tratarse como

equivalentes en algún sentido

Análisis de Conglomerados

Nº 4

Page 2: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Introducción al Análisis de Conglomerado El Problema General

• Dado un conjunto de n individuos I={I1, I2,..., In} sobre los que se han medido p características X1, X2,..., Xp, se quiere formar k conglomerados G1, G2,..., Gk, (k no necesariamente determinado a priori), de forma que, en algún sentido, los individuos emplazados en un mismo conglomerado Gi, i=1,2,...,k sean más homogéneos entre sí que con los individuos procedentes de otros grupos.

• El proceso mediante el cual se asigna un individuo a un determinado conglomerado en base a las características de éste y aquél, se denomina clasificación o identificación.

Análisis de Conglomerados

Nº 5

Page 3: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Introducción al Análisis de Conglomerados Pasos de un Análisis de Conglomerados

• Elección de los objetos a analizar

• Elección de las características observables

• Homogeneización de variables

• Similitud y Conglomerado adaptados al problema

• Medida de la similitud/disimilaridad entre objetos

• Técnica para la formación de conglomerados

• Interpretación de resultados y revisión de planteamientos

Análisis de Conglomerados

Nº 6

Page 4: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Clasificaciones Jerárquicas Indexadas

• Concepto

• Proximidad dentro y entre las clases

• Niveles de Detalle

• Encaje de niveles

• Ejemplo: • Clasificación

simplificada

de los

Animales:

Análisis de Conglomerados

Nº 7

protozoos

scelentereo

osespongiari

osequinoderm

gusanos

moluscos

artrópodos

dosInvertebra

peces

anfibios

reptiles

aves

mamiferos

sVertebrado

Animales

Page 5: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Clasificaciones Jerárquicas Indexadas

• dado E={1,2,…,n}, H(E) es una Jerarquía, si y solo si verifica los dos siguientes axiomas:

Axioma de la intersección:

Axioma de la unión:

• Si E={1,2,…,n}H y {i}H iE,

entonces H recibe el nombre de Jerarquía Total.

• Si además, existe una función d:H+, tal que verifique que:

a)

b) si hh’ d(h)<d(h’)

entonces a H se le conoce como Jerarquía Indexada

y a d se le llama Indice de la Jerarquía.

Análisis de Conglomerados

Nº 8

,',''. hhhhHhh

,','|' hhhHhhHh

Eiid 0)(

Page 6: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos Jerárquicos Aglomerativos Ejemplo del algoritmo fundamental

Análisis de Conglomerados

Nº 10

1 2 3 4 5

1 0,0 0,8 0,8 1,0 1,0

2 0,0 0,3 1,0 1,0

3 0,0 1,0 1,0

4 0,0 0,5

5 0,0

1 2 3 4 5 Disimila-

ridad

0,3

0,5

0,8

1,0

1 2;3 4 5

1 0,0 0,8 1,0 1,0

2;3 0,0 1,0 1,0

4 0,0 0,5

5 0,0

1 2;3 4;5

1 0,0 0,8 1,0

2;3 0,0 1,0

4;5 0,0

1;2;3 4;5

1;2;3 0,0 1,0

4;5 0,0

Dendrograma

Page 7: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos Jerárquicos Aglomerativos Algoritmo fundamental

• Comenzar con la partición C0: {1},{2},...,{n}

• Sea Cr-1: h1, h2,..., hp , la partición de grupos del paso r, y se u una ultramétrica sobre Cr-1

• Se calcula el Min{ u(hk, hl), k,l}=u(hi, hj)

• Se forma la partición Cr: h1,..., hi hj ,..., hp

• Se construye la siguiente ultramétrica sobre Cr:

• Se repiten los pasos r=1,2,...,n, hasta que se llega a Cn: {1,2,...,n}

Análisis de Conglomerados

Nº 11

jilklklk

ikjkjik

hhuhhu

hhuhhuhhhu

,,),,(),(

),(),(),(

Page 8: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos de Clasificación

Análisis de Conglomerados

Nº 9

Jerárquicos

No Jerárquicos

Aglomerativos

Divisivos Monotéticos: Método de W-L

Politéticos

Distancia Mínima

Distancia Máxima

Distancia Media

UPGMA (ALBG)

ALWG

Mediana

Centroide

Flexible de L-W

Ward

Particionantes: K-medias

Otros

Page 9: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos Jerárquicos Aglomerativos

Método de la Distancia Mínima, “Single-Linkage” o “Nearest Neighbour”

• d(hk, hi hj)=Min{d(hk, hi), d(hk, hj)}

• Es contractivo

Análisis de Conglomerados

Nº 12

d(i,k)

d(i,j)

d(j,k)

j

i k d(i,k)

d(i,j)

j

i k

Page 10: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos Jerárquicos Aglomerativos

Método de la Distancia Máxima o “Complete-Linkage”

• d(hk, hi hj)=Máx{d(hk, hi), d(hk, hj)}

• Es dilatante

Análisis de Conglomerados

Nº 13

d(j,k)

d(i,j)

j

i k

j

d(i,k)

d(i,j)

d(j,k)

j

i k

j

Page 11: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos Jerárquicos Aglomerativos

Método de la Distancia Media ó PGMA

• Es conservativo

Análisis de Conglomerados

Nº 14

2

),(),(),(

jkik

jik

hhdhhdhhhd

d

d(i,j)

j

i k

d(i,k)

d(i,j)

d(j,k)

j

i k

d

Page 12: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos Jerárquicos Aglomerativos

Método UPGMA (Unweighted Pair Group Method using Arithmetic Average –o– Average Linkage

Between Groups)

• Es conservativo

Análisis de Conglomerados

Nº 15

),(),(

)(

1),(

jk

ji

j

ik

ji

i

hr hhs

rs

jik

jik

hhdnn

nhhd

nn

n

dnnn

hhhdk ii

Page 13: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos Jerárquicos Aglomerativos

Método de la Mediana

• es conservativo

• puede producir inversiones

Análisis de Conglomerados

Nº 16

4

)h ,d(h

2

)h ,d(h)h ,d(h)hh ,d(h

jijkik

jik

d

d(i,j)

j

i k

d(i,k)

d(i,j)

d(j,k)

j

i k

d

Page 14: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos Jerárquicos Aglomerativos

Método del Centroide

• es conservativo

• puede producir inversiones

Análisis de Conglomerados

Nº 17

)h ,d(h)(

)h ,d(h)h ,d(h

)hh ,d(h

ji2jkik

jik

ji

ji

ji

j

ji

i

nn

nn

nn

n

nn

n

Page 15: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos Jerárquicos Aglomerativos Ejemplos de Inversión

d(A,B)=0,383; d(A,C)=0,438; d(B,C)=0,425; n(A)=3, n(B)=4, n(C)=5

• Método de la Mediana d(hk, hi hj)=d(hk, hi)/2+d(hk, hj)/2- d(hi, hj)/4

d(C ,AB)=d(C ,A)/2+d(C ,B)/2-d(A,B)/4=0.33575<d(A,B)

• Método del Centroide

d(C ,AB)=3d(C ,A)/7+4d(C ,B)/7-12d(A,B)/49=0.336<d(A,B)

Análisis de Conglomerados

Nº 18

)h ,d(h)(

)h ,d(h)h ,d(h)hh ,d(h ji2jkikjik

ji

ji

ji

j

ji

i

nn

nn

nn

n

nn

n

Page 16: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos Jerárquicos Aglomerativos

Método Flexible de Lance y Williams

Análisis de Conglomerados

Nº 19

)h ,d(h)h ,d(h·)h ,d(h·

)h ,·d(h)h ,·d(h)hh ,d(h

jkikji

jkikjik

ji

Método Alfa-i Alfa-j Beta Gamma

Mínimo 1/2 1/2 0 -1/2

Máximo 1/2 1/2 0 1/2

Media 1/2 1/2 0 0

Mediana 1/2 1/2 -1/4 0

Centroide ni /(ni +nj ) nj /(ni +nj ) -ninj /(ni +nj )2

0

UPGMA ni /(ni +nj ) nj /(ni +nj ) 0 0

Page 17: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos Jerárquicos Aglomerativos

Método de la Distancia Media Intra-Grupos (Average Linkage Within Group)

• Es conservativo

Análisis de Conglomerados

Nº 20

kii hhhsr

rs

jik

jik dnnn

hhhd,

2

)(

1),(

Page 18: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos Jerárquicos Aglomerativos

Método de Ward

Análisis de Conglomerados

Nº 21

kii

kii

hhhi

hhhjik xidhhhd ),(),( 2

2

Page 19: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos Jerárquicos Aglomerativos

Evaluación del Proceso de Clasificación:

podemos comparar la matriz de disimilaridades inicial ,

con la matriz de las aproximaciones ultramétricas construida a lo largo del proceso iterativo:

siendo h el menor grupo que contiene a i y j, y que nos

proporciona el dendrograma concreto que genera el método aplicado (dismimilaridad a la que se unen por primera vez).

• Correlación Cofenética Coeficiente de Correlación lineal entre los uij y los dij

Análisis de Conglomerados

Nº 22

ijd

iju

)(hduij

Page 20: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos Jerárquicos Divisivos

• Método Williams y Lambert – Es del tipo monotético: parte de atributos binarios o dicotómicos – Forma las tablas de Contingencia 2x2 para cada par (i,j) – Calcula el Coeficiente de Asociación entre cada par de atributos

(i,j)

– Elige el atributo “i” más discriminante (mayor similaridad intra grupo y mayor disimilaridad entre grupos):

– Se repite el proceso para cada una de las ramas obtenidas (Con y Sin del atributo “i”)

Análisis de Conglomerados

Nº 23

))()()((

)( 22

,dbdccaba

cbadNji

p

k

kiMax1

2

,

Page 21: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Análisis de la Varianza: Teorema de Descomposición de la Varianza

Análisis de Conglomerados

Nº 24

k

g

n

l

jgjgligigl

g

g

ij

k

g

jjgiiggij

k

g

n

l

jjgliiglij

k

g

g

g

cc

g

g

xxxxnn

nW

xxxxnn

B

xxxxn

S

siendo

Wn

nBWBXX

nS

1 1

,,,,

1

,,

1 1

,,

1

'

))((1

·

))((1

))((1

:

·1

1x

2x

3x

x

g=1

g=3

g=2

Wg,ij

Page 22: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos No Jerárquicos

– Parten de una configuración inicial prefijada de “k” grupos, de las que por algún método se conocen sus centroides:

• uniforme, simplex, subjetiva,…

– Dadas S=B+W, se trata de construir , por reasignación iterativa, los k grupos de forma que B sea “máxima” y W sea “mínima” en algún sentido:

• Minimizar traza (W)

• Minimizar determinante (W)

• Minimizar =determinante (W) / determinante (S)

• Maximizar traza (W-1B)

Análisis de Conglomerados

Nº 25

Page 23: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Elipsoide de concentración y Varianza

• Elipsoide de centro m y Matriz S (simétrica y definida no negativa)

• Representación en 3 dimensiones:

• Su Volumen es:

• Como S es diagonalizable,

• De donde:

Análisis de Conglomerados

Nº 26

1( , ) | ( ) ' ( ) 1nE x x x

r1

r3 r2

n

iirEVol

1

2/1··

3

4··

3

4),(

n

iiUU

1

'

n

iiEVol

1

2/1··

3

4··

3

4),(

Page 24: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos No Jerárquicos

Método K-medias

(Anderberg, M.R. Cluster Analysis for application. Academic Press, 1973)

1. Se parte de k centros (especificados o estimados)

2. Se calculan las distancias euclídeas de cada punto a cada centro

3. Se asigna cada punto al conglomerado representado por el centro que se encuentra a una menor distancia, respectivamente

4. Se recalcula de nuevo el centro de los conglomerados

5. Se reitera el proceso a partir del paso 2 hasta que no haya cambios en los centros de los conglomerados o se alcance la regla de paro del algoritmo (máximo número de iteraciones, desplazamiento de centros pequeño, etc)

Análisis de Conglomerados

Nº 27

Page 25: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos No Jerárquicos

Método K-medias: Algoritmo de selección de centros

Tiene como objetivo obtener una distribución de centros lo más separados posible

1. Se seleccionan los k primeros casos como centros provisionales

2. Se considera un nuevo punto. a) Si éste dista de su centro más cercano más de lo que distan entre sí los dos centros más próximos, pasa a reemplazar como centro, al que de éstos se encontrase más cercano de él.

b) Si no fuera así, pero el nuevo punto distara más del segundo centro más cercano que la distancia más corta de los demás centros al más cercano del nuevo punto, entonces el punto reemplazaría a este centro más cercano.

3. Se reitera el proceso desde el paso 2 hasta que no haya más puntos que considerar

Análisis de Conglomerados

Nº 28

Page 26: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos No Jerárquicos

Método K-medias: Algoritmo de selección de centros

• Ejemplo paso 2.a)

Análisis de Conglomerados

Nº 29

C2

C1

C3

C4

C5

C2

C1 C3

C4

C5

Page 27: Kendall y Buckland - Universidad de Alcalá (UAH) Madrid€¦ · Axioma de la intersección: Axioma de la unión: •Si E={1,2,…,n} H y {i} H i E, entonces H recibe el nombre de

© FJ Callealta ; LR Rivera (UAH)

Métodos No Jerárquicos

Método K-medias: Algoritmo de selección de centros

• Ejemplo paso 2.b)

Análisis de Conglomerados

Nº 30

C2

C1

C3

C4

C5

C2

C1

C3

C4

C5