kendall y buckland - universidad de alcalá (uah) madrid€¦ · axioma de la intersección: axioma...
Post on 15-Aug-2020
4 Views
Preview:
TRANSCRIPT
© FJ Callealta ; LR Rivera (UAH)
Introducción al Análisis de Conglomerados
El concepto de Conglomerado
• Kendall y Buckland: – Grupo de elementos contiguos de una población
estadística
• Gengrelli (1963): – Grupo de elementos tales que la distancia entre cada 2
puntos es menor que la distancia de cualquiera de ellos a algún elemento de otro conglomerado.
• Wallace y Boulton (1968): – Grupo de elementos que pueden tratarse como
equivalentes en algún sentido
Análisis de Conglomerados
Nº 4
© FJ Callealta ; LR Rivera (UAH)
Introducción al Análisis de Conglomerado El Problema General
• Dado un conjunto de n individuos I={I1, I2,..., In} sobre los que se han medido p características X1, X2,..., Xp, se quiere formar k conglomerados G1, G2,..., Gk, (k no necesariamente determinado a priori), de forma que, en algún sentido, los individuos emplazados en un mismo conglomerado Gi, i=1,2,...,k sean más homogéneos entre sí que con los individuos procedentes de otros grupos.
• El proceso mediante el cual se asigna un individuo a un determinado conglomerado en base a las características de éste y aquél, se denomina clasificación o identificación.
Análisis de Conglomerados
Nº 5
© FJ Callealta ; LR Rivera (UAH)
Introducción al Análisis de Conglomerados Pasos de un Análisis de Conglomerados
• Elección de los objetos a analizar
• Elección de las características observables
• Homogeneización de variables
• Similitud y Conglomerado adaptados al problema
• Medida de la similitud/disimilaridad entre objetos
• Técnica para la formación de conglomerados
• Interpretación de resultados y revisión de planteamientos
Análisis de Conglomerados
Nº 6
© FJ Callealta ; LR Rivera (UAH)
Clasificaciones Jerárquicas Indexadas
• Concepto
• Proximidad dentro y entre las clases
• Niveles de Detalle
• Encaje de niveles
• Ejemplo: • Clasificación
simplificada
de los
Animales:
Análisis de Conglomerados
Nº 7
protozoos
scelentereo
osespongiari
osequinoderm
gusanos
moluscos
artrópodos
dosInvertebra
peces
anfibios
reptiles
aves
mamiferos
sVertebrado
Animales
© FJ Callealta ; LR Rivera (UAH)
Clasificaciones Jerárquicas Indexadas
• dado E={1,2,…,n}, H(E) es una Jerarquía, si y solo si verifica los dos siguientes axiomas:
Axioma de la intersección:
Axioma de la unión:
• Si E={1,2,…,n}H y {i}H iE,
entonces H recibe el nombre de Jerarquía Total.
• Si además, existe una función d:H+, tal que verifique que:
a)
b) si hh’ d(h)<d(h’)
entonces a H se le conoce como Jerarquía Indexada
y a d se le llama Indice de la Jerarquía.
Análisis de Conglomerados
Nº 8
,',''. hhhhHhh
,','|' hhhHhhHh
Eiid 0)(
© FJ Callealta ; LR Rivera (UAH)
Métodos Jerárquicos Aglomerativos Ejemplo del algoritmo fundamental
Análisis de Conglomerados
Nº 10
1 2 3 4 5
1 0,0 0,8 0,8 1,0 1,0
2 0,0 0,3 1,0 1,0
3 0,0 1,0 1,0
4 0,0 0,5
5 0,0
1 2 3 4 5 Disimila-
ridad
0,3
0,5
0,8
1,0
1 2;3 4 5
1 0,0 0,8 1,0 1,0
2;3 0,0 1,0 1,0
4 0,0 0,5
5 0,0
1 2;3 4;5
1 0,0 0,8 1,0
2;3 0,0 1,0
4;5 0,0
1;2;3 4;5
1;2;3 0,0 1,0
4;5 0,0
Dendrograma
© FJ Callealta ; LR Rivera (UAH)
Métodos Jerárquicos Aglomerativos Algoritmo fundamental
• Comenzar con la partición C0: {1},{2},...,{n}
• Sea Cr-1: h1, h2,..., hp , la partición de grupos del paso r, y se u una ultramétrica sobre Cr-1
• Se calcula el Min{ u(hk, hl), k,l}=u(hi, hj)
• Se forma la partición Cr: h1,..., hi hj ,..., hp
• Se construye la siguiente ultramétrica sobre Cr:
• Se repiten los pasos r=1,2,...,n, hasta que se llega a Cn: {1,2,...,n}
Análisis de Conglomerados
Nº 11
jilklklk
ikjkjik
hhuhhu
hhuhhuhhhu
,,),,(),(
),(),(),(
© FJ Callealta ; LR Rivera (UAH)
Métodos de Clasificación
Análisis de Conglomerados
Nº 9
Jerárquicos
No Jerárquicos
Aglomerativos
Divisivos Monotéticos: Método de W-L
Politéticos
Distancia Mínima
Distancia Máxima
Distancia Media
UPGMA (ALBG)
ALWG
Mediana
Centroide
Flexible de L-W
Ward
Particionantes: K-medias
Otros
© FJ Callealta ; LR Rivera (UAH)
Métodos Jerárquicos Aglomerativos
Método de la Distancia Mínima, “Single-Linkage” o “Nearest Neighbour”
• d(hk, hi hj)=Min{d(hk, hi), d(hk, hj)}
• Es contractivo
Análisis de Conglomerados
Nº 12
d(i,k)
d(i,j)
d(j,k)
j
i k d(i,k)
d(i,j)
j
i k
© FJ Callealta ; LR Rivera (UAH)
Métodos Jerárquicos Aglomerativos
Método de la Distancia Máxima o “Complete-Linkage”
• d(hk, hi hj)=Máx{d(hk, hi), d(hk, hj)}
• Es dilatante
Análisis de Conglomerados
Nº 13
d(j,k)
d(i,j)
j
i k
j
d(i,k)
d(i,j)
d(j,k)
j
i k
j
© FJ Callealta ; LR Rivera (UAH)
Métodos Jerárquicos Aglomerativos
Método de la Distancia Media ó PGMA
• Es conservativo
Análisis de Conglomerados
Nº 14
2
),(),(),(
jkik
jik
hhdhhdhhhd
d
d(i,j)
j
i k
d(i,k)
d(i,j)
d(j,k)
j
i k
d
© FJ Callealta ; LR Rivera (UAH)
Métodos Jerárquicos Aglomerativos
Método UPGMA (Unweighted Pair Group Method using Arithmetic Average –o– Average Linkage
Between Groups)
• Es conservativo
Análisis de Conglomerados
Nº 15
),(),(
)(
1),(
jk
ji
j
ik
ji
i
hr hhs
rs
jik
jik
hhdnn
nhhd
nn
n
dnnn
hhhdk ii
© FJ Callealta ; LR Rivera (UAH)
Métodos Jerárquicos Aglomerativos
Método de la Mediana
• es conservativo
• puede producir inversiones
Análisis de Conglomerados
Nº 16
4
)h ,d(h
2
)h ,d(h)h ,d(h)hh ,d(h
jijkik
jik
d
d(i,j)
j
i k
d(i,k)
d(i,j)
d(j,k)
j
i k
d
© FJ Callealta ; LR Rivera (UAH)
Métodos Jerárquicos Aglomerativos
Método del Centroide
• es conservativo
• puede producir inversiones
Análisis de Conglomerados
Nº 17
)h ,d(h)(
)h ,d(h)h ,d(h
)hh ,d(h
ji2jkik
jik
ji
ji
ji
j
ji
i
nn
nn
nn
n
nn
n
© FJ Callealta ; LR Rivera (UAH)
Métodos Jerárquicos Aglomerativos Ejemplos de Inversión
d(A,B)=0,383; d(A,C)=0,438; d(B,C)=0,425; n(A)=3, n(B)=4, n(C)=5
• Método de la Mediana d(hk, hi hj)=d(hk, hi)/2+d(hk, hj)/2- d(hi, hj)/4
d(C ,AB)=d(C ,A)/2+d(C ,B)/2-d(A,B)/4=0.33575<d(A,B)
• Método del Centroide
d(C ,AB)=3d(C ,A)/7+4d(C ,B)/7-12d(A,B)/49=0.336<d(A,B)
Análisis de Conglomerados
Nº 18
)h ,d(h)(
)h ,d(h)h ,d(h)hh ,d(h ji2jkikjik
ji
ji
ji
j
ji
i
nn
nn
nn
n
nn
n
© FJ Callealta ; LR Rivera (UAH)
Métodos Jerárquicos Aglomerativos
Método Flexible de Lance y Williams
Análisis de Conglomerados
Nº 19
)h ,d(h)h ,d(h·)h ,d(h·
)h ,·d(h)h ,·d(h)hh ,d(h
jkikji
jkikjik
ji
Método Alfa-i Alfa-j Beta Gamma
Mínimo 1/2 1/2 0 -1/2
Máximo 1/2 1/2 0 1/2
Media 1/2 1/2 0 0
Mediana 1/2 1/2 -1/4 0
Centroide ni /(ni +nj ) nj /(ni +nj ) -ninj /(ni +nj )2
0
UPGMA ni /(ni +nj ) nj /(ni +nj ) 0 0
© FJ Callealta ; LR Rivera (UAH)
Métodos Jerárquicos Aglomerativos
Método de la Distancia Media Intra-Grupos (Average Linkage Within Group)
• Es conservativo
Análisis de Conglomerados
Nº 20
kii hhhsr
rs
jik
jik dnnn
hhhd,
2
)(
1),(
© FJ Callealta ; LR Rivera (UAH)
Métodos Jerárquicos Aglomerativos
Método de Ward
Análisis de Conglomerados
Nº 21
kii
kii
hhhi
hhhjik xidhhhd ),(),( 2
2
© FJ Callealta ; LR Rivera (UAH)
Métodos Jerárquicos Aglomerativos
Evaluación del Proceso de Clasificación:
podemos comparar la matriz de disimilaridades inicial ,
con la matriz de las aproximaciones ultramétricas construida a lo largo del proceso iterativo:
siendo h el menor grupo que contiene a i y j, y que nos
proporciona el dendrograma concreto que genera el método aplicado (dismimilaridad a la que se unen por primera vez).
• Correlación Cofenética Coeficiente de Correlación lineal entre los uij y los dij
Análisis de Conglomerados
Nº 22
ijd
iju
)(hduij
© FJ Callealta ; LR Rivera (UAH)
Métodos Jerárquicos Divisivos
• Método Williams y Lambert – Es del tipo monotético: parte de atributos binarios o dicotómicos – Forma las tablas de Contingencia 2x2 para cada par (i,j) – Calcula el Coeficiente de Asociación entre cada par de atributos
(i,j)
– Elige el atributo “i” más discriminante (mayor similaridad intra grupo y mayor disimilaridad entre grupos):
– Se repite el proceso para cada una de las ramas obtenidas (Con y Sin del atributo “i”)
Análisis de Conglomerados
Nº 23
))()()((
)( 22
,dbdccaba
cbadNji
p
k
kiMax1
2
,
© FJ Callealta ; LR Rivera (UAH)
Análisis de la Varianza: Teorema de Descomposición de la Varianza
Análisis de Conglomerados
Nº 24
k
g
n
l
jgjgligigl
g
g
ij
k
g
jjgiiggij
k
g
n
l
jjgliiglij
k
g
g
g
cc
g
g
xxxxnn
nW
xxxxnn
B
xxxxn
S
siendo
Wn
nBWBXX
nS
1 1
,,,,
1
,,
1 1
,,
1
'
))((1
·
))((1
))((1
:
·1
1x
2x
3x
x
g=1
g=3
g=2
Wg,ij
© FJ Callealta ; LR Rivera (UAH)
Métodos No Jerárquicos
– Parten de una configuración inicial prefijada de “k” grupos, de las que por algún método se conocen sus centroides:
• uniforme, simplex, subjetiva,…
– Dadas S=B+W, se trata de construir , por reasignación iterativa, los k grupos de forma que B sea “máxima” y W sea “mínima” en algún sentido:
• Minimizar traza (W)
• Minimizar determinante (W)
• Minimizar =determinante (W) / determinante (S)
• Maximizar traza (W-1B)
Análisis de Conglomerados
Nº 25
© FJ Callealta ; LR Rivera (UAH)
Elipsoide de concentración y Varianza
• Elipsoide de centro m y Matriz S (simétrica y definida no negativa)
• Representación en 3 dimensiones:
• Su Volumen es:
• Como S es diagonalizable,
• De donde:
Análisis de Conglomerados
Nº 26
1( , ) | ( ) ' ( ) 1nE x x x
r1
r3 r2
n
iirEVol
1
2/1··
3
4··
3
4),(
n
iiUU
1
'
n
iiEVol
1
2/1··
3
4··
3
4),(
© FJ Callealta ; LR Rivera (UAH)
Métodos No Jerárquicos
Método K-medias
(Anderberg, M.R. Cluster Analysis for application. Academic Press, 1973)
1. Se parte de k centros (especificados o estimados)
2. Se calculan las distancias euclídeas de cada punto a cada centro
3. Se asigna cada punto al conglomerado representado por el centro que se encuentra a una menor distancia, respectivamente
4. Se recalcula de nuevo el centro de los conglomerados
5. Se reitera el proceso a partir del paso 2 hasta que no haya cambios en los centros de los conglomerados o se alcance la regla de paro del algoritmo (máximo número de iteraciones, desplazamiento de centros pequeño, etc)
Análisis de Conglomerados
Nº 27
© FJ Callealta ; LR Rivera (UAH)
Métodos No Jerárquicos
Método K-medias: Algoritmo de selección de centros
Tiene como objetivo obtener una distribución de centros lo más separados posible
1. Se seleccionan los k primeros casos como centros provisionales
2. Se considera un nuevo punto. a) Si éste dista de su centro más cercano más de lo que distan entre sí los dos centros más próximos, pasa a reemplazar como centro, al que de éstos se encontrase más cercano de él.
b) Si no fuera así, pero el nuevo punto distara más del segundo centro más cercano que la distancia más corta de los demás centros al más cercano del nuevo punto, entonces el punto reemplazaría a este centro más cercano.
3. Se reitera el proceso desde el paso 2 hasta que no haya más puntos que considerar
Análisis de Conglomerados
Nº 28
© FJ Callealta ; LR Rivera (UAH)
Métodos No Jerárquicos
Método K-medias: Algoritmo de selección de centros
• Ejemplo paso 2.a)
Análisis de Conglomerados
Nº 29
C2
C1
C3
C4
C5
C2
C1 C3
C4
C5
© FJ Callealta ; LR Rivera (UAH)
Métodos No Jerárquicos
Método K-medias: Algoritmo de selección de centros
• Ejemplo paso 2.b)
Análisis de Conglomerados
Nº 30
C2
C1
C3
C4
C5
C2
C1
C3
C4
C5
top related