anÁlisis de clusters (clustering)

49
UNIVERSIDAD TECNICA PARTICULAR DE LOJA “La Universidad Católica de Loja” INTELIGENCIA ARTIFICIAL AVANZADA CLUSTERS Verónica Ramírez Raquel Solano

Upload: raquel-solano

Post on 09-Dec-2014

23.041 views

Category:

Education


2 download

DESCRIPTION

Trata sobre los principales métodos jerarquicos para la agrupación de datos (cluster)

TRANSCRIPT

Page 1: ANÁLISIS DE CLUSTERS (CLUSTERING)

UNIVERSIDAD TECNICA PARTICULAR DE LOJA

“La Universidad Católica de Loja”

INTELIGENCIA ARTIFICIAL AVANZADA

CLUSTERS

Verónica RamírezRaquel Solano

Page 2: ANÁLISIS DE CLUSTERS (CLUSTERING)

CLASIFICACIÓN: ANÁLISIS DE CLUSTERS (CLUSTERING)

Page 3: ANÁLISIS DE CLUSTERS (CLUSTERING)

INTRODUCCION Es una colección de métodos estadísticos que

permiten agrupar casos sobre los cuales se miden diferentes variables o características

Jerárquicos: la pertenencia a un grupo (Cluster) en un nivel de la jerarquía condiciona la pertenencia a grupos de un nivel superior (matriz de distancia o similaridad) Aglomerativos Divisivos

No Jerárquicos: obtienen una única partición de los datos mediante la optimización de alguna función adecuada (matriz de datos)

Page 4: ANÁLISIS DE CLUSTERS (CLUSTERING)

Análisis de clusters

Jerárquicos

No jerárquicos

Distancias y similaridades

Métodos jerárquicos

aglomerativos

divisivos

ABC

ACmínimo

máximo

K-medias

Page 5: ANÁLISIS DE CLUSTERS (CLUSTERING)

MÉTODOS JERÁRQUICOS

Page 6: ANÁLISIS DE CLUSTERS (CLUSTERING)

DISTANCIA Y SIMILARIDADES

Objetivo : hallar clusters de casos similares.

Medir las similitudes o las distancias que hay entre los casos.

Definición: una distancia sobre un conjunto Ω es una función de:

d: Ω* Ω R (i,j) d(i,j)=dij

Page 7: ANÁLISIS DE CLUSTERS (CLUSTERING)

Cumpla las siguientes propiedades1. D(i,j) >= 0,2. D(i,i) = 0,3. D(i,j) = d(j,i),

SimilaridadDefinición: una similaridad sobre un

conjunto Ω es una funcion s:s: Ω* Ω R

(i,j) s(i,j)=sij

ji ,

i

ji ,

Page 8: ANÁLISIS DE CLUSTERS (CLUSTERING)

Tal que:1. 0 <=s(i,j)<=1,2. 1=s(i,j)>=s(i,j),3. S(i,j)=s(j,i),

Transformación de Gower:

Distancia complemento:La raiz del complemento del cuadrado:

ji ,

ji ,

ji ,

.22

ijsjjiiij ssd

)1(21 ijijjjii sdss

ijij sd 121 ijij sd

Page 9: ANÁLISIS DE CLUSTERS (CLUSTERING)

Dependiendo de la naturaleza de las variables que se hallan considerado, se deben utilizar diferentes tipos de distancias y similaridades.

1. Distancia Euclidea

Distancias para variables continuas

21

),(

yxyxyxd

2

1

1

2

n

iii yx

Page 10: ANÁLISIS DE CLUSTERS (CLUSTERING)

2. Distancia de Minkowsky (q >=1)

q=2distancia euclidea

q=1distancia ciudad

3. Distancia Valor Absoluto

qq

iiM yxyxd

1

),(

n

iiiABS yxyxd

1

),(

q=1 Minkowsky

Page 11: ANÁLISIS DE CLUSTERS (CLUSTERING)

4. Distancia Mahalanobis:

Datos provienen de una o varias poblaciones con matrices de varianzas-covarianzas

21

1 )(),(

yxyxyxdMH

Page 12: ANÁLISIS DE CLUSTERS (CLUSTERING)

EJEMPLO

Supongamos que se han medido n=4 variables continuas y que dos casos x,y vienen representados por los vectores x=(2.1,3.1,3.4,1.9)` e y=(1.2,2.0,1.7,3.6)`

Distancia euclidea:x-y=(0.9,1.1,1.7,-1.7)`

7.1

7.1

1.1

9.0

)7.1,7.1,1.1,9.0(),(2 yxdE

79.2),(

8.7

89.289.221.181.0

yxdE

Page 13: ANÁLISIS DE CLUSTERS (CLUSTERING)

Distancia Minkowsky para q=1 y q=3Con q=1:

Con q=3:

Distancia del Valor absoluto:

4,57,17,11,19,0),( yxdM

28.289.1189,117,17,11,19,0),( 333333 yxdM

32,24,5),( yxd ABS

Page 14: ANÁLISIS DE CLUSTERS (CLUSTERING)

Supongamos que nuestros objetos x,y provienen de dos poblaciones diferentes pero con matriz de varianzas-covarianzas dada por:

Distancia de Mahalanobis entre x,y:

0002

0040

0400

2000

21000

04100

00410

00021

1

Page 15: ANÁLISIS DE CLUSTERS (CLUSTERING)

875.2

7,1

7,1

1,1

9,0

21000

04100

00410

00021

)7.1,7.1,1.1,9.0(),(2

yxdMH

70.1),( yxdMH

Page 16: ANÁLISIS DE CLUSTERS (CLUSTERING)

Similaridades para variables binarias

(0,1) es mas facil calcular similaridades y luego transformarlas a distancias

0 característica en estudio no esta presente

1 presencia de característica

Caso i

1 0

1Caso j

0

a b

c d

a+b

c+d

a+c b+d n

Page 17: ANÁLISIS DE CLUSTERS (CLUSTERING)

Definición de similaridades en base a,b,c,d1. Similaridad de Sokal-Michener

2. Similaridad de Jaccard

n

dajisSM

),(

cba

ajisJ

),(

Page 18: ANÁLISIS DE CLUSTERS (CLUSTERING)

EJEMPLO: supongamos que se han medido n=10 variables binarias y consideremos los casos x=(1,0,0,0,1,1,0,1,0,0) e y=(0,0,1,0,1,1,1,1,0,1)

Calcular tabla de coincidencias

Caso i

1 0

1

Caso j

0

3 3

1 3

6

4

4 6 10

Page 19: ANÁLISIS DE CLUSTERS (CLUSTERING)

Coeficiente de similaridad

Distancia con transformacion de gower:

6,010

33),(

yxsSM 7

3

133

3),(

yxsJ

)1(22xyxy Sd

SMS

89,0

)6,01(22

xy

xy

d

d

JS

07,1

)731(22

xy

xy

d

d

Page 20: ANÁLISIS DE CLUSTERS (CLUSTERING)

Similaridad para variables mixtas Si tenemos n1 variables cuanttativas,n2

binarias, y n3 cualitativas (n=n1+n2+n3) La distancia gower :

21

)1( ijij sd

321

1

)(

/11

ndnn

aRyxS

n

lll

ij

Page 21: ANÁLISIS DE CLUSTERS (CLUSTERING)

EJEMPLO: consideremos 6 variables; 2 continuas ,2 binarias, 2 cualitativas, medidas sobre un conjunto de 10 bebes recien nacidos

X1:altura(cm) X2: peso(kg) X3: sexo(1: niña, 0: niño) X4:tiempo gestacion(1:mas de 35 sem, 0: menos de

35 sem). X5: grupos sanguineo(1:0,2:A,3:B,4:AB) X6: raza(1:blanca,2:negra,3:otros).

Calcular la distancia de gower entre los casos 2 y 7 la distancia entre x2=(50,2,2,9,0,1,1,1)`y x7=(52,3,3,7,1,1,1,2)`

continuas

binarias

cualitativas

Page 22: ANÁLISIS DE CLUSTERS (CLUSTERING)

Caso

X1 X2 X3 X4 X5 X6

1 52.5 3.8 1 1 1 1

2 50.2 2.9 0 1 1 1

3 53.4 4.2 0 1 3 2

4 49.8 2.8 0 0 1 1

5 53.4 3.9 1 1 2 2

6 54.1 4.6 0 1 1 1

7 52.3 3.7 1 1 1 2

8 53.8 3.9 0 1 4 1

9 50.7 2.6 1 0 2 1

10 51.6 3.5 1 1 1 3

Calcular rango: X1 max=54.1 min=49.8

R1=54.1-49.8=4.3

X2 max 4.6 min= 2.6

R2=4.6-2.6=2

X3y x4(2,7) a=1, d=0

X5 y x6 α=1 coincidencia sobre(2,7)

69.0519.01

519.02)02(2

112

7.39.21

3.4

3.522.501

27

27

d

S

Page 23: ANÁLISIS DE CLUSTERS (CLUSTERING)

MÉTODOS JERÁRQUICOS

Sucesión de particiones donde cada partición se obtiene uniendo o dividiendo clusters

Ejemplo:

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

4

3

2

1

0

P

P

P

P

P

Page 24: ANÁLISIS DE CLUSTERS (CLUSTERING)

Metodos aglomerativos: los nuevos clusters se crean uniendo clusters Ventaja

RapidezSon los mas habituales

Metodos divisivos: los nuevos clusters se crean dividiendo clusters(lentos) Ventaja

Parten de la información global que hay en los datos

El proceso de división no tienen porque seguir hasta que cada elemento forme un cluster

Page 25: ANÁLISIS DE CLUSTERS (CLUSTERING)

Dendograma: son diagramas bidimensional es utilizados para representar clasificaciones jerárquicas

Muestra como ha sido el proceso de unión o división de los clusters

divisivo

Aglomerativo

Page 26: ANÁLISIS DE CLUSTERS (CLUSTERING)

Algoritmo básico de clasificación (ABC)

1. Cada caso formara un clusterP0=1….m

2. Supongamos que los casos mas cercanos son i,j:Entonces la union de estos formara un nuevo cluster (iUj=i,j) y se actualizara la matriz

u`(k,i,j)=u(k,i) =u(k,j)3. Una vez obtenida la particion P1=1,..

i,j,..n, se repiten los pasos 2 y 3 del algoritmo hasta que todos los casos formen un unico cluster

Page 27: ANÁLISIS DE CLUSTERS (CLUSTERING)

EJEMPLO: supongamos que tenemos la siguiente matriz definida sobre Ω=1,2,3,4,5 calculemos cual es la jerarquia indexada que nos da el algoritmo ABC

0......................................

1,0.......0...........................

35,0...35,0......0.................

35,0...35,0...15,0.....0........

35,0....35,0....2,0....2,0....0

U

4,15,4,1 uu

35,0

)5,1(

u

5,4

3

2

1

0...........................

35,0......0.................

35,0...15,0.....0........

35,0....2,0....2,0....0

U

Page 28: ANÁLISIS DE CLUSTERS (CLUSTERING)

5,4,25,4,3,2 uu

35,0

)5,4,3(

u

5,4

3,2

1

0.................

35,0.....0........

35,0....2,0....0

U

5,4

3,2,1

0.........

35,0.....0

U

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

4

3

2

1

0

P

P

P

P

P

Page 29: ANÁLISIS DE CLUSTERS (CLUSTERING)

DENDOGRAMA

Page 30: ANÁLISIS DE CLUSTERS (CLUSTERING)

Algoritmo de clasificación (AC)

1. Cada caso formara un clusterP0=1….m

2. Supongamos que los casos mas cercanos son i,j:Entonces la union de estos formara un unico cluster (iUj=i,j) y se definira la disyancia desde un caso cualquiera l al nuevo cluster(i,j)

d`(l,i,j)= f(d(l,i),d(l,j), l <>i,j

3. Una vez obtenida la particion P1=1,..i,j,..n, se repiten los pasos 2 y 3 del algoritmo hasta que todos los casos formen un unico cluster

Page 31: ANÁLISIS DE CLUSTERS (CLUSTERING)

MÉTODO DEL MÍNIMO La distancia entre dos clústeres

mínima de las distancias entre los casos de cada clúster

Ejemplo: Supongamos que tenemos la siguiente matriz de distancias D definida sobre Ω=1,..5 calcular cual es la jerarquía indexada de método del mínimo.

0........................

7...0...................

8...2...0.............

8...4...4...0........

7...4....3....1....0

D

Page 32: ANÁLISIS DE CLUSTERS (CLUSTERING)

PASOS

1. Cada caso forma un clúster2. Los casos i, j más cercanos

Formamos el clúster 1,2Definimos la distancias de un caso al nuevo clúster

5,4,3,2,10 P

1)2,1(),(min , dlkdlk

)2,3(),1,3(min2,1,3 ddd

3

4,3min

5

4

3

2,1

0...................

7....0.............

8...2....0.......

7....4....3....0

Matriz de distancias

Page 33: ANÁLISIS DE CLUSTERS (CLUSTERING)

3. Volver a los pasos 2 y 3 buscar casos con distancias mínimas d(3,4)=2 nuevo cluster3,4 rehacer distancia

4. Volver a los pasos 2 y 3 buscar casos con distancias mínimas 3=d(1,2,3,4) nuevo cluster1,2,3,4 rehacer matriz

)4,2,1(),3,2,1(min4,3,2,1 ddd

3

4,3min

5

4,3

2,1

0.............

7.....0......

7....3....0

5

4,3,2,1

0......

7....0

Page 34: ANÁLISIS DE CLUSTERS (CLUSTERING)

Jerarquía aglomerada indexada

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

5,4,3,2,1

4

3

2

1

0

P

P

P

P

P

Page 35: ANÁLISIS DE CLUSTERS (CLUSTERING)

MÉTODO DEL MÁXIMO

Este método es conocido como Complete Linkage o “vecino más lejano”, .

La distancia entre dos clúster se define como el máximo de las distancias entre los casos de los clúster.

),(),,(),,( jkdikdmáxjikd

,),(),( jiji CjCijidmáxCCd

Page 36: ANÁLISIS DE CLUSTERS (CLUSTERING)

EJEMPLO

Inicialmente la partición es: 1, 2,3,4,5 y los casos más próximos son 1 y 2

La nueva matriz de distancia es:

Los casos 3 y 4 forman la siguiente matriz

Page 37: ANÁLISIS DE CLUSTERS (CLUSTERING)

…EJEMPLO

Cálculo para sacar el máximo

Por lo tanto se unen 1,2 con 3,4DENDOGRAMA

Page 38: ANÁLISIS DE CLUSTERS (CLUSTERING)

MÉTODO DE WARD

Se calculan las distancias como medida de similitud entre los objetos.

El objetivo del método se basa en que al unir dos clúster el aumento de la heterogeneidad total sea lo menor posible.

El proceso termina cuando todos los casos forman un único clúster.

Mide heterogeneidad

Suma distancias

Vector de medias

Page 39: ANÁLISIS DE CLUSTERS (CLUSTERING)

EJEMPLO

Hay 6 casos con dos variables

Cada caso forma un clústerP0=1,2,3,4,5,6

Perdida mínima de heterogeneidad

P1=1,2,3,4,5,6

Page 40: ANÁLISIS DE CLUSTERS (CLUSTERING)

…EJEMPLO

Luego la pérdida mínima se obtiene uniendo 1 y 3

Por lo tanto:

Se calcula el centro de 1,3

P2=1,3,2,4,5,6

La siguiente perdida mínima de heterogeneidad al unir 1,3 y 2 es:

P3=1,2,3,4,5,6

Page 41: ANÁLISIS DE CLUSTERS (CLUSTERING)

…EJEMPLO

Siguiendo el proceso de aglomeración para la partición P4 hay 3 posibilidades:

Calculando cada uno de los centros y la pérdida mínima queda:

Page 42: ANÁLISIS DE CLUSTERS (CLUSTERING)

…EJEMPLO

Quedando como perdida mínima de heterogeneidad uniendo los clúster 4 y 5,6 con un valor de 2,21.

P4=1,2,3,4,5,6

Page 43: ANÁLISIS DE CLUSTERS (CLUSTERING)

APLICACIONES DE LOS MÉTODOS JERÁRQUICOS

LOS COCHES Y SUS DIFERENTES GAMASLas características consideradas en el estudio

son:1. Consumo: millas por galón2. Numero de cilindros3. Cilindrada del motor: pulgadas públicas4. Potencia: caballos de vapor5. Peso: libras6. Tiempo de aceleración: de 0 hasta 60 millas

por hora

Page 44: ANÁLISIS DE CLUSTERS (CLUSTERING)

EJEMPLO: Regionalización de Uruguay según el ciclo anual de precipitaciones (R. Terra y G. Pisciottano, 1994)

Ciclo anual Rivera 1914-1997 Ciclo anual Melo 1914-1997

Page 45: ANÁLISIS DE CLUSTERS (CLUSTERING)

---EJEMPLO Se utilizaron datos mensuales de 100 estaciones

pluviométricas en Uruguay en el período 1933-1978. Cada estación se caracterizó por su ciclo anual

promedio en ese período (un vector de R12 para cada estación).

Podemos considerar entonces que partimos de una matriz de 100 x 12. (100 puntos y 12 variables.)

Se realizó una partición de Uruguay según el área de influencia de cada estación.

Antes de aplicar técnicas de cluster analysis, se realizó un análisis de componentes principales para eliminar la variabilidad ruidosa y redundante de menor escala. Al mismo tiempo, se disminuye el volumen computacional.

Page 46: ANÁLISIS DE CLUSTERS (CLUSTERING)

---EJEMPLO Para ello, primero se obtuvo la matriz de anomalías, es

decir que se calculó el ciclo anual promedio de las 100 estaciones y se restó al ciclo anual de cada una.

Las series no fueron normalizadas ya que era de interés tanto la forma del ciclo anual como su intensidad.

Se obtuvieron los 12 EOFs, autovalores y PCs, (estos de longitud 100).

Se retuvieron los dos primeros modos, que explican respectivamente el 54.7% y el 29.7% de la varianza total (ver figuras)

Entonces, para el análisis de clusters se tienen 100 puntos o datos, con 2 atributos cada uno.

Se utilizó el método de agrupamientos aglomerativos nucleados.

Page 47: ANÁLISIS DE CLUSTERS (CLUSTERING)

---EJEMPLO

Para elegir el número final de clusters, se tuvieron en cuenta: la pequeña desviación estándar de la muestra el hecho de que se explica más del 84% de la varianza con sólo dos modos lo pequeño de la superficie a regionalizar el objetivo del trabajo (obtener una regionalización adecuada para estudios de variabilidad climática regional, donde no son relevantes detalles locales)

Se determinó a priori en 4 el número de clusters finales.

Se comenzó con 50 semillas (eligiéndolas de formas diferentes y llegando al mismo resultado final)

Page 48: ANÁLISIS DE CLUSTERS (CLUSTERING)

Correlaciones entre los ciclos anuales medios de las 4 regiones

Se usaron 2 métodos jerárquicos distintos: enlace promedio y Ward, y también se usó el método no jerárquico hallando 5 y 6 clusters.

Se observa que las regiones son bastante robustas respecto del método, excepto la región sur que no se unifica en ninguno de los procedimientos alternativos.

Los ciclos anuales medios para cada una de las 4 regiones (ver figura) muestra tanto la diferencia de regímenes pluviométricos en distintas épocas del año, como las distintas intensidades de los mismos.

Page 49: ANÁLISIS DE CLUSTERS (CLUSTERING)

GRACIAS!!