clustering dia 5

42
HERRAMIENTAS DE DATAMINING Clustering

Upload: jean-alvarez

Post on 05-Jan-2016

229 views

Category:

Documents


0 download

DESCRIPTION

herramientas datamining

TRANSCRIPT

Page 1: Clustering Dia 5

HERRAMIENTAS DE DATAMINING

Clustering

Page 2: Clustering Dia 5

Métodos de agrupamiento

Objetivo Agrupar objetos similares entre sí que sean distintos a los objetos de otros agrupamientos [clusters].

Aprendizaje no supervisadoNo existen clases predefinidas

Los resultados obtenidos dependerán de: El algoritmo de agrupamiento seleccionado. El conjunto de datos disponible La medida de similitud utilizada para

comparar objetos.

Page 3: Clustering Dia 5

Métodos de agrupamiento

Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre sí y diferentes de los objetos de otros grupos:

Maximizar distancia

inter-cluster

Minimizar distancia

intra-cluster

Page 4: Clustering Dia 5

Medidas de similitud

Usualmente, se expresan en términos de distancias:

d(i,j) > d(i,k)nos indica que el objeto i es más parecido a k que

a j

La definición de la métrica de similitud/distanciaserá distinta en función del tipo de dato y

de la interpretación semántica que nosotros hagamos.

En otras palabras, la similitud entre objetos es subjetiva.

Page 5: Clustering Dia 5

¿Cuántos agrupamiento

s?

¿Cuatro?

¿Dos?

¿Seis?

Medidas de similitud

Page 6: Clustering Dia 5

Algoritmos de agrupamiento

Con número de clases desconocido Método adaptativo Algoritmo de máxima distancia (Batchelor &

Wilkins)

Con número de clases conocido Algoritmo de las K Medias Algoritmo GRASP Algoritmo de agrupamiento secuencial Algoritmo ISODATA

Métodos basados en grafos Algoritmo basado en la matriz de similitud

Page 7: Clustering Dia 5

Algoritmo adaptativoFuncionamiento

Inicialización Se forma un agrupamiento con el primer patrón

del conjunto de datos.

Mientras queden patrones por asignar El patrón se asigna a un cluster si la distancia del

patrón al centroide del cluster no supera un umbral .

En caso contrario, se crea un nuevo agrupamientosi la distancia del patrón al cluster más cercano está por encima de .

Page 8: Clustering Dia 5

Algoritmo adaptativoFuncionamiento

Este algoritmo incluye una clase de rechazo: Algunas observaciones no son clasificadas.

Page 9: Clustering Dia 5

Algoritmo adaptativoEjemplo

Page 10: Clustering Dia 5

Algoritmo adaptativo

Page 11: Clustering Dia 5

Algoritmo adaptativoEjemplo

Page 12: Clustering Dia 5

Algoritmo adaptativoCaracterísticas principales

Ventajas Útil cuando no se conoce de antemano el número

de clases del problema (número de clusters desconocido).

Simplicidad y eficiencia.

Desventajas Dependencia del orden de presentación

(comportamiento sesgado por el orden de presentación de los patrones).

Presupone agrupamientos compactos separados claramente de los demás (puede no funcionar adecuadamente en presencia de ruido).

Page 13: Clustering Dia 5

Batchelor & WilkinsFuncionamiento

Primer agrupamiento:Patrón escogido al azar.

Segundo agrupamiento:Patrón más alejado del primer agrupamiento .

Mientras se creen nuevos agrupamientos, obtener el patrón más alejado de los agrupamientos existentes (máximo de las distancias mínimas de los patrones a los agrupamientos). Si la distancia del patrón escogido al conjunto de agrupamientos es mayor que una fracción f de la distancia media entre los agrupamientos, crear un agrupamiento con el patrón seleccionado.

Asignar cada patrón a su agrupamiento más cercano.

Page 14: Clustering Dia 5

Batchelor & WilkinsEjemplo (f=0.5)

Page 15: Clustering Dia 5

Batchelor & WilkinsEjemplo (f=0.5)

Page 16: Clustering Dia 5

Batchelor & WilkinsEjemplo (f=0.5)

Page 17: Clustering Dia 5

Batchelor & WilkinsEjemplo (f=0.5)

Page 18: Clustering Dia 5

Batchelor & WilkinsEjemplo (f=0.5)

Page 19: Clustering Dia 5

Batchelor & WilkinsCaracterísticas principales

Ventajas Útil cuando no se conoce de antemano el número

de clases del problema (número de clusters desconocido).

Un único parámetro.

Desventajas Sensibilidad al valor del parámetro.

Page 20: Clustering Dia 5

k-Means

Funcionamiento

Cada cluster tiene asociado un centroide (centro geométrico del cluster).

Los puntos se asignan al cluster cuyo centroide esté más cerca (utilizando cualquier métrica de distancia).

Iterativamente, se van actualizando los centroides en función de las asignaciones de puntos a clusters, hasta que los centroides dejen de cambiar.

BASE TEÓRICA: Algoritmo basado en la minimización de la distancia interna (suma de las distancias de los patrones asignados a un agrupamiento a su centroide). En realidad, se minimiza la suma de las distancias al cuadrado de cada patrón al centroide de su cluster.

Page 21: Clustering Dia 5

k-Means

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 6

Page 22: Clustering Dia 5

k-Means

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

xy

Iteration 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 4

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 5

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

xy

Iteration 6

Page 23: Clustering Dia 5

k-Means

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 4

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 5

Page 24: Clustering Dia 5

k-Means

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Iteration 4

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

xy

Iteration 5

Page 25: Clustering Dia 5

k-Means

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Óptimo local

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

0

0.5

1

1.5

2

2.5

3

x

y

Solución óptima

Puntos originales

Page 26: Clustering Dia 5

26

k-Means

Clusters dedistinto tamaño

Clusters dedistinta densidad

Clustersno convexos

Page 27: Clustering Dia 5

k-Means

Variantes

GRASP [Greedy Randomized Adaptive Search Procedure] para evitar óptimos locales.

k-Modes (Huang’1998) utiliza modas en vez de medias (para poder trabajar con atributos de tipo categórico).

k-Medoids utiliza medianas en vez de medias para limitar la influencia de los outliers

vg. PAM (Partitioning Around Medoids, 1987)

CLARA (Clustering LARge Applications, 1990)

CLARANS (CLARA + Randomized Search, 1994)

Page 28: Clustering Dia 5

k-Means

Características principales

El método de las K Medias (MacQueen, 1967)

Ventajas Sencillo y eficiente. Un único parámetro.

Desventajas Sesgado por el orden de presentación de los

patrones (el resultado depende de la configuración inicial de los agrupamientos).

Necesidad de conocer el número de clusters k:Su comportamiento depende enormemente del valor elegido para el parámetro k.

Page 29: Clustering Dia 5

GRASP

Funcionamiento

Se repite el siguiente procesoun número determinado de iteraciones

Se busca una posible solución (centroides escogidos aleatoriamente de entre aquellos patrones que están más lejos de los centroides ya escogidos).

Se aplica una técnica de optimización local (k-Means) para obtener un conjunto de agrupamientos.

Opcionalmente, se puede alterar aleatoriamente el resultado obtenido [mutación] y repetir la búsqueda de un óptimo local con la solución “mutada”.

De todas las soluciones obtenidas, nos quedamos con la mejor (aquella que minimiza la suma de las distancias al cuadrado de cada patrón al centroide de su cluster).

Page 30: Clustering Dia 5

GRASP

Características principales

Greedy Randomized Adaptive Search Procedure

Ventajas Sencillo y eficiente. Evita caer en óptimos locales.

Desventajas Necesidad de conocer el número de clusters

k:Su comportamiento depende enormemente del valor elegido para el parámetro k.

Page 31: Clustering Dia 5

Algoritmo secuencialFuncionamiento

Similar al K-Means, si bien introduce algunas novedades

El parámetro K se considera un valor máximo (puede devolver un número de agrupamientos menor).

Partiendo de un único agrupamiento, se van creando nuevos agrupamientos conforme se procesan nuevos patrones secuencialmente (algoritmo incremental).

Los patrones se procesan secuencialmente por lotes. Al final de cada lote, se evalúan los agrupamientos obtenidos y se reduce su número.

Page 32: Clustering Dia 5

Algoritmo secuencialFuncionamiento: Creación de agrupamientos

Se selecciona arbitrariamente el centro del primer agrupamiento.

Posteriormente, se procesan secuencialmente los demás patrones:

Se calcula la distancia del patrón actual al agrupamiento más cercano (a su centroide).

Si ésta es menor o igual a R se asigna el patrón a su agrupamiento más cercano.

En caso contrario, se crea un nuevo agrupamiento con el patrón actual.

Page 33: Clustering Dia 5

Algoritmo secuencialFuncionamiento: Mezcla de agrupamientos

Cada M patrones, se mezclan agrupamientos 1. Mezcla por cercanía (se mezclan dos

agrupamientos si la distancia entre ellos es menor que C).

2. Mezcla por tamaño: Si, tras la mezcla por cercanía, quedan más agrupamientos que los deseados por el usuario (K), se mezclan los agrupamientos de menos del T% de M miembros con sus clusters más cercanos.

3. Mezcla forzada: Si aún quedan demasiados agrupamientos, se mezclan los agrupamientos más cercanos hasta obtener el número deseado K.El proceso de mezcla nos asegura que al final obtenemos el número deseado de agrupamientos y no más (como suele suceder en el método adaptativo o en el algoritmo de Batchelor y Wilkins).

Page 34: Clustering Dia 5

Algoritmo secuencialCaracterísticas principales

Ventajas Flexibilidad: Su comportamiento puede ajustarse

gracias a su amplio conjunto de parámetros. Eficiencia: Cálculos muy sencillos, basta con

recorrer una vez el conjunto de datos.

Desventajas Utilización: Los valores adecuados para los

parámetros son difíciles de establecer a priori, por lo que se suele emplear un proceso de prueba y error.

Sesgado por los primeros patrones: Los resultados obtenidos dependen del orden de presentación de los patrones.

Page 35: Clustering Dia 5

Algoritmo ISODATAFuncionamiento

Similar al K-Means, si bien incorpora heurísticas con tres objetivos:

Eliminar agrupamientos poco numerosos.

Mezclar agrupamientos cercanos.

Dividir agrupamientos dispersos.

Page 36: Clustering Dia 5

Algoritmo ISODATAFuncionamiento

Inicialmente se seleccionan los centros de A agrupamientos.

En cada iteración Se asigna cada patrón al cluster más cercano. Se eliminan los agrupamientos de menos de N

patrones. Si el número de agrupamientos es pequeño (≤

K/2), se dividen los agrupamientos más dispersos. En las iteraciones pares o cuando el número de

agrupamientos es elevado (>2K), mezclamos un máximo de L pares de agrupamientos cercanos.

Page 37: Clustering Dia 5

Algoritmo ISODATACaracterísticas principales

Iterative Self-Organizing Data Analysis Techniques

Ventajas Flexibilidad: Su comportamiento puede ajustarse

gracias a su amplio conjunto de parámetros. No está sesgado por el orden de presentación de

los patrones.

Desventajas Utilización: Los valores adecuados para los

parámetros son difíciles de establecer a priori, por lo que se suele emplear un proceso de prueba y error.

Page 38: Clustering Dia 5

Métodos basados en grafosMatriz de similitud

Matriz cuadrada que representa la similitudentre cualquier pareja de patrones.

Dado un umbral de distancia, Sij=0 si d(Xi,Xj) > umbral Sij=1 si d(Xi,Xj) ≤ umbral

Agrupamiento basado en la matriz de similitud: Se selecciona la fila i que contenga más unos. Se crea un agrupamiento con los patrones j tales que

Sij=1 Se añaden al agrupamiento todos aquellos patrones

ktales que Sjk= 1, donde j es un patrón ya incluido enel nuevo agrupamiento, hasta que no se puedanañadir más patrones a dicho agrupamiento.

Page 39: Clustering Dia 5

Métodos basados en grafos

23456789

Page 40: Clustering Dia 5

40

Métodos basados en grafosMatriz de similitud: Variación del umbral

Page 41: Clustering Dia 5

Métodos basados en grafosCaracterísticas principales

p.ej. Agrupamiento basado en la matriz de similitud

Ventajas

A diferencia de los métodos heurísticos,no dependen del orden en que se presentan los patrones.

Desventajas

Su coste computacional los hace inviablesen muchas ocasiones.

Page 42: Clustering Dia 5