clustering dia 5

HERRAMIENTAS DE DATAMINING

Clustering

Métodos de agrupamiento

Objetivo Agrupar objetos similares entre sí que sean distintos a los objetos de otros agrupamientos [clusters].

Aprendizaje no supervisadoNo existen clases predefinidas

Los resultados obtenidos dependerán de: El algoritmo de agrupamiento seleccionado. El conjunto de datos disponible La medida de similitud utilizada para

comparar objetos.

Métodos de agrupamiento

Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre sí y diferentes de los objetos de otros grupos:

Maximizar distancia

inter-cluster

Minimizar distancia

intra-cluster

Medidas de similitud

Usualmente, se expresan en términos de distancias:

d(i,j) > d(i,k)nos indica que el objeto i es más parecido a k que

La definición de la métrica de similitud/distanciaserá distinta en función del tipo de dato y

de la interpretación semántica que nosotros hagamos.

En otras palabras, la similitud entre objetos es subjetiva.

¿Cuántos agrupamiento

¿Cuatro?

¿Dos?

¿Seis?

Medidas de similitud

Algoritmos de agrupamiento

Con número de clases desconocido Método adaptativo Algoritmo de máxima distancia (Batchelor &

Wilkins)

Con número de clases conocido Algoritmo de las K Medias Algoritmo GRASP Algoritmo de agrupamiento secuencial Algoritmo ISODATA

Métodos basados en grafos Algoritmo basado en la matriz de similitud

Algoritmo adaptativoFuncionamiento

Inicialización Se forma un agrupamiento con el primer patrón

del conjunto de datos.

Mientras queden patrones por asignar El patrón se asigna a un cluster si la distancia del

patrón al centroide del cluster no supera un umbral .

En caso contrario, se crea un nuevo agrupamientosi la distancia del patrón al cluster más cercano está por encima de .

Algoritmo adaptativoFuncionamiento

Este algoritmo incluye una clase de rechazo: Algunas observaciones no son clasificadas.

Algoritmo adaptativoEjemplo

Algoritmo adaptativo

Algoritmo adaptativoEjemplo

Algoritmo adaptativoCaracterísticas principales

Ventajas Útil cuando no se conoce de antemano el número

de clases del problema (número de clusters desconocido).

Simplicidad y eficiencia.

Desventajas Dependencia del orden de presentación

(comportamiento sesgado por el orden de presentación de los patrones).

Presupone agrupamientos compactos separados claramente de los demás (puede no funcionar adecuadamente en presencia de ruido).

Batchelor & WilkinsFuncionamiento

Primer agrupamiento:Patrón escogido al azar.

Segundo agrupamiento:Patrón más alejado del primer agrupamiento .

Mientras se creen nuevos agrupamientos, obtener el patrón más alejado de los agrupamientos existentes (máximo de las distancias mínimas de los patrones a los agrupamientos). Si la distancia del patrón escogido al conjunto de agrupamientos es mayor que una fracción f de la distancia media entre los agrupamientos, crear un agrupamiento con el patrón seleccionado.

Asignar cada patrón a su agrupamiento más cercano.

Batchelor & WilkinsEjemplo (f=0.5)

Batchelor & WilkinsCaracterísticas principales

Ventajas Útil cuando no se conoce de antemano el número

de clases del problema (número de clusters desconocido).

Un único parámetro.

Desventajas Sensibilidad al valor del parámetro.

k-Means

Funcionamiento

Cada cluster tiene asociado un centroide (centro geométrico del cluster).

Los puntos se asignan al cluster cuyo centroide esté más cerca (utilizando cualquier métrica de distancia).

Iterativamente, se van actualizando los centroides en función de las asignaciones de puntos a clusters, hasta que los centroides dejen de cambiar.

BASE TEÓRICA: Algoritmo basado en la minimización de la distancia interna (suma de las distancias de los patrones asignados a un agrupamiento a su centroide). En realidad, se minimiza la suma de las distancias al cuadrado de cada patrón al centroide de su cluster.

k-Means

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Iteration 6

k-Means

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Iteration 1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Iteration 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Iteration 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Iteration 4

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Iteration 5

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Iteration 6

k-Means

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Iteration 1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Iteration 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Iteration 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Iteration 4

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Iteration 5

k-Means

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Iteration 1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Iteration 2

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Iteration 3

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Iteration 4

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Iteration 5

k-Means

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Óptimo local

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2

Solución óptima

Puntos originales

k-Means

Clusters dedistinto tamaño

Clusters dedistinta densidad

Clustersno convexos

k-Means

Variantes

GRASP [Greedy Randomized Adaptive Search Procedure] para evitar óptimos locales.

k-Modes (Huang’1998) utiliza modas en vez de medias (para poder trabajar con atributos de tipo categórico).

k-Medoids utiliza medianas en vez de medias para limitar la influencia de los outliers

vg. PAM (Partitioning Around Medoids, 1987)

CLARA (Clustering LARge Applications, 1990)

CLARANS (CLARA + Randomized Search, 1994)

k-Means

Características principales

El método de las K Medias (MacQueen, 1967)

Ventajas Sencillo y eficiente. Un único parámetro.

Desventajas Sesgado por el orden de presentación de los

patrones (el resultado depende de la configuración inicial de los agrupamientos).

Necesidad de conocer el número de clusters k:Su comportamiento depende enormemente del valor elegido para el parámetro k.

Funcionamiento

Se repite el siguiente procesoun número determinado de iteraciones

Se busca una posible solución (centroides escogidos aleatoriamente de entre aquellos patrones que están más lejos de los centroides ya escogidos).

Se aplica una técnica de optimización local (k-Means) para obtener un conjunto de agrupamientos.

Opcionalmente, se puede alterar aleatoriamente el resultado obtenido [mutación] y repetir la búsqueda de un óptimo local con la solución “mutada”.

De todas las soluciones obtenidas, nos quedamos con la mejor (aquella que minimiza la suma de las distancias al cuadrado de cada patrón al centroide de su cluster).

Características principales

Greedy Randomized Adaptive Search Procedure

Ventajas Sencillo y eficiente. Evita caer en óptimos locales.

Desventajas Necesidad de conocer el número de clusters

k:Su comportamiento depende enormemente del valor elegido para el parámetro k.

Algoritmo secuencialFuncionamiento

Similar al K-Means, si bien introduce algunas novedades

El parámetro K se considera un valor máximo (puede devolver un número de agrupamientos menor).

Partiendo de un único agrupamiento, se van creando nuevos agrupamientos conforme se procesan nuevos patrones secuencialmente (algoritmo incremental).

Los patrones se procesan secuencialmente por lotes. Al final de cada lote, se evalúan los agrupamientos obtenidos y se reduce su número.

Algoritmo secuencialFuncionamiento: Creación de agrupamientos

Se selecciona arbitrariamente el centro del primer agrupamiento.

Posteriormente, se procesan secuencialmente los demás patrones:

Se calcula la distancia del patrón actual al agrupamiento más cercano (a su centroide).

Si ésta es menor o igual a R se asigna el patrón a su agrupamiento más cercano.

En caso contrario, se crea un nuevo agrupamiento con el patrón actual.

Algoritmo secuencialFuncionamiento: Mezcla de agrupamientos

Cada M patrones, se mezclan agrupamientos 1. Mezcla por cercanía (se mezclan dos

agrupamientos si la distancia entre ellos es menor que C).

2. Mezcla por tamaño: Si, tras la mezcla por cercanía, quedan más agrupamientos que los deseados por el usuario (K), se mezclan los agrupamientos de menos del T% de M miembros con sus clusters más cercanos.

3. Mezcla forzada: Si aún quedan demasiados agrupamientos, se mezclan los agrupamientos más cercanos hasta obtener el número deseado K.El proceso de mezcla nos asegura que al final obtenemos el número deseado de agrupamientos y no más (como suele suceder en el método adaptativo o en el algoritmo de Batchelor y Wilkins).

Algoritmo secuencialCaracterísticas principales

Ventajas Flexibilidad: Su comportamiento puede ajustarse

gracias a su amplio conjunto de parámetros. Eficiencia: Cálculos muy sencillos, basta con

recorrer una vez el conjunto de datos.

Desventajas Utilización: Los valores adecuados para los

parámetros son difíciles de establecer a priori, por lo que se suele emplear un proceso de prueba y error.

Sesgado por los primeros patrones: Los resultados obtenidos dependen del orden de presentación de los patrones.

Algoritmo ISODATAFuncionamiento

Similar al K-Means, si bien incorpora heurísticas con tres objetivos:

Eliminar agrupamientos poco numerosos.

Mezclar agrupamientos cercanos.

Dividir agrupamientos dispersos.

Algoritmo ISODATAFuncionamiento

Inicialmente se seleccionan los centros de A agrupamientos.

En cada iteración Se asigna cada patrón al cluster más cercano. Se eliminan los agrupamientos de menos de N

patrones. Si el número de agrupamientos es pequeño (≤

K/2), se dividen los agrupamientos más dispersos. En las iteraciones pares o cuando el número de

agrupamientos es elevado (>2K), mezclamos un máximo de L pares de agrupamientos cercanos.

Algoritmo ISODATACaracterísticas principales

Iterative Self-Organizing Data Analysis Techniques

Ventajas Flexibilidad: Su comportamiento puede ajustarse

gracias a su amplio conjunto de parámetros. No está sesgado por el orden de presentación de

los patrones.

Desventajas Utilización: Los valores adecuados para los

parámetros son difíciles de establecer a priori, por lo que se suele emplear un proceso de prueba y error.

Métodos basados en grafosMatriz de similitud

Matriz cuadrada que representa la similitudentre cualquier pareja de patrones.

Dado un umbral de distancia, Sij=0 si d(Xi,Xj) > umbral Sij=1 si d(Xi,Xj) ≤ umbral

Agrupamiento basado en la matriz de similitud: Se selecciona la fila i que contenga más unos. Se crea un agrupamiento con los patrones j tales que

Sij=1 Se añaden al agrupamiento todos aquellos patrones

ktales que Sjk= 1, donde j es un patrón ya incluido enel nuevo agrupamiento, hasta que no se puedanañadir más patrones a dicho agrupamiento.

Métodos basados en grafos

23456789

Métodos basados en grafosMatriz de similitud: Variación del umbral

Métodos basados en grafosCaracterísticas principales

p.ej. Agrupamiento basado en la matriz de similitud

Ventajas

A diferencia de los métodos heurísticos,no dependen del orden en que se presentan los patrones.

Desventajas

Su coste computacional los hace inviablesen muchas ocasiones.

clustering dia 5

Documents

clustering reconocimiento de voz

anÁlisis de clusters (clustering)

computacion inteligente clustering fuzzy. 2 contenido ...

técnicas de clustering para detectar patrones espaciales

chakray clustering-ha-wso2-20140710

clustering j boss7

clustering sponge marines usando red neuronal de kohonen

analytic derivation of non -linear dark matter clustering

clustering -...

interfaces de usuario usando clustering

redalyc.a harmony search algorithm for clustering with...

fuzzy clustering

projecte 5 al dia

dia 5 busquejo

clustering using representatives: an e cient clustering...

análisis de clustering fifa worldcup 2010

reducciones geometricas usando clustering y diagramas de...

criterios para clustering (duro)

computacion inteligente fuzzy clustering. contenido ...

dia 5 en noruega