clustering dia 5
Post on 05-Jan-2016
229 Views
Preview:
DESCRIPTION
TRANSCRIPT
HERRAMIENTAS DE DATAMINING
Clustering
Métodos de agrupamiento
Objetivo Agrupar objetos similares entre sí que sean distintos a los objetos de otros agrupamientos [clusters].
Aprendizaje no supervisadoNo existen clases predefinidas
Los resultados obtenidos dependerán de: El algoritmo de agrupamiento seleccionado. El conjunto de datos disponible La medida de similitud utilizada para
comparar objetos.
Métodos de agrupamiento
Encontrar agrupamientos de tal forma que los objetos de un grupo sean similares entre sí y diferentes de los objetos de otros grupos:
Maximizar distancia
inter-cluster
Minimizar distancia
intra-cluster
Medidas de similitud
Usualmente, se expresan en términos de distancias:
d(i,j) > d(i,k)nos indica que el objeto i es más parecido a k que
a j
La definición de la métrica de similitud/distanciaserá distinta en función del tipo de dato y
de la interpretación semántica que nosotros hagamos.
En otras palabras, la similitud entre objetos es subjetiva.
¿Cuántos agrupamiento
s?
¿Cuatro?
¿Dos?
¿Seis?
Medidas de similitud
Algoritmos de agrupamiento
Con número de clases desconocido Método adaptativo Algoritmo de máxima distancia (Batchelor &
Wilkins)
Con número de clases conocido Algoritmo de las K Medias Algoritmo GRASP Algoritmo de agrupamiento secuencial Algoritmo ISODATA
Métodos basados en grafos Algoritmo basado en la matriz de similitud
Algoritmo adaptativoFuncionamiento
Inicialización Se forma un agrupamiento con el primer patrón
del conjunto de datos.
Mientras queden patrones por asignar El patrón se asigna a un cluster si la distancia del
patrón al centroide del cluster no supera un umbral .
En caso contrario, se crea un nuevo agrupamientosi la distancia del patrón al cluster más cercano está por encima de .
Algoritmo adaptativoFuncionamiento
Este algoritmo incluye una clase de rechazo: Algunas observaciones no son clasificadas.
Algoritmo adaptativoEjemplo
Algoritmo adaptativo
Algoritmo adaptativoEjemplo
Algoritmo adaptativoCaracterísticas principales
Ventajas Útil cuando no se conoce de antemano el número
de clases del problema (número de clusters desconocido).
Simplicidad y eficiencia.
Desventajas Dependencia del orden de presentación
(comportamiento sesgado por el orden de presentación de los patrones).
Presupone agrupamientos compactos separados claramente de los demás (puede no funcionar adecuadamente en presencia de ruido).
Batchelor & WilkinsFuncionamiento
Primer agrupamiento:Patrón escogido al azar.
Segundo agrupamiento:Patrón más alejado del primer agrupamiento .
Mientras se creen nuevos agrupamientos, obtener el patrón más alejado de los agrupamientos existentes (máximo de las distancias mínimas de los patrones a los agrupamientos). Si la distancia del patrón escogido al conjunto de agrupamientos es mayor que una fracción f de la distancia media entre los agrupamientos, crear un agrupamiento con el patrón seleccionado.
Asignar cada patrón a su agrupamiento más cercano.
Batchelor & WilkinsEjemplo (f=0.5)
Batchelor & WilkinsEjemplo (f=0.5)
Batchelor & WilkinsEjemplo (f=0.5)
Batchelor & WilkinsEjemplo (f=0.5)
Batchelor & WilkinsEjemplo (f=0.5)
Batchelor & WilkinsCaracterísticas principales
Ventajas Útil cuando no se conoce de antemano el número
de clases del problema (número de clusters desconocido).
Un único parámetro.
Desventajas Sensibilidad al valor del parámetro.
k-Means
Funcionamiento
Cada cluster tiene asociado un centroide (centro geométrico del cluster).
Los puntos se asignan al cluster cuyo centroide esté más cerca (utilizando cualquier métrica de distancia).
Iterativamente, se van actualizando los centroides en función de las asignaciones de puntos a clusters, hasta que los centroides dejen de cambiar.
BASE TEÓRICA: Algoritmo basado en la minimización de la distancia interna (suma de las distancias de los patrones asignados a un agrupamiento a su centroide). En realidad, se minimiza la suma de las distancias al cuadrado de cada patrón al centroide de su cluster.
k-Means
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 6
k-Means
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 1
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
xy
Iteration 2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 3
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 4
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 5
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
xy
Iteration 6
k-Means
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 1
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 3
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 4
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 5
k-Means
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 1
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 2
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 3
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Iteration 4
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
xy
Iteration 5
k-Means
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Óptimo local
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
0
0.5
1
1.5
2
2.5
3
x
y
Solución óptima
Puntos originales
26
k-Means
Clusters dedistinto tamaño
Clusters dedistinta densidad
Clustersno convexos
k-Means
Variantes
GRASP [Greedy Randomized Adaptive Search Procedure] para evitar óptimos locales.
k-Modes (Huang’1998) utiliza modas en vez de medias (para poder trabajar con atributos de tipo categórico).
k-Medoids utiliza medianas en vez de medias para limitar la influencia de los outliers
vg. PAM (Partitioning Around Medoids, 1987)
CLARA (Clustering LARge Applications, 1990)
CLARANS (CLARA + Randomized Search, 1994)
k-Means
Características principales
El método de las K Medias (MacQueen, 1967)
Ventajas Sencillo y eficiente. Un único parámetro.
Desventajas Sesgado por el orden de presentación de los
patrones (el resultado depende de la configuración inicial de los agrupamientos).
Necesidad de conocer el número de clusters k:Su comportamiento depende enormemente del valor elegido para el parámetro k.
GRASP
Funcionamiento
Se repite el siguiente procesoun número determinado de iteraciones
Se busca una posible solución (centroides escogidos aleatoriamente de entre aquellos patrones que están más lejos de los centroides ya escogidos).
Se aplica una técnica de optimización local (k-Means) para obtener un conjunto de agrupamientos.
Opcionalmente, se puede alterar aleatoriamente el resultado obtenido [mutación] y repetir la búsqueda de un óptimo local con la solución “mutada”.
De todas las soluciones obtenidas, nos quedamos con la mejor (aquella que minimiza la suma de las distancias al cuadrado de cada patrón al centroide de su cluster).
GRASP
Características principales
Greedy Randomized Adaptive Search Procedure
Ventajas Sencillo y eficiente. Evita caer en óptimos locales.
Desventajas Necesidad de conocer el número de clusters
k:Su comportamiento depende enormemente del valor elegido para el parámetro k.
Algoritmo secuencialFuncionamiento
Similar al K-Means, si bien introduce algunas novedades
El parámetro K se considera un valor máximo (puede devolver un número de agrupamientos menor).
Partiendo de un único agrupamiento, se van creando nuevos agrupamientos conforme se procesan nuevos patrones secuencialmente (algoritmo incremental).
Los patrones se procesan secuencialmente por lotes. Al final de cada lote, se evalúan los agrupamientos obtenidos y se reduce su número.
Algoritmo secuencialFuncionamiento: Creación de agrupamientos
Se selecciona arbitrariamente el centro del primer agrupamiento.
Posteriormente, se procesan secuencialmente los demás patrones:
Se calcula la distancia del patrón actual al agrupamiento más cercano (a su centroide).
Si ésta es menor o igual a R se asigna el patrón a su agrupamiento más cercano.
En caso contrario, se crea un nuevo agrupamiento con el patrón actual.
Algoritmo secuencialFuncionamiento: Mezcla de agrupamientos
Cada M patrones, se mezclan agrupamientos 1. Mezcla por cercanía (se mezclan dos
agrupamientos si la distancia entre ellos es menor que C).
2. Mezcla por tamaño: Si, tras la mezcla por cercanía, quedan más agrupamientos que los deseados por el usuario (K), se mezclan los agrupamientos de menos del T% de M miembros con sus clusters más cercanos.
3. Mezcla forzada: Si aún quedan demasiados agrupamientos, se mezclan los agrupamientos más cercanos hasta obtener el número deseado K.El proceso de mezcla nos asegura que al final obtenemos el número deseado de agrupamientos y no más (como suele suceder en el método adaptativo o en el algoritmo de Batchelor y Wilkins).
Algoritmo secuencialCaracterísticas principales
Ventajas Flexibilidad: Su comportamiento puede ajustarse
gracias a su amplio conjunto de parámetros. Eficiencia: Cálculos muy sencillos, basta con
recorrer una vez el conjunto de datos.
Desventajas Utilización: Los valores adecuados para los
parámetros son difíciles de establecer a priori, por lo que se suele emplear un proceso de prueba y error.
Sesgado por los primeros patrones: Los resultados obtenidos dependen del orden de presentación de los patrones.
Algoritmo ISODATAFuncionamiento
Similar al K-Means, si bien incorpora heurísticas con tres objetivos:
Eliminar agrupamientos poco numerosos.
Mezclar agrupamientos cercanos.
Dividir agrupamientos dispersos.
Algoritmo ISODATAFuncionamiento
Inicialmente se seleccionan los centros de A agrupamientos.
En cada iteración Se asigna cada patrón al cluster más cercano. Se eliminan los agrupamientos de menos de N
patrones. Si el número de agrupamientos es pequeño (≤
K/2), se dividen los agrupamientos más dispersos. En las iteraciones pares o cuando el número de
agrupamientos es elevado (>2K), mezclamos un máximo de L pares de agrupamientos cercanos.
Algoritmo ISODATACaracterísticas principales
Iterative Self-Organizing Data Analysis Techniques
Ventajas Flexibilidad: Su comportamiento puede ajustarse
gracias a su amplio conjunto de parámetros. No está sesgado por el orden de presentación de
los patrones.
Desventajas Utilización: Los valores adecuados para los
parámetros son difíciles de establecer a priori, por lo que se suele emplear un proceso de prueba y error.
Métodos basados en grafosMatriz de similitud
Matriz cuadrada que representa la similitudentre cualquier pareja de patrones.
Dado un umbral de distancia, Sij=0 si d(Xi,Xj) > umbral Sij=1 si d(Xi,Xj) ≤ umbral
Agrupamiento basado en la matriz de similitud: Se selecciona la fila i que contenga más unos. Se crea un agrupamiento con los patrones j tales que
Sij=1 Se añaden al agrupamiento todos aquellos patrones
ktales que Sjk= 1, donde j es un patrón ya incluido enel nuevo agrupamiento, hasta que no se puedanañadir más patrones a dicho agrupamiento.
Métodos basados en grafos
23456789
40
Métodos basados en grafosMatriz de similitud: Variación del umbral
Métodos basados en grafosCaracterísticas principales
p.ej. Agrupamiento basado en la matriz de similitud
Ventajas
A diferencia de los métodos heurísticos,no dependen del orden en que se presentan los patrones.
Desventajas
Su coste computacional los hace inviablesen muchas ocasiones.
top related