04-ia-introducción a sistemas inteligentes (se)-4 (1)

Diapositiva 1CLUSTERING
[email protected]
Clasificación vs. Clustering
Clasificación: Aprendizaje supervisado:
*
*
Deterministica vs. probabilistica
Exclusiva vs. overlapping
Jerárquica vs. plana
Top-down vs. bottom-up
Medida de distancias
Alta similaridad dentro de un cluster, baja entre clusters (intra-específica, inter-específica)
Diapositiva *
Distancia(X,Y) = A(X) – A(Y)
Varios atributos numéricos:
Distancia(X,Y) = Distancia Euclideana entre X,Y
Atributos Nominales: la distancia es 1 si los valores son diferentes, 0 si son iguales
Distancia Mahalanobis? Lleva en consideración la distribución de los datos
Diapositiva *
Trabaja solo con datos numéricos
Define un número (K) de pivots (centros de cluster) puede ser aleatoriamente
Asignar cada item a su pivot más cercano (ejm. Usando distancia Euclideana)
Mover el pivot a la media de sus items asignados
Repetir pasos 2,3 hasta convergir (cambios en pivots son mínimos)
Diapositiva *
k1
k2
k3
X
Y
Diapositiva *
X
Y
k1
k2
k2
k1
k3
k3
Diapositiva *
Q: Qué puntos fueron reasignados?
X
Y
k1
k2
k3
Diapositiva *
X
Y
k1
k3
k2
Diapositiva *
X
Y
k1
k3
k2
Diapositiva *
X
Y
k2
k1
k3
Diapositiva *
Diapositiva *
Se puede entrampar en mínimos locales
Ejemplo:
instances
Discusión, 3
A: para incrementear la chace de encontrar un optimo global: reinicie con diferentes semillas aleatoriamente.
Diapositiva *
Desventajas
Se debe definir previamente en forma manual el número de clusters
Todos los items son forzados a estar en un cluster
Muy sensible a outliers
Diapositiva *
Variación de K-medias
K-medianas – en vez de media, use la mediana de cada cluster
Media de 1, 3, 5, 7, 9 es
Media de 1, 3, 5, 7, 1009 es
Mediana de 1, 3, 5, 7, 1009 es
Ventaja de mediana: no es afectada por valores extremos
Para grandes bases de datos, use muestreo
5
205
5
Diapositiva *
En cada paso, une los dos clusters más próximos
Decisión de diseño: clusters entre distancias
Top down
Encuentra dos clusters
Puede ser muy rápido
Ambos métodos producen un
Diapositiva *
v2
v1
v3
v4
v6
v5
Dendrograma
Diapositiva *
Clustering Bayesiano
Se puede interpretar cluster mediante el uso de aprendizaje supervisado
Aprenda un clasificador basado en clusters
¿Disminuya la dependencia entre atributos?
Paso de pre-procesamiento
Puede ser usado para llenar valores perdidos
Ventaja clave del clustering probabilístico:
Se puede estimar la verosemejanza de la información
Úselo para comparar distintos métodos objetivamente
Diapositiva *
Ejemplos de aplicación de Clustering
Marketing: descubrir grupos de clientes y usarlos para un marketing dirigido y reorganización
Astronomía: encuentra grupos de estrellas y galaxias similares
Genoma: encuentra grupos de genes con expresión similar
…
*
K-medianas es menos sensible a outliers
Clustering jerárquico – trabaja para atributos simbólicos
La evaluación es un problema
a
k
j
i
h
g
f
e
d
c
b
g
a
c
i
e
d
k
b
j
f
h
0
2
4
6
8
10
12
14
16
18
20
0
2
4
6
8
10
12
14
16
18
20

04-ia-introducción a sistemas inteligentes (se)-4 (1)

Documents