sistemas basados en casos

137

Upload: luis-alamo

Post on 19-Jun-2015

344 views

Category:

Education


5 download

TRANSCRIPT

Page 1: Sistemas basados en casos
Page 2: Sistemas basados en casos
Page 3: Sistemas basados en casos

Módulo de Recuperación

Módulo de Adaptación

Page 4: Sistemas basados en casos
Page 5: Sistemas basados en casos

5

Page 6: Sistemas basados en casos

Aprendizaje supervisado

Aprendizaje semisupervisado

Aprendizaje no supervisado

6

Page 7: Sistemas basados en casos

Clasificación

Categorización

Agrupamiento

7

Page 8: Sistemas basados en casos

Es una tarea de aprendizaje supervisado que el objetivo es asignar objetos a clases predefinidas◦ (no necesariamente basándose en el contenido)

8

Page 9: Sistemas basados en casos

Reconocimiento de rostros

9

mujerhombre

?

Page 10: Sistemas basados en casos

Tarea de la minería de datos

Selección de rasgos/atributos

Modelo

Los parámetros del modelo son determinados usando un conjunto de entrenamiento (conjunto de ejemplos)

Aprendizaje supervisado (aprendiendo con un maestro)

10

Page 11: Sistemas basados en casos

Para cada objeto en el conjunto de datos, una o varias etiquetas de clases están disponibles◦ Clasificación simple◦ Multiclasificación

Construir un modelo desde los ejemplos de aprendizaje.

Ese modelo puede ser usado después para clasificar (predecir) nuevos objetos.

11

Page 12: Sistemas basados en casos

Clasificadores Bayesianos

Árboles de decisión

Support Vector Machine

Redes Neuronales Artificiales

12

Page 13: Sistemas basados en casos

Desde el conjunto de datos, determina los parámetros p(xi|cj) para cada clase j y cada rasgo i=1..N

Para un nuevo ejemplo S=(s1 s2 … sN), todas las p(cj|S) son calculadas como

◦ p(ci|S)= p(S|cj) p(cj) / p(S) con p(S|cj)=p(s1|cj) p(s2|cj) … p(sN|cj)

◦ Escoger la más probable p(cj|S)

13

Page 14: Sistemas basados en casos

14

1. Escoger el “mejor” atributo por una medida de selección dada.

2. Extender el árbol adicionando nuevas ramas para cada valor del atributo.

3. Ordenar los ejemplos de entrenamiento hacia los nodos hoja.

4. Si los ejemplos están no ambiguamente clasificados, parar, si no repetir los pasos 1-4 para los nodos hoja.

5. Podar los nodos hoja inestables.

Page 15: Sistemas basados en casos

15

Headache Temperature Flu

e1 yes normal no

e2 yes high yes

e3 yes very high yese4 no normal noe5 no high no

e6 no very high no

Temperature

yes

yes{e2}

no

no {e5}

yes

yes{e3}

no

no {e6}

normal

no

{e1, e4}

Headache

high {e2, e5}

very high

Headache

{e3,e6}

Page 16: Sistemas basados en casos

16

<0,0>

<x15,x16>

<x3,x4>

<x5,x6>

<x9,x10>

<x11,x12>

<x1,x2>

<x7,x8>

<x21,x22>

<x17,x18>

<x13,x14>

<x19,x20>

<x23,x24>

f(x)=wx+b

Page 17: Sistemas basados en casos

17

<0,0>

<x15,x16>

<x3,x4>

<x5,x6>

<x9,x10>

<x11,x12>

<x1,x2>

<x7,x8>

<x21,x22>

<x17,x18>

<x13,x14>

<x19,x20>

<x23,x24>

Muchas posibilidades !

Page 18: Sistemas basados en casos

18

<0,0>

<x15,x16>

<x3,x4>

<x5,x6>

<x9,x10>

<x11,x12>

<x1,x2>

<x7,x8>

<x21,x22>

<x17,x18>

<x13,x14>

<x19,x20>

<x23,x24>

Margen

)1

min(2m

Page 19: Sistemas basados en casos

19

<0,0>

e1

)1

min(2

eCm

Margen

Page 20: Sistemas basados en casos

20

<0,0>

f(z)=wz+b

zmodelo

Page 21: Sistemas basados en casos

21

)(x

Uso de las funciones núcleo (kernel functions)

Page 22: Sistemas basados en casos
Page 23: Sistemas basados en casos

Modelo computacional que pretende simular el funcionamiento del cerebro a partir del desarrollo de una arquitectura que toma rasgos del funcionamiento de este órgano sin llegar a desarrollar una réplica del mismo.

23

Page 24: Sistemas basados en casos

Modelo basado en la arquitectura del cerebro humano◦ Neuronas conectadas por axones y

dendritas◦ 100 billones de neuronas◦ 1,000 dendritas por neurona◦ 100,000 billones sinapsis◦ 10 millones de billones de interconexiones

por segundo

Page 25: Sistemas basados en casos

Organización o arquitectura del conjunto de neuronas que la forman; comprende - la distribución espacial de las mismas y

- los enlaces entre ellas.

Page 26: Sistemas basados en casos

Un conjunto de elementos computacionales simples unidos por arcos dirigidos.

Cada arco tiene asociado un peso numérico Wij que indica la significación de la información que llega por este arco.

Cada celda Ui calcula una activación.

26

Page 27: Sistemas basados en casos

27

Toda unidad uj (excepto las de entradas) calcula una nueva activación u'

j

Sj representa el nivel de voltaje que excita la neurona

u'j denota la intensidad de la salida

resultante de la neurona.

i

iijj uwS jj SFu '

j

1

2

n

.

.

.

w1j

w2j

wnj

Page 28: Sistemas basados en casos

Modelo lineal

Modelo lineal con umbral

Modelo estocástico

Modelo continuo

28

Page 29: Sistemas basados en casos

Conocimiento en W=[w1, w2,…,wn] Aprendizaje: encontrar el W adecuado. Alternativas: Programación prescriptiva Cálculo de W: - Método adaptativo. - Método no adaptivo.

29

Page 30: Sistemas basados en casos

Dividir el conjunto de datos en conjunto de entrenamiento (training set) y conjunto de prueba (test set)

Usar los ejemplos del conjunto de entrenamiento para construir el modelo, y los ejemplos del conjunto de prueba para evaluar el modelo

Generalizaciones: Validación cruzada (cross-validation)

30

Page 31: Sistemas basados en casos

Para un problema de dos clases, todas las medidas pueden ser definidas en 4 números

◦ TP: verdaderos positivos (true positives)◦ TN: verdaderos negativos (true negatives)◦ FP: falsos positivos (false positives)◦ FN: falsos negativos (false negatives)

31

Page 32: Sistemas basados en casos

Accuracy

Error rate = 1- accuracy

TP rate/recall/sensitivity

FP rate

Precision/specificity

F-measure

FNFPTNTP

TNTP

FNTP

TP

32

TNFP

FP

FPTP

TP

FPTP

TP

Curvas ROC

Page 33: Sistemas basados en casos

OBJETIVO: encontrar grupos “naturales” de objetos en el conjunto de datos.

Los objetos que pertenezcan al mismo cluster sean tan similares como sea posible.

Los objetos que pertenecen a clusters diferentes sean tan diferentes (no similares) como sea posible.

33

Page 34: Sistemas basados en casos

Particionar un conjunto en subconjuntos de datos “similares”

34

Page 35: Sistemas basados en casos

DESCUBRIR◦ La potencialidad de revelar relaciones basadas en

datos complejos no detectadas previamente.

Encontrar una estructura de grupos que se ajuste al conjunto de datos.

35

Corpus of TextsColección de objetos

Algoritmo de agrupamiento

Grupo 1 Grupo 2 Grupo k. . .

Tan disimilares como sea posible

(Heterogeneidad)

Tan similares como sea posible

(Homogeneidad)

Page 36: Sistemas basados en casos

Posiblemente se conozca el número de grupos a obtener

Los grupos pueden ser disjuntos o solapados

Algunos outliers pueden ser presentados

Posiblemente se tenga alguna forma de estimar los centros de los grupos

36

Page 37: Sistemas basados en casos

37

Corpus of TextsCorpus de textos

Algoritmo de agrupamiento

Tópico 1 Tópico 2Tópico k

. . .

Page 38: Sistemas basados en casos

38

Algoritmo de agrupamiento de documentos

Cluster 1Document 1: <TOPICS><D>cocoa</D></TOPICS>Document 3: <TOPICS><D>cocoa</D></TOPICS>Document 4: <TOPICS><D>cocoa</D></TOPICS>Document 5: <TOPICS><D>cocoa</D></TOPICS>Document 6: <TOPICS><D>cocoa</D></TOPICS>Document 7: <TOPICS><D>cocoa</D></TOPICS>Document 8: <TOPICS><D>cocoa</D></TOPICS>Document 9: <TOPICS><D>cocoa</D></TOPICS>Document 10: <TOPICS><D>cocoa</D></TOPICS>

Cluster 2Document 60: <TOPICS><D>silver</D></TOPICS>Document 61: <TOPICS><D>silver</D></TOPICS>Document 62: <TOPICS><D>silver</D></TOPICS>Document 63: <TOPICS><D>silver</D></TOPICS>Document 64: <TOPICS><D>silver</D></TOPICS>Document 65: <TOPICS><D>silver</D></TOPICS>Document 66: <TOPICS><D>silver</D></TOPICS>Document 67: <TOPICS><D>silver</D></TOPICS>Document 68: <TOPICS><D>silver</D></TOPICS>Document 69: <TOPICS><D>silver</D></TOPICS>Document 70: <TOPICS><D>silver</D></TOPICS>

Cluster 17Document 71: <TOPICS><D>reserves</D></TOPICS>Document 72: <TOPICS><D>reserves</D></TOPICS>Document 74: <TOPICS><D>reserves</D></TOPICS>Document 77: <TOPICS><D>reserves</D></TOPICS>Document 80: <TOPICS><D>reserves</D></TOPICS>…

Reuters-21578 Text Categorization Collection, 135 topics

http://www.daviddlewis.com/resources/testcollections/reuters21578

Page 39: Sistemas basados en casos

39

BioMed Central's open access full-text corpus for data mining research

Algoritmo de agrupamiento de documentos

Page 40: Sistemas basados en casos

40

Solapado

Determinista

Aglomerativo

Divisivo

Probabilístico

(Fuzzy)

=1

Posibilístico

DURO JERÁRQUICOBORROSO

Page 41: Sistemas basados en casos

Density-based clustering Grid-based clustering Model-based clustering Incremental clustering Joint clustering

41

Page 42: Sistemas basados en casos

42

• Métodos aglomerativo (agglomerative methods)- single linkage- complete linkage- average linkage (UPGMA)- centroid linkage- Ward’s method

• Métodos divisivos (divisive methods)- Leclerc’s splitting algorithm-Agrupamiento basado en la intermediación (betweenness)

Page 43: Sistemas basados en casos

43

• Métodos aditivos (additive methods)-Neighbour joining-Split decomposition

• Otros métodos (other methods)- Floyd-Warshall algorithm

Page 44: Sistemas basados en casos

44

• Partitioning methods- k-means, fuzzy c-means- entropy minimisation- minimisation of stochastic complexity

• Dimensioning techniques- principal component analysis (PCA)- multidimensional scaling (MDS)- unsupervised neural networks

Page 45: Sistemas basados en casos

45

Page 46: Sistemas basados en casos

46

A

D

C

E

B

A

D

C

E

B

El número de clusters depende de

“donde dibujemos la línea”

Page 47: Sistemas basados en casos

1. Inicialmente asignar a cada entrada i su propio cluster Ci en el nivel 1.

2. Paso básico: Encontrar las entradas i y j tal que

Unir los clusters Ci and Cj en el nivel λ3. Paso general:

Encontrar clusters Ci y Cj tal que

Unir los clusters Ci and Cj en el nivel λ4. Repetir el paso 3 hasta que todos los clusters queden

unidos en un único cluster.

47

Page 48: Sistemas basados en casos

1. Inicialmente todas las entradas están en un único cluster C.

2. Encontrar i y j tal que

3. Dividir C en 2 subclusters disjuntos C1 y C2, tal que iC1 y jC2

4. Repetir las pasos 2 y 3 para C1 y C2 hasta que cada cluster sea un cluster de un único elemento.

48

C1 C2

i j

aij

Page 49: Sistemas basados en casos

Single linkage clustering◦ Vecino más cercano, min-transitive closure

Complete linkage clustering◦ Vecino más lejano, min-transitive opening

49

C1 C2

C1 C2

Page 50: Sistemas basados en casos

Average linkage clustering UPGMA, min-transitive approximation

50

C1 C2avg

Page 51: Sistemas basados en casos

Ventajas◦ Rápido◦ Bueno cuando el número de clusters es conocido.

Desventaja◦ K debe ser conocido, o diferentes valores tiene

que ser puestos a prueba.

51

Page 52: Sistemas basados en casos

Red no supervisada con dos capas:◦ Capa de entrada◦ Capa de salida

52

Page 53: Sistemas basados en casos

1. Inicializar los pesos wij

2. Repetir1. Presentar una entidad aleatoria2. Encontrar el nodo más similar3. Ajustar los pesos del nodo

ganador4. Ajustar los pesos de la vecindad

3. Hasta que converja o se cumpla un número fijado de iteraciones

53

Page 54: Sistemas basados en casos

Se requieren algunas medidas para cuantificar el grado de asociación entre objetos.

Distancias, similitud o disimilitud.

Algunos algoritmos de agrupamiento tienen un requerimiento teórico para el uso de una medida específica.

Lo más común es que el investigador seleccione qué medida utilizará con determinado método.

54

Page 55: Sistemas basados en casos

Notación

Objetos Oi y Oj, descritos por k rasgos

Oi = (Oi1 Oi2 … Oik)

Oj = (Oj1 Oj2 … Ojk)

55

pequeña

grande

grande!

Page 56: Sistemas basados en casos

Euclidean distance

56

k

hjhihji OOOOD

1

2,

Page 57: Sistemas basados en casos

Métrica Minkowski

57

1

1

,

k

hjhihji OOOOD

Cuando =1, la forma de calcular la distancia entre los objetos se llama la métrica Manhattan.

Si =2, nos referimos a la distancia Euclidiana.

Para los valores 2, estamos en presencia de la métrica Supermum

Page 58: Sistemas basados en casos

58

k

h jhih

jhih

jiOO

OOOOD

1

,

Métrica Camberra

Page 59: Sistemas basados en casos

59

Correlación de Pearson

k

hhjh

k

hhih

k

hhjhhih

ji

atributoOatributoO

atributoOatributoOOOD

1

2

1

2

1,

es el valor promedio que toma el atributoh en el conjunto de datos

hatributo

Page 60: Sistemas basados en casos

Coeficiente Dice Coeficiente Jaccard Coeficiente Coseno

◦ S – similitud◦ Di y Dj documentos con pesos asociados a los k

términos que los describen.

60

Page 61: Sistemas basados en casos

61

k

hjh

k

hih

k

hjhih

ji

pesopeso

pesopeso

DDS

1

2

1

2

1

2

,

BA

CDDS ji

2

,Para pesos binarios

C es el número de términos que Di y Dj tienen en común,

y A y B son el número de términos de Di y Dj respectivamente

Page 62: Sistemas basados en casos

62

k

hjhih

k

hjh

k

hih

k

hjhih

ji

pesopesopesopeso

pesopeso

DDS

11

2

1

2

1,

BA

CDDS ji

),(

A es el número de palabras que describen a Di, B es el número de palabras que describen a Dj y C es el número de palabras que aparecen tanto en Di como en Dj.

Para pesos binarios

Page 63: Sistemas basados en casos

63

k

hjh

k

hih

k

hjhih

ji

pesopeso

pesopeso

DDS

1

2

1

2

1,

Di

Dj

ji

ji

DD

DD

cos

Más usado

Page 64: Sistemas basados en casos

Unsupervised networks (e.g., Kohonen (SOM)) Autoclass k-means, Batch k-means e Incremental k-means Tolerance Rough Set Principal Direction Divisive Partitioning (PDDP) y Spherical

PDDP Simultaneous Clustering and Attribute Discrimination Fuzzy c-means Relational Alternating Cluster Estimation Entropy minimisation Minimisation of stochastic complexity Principal component analysis (PCA) Multidimensional scaling (MDS)

64

Page 65: Sistemas basados en casos

No es necesario especificar el número de grupos que se desea obtener.

Se obtienen las palabras claves que describen cada grupo.

Hay que definir el tamaño de la red manualmente.

65

Nürnberger, A. Klose, A. Kruse, R.

Clustering of Document Collection to Support Interactive Text Exploration.

Studies in Classification, Data Analysis and Knowledge Organization. Exploratory Data Analysis in Empirical Research. Proceedings of the 25th Annuals Conference of the

Gesellschaft für Klassification. pp 291-299. 2001.

Page 66: Sistemas basados en casos

No requiere especificar el número de grupos a obtener.

Obtiene las palabras claves de cada grupo.

Ha aportado mejores resultados que la red Kohonen en el agrupamiento de documentos.

66

Page 67: Sistemas basados en casos

Requiere que el número de clusters a obtener sea especificado a priori.

Requiere un cierto conocimiento del dominio, ya que es sensible a cómo se hizo inicialmente la partición.

67

Page 68: Sistemas basados en casos

Batch k-meansla calidad de la partición final depende de una

buena selección de la partición inicialpuede quedar atrapado en mínimos locales.

Incremental k-meansresuelve las dos desventajas del Batch k-meanspero es más lento

MeansMejora a estos dos últimos algoritmos

68

Page 69: Sistemas basados en casos

Utiliza una extensión de la teoría clásica de los conjuntos aproximados (Rough Set Theory).

Tolerance Rough Set permite formar clases de tolerancia de las palabras y utilizarlas para realizar el agrupamiento de documentos.

69

Page 70: Sistemas basados en casos

No requiere que el número de clusters sea fijado inicialmente.

Hace una subdivisión sucesiva de la colección inicial hasta detenerse cuando se cumpla cierto criterio de calidad.

Este algoritmo no es basado en ninguna medida de distancia ni de similitud.

Toma como ventaja lo dispersa que es la matriz de términos por documentos.

70

Page 71: Sistemas basados en casos

◦ Principal Direction Divisive Partitioning (PDDP) + Means

◦ Spherical Principal Directions Divisive Partitioning (sPDDP) + Means

◦ OBJETIVO:Mejorar la eficienciaNo tener que fijar manualmente el número inicial de

clusters ni la partición inicialCuidado con el tiempo de ejecución!!

71

Page 72: Sistemas basados en casos

Realiza el agrupamiento con objetivos específicos.

Identifica clusters pequeños en contextos limitados.

Es poco escalableFunciona utilizando Latent Semantic Indexing y los

vectores bases no son siempre ortogonales, aspecto esencial al buscar los valores y vectores propios.

72

Page 73: Sistemas basados en casos

Simultáneamente obtiene los grupos de documentos similares y pesa los rasgos.

Provee una representación de la relevancia de los rasgos más rica que la selección de los rasgos binaria.

Aprende una representación de la relevancia de los rasgos diferente para cada cluster.

Este algoritmo utiliza la distancia Euclidiana para calcular la similitud entre documentos.

73

Page 74: Sistemas basados en casos

Permite simultáneamente agrupar documentos textuales y dinámicamente pesar el conjunto de palabras claves.

Es computacional y conceptualmente simple.

Este algoritmo requiere que sea especificado el número inicial de clusters.

Es una extensión del k-means y funciona mejor que éste cuando no todos los rasgos son igualmente relevantes.

Utiliza una medida de disimilitud basada en el coeficiente coseno para comparar los documentos, pero puede ser adaptado a otras medidas de disimilitud.

La forma de pesar los términos puede ser modificada.

74

Page 75: Sistemas basados en casos

No requieren que el número de clusters sea especificado inicialmente.

Star depende del orden de los datos y esto puede provocar la construcción de clusters ilógicos.

Extended Star no depende del orden de los datos, i.e., no influye el orden de los datos en la formación de los clusters.

75

Algoritmos Estrella Condensado y Estrella Generalizado

Page 76: Sistemas basados en casos

76

Ejemplo de agrupamiento con el algoritmo Star donde

influye el orden de los datos

Ejemplo de la obtención de clusters ilógicos según agrupamiento Star debido a que dos estrellas nunca pueden ser vecinas.

Page 77: Sistemas basados en casos

Reconoce nubes esféricas de puntos en un espacio p-dimensional.

Asigna un grado de pertenencia de los documentos a los clusters.

77

Page 78: Sistemas basados en casos

Relational Alternating Cluster Estimation

Simultaneous Soft Clustering and Term Weighting of Text Document (Fuzzy SKWIC)

Requieren que el número de clusters sea especificado inicialmente.

Devolver la colección de clusters y calculan simultáneamente la relevancia de las palabras en los grupos.

78

Page 79: Sistemas basados en casos

Representación gráfica de los corpus textuales

Agrupamiento de documentos y palabras usando modelos gráficos

79

… …

Page 80: Sistemas basados en casos

Algoritmos que sólo utilizan distancias, similitudes, o disimilitudes para cuantificar el grado de asociación entre los objetos.

Algoritmos que adicionalmente explotan la topología de las interrelaciones y enlaces de los objetos a agrupar.

80

Page 81: Sistemas basados en casos

81

Fuente: Newman, M. E. J. Detecting community structure in networks. The European Physical Journal B, 38(2). pp. 321-330. 2004.

),(

),()(

jicpath

jicpathebtw e

Potencial que tiene una arista para controlar el flujo de información en el grafo.

Favorece a las aristas que se encuentran entre grupos y desfavorecen las incidentes a nodos de un mismo grupo.

Si una arista actúa en la interacción de muchos nodos su nivel de intermediación debe ser alto.

Page 82: Sistemas basados en casos

El cálculo tiene una alta complejidad computacional◦ O(m2n) para densos y O(n3) para dispersos.

La forma de cálculo no garantiza que todas las aristas que conectan grupos tengan intermediación alta.

◦ Los algoritmos de agrupamiento que utilizan la intermediación según los geodésicos necesitan el recálculo.

Aumenta un orden de complejidad con respecto a m.82

Page 83: Sistemas basados en casos

83

1

2

34

5

6

7

8

9

10

1112

13

14

15

16

17

18

21

22

20

19

Page 84: Sistemas basados en casos

84

Page 85: Sistemas basados en casos

Si no se puede medir lo que se quiere, no se debe esperar que las inferencias con estas mediciones sean correctas.

Se quiere que la habilidad para medir la intermediación de una arista dependa menos de las otras aristas.

85

Page 86: Sistemas basados en casos

86

bajibabaji ss ,,

bajiebajiB ,,,,

jicjic Vba

baji

Vbac ebajiBDB

,, ,

,,

,, ,,

Intermediación diferencial

-intermediación

Diferencial geodésico

c-vecindad cjvcivVvV ssjic ,

jicjic VjiEjiE ,, ,,

Fuente: A. Ochoa, L. Arco. Differential Betweenness in complex networks clustering. CIARP. LNCS. Vol. 5197. pp. 222-229. 2008.

Page 87: Sistemas basados en casos

Cálculo de DB a partir del cálculo de los caminos en el grafo original.

◦ Sin fijar vecindad O(mn2).

◦ Fijando vecindad O(mn) o O(n2) para grafos dispersos.

Cálculo de los caminos en la vecindad.◦ O(m) o O(n) para grafos dispersos.

87

Mientras que el algoritmo GN tiene la complejidad O(m2n).

Page 88: Sistemas basados en casos

1. Obtención del grafo de similitud.

2. Cálculo de la matriz de intermediación diferencial pesada.

3. Determinación de las aristas a eliminar.

4. Determinación de los núcleos del agrupamiento mediante la extracción de componentes conexas.

5. Clasificación de los nodos que no pertenecen a los núcleos.

88

Page 89: Sistemas basados en casos

Corpus Cantidad de documentos

Cantidad de grupos

Distribución de documentos por grupos

BioMed1 31 2 Grupo1=[1..11] Grupo2=[12..31]

Reuters2 29 2 Grupo1=[1..12] Grupo2=[13..29]

CEC20063 29 2 Grupo1=[1..18] Grupo2=[19..29]

89

1 BioMed Central ha publicado 22003 artículos http://www.biomedcentral.com/info/abou t/datamining/2 Colección Reuters-21578 disponible en el sitio web de David D. Lewis http://www.research.att.com/~lewis3 IEEE Congress on Evolutionary Computation, suministrada por Nees Jan van Eck y Rudolf Kruse

Page 90: Sistemas basados en casos

90

0.97

0.93

0.80

0.5

0.6

0.7

0.8

0.9

1

BioMed Reuters CEC2006

SKWIC

VariantesEstrella

Enlace

GN

Algoritmo 1

Page 91: Sistemas basados en casos

La mayoría de los métodos de agrupamiento son dependientes del análisis de frecuencias de términos y medidas de distancias o similitudes entre los vectores de objetos, sin considerar conocimiento humano.

91

• "A Clustering Algorithm Based on User Queries“. C. T. Yu. Journal of the American Society for Information Science. 1974.

• "Adaptive Document Clustering“. C. T. Yu, Y. T. Wang y C. H. Chen. Conference on Research and Development in Information Retrieval. 1985.

• “Optimal determination of user-oriented clusters”. J. Deogun y V. Raghavan. International Conference on Research and Development in Information Retrieval. 1987.

Page 92: Sistemas basados en casos

Distancia adaptable a los intereses y preferencias de los usuarios.

Distancia entre dos documentos relativa al peso W

◦ W: matriz de pesos simétrica nxn◦ wij: interrelación entre los términos i y j de los vectores.

92

Fuente: “An effective document clustering method using user-adaptable distance metrics”. Han-joon Kim y Sang-goo Lee. Proceedings of the Symposium on Applied computing. Madrid. ACM. 2002.

jijijiW ddWdddddist

,

Page 93: Sistemas basados en casos

Estrategia de aprendizaje activo para encontrar las restricciones más adecuadas.

Usan las restricciones para calcular un peso para la importancia de los términos en la medida de distancia.

Las restricciones se aprenden por la retroalimentación de los usuarios.

93

Fuente: “Semi-supervised clustering with user feedback”. D. Cohn y otros. Technical Report TR2003-1892, Cornell University, 2003.

Page 94: Sistemas basados en casos

Introducen el peso de los términos en el cálculo de la similitud coseno entre los documentos.

La importancia de los términos para distinguir los documentos varía entre los usuarios.

Crean medidas de similitud específicas para los usuarios haciendo uso de esquemas de ponderación diferentes para cada usuario.

Aprendizaje y adaptación de los pesos

94

Fuente: “Personalized Hierarchical Clustering”. Korinna Bade y Andreas Nürnberger. Proceedings of the International Conference on Web Intelligence. Washington, DC. IEEE Computer Society. 2006.

Page 95: Sistemas basados en casos

La importancia de los términos describe los tópicos de interés de los usuarios◦ Todo del perfil del usuario o manualmente especificada

Se utiliza directamente en el agrupamiento o en la inicialización de adaptación de pesos.

Se conoce cuáles son los términos importantes desde el punto de vista del usuario en el proceso de agrupamiento.

95

i i

iiiiii ddwwddsimnwww ,2,121 ),,(0:

Fuente: “Personalized Hierarchical Clustering”. Korinna Bade y Andreas Nürnberger. Proceedings of the International Conference on Web Intelligence. Washington, DC. IEEE Computer Society. 2006.

Page 96: Sistemas basados en casos

Una medida de evaluación hace corresponder un número real a un agrupamiento.

El número indica el grado en que ciertas propiedades estructurales son descubiertas en el agrupamiento.

96

Page 97: Sistemas basados en casos

◦ La matriz de similitud entre objetos conduce a un grafo de similitud.

◦ Las interrelaciones entre los objetos pueden intrínsicamente formar un grafo.

97

El conocimiento del dominio contribuye a determinar qué tipo de agrupamiento se va a utilizar con el objetivo de obtener los mejores resultados.

Page 98: Sistemas basados en casos

Explotar el conocimiento que existe en el enlace entre objetos.

Descubrir grupos que se ocultan en las comunicaciones entre objetos

98

Fuente: X. Xu, N. Yuruk, Z. Feng, T. Schweiger. SCAN: A structural clustering algorithm for networks. ACM. KDD. 2007.

Page 99: Sistemas basados en casos

Transitividad o agrupamiento

◦ Número elevado de triángulos en el grafo.

◦ Coeficiente de agrupamiento: densidad de triángulos en el grafo.

99

conectados vérticesde tríosde número

grafo elen s triángulode número3C

i

iCi vérticeelen centradosestán que vérticesde tríosde número

vérticeal conectados s triángulode número

Page 100: Sistemas basados en casos

Efecto small-world

◦ La mayoría de los pares de vértices se conectan por un camino corto en el grafo (longitud promedio de los caminos).

◦ Relacionada con la propiedad de navegación.

100

ji

ijdnn

l)1(

2

11

Page 101: Sistemas basados en casos

Grafos scale-free

◦ Grafos que presentan la ley de distribución del grado (distribución y correlación de los grados).

◦ Un grafo puede tener una forma de distribución del grado y en sus subgrafos la distribución puede tener otra forma.

101

Page 102: Sistemas basados en casos

Patrones mixtos

◦ Se utiliza en grafos donde los vértices representan distintos tipos y es interesante estudiar cómo se conectan dichos vértices mixtos.

◦ Se cuantifica mediante el coeficiente mixto.

Estructura de comunidad

◦ Se observan grupos de vértices que tienen una alta densidad de las aristas entre ellos, con una baja densidad de las aristas entre grupos.

102

Fuente: Newman, M. E. J. The structure and function of networks. Computer Physics Communications, 147: 40-45. 2002.

Page 103: Sistemas basados en casos

103

Fuente: Radicchi, F., Castellano, C., Cecconi, F., Loreto, V. and Parisi, D. Defining and identifying communities in networks. PNAS Proc. National Academic of Science USA, 101(9). 2004.

Page 104: Sistemas basados en casos

104

Fuente: Girvan, M. and Newman, M. E. J. Community structure in social and biological networks. PNAS Proc. National Academy of Science USA, 99(12): 7821-7826. 2002.

Page 105: Sistemas basados en casos

105

Fuente: Newman, M. E. J. and Girvan, M. Finding and evaluating community structure in networks. Physical Review E, 69(026113). 2004.

Page 106: Sistemas basados en casos

106

Fuente: Newman, M. E. J. Analysis of weighted networks. Physical Review E, 70. 2004.

El ancho de las aristas indica su peso.

Los colores de los vértices indican los grupos.

Varias investigaciones muestran que el lenguaje existe en una red small-world.

Fuente: Ferrer, R. and Solé, R. V. The small world of human language. Proc. R. Soc. Lond. B, 268(1482): 2261-2265. 2001.

Page 107: Sistemas basados en casos

107

Nodos: documentos

Aristas: conexiones de los documentos con una similitud coseno superior a un umbral fijado.

Grupos: [0..27] talk.politics.guns[28..58] talk.politics.mideast

Fuente: Colección 20-newsgroups disponible en http://www.ai.mit.edu/people/jrennie/20Newsgroups

Page 108: Sistemas basados en casos

¿Cuántos clusters hay en el conjunto de datos?

¿El esquema del agrupamiento resultante se adapta al conjunto de datos?

¿Existe una mejor partición para nuestros datos?

¿La estructura de los clusters es bastante clara realmente?

¿Son correctas la densidad, compactación, separación de los clusters?

108

Page 109: Sistemas basados en casos

Cada medida de evaluación no puede capturar todas las buenas propiedades de un agrupamiento.

El funcionamiento de un algoritmo de agrupamiento puede ser juzgado diferente dependiendo de qué medidas se han usado.

Para hacer más confiables los resultados se deben usar varias medidas.

Cualquier nueva medida puede contribuir a comprender mejor el agrupamiento.

109

Page 110: Sistemas basados en casos

Las medidas externas usan una clasificación humana de referencia para evaluar el agrupamiento. ◦ No son aplicables en situaciones del mundo real

donde usualmente no están disponibles las clasificaciones de referencia.

Las medidas internas basan sus cálculos solamente en el agrupamiento que tiene que ser evaluado.

110

Page 111: Sistemas basados en casos

Overall Similarity

No considera la relación entre los clusters.

111

SdSd

ddS

ilarityOverallSim

'

2 ),'(distance1

Page 112: Sistemas basados en casos

Dunn IndicesEstas medidas tienen una forma geométrica (típicamente

centroide) para analizar el agrupamiento.

112

)}({max

)},({min)(

1 lkl

jiji

C

CCCI

),(min),(,

yxdCCji CyCx

ji

),(max)(,

yxdCiCyx

i

ji CyCxji

ji yxdCC

CC,

),(1

),(

i

Cx i

i C

cxdC i

),(2)(

Dunn

Bezdek

Page 113: Sistemas basados en casos

113

Page 114: Sistemas basados en casos

Medida Davies-BouldinEstas medidas tienen una forma geométrica (típicamente

centroide) para analizar el agrupamiento.

114

k

iiR

kDB

1

1 ij

jinj

i RR

,,...,1

max

),(

))()((

ji

jiij CC

CsCsR

iCx i

ii cx

CCs

1)(

Page 115: Sistemas basados en casos

-measure (Weighted Partial Connectivity)

measure (Expected density)

El cálculo de estas medidas es muy costoso, alta complejidad computacional.

115

Page 116: Sistemas basados en casos

Entropía

116

i

ijijj ppE logj

ij

ij n

np donde

ijn el número de documentos de la clase i que están asignados al

cluster j pij la probabilidad que un miembro del clusters j pertenezca a la

clase i

La entropía de cada cluster j

q

iijijj pp

qE

1

loglog

1

m

j

jjCS n

EnE

1

*

Page 117: Sistemas basados en casos

Precision

Recall

117

j

ijn

njiprecision ),(

i

ijn

njirecall ),(

nij es el número de miembros de la clase i en el cluster j, nj es el número de miembros del cluster j y ni es el número de miembros de la clase i

Page 118: Sistemas basados en casos

F-Measure y Overall F-Measure

118

),(

11

),(

11

),(

jirecalljiprecision

jiF

i

i jiMeasureFn

nF ),(max

Page 119: Sistemas basados en casos

Purity

Relative F-Measure

F-Score Metric for Soft Clustering Micro-averaging break-even point (BEP) and Micro-

averaging F1-measure

Folks and Mallows measure

Jaccard measure

Rand statistics

Kappa statistics

119

Page 120: Sistemas basados en casos

No necesita ninguna información preliminar o adicional sobre los datos.

Es una herramienta para ser usada en aplicaciones computacionales en circunstancias caracterizadas por vaguedad e incertidumbre.

120

Page 121: Sistemas basados en casos

Relación de similitudR’(x)={yU : yR’x, i.e. y está relacionado con x si y sólo si s(x,y)>}

Aproximación inferior

Aproximación superior

121

XxRXxXR )(':)('*

Xx

xRXR

)(')('*

Page 122: Sistemas basados en casos

Precisión de la aproximación

Calidad de la aproximación

Pertenencia aproximada

Precisión del agrupamiento

Calidad del

agrupamiento

122

)('

)(')(

*

*

XR

XRX

X

XRX

)(')( *

)('

)(')(

xR

xRXxX

U

XRDS

l

ii

1* )('

)(

l

ii

l

ii

XR

XRDS

1

*

1*

)('

)(')(

Page 123: Sistemas basados en casos

Precisión generalizada del agrupamiento

Calidad generalizada del

agrupamiento

Pertenencia aproximada

123

U

wXRDS

l

iii

G

1

* )(')(

l

iii

l

iii

G

wXR

wXRDS

1

*

1*

)('

)(')(

)('

)(')(

xR

xRXxX

X

xRXxX

)(')(

)('

)(')(

xRX

xRXxX

Fuente: L. Arco y otros. On clustering validity measures and the Rough Set Theory. MICAI 2006. IEEE Computer Society.

Page 124: Sistemas basados en casos

Entrada: Colección de objetos (sistema de información), resultado del agrupamiento (conceptos), medida y umbral de similitud, y formas de ponderación de los grupos.

Salida: Valores de las medidas de precisión y calidad aplicadas a los grupos y al agrupamiento en general.

1. Obtener las clases de similitud para cada objeto en el sistema de información.

2. Calcular las aproximaciones inferiores y superiores por grupo.

3. Calcular la calidad y precisión por grupo.

4. Calcular la calidad y precisión del agrupamiento.

5. Para cada variante de cálculo de peso especificada

a. Calcular los pesos por grupos.

b. Calcular la calidad y precisión generalizadas del agrupamiento.

124

Page 125: Sistemas basados en casos

125

Evaluación del instrumento de

medición

Confiabilidad Validez

Contenido Criterio Constructo

Pruebas de Wilcoxon aResultados con y sin

ruido

Correlación con medidas internas

Correlación con medidas externas

Propiedades que se

chequean

Page 126: Sistemas basados en casos

SI existe la clasificación de referencia para el conjunto de datos que se agrupaYel usuario quiere evaluar considerando la correspondencia de los resultados obtenidos por el algoritmo de agrupamiento con la clasificación de referencia

ENTONCESse sugiere analizar las medidas externas

126

Page 127: Sistemas basados en casos

L/G C/G/A Peso Umbral Max/Min P/C Costo

Entropía L&G Grupos Si No Min P Bajo

Precisión Local - No No Max P Bajo

Cubrimiento Local - No No Max P Bajo

Medida-F Local - No Si Max P Bajo

Información Mutua Local - No No Max P Bajo

Estadístico Kappa Global Grupos No No Max P Alto

Medida-F Global Global Clases Si Si Max P Bajo

MAP&R Global Clases No No Max P&C Bajo

Error del agrupamiento Global Pares No No Min P&C Alto

Cluster Recall Global Pares No No Max P&C Alto

Cluster Precision Global Pares No No Max P&C Alto

Estadístico Rand Global Pares No No Max P&C Alto

Coeficiente Jaccard Global Pares No No Max P&C Alto

Índice de F&M Global Pares No No Max P&C Alto127

Page 128: Sistemas basados en casos

SI desea realizar la validación de cada grupo ENTONCES aplicar Entropía, Precisión, Cubrimiento y Medida-F

SI no tiene criterios para especificar umbrales ENTONCES no aplicar Medida-F ni Medida-F Global

SI desea obtener medidas globales Y calculadas por clases ENTONCES aplicar Medida-F Global, MAP y MAR SINO SI desea obtener medidas globales Y calculadas por grupos ENTONCES aplicar Entropía y Estadístico Kappa

128

Page 129: Sistemas basados en casos

SI desea validar agrupamientos de grandes colecciones de datos ENTONCES aplicar Entropía, Precisión, Cubrimiento, Medida-F y

Medida-F Global

SI se requiere validar cubrimientos Y los conjuntos de datos son pequeños ENTONCES preferiblemente aplicar Error del agrupamiento, Cluster Recall y Cluster Precision, Estadístico Rand, Coeficiente Jaccard e Índice de

Folkes y Mallows

SI desea validar ponderando los grupos por su cardinalidad ENTONCES aplicar Entropía y Medida-F Global 12

9

Page 130: Sistemas basados en casos

EM (?) EM (3)

E 0.1825 0.2241

Pr 1 0.9271

Re 0.6 0.9067

OFM 0.7239 0.9048

EM (3) 9.33% incorrectos

grupos 0 1 2

Iris-setosa 0 50 0

Iris-versicolor 50 0 27

Iris-virginica 14 0 36

EM (?) 40% incorrectos

grupos 0 1 2 3 4

Iris-setosa 28 0 0 22 0

Iris-versicolor 0 0 27 0 23

Iris-virginica 0 35 15 0 0

130

Mide en qué grado la clase está incluida en el grupo.

Busca correspondencia de cada grupo con las clases.

Mide en qué grado el grupo cubre la clase.

Media armónica de Precisión y Cubrimiento

Page 131: Sistemas basados en casos

SI no existe la clasificación de referencia para el conjunto de datos que se agrupaO

el usuario no quiere evaluar considerando la correspondencia

de los resultados con la clasificación de referencia

ENTONCESse sugiere analizar las medidas internas

131

Page 132: Sistemas basados en casos

Objetivo Valora Integral

Indep.Forma Centro Ruido Diversos

tamañosUmbral

Índice C Densidad de los grupos

No Si No No No No

Similitud Global

Cohesión de los grupos

(Local)

No No No No Si No

Dunn original

Grupos compactos y bien separados (razón) Si No No Si Si No

Dunn-Bezdek

Grupos compactos y bien separados (razón) Si No Si Si Si No

Bezdek general

Grupos compactos y bien separados (razón) Si Si No No Si No

Davies-Bouldin

Dispersión de los grupos y su separación Si No Si No Si No

Índice SD Suma pesada de la distancia intra-grupo y

entre gruposSi No Si No No No

Índice S_Dbw

Suma pesada de la distancia intra-grupo y

entre gruposSi No No No Si No

Índice Silueta

Grupos compactos y bien separados Si No No Si Si No

132

Page 133: Sistemas basados en casos

Objetivo Valora Integral

Indep.Forma Centro Ruido Diversos

tamañosUmbral

FOM Estimar número de grupos

Si Si No No No Si

Expansión Árbol de expansión mínimo No Si No Si No Si

Conductancia Árbol de expansión mínimo (permite

ponderar vértices)No Si No Si No Si

Conectividad parcial pesada

Conectividad de las aristas pesadas por

gruposNo Si No No Si Si

Densidad esperada

Densidad de los grupos por peso de

las aristasNo Si No No Si Si

Modularidad Interconexiones antes y después del agrupamiento

Si Si No Si Si Si

Índice de tendencia del agrupamiento

Forma grafo k-partito con las

relaciones entre los k grupos

No Si No No Si Si

133

Page 134: Sistemas basados en casos

Objetivo Valora Integral

Indep.Forma Centro Ruido Diversos

tamañosUmbral

Medida de la fortaleza de las conexiones

Identifica grupos débiles y fuertes

(solo conexiones)No Si No No Si Si

Medida de la interacción

Promedio de la interacción intra-

grupo entre el promedio de la interacción con nodos externos

No Si No Si Si Si

Precisión del grupo

Razón de los objetos típicos del

grupo y los relacionados con él

Si

(local)Si No No Si Si

Calidad del grupo

Porciento de objetos bien

asignados al grupo

Si

(local)Si No No Si Si

Precisión generalizada del agrupamiento

Precisión global ponderada por

gruposSi Si No No Si Si

Calidad generalizada del agrupamiento

Calidad global ponderada por

gruposSi Si No No Si Si

134

Page 135: Sistemas basados en casos

SI desea validar que los grupos son compactos y están bien separados ENTONCES aplicar el índice Dunn y sus generalizaciones, los índices

Davies-Bouldin, SD, S_Dbw y Silueta, y las medidas precisión y

calidad del agrupamiento

SI los resultados a evaluar son de un agrupamiento basado en prototipos ENTONCES aplicar índices Dunn-Bezdek, Silueta, Davies-Bouldin, SD y

las medidas precisión y calidad generalizadas

SI desconoce la forma de los grupos obtenidos ENTONCES no aplicar Similitud Global, índices Dunn original, Dunn-

Bezdek, Davies-Bouldin, SD, S_Dbw y Silueta

135

Page 136: Sistemas basados en casos

SI desea al validar que se considere la integración entre los grupos ENTONCES aplicar el índice Dunn y sus generalizaciones, los índices Davies-

Bouldin, SD, S_Dbw y Silueta, FOM, Modularidad y las medidas RST SINO aplicar Índice C, Similitud Global, Expansión y Conductancia, Conectividad parcial pesada, Densidad esperada, tendencia del agrupamiento y medida de la fortaleza de las conexiones

SI desea validar ponderando los grupos por su cardinalidad ENTONCES aplicar Conectividad parcial pesada, Densidad esperada, y las medidas precisión y calidad generalizadas

SI desea validar considerando diversas formas de ponderación ENTONCES aplicar medidas precisión y calidad generalizadas

136

Page 137: Sistemas basados en casos

SI los grupos obtenidos tienen diversos tamaños ENTONCES no aplicar índices C y SD, FOM, Expansión y Conductancia

SI el método de agrupamiento utilizó representación en grafos ENTONCES aplicar Expansión, conductancia, Conectividad parcial pesada, densidad esperada, modularidad, índices de tendencia, fortaleza e interacciones, y medidas RST

SI se desean combinar en una misma medida varios criterios O dado un cálculo inicial común aplicar medir varias propiedades ENTONCES aplicar medidas basadas en RST 13

7