sistemas basados en casos

Módulo de Recuperación

Módulo de Adaptación

Aprendizaje supervisado

Aprendizaje semisupervisado

Aprendizaje no supervisado

6

Clasificación

Categorización

Agrupamiento

7

Es una tarea de aprendizaje supervisado que el objetivo es asignar objetos a clases predefinidas◦ (no necesariamente basándose en el contenido)

8

Reconocimiento de rostros

9

mujerhombre

?

Tarea de la minería de datos

Selección de rasgos/atributos

Modelo

Los parámetros del modelo son determinados usando un conjunto de entrenamiento (conjunto de ejemplos)

Aprendizaje supervisado (aprendiendo con un maestro)

10

Para cada objeto en el conjunto de datos, una o varias etiquetas de clases están disponibles◦ Clasificación simple◦ Multiclasificación

Construir un modelo desde los ejemplos de aprendizaje.

Ese modelo puede ser usado después para clasificar (predecir) nuevos objetos.

11

Clasificadores Bayesianos

Árboles de decisión

Support Vector Machine

Redes Neuronales Artificiales

12

14

1. Escoger el “mejor” atributo por una medida de selección dada.

2. Extender el árbol adicionando nuevas ramas para cada valor del atributo.

3. Ordenar los ejemplos de entrenamiento hacia los nodos hoja.

4. Si los ejemplos están no ambiguamente clasificados, parar, si no repetir los pasos 1-4 para los nodos hoja.

5. Podar los nodos hoja inestables.

15

Headache Temperature Flu

e1 yes normal no

e2 yes high yes

e3 yes very high yese4 no normal noe5 no high no

e6 no very high no

Temperature

yes

yes{e2}

no

no {e5}

yes

yes{e3}

no

no {e6}

normal

no

{e1, e4}

Headache

high {e2, e5}

very high

Headache

{e3,e6}

16

<0,0>

<x15,x16>

<x3,x4>

<x5,x6>

<x9,x10>

<x11,x12>

<x1,x2>

<x7,x8>

<x21,x22>

<x17,x18>

<x13,x14>

<x19,x20>

<x23,x24>

f(x)=wx+b

17

<0,0>

<x15,x16>

<x3,x4>

<x5,x6>

<x9,x10>

<x11,x12>

<x1,x2>

<x7,x8>

<x21,x22>

<x17,x18>

<x13,x14>

<x19,x20>

<x23,x24>

Muchas posibilidades !

18

<0,0>

<x15,x16>

<x3,x4>

<x5,x6>

<x9,x10>

<x11,x12>

<x1,x2>

<x7,x8>

<x21,x22>

<x17,x18>

<x13,x14>

<x19,x20>

<x23,x24>

Margen

)1

min(2m

19

<0,0>

e1

)1

min(2

eCm

Margen

20

<0,0>

f(z)=wz+b

zmodelo

21

)(x

Uso de las funciones núcleo (kernel functions)

Modelo computacional que pretende simular el funcionamiento del cerebro a partir del desarrollo de una arquitectura que toma rasgos del funcionamiento de este órgano sin llegar a desarrollar una réplica del mismo.

23

Modelo basado en la arquitectura del cerebro humano◦ Neuronas conectadas por axones y

dendritas◦ 100 billones de neuronas◦ 1,000 dendritas por neurona◦ 100,000 billones sinapsis◦ 10 millones de billones de interconexiones

por segundo

Organización o arquitectura del conjunto de neuronas que la forman; comprende - la distribución espacial de las mismas y

- los enlaces entre ellas.

Un conjunto de elementos computacionales simples unidos por arcos dirigidos.

Cada arco tiene asociado un peso numérico Wij que indica la significación de la información que llega por este arco.

Cada celda Ui calcula una activación.

26

27

Toda unidad uj (excepto las de entradas) calcula una nueva activación u'

j

Sj representa el nivel de voltaje que excita la neurona

u'j denota la intensidad de la salida

resultante de la neurona.

i

iijj uwS jj SFu '

j

1

2

n

.

.

.

w1j

w2j

wnj

Modelo lineal

Modelo lineal con umbral

Modelo estocástico

Modelo continuo

28

Conocimiento en W=[w1, w2,…,wn] Aprendizaje: encontrar el W adecuado. Alternativas: Programación prescriptiva Cálculo de W: - Método adaptativo. - Método no adaptivo.

29

Dividir el conjunto de datos en conjunto de entrenamiento (training set) y conjunto de prueba (test set)

Usar los ejemplos del conjunto de entrenamiento para construir el modelo, y los ejemplos del conjunto de prueba para evaluar el modelo

Generalizaciones: Validación cruzada (cross-validation)

30

Para un problema de dos clases, todas las medidas pueden ser definidas en 4 números

◦ TP: verdaderos positivos (true positives)◦ TN: verdaderos negativos (true negatives)◦ FP: falsos positivos (false positives)◦ FN: falsos negativos (false negatives)

31

Accuracy

Error rate = 1- accuracy

TP rate/recall/sensitivity

FP rate

Precision/specificity

F-measure

FNFPTNTP

TNTP

FNTP

TP

32

TNFP

FP

FPTP

TP

FPTP

TP

Curvas ROC

OBJETIVO: encontrar grupos “naturales” de objetos en el conjunto de datos.

Los objetos que pertenezcan al mismo cluster sean tan similares como sea posible.

Los objetos que pertenecen a clusters diferentes sean tan diferentes (no similares) como sea posible.

33

Particionar un conjunto en subconjuntos de datos “similares”

34

DESCUBRIR◦ La potencialidad de revelar relaciones basadas en

datos complejos no detectadas previamente.

Encontrar una estructura de grupos que se ajuste al conjunto de datos.

35

Corpus of TextsColección de objetos

Algoritmo de agrupamiento

Grupo 1 Grupo 2 Grupo k. . .

Tan disimilares como sea posible

(Heterogeneidad)

Tan similares como sea posible

(Homogeneidad)

Posiblemente se conozca el número de grupos a obtener

Los grupos pueden ser disjuntos o solapados

Algunos outliers pueden ser presentados

Posiblemente se tenga alguna forma de estimar los centros de los grupos

36

37

Corpus of TextsCorpus de textos

Algoritmo de agrupamiento

Tópico 1 Tópico 2Tópico k

. . .

38

Algoritmo de agrupamiento de documentos

Cluster 1Document 1: <TOPICS><D>cocoa</D></TOPICS>Document 3: <TOPICS><D>cocoa</D></TOPICS>Document 4: <TOPICS><D>cocoa</D></TOPICS>Document 5: <TOPICS><D>cocoa</D></TOPICS>Document 6: <TOPICS><D>cocoa</D></TOPICS>Document 7: <TOPICS><D>cocoa</D></TOPICS>Document 8: <TOPICS><D>cocoa</D></TOPICS>Document 9: <TOPICS><D>cocoa</D></TOPICS>Document 10: <TOPICS><D>cocoa</D></TOPICS>

Cluster 2Document 60: <TOPICS><D>silver</D></TOPICS>Document 61: <TOPICS><D>silver</D></TOPICS>Document 62: <TOPICS><D>silver</D></TOPICS>Document 63: <TOPICS><D>silver</D></TOPICS>Document 64: <TOPICS><D>silver</D></TOPICS>Document 65: <TOPICS><D>silver</D></TOPICS>Document 66: <TOPICS><D>silver</D></TOPICS>Document 67: <TOPICS><D>silver</D></TOPICS>Document 68: <TOPICS><D>silver</D></TOPICS>Document 69: <TOPICS><D>silver</D></TOPICS>Document 70: <TOPICS><D>silver</D></TOPICS>

Cluster 17Document 71: <TOPICS><D>reserves</D></TOPICS>Document 72: <TOPICS><D>reserves</D></TOPICS>Document 74: <TOPICS><D>reserves</D></TOPICS>Document 77: <TOPICS><D>reserves</D></TOPICS>Document 80: <TOPICS><D>reserves</D></TOPICS>…

Reuters-21578 Text Categorization Collection, 135 topics

http://www.daviddlewis.com/resources/testcollections/reuters21578

39

BioMed Central's open access full-text corpus for data mining research

Algoritmo de agrupamiento de documentos

40

Solapado

Determinista

Aglomerativo

Divisivo

Probabilístico

(Fuzzy)

=1

Posibilístico

DURO JERÁRQUICOBORROSO

Density-based clustering Grid-based clustering Model-based clustering Incremental clustering Joint clustering

41

42

• Métodos aglomerativo (agglomerative methods)- single linkage- complete linkage- average linkage (UPGMA)- centroid linkage- Ward’s method

• Métodos divisivos (divisive methods)- Leclerc’s splitting algorithm-Agrupamiento basado en la intermediación (betweenness)

43

• Métodos aditivos (additive methods)-Neighbour joining-Split decomposition

• Otros métodos (other methods)- Floyd-Warshall algorithm

44

• Partitioning methods- k-means, fuzzy c-means- entropy minimisation- minimisation of stochastic complexity

• Dimensioning techniques- principal component analysis (PCA)- multidimensional scaling (MDS)- unsupervised neural networks

46

A

D

C

E

B

A

D

C

E

B

El número de clusters depende de

“donde dibujemos la línea”

1. Inicialmente asignar a cada entrada i su propio cluster Ci en el nivel 1.

2. Paso básico: Encontrar las entradas i y j tal que

Unir los clusters Ci and Cj en el nivel λ3. Paso general:

Encontrar clusters Ci y Cj tal que

Unir los clusters Ci and Cj en el nivel λ4. Repetir el paso 3 hasta que todos los clusters queden

unidos en un único cluster.

47

1. Inicialmente todas las entradas están en un único cluster C.

2. Encontrar i y j tal que

3. Dividir C en 2 subclusters disjuntos C1 y C2, tal que iC1 y jC2

4. Repetir las pasos 2 y 3 para C1 y C2 hasta que cada cluster sea un cluster de un único elemento.

48

C1 C2

i j

aij

Single linkage clustering◦ Vecino más cercano, min-transitive closure

Complete linkage clustering◦ Vecino más lejano, min-transitive opening

49

C1 C2

C1 C2

Average linkage clustering UPGMA, min-transitive approximation

50

C1 C2avg

Ventajas◦ Rápido◦ Bueno cuando el número de clusters es conocido.

Desventaja◦ K debe ser conocido, o diferentes valores tiene

que ser puestos a prueba.

51

Red no supervisada con dos capas:◦ Capa de entrada◦ Capa de salida

52

1. Inicializar los pesos wij

2. Repetir1. Presentar una entidad aleatoria2. Encontrar el nodo más similar3. Ajustar los pesos del nodo

ganador4. Ajustar los pesos de la vecindad

3. Hasta que converja o se cumpla un número fijado de iteraciones

53

Se requieren algunas medidas para cuantificar el grado de asociación entre objetos.

Distancias, similitud o disimilitud.

Algunos algoritmos de agrupamiento tienen un requerimiento teórico para el uso de una medida específica.

Lo más común es que el investigador seleccione qué medida utilizará con determinado método.

54

Notación

Objetos Oi y Oj, descritos por k rasgos

Oi = (Oi1 Oi2 … Oik)

Oj = (Oj1 Oj2 … Ojk)

55

pequeña

grande

grande!

Euclidean distance

56

k

hjhihji OOOOD

1

2,

Métrica Minkowski

57

1

1

,

k

hjhihji OOOOD

Cuando =1, la forma de calcular la distancia entre los objetos se llama la métrica Manhattan.

Si =2, nos referimos a la distancia Euclidiana.

Para los valores 2, estamos en presencia de la métrica Supermum

58

k

h jhih

jhih

jiOO

OOOOD

1

,

Métrica Camberra

59

Correlación de Pearson

k

hhjh

k

hhih

k

hhjhhih

ji

atributoOatributoO

atributoOatributoOOOD

1

2

1

2

1,

es el valor promedio que toma el atributoh en el conjunto de datos

hatributo

Coeficiente Dice Coeficiente Jaccard Coeficiente Coseno

◦ S – similitud◦ Di y Dj documentos con pesos asociados a los k

términos que los describen.

60

61

k

hjh

k

hih

k

hjhih

ji

pesopeso

pesopeso

DDS

1

2

1

2

1

2

,

BA

CDDS ji

2

,Para pesos binarios

C es el número de términos que Di y Dj tienen en común,

y A y B son el número de términos de Di y Dj respectivamente

62

k

hjhih

k

hjh

k

hih

k

hjhih

ji

pesopesopesopeso

pesopeso

DDS

11

2

1

2

1,

BA

CDDS ji

),(

A es el número de palabras que describen a Di, B es el número de palabras que describen a Dj y C es el número de palabras que aparecen tanto en Di como en Dj.

Para pesos binarios

63

k

hjh

k

hih

k

hjhih

ji

pesopeso

pesopeso

DDS

1

2

1

2

1,

Di

Dj

ji

ji

DD

DD

cos

Más usado

Unsupervised networks (e.g., Kohonen (SOM)) Autoclass k-means, Batch k-means e Incremental k-means Tolerance Rough Set Principal Direction Divisive Partitioning (PDDP) y Spherical

PDDP Simultaneous Clustering and Attribute Discrimination Fuzzy c-means Relational Alternating Cluster Estimation Entropy minimisation Minimisation of stochastic complexity Principal component analysis (PCA) Multidimensional scaling (MDS)

64

No es necesario especificar el número de grupos que se desea obtener.

Se obtienen las palabras claves que describen cada grupo.

Hay que definir el tamaño de la red manualmente.

65

Nürnberger, A. Klose, A. Kruse, R.

Clustering of Document Collection to Support Interactive Text Exploration.

Studies in Classification, Data Analysis and Knowledge Organization. Exploratory Data Analysis in Empirical Research. Proceedings of the 25th Annuals Conference of the

Gesellschaft für Klassification. pp 291-299. 2001.

No requiere especificar el número de grupos a obtener.

Obtiene las palabras claves de cada grupo.

Ha aportado mejores resultados que la red Kohonen en el agrupamiento de documentos.

66

Requiere que el número de clusters a obtener sea especificado a priori.

Requiere un cierto conocimiento del dominio, ya que es sensible a cómo se hizo inicialmente la partición.

67

Batch k-meansla calidad de la partición final depende de una

buena selección de la partición inicialpuede quedar atrapado en mínimos locales.

Incremental k-meansresuelve las dos desventajas del Batch k-meanspero es más lento

MeansMejora a estos dos últimos algoritmos

68

Utiliza una extensión de la teoría clásica de los conjuntos aproximados (Rough Set Theory).

Tolerance Rough Set permite formar clases de tolerancia de las palabras y utilizarlas para realizar el agrupamiento de documentos.

69

No requiere que el número de clusters sea fijado inicialmente.

Hace una subdivisión sucesiva de la colección inicial hasta detenerse cuando se cumpla cierto criterio de calidad.

Este algoritmo no es basado en ninguna medida de distancia ni de similitud.

Toma como ventaja lo dispersa que es la matriz de términos por documentos.

70

◦ Principal Direction Divisive Partitioning (PDDP) + Means

◦ Spherical Principal Directions Divisive Partitioning (sPDDP) + Means

◦ OBJETIVO:Mejorar la eficienciaNo tener que fijar manualmente el número inicial de

clusters ni la partición inicialCuidado con el tiempo de ejecución!!

71

Realiza el agrupamiento con objetivos específicos.

Identifica clusters pequeños en contextos limitados.

Es poco escalableFunciona utilizando Latent Semantic Indexing y los

vectores bases no son siempre ortogonales, aspecto esencial al buscar los valores y vectores propios.

72

Simultáneamente obtiene los grupos de documentos similares y pesa los rasgos.

Provee una representación de la relevancia de los rasgos más rica que la selección de los rasgos binaria.

Aprende una representación de la relevancia de los rasgos diferente para cada cluster.

Este algoritmo utiliza la distancia Euclidiana para calcular la similitud entre documentos.

73

Permite simultáneamente agrupar documentos textuales y dinámicamente pesar el conjunto de palabras claves.

Es computacional y conceptualmente simple.

Este algoritmo requiere que sea especificado el número inicial de clusters.

Es una extensión del k-means y funciona mejor que éste cuando no todos los rasgos son igualmente relevantes.

Utiliza una medida de disimilitud basada en el coeficiente coseno para comparar los documentos, pero puede ser adaptado a otras medidas de disimilitud.

La forma de pesar los términos puede ser modificada.

74

No requieren que el número de clusters sea especificado inicialmente.

Star depende del orden de los datos y esto puede provocar la construcción de clusters ilógicos.

Extended Star no depende del orden de los datos, i.e., no influye el orden de los datos en la formación de los clusters.

75

Algoritmos Estrella Condensado y Estrella Generalizado

76

Ejemplo de agrupamiento con el algoritmo Star donde

influye el orden de los datos

Ejemplo de la obtención de clusters ilógicos según agrupamiento Star debido a que dos estrellas nunca pueden ser vecinas.

Reconoce nubes esféricas de puntos en un espacio p-dimensional.

Asigna un grado de pertenencia de los documentos a los clusters.

77

Relational Alternating Cluster Estimation

Simultaneous Soft Clustering and Term Weighting of Text Document (Fuzzy SKWIC)

Requieren que el número de clusters sea especificado inicialmente.

Devolver la colección de clusters y calculan simultáneamente la relevancia de las palabras en los grupos.

78

Representación gráfica de los corpus textuales

Agrupamiento de documentos y palabras usando modelos gráficos

79

… …

Algoritmos que sólo utilizan distancias, similitudes, o disimilitudes para cuantificar el grado de asociación entre los objetos.

Algoritmos que adicionalmente explotan la topología de las interrelaciones y enlaces de los objetos a agrupar.

80

81

Fuente: Newman, M. E. J. Detecting community structure in networks. The European Physical Journal B, 38(2). pp. 321-330. 2004.

),(

),()(

jicpath

jicpathebtw e

Potencial que tiene una arista para controlar el flujo de información en el grafo.

Favorece a las aristas que se encuentran entre grupos y desfavorecen las incidentes a nodos de un mismo grupo.

Si una arista actúa en la interacción de muchos nodos su nivel de intermediación debe ser alto.

El cálculo tiene una alta complejidad computacional◦ O(m2n) para densos y O(n3) para dispersos.

La forma de cálculo no garantiza que todas las aristas que conectan grupos tengan intermediación alta.

◦ Los algoritmos de agrupamiento que utilizan la intermediación según los geodésicos necesitan el recálculo.

Aumenta un orden de complejidad con respecto a m.82

83

1

2

34

5

6

7

8

9

10

1112

13

14

15

16

17

18

21

22

20

19

Si no se puede medir lo que se quiere, no se debe esperar que las inferencias con estas mediciones sean correctas.

Se quiere que la habilidad para medir la intermediación de una arista dependa menos de las otras aristas.

85

86

bajibabaji ss ,,

bajiebajiB ,,,,

jicjic Vba

baji

Vbac ebajiBDB

,, ,

,,

,, ,,

Intermediación diferencial

-intermediación

Diferencial geodésico

c-vecindad cjvcivVvV ssjic ,

jicjic VjiEjiE ,, ,,

Fuente: A. Ochoa, L. Arco. Differential Betweenness in complex networks clustering. CIARP. LNCS. Vol. 5197. pp. 222-229. 2008.

Cálculo de DB a partir del cálculo de los caminos en el grafo original.

◦ Sin fijar vecindad O(mn2).

◦ Fijando vecindad O(mn) o O(n2) para grafos dispersos.

Cálculo de los caminos en la vecindad.◦ O(m) o O(n) para grafos dispersos.

87

Mientras que el algoritmo GN tiene la complejidad O(m2n).

1. Obtención del grafo de similitud.

2. Cálculo de la matriz de intermediación diferencial pesada.

3. Determinación de las aristas a eliminar.

4. Determinación de los núcleos del agrupamiento mediante la extracción de componentes conexas.

5. Clasificación de los nodos que no pertenecen a los núcleos.

88

Corpus Cantidad de documentos

Cantidad de grupos

Distribución de documentos por grupos

BioMed1 31 2 Grupo1=[1..11] Grupo2=[12..31]

Reuters2 29 2 Grupo1=[1..12] Grupo2=[13..29]

CEC20063 29 2 Grupo1=[1..18] Grupo2=[19..29]

89

1 BioMed Central ha publicado 22003 artículos http://www.biomedcentral.com/info/abou t/datamining/2 Colección Reuters-21578 disponible en el sitio web de David D. Lewis http://www.research.att.com/~lewis3 IEEE Congress on Evolutionary Computation, suministrada por Nees Jan van Eck y Rudolf Kruse

90

0.97

0.93

0.80

0.5

0.6

0.7

0.8

0.9

1

BioMed Reuters CEC2006

SKWIC

VariantesEstrella

Enlace

GN

Algoritmo 1

La mayoría de los métodos de agrupamiento son dependientes del análisis de frecuencias de términos y medidas de distancias o similitudes entre los vectores de objetos, sin considerar conocimiento humano.

91

• "A Clustering Algorithm Based on User Queries“. C. T. Yu. Journal of the American Society for Information Science. 1974.

• "Adaptive Document Clustering“. C. T. Yu, Y. T. Wang y C. H. Chen. Conference on Research and Development in Information Retrieval. 1985.

• “Optimal determination of user-oriented clusters”. J. Deogun y V. Raghavan. International Conference on Research and Development in Information Retrieval. 1987.

Distancia adaptable a los intereses y preferencias de los usuarios.

Distancia entre dos documentos relativa al peso W

◦ W: matriz de pesos simétrica nxn◦ wij: interrelación entre los términos i y j de los vectores.

92

Fuente: “An effective document clustering method using user-adaptable distance metrics”. Han-joon Kim y Sang-goo Lee. Proceedings of the Symposium on Applied computing. Madrid. ACM. 2002.

jijijiW ddWdddddist

,

Estrategia de aprendizaje activo para encontrar las restricciones más adecuadas.

Usan las restricciones para calcular un peso para la importancia de los términos en la medida de distancia.

Las restricciones se aprenden por la retroalimentación de los usuarios.

93

Fuente: “Semi-supervised clustering with user feedback”. D. Cohn y otros. Technical Report TR2003-1892, Cornell University, 2003.

Introducen el peso de los términos en el cálculo de la similitud coseno entre los documentos.

La importancia de los términos para distinguir los documentos varía entre los usuarios.

Crean medidas de similitud específicas para los usuarios haciendo uso de esquemas de ponderación diferentes para cada usuario.

Aprendizaje y adaptación de los pesos

94

Fuente: “Personalized Hierarchical Clustering”. Korinna Bade y Andreas Nürnberger. Proceedings of the International Conference on Web Intelligence. Washington, DC. IEEE Computer Society. 2006.

La importancia de los términos describe los tópicos de interés de los usuarios◦ Todo del perfil del usuario o manualmente especificada

Se utiliza directamente en el agrupamiento o en la inicialización de adaptación de pesos.

Se conoce cuáles son los términos importantes desde el punto de vista del usuario en el proceso de agrupamiento.

95

i i

iiiiii ddwwddsimnwww ,2,121 ),,(0:

Fuente: “Personalized Hierarchical Clustering”. Korinna Bade y Andreas Nürnberger. Proceedings of the International Conference on Web Intelligence. Washington, DC. IEEE Computer Society. 2006.

Una medida de evaluación hace corresponder un número real a un agrupamiento.

El número indica el grado en que ciertas propiedades estructurales son descubiertas en el agrupamiento.

96

◦ La matriz de similitud entre objetos conduce a un grafo de similitud.

◦ Las interrelaciones entre los objetos pueden intrínsicamente formar un grafo.

97

El conocimiento del dominio contribuye a determinar qué tipo de agrupamiento se va a utilizar con el objetivo de obtener los mejores resultados.

Explotar el conocimiento que existe en el enlace entre objetos.

Descubrir grupos que se ocultan en las comunicaciones entre objetos

98

Fuente: X. Xu, N. Yuruk, Z. Feng, T. Schweiger. SCAN: A structural clustering algorithm for networks. ACM. KDD. 2007.

Transitividad o agrupamiento

◦ Número elevado de triángulos en el grafo.

◦ Coeficiente de agrupamiento: densidad de triángulos en el grafo.

99

conectados vérticesde tríosde número

grafo elen s triángulode número3C

i

iCi vérticeelen centradosestán que vérticesde tríosde número

vérticeal conectados s triángulode número

Efecto small-world

◦ La mayoría de los pares de vértices se conectan por un camino corto en el grafo (longitud promedio de los caminos).

◦ Relacionada con la propiedad de navegación.

100

ji

ijdnn

l)1(

2

11

Grafos scale-free

◦ Grafos que presentan la ley de distribución del grado (distribución y correlación de los grados).

◦ Un grafo puede tener una forma de distribución del grado y en sus subgrafos la distribución puede tener otra forma.

101

Patrones mixtos

◦ Se utiliza en grafos donde los vértices representan distintos tipos y es interesante estudiar cómo se conectan dichos vértices mixtos.

◦ Se cuantifica mediante el coeficiente mixto.

Estructura de comunidad

◦ Se observan grupos de vértices que tienen una alta densidad de las aristas entre ellos, con una baja densidad de las aristas entre grupos.

102

Fuente: Newman, M. E. J. The structure and function of networks. Computer Physics Communications, 147: 40-45. 2002.

103

Fuente: Radicchi, F., Castellano, C., Cecconi, F., Loreto, V. and Parisi, D. Defining and identifying communities in networks. PNAS Proc. National Academic of Science USA, 101(9). 2004.

104

Fuente: Girvan, M. and Newman, M. E. J. Community structure in social and biological networks. PNAS Proc. National Academy of Science USA, 99(12): 7821-7826. 2002.

105

Fuente: Newman, M. E. J. and Girvan, M. Finding and evaluating community structure in networks. Physical Review E, 69(026113). 2004.

106

Fuente: Newman, M. E. J. Analysis of weighted networks. Physical Review E, 70. 2004.

El ancho de las aristas indica su peso.

Los colores de los vértices indican los grupos.

Varias investigaciones muestran que el lenguaje existe en una red small-world.

Fuente: Ferrer, R. and Solé, R. V. The small world of human language. Proc. R. Soc. Lond. B, 268(1482): 2261-2265. 2001.

107

Nodos: documentos

Aristas: conexiones de los documentos con una similitud coseno superior a un umbral fijado.

Grupos: [0..27] talk.politics.guns[28..58] talk.politics.mideast

Fuente: Colección 20-newsgroups disponible en http://www.ai.mit.edu/people/jrennie/20Newsgroups

¿Cuántos clusters hay en el conjunto de datos?

¿El esquema del agrupamiento resultante se adapta al conjunto de datos?

¿Existe una mejor partición para nuestros datos?

¿La estructura de los clusters es bastante clara realmente?

¿Son correctas la densidad, compactación, separación de los clusters?

108

Cada medida de evaluación no puede capturar todas las buenas propiedades de un agrupamiento.

El funcionamiento de un algoritmo de agrupamiento puede ser juzgado diferente dependiendo de qué medidas se han usado.

Para hacer más confiables los resultados se deben usar varias medidas.

Cualquier nueva medida puede contribuir a comprender mejor el agrupamiento.

109

Las medidas externas usan una clasificación humana de referencia para evaluar el agrupamiento. ◦ No son aplicables en situaciones del mundo real

donde usualmente no están disponibles las clasificaciones de referencia.

Las medidas internas basan sus cálculos solamente en el agrupamiento que tiene que ser evaluado.

110

Overall Similarity

No considera la relación entre los clusters.

111

SdSd

ddS

ilarityOverallSim

'

2 ),'(distance1

Dunn IndicesEstas medidas tienen una forma geométrica (típicamente

centroide) para analizar el agrupamiento.

112

)}({max

)},({min)(

1 lkl

jiji

C

CCCI

),(min),(,

yxdCCji CyCx

ji

),(max)(,

yxdCiCyx

i

ji CyCxji

ji yxdCC

CC,

),(1

),(

i

Cx i

i C

cxdC i

),(2)(

Dunn

Bezdek

Medida Davies-BouldinEstas medidas tienen una forma geométrica (típicamente

centroide) para analizar el agrupamiento.

114

k

iiR

kDB

1

1 ij

jinj

i RR

,,...,1

max

),(

))()((

ji

jiij CC

CsCsR

iCx i

ii cx

CCs

1)(

-measure (Weighted Partial Connectivity)

measure (Expected density)

El cálculo de estas medidas es muy costoso, alta complejidad computacional.

115

Entropía

116

i

ijijj ppE logj

ij

ij n

np donde

ijn el número de documentos de la clase i que están asignados al

cluster j pij la probabilidad que un miembro del clusters j pertenezca a la

clase i

La entropía de cada cluster j

q

iijijj pp

qE

1

loglog

1

m

j

jjCS n

EnE

1

*

Precision

Recall

117

j

ijn

njiprecision ),(

i

ijn

njirecall ),(

nij es el número de miembros de la clase i en el cluster j, nj es el número de miembros del cluster j y ni es el número de miembros de la clase i

F-Measure y Overall F-Measure

118

),(

11

),(

11

),(

jirecalljiprecision

jiF

i

i jiMeasureFn

nF ),(max

Purity

Relative F-Measure

F-Score Metric for Soft Clustering Micro-averaging break-even point (BEP) and Micro-

averaging F1-measure

Folks and Mallows measure

Jaccard measure

Rand statistics

Kappa statistics

119

No necesita ninguna información preliminar o adicional sobre los datos.

Es una herramienta para ser usada en aplicaciones computacionales en circunstancias caracterizadas por vaguedad e incertidumbre.

120

Relación de similitudR’(x)={yU : yR’x, i.e. y está relacionado con x si y sólo si s(x,y)>}

Aproximación inferior

Aproximación superior

121

XxRXxXR )(':)('*

Xx

xRXR

)(')('*

Precisión de la aproximación

Calidad de la aproximación

Pertenencia aproximada

Precisión del agrupamiento

Calidad del

agrupamiento

122

)('

)(')(

*

*

XR

XRX

X

XRX

)(')( *

)('

)(')(

xR

xRXxX

U

XRDS

l

ii

1* )('

)(

l

ii

l

ii

XR

XRDS

1

*

1*

)('

)(')(

Precisión generalizada del agrupamiento

Calidad generalizada del

agrupamiento

Pertenencia aproximada

123

U

wXRDS

l

iii

G

1

* )(')(

l

iii

l

iii

G

wXR

wXRDS

1

*

1*

)('

)(')(

)('

)(')(

xR

xRXxX

X

xRXxX

)(')(

)('

)(')(

xRX

xRXxX

Fuente: L. Arco y otros. On clustering validity measures and the Rough Set Theory. MICAI 2006. IEEE Computer Society.

Entrada: Colección de objetos (sistema de información), resultado del agrupamiento (conceptos), medida y umbral de similitud, y formas de ponderación de los grupos.

Salida: Valores de las medidas de precisión y calidad aplicadas a los grupos y al agrupamiento en general.

1. Obtener las clases de similitud para cada objeto en el sistema de información.

2. Calcular las aproximaciones inferiores y superiores por grupo.

3. Calcular la calidad y precisión por grupo.

4. Calcular la calidad y precisión del agrupamiento.

5. Para cada variante de cálculo de peso especificada

a. Calcular los pesos por grupos.

b. Calcular la calidad y precisión generalizadas del agrupamiento.

124

125

Evaluación del instrumento de

medición

Confiabilidad Validez

Contenido Criterio Constructo

Pruebas de Wilcoxon aResultados con y sin

ruido

Correlación con medidas internas

Correlación con medidas externas

Propiedades que se

chequean

SI existe la clasificación de referencia para el conjunto de datos que se agrupaYel usuario quiere evaluar considerando la correspondencia de los resultados obtenidos por el algoritmo de agrupamiento con la clasificación de referencia

ENTONCESse sugiere analizar las medidas externas

126

L/G C/G/A Peso Umbral Max/Min P/C Costo

Entropía L&G Grupos Si No Min P Bajo

Precisión Local - No No Max P Bajo

Cubrimiento Local - No No Max P Bajo

Medida-F Local - No Si Max P Bajo

Información Mutua Local - No No Max P Bajo

Estadístico Kappa Global Grupos No No Max P Alto

Medida-F Global Global Clases Si Si Max P Bajo

MAP&R Global Clases No No Max P&C Bajo

Error del agrupamiento Global Pares No No Min P&C Alto

Cluster Recall Global Pares No No Max P&C Alto

Cluster Precision Global Pares No No Max P&C Alto

Estadístico Rand Global Pares No No Max P&C Alto

Coeficiente Jaccard Global Pares No No Max P&C Alto

Índice de F&M Global Pares No No Max P&C Alto127

SI desea realizar la validación de cada grupo ENTONCES aplicar Entropía, Precisión, Cubrimiento y Medida-F

SI no tiene criterios para especificar umbrales ENTONCES no aplicar Medida-F ni Medida-F Global

SI desea obtener medidas globales Y calculadas por clases ENTONCES aplicar Medida-F Global, MAP y MAR SINO SI desea obtener medidas globales Y calculadas por grupos ENTONCES aplicar Entropía y Estadístico Kappa

128

SI desea validar agrupamientos de grandes colecciones de datos ENTONCES aplicar Entropía, Precisión, Cubrimiento, Medida-F y

Medida-F Global

SI se requiere validar cubrimientos Y los conjuntos de datos son pequeños ENTONCES preferiblemente aplicar Error del agrupamiento, Cluster Recall y Cluster Precision, Estadístico Rand, Coeficiente Jaccard e Índice de

Folkes y Mallows

SI desea validar ponderando los grupos por su cardinalidad ENTONCES aplicar Entropía y Medida-F Global 12

9

EM (?) EM (3)

E 0.1825 0.2241

Pr 1 0.9271

Re 0.6 0.9067

OFM 0.7239 0.9048

EM (3) 9.33% incorrectos

grupos 0 1 2

Iris-setosa 0 50 0

Iris-versicolor 50 0 27

Iris-virginica 14 0 36

EM (?) 40% incorrectos

grupos 0 1 2 3 4

Iris-setosa 28 0 0 22 0

Iris-versicolor 0 0 27 0 23

Iris-virginica 0 35 15 0 0

130

Mide en qué grado la clase está incluida en el grupo.

Busca correspondencia de cada grupo con las clases.

Mide en qué grado el grupo cubre la clase.

Media armónica de Precisión y Cubrimiento

SI no existe la clasificación de referencia para el conjunto de datos que se agrupaO

el usuario no quiere evaluar considerando la correspondencia

de los resultados con la clasificación de referencia

ENTONCESse sugiere analizar las medidas internas

131

Objetivo Valora Integral

Indep.Forma Centro Ruido Diversos

tamañosUmbral

Índice C Densidad de los grupos

No Si No No No No

Similitud Global

Cohesión de los grupos

(Local)

No No No No Si No

Dunn original

Grupos compactos y bien separados (razón) Si No No Si Si No

Dunn-Bezdek

Grupos compactos y bien separados (razón) Si No Si Si Si No

Bezdek general

Grupos compactos y bien separados (razón) Si Si No No Si No

Davies-Bouldin

Dispersión de los grupos y su separación Si No Si No Si No

Índice SD Suma pesada de la distancia intra-grupo y

entre gruposSi No Si No No No

Índice S_Dbw

Suma pesada de la distancia intra-grupo y

entre gruposSi No No No Si No

Índice Silueta

Grupos compactos y bien separados Si No No Si Si No

132



tamañosUmbral

FOM Estimar número de grupos

Si Si No No No Si

Expansión Árbol de expansión mínimo No Si No Si No Si

Conductancia Árbol de expansión mínimo (permite

ponderar vértices)No Si No Si No Si

Conectividad parcial pesada

Conectividad de las aristas pesadas por

gruposNo Si No No Si Si

Densidad esperada

Densidad de los grupos por peso de

las aristasNo Si No No Si Si

Modularidad Interconexiones antes y después del agrupamiento

Si Si No Si Si Si

Índice de tendencia del agrupamiento

Forma grafo k-partito con las

relaciones entre los k grupos

No Si No No Si Si

133



tamañosUmbral

Medida de la fortaleza de las conexiones

Identifica grupos débiles y fuertes

(solo conexiones)No Si No No Si Si

Medida de la interacción

Promedio de la interacción intra-

grupo entre el promedio de la interacción con nodos externos

No Si No Si Si Si

Precisión del grupo

Razón de los objetos típicos del

grupo y los relacionados con él

Si

(local)Si No No Si Si

Calidad del grupo

Porciento de objetos bien

asignados al grupo

Si

(local)Si No No Si Si

Precisión generalizada del agrupamiento

Precisión global ponderada por

gruposSi Si No No Si Si

Calidad generalizada del agrupamiento

Calidad global ponderada por

gruposSi Si No No Si Si

134

SI desea validar que los grupos son compactos y están bien separados ENTONCES aplicar el índice Dunn y sus generalizaciones, los índices

Davies-Bouldin, SD, S_Dbw y Silueta, y las medidas precisión y

calidad del agrupamiento

SI los resultados a evaluar son de un agrupamiento basado en prototipos ENTONCES aplicar índices Dunn-Bezdek, Silueta, Davies-Bouldin, SD y

las medidas precisión y calidad generalizadas

SI desconoce la forma de los grupos obtenidos ENTONCES no aplicar Similitud Global, índices Dunn original, Dunn-

Bezdek, Davies-Bouldin, SD, S_Dbw y Silueta

135

SI desea al validar que se considere la integración entre los grupos ENTONCES aplicar el índice Dunn y sus generalizaciones, los índices Davies-

Bouldin, SD, S_Dbw y Silueta, FOM, Modularidad y las medidas RST SINO aplicar Índice C, Similitud Global, Expansión y Conductancia, Conectividad parcial pesada, Densidad esperada, tendencia del agrupamiento y medida de la fortaleza de las conexiones

SI desea validar ponderando los grupos por su cardinalidad ENTONCES aplicar Conectividad parcial pesada, Densidad esperada, y las medidas precisión y calidad generalizadas

SI desea validar considerando diversas formas de ponderación ENTONCES aplicar medidas precisión y calidad generalizadas

136

SI los grupos obtenidos tienen diversos tamaños ENTONCES no aplicar índices C y SD, FOM, Expansión y Conductancia

SI el método de agrupamiento utilizó representación en grafos ENTONCES aplicar Expansión, conductancia, Conectividad parcial pesada, densidad esperada, modularidad, índices de tendencia, fortaleza e interacciones, y medidas RST

SI se desean combinar en una misma medida varios criterios O dado un cálculo inicial común aplicar medir varias propiedades ENTONCES aplicar medidas basadas en RST 13

7

sistemas basados en casos

Education