interfaces de usuario usando clustering expositor : randall mora jiménez carne : 942349

49
Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Upload: inigo-carranco

Post on 03-Mar-2015

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Interfaces de usuario usando clustering

Expositor : Randall Mora Jiménez

Carne : 942349

Page 2: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Introducción

Page 3: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Motivación

Los mecanismos convencionales de una búsqueda están plagados de baja precisión.

Un problema común con esto es que los usuarios deben navegar a través de muchos documentos irrelevantes antes de encontrar el tipo de documento que le interesa.

Page 4: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Motivación

Aún algoritmos avanzados de ranking, no puede saber de antemano que tipo de documentos el usuario prefiere.

Por ejemplo:Query = ComputerDocumentos retornados tratan de: “hardware” o “software”

Interfases Gráficas basadas en Clustering pueden ayudar al usuario a encontrar más fácilmente lo que busca.

Page 5: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Objetivo

Presentar una herramienta de búsqueda de texto con nuevas formas de visualizar los resultados, que permitan una mejor navegación de los documentos retornados.

Page 6: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Objectivos especificos

Contribuir a la visualización y “Browsing” de un conjunto de documentos retornados.

Utilización “Keywords” representativos que permitan el agrupamiento de documentos.

Page 7: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Criterios de selección para “Keywords”

Potencialmente de interés general.

Específicos para el conjunto de documentos retornados.

Poder discriminativo en este conjunto.

Page 8: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Espectativas de los “Keywords”

Los “keywords” deben ayudar para usuario en varias formas:

Informando acerca de temas relacionados con el “query”.

Mejorar el “query” con “keywords” sugeridos.

Page 9: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Metodología

Los métodos están basados en identificar “Keywords” que permitan relacionar el contenido de un documento con el de otro.

Estos “Keywords” son usados para obtener una representación de cada documento y calcular los cluster usando una variante del algoritmo de “BuckShot”

Page 10: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Metodología

Los clusters se usan para agrupar los documentos retornados en un “query” y presentarlos visualmente.

Diferentes formas de visualizar los resultados son presentados de acuerdo a las necesidades del usuario.

Page 11: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Marco Teórico

Page 12: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Calculo de Keywords

En lugar de utilizar el “idf” para calcular el peso de los “Keywords”, se sugiere utilizar la siguiente formula:

wj = hj / dj * hj * log( |H| /hj )

Donde: |H| es el número total de documentos retornadoshj es el número de documentos en H que contienen la palabra jdj es el número de documentos en toda la colección D que contienen la palabra j

Page 13: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Representación del documento

Para cada documento i retornado de un “query” se crea un vector Vi de k dimensiones, cuyo componente Vij es una función del numero de ocurrencias (tij) del “keyword” j rankeado en el documento i:

Vij = log 2 (1 + tij ) * log( | D | / dj )

Cada vector vi se normaliza produciendo un vector ui que representa al documento i.

Page 14: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Representación del documento

Para calcular la similaridad entre dos documentos a y b se calcula el producto escalar de los vectores ua * ub.

U puede ser vista como una representación matricial de los documentos, donde las filas del vector ui son una representación k-dimensional del documento i, y uij es la importancia de la palabra j documento en el documento i.

En particular uij es = 0, si y solo si la palabra j no esta contenida en el documento i.

Page 15: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Agrupamiento de documentos

Se aplica una variante del algoritmo de “Buckshot” [2] a la matriz uij.

Se obtiene una representación de jerárquica de clusters.

Cada cluster tiene cierto numero de vectores de documentos.

Jerarquía coherente con el ranking de los documentos retornados.

Page 16: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Pasos para aplicar el Algoritmo:

Cree una matriz de similaridad doc-doc

Cada documento empieza en un cluster de tamaños 1

“Do Until” solo halla un cluster: Combine los dos cluster con similaridad más grande. Actualize la matriz de doc-doc

Page 17: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Ejemplo

Considere A, B, C, D, E como documentos con las siguientes similaridades:

A B C D E A - 2 7 9 4

B 2 - 9 11 14 C 7 9 - 4 8 D 9 11 4 - 2 E 4 14 8 2 -

Par con similaridad mayor: E-B = 14

Page 18: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Se agrupan E y B

Obteniendo la siguiente estructura:

BE

A C D E B

Page 19: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Update de la matriz DOC-DOC

A BE C D A - 2 7 9 BE 2 - 8 2 C 7 8 - 4 D 9 2 4 -

Calculo de BE SC (A, B) = 2 y SC (A, E) = 4SC(A,BE) = 4 single link (take max)SC(A,BE) = 2 complete linkage (take min)SC(A,BE) = 3 group average (take average)

Page 20: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Se agrupa BE y C

Obteniendo la siguiente estructura:

BCE

BE C

A D E B

Page 21: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Update de la matriz DOC-DOC

A BCE DA - 2 9BCE 2 - 2D 9 2 -

Cálculo de SC(A, BCE):SC (A, BE) = 2 y SC (A, C) = 7 SC(A,BCE) = 2Cálculo de SC(D,BCE)SC(D, BE) = 2 y SC(D, C) = 4 SC(D, BCE) = 2

Page 22: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Se agrupa A y D.

ABCDE

BCE

AD BE C

A D E B

Page 23: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Tiempo de procesamiento

Algoritmo consume una cantidad de tiempo lineal entre el número de documentos retornados y el número de cluster generados.

En promedio 1000 documentos pueden ser procesados en menos de un segundo con un PC estándar de 500 MHz.

Page 24: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Desarrollo

Page 25: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Nuevos paradigmas en visualización de información

Sammon Cluster View

Tree-Map Visualization

Radial Interactive Visualization

Page 26: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Sammon Cluster View

Utiliza “Sammon map”, para generar una localización en dos dimensiones de los clusters.

Este mapa se calcula usando un búsqueda de gradiante iterativo (Ver [3]).

Page 27: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349
Page 28: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Tree-Map Visualization

Representación jerárquica de los cluster.

Los cluster se visualizan mediante rectángulos.

Clusters similares se agrupan en Súper Clusters (Ver 4).

Page 29: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

A

B CD

E F

Tree-Map Construction

Node Weight

A 10

B 1

C 4

D 5

E 2

F 3

Page 30: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

B: 1

A: 10

C: 4D: 5

E: 2 F: 3

Tree-Map Construction

A

B CD

E F

Page 31: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Tree-Map Construction

A

B CD

E F

A

Page 32: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Tree-Map Construction

A

B CD

E F B C D

Page 33: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Tree-Map Construction

A

B CD

E F B C D

Page 34: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349
Page 35: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Radial Interactive VisualizationNodos con “Keywords” son colocados alrededor de un círculo.

Documentos representados por puntos en el interior del círculo.

Entre mas relacionado un documento con un Keyword más cercano estará de este (Ver 5, 6 y 7).

Page 36: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Ejemplo de Algoritmo Radial

Sea P1 la posición del Keyword A en el círculo.

Sea P2 la posición del Keyword B en el círculo.

Se utiliza la matriz de pesos de Keyword para cada documento.

( P1 * wij , P2 * wij)

Page 37: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349
Page 38: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349
Page 39: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Experimentos de clustering

Se realizaron experimentos de agrupamiento con 548,948 documentos principalmente de US.

Estos documentos se tomaron de los CDs vol 4 y 5 de TREC (ver http://trec.nist.gov)

Las Fuentes de estos artículos pertenecen a Los Angeles Times, the Financial Times, the Federal Register, Congress Records, etc.

Page 40: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Calidad de clusters

Basado en el análisis brindado por expertos, acerca de documentos relevantes y no relevantes.

100 “queries” enfocados en encontrar concentraciones altas y bajas de documentos relevantes en los clusters.

Page 41: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Resultados

Los resultados compilan evidencia que valida la Hipótesis de Clustering en bajas dimensiones para la representación de documentos [8]

Page 42: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Resultados GeneralesUna palabra candidata aparece por lo menos en 3 documentos.

Una palabra candidata no aparece en más del 33% de todos los documentos.

Vocabulario resultante 222,872 “Keywords”.

Un promedio de 200 “Keywords” por documento.

Page 43: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Encuesta

Las personas llenaban un cuestionario antes de usar la aplicación.

Después utilizaban la aplicación para realizar una serie de “queries” en una colección de documentos.

Page 44: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

EncuestaLos “queries” se diseñaron para que aunque la información estubiera en la colleccion, no fuese obvia su localización.

Finalmente un cuestionario post uso, con preguntas acerca de la aplicación y otras áreas más abiertas.

Page 45: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Carácteriscas Comparativas

Visualizaciones basadas en clusters dan un panorama más amplio del conjunto de resultados.

Visualización Radial permite enfocarse en formar subconjuntos de “Keywords”

Page 46: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Carácteriscas Comparativas

Sammon Map se enfoca más en la relación que existe en un cluster y otro.

TreeMap es más explicito en cuanto al tamaño de los cluster y su estructura jerárquica.

Page 47: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Facilidades de cada interfazSammon Map guía en el análisis, permite reagrupar subconjuntos, y gradualmente acercar al tipo de documentos de interés.

TreeMap permite enfocarse en “Keywords” que de ciertos documentos que de interés, para formular una búsqueda más productiva.

Radial apropiado si el usuario esta familiarizado con los “Keywords” del area de su interes.

Page 48: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Conclusiones

Contribuye a la visualización y “Browsing” de un conjunto de documentos retornados mediante:

Identificación de “features” relevantes en un conjunto de documentos (Keywords)

Desechar rápidamente clusters irrelevantes.

Operaciones de “Drill Down” en cluster relevantes.

Construcción de grupos personalizado usando Radial.

Page 49: Interfaces de usuario usando clustering Expositor : Randall Mora Jiménez Carne : 942349

Posibles Mejoras

Uso de Tesauros para realizar el agrupamiento de Keywords.