diseño editorial social en portales de información ...dgomez/memoria/presentacion.pdf · daniel...

79
Introducci´ on Implementaci´ on Resultados Conclusiones Dise˜no Editorial Social en Portales de Informaci´on Utilizando T´ ecnicas de Miner´ ıa De datos Daniel G´omez M. DCC - Universidad de Chile 10 de agosto de 2007 Daniel G´ omez M. proyecto de segmentaci´ on de art´ ıculos RSS. . .

Upload: others

Post on 12-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Diseno Editorial Social en Portales de Informacion

Utilizando Tecnicas de Minerıa De datos

Daniel Gomez M.

DCC - Universidad de Chile

10 de agosto de 2007

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 2: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

1 Introduccion

2 Implementacionmodulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

3 Resultados

4 Conclusiones

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 3: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

1 Introduccion

2 Implementacionmodulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

3 Resultados

4 Conclusiones

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 4: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Motivacion

Internet. . . visto como un medio de comunicacion

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 5: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Motivacion

Internet. . . visto como un medio de comunicacion

Periodismo. . . cambio en la forma de compartir y difundir informacion

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 6: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Motivacion

Internet. . . visto como un medio de comunicacion

Periodismo. . . cambio en la forma de compartir y difundir informacion

Web 2.0. . . todos publican y comparten contenidos. . . los usuarios forman comunidades. . . cada consumidor de informacion asume un rol activo

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 7: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Motivacion

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 8: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Motivacion

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 9: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Motivacion

Sindicacion. . . cada usuario puede decidir sus fuentes de informacion

RSS. . . estandar para la distribucion de contenidos

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 10: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Motivacion

Sindicacion. . . cada usuario puede decidir sus fuentes de informacion

RSS. . . estandar para la distribucion de contenidos

<<todos tienen derecho a producir/difundir contenidos por igual>>

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 11: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Motivacion

Sindicacion. . . cada usuario puede decidir sus fuentes de informacion

RSS. . . estandar para la distribucion de contenidos

<<todos tienen derecho a producir/difundir contenidos por igual>>

Gran flujo de artıculos. . . necesidad de mejorar formas de visualizar dicho contenido

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 12: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Motivacion

Sindicacion. . . cada usuario puede decidir sus fuentes de informacion

RSS. . . estandar para la distribucion de contenidos

<<todos tienen derecho a producir/difundir contenidos por igual>>

Gran flujo de artıculos. . . necesidad de mejorar formas de visualizar dicho contenido- buscadores de noticias / blogs- portadas “sociales”

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 13: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Motivacion

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 14: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Motivacion

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 15: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Estado de la Blogosfera

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 16: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

orbitando.com

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 17: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Propuesta

agrupar topicos. . .. . . deseamos crear una nueva forma de visualizar los contenidos.

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 18: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Propuesta

agrupar topicos. . .. . . deseamos crear una nueva forma de visualizar los contenidos.

portada de titularesuna “headlines cloud”

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 19: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Propuesta

agrupar topicos. . .. . . deseamos crear una nueva forma de visualizar los contenidos.

portada de titularesuna “headlines cloud”

casos de uso- consulta de los top-k topicos- consulta de artıculos relacionados

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 20: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Metodologıa

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 21: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Metodologıa

indexacion de documentos

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 22: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Metodologıa

indexacion de documentos

clustering

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 23: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Metodologıa

indexacion de documentos

clustering

clustering online

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 24: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Metodologıa

conjunto de referencia (maqueta !!)

indexacion de documentos

clustering

clustering online

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 25: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Conjunto de Referencia

universo: artıculos perıodo enero-marzo 2007

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 26: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Conjunto de Referencia

universo: artıculos perıodo enero-marzo 2007

muestra de 2000 artıculos

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 27: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Conjunto de Referencia

universo: artıculos perıodo enero-marzo 2007

muestra de 2000 artıculos

categorizacion manual de topicos

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 28: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Conjunto de Referencia

universo: artıculos perıodo enero-marzo 2007

muestra de 2000 artıculos

categorizacion manual de topicos

objetivos (para que?)- conocer los datos- disponer de un conjunto de testing

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 29: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Conjunto de Referencia

los 10 topicos mas populares del perıodo ene-mar 2007 en Chile:

topico # artıculos

transantiago 52sudamericano de futbol sub 20 37michell bachelet 27copa davis chile-rusia 24resultados club u.de chile 22conflicto limitrofe con peru 21fernando gonzalez 20chiledeportes 18colo colo 18copa america de futbol 18

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 30: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Conjunto de Referencia

Conclusiones

cuidado con artıculos repetidos. . . considerar solo artıculos unicos (post-procesados)

detectectar artıculos que no aportan informacion- eliminar artıculos en ingles (taxonomy = english)- eliminar artıculos de flickr / fotolog

se conoce forma de los artıculos. . . caso google-news

se conoce dinamica de los topicos. . . comportamiento en el tiempo de los topicos

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 31: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

1 Introduccion

2 Implementacionmodulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

3 Resultados

4 Conclusiones

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 32: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Implementacion

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 33: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

Objetivos:

representar documentos como vectores

extraer la semantica de los artıculos

dimensionalidad baja (o lo mas baja posible)

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 34: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

necesitamos traducir texto a algo que entienda el computador. . .VSM: Vector Space Model

Di → di1, di2, . . . , dik

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 35: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

necesitamos traducir texto a algo que entienda el computador. . .VSM: Vector Space Model

Di → di1, di2, . . . , dik

necesitamos relacionar terminos con documentos. . .Funciones de peso:

binaria : dij = 1 si existe, 0 si no

frecuencia del termino : dij = fij

frecuencia normalizada : dij =fijni

TF-IDF : dij = TF ∗ IDF =fijnj∗ −log( ni

N)

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 36: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 37: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 38: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 39: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

Principal desafıo:

reduccion de la dimensionalidad!!

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 40: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

Principal desafıo:

reduccion de la dimensionalidad!!

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 41: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

Principal desafıo:

reduccion de la dimensionalidad!!

stemming: reduccion a la raız

filtrado de stopwords

poda de la lista de palabras

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 42: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

Herramientas disponibles

Lucene - Weka - WVTool

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 43: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

Herramientas disponibles

Lucene - Weka - WVTool

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 44: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

Herramientas disponibles

Lucene - Weka - WVTool

WVTool

The Word & Web Vector Tool is a flexible Java library for statistical language

modeling and integration of Web and Webservice based data sources. It

supports the creation of word vector representations of text documents in the

vector space model.

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 45: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 46: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

Loader → InputFilter → Charmapper → Tokenizer → WordFilter → Stemmer

carga el documento desde la base de datos:{titulo + descripcion}

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 47: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

Loader → InputFilter → Charmapper → Tokenizer → WordFilter → Stemmer

primer filtro sobre la entrada:- filtrado de tags-html- eliminacion de texto de enlaces- eliminacion de nombres de medios

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 48: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

Loader → InputFilter → Charmapper → Tokenizer → WordFilter → Stemmer

conversion de caracteres:reemplazos: {A, a, &aacute}→{a}

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 49: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

Loader → InputFilter → Charmapper → Tokenizer → WordFilter → Stemmer

separacion en palabras (tokens)

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 50: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

Loader → InputFilter → Charmapper → Tokenizer → WordFilter → Stemmer

filtrado de stopwords:se eliminan palabras que no ayudan a discriminar.

- adjetivos - articulos- preposiciones - verbos- stopwords ingles : the, be, have, has, that

- html : table, style, br

- rss : noticias, nacional, articulos, relacionados

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 51: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

Loader → InputFilter → Charmapper → Tokenizer → WordFilter → Stemmer

reduccion a la raızreemplazos: {politica, politicos, politico}→{politic}

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 52: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

VectorCreator → OutputFilter →

creacion del vector del documentoeleccion de la funcion de peso: TF-IDF, TF, u otra. . .

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 53: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

VectorCreator → OutputFilter →

Idea. . .ponderar palabras segun su posicion en el texto.

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 54: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

VectorCreator → OutputFilter →

Idea. . .ponderar palabras segun su posicion en el texto.

funcion PF-IDF: f (Dj , ti ) = PF ∗ IDF = (fij

|Dj |∗ pos) ∗ (−log(

fj|N|

))

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 55: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

VectorCreator → OutputFilter →

vector se agrega al conjunto de vectores del espacio.. . . se guarda a disco.

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 56: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: indexacion de documentos

Implementacion:

WVTString2Vector implements String2Vector

load(source)

createVSpace()

addVector(article)

updateWordList(action)

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 57: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: clustering batch

Clustering. . . el proceso de segmentar el espacio vectorial.

Buscamos identificar las agrupacionesque se forman naturalmente en el

espacio de artıculos.

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 58: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: clustering batch

Clustering. . . el proceso de segmentar el espacio vectorial.

Buscamos identificar las agrupacionesque se forman naturalmente en el

espacio de artıculos.

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 59: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: clustering batch

Clustering. . . el proceso de segmentar el espacio vectorial.

Buscamos identificar las agrupacionesque se forman naturalmente en el

espacio de artıculos.

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 60: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: clustering batch

Algoritmos de clustering

algoritmos de particionamiento

algoritmos jerarquicos

algoritmos basados en densidad

algoritmos basados en grafos

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 61: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: clustering batch

Algoritmos de clustering

algoritmos de particionamiento

algoritmos jerarquicos

algoritmos basados en densidad

algoritmos basados en grafos

Nocion de distancia:distancia coseno :

sim(u, v) = cosθ =~v1 ∗ ~v2

‖~v1‖‖~v2‖

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 62: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: clustering batch

Cluto

CLUTO is a family of computationally efficient and high-quality data clustering

and cluster analysis programs & libraries, that are well suited for low- and

high-dimensional data sets.

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 63: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: clustering batch

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 64: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: clustering batch

Parametros del proceso:

funcion de similaridad/distancia

funcion objetivo : i1, i2, e1, g1, g1p, h1, h2

metodo de particionado

criterio de biseccion

rowmodel, colmodel:

numero de intentos:

numero de iteraciones:

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 65: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: clustering batch

Problemas:

funcion objetivo:. . .medida de similaridad interna.

I1 =k

X

i=1

1

ni

X

u,vinSi

sim(u, v)”

I2 =

kX

i=1

s

X

u,vinSi

sim(u, v)

numero de clusters:k = ?

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 66: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: clustering batch

Implementacion:

ClutoVector2Cluster implements Vector2Cluster

load(source)

run()

saveClusters()

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 67: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: clustering online

Motivacion:. . . necesitamos la capacidad de detectar nuevos topicos.

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 68: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: clustering online

Motivacion:. . . necesitamos la capacidad de detectar nuevos topicos.

Clustering incremental !!

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 69: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: clustering online

Motivacion:. . . necesitamos la capacidad de detectar nuevos topicos.

Clustering incremental !!

alternativas:

COBWEB

DBSCAN

SinglePass

KNN: k-nearest neighbor

k-means incremental

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 70: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: clustering online

problemas

wordlist variableAparecen constantemente nuevas palabras: agregarlas todas,no agregar ninguna, agregar “inteligentemente”.

topicos basuraA medida que pasa el tiempo algunos topicos van quedandoobsoletos.

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 71: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: clustering online

Solucion: Single Pass con Ventanas

ventana de actualizacion de la wordlist

ventana de purgado de artıculos

ventana del garbage collector

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 72: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

Modulo: clustering online

Solucion: Single Pass con Ventanas

ventana de actualizacion de la wordlist

ventana de purgado de artıculos

ventana del garbage collector

Implementacion:

SimpleBufferingClusteringOnline implements ClusteringOnline

addVector(vector)

updateClusters()

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 73: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

modulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

clusteringVector(Article article){ItemVector vector = indexingModule.addVector(article);

boolean action = onlineModule.addVector(vector);

indexingModule.updateWordList(action);

onlineModule.updateClusters();

}

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 74: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

1 Introduccion

2 Implementacionmodulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

3 Resultados

4 Conclusiones

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 75: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Resultados

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 76: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Resultados

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 77: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Resultados

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 78: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

1 Introduccion

2 Implementacionmodulo: indexacion de documentosmodulo: clustering batchmodulo: clustering online

3 Resultados

4 Conclusiones

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .

Page 79: Diseño Editorial Social en Portales de Información ...dgomez/memoria/presentacion.pdf · Daniel Go´mez M. proyecto de segmentacio´n de art´ıculos RSS... Introduccio´n Implementacio´n

IntroduccionImplementacion

ResultadosConclusiones

Conclusiones

solucion a un problema real : creacion de una portada

estudio y aplicacion de tecnicas conocidas (IR, datamining). . . para el caso particular de los artıculos sindicados.

aplicaciones. . .muchas!!

Daniel Gomez M. proyecto de segmentacion de artıculos RSS. . .