iic 3633 - sistemas recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016....

27
9/2/15 10:31 AM Filtrado Basado en Contenido Page 1 of 27 file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1 Filtrado Basado en Contenido Filtrado Basado en Contenido IIC 3633 - Sistemas Recomendadores Denis Parra Profesor Asistente, DCC, PUC CHile

Upload: others

Post on 06-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 1 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

Filtrado Basado en ContenidoFiltrado Basado en ContenidoIIC 3633 - Sistemas Recomendadores

Denis ParraProfesor Asistente, DCC, PUC CHile

Page 2: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 2 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

Lo que Queda del SemestreTarea 1: Deadline el Jueves 17 de Septiembre.

Lecturas en el semestre: Chequear sitio Web curso. Daré plazo hasta el viernes 4 de Septiembe para que Uds. seinscriban en temas

Proyecto Final:

·

·

·

Entrega de abstract con a lo más 3 ideas el martes 22 de Septiembre, el 29 de septiebre se debe entregar propuesta final.

Idea 1: Uso de dataset compartido el año pasado por Movie City.

Idea 2: Implementación de Implicit feedback (last.fm), debe concluir en envío de paper a UMUAI Journal.

Idea 3: Implementación de MM-LDA para tag-based recommendation.

Otros en las semanas que vienen ...

-

-

-

-

-

2/27

Page 3: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 3 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

TOCEn esta clase

1. Contenido en lugar de ratings

2. Representación de Espacio Vectorial

3. TF-IDF

4. Buscando Items Similares

5. Representación en Espacio Latente

3/27

Page 4: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 4 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

Por Qué un Recomendador Basado en Contenido

PROS

CONS

El filtrado colaborativo tiene algunas desventajas: cold-start, new-item problem, sparcity, transparency.·

A diferencia del Filtrado Colaborativo, si los items tienes descripciones suficientes, nos evitamos el "new-item problem""

Las representaciones del contenido son variadas y permiten utilizar diversas técnicas de procesamiento del texto, uso de informaciónsemántica, inferencias, etc.

Es sencillo hacer un sistema más transparente: usamos el mismo contenido para explicar las recomendaciones.

·

·

·

Tienden a la sobre-especialización: va a recomendar items similares a los ya consumidos, creando una tendencia al "filter bubble".

Los métodos basados en filtrado colaborativo han mostrado ser, empíricamente, más precisos al momento de generarrecomendaciones.

·

·

4/27

Page 5: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 5 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

Arquitectura de un Sistema de Recomendación CBLos componentes principales son: (1) Analizador del Contenido, (2) Aprendizaje del Perfil de Usuario, (3) Filtrado de Contenido·

5/27

Page 6: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 6 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

Representación del Contenido: Bolsa de PalabrasSe suele representar a los documentos como "bolsas de palabras"; de esta forma es fácil pasar a representar cada documento comoun vector (Vector Space Model)

·

6/27

Page 7: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 7 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

Representación del Contenido: VSMEl corpus completo puede entonces representarse como una matriz donde las filas son términos y las columnas son documentos.·

Luego, ¿Cúal es la mejor forma de representar los pesos de los términos?·

7/27

Page 8: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 8 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

Representación del Contenido: VSM IIFrecuencia de los términosCada documento se representa como un vector, el "peso" de cada palabra para ese documento puede darse en base a la frecuencia del

término en el documento.

Podemos normalizar el valor en función de la frecuencia máxima de cualquier término en el documento.

8/27

Page 9: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 9 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

Representación del Contenido: VSM IIILog de Frecuencia de los términosPero el hecho que un término aparece 100 veces y otro término sólo 10 veces, no hace a x 10 veces más relevantes; por lo tantopodemos usar un logaritmo.

x y

9/27

Page 10: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 10 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

Representación del Contenido: VSM IVTF-IDFBajo la intuición de que un término que aparece en sólo unos poco documentos podría ser descriptivo, podemos considerar la "InverseDocument Frequency" y combinarla con la "Term Frequency":

Done es el término , es el documento .tk k dj j

10/27

Page 11: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 11 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

Resumen de Componentes del TF-IDF

11/27

Page 12: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 12 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

Representación Semántica del ContenidoNo todo el contenido del documento corresponde a la misma categoría.

Autor, palabras clave, fechas, tópicos pueden dar una noción adicional de filtrado.

Opción 1: Representación semántica explícita (No lo veremos en detalle en esta clase)

Opción 2: Inferir representación semántica (LSI, LDA)

·

·

·

Ontologías

WordNet

ConceptNet

-

-

-

·

12/27

Page 13: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 13 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

Buscando Items SimilaresDistancia Euclidiana

Distancia Coseno

13/27

Page 14: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 14 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

Buscando Items SimilaresDistancia Coseno

Fórmula

14/27

Page 15: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 15 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

Buscando Items Similares IIOkapi BM25

Ref: Denis Parra and Peter Brusilovsky. 2009. Collaborative filtering for social tagging systems: an experiment with CiteULike. InProceedings of the third ACM conference on Recommender systems (RecSys '09) http://doi.acm.org/10.1145/1639714.1639757

15/27

Page 16: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 16 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

Buscando Items Similares IIITécnicas de Procesamiento adicionales

Pasar a mayúsculas/minúsculas

Tokenization

Stemming (Porter, Krovetz)

Lemmatization

·

·

·

·

16/27

Page 17: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 17 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

Buscando Items SimilaresRepresentación en espacio latente

Latent Semantic Indexing

Latent Dirichlet Allocation

·

·

17/27

Page 18: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 18 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

LSI I

18/27

Page 19: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 19 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

LSI II

19/27

Page 20: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 20 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

LSI III

20/27

Page 21: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 21 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

LSI IV

21/27

Page 22: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 22 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

LSI IV

Demo: http://dfao-uc.github.io/

22/27

Page 23: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 23 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

LDA I

23/27

Page 24: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 24 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

LDA II

24/27

Page 25: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 25 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

LDA III

25/27

Page 26: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 26 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

LDA IV

26/27

Page 27: IIC 3633 - Sistemas Recomendadoresdparra.sitios.ing.uc.cl/classes/recsys-2015-2/clase6... · 2016. 6. 20. · Lecturas en el semestre: Chequear sitio Web curso. ... Se suele representar

9/2/15 10:31 AMFiltrado Basado en Contenido

Page 27 of 27file:///Users/denisparra/Dropbox/PUC/IIC3633-RecSys-2015_2do/Website_R/clase6_contentBased_1.html#1

ReferenciasManning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval (Vol. 1, p. 6). Cambridge: Cambridgeuniversity press.

Steyvers, M., & Griffiths, T. (2007). Probabilistic topic models. Handbook of latent semantic analysis, 427(7), 424-440.

Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77-84.

·

·

·

27/27