presentacion yusef hassan

33
El Factor Humano en la Recuperación de Información Yusef Hassan Montero - Grupo SCImago (CSIC) - NoSoloUsabilidad.com

Upload: search-congress

Post on 05-Dec-2014

2.132 views

Category:

Documents


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Presentacion Yusef Hassan

El Factor Humano en la Recuperación de Información

Yusef Hassan Montero - Grupo SCImago (CSIC) - NoSoloUsabilidad.com

Page 2: Presentacion Yusef Hassan

Resumen

• Introducir la Recuperación de Información como área de estudio

• Reflexionar sobre los problemas de los modelos tradicionales de Recuperación de Información

• Discutir los modelos alternativos centrados en el factor humano

• Analizar posibles futuras vías de trabajo en Recuperación de Información

Page 3: Presentacion Yusef Hassan

Definición

“Information Retrieval is concerned with the processes involved in the representation, storage, searching and finding of information which is relevant to a requirement for information desired by a human user.”

Peter Ingwersen, 1992

Page 4: Presentacion Yusef Hassan

Un modelo simplista

Page 5: Presentacion Yusef Hassan

Un poco más en detalle

Page 6: Presentacion Yusef Hassan

Web Crawling

“Crawling the Web is perhaps the main bottleneck for Web search engines” Ricardo Baeza-Yates, 2003

• Constante aumento de su volumen

• ¿Más es mejor? Dificultad para determinar calidad en el nuevo contenido.

• No todo es HTML

• Contenido duplicado : ¿posicionar o multiplicar?

• Contenido volátil

• Internet invisible

• Documentos desestructurados

Page 7: Presentacion Yusef Hassan

Indización

Asignar términos (o expresiones) a documentos, con el objetivo de que sirvan de puntos de acceso a dichos documentos.

Page 8: Presentacion Yusef Hassan

Indización de profesional

Profesionales, que dominan el área de conocimiento del documento, se encargan de describirlo mediante metadatos.

Page 9: Presentacion Yusef Hassan

Indización de autor

El autor o creador del documento asigna los metadatos que lo describen.

Page 10: Presentacion Yusef Hassan

Indización automática de contenido

La presencia y frecuencia de las palabras del propio texto, describen su contenido.

¿o no?

Page 11: Presentacion Yusef Hassan

Indización de contenido

Page 12: Presentacion Yusef Hassan

Indización de contenido

Page 13: Presentacion Yusef Hassan

Pre-procesamiento

•Stemming

•Eliminación de stop-words

¿Realmente se hace?

Page 14: Presentacion Yusef Hassan

Ponderación tf·idf

WTF!

Page 15: Presentacion Yusef Hassan

Ponderación mediante heurísticas…

<h1>En documentos semi-estructurados</h1>

Page 16: Presentacion Yusef Hassan

¿Por dónde íbamos?

Page 17: Presentacion Yusef Hassan

¿Por dónde íbamos?

Page 18: Presentacion Yusef Hassan

¿Por dónde íbamos?

Page 19: Presentacion Yusef Hassan

Evaluación de los SRI: Relevancia

Documentosrecuperados

Documentosrelevantes

Precisión: De todos los documentos recuperados, ¿qué porcentaje son relevantes?

Exhaustividad: De todos los documentos relevantes, ¿qué porcentaje son recuperados?

Page 20: Presentacion Yusef Hassan

Evaluación de los SRI: Relevancia

Precisión

Exhaustividad

Page 21: Presentacion Yusef Hassan

¿Hay algo más?

• Modelo espacio-vectorial

• Modelo probabilístico

• Lógica Difusa

• Técnicas de Clustering

• Indización de Semántica Latente

• Redes Neuronales

• Algoritmos Genéticos

• Procesamiento del Lenguaje Natural

Page 22: Presentacion Yusef Hassan

Algunos problemas del enfoque algorítmico tradicional

• Visión de la recuperación de información desde su vertiente casi exclusivamente tecnológica.

• ¿Las palabras del texto representan su contenido?

• ¿Consulta=Necesidad Informativa?

• El usuario es un elemento prácticamente ignorado en los modelos.

• Visión de la recuperación de información como un proceso secuencial prueba-error, en vez de cómo un proceso realmente interactivo.

• Estancamiento evolutivo en términos de resultados.

Page 23: Presentacion Yusef Hassan

¿Existen enfoques alternativos?

Page 24: Presentacion Yusef Hassan

Primeras Alternativas

• User-Centered Information Retrieval

• Information Retrieval Interaction

• Human-Computer Information Retrieval

• …

Page 25: Presentacion Yusef Hassan

Qué proponen

• Centrar la concepción del SRI en el usuario (necesidades, conocimiento, contexto,…), y en la interacción.

• Analizar la recuperación de información como un diálogo entre entidades cognitivas “análogas”.

• Ir más allá de la búsqueda: Hacia la Exploración.

• Potenciar la orientación del usuario.

• Potenciar el control y responsabilidad del usuario.

• La relevancia es subjetiva. Dar significado a los resultados.

• Propuestas alternativas de evaluación de SRI: Usabilidad.

Page 26: Presentacion Yusef Hassan

Resultados

interfaz

Page 27: Presentacion Yusef Hassan

Y en esto llegó la…

Web 2.0Se estima que las “herramientas 2.0” son responsables de un tercio del nuevo

contenido que se genera en la Web.

Page 28: Presentacion Yusef Hassan

Teoría de la Actividad

Aleksei N. Leontiev(1903-1979)

Page 29: Presentacion Yusef Hassan

Recuperación de Información 2.0 (IMHO)

• Indización de autor, de profesional, de contenido…indización social.

• Redefinir el concepto de “Personalización” de Resultados.

• Ir más allá de la búsqueda y la exploración de información. Hacia el descubrimiento de información: Forzar la serendipia.

• Inteligencia colectiva: Nuevos modelos algorítmicos que permitan explotar la semántica socialmente construida, y el comportamiento socialmente motivado de los usuarios.

• Redefinir el concepto de “Personalización” de la Interfaz.

• Visualización de Información

Page 30: Presentacion Yusef Hassan

Sobre el futuro de las búsquedas

“We’re all familiar with 80-20 problems, where the last 20% of the solution is 80% of the work. Search is a 90-10 problem. Today, we have a 90% solution […] However, that remaining 10% of the problem really represents 90% (in fact, more than 90%) of the work. Coming up with elegant, fitting and relevant solutions to meet the challenges”

The Official Google Blog.

Page 31: Presentacion Yusef Hassan

¿Alguien dijo…

…Web Semántica?(yo no)

Page 32: Presentacion Yusef Hassan

Por último…

Page 33: Presentacion Yusef Hassan

Gracias!