mineria introducción de la z historia de la web z...

25
introducción MINERIA MINERIA DE LA DE LA WEB WEB unidad I Introducción Historia de la Web Motivación para la minería de la Web Recuperación de la información Caracterización formal de modelos de recuperación de la información Métodos clásicos para la evaluación de sistemas de recuperación de la información

Upload: others

Post on 07-Oct-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

unidad I

IntroducciónHistoria de la WebMotivación para la minería de la WebRecuperación de la informaciónCaracterización formal de modelos de recuperación de la informaciónMétodos clásicos para la evaluación de sistemas de recuperación de la información

Page 2: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

unidad II

Técnicas de CrawlingEstándares y protocolosHerramientas de crawlingCrawlers generales y por temaIngeniería de crawlers de gran escala

Page 3: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

unidad III

Técnicas de Indexación y BúsquedaConstrucción de índicesCreación de consultasOptimización de consultasExpansión de consultasTécnicas de rankingBúsquedas incrementales y basadas en contexto

Page 4: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

unidad IV

Aplicaciones y Temas EspecialesAprendizaje mecánico basado en la WebLa Web invisibleToma de decisiones basadas en información extraída de la WebAgentes inteligentes en la WebPersonalización y sistemas de recomendación Análisis de redes sociales y comunidades en la WebLa Web semánticaSeguridad y privacidadMedidas y análisis del grafo de la WebInteracción y visualización

Page 5: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

minería de la web

Minería de datos (data mining):proceso de descubrir relaciones o patrones interesantes en un conjunto de datos

Minería de la Web (Web mining):proceso de descubrir relaciones o patrones interesantes en la World-Wide Web

Page 6: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

preguntas

¿Por qué extraer información de la Web es más complejo que extraer información de un conjunto predefinido de documentos (como ser una biblioteca digital)?¿Por qué extraer información de la Web es más complejo que extraer información de fuentes estandarizadas (como ser bases de datos)?

Page 7: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

propiedades de la web

La web esmasivaWeb indexable ~ 11.500.000.000 [Gulli & Signorini 2005] dinámicadiversa

Pregunta: ¿cómo se mide el tamaño de la Web?

Page 8: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

la hipótesis de la web estructurada

La información en la web essuficientemente estructurada comopara que sea posible la minería de la Web [Etzioni, 1996]

Page 9: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

hipertexto

Hipertextotextoenlaces (links)

Permite al usuario el fácil manejo de información de fuentes diversas

crearagregarenlazarcompartir

Esta flexibilidad de acceso genera importantes nociones

navegaciónpersonalización de presentacionesanotaciones

Page 10: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

historia

CitasHiperenlace

Ramayana, Mahabharata, Talmudforma ramificada y no lineal de discurso, con comentarios anidados.

Diccionarios y enciclopediasredes autocontenidas de nodos textuales. unidos por enlaces de referencias.

Page 11: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

historia del hipertexto (cont.)

Memex [VannevarBush, 1945]

extension de memoria (“memory extension”)dispositivo de almacenamiento y computación(fotoeléctrico y mecanico)objetivo: crear y ayudar a seguirhiperenlaces a través de documentos.

Page 12: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

historia

memex

Page 13: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

historia

Hipertexto (Hypertext)término acuñado porTed Nelson en 1965sistema de hipertextoXanadu:

hiperenlaces ,manejo de versiones,manejo de controverias,manejo de anotaciones,manejo de derecho de autoría

"the structures of ideas are not sequential"

Page 14: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

historia

Hypercardcreado por Bill Atkinson y disponibleen 1987 en los sistemas Macintosh.sistema programablede tarjetas que podíanser organizas en pilasperdió popularidad con el crecimiento de la WWW

Page 15: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

historia

Tim Berners-Lee, un consultor del laboratorio CERN (Centro Europeo parala InvestigaciónNuclear), es conocidocomo “el inventor de la World Wide Web”.Sistema en red parapublicar reportescientíficos [1980]GUI para hipertextollamado World Wide Web [1990]

CERN laboratory, Géneva

Page 16: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

historia

El tráfico HTTP en CERN se multiplica por un factor de 1000 entre 1991 y 1994

Page 17: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

historia

El número de servidores crece de unos pocos cientos a un millon entre 1991 y 1997.

Page 18: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

historia

1994 fue un año clave para la WWW

Fundación de “Mosaic Communications Corporation"primera conferenciaWorld-Wide WebMIT y CERN acuerdanestablecer el World-Wide Web Consortium (W3C).

Page 19: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

historia

Sucesores del browser World Wide Web

Erwise [1992]Viola [1992]Midas [1993]Mosaic [1993]

fácil de usarsoporte de imágenes

Page 20: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

historia

Netscape [1994] soporte de multiplesconexiones TCP/IPcookies<CENTER> tagdistribución gratuita para ciertos grupos

Netscape 2 [1996]framesJavaScript

Netscape 3 [1996]mouseoversestándar de oro

Page 21: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

historia

Microsoft Explorer 1 y 2 (1995)Microsoft Explorer 3 (1996)

casi comparable a NetscapeCSS (Cascading StyleSheet): autores y lectores pueden asignar estilo a las paginas (fuentes, colores, etc)distribución gratuita

Desde 1999 Microsoft Explorer domina el mercado

Page 22: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

preguntas

¿Por qué la Web creció de la manera en que lo hizo?¿Qué diferencia a la Web de otros medios de comunicación?

Page 23: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

Web: un medio participativo y accesible

número de escritores no es tan lejanoal número de lectores.la evolución de los MEMES

Richard Dawkins (1976) propuso que las ideas, teorías, expresiones artísticas etc. se replican y propagan de persona en persona por imitación.La Web fue un meme en sí mismaAhora facilita la propagación de otrosmemes.

Page 24: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

crisis de abundancia y autoridad

Cultura liberal e informal para generary diseminar contenido. Acceso uniforme (no existe autoridadque defina calidad de contenidos)Contenido no estandarizado y redundancia. milliones de página para una consultageneral

ejemplo: java

Page 25: MINERIA Introducción DE LA z Historia de la Web z ...cs.uns.edu.ar/~agm/mineriaweb/downloads/Slides/clase01-slides.pdf · introducción MINERIA DE LA WEB unidad II Técnicas de Crawling

introducción

MINERIAMINERIADE LADE LA

WEBWEB

bibliografía

1. Mining the Web: Discovering Knowledge from Hypertext Data,Soumen Charkabarti, Morgan Kaufmann, 2002.