cómo analizar noticias al segundo

24
Cómo analizar noticias al segundo JORGE MARTÍN-LUENGO Director de Factoría Diximedia D

Upload: zytka

Post on 04-Jan-2016

29 views

Category:

Documents


0 download

DESCRIPTION

Cómo analizar noticias al segundo. JORGE MARTÍN-LUENGO Director de Factoría Diximedia Digital. PREMISA GENERAL. INTERNET ES UN MEDIO MUCHO MÁS PROFUNDO QUE CUALQUIER OTRO SOPORTE. PESE A LA BONDAD QUE ESTO SUPONE, TAMBIÉN IMPLICA CIERTO DESORDEN . - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Cómo analizar  noticias al segundo

Cómo analizar noticias al segundo

JORGE MARTÍN-LUENGODirector de Factoría Diximedia Digital

Page 2: Cómo analizar  noticias al segundo

PREMISA GENERAL

INTERNET ES UN MEDIO MUCHO MÁS PROFUNDO QUE CUALQUIER OTRO SOPORTE.

PESE A LA BONDAD QUE ESTO SUPONE, TAMBIÉN

IMPLICA CIERTO DESORDEN.

DESDE EL COMIENZO DE LA RED, EXISTEN IMPORTANTES

ACTORES EN LA RECOPILACIÓN, TRATAMIENTO Y

ORDENACIÓN DE LA INFORMACIÓN: ROBOTS

Page 3: Cómo analizar  noticias al segundo

Robots, nuestros aliados tecnológicos

MÁS ALLÁ DE LA ACTUALIZACIÓN DE DATOS, LAS MÁQUINAS VAN APRENDIENDO A SER MÁS INTELIGENTES Y PUEDEN DESARROLLAR LABORES BÁSICAS, PERO MASIVAS, DE RECOPILACIÓN Y ESTRUCTURACIÓN DE INFORMACIÓN.

Page 4: Cómo analizar  noticias al segundo

Sobreabundancia de informaciónPor mucha atención y fuentes que manejen los seres humanos, es muy difícil estar al tanto de todo lo que existe en la Red, de lo que pasa, de lo que se lee o interesa y de aquello que no.

En décimas de segundo, las máquinas pueden ver y procesar alertas, tendencias y modas, al tiempo que analizan lo que otras máquinas, periodistas o lectores están haciendo con la información: aquella que destacan, guardan o comentan.

Page 5: Cómo analizar  noticias al segundo

“Utilizar ese tipo de información y tecnología nos permitirá que los periodistas dediquen más tiempo al desarrollo de exclusivas o a escribir más información“.“

”J. CHENERY, Business Development Manager at Thomson Reuters

Page 6: Cómo analizar  noticias al segundo

¿cómo aplicar esto a un medio de comunicación?

Page 7: Cómo analizar  noticias al segundo

LAINFORMACION.COMun hipermedio y un monitor semántico de información en tiempo real

Page 8: Cómo analizar  noticias al segundo

Qué es lainformacion.com

Un medio de calidadlainformacion.com pretende ser un medio de calidad, riguroso, innovador e independiente. Abogamos por la producción de contenido propio y las nuevas narrativas, con el vídeo y la infografía animada como elementos claves. Para ello, contamos con una importante redacción propia y con automatismos que permiten “liberar” a la redacción de tareas rutinarias.

Un buscador semánticoAdemás de generar contenido propio de calidad, hay una parte de nuestro medio en la que no somos un destino final sino un buscador. Se analizan en tiempo real más de 1.800 fuentes en español para localizar, catalogar y ordenar las noticias a medida que se vayan generando. ¿Cómo lo hacemos? Mediante novedosas y revolucionarias técnicas de web semántica, que “leen” y “traducen” los datos de los sites y hacen la información comprensible para las máquinas. Estas la procesan y ordenan intentando hacerla más accesible y fácil de encontrar para los lectores.

Page 9: Cómo analizar  noticias al segundo

Objetivos

- Cubrir el mayor ámbito informativo posible

- Ofrecer la mejor información en el menor tiempo

- Responder a la demanda informativa de lectores con distintos intereses.

Page 10: Cómo analizar  noticias al segundo

lainformacion.com

La apuesta de lainformacion.com viene del cruce de contenidos generados por parte de máquinas, periodistas y usuarios. Este triángulo ayuda a conceptualizar nuestro web. El primer vértice de nuestro triángulo es el de la información generada, recopilada y jerarquizada por robots, los realmente nativos y puros representantes del territorio digital.

Page 11: Cómo analizar  noticias al segundo

Cómo funciona

1.- Monitorización en tiempo real

2.- Extracción de entidades

3.- Clasificación temática

4.- Geoposicionamiento

5.- Agrupación de noticias

6.- Mejora continua de la calidad

Page 12: Cómo analizar  noticias al segundo

1.- Monitorización en tiempo real

En lainformacion.com se analizan más de 20.000 noticias diarias procedentes de distintas fuentes: propias, agencias, medios de comunicación, administraciones públicas, organismos…

En tiempo real se cataloga y ordena cada noticia a medida que se va generando.

¿Cómo lo hacemos?

Con la ayuda de DAEDALUS mediante técnicas lingüísticas para el procesamiento automático y avanzado de noticias, que “leen” y “traducen” los datos y hacen la información comprensible para las máquinas.

Page 13: Cómo analizar  noticias al segundo

Etiquetado semántico de noticias

Con la ayuda de DAEDALUS hemos desarrollado un sistema que extrae automáticamente entidades de los textos de las noticias buscando aproximaciones sobre un conjunto de diccionarios.

Es una herramienta que interpreta semánticamente y es capaz de detectar y clasificar empresas, organismos y personajes. Interpreta sinónimos, contextualiza, encuentra relaciones entre las entidades, etc…

Se basa en técnicas de reconocimiento de entidades y se realiza en tiempo real a medida que las noticias se van generando.

2.- Extracción de entidades

Page 14: Cómo analizar  noticias al segundo

Portadas por entidadesCon estas técnicas analizamos la información de modo inteligente y la agrupamos en torno portadas de personajes, organismos, empresas, grupos….

Page 15: Cómo analizar  noticias al segundo

2.- Extracción de entidades

La dificultad de la detección estriba en que dichas entidades pueden aparecer en diferentes formas, por ejemplo:

* López, Julián (El July)* Windsor, Enrique (Enrique de Inglaterra, príncipe Enrique)* Banco Santander Central Hispano (BSCH)

También pueden surgir problemas de ambigüedad para su clasificación, ya sea entre diferentes categorías o incluso dentro de la misma categoría:

* Madrid (ciudad, equipo de fútbol, apellido…)* Alonso (Fernando Alonso, José Antonio Alonso)

La solución está basada en patrones, sinónimos y en reconocimiento contextual de los tipos de entidades (Empresas, Organismos o personajes)

Page 16: Cómo analizar  noticias al segundo

3.- Clasificación automática de noticias

En lainformacion.com realizamos una clasificación automática de noticias por área temática, aplicando la taxonomía de la IPTC (International Press Telecommunications Council).

Esto permite que lainformacion.com tenga no una, sino hasta 975 portadas de temáticas diferentes.

Con ello podemos responder mejor a la demanda informativa de lectores con distintos intereses (Literatura, Fútbol, Educación, Medio ambiente…)

En un futuro será la base de proyectos de personalización, alertas…

Page 17: Cómo analizar  noticias al segundo

100.000 portadas

Page 18: Cómo analizar  noticias al segundo

4.- Geoposicionamiento

Cada noticia se geolocaliza automáticamente y en tiempo real asociándose a cada término geográfico que aparece en el texto. Se realiza un reconocimiento contextual de los lugares que aparecen en el texto. En total contamos con cerca de 45.000 localidades.

Page 19: Cómo analizar  noticias al segundo

100.000 portadas

970 temas

25.000 personajes

45.000 lugares

30.000 empresas y organismos

Page 20: Cómo analizar  noticias al segundo

5.- Agrupación de noticias

Clustering

Las noticias se agrupan mediante la técnica de ‘clustering’ con 3 objetivos:

- Relacionar noticias sobre el mismo tema

- Detectar noticias duplicadas procedentes de fuentes diferentes

- Mostrar “otras perspectivas de la noticia”

Page 21: Cómo analizar  noticias al segundo

5.- Agrupación de noticias

Page 22: Cómo analizar  noticias al segundo

Y todo en tiempo real

Rendimiento

- Etiquetado automático (con 100.000 entidades):Tiempo de respuesta inferior a 4 ms/noticia

- Clasificación automática (sobre IPTC-2008):Tiempo de respuesta inferior a 100 ms/noticia

- Agrupamiento (dependiente del número de noticias y de clusters)Tiempo de respuesta inferior a 5 ms/noticia

[Sobre Intel Xeon E5410 a 2.33GHz, 64bits, 16GB RAM]

Page 23: Cómo analizar  noticias al segundo

6.- Mejora continua

Servicio de mejora diaria de la calidad

- Muestreo sistemático de los resultados de los procesos de extracción de entidades y de clasificación conforme a criterios de relevancia y visibilidad

- Mejora del sistema de clasificación

- Actualización de la base de datos de entidades

- Mejora del sistema de reconocimiento de entidades

Page 24: Cómo analizar  noticias al segundo

Muchas gracias