adquisición de conocimiento usando técnicas de ... · temas introducci on a linkeddata y red sem...

53
Adquisici´ on de conocimiento usando t´ ecnicas de procesamiento de texto y red sem´ antica Sesi´ on 4: Red sem´ antica Dra. Olivia S´ anchez Graillet 21 de marzo 2012 Dra. Olivia S´ anchez Graillet (IIMAS) Seminario de Divulgaci´ on 21 de marzo 2012 1 / 66

Upload: lamcong

Post on 01-Oct-2018

222 views

Category:

Documents


0 download

TRANSCRIPT

Adquisicion de conocimiento usando tecnicas deprocesamiento de texto y red semantica

Sesion 4: Red semantica

Dra. Olivia Sanchez Graillet

21 de marzo 2012

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 1 / 66

Temas

Introduccion a LinkedData y red semantica

Tecnologıas de la red semantica

Modelado semantico

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 2 / 66

Introduccion a LinkedData y red semantica

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 3 / 66

0Linking Open Data cloud, por Richard Cyganiak and Anja JentzschDra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 4 / 66

El problema

Actualmente muchos de los datos que se obtienen de la web estan endocumentos HTML ligados entre sı a traves de hyperlinks.

Humanos y maquinas pueden leer estos documentos, pero aparte debuscar keywords en una pagina, las maquinas tienen problemas paraextraer cualquier significado de esos documentos.

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 5 / 66

0Conferencia TED 2009 “The Great Unveiling“Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 6 / 66

0Conferencia TED 2009 “The Great Unveiling”Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 7 / 66

La solucion: Link Open Data

Cambiar la forma de publicar datos en documentos HTML quepueden ser leıdos por humanos a documentos que pueden ser leıdospor maquinas

Esto significa que las maquinas puedan hacer mas trabajo derazonamiento

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 8 / 66

El principio

La WWW fue creada por Sir Tim Berners-Lee en 1991

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 9 / 66

El principio

Figura: El primer browser WWW

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 10 / 66

Semantic Web (La Red Semantica)

La RS entrelaza datos entre sistemas o entidades permitiendointerrelaciones ricas y auto-descriptivas de datos disponibles en la web

Existe gran cantidad de datos en texto libre y no en documentosHTML

La RS busca:

utilizar procesos de IA, haciendo que la red “razone” utilizando losdatos existentes en la redalentar a companıas, organizaciones e individuos a publicar sus datosgratuitamente y siguiendo un formato estandar abiertoalentar a los negocios a usar los datos que ya estan disponibles en lared (data give/take)tomar la informacion publicada en documentos HTML en diferentessitiospermir que los modelos de datos traten a los datos como si estuvieranen una sola BD

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 11 / 66

LinkedData y Red Semantica

LinkedData es escencial para conectar la RS. LD sigue 4 reglas:

1 identificacion de objetos mediante URIs2 uso de URIs HTTP3 informacion en forma ”LinkedData”4 creacion de ligas en otros sitios

0http://www.w3.org/DesignIssues/LinkedData.htmlDra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 12 / 66

¿Como hacer que las computadoras actueninteligentemente?

1 Lograr que las computadoras puedan procesar informacion sobre elmundo en toda su complejidad. E.g. entender el lenguaje humano (IAtradicional)

2 Simplificar la descripcion del mundo a un nivel que hasta lascomputadoras mas tontas sean capaces de actuar “inteligentemente”basandose en esta descripcion. (tecnologıa semantica)

3 La RS es una vision de la futura WWW que tendra sus datos (o partede estos) en esta forma simplificada en vez de en lenguaje humanoplano

0Artem Katasonov, Uni.o.JyvaskylaDra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 13 / 66

El triangulo de Ogden (de significado)

0Ogden & Richards, 1923Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 14 / 66

Sustento conceptual de la RS

Representacion del conocimiento: como describir el mundo enterminos abstractos de forma sencilla para entender la realidadcompleja

Calculando con conocimiento: el esfuerzo para construir maquinariasde razonamiento que puedan dar conclusiones significativas delconocimiento codificado

Intercambio de informacion: transmision de recursos de informacioncompleja entre computadoras que permita distribuir, interconectar, yreconciliar conocimiento en una escala global

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 15 / 66

Representacion del conocimiento

El principio del modelado cientıfico

Platon (429-347 AC): ¿Que es la realidad? ¿Que cosas se puede decirque “existen”? ¿Cual es la verdadera naturaleza de las cosas?

Taxonomıas, ontologıas

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 16 / 66

Representacion del conocimiento (2)

En la RS se agraga logica al web, i.e., los medios para:

Usar reglas de inferenciasEscoger cursos de accionResponder a preguntas

El lenguaje de las reglas debe ser lo suficientemente expresivo pararazonar lo mas ampliamente posible

La RS debe proveer un lenguaje que exprese los datos y las reglaspara razonar acerca de los datos y que permita a las reglas de otrossistemas ser exportados al web

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 17 / 66

Modelado semantico

Vocabulario: conjunto de terminos con un significado bien definido yconsistente en diferentes contextos

Ontologıa:

Permite definir las relaciones contextuales detras del vocabulariodefinidoDefine el dominio de conocimiento.Expresado en lenguaje OWL (Ontology Web Language)

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 18 / 66

Definiciones de “ontologıa”

En Filosofıa: es el estudio de la existencia, tal cual y de las clases yrelaciones fundamentales de las cosas que existen

En CC: descripcion del conocimiento de cierto dominio. El nucleo delo que es una especificacion procesable por las maquinas con unsignificado formalmente definido

En AI y web: es un documento o archivo que define formalmente lasrelaciones entre terminos: la mas simple contiene una taxonomıa y unconjunto de reglas de inferencia

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 19 / 66

Ejemplo: ontologıa biomedica

Las ontologıas biomedicas se han desarrollado para expresar datos deforma que puedan ser leıdos por las computadoras, compartidas entreexperimentos y fuentes de datos para adaptarse a la proliferacion deinformacion nueva y abundante

0GO (Gene Ontology)Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 20 / 66

Ontologıa biomedica

0UMLSDra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 21 / 66

Forma de hacer biologıa/bioinformatica

Pocas ecuaciones y pocos axiomas (en comparacion con otras cienciascomo fısica)

No se puede tomar la secuencia de un amino acido, introducir unaecuacion y obtener un resultado biologico

Se hacen busquedas de similitud: este tipo de trabajar “basado enconocimiento” es comun en biologıa

Se tiene que recolectar la informacion y crear los modelos

Esta informacion se debe organizar

0Robert Stevens, BioHealth Informatics Group, UofManchesterDra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 22 / 66

Ejemplo de LD en biologıa

0Susie Stephens,J Phil Brooks, Eli LillyDra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 23 / 66

Futuro de LOP y la RS

“El argumento filosofico de la red semantica - el mundo deberıa tenermas sentido del que tiene- es dificil de argumentar. La red semantica,con sus ontologıas ordenadas y sus silogismos logicos, es una visionagradable. Sin embargo, como muchas visiones que proyectanbeneficios futuros pero ignoran costos, requiere de muchacoordinacion y energıa para ser efectiva en el mundo real...”Clay Shirky

Beneficios: aunque haya mas trabajo al principio para crear una BDsemantica, los beneficios de integracion entre dominios alrededor delmundo, ahorraran dinero, tiempo, y se ganara mayor conocimiento deforma altamente significativa.

La Comision Europea dio 6.5m de euros al proyecto LOD2 (de 2010 a2014) para continuar con el proyecto ”Linking Open Data“

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 24 / 66

Reglas de inferencia y ontologıas

La reglas de inferencia dan mayor poder a las ontologıas. Ejemplo:

Una ontologıa puede expresar la regla “si el codigo de una ciudad seasocia con el codigo de un estado, y una direccion usa ese codigo deciudad, entonces esa direccion contiene el codigo del estado asociado”

Deduccion: la direccion de una universidad en Cornell que seencuentra en Ithaca, debe estar en el estado de New York, en losEEUU

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 25 / 66

Ontologıas y vocabularios

Dublin Core Metadata Initiative (DCMI): ontologıas paradiferentes areas, particularmente terminos cotidianos (para los mediosde comunicacion)

Friend Of A Friend (FOAF): vocabularios/ontologıas estandar pararedes sociales

OpenCyc: Ontologıa de terminos de sentido comun y cotidianos

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 26 / 66

Tecnologıas de la RS

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 27 / 66

Tecnologıas de la RS

Dos tecnologıas importantes para el desarrollo de la RS son:

XML (eXtensible Markup Language):

Permite crear etiquetas propias que pueden ser usadas por programasPermite agregar una estructura arbitraria a los documentos, pero nodice nada sobre que significa esa estructura

RDF (Resource Description Framework):

Expresa el significado de esa estructura codificado en conjunto detriplas: sujeto, verbo y objeto de una oracion basicaLas triplas se pueden escribir con etiquetas XML

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 28 / 66

RDF (2)

En RDF un documento hace afirmaciones de que algo (e.g. gente)tiene propiedades (e.g. “es hijo de”) con ciertos valores (e.g. otrapersona):

Sujeto del enunciadoPredicado del enunciado: recursos o constantesObjeto referenciado por los predicados de los recursos

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 29 / 66

Ejemplo en biologıa

0Susie Stephens,J Phil Brooks, Eli LillyDra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 30 / 66

Ventajas de usar RDF

Las triplas son una forma natural de expresar la mayorıa de datosprocesados por las maquinas

El sujeto y el objeto se representan con el Identificador de RecursosUniversal (URI)

Los verbos tambien se representan con URIs

Se puede crear un nuevo concepto o verbo tan solo creando un nuevoURI para este en la web

URIs aseguran que los conceptos no solo sean palabras en undocumento, sino que esten asociados a una definicion unica a la quetodos tengan acceso en la web

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 31 / 66

Ejemplo de RDF con URIs

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 32 / 66

RDF correspondiente

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 33 / 66

Agentes

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 34 / 66

Agentes

Programas que recolectan contenido en diferentes recursos de la web,procesan la informacion e intercambian esa informacion con otrosprogramas

La RD promueve esta sinergia: cuando los datos incluyen semantica,los agentes disenados para trabajar juntos o separados, puedenintercambiar informacion

Una faceta importante de los agentes es el intercambio de “pruebas”escritas en el lenguaje unificado de la RS (inferencias logicas conreglas y ontologıas)

Los agentes buscan y extraen informacion en los nodos del LinkedData

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 35 / 66

Tipos de agentes

Basados en metas: toma de decisiones basada en objetivos (no enreglas), no solo en percepciones

Reflejo simple: actuan basandose en sus percepciones actuales

Reflejo con estado interno: actuan basandose en sus percepcionesactuales y en historias parciales

Basado en ganancias (utilidades): estiman el grado de satisfaccionde un estado para la toma de decisiones

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 36 / 66

Ejemplos de agentes en la RS

Un agente de indexacion de la web que convierta documentos aconocimiento formal para la RS

Un agente que use las bases de conocimiento formales de la RS parareservar vacaciones o hacer citas medicas

Un sistema multi-agente capaz de actuar en su propia comunidadpara construir y mantener datos adicionales del LinkedData

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 37 / 66

Ejemplo

Es un sistema de un solo agente con dos parametros de entrada:nombre de un objeto y nombre de una de sus propiedades

El agente busca el valor de la propiedad entre los datos de DBpedia

0www.ibm.com/developerworks/web/library/wa-intelligentage/Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 38 / 66

Modelados

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 39 / 66

Base de datos grafica

0http://linkeddata.orgDra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 40 / 66

Base de datos grafica

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 41 / 66

Ejemplo de modelado semantico

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 42 / 66

Ejemplo de distribucion de datos en la web

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 43 / 66

Distribucion de datos por filas

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 44 / 66

Distribucion de datos por columnas

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 45 / 66

Distribucion de datos por celdas

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 46 / 66

Representacion en triplas

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 47 / 66

Representacion grafica de triplas

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 48 / 66

Triplas de las obras de Shakespeare

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 49 / 66

Triplas de las obras de Shakespeare en UK

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 50 / 66

Triplas de las obras de Shakespeare

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 51 / 66

Triplas de las partes de UK

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 52 / 66

Triplas combinadas de las obras de Shakespeare y de lasobras en UK

Dra. Olivia Sanchez Graillet (IIMAS) Seminario de Divulgacion 21 de marzo 2012 53 / 66