enero 2007seminario digidoc 20071 web semántica y sistemas de información documental lluís codina...

23
Enero 2007 Seminario DigiDoc 2007 1 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007

Upload: curro-pantano

Post on 16-Feb-2015

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 1

Web Semántica y Sistemas de Información

Documental

Lluís CodinaUPF. Seminario DigiDoc

Curso 2006-2007

Page 2: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 2

Qué es la Web Semántica

Un conjunto de normas (recomendaciones) del W3C

La visión: una Web cuyo contenido puedan interpretar los ordenadores (¿Inteligencia Artificial?)

La motivación: Una infraestructura de información para el comercio electrónico

Un subproducto: ¿Una infraestructura para la gestión del conocimiento?

Page 3: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 3

Definiciones de la Web Semántica (1)

W3C:

The Semantic Web provides a common framework that allows data to be shared and reused across application, enterprise, and community boundaries. It is a collaborative effort led by W3C with participation from a large number of researchers and industrial partners. It is based on the Resource Description Framework (RDF)

Page 4: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 4

Definiciones de la Web Semántica (2)

Wikipedia:

La Web semántica tiene como objetivo (…) reducir la mediación de operadores humanos en los procesos inteligentes de flujo de información.

Page 5: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 5

Definiciones de la Web Semántica (3)

W3C:La Web Semántica es una Web extendida,

dotada de mayor significado en la que cualquier usuario en Internet podrá encontrar respuestas a sus preguntas de forma más rápida y sencilla gracias a una información mejor definida. Al dotar a la Web de más significado y, por lo tanto, de más semántica, se pueden obtener soluciones a problemas habituales en la búsqueda de información.

Page 6: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 6

La contradicción esencial (1)

Los ordenadores son máquinas sintácticas, pero la mera sintaxis no produce semántica. Dicho de otro modo:

La hipótesis del sistema de símbolos físicos (A. Newell y Herbert A. Simon ) vs. la hipótesis de la habitación china (John Searle)

Page 7: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 7

Los dos almas de la WS

La (inconfesada) vía de la Inteligencia Artificial (IA) > Ontologías

La vía de la base de datos (SGBD) o “del procesamiento robusto” > XML + Metadatos

Page 8: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 8

Regreso al futuro: la WS como una base de datos

Cada unidad significativa de texto está delimitada (marcada) mediante etiquetas

Cada etiqueta tiene asociado un tipo de dato vía schemas

Cada documento como un todo contiene (o está asociado a) un conjunto de metadatos

Cada documento, a nivel de elemento, puede tener declaraciones contextuales de metadatos > RDFa

Resultado: la Web como una gran base de datos descentralizada, distribuida y no coordinada (campos + diccionario de datos + descriptores)

Page 9: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 9

Componentes principales de la WS

XML RDF OWL Agentes de usuario

Page 10: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 10

XML

XML: lenguaje para definir lenguajes con etiquetas semánticamente ricas:

<autor>Umberto Eco</autor>

vs.

<b>Umberto Eco</b> XML Schema:

Especificación para asignar tipos de datos, dominios, rangos de valores y restricciones a las etiquetas XML

Page 11: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 11

Infraestructura necesaria

Sitios web: Estructurados con XML (p.e. XHTML) Con algún sistema asociado de metadatos

asociado de complejidad variable, incluyendo la posibilidad de usar ontologías

Page 12: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 12

Aplicaciones XML

Suites ofimáticas SGBD Editores de sitios web Navegadores

Page 13: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 13

RDF

RDF: Resource Description Framework W3C: The Resource Description Framework (RDF)

integrates a variety of applications from library catalogs and world-wide directories to syndication and aggregation of news, software, and content to personal collections of music, photos, and events using XML as an interchange syntax. The RDF specifications provide a lightweight ontology system to support the exchange of knowledge on the Web

Page 14: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 14

RDF - Metadatos

RDF: Un sistema de descripción de entidades (recursos) con una base lógico/lingüística

RDF relaciona recursos con propiedades y valores

Puede considerarse un sistema de expresión de metadatos

Page 15: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 15

RDF vs SGBD

Modelo RDF: Un recurso (sujeto) tiene una propiedad

(predicado) con un determinado valor (objeto) Ejemplo: El libro ID123 tiene un título y el valor

del título es Romeo y JulietaEquivale a: Una entidad (registro) tiene un atributo (campo)

con un determinado contenido (valor)O bien: Recurso=Fila; Propiedad=Columna; Valor=Valor

Page 16: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 16

Ejemplo RDF

En modo nativo (gráfico):

El s itiohttp ://w 3c .o rg

W o rld W id e W ebC o ns o rtium

T iene el tí tulo

Page 17: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 17

En modo serializado (RDF/XML)

<rdf:Description rdf:about=“http://www.w3.org/”>

dc:title>World Wide Web Consortium</dc:title>

<rdf:Description>

Page 18: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 18

OWL

OWL: Web Ontology Language OWL builds on RDF and RDF Schema and

adds more vocabulary for describing properties and classes: among others, relations between classes (e.g. disjointness), cardinality (e.g. "exactly one"), equality, richer typing of properties, characteristics of properties (e.g. symmetry), and enumerated classes.

Page 19: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 19

OWL - Objetivos

OWL uses both URIs for naming and the description framework for the Web provided by RDF to add the following capabilities to ontologies: Ability to be distributed across many systems Scalability to Web needs Compatibility with Web standards for accessibility

and internationalization Openess and extensiblility

Page 20: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 20

Ejemplos de software/iniciativas para la WS

XML Altova XML Spy Altova Semantic Works Amaya/Anotea

Metadatos Dublin Core

RDF Protégé Smore

Page 21: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 21

Conclusiones (1): ¿Dónde está la WS?

Actualmente: No está:

En los motores de búsqueda En bases de datos En la mayor parte de la web “real”

Empieza a estar: En los sitios web que usan estándares de manera estricta En algunos repositorios En un reducido (pero selecto) número de sitios web

relacionados con la Administración y/o con iniciativas de carácter científico o cultural

Page 22: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 22

Conclusiones (2): ¿Qué está aportando la WS? Actualmente:

Un nuevo formato universal de datos: XML Una fuerte impulso al uso de estándares Web Un renovado debate sobre el uso, definición y alcance de

los metadatos Un nuevo formato universal para expresar metadatos: RDF

con aplicación a tesauros y lenguajes documentales En el futuro:

¿Servidores de ontologías? ¿Nuevos sistemas de búsqueda y acceso a la

información? ¿Una nueva generación de repositorios, bibiotecas

digitales y sistemas de información?

Page 23: Enero 2007Seminario DigiDoc 20071 Web Semántica y Sistemas de Información Documental Lluís Codina UPF. Seminario DigiDoc Curso 2006-2007Seminario DigiDoc

Enero 2007 Seminario DigiDoc 2007 23

Conclusiones (3): ¿Qué podemos hacer por el momento?

Apoyar el uso de estándares del W3C (XML, XHTML)

Preferencia por aplicaciones y modelos de datos que utilicen XML

Preferencia por expresar metadatos mediante RDF: RDFa, RDF/DC, etc.

Concebir las ontologías como nueva frontera de la semántica documental, estudiar sus posibilidades y, eventualmente, promocionar su aplicación