web semántica, el futuro de las bases de datos de las ...€¦ · francisco pando taller gbif.es:...

34
Web semántica, el futuro de las bases de datos de las colecciones de historia natural y cómo “4UColl” responde a este escenario Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico -- CSIC Madrid, 10-12 noviembre 2015

Upload: others

Post on 18-Jul-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Web semántica, el futuro de las bases de datos de las colecciones de historia natural y cómo “4UColl” responde a este escenario

Francisco Pando

Taller GBIF.ES: Publicación de información de especies

Aula de informática

Real Jardín Botánico -- CSIC

Madrid, 10-12 noviembre 2015

Page 2: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Guión • Web semántica

• Datos enlazados

(Los dioses antiguos y nuevos)

• Cambios en la red de GBIF y en contexto mundial en esa dirección

• Lo nuevo en 4UCOLL

Page 3: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Los dioses antiguos

La compatibilización entre sistemas se hace “a mano”

Page 4: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Los dioses nuevos: Web semántica: comunicar contenidos, no

documentos

URIs

Las definiciones de las bases de datos

se almacenan (o hacen uso) en un

sistema:

•Accesible vía Web

•Ininteligible por “maquinas”

•Relaciona conceptos, relaciones e

instancias

ontologías

Page 5: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Web semántica: Triple storage, RDF*

URIs

Campo valor

Nmr_ejemplar 25322

genero Inga

especie alba

pais COL

Sujeto Predicado objeto

25322 genero Inga

25322 especie alba

25322 pais COL

COL Pais largo Colombia

Campo valor

Pais COL

Pais largo Colombia

Especimenes

Pais

*Resource Description Framework

Page 6: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Web semántica: ídentificadores únicos

•Identificadores únicos de objetos

•Identificadores únicos de conceptos (ontología)

Sujeto Predicado Objeto

25322 genero Inga

25322 especie alba

25322 pais COL

COL Pais largo Colombia

Page 7: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Web semántica: Identificadores únicos de objetos> LSIDs

Life Science Identifiers (LSID) son un tipo de identificadores globales

– Únicos – Universales – Se pueden resolver (esto es, los entienden las máquinas) – Se pretende que sean persistentes – Facilitar comunicación e intercambio – Más robustos que URL – Con metadatos – Arquitectura que permite descubrir datos de fuentes independientes

urn:lsid:esa.org:esa:26:3

namespace identifier revision authority

Page 8: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Otros identificadores

• DOIs – p.ej.: http://doi.org/10.15470/gprffz

– Centralizado

– Metadatos no estandarizados

• UUIDs – 128 bit string, guaranteed unique

– p.ej.: 58f202ac-22cf-11d1-b12d-002035b29092 – Sin metadatos – Sin resolución

Page 9: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Web semántica: Identificadores únicos de conceptos > URIs; Vocabularios controlados

Page 10: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Ontologías

Page 11: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

• http://www.amjbot.org/content/99/8/1263.full.pdf+html

Page 12: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico
Page 13: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Ontologias hoy

• Retos:

– Falta de vocabularios completos que cubran grupos amplios de organismos (p.e. plantas)

– No todas las entidades observables pueden adscribirse “limpiamente” a las categorías establecidas (p.e. que es un septo de un fruto)

– Homologías discutibles

– Pérdida de detalle en las generalizaciones

– Etc.

Page 14: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Web semántica: navegar los datos como el metro de una ciudad

lugar

•Bases de datos conectadas por ontologías y la Web

•Conseguir que podamos inferir hechos a partir de datos

distribuidos

Page 15: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Hacia donde vamos

La idea es que la web funciona como un único sistema de información

Page 16: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

XML

Los contenidos se tienden a codificar usando un metalenguaje llamado XML (Extensible markup Language .

La definiciones y relaciones se expresan usando una implementación de XML llamada XSD (XML Schema Definition)

Page 17: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

XML

Page 18: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Web semántica en acción: “Linked (open) data”

• http://www.youtube.com/watch?v=uju4wT9uBIA

Page 20: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Cambios en la red de GBIF y en contexto mundial en esa dirección

• Identificadores (UUPR)

– Para juegos de datos

– Para descargas

– Para registros

• Licencias estandarizadas

• APIs

Page 24: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Identificadores para registros

http://www.gbif.org/occurrence/78504121

http://www.gbif.org/occurrence/85254856

• Quitar el humano • Hacerlos persistentes • Hacerlos

semánticamente agnósticos

Page 25: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Licencias estandarizadas

CC0, licencia de uso universal, sin ningún tipo de restricciones.

CC-BY, se permite copiar, redistribuir o editar el material, pero siempre citando adecuadamente la fuente e indicando los cambios realizados.

CC-BY-NC, igual que en el caso anterior pero únicamente para uso no comercial.

Page 27: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

¿Y después?

• RDF

http://community.gbif.org/pg/search/?tag=rdf

Page 28: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Lo nuevo en 4UCOLL

1. Soporte para web semántica: identificadores persistentes: PURLS, UUIDs

2. Soporte para cumplir con el Protocolo de Nagoya

3. Nuevo interfaz, navegación por “Ribbon”

4. Soporte para códigos QR

5. Exportación de datos en Darwin Core Archive

6. Múltiples mejoras en toda la aplicación

Page 29: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Soporte para web semántica: identificadores persistentes

Page 30: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Soporte para cumplir con el Protocolo de Nagoya

• 1.- Los ejemplares catalogados reciben un identificador único, global, persistente y resolvible, que permite su referencia y su trazabilidad hasta el origen.

• 2.- La aplicación permite asociar a cada ejemplar o lotes de ejemplares documentación; en este contexto, PICs, MTAs MATs.: pdf, hiperenlaces, imágenes…

• 3.- Las hojas de envío de material por las que se transfiere e intercambian ejemplares entre instituciones llevan un texto de referencia sobe como manejar y referenciar el material de acuerdo con Nagoya y las recomendaciones de CETAF:

https://www.cbd.int/abs/submissions/icnp-3/EU-Taxonomic-practices.pdf

Page 31: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Nuevo interfaz, navegación por “Ribbon”

Page 32: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Soporte para códigos QR

Page 33: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Exportación de datos en Darwin Core Archive

Page 34: Web semántica, el futuro de las bases de datos de las ...€¦ · Francisco Pando Taller GBIF.ES: Publicación de información de especies Aula de informática Real Jardín Botánico

Francisco Pando

Unidad de coordinación, GBIF España Real Jardín Botánico - CSIC Claudio Moyano 1, 28014 Madrid, Spain [email protected] www.gbif.es http://creativecommons.org/licenses/by-sa/3.0/es/

GBIF-ES es el Nodo Nacional de Información sobre Biodiversidad patrocinado por el Ministerio Español de Economía y Competitividad, gestionado por el Consejo Superior de Investigaciones Científicas