la aplicación de linked data en la agrupaciónndez... · pvl polymath virtual library ......

La aplicación de Linked Data

en la agrupación

“Datos Bibliográficos” Análisis de los casos de uso presentados en el

Library Linked Data Incubator Group Final Report

AUTOR:

CARMEN HERNÁNDEZ SANTIAGO

TUTORA:

Prof. Dra. ANA BELÉN RÍOS HILARIO

Universidad de Salamanca

Facultad de Traducción y Documentación

MÁSTER EN SISTEMAS DE INFORMACIÓN DIGITAL

TRABAJO DE FIN DE MÁSTER

La aplicación deLinked Data en la agrupación “Datos Bibliográficos”

Análisis de los casos de uso presentados en el

Library Linked Data Incubator Group Final Report

AUTOR:

CARMEN HERNÁNDEZ SANTIAGO

TUTORA:

PROF.ªDR.ª ANA BELÉN RÍOS HILARIO

SALAMANCA, 2012

III

“Aquella teoría que no encuentre una aplicación práctica en la vida,

es una acrobacia del pensamiento”

Swami Vivekananda

(Citado en Sánchez Pastor, 2011, p.89)

IV

Ficha catalográfica

Autor Hernández Santiago, Carmen

Título La aplicación de Linked Data en la agrupación de “Datos Bibliográficos”: análisis de los casos de uso presentados en el Library Linked Data Incubator Group Final Report / autor, Carmen Hernández Santiago ; tutor, Ana Belén Ríos Hilario.

Director/Tutor Ríos Hilario, Ana Belén, dir.

Departamento Universidad de Salamanca (España). Facultad de Traducción y Documentación.

Fecha 2012

Desc. Física 70 p.

Palabras clave [ES] Informe Final del Grupo Incubador de Datos Vinculados de Bibliotecas; Grupo Incubador de Datos Vinculados de Bibliotecas: Casos de uso; Grupo Incubador de Datos Vinculados de Bibliotecas: Conjuntos de datos, Vocabularios de valores y Conjuntos de elementos de metadatos; Datos Bibliográficos.

[EN]Library Linked Data Incubator Group Final Report; Library Linked Data Incubator Group: Use Cases; Library Linked Data Incubator Group; Datasets, Value Vocabularies, and Metadata Element Sets; Bibliographic data cluster.

Descripción Trabajo de Fin de Máster del Máster en Sistemas de Información Digital, curso 2011-2012.

Resumen [ES] Se realiza un análisis de los casos de uso particulares de la agrupación Datos Bibliográficos del Informe Final del Grupo Incubador de Datos Vinculados de Bibliotecas, en relación a las ventajas que los Datos Enlazados ofrecen a las bibliotecas e instituciones afines para conseguir que la información que producen y manejan sea más accesible y visible para los usuarios de la Web. Posteriormente a la definición de la temática, se establecen los objetivos y se expone la metodología empleada para la realización del estudio y desarrollo del cuerpo del trabajo, para finalmente llegar a unas conclusiones y propuestas de mejora.

[EN] An analysis of the particular use cases Bibliographic Data Group of the Library Linked Data Incubator Group Final Report (LLD-XG), in relation to the advantages offered Linked Data libraries and related institutions to get the information they produce and manage more accessible and visible for Web users. Following the definition of the issue, set the objectives and the methodology employed for the study and development of the body of work, to finally reach some conclusions and suggestions for improvement.

V

SUMARIO

PAG.

INDICE DE TABLAS Y FIGURAS VI

SIGLAS Y ACCRÓNIMOS VII

Introducción 9

1. Cuerpo del trabajo 15 1. Estado de la cuestión 15

1.1 Linked Open Data (LOD): antecedentes 15 1.2 Library Linked Data Final Report 19

2. Agrupación datos bibliográficos 23

2.1 Modo general 23 Casos que estudia 23 Metodología del estudio de casos 25 2.2 Conclusiones generales 27 2.3 Definición particular de cada caso 29 2.4 Análisis comparativo 53 Procedencia de la autoría 53 Objetivos 54 Requisitos 56 Problemas 60 Relaciones 61

2. Conclusiones y propuestas de mejora 63

3. Bibliografía 66

VI

ÍNDICE DE TABLA Y FIGURAS

PÁG.

TABLAS

Tabla I. Recomendaciones del LLD-XG 21

Tabla II. Agentes implicados en el contexto LD 28

Tabla III. Procedencia de la autoría 53

Tabla IV. Objetivos de los Casos de uso. 55

Tabla V. Requisitos utilizados en los Casos de uso 59

Tabla VI. Problemas en el desarrollo de los Casos de uso 61

Tabla VII. Relaciones de los Casos de uso 62

FIGURAS

Figura 1. Página de inicio del W3C 19

Figura 2. Organización de los casos de uso 24

Figura 3. Relaciones entre los datos de la FAO y los Casos de Uso 34

Figura 4. Organización de vocabularios 37

Figura 5. Requisitos tradicionales de las bibliotecas y requisitos LD 57

VII

SIGLAS Y ACRÓNIMOS

API Application Programming Interface

BIBO Bibliographic Ontology

BN Bibliographic Network

BNF Data BNF

CiTO Citation Type Ontology

CBD Concise Bounded Description

CIS Community Information Service

DDC Dewey Decimal Classification

DC Dublin Core

EDM Europena Data Model

FOAF Friend of a Friend

FRDA Functional Requirements for Authority Data

FRBR Requirements for Bibliographic Records

HTTP Hipertext Transfer Protocol

IFLA International Federationof Library Association

IDLR Identification and Deduplication of Library Records

ISBD International Standard Bibliographic Description

LD Linked Data

LDLLA Linked Data and legacy library applications

LOD Linked Open Data

LCSH Library Congress Subject Headings

LLD-XG Library Linked Data Incubator Group

MLLD Migrating Library Legacy Data

OCLC Online Computer Library Center

OPAC Online Public Access Catalog

OS Open Source

OA Open Access

OD Open Data

OLD Open Library Data

VIII

OWL

Web Ontology Language

PVL Polymath Virtual Library

RAMEAU Répertoire d'Autorité Matière Encyclopédique et Alphabétique Unifié

RC Regional Catalog

RDA Resource Description Access

RDF Resource Description Framework

SKOS Simple Knowledge Organization System

TP3 Talis Prism 3

URI Uniform Resource Identifier

URL Uniform Resource Locator

VIAF Virtual International Authority File

W3C World Wide Web Consortium

WWW World Wide Web

XC eXtensible Catalog

XML Extensible Markup Language

http://www.extensiblecatalog.org/

La aplicación Linked Data en la agrupación de “Datos Bibliográficos”

Carmen Hernández Santiago 9

INTRODUCCIÓN

El Máster en Sistemas de Información Digital (MSID), ofertado por la Universidad de Salamanca, fue el primer máster sobre Información y Documentación de la Comunidad Autónoma de Castilla y León adaptado al Espacio Europeo de Educación Superior (EEES).Se constituye como una enseñanza que pretende reforzar las competencias requeridas para que los profesionales de la información y la documentación puedan desempeñar sus labores en entornos digitales (Máster oficial en Sistemas de Información Digital).

Siguiendo el actual Reglamento de Trabajos Fin de Máster de la Universidad de Salamanca (Universidad de Salamanca, 2009), en adelante TFM, se considera “como una asignatura independiente del plan de estudios de cualquier máster universitario considerándose un trabajo autónomo que cada estudiante realiza bajo la orientación de un tutor/a que actuará como dinamizador y facilitador del proceso de aprendizaje. Con el desarrollo de este trabajo, el estudiante tiene la oportunidad de mostrar los contenidos aprendidos y competencias adquiridas relacionadas con dicho máster”.

Entre los motivos que influyeron para cursar dicho máster está principalmente el interés por ampliar los conocimientos aprendidos en la Diplomatura de Biblioteconomía y Documentación pero tratados desde un punto de vista digital, es decir, todo lo relacionado con recursos electrónicos y documentos digitales desarrollados en este campo y en la sociedad en general, ya que supone una nueva vía de estudio y trabajo para el futuro.

A lo largo del desarrollo del máster, la asignatura denominada "Descripción de documentos digitales", impartida por la profesora Ana Belén Ríos Hilario, supuso una gran influencia para la elección del tema y debido a que en la antigua diplomatura no se realizaban trabajos de fin de titulación de estas características, vimos la oportunidad de desarrollar el trabajo final del máster sobre esta materia. Por lo tanto, tras una primera reunión con la tutora para la elección del tema, objeto de análisis del trabajo, las opciones que se plantearon fueron varias. Entre ellas, se perfilaba el estudio de los metadatos en el ámbito de la medicina, debido al Grado Superior de Técnico en Documentación Sanitaria realizado posterior a la diplomatura. Finalmente, se descartó por no existir abundante documentación específica del tema. A continuación, decidimos que el trabajo queríamos enfocarlo en relación a los Datos Enlazados, ya que nos perecía un tema novedoso y en auge en el contexto de las bibliotecas e instituciones afines.

En un primer momento, se optó por el estudio relativo al uso de datos enlazados en las bibliotecas nacionales europeas, concretamente, elegimos para el análisis la bibliotecas nacionales de España, Francia, Alemania y Gran Bretaña, que fueron las pioneras en desarrollar proyectos de estas características, para conseguir que sus datos estuvieran vinculados y fueran más accesibles en la Web. Sin embargo, se descartó esta opción, ya que la documentación existente en torno al tema era insuficiente para desarrollar un análisis de esta dimensión, y además, nos encontramos con dificultades lingüísticas porque los recursos documentales hallados estaban, fundamentalmente, en la lengua oficial de cada país. Finalmente, se optó por el análisis de los casos de uso presentados en el Library Linked Data Incubator Group Final Report de la agrupación "Datos Bibliográficos", basado en un proyecto dirigido por el World Wide Web Consortium (W3C).

Es en el seno de esta organización donde podemos contextualizar la base de nuestro trabajo, ya que dependiente de ella está el Library Linked Data Incubator Group (LLD-XG)



encargado de realizar el informe citado anteriormente, en el que se analizan las características que LD aporta a las bibliotecas e organizaciones similares, recogiendo así detalladamente la situación actual de dicho tema. Además, este informe se complementa con otros dos documentos: en primer lugar, el Library Linked Data Incubator Group: Use Cases, que recoge los diferentes casos prácticos de las ocho agrupaciones que estudia; y, en segundo lugar, el Library Linked Data Incubator Group: Datasets, Value Vocabularies, and Metadata Element Sets, que enumera las diferentes tecnologías y vocabularios utilizados por los casos de uso.

Finalmente, se decidió examinar en profundidad la agrupación de los Datos Bibliográficos porque de los ocho temas propuestos en el documento de los casos prácticos, este grupo era el que nos resultaba más familiar e interesante. Asimismo, está en relación directa con la asignatura impartida por nuestra tutora, cuyos conocimientos teóricos sobre el tema serían de una gran aportación.

Partiendo de estas premisas y fijado el tema de estudio, pasamos a definir los objetivos del mismo.

El objetivo principal de este trabajo es analizar los casos de uso particulares del Grupo de Datos Bibliográficos del LLD-XG, en relación a las ventajas que los Datos Enlazados ofrecen a las bibliotecas e instituciones afines para conseguir que la información que producen y manejan sea más accesible y visible para los usuarios de la Web.

De este objetivo principal y general, se establecen otros de carácter más específico en relación con los casos analizados. Estos objetivos son los siguientes:

1. Identificar la autoría de cada caso de uso para valorar el tipo de propietario encargado de realizar el análisis del ejemplo en particular.

2. Extraer los objetivos específicos propuestos en cada caso práctico, para entender la función desempeñada por el mismo.

3. Especificar los requisitos utilizados por cada caso de uso en el desarrollo de su trabajo individual, para la creación y manejo de los Datos Enlazados.

4. Identificar los problemas que surgen en el proceso de las actividades específicas de los casos prácticos, en relación a la aplicación de Linked Open Data.

5. Enumerar las relaciones establecidas entre los casos de uso, que sirven de complemento para mejorar el proyecto individual de cada uno de ellos.

Otro objetivo indirectamente relacionado con el principal, consiste en analizar el Informe Final, elaborado por el Incubator Group, para identificar las partes de las que se compone dicho informe y estudiarlo en su conjunto para además, detectar posibles fallos y errores.

En relación con los objetivos fijados en el trabajo, se establece la metodología que se seguimos para su elaboración.

En primer lugar, debemos hacer referencia a las fuentes de información bibliográficas que servirán de base para extraer la información objeto de estudio y análisis del trabajo. Nuestra fuente principal es el W3C, fuente original de los tres informes de los que se toma la información fundamental. Estos informes, a los que ya hemos hecho referencia, son los siguientes:



- Library Linked Data Incubator Group Final Report (Informe Final del Grupo

Incubador de Datos Vinculados de Bibliotecas).

- Library Linked Data Incubator Group: Use Cases (Grupo Incubador de Datos

Vinculados de Bibliotecas: Casos de uso).

- Library Linked Data Incubator Group: Datasets, Value Vocabularies, and Metadata Element Sets (VOCABDATASET, Grupo Incubador de Datos Vinculados de Bibliotecas: Conjuntos de datos, Vocabularios de valores y Conjuntos de elementos de metadatos).

En lo que se refiere al apartado de los Casos de uso particulares para ampliar y complementar la información, acudimos a la fuente original del propio caso. Sucede lo mismo con los requisitos que se enumeran en el documento VOCABDATASET, ya que consultamos las páginas originales de cada vocabulario. También se toma como referencia esencial, la Fundación Ignacio Larramendi, que realiza una ardua tarea de traducción al español de los informes que el Library Linked Data Incubator Group elabora en relación a este tema. Previamente, el VOCABDATASET fue traducido por Saorín y Pastor. La publicación de los textos originales data de noviembre de 2011, por lo que en un primer momento nos vimos obligados a llevar a cabo nuestra propia traducción, que posteriormente completamos y cotejamos con las realizadas por la mencionada Fundación y la de los profesores de la Universidad de Murcia. Por otro lado, utilizamos Google Scholar para localizar los documentos relacionados con el tema, y finalmente, también ha sido imprescindible la bibliografía aportada por la tutora. La parte específica de la metodología se constituye en torno a los objetivos propuestos. En primer lugar, se tuvo que traducir al español cada caso de uso presente en la agrupación Datos Bibliográficos, ya que de los ejemplos concretos de cada caso analizado, hasta el momento, no existe ninguna versión en lengua española. Por lo tanto, esta labor de traducción e interpretación de cada caso práctico supone un valor añadido a los objetivos que se pretenden conseguir con la elaboración del TFM. Complementamos la información que figuraba de cada ejemplo acudiendo a la fuente original, es decir, el propio caso de uso. Tras el análisis pormenorizado de los 12 casos de usos pertenecientes a la agrupación Datos Bibliográficos, procedimos a determinar las variables objeto de comparación entre dicho casos. Estas variables hacen referencia a:

- Procedencia de la autoría: autores propietarios de cada caso de uso. - Objetivos: aquellos que se propone alcanzar cada caso práctico. - Requisitos: vocabularios y tecnologías utilizadas por los casos de uso en su

desarrollo. - Problemas: limitaciones que aparecen con el desarrollo de los casos. - Relaciones: aquellas que se establecen entre los casos de uso del mismo grupo

de Datos Bibliográficos o de las otras agrupaciones definidas en el propio informe.

Para conseguir representar estas variables de manera sencilla, decidimos elaborar unas tablas que permitieran visualizarlas con facilidad y reflejar la información extraída de cada caso. Cada una de las tablas confeccionadas se acompaña de un comentario que hace



alusión a los aspectos más significativos observados del conjunto de casos y a las comparaciones extraídas de los casos prácticos del grupo de Datos Bibliográficos.

La variable más conflictiva fue la relativa a los requisitos, es decir, la relativa a las tecnologías y vocabularios que emplean los casos de uso en su desarrollo, ya que la denominación de los requisitos tradicionales no es equivalente a la actual. Este hecho no podemos corroborar si es un aspecto negativo o simplemente se trata de una evolución natural del propio contexto LD. Por ello, para precisar este apartado, vimos la necesidad de explicarlo con una tabla que reflejara las denominaciones utilizadas anteriormente frente a las utilizadas en la actualidad. Además, se detalla los nombres de los casos tradicionales con su correspondiente denominación en la actualidad.

Uno de los mayores inconvenientes encontrados en la redacción de los casos fue la cantidad de siglas y acrónimos utilizados, mayoritariamente correspondientes a términos en inglés. Por lo tanto, consideramos oportuna la elaboración de un glosario que facilitara la lectura y comprensión del texto por parte del lector.

También, acompañando al epígrafe de cada caso de uso optamos por añadir las siglas correspondientes a las iniciales del nombre original del caso, con el fin de identificarlos posteriormente en las tablas comparativas de una manera más fácil y simplificada.

Finalizada la parte central del trabajo, enumeramos las conclusiones extraídas del análisis de los datos partiendo de los objetivos definidos, además de la sugerencia de posibles líneas de investigación relacionadas con el tema del trabajo. Las conclusiones que se han extraído están relacionadas con los objetivos propuestos en el tema objeto de estudio. En cuanto a las propuestas de mejora, nos centramos especialmente en las líneas a seguir para la elaboración de futuros trabajos relacionados con este tema.

Por último, se hace un listado de las fuentes bibliográficas utilizadas en la elaboración de dicho trabajo. Principalmente, nuestro estudio se basa en los informes elaborados por el W3C, no obstante, se ha hecho uso de trabajos y publicaciones que han servido de base para nuestra exposición, para cuya elaboración se ha seguido la norma internacional ISO 690 y, la ISO 690-2, para el caso de los documentos electrónicos y sus partes.

En cuanto a la estructura empleada para la redacción final del TFM, se siguió un esquema general fijado de antemano, que se detalla a continuación:

Preliminares.

Como todo trabajo académico de estas características, consta de unos preliminares que incluyen la siguiente información:

- Asiento catalográfico, siguiendo el modelo de ficha de metadatos empleada en el repositorio institucional Gredos, de la Universidad de Salamanca.

- Resumen y palabras clave en español e inglés, incluidos en la ficha catalográfica.

- Sumario, que es la sección en la que se incluyen los diferentes apartados en los que se divide el trabajo y se señala la paginación del mismo.

- Índice de tablas y figuras, donde se listan los mismos con su correspondiente

ubicación en el texto.



- Siglas y acrónimos, listado donde se enumeran y desarrollan las siglas empleadas

en el trabajo de forma alfabética.

Introducción.

Donde especificamos el marco de nuestro trabajo, justificación, objetivos, metodología y estructura.

Cuerpo del trabajo.

Considerado el grueso del trabajo, donde se estudia y analiza de manera precisa el tema objeto de estudio. Dividimos la parte central de nuestro estudio en dos grandes apartados. El primero de ellos, denominado Estado de la cuestión, se fracciona a su vez en dos subapartado: el referente a los antecedentes del LOD, y el relativo al informe del Grupo Incubador de Datos vinculados. En la primera sección -Linked Open Data (LOD): antecedents- se realiza un breve repaso histórico al surgimiento de dicha técnica y su relación con otros movimientos “Open” y Data”. En la siguiente sección, analizamos en profundidad el documento Library Linked Data Final Report, sobre el que se sustenta la base de nuestro trabajo. Así, comenzamos por explicar la labor desarrollada por el World Wide Web Consortium (W3C) para, a continuación, analizar las recomendaciones específicas del Grupo Incubador en función de los destinatarios definidos en el propio informe. También se hace referencia a las ventajas e inconvenientes que conlleva la aplicación de dicha técnica en el ámbito bibliotecario.

En el siguiente capítulo, se acomete la tarea de evaluación de los casos de uso de la agrupación Datos Bibliográficos, eje en torno al cual se desarrolla nuestro trabajo. Así, en el primer punto -Modo general- se define los casos de uso establecidos y la metodología llevada a cabo para todas las agrupaciones presente en el documento Library Linked Data Incubator Group: Use Cases. En el segundo apartado de este capítulo se extraen una serie de conclusiones generales relacionadas con los objetivos perseguidos por cada caso particular y en su conjunto. La tercera parte se corresponde con la definición particular de cada uno de los casos objeto de examen. Para cada caso se ha seguido el siguiente esquema, que se corresponde, siempre y cuando ha sido posible con el patrón presente en el documento citado anteriormente:

Nombre: hace alusión al nombre del caso de uso.

Propietario: se especifica el propietario del caso práctico.

Antecedentes y práctica actual: en este apartado se especifican los antecedentes del caso de uso que se va a estudiar y el estado actual del mismo.

Objetivos: describe los objetivos que se persiguen con cada caso.

Destinatarios: especifica los destinatarios a los que va destinado.

Escenario de los Casos de Uso: hace mención al contexto en el que se sitúa el caso de uso en cuestión.

Aplicación de los datos enlazados para los casos dados: detalla cual es la aplicación de los LD en cada caso práctico.

Trabajo existente: hace referencia al trabajo previo que existe relacionado con cada caso de uso.

Vocabularios relacionados: define los vocabularios con los que se trabaja en cada caso.



Problemas y limitaciones: enumera los problemas y limitaciones que aparecen con el uso de LD en los casos de uso.

Casos de uso relacionados: especifica las relaciones existentes entre los casos prácticos.

En el cuarto y último apartado, se desarrolla el análisis comparativo propiamente dicho de acuerdo a los siguientes puntos que se corresponden con las variables definidas previamente en el apartado metodológico.

1. Procedencia de la autoría 2. Objetivos 3. Requisitos 4. Problemas 5. Relaciones

Conclusiones y propuestas de mejora.

Se extraen una serie de conclusiones determinadas por los objetivos definidos en el trabajo y se exponen algunas propuestas de mejora y líneas de investigación de futuros estudios relacionados con el tema. Como resumen de este punto diremos que la aplicación de LD tanto en las instituciones culturales, en general, como en el conjunto de Datos bibliográficos, en particular, es ya una realidad. Existen toda una serie de esquemas y modelos de metadatos que evolucionan hacia la Web, normas y protocolos para la construcción de la interoperabilidad, tanto dentro como fuera del entorno bibliotecario. Una gran cantidad de datos estructurados ya están disponibles en los sistemas bibliotecarios y podría publicarse como LD. Sin embargo, también hay que salvar una serie de barreras, entre las que citaremos, la falta de coordinación entre las distintas organizaciones culturales.

Bibliografía

Finalmente, se presenta un listado ordenado alfabéticamente con las fuentes bibliográficas utilizadas en la elaboración del trabajo. En dicho apartado no se ha realizado una diferenciación entre las obras consultadas y los recursos de información objeto de estudio, siendo estos últimos los más numerosos debido a las características inherentes del propio trabajo de investigación. Destacar que existe un claro predominio de los documentos escritos en lengua inglesa. Este hecho tiene su razón de ser porque muchas de las fuentes se encuentran disponibles, como ya se ha comentado anteriormente, en el W3C.

Para concluir y antes de dar paso al cuerpo del trabajo, deseo expresar mi más sincero agradecimiento a la directora de este trabajo, Ana Belén Ríos Hilario, por su confianza y por compartir sus conocimientos conmigo, así como por ofrecerme su apoyo incondicional a lo largo del desarrollo del trabajo.



1. CUERPO DEL TRABAJO

1. ESTADO DE LA CUESTIÓN

1.1 Linked Open Data (LOD): antecedentes

Con el estudio y desarrollo de la Word Wilde Web, aproximadamente en 1989, por Tim Berners-Lee con ayuda de Robert Caillaiu, y su posterior publicación formal en 1991, se produjo una revolución en la sociedad, ya que este acontecimiento supuso un punto de inflexión en el método de comunicación entre personas y la información.

Desde este momento la Web adquirió un carácter que hasta entonces se desconocía, al desarrollarse un método eficiente y rápido para el intercambio de datos, especialmente entre la comunidad científica. Para ello Tim Berners, combinó dos tecnologías ya existentes: el hipertexto y el protocolo de comunicaciones de Internet. Esta conjugación hizo posible lo que ahora conocemos vulgarmente como la tres “w” (Word Wide Web).

Unos de los primeros puntos a tratar para contextualizar el tema concreto, es la mención a los movimientos denominados “Open” que surgen tras la aparición de la Web en relación a la producción y divulgación de información, especialmente, lo que se refiere a producción científica y académica digital. El movimiento Open, es por tanto, el primero y más importante de los movimientos que se van a suceder en la red desde su aparición hasta nuestros días.

En primer lugar, se debe clasificar lo que significa Movimientos “Open”. Teniendo en cuenta su etimología, su significado no es más que abierto y hace referencia a las condiciones de accesibilidad de los flujos de información que se manifiestan en la red (Antonio Ariño Villarroya, 2008). El Movimiento Open se compone de tres ramas, las

cuales se conocen como Open Source (OS), Open Access (OA) y Open Data (OD).Es el Movimiento Open Acces el que tiene sentido definir en el contexto de este trabajo, pero cabe destacar brevemente el significado de los otros dos movimientos.

Ya que el término Open Source es el menos relacionado con el objeto de estudio pasaremos a definirlo brevemente como “software distribuido y desarrollado libremente” (OCITEL, Information Technologies, 2008, p.1). Perter Suber (2004) define Open Access como el acceso abierto a la literatura científica con libre disponibilidad en Internet, permitiendo a cualquier usuario su lectura, descarga, copia, impresión, distribución o cualquier otro uso legal de la misma, sin ninguna barrera financiera, técnica o de cualquier tipo. La única restricción sobre la distribución y reproducción sería dar a los autores control sobre la integridad de su trabajo y el derecho a ser citado y reconocido su trabajo adecuadamente. Los inicios del Open Access no son sencillos debido a posturas encontradas entre las partes implicadas de este movimiento que impiden su desarrollo normal. Entre ellos, cabe destacar los intereses comerciales de las revistas científicas, ya que si los documentos se distribuyen de manera libre y gratuita en Internet, el poder adquisitivo de las editoriales se verá disminuido; por otro lado, existe el desconocimiento de los investigadores de hacer uso de los beneficios que presta el Movimiento Open en la creación científica, al mejorar la visibilidad de sus producciones, que conlleva el progreso científico; y por último, la falta



de apoyo institucional para llevar a término este proyecto. Sin embargo, a pesar de los obstáculos encontrados en el inicio de su desarrollo, a finales de los años noventa poco a poco se fue transformando en un movimiento que exigía el acceso libre y gratuito del conocimiento científico. La máxima que perseguía esta corriente era suprimir en la medida de lo posible las barreras económicas, legales y tecnológicas para obtener a cambio una serie de beneficios que se concretaron en dos premisas básicas. Por un lado, alcanzar la máxima accesibilidad a las producciones científicas y por otro, obtener una mayor visibilidad para los autores. De este hecho se deriva una regla fundamental del movimiento OA: aquellos documentos disponibles libremente son más consultados y por lo tanto los autores de los mismos tienen más posibilidades de ser citados (Sánchez Tarragó, 2007)

Para conseguir que esta regla se llevara a cabo, además del esfuerzo y la buena intención de las partes implicadas, se necesitaba de un compromiso avalado internacionalmente que reforzara y perfilara la definición de este movimiento, y así se reflejó mediante tres declaraciones de obligada referencia, que se señalan a continuación:

Declaración Budapest Open Access Initiative (BOAI, 2002): es considerada como el inicio oficial del movimiento OA. En ella se perfilan las bases de esta corriente con los siguientes aspectos:

- ¿Cuáles tienen que ser los contenidos que deben ser accesibles? aquellos que los académicos ofrecen sin esperar una remuneración.

- Qué se entiende por acceso abierto: disponibilidad gratuita y pública en la red, permitiendo la lectura, la descarga, copia, distribución, impresión, búsqueda o enlace a los textos completos, sin barreras económicas, legales o técnicas. La única condición es mantener la integridad de los textos y el reconocimiento de la autoría al ser citados.

- Se reconoce que la producción siguiendo el modelo de acceso libre tiene un coste, aunque menor que el sistema tradicional, y que no tiene que repercutir en los lectores.

- Se invita a gobiernos, universidades, bibliotecas, editores, fundaciones, sociedades, asociaciones y académicos a unirse a la iniciativa para eliminar las barreras al acceso libre.

Declaración de Bethesda (Bethesda Statementon Open Access Publishing,2003): asume las características de la anterior, complementándola con la garantía de que el copyright no será la barrera para el acceso a los textos difundidos y que los ficheros de los mismos se depositarán en un repositorio institucional.

Declaración de Berlín (GeoTrópico, 2003): es de suma importancia especialmente desde el punto de vista de la política científica, puesto que la adhesión a la misma, pese a no ser de obligado cumplimiento, sí compromete a las instituciones firmantes al apoyo al movimiento Open Access y a garantizar iniciativas y proyectos para su desarrollo.



Para concluir, en relación al concepto de OA, podemos decir que consiste en la disponibilidad gratuita y sin restricciones de la información científica a la que cualquier usuario puede acceder mediante una conexión a Internet, teniendo siempre en cuenta que dicha información ha sido creada por una persona o institución y siempre debe respetarse la autoría y reconocimiento del trabajo que se merece.

En este punto podemos enlazar con otro concepto muy relacionado con el Movimiento Open, denominado Web Semántica. Según el World Wide Web Consortium (W3C) la definición de Web Semántica es la siguiente:

"La Web Semántica proporciona un marco común que permite que los datos sean compartidos y reutilizados a través de aplicaciones, empresas y fronteras comunitarias. Es un esfuerzo colaborativo liderado por el W3C con la participación de un gran número de investigadores y socios industriales. Está basado en Resource Description Framework (RDF) e integra una variedad de aplicaciones utilizando XML para la sintaxis y URIs para las denominaciones."

Con el aumento de la producción científica y su acceso libre y gratuito en la red, la Web ha aumentado su tamaño considerablemente, de forma que a medida que los sitios Web aumentan, la organización y procesado de la información se incrementan exponencialmente necesitando cada vez un esfuerzo mayor para acceder a los documentos que interesan. En este contexto, se ha propuesto el concepto de Web Semántica, que no es más que una evolución de la Web actual, mediante la cual se pretende automatizar lo máximo posible la administración de la información en la red, además, de conseguir que los documentos incorporen un significado semántico que pueda ser entendido por las máquinas sin necesidad de la intervención humana. Es decir, la Web Semántica se dota de mayor significado donde cualquier usuario puede encontrar datos precisos y de calidad que respondan a sus preguntas gracias a una información mejor definida basada en el significado y, no en la estructura de datos, planteando la necesidad de definir relaciones entre conceptos.

En este sentido, parecen oportunas las palabras de Allemang y Hendler (2008, p.4) cuando manifiestan el eslogan AAA de la Web semántica “Anyone can say Anything about Anytopic1”donde fomentan la pluralidad de la información, permitiendo que muchos agentes añadan información sobre las mismas entidades, para obtener diferentes puntos de vista simultáneos.

La base de la Web Semántica son los metadatos, entendidos como recursos que proporcionan información acerca de sí mismos pero que deben estar en un formato que sea procesable por las máquinas (Martín Álvarez Espinar, 2005). Para poder procesar estos metadatos son necesarios ciertos mecanismos que ayuden a convertir la Web en una infraestructura de carácter global donde se puedan compartir los datos y reutilizarlos, de la manera más fácil posible, entre los usuarios y la propia Web.

También es importante referirnos a dos conceptos muy unidos, que no deben entenderse como sinónimos pero que ambos se complementan, Open Data (OD) y Linked Data (LD). Así como OD especifica el aspecto legal de la interoperabilidad, LD se refiere a la interoperabilidad técnica de los datos. La complementación entre ambos da lugar al movimiento Linked Open Data (LOD).

1 “Cualquier persona puede decir cualquier cosa sobre cualquier tema”



Nuevamente fue Tim Berners-Lee, el responsable de dar a conocer este nuevo concepto dentro de la estructura de la Web Semántica y el responsable también de establecer los requisitos que caracterizan a este movimiento y que figuran a continuación:

Utilizar URIs para identificar con nombre únicos a los recursos.

Utilizar el protocolo HTTP para nombrar y resolver la ubicación de los datos identificados mediante esas URIs.

Representar los datos y ofrecer información sobre los recursos utilizando RDF y manejar SPARQL como lenguaje de consulta de dichos datos.

Incluir enlaces a otras URIs para permitir la localización de más Datos Enlazados.

Para que los datos puedan estar interconectados en la Web se deben cumplir estas cuatro condiciones.

Sin embargo, todas estas acciones se ocultan al usuario, es decir, los receptores finales no son conscientes de estos cambios en lo que respecta a las técnicas que se siguen, pero sí son los beneficiarios de los progresos que se producen en la estructura de los datos. Dichas ventajas permiten una navegación que mejora la localización y uso de la información al tener enlaces que relacionan unos registros con otros. Por lo tanto, con los Datos Vinculados Abiertos, las bibliotecas e instituciones afines pueden aumentar su presencia en la Web, lo que supone una oportunidad más que una amenaza.

Podemos concluir este punto ratificando que este contexto antecede a todos los proyectos que se van a llevar a cabo posteriormente relacionados con LD y LOD. Estudios, proyectos, análisis, etc., basados en estas herramientas ayudan y permiten crear una Web más visible y accesible, sin restricciones de ningún tipo a todos los usuarios.

Entre alguno de esos proyectos destacamos los llevados a cabo en el seno del W3C, resaltando el liderado por el Library Linked Data Incubator Group (LLD-XG, Grupo Incubador de Datos Vinculados de Bibliotecas), que por su importancia para el desarrollo del núcleo central de nuestro trabajo pasaremos a desarrollar en el siguiente apartado.



1.2. Library Linked Data Final Report

El World Wide Web Consortium (W3C) es una organización internacional creada en 1994 por Tim Berners-Lee con el objetivo fundamental de hacer una Web más accesible para todos los usurarios.

Figura 1. Página de inicio del W3C

Fuente: World Wide Web Consortium, 2012

Con este propósito, el W3C se ha encargado de desarrollar numerosos trabajos, entre ellos destaca los Grupos del W3C, desarrollados para el trabajo conjunto y colaborativo de la Web. Es en este momento cuando se empieza a tomar conciencia de la responsabilidad que supone el desarrollo de labores encaminadas al buen funcionamiento de una Web de calidad. Los grupos del W3C se clasifican en cuatro tipos:

1. Grupos de trabajo (Working Groups)

Estos grupos trabajan generalmente en la obtención de resultados (por ejemplo, de

normas de informes técnicos, software, conjuntos de pruebas y revisiones de los resultados de otros grupos).

2. Grupos de interés (Interest Groups)

El objetivo principal de un grupo de interés es reunir a las personas que deseen evaluar las potenciales tecnologías y políticas Web. Un grupo de interés es un foro para el intercambio de ideas.



3. Grupos de coordinación (Coordination Groups)

Un Grupo de coordinación gestiona las dependencias y facilita la comunicación con otros grupos, dentro o fuera del W3C.

4. Grupo incubadora (Incubator Group)

Los Grupos “incubadora” fomentan el rápido desarrollo, en una escala de tiempo de un año o menos, de los nuevos conceptos relacionados con la Web. Entre sus misiones está incluir ideas innovadoras para las especificaciones, normas y aplicaciones que no son (o todavía no) candidatos claros para el desarrollo y el examen más profundo de la actual Recomendación W3C.

Dentro de estos grupos destaca el denominado Incubator Group. A su vez, este grupo se divide según los temas de trabajo a los que se dedique. Así, podemos mencionar el Library Linked Data Incubator Group (LLD-XG, Grupo incubadora de Datos Vinculado Bibliotecarios),cuyo período de funcionamiento abarca desde mayo de 2010 hasta agosto de 2011, y fue constituido con el objetivo de "contribuir a incrementar la interoperabilidad global de los datos de las bibliotecas en la Web, reuniendo a personas implicadas en actividades de la Web Semántica en bibliotecas e instituciones afines, mediante el examen de las iniciativas en curso e identificando futuras vías de colaboración" (W3C, 2011).

Este grupo tiene como misión analizar la utilización de los LD y su aplicación en la Web Semántica respecto a la información que las bibliotecas producen y manejan, para conseguir que esos datos puedan llegar a ser más visibles y accesibles fuera de su contexto original. Para ello, centra su trabajo en el análisis de la aplicación conjunta de las normas de la Web Semántica y los principios de LD sobre una serie de casos concretos. Los resultados del estudio se plasman en un informe final denominado Library Linked Data Incubator Group Final Report (Informe Final del Grupo Incubador de Datos Vinculados de Bibliotecas) que supone el punto de partida de los estudios que hasta el momento se habían realizado en torno a estos conceptos.

Con este propósito, el W3C se ha encargado de desarrollar numerosos trabajos, en especial las llamadas Recomendaciones, que describen protocolos de comunicación y otros elementos de desarrollo de la Web. Además, las recomendaciones que se muestran en el Informe Final van dirigidas a todos los organismos e instituciones implicados en el uso del LD. En concreto, podemos distinguir varios sectores cuyos trabajos se orientan a aspectos diferentes, como son: los directores de las bibliotecas, los organismos de normalización de las bibliotecas, los ingenieros de datos y sistemas y los propios bibliotecarios y archiveros. Todos ellos participan de una manera u otra en este proyecto con el objetivo de elaborar una Web más visible y accesible a todos los usuarios, por tanto, si individualmente cada sector sigue las recomendaciones establecidas en el informe se facilitaría el entendimiento global entre las prácticas habituales de las bibliotecas y las ventajas del uso de LD en las mismas.



En la tabla I, podemos observar las recomendaciones específicas para cada tipo de destinatario identificado por el Grupo.

DESTINATARIOS

RECOMENDACIONES

Directores de bibliotecas

- Identificar los conjuntos de datos candidatos a exponerse inmediatamente como Datos Vinculados.

- Fomentar el debate sobre Datos Abiertos y los derechos de propiedad.

Agencias de normalización y sus

miembros

- Incrementar la participación de las bibliotecas en la estandarización de la Web Semántica.

- Desarrollar normas sobre datos de bibliotecas compatibles con Datos Vinculados.

- Desarrollar y difundir mejores prácticas en el diseño

de modelos ajustados a Datos Vinculados de bibliotecas.

Ingenieros de datos y sistemas

- Diseñar y probar servicios para los usuarios basados en las capacidades de Datos Vinculados.

- Crear URIs para los ítems de los conjuntos de datos de bibliotecas.

- Desarrollar políticas de gestión de vocabularios de

Datos Vinculados y de sus URIs.

- Expresar los datos de bibliotecas por medio de la reutilización o del mapeo de vocabularios de Datos Vinculados.

Bibliotecarios y archiveros

- Preservar los conjuntos de elementos y los vocabularios de valores de Datos Vinculados.

- Aplicar la experiencia bibliotecaria en el tratamiento de los conjuntos de datos y su preservación a largo plazo en Datos Vinculados

Tabla I. Recomendaciones del LLD-XG

Por ello, uno de los puntos fuertes que trata el informe es la utilización de Datos Vinculados en bibliotecas e instituciones afines, lo que supone un paso claro hacia la interoperabilidad, es decir, estos organismos ya no trabajan por si solos ni con un objetivo único a favor de su propio beneficio, sino que las actividades que realizan están



encaminadas a un uso conjunto por parte de todos los organismos, no solo de carácter bibliotecario sino que también se engloban instituciones como museos y archivos. Es lo que se conoce con el anglicismo LAM (Library, Archive and Museum2). Así, los recursos que describen se apoyan en la colaboración de otros organismos similares, consiguiendo enlazar los datos entre ellos. Este hecho significa que un documento no está relacionado solamente con la institución que lo produce, sino que además puede completarse con información externa de otras organizaciones. Para lograr esta tarea, se propone la utilización de identificadores únicos que permitan distinguir de manera individual obras, materias, objetos, etc., hecho que posibilita que sus datos sean más accesibles y visibles dentro de la Web.

En el informe se analiza también la situación en la que se encuentran bibliotecas e instituciones afines. Por un lado, respecto al papel que desempeñan los diferentes grupos que participan en el proyecto para obtener mayores beneficios de la Web mediante la utilización de Datos Enlazados. Y por otro lado, se analizan las bases sobre las que se asienta el proyecto y que repercuten a favor o en contra del desarrollo del plan de trabajo. Algunos de esos aspectos están relacionados con las limitaciones de los datos tradicionales de bibliotecas, la disponibilidad de los LD de bibliotecas en el momento en que se elaboró el informe y aspectos relativos a cuestiones sobre derechos, especialmente, en lo que se refiere a la propiedad de los datos en las bibliotecas e instituciones similares. Así, el Incubator Group realiza una labor de análisis profunda en torno a estas limitaciones, ya que pueden condicionar el desarrollo uniforme de la aplicación de LD y sus beneficios en bibliotecas. Estas circunstancias, hacen que los primeros pasos no fueran fáciles puesto que no existía un acuerdo equivalente entre los formatos y estructuras de datos de las bibliotecas y la estructura de los LD en la Web Semántica. Por lo tanto, el Informe Final del Grupo lo que pretende es superar esas barreras técnicas, semánticas, legales, etc. para un entendimiento integral que posibilite el uso de LD en las bibliotecas y así lograr compartir, ampliar y reutilizar los datos fácilmente. Por ello, unos de sus trabajos más importantes y relacionado con el Informe Final, es el estudio que realizan de una serie de Casos de uso o Casos Prácticos. Estos casos se centran especialmente en el incremento de la interoperabilidad de los datos que contienen, es decir, que todas las bibliotecas o instituciones encargadas de crear y distribuir la información de su propiedad pudieran garantizar el intercambio de esos datos utilizando las ventajas que ofrece las tecnologías de la Web Semántica y el uso de Datos Enlazados conjuntamente. Para ello, se basan en publicaciones y análisis que anteriormente no se habían realizado, pero también trabajan en el desarrollo de nuevas vías de colaboración, que ayuden a mantener y fortalecer este proyecto. También este Informe Final, se complementa con otro documento denominado Grupo Incubador de datos Vinculados de Bibliotecas: Conjuntos de datos, Vocabularios de Valores y Conjuntos de elementos de metadatos (VOCABDATASET), que recoge las tecnologías y recursos disponibles en LD de las bibliotecas e instituciones afines y que mayoritariamente son utilizados por las agrupaciones temáticas que se estudian.

2En particular, en este trabajo cuando hablamos de datos bibliotecarios hacemos referencia también a la información que

proporcionan los archivos y museos (LAM).



2. AGRUPACIÓN DE LOS DATOS BIBLIOGRÁFICOS

2.1 Modo general

El Informe Final elaborado por el Library Linked Data Incubator Group (LLD-XG, Grupo incubadora de Datos Enlazados Bibliotecarios) sienta las bases de la situación en la que se encuentran las bibliotecas e instituciones en torno al uso de los LD y Web Semántica, ejemplificando para ello una serie de casos de uso, que exponen de forma concreta cómo se trata el tema.

Casos que estudia

El Library Linked Data Incubator Group recopiló una serie de casos de uso, estudios e ideas, establecidos en ocho agrupaciones de diferente índole pero todos relacionados con el objetivo común de analizar los aspectos generales de cada caso práctico para sintetizar las ideas principales y llegar a unas conclusiones finales en torno al uso de los LD y su aplicación en la Web Semántica.

Este estudio no se centra en un único sector, si no que incluye varias agrupaciones, para obtener una visión más amplia de la situación de LD y su uso en bibliotecas e instituciones. Así, la agrupación de los casos de uso propuesta en el Informe Final por el Incubator Group es la siguiente:

Datos bibliográficos.

Datos de autoridades.

Alineamiento de vocabularios.

Archivos y datos heterogéneos.

Citas.

Objetos digitales.

Colecciones.

Usos sociales y usos innovadores.



Figura 2. Organización de los casos de uso

Fuente: Library Linked Data Incubator Group: Use Cases, 2011.

La figura anterior nos muestra el procedimiento que el Incubator Group ha seguido para la elaboración de los casos de uso. El esquema de trabajo era muy simple, ya que en un principio se agruparon y diferenciaron los tipos de casos que se querían tratar y analizar de manera general, para posteriormente extraer la información más detallada de cada uno de ellos, que es lo que da lugar a los ejemplos de casos prácticos de cada agrupación. Además, cada agrupación está enlazada a la página wiki original3, que el Incubator Group utilizó para recopilar toda la información de cada caso y explicar de forma más detallada las líneas de estudio. Lo citado anteriormente concierne al esquema general utilizado para los casos de uso de las ocho agrupaciones. Sin embargo, son los casos de uso relativos a los Datos Bibliográficos los que corresponde estudiar en el presente trabajo, y por lo tanto, a los que se debe hacer una mención específica de cada ejemplo estudiado. A continuación, se enumeran los doce casos de uso que forman parte de la agrupación de Datos Bibliográficos:

1. Bibliographic Network. 2. AGRIS. 3. Community Information Service. 4. Data BNF. 5. Identification and Deduplication of Library Records. 6. Linked Data and legacy library applications. 7. Migrating Library Legacy Data. 8. Open Library Data. 9. Regional Catalog. 10. Pode. 11. Polymath Virtual Library. 12. Talis Prism 3.

3http://www.w3.org/2005/Incubator/lld/wiki/Cluster_BibData(URL de la Wiki original de la agrupación Datos

Bibliográficos) [Consultado el 06-06-2012].



Metodología del estudio de casos

La exposición de los casos de uso no se centra en un grupo particular, sino que basa el análisis de estudio en ocho agrupaciones de casos de uso. El Incubator Group establece tal tarea como actividad principal de su trabajo para examinar las implementaciones logradas a través del uso de la Web Semántica en bibliotecas e instituciones afines.

En primer lugar, tenemos que referirnos al término de registro bibliográfico para poder entender el escenario de los casos de uso presentados en esta agrupación. Según el W3C por registro bibliográfico se entiende “el conjunto de los elementos de datos que describen el contenido y las características de un objeto de información producido para consumo humano”. (Grupo Incubador de Datos Vinculados de Bibliotecas: Casos de uso, 2011, p.3) Destacar en esta definición la expresión “para consumo humano”, es decir, que la información dotada a cualquier registro bibliográfico debe de ser entendible y accesible a cualquier usuario, algo que se quiere mejorar mediante el uso de LD y especialmente el empleo de LOD, donde los datos se comparten y reutilizan de una forma más fácil y permite al usuario tener acceso no solo a la información que solicite en primera instancia, sino a la gran cantidad de datos que puede ir enlazando al dotar a estos registros de URIs. Pero, además de identificar cada registro mediante un enlace único éste debe ser accesible a los usuarios de la manera más fácil. Tal hecho se consigue con la integración de Application Programming Interfaces (APIs) en los organismos que manejan y distribuyen información. Estas prácticas relegan a un segundo plano los registros tradicionales de las bibliotecas, que suponían la duplicación de documentos o el solapamiento de unos datos con otros, por un registro único y común que permita la incorporación de metadatos y las conexiones entre documentos. En cuanto al método de trabajo que el Incubator Group propuso para el estudio de casos de uso de los Datos Bibliográficos es similar al esquema que se utiliza en las demás agrupaciones, pero adaptado a las necesidades de cada ejemplo. A grandes rasgos, los puntos que se tratan como se ha podido observar tras el análisis de los mismos son los siguientes:

Nombre (Name): hace alusión al nombre del caso de uso.

Propietario (Owner): se especifica el propietario del caso práctico.

Antecedentes y práctica actual (Background and Current Practice): en este apartado se especifican los antecedentes del caso de uso que se va a estudiar y el estado actual del mismo.

Objetivos (Goal): describe los objetivos que se persiguen con cada caso.

Destinatarios (Target Audience): especifica los destinatarios a los que va destinado.

Escenario de los Casos de Uso (Use Case Scenario): hace mención al contexto en el que se sitúa el caso de uso en cuestión.

Aplicación de los datos enlazados para los casos dados (Application of linked data for the given use case): detalla cual es la aplicación de los LD en cada caso práctico.

Trabajo existente (Existing Work): hace referencia al trabajo previo que existe relacionado con cada caso de uso.



Vocabularios relacionados (Related Vocabularies): define los vocabularios con los que se trabaja en cada caso.

Problemas y limitaciones (Problems and Limitations): enumera los problemas y limitaciones que aparecen con el uso de LD en los casos de uso.

Casos de Uso relacionados (Related Use Cases): especifica las relaciones existentes entre los casos prácticos.

Hay que puntualizar que no todos los casos de uso tienen definidos cada uno de estos parámetros, ya sea porque no existen trabajos al respecto, porque en el caso de uso en cuestión no procede analizar ese aspecto, etc. Sin embargo, mantener un esquema de estudio homogéneo para todos los casos ayuda posteriormente a analizar en conjunto el estado del uso de los LD en las diferentes agrupaciones temáticas. Para hacer efectivas las ventajas de la descripción de los registros bibliográficos utilizando LD, se tuvieron que adaptar los vocabularios y tecnologías que hasta el momento se utilizaban en los procesos de descripción tradicionales. No era suficiente con adaptar las herramientas ya existentes a las nuevas prácticas de trabajo, sino que era necesario crear herramientas específicas adecuadas para el desarrollo de este proyecto. Para ello, el Incubator Group marca unas pautas de las tecnologías y vocabularios que se van a usar en los registros bibliográficos para conseguir que estos adquieran las características de LD. Es decir, para cada caso de uso se trabaja con las herramientas necesarias adaptadas a las características que presenta individualmente cada caso. Tomando como referencia la página wiki de los Datos Bibliográficos, se observa que las tecnologías y vocabularios correspondientes a los datos bibliográficos incluyen:

- Marcos para la publicación de URIs y triples RDF. - Criterios de valoración SPARQL4. - Sistemas de gestión de contenidos que soportan Datos Vinculados. - Procesos para FRBRización5y la normalización de los registros bibliográficos.

4 El lenguaje de consulta SPARQL para RDF está diseñado para cumplir con los casos de uso y necesidades identificadas

por el Grupo de Trabajo de Acceso a Datos RDF incluidos en el documento Casos de Uso y Requisitos de acceso a datos RDF. 5Es el proceso de búsqueda y síntesis de las entidades FRBR usando registros previamente catalogados-codificados en

otros esquemas.



2.2 Conclusiones generales

Partiendo del informe específico que presenta el Incubator Group sobre el estudio de los casos de uso de Datos Bibliográficos, se extraen una serie de conclusiones generales relacionadas con los objetivos perseguidos por cada caso particular y en su conjunto, es decir, cuáles son las ventajas y mejoras que se pueden llegar a conseguir en las bibliotecas e instituciones afines que decidan aplicar los beneficios conjuntos del LD y Web Semántica.

En primer lugar, se debe mencionar que el estudio de la agrupación de Datos Bibliográficos es diverso en lo que se refiere a los casos de uso que analiza, es decir, aunque todos están encaminados a la mejora del acceso y visibilidad de los datos de una biblioteca a través de la utilización de LD, cada caso de uso es independiente en lo que se refiere al objetivo de su origen. Es decir, si seleccionamos dos casos de uso al azar encontramos por ejemplo, desde bases de datos bibliográficas, como la Open Library Data que utiliza las tecnologías LD para referenciar fácilmente sus publicaciones o el caso de Talis Prism 3, que es un Opac sustentado en un servicio de LD que permite consultas tanto en SPARQL como a texto completo. Así se podría ir mencionando cada uno de los doce casos de uso en cuestión, que se desarrollarán ampliamente de manera individual en el siguiente apartado.

En segundo lugar, tomando como base el informe que elaboró el Incubator Group y tras el estudio de los casos de uso, apreciaron que sus propuestas debían estar encaminadas a subsanar ciertos aspectos que podían mejorarse con la aplicación de LD (Informe del Grupo Incubador de Datos Bibliotecas: Casos de uso, 2011, p. 3).

1. Normalización semántica de elementos bibliográficos. Establecer una semántica homogénea de los registros bibliográficos para asegurar la utilización de elementos estándar.

2. Eliminación de duplicados y unificación de registros. En una misma biblioteca podemos encontrar duplicados de un mismo registro, por lo tanto, aplicando las ventajas de LD se unifica toda la información en un solo registro, con enlaces a los registros de los diferentes ejemplares.

3. Etiquetado de recursos Web con términos bibliográficos normalizados. Mediante el uso de vocabularios normalizados se identifican los recursos Web relacionados con un registro bibliográfico.

4. Interfaces integradas de búsqueda de metadatos en diferentes proveedores. A través de una interface única se permite a los usuarios buscar y visualizar todos los registros disponibles de una institución.

5. Agregación de información. Se distinguen tres situaciones diferentes:

- Mejorar los resultados de la búsqueda incorporando recursos externos relacionados.

- Servicios de alerta de recursos publicados recientemente para su difusión. - Disponibilidad del recurso a texto completo enlazando el registro

bibliográfico con el recurso.

6. Anotación de registros bibliográficos. Los usuarios pueden anotar los recursos bibliográficos recuperados tras una búsqueda.



También se debe hacer mención a los dos tipos de agentes implicados en el contexto LD, por un lado, el denominado procesador, que es aquel que genera, modifica y consume los metadatos, puede ser un humano o una máquina. Por otro lado, está el usuario final que es el que maneja los metadatos y se relaciona con los usuarios. Podemos entender que uno produce los datos y los maneja y otro los consume. Estos dos agentes están relacionados con los problemas citados anteriormente y que se pretenden mejorar con el uso de LD y su aplicación en la Web semántica. La siguiente tabla detalla qué tareas están asignadas a cada uno de ellos:

PROCESADOR

USUARIO FINAL

Normaliza la semántica de los elementos de los registros a un conjunto de elementos estándar.

Realiza búsquedas de metadatos para todos los recursos de agrupación, con una interfaz única e integrada, e identifica todas las copias disponibles de un recurso.

Unifica los registros duplicados en un registro único maestro.

Localiza un registro único para un recurso, con enlaces a los registros de las copias, en lugar de varios, con variables en los registros bibliográficos.

Identifica los recursos Web relacionados con un registro asignándoles términos tomados de un conjunto de vocabularios estándar.

Depura los resultados que se presentan de una búsqueda y se expande para incluir al os recursos relacionados con las colecciones externas en la Web.

Identifica los recursos bibliográficos publicados recientemente para su difusión en un servicio de información actualizado

Obtiene acceso al texto completo de la versión de un recurso a través de un enlace desde el registro bibliográfico del recurso.

Puede anotarlos registros bibliográficos recuperados en una búsqueda.

Tabla II. Agentes implicados en el contexto LD

Por último, se debe hacer alusión a los problemas e inconvenientes que se producen con el uso de LD, ya que no se parte de un contexto nuevo, sino que a los datos ya existentes se debe adaptar los nuevos métodos de trabajo para conseguir los objetivos del proyecto. Algunas de estas limitaciones son (ClusterBibData, 2011, p 4):

1. Vocabularios desaparecidos: se refiere a la ausencia de disponibilidad de vocabularios y elementos de uso generalizado en los metadatos de los registros originales en la biblioteca.

2. Incompatibilidad o ausencia de datos: es la falta de URIs para LD de los registros existentes.

3. Comunidad de orientación y organización de problemas: hace referencia a la falta de homogeneidad en las instituciones para establecer formatos comunes de



metadatos RDF a las clases y propiedades de los registros. Tampoco existe un consenso sobre los componentes reutilizables de los metadatos RDF para aplicaciones que manejan datos de las instituciones relacionados.

4. Tecnología de la disponibilidad: se refiere a la ausencia de licencias abiertas para las APIs, estándares de datos y software de cliente en el contexto de LD.

2.3 Definición particular de cada caso

BIBLIOGRAPHIC NETWORK (BN)

Bibliographic Networkhttp://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Bibliographic_Network

La International Federation of Library Associations (IFLA, Federación Internacional de Asociaciones de Bibliotecarios y Bibliotecas) ha llevado a cabo una revisión fundamental de los datos bibliográficos para crear un marco de trabajo que proporcione un conocimiento claro, definido con precisión y compartido por todos, sobre los objetivos de los registros bibliográficos con el fin de proporcionar información adicional y los apartados que deben contener para responder a las necesidades de los usuarios. Además, IFLA recomienda los niveles de funcionalidad y los requisitos básicos que deben cumplir los registros creados por las agencias nacionales. Las técnicas de los Datos Vinculados permitirán que esos datos, y los conceptos y las relaciones entre ellos, se describan como un grafo de información. Las normas Web pueden utilizarse para responder a las necesidades de los usuarios en la localización de información.

El papel que desarrolla la Bibliographic Network está reforzado por la IFLA, ya que comenzó una revisión de los datos bibliográficos para implantar un marco de trabajo único “que permita tener un conocimiento claro, preciso y común de los registros bibliográficos para responder a las necesidades de los usuarios y proporcionar una información correcta” (IFLA, 2010).

La IFLA recomienda seguir unos niveles de funcionalidad y requisitos básicos que deben cumplir los registros creados por las agencias nacionales. En este sentido, las técnicas que aplican los Datos Vinculados permitirán que esos datos, conceptos y las relaciones entre ellos, se describan como un grafo de información con numerosas relaciones entre ellos y por tanto, mejoren visibilidad y accesibilidad de cara a los usuarios.

La Bibliographic Network se presenta como un modelo tradicional para el desarrollo de la recogida, descripción y presentación de recursos de las bibliotecas y otras instituciones del patrimonio cultural, como tal, persigue una serie de objetivos programados en dos líneas fundamentales de trabajo (Use Case Bibliographic Network, 2011, p.1):

- Recoger y conservar las descripciones de los registros bibliográficos que permitan a los usuarios finales buscar, investigar, encontrar y recuperar las entidades de las descripciones pertinentes.



- Proveer a cada una de las entidades un identificador propio, la URL del recurso,

que permitirá a aquellos vínculos sin referencia con información de metadatos enlazar a otros vínculos para facilitar el trabajo a los humanos ya las máquinas, y así, solucionar el problema de las descripciones de los recursos.

La Bibliographic Network para conseguir que los datos bibliográficos tengan carácter vinculado con el resto de datos, debería incluir la siguiente información en sus registros:

- Título. - Subtítulo. - Responsabilidades intelectuales y/o artísticas (autor/ editor/ compositor, etc.). - Editor. - Fecha de publicación. - Lengua. - Tipo de material. - Detalles de disponibilidad. - Relevancia medida del ítem.

Estos atributos se distribuyen en los diferentes niveles de las entidades de información, con claros vínculos y relaciones sobre los objetos que hacen referencia.

Los primeros trabajos llevados a cabo en torno a este proyecto se realizan sobre la API de la Open Library, ya que en la actualidad es posible acceder a los metadatos de los documentos en un formato RDF/XML.

El objetivo de la Open Library es desarrollar una base de datos colaborativa y de acceso público, para poder ofrecer toda la información existente de todos los libros, ya sean físicos o digitales, que hayan sido publicados.

Podemos hablar de dos ejemplos de uso de vocabularios utilizados por Bibliographic Network:

- Bibliographic Ontology: especificación conocida como BIBO, que ofrece los principales conceptos y propiedades para describir citas y referencias bibliográficas en la Web Semántica en RDF utilizando el lenguaje de consulta SPARQL.

- FRBR6 (Functional Requirements for Bibliographic Records): es una expresión que hace referencia al modelo conceptual FRBR (1998) desarrollado por la IFLA cuyo

6Por la importancia que este informe tiene en el desarrollo de la técnica de Linked Data, y debido que a lo largo de este

trabajo, en numerosas ocasiones se hace referencia al mismo, a continuación pasamos brevemente a definir el estudio FRBR. “La metodología usada en este estudio se basa en la técnica de análisis de entidad que se usa en el desarrollo de los modelos conceptuales para los sistemas de bases de datos relacionales. Esta técnica comienza por aislar las entidades que son objetos de interés claves para las necesidades de los usuarios de los registros bibliográficos. Posteriormente, se identifican las características o atributos asociados con cada entidad y las relaciones entre entidades, que son las más importantes para los usuarios al formular las búsquedas bibliográficas, interpretar las respuestas a estas búsquedas, y al “navegar” por el universo de entidades descritas en los registros bibliográficos”. (Ríos Hilario, 2003, p. 47) El modelo establece tres grandes grupos de entidades (Ríos Hilario, 2007, p. 444)



objetivo fue descrito de la siguiente manera “establecer un marco que proporcione una comprensión clara, definida con precisión y compartida por todos sobre la información que un registro bibliográfico debe proporcionar y sobre lo que se espera que se logre de un registro bibliográfico como respuesta a las necesidades de los usuarios" (FRBR,1998, p. 10).

No se especifican cuales son las dificultades por las cuales este proyecto sería difícil de lograr. Simplemente se limita a aconsejar a la persona interesada en el caso, que enumere las limitaciones encontradas en el desarrollo del caso y que consideren un obstáculo para su cumplimiento.

Como casos de uso relacionamos se pueden mencionar el Caso de uso de la Open Library Data.

AGRIS (AGRIS)

AGRIS indexing and searching http://AGRIS.fao.org/

Desde 1975 la base de datos AGRIS agrega y difunde referencias bibliográficas, tales como artículos de investigación, estudios y tesis. Las referencias incluyen metadatos sobre conferencias, investigadores, editores, instituciones y materias, catalogadas por más de 150 instituciones participantes de más de 100 países. La estrategia de los Datos Vinculados de AGRIS se centra en dos objetivos: configurar AGRIS como productor de Datos Vinculados para explotar la riqueza semántica de sus datos, creando un conjunto

El Grupo 1 comprende los productos de los esfuerzos intelectuales o artísticos que se nombran o describen en los

registros bibliográficos: obras, expresiones, manifestaciones e ítem. Forman la base del modelo y de su metodología.

El Grupo 2 abarca aquellas entidades responsables del contenido intelectual o artístico, de la producción física y de la difusión, así como de la conservación de dichos productos: personas y entidades corporativas. También pueden ser las materias.

El Grupo 3 incluye un conjunto adicional de entidades que sirven como materias a los esfuerzos intelectuales o artísticos: concepto, objeto, suceso y lugar. Estas entidades se emplean frecuentemente como materias de las obras. También, pueden referirse a una única obra o a multitud de ellas, y cada obra puede incluir varias entidades del tercer grupo



de datos RDF sobre las ciencias agrícolas, y exponerlos a otros servicios Web que puedan consumir y enlazar a los datos AGRIS.

En sus inicios, AGRIS se limitaba a recoger las referencias bibliográficas de una base de datos central, utilizando para ello la tecnología disponible en el momento. Sin embargo, desde la inclusión de Internet, AGRIS ha utilizado esta herramienta para promover el intercambio de la ciencia agrícola y tecnológica de la información utilizando normas y métodos de actuación comunes a todas las instituciones que forman la red de centros.

La base de datos AGRIS cuenta con un número muy elevado de registros bibliográficos estructurados en torno a temas de ciencia y tecnología agrícola muy variados como la silvicultura, ganadería, ciencias acuáticas y pesca, nutrición humana, etc. El material que contiene incluye fundamentalmente literatura gris, documentos de conferencias, publicaciones gubernamentales, etc. y se constituye como herramienta muy importantes para estudiantes, investigadores y bibliotecarios.

Estas referencias bibliográficas se caracterizan por contener los enlaces al texto completo de la publicación o información adicional extraídos de recursos de Internet, albergando una gran colección de metadatos referente a la investigación, extensión e innovación de los conocimientos agrícolas; por lo tanto, los registros se caracterizan por ser muy estructurados y con numerosas relaciones semánticas en la propia base de datos AGRIS y a otros recursos Web.

AGRIS se considera la base fundamental para el intercambio e interoperabilidad de la investigación agrícola. En un primer momento, fue pensada como un único punto de acceso para las publicaciones de la investigación, innovación y extensión agrícola. Para ello, crearon el tesauro AGROVOC, desarrollado para relacionar las publicaciones sobre temas similares. Sin embargo, con la llegada de Internet y debido al aumento y disponibilidad del material de estudio que albergaba la base de datos AGRIS, los metadatos de los registros bibliográficos se han duplicado y cada vez son más redundantes. Esos metadatos bibliográficos se ven como un modelo que destaca las relaciones, conexiones y enlaces donde el valor de los mismos aumenta a medida que se amplía la conectividad de la Web, ofreciendo a los usuarios un plano global de la investigación mundial, relacionando los productos formales, con la literatura gris y con las plataformas de comunicaciones, que permiten a los usuarios ubicar los resultados formales dentro de un contexto más amplio.

Para conseguir que los metadatos de los datos bibliográficos aparezcan de forma independiente pero enlazada, es necesario hacer una transformación interna de la base de datos, con los siguientes cambios:

a) Expresar los registros bibliográficos en RDF. b) Publicar las URI´s de las HTTP (Hipertext Transfer Protocol) y los registros RDF

desde los registros bibliográficos. c) Proporcionar servicios de localización estándar, como SPARQL. d) Utilizar los registros LOD de los vocabularios temáticos. e) Utilizar descripciones de autoridad LOD para la desambiguación. f) Enlazar bases de datos LOD a nivel de registro.

Los metadatos de los datos bibliográficos de AGRIS se han asignado a términos relacionados con los vocabularios RDF como AGROVOC. Un subconjunto de datos de AGRIS XML fue transformado a RDF y el almacenamiento de los datos producidos se



hizo en Sesame, un marco de código abierto que permite almacenar, navegar y analizar los datos RDF a través de SPARQL.

Los vocabularios usados para garantizar la interoperabilidad de los datos bibliográficos, en la fase experimental, han sido los siguientes:

a) SKOS7(Simple Knowledge Organization System): forma parte de las aplicaciones y normas estándares para representar los sistemas de organización del conocimiento en la Web Semántica utilizando RDF. Esta forma de codificación permite el entendimiento entre aplicaciones informáticas de manera que exista la interoperabilidad entre los distintos datos.

b) BIBO8 (Bibliographic Ontology Website): ofrece los principales conceptos y propiedades para describir, citar o clasificar las referencias bibliográficas de la Web Semántica en RDF. Puede ser utilizado como base común para la conversión de otras fuentes de datos bibliográficas.

c) FOAF9(The Friend of a Friend): es un proyecto dedicado a la vinculación de personas e información en la Web. En las descripciones FOAF hay diferentes tipos de cosas que se llaman clases y enlaces, y otras que se denominan propiedades. Estas descripciones están publicados como documentos relacionados en la Web utilizando RDF/ XML o sintaxis RDFa.

d) DC10 (Dublin Core) y DCterms: hace referencia a los metadatos, que son un conjunto de términos de vocabulario que se utilizan para describir los recursos de Internet y promover la interoperabilidad en los Datos Vinculados y las implementaciones de la Web Semántica.

En este sentido, uno de los problemas a los que se ha enfrentado desde el principio la base de datos AGRIS en relación a los datos bibliográficos es la identificación de éstos mediante URIs, ya que, una de las reglas esenciales para la publicación de Datos Vinculados en la red es la utilización de URIs para identificar los objetos y sus propiedades.

Debido al carácter heterogéneo de los datos de AGRIS, donde habitualmente la semántica no está definida, hace más compleja la utilización de URIs específicas en la desambiguación de autores, revistas, conferencias, etc.

7 SKOS: http://www.w3.org/2004/02/skos/ [Consultado el 2-07-2012]

8 BIBO: http://bibliontology.com/[Consultado el 2-07-2012]

9FOAF: http://www.foaf-project.org/[ Consultado el 2-07-2012]

10 DC: http://dublincore.org/ [Consultado el 2-07-2012]



Este caso de uso se relaciona directamente con el caso de uso AGROVOC Thesaurus y FAO Authority Description Concept Scheme, de la siguiente manera:

Figura 3. Relaciones entre los datos de la FAO y los Casos de Uso.

Fuente: Use Case AGRIS, 2011

COMMUNITY INFORMATION SERVICE (CIS)

Community Information Servicehttp://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Community_Information_Service

Las organizaciones académicas de diferente tamaño y composición (grupos de investigación, departamentos de universidades, sociedades científicas, grupos especializados, etc.) tienen un gran interés en mantener el reconocimiento y calidad de la información dentro de su ámbito y en la publicación, de forma abierta, de esta información tanto para la amplia comunidad académica, como para el público en general. El enfoque de LD puede proporcionar datos con licencia abierta que permitan su reutilización para estos fines y apoyar la creación de APIs, normas de datos y software cliente que reduzcan los inconvenientes en el intercambio y preservación de la información.

El CIS selecciona datos de las fuentes de entrada para determinar qué libros, artículos, fotografías, vídeos, etc. se han publicado recientemente y que son de interés para la comunidad. Los datos de entrada de este servicio están estructurados de tal forma que

http://www.w3.org/2005/Incubator/lld/wiki/File:FAO_Relationships_between_Use_Cases.png



permiten controlar fácilmente los datos que se canalizan a través de su servicio de información.

Un elemento muy importante de esta aplicación son los metadatos bibliográficos disponibles en los recursos de la biblioteca, sin embargo, las organizaciones interesadas ven restringidas tanto la selección como la reutilización de estos metadatos por las condiciones de uso de suscripciones y editoriales al limitar las prestaciones a un uso individual.

Por lo tanto, el objetivo de esta organización es disponer libremente de los metadatos bibliográficos para permitir que pequeñas y medianas instituciones académicas logren extraer fácilmente los datos de interés para ellos y así poder reutilizarlos, manejando la tecnología de Datos Vinculados.

La aplicación de los Datos Vinculados proporciona a los proveedores de información relativos a editoriales, librerías, distribuidores, etc. las referencias relacionados con el API adecuado y software del Community Information Service.

Las bibliotecas y organismos que manejan información, necesitan que los registros bibliográficos se formen con los identificadores para referenciar a todas las entidades como ediciones, personas, materias, revistas, editoriales, etc. y que así, esta información sea accesible para permitir la interconexión con cualquier clasificación, selección, etc. de la CIS.

Los primeros trabajos que se han llevado a cabo en torno a este caso de uso, tienen relación con los sistemas de software utilizados para la visibilidad abierta de las colecciones bibliográficas. Entre ellos destacan Bibsonomy, Bibserver, BibApp, etc.

Estos sistemas se beneficiarían de la fácil disposición de los Datos Vinculados a bibliotecas y editores a través de una API.

Como ejemplo de vocabularios válidos para utilizar en el desarrollo de este caso de uso son:

- Bibliographic Ontology (BIBO, Ontología Bibliográfica) - Citation Type Ontology (CiTO, Ontología de tipos de citación)

Los problemas y las limitaciones que dificultan el desarrollo normal de este caso de uso son de varios tipos:

- Intereses sociales, económicos y legales sobre la licencia de los metadatos, lleva a las editoriales comerciales, universidades y sociedades científicas a liberar sus metadatos con un tipo de licencia de código abierto.

- Por otro lado, existen limitaciones técnicas, especialmente en lo que se refiere a la falta de una norma común, que permita el intercambio de metadatos bibliográficos para el uso correcto del Community Information Service.



DATA BNF (BnF)

Data BNF http://data.bnf.fr/

La Bibliothèque Nationale de France (BnF) publica en la Web diferentes tipos de recursos. Las tecnologías de LD pueden ayudar a la BnF a reunir datos de diversas fuentes, conforme a un modelo de datos escalable e interoperable, y mejorar la publicación de los recursos de su catálogo en línea, así como a alinear y enlazar éstos a otros recursos de interés de la Web. El objetivo que pretende conseguir la BnF es facilitar el acceso y búsqueda al público en general y a los programas de ordenador y rastreadores de todos los recursos de los que dispone. Estos recursos son de gran variedad tipológica, entre los que destacan especialmente el catálogo de la biblioteca; las publicaciones francesas en curso, controladas a través del depósito legal y accesibles a través de la biblioteca digital francesa (Gallica); un catálogo especial de manuscritos; exposiciones en línea y servicios de referencia.

La BnF para mejorar el acceso a todos los registros de los que dispone, ha llevado a cabo el proyecto de Data.bnf.fr11 , que parte de un proyecto de datos abiertos. La estructura que siguen los recursos para adaptarse a este proyecto son los siguientes:

- Reunir los datos de todas las bases que forman la BnF. - Utilizar esos datos para publicar estructuradas las páginas Web HTML. - Alinear y enlazar con otros recursos existentes.

Estos datos se modelan y se enriquecen por procesos automáticos para publicarlos en el lenguaje de la Web Semántica: RDF. Por lo tanto, la BnF ofrece las URIs de los recursos, con identificadores asignados por el mecanismo de ARCA, que permite el acceso a todos los recursos de la biblioteca y, por otro lado, muestra la manifestación RDF para los datos del proyecto de Data.bnf.fr, disponible en cada página y para la base de datos completa.

La BnF para conseguir un mejor acceso a los registros en su catálogo y mayor interoperabilidad con otros documentos relacionados en la Web, utiliza diferentes vocabularios para representar cada parte que compone un registro. Así podemos distinguir:

- SKOS, para describir los conceptos. - FOAF, para describir los agentes.

11

http://data.bnf.fr/ [Consultado el 16-05-2012]



- DC, para describir la información bibliográfica básica. - RDA, para describir las manifestaciones, las expresiones y el trabajo.

Para una mejor comprensión de los vocabularios y organización general de los datos se muestra la siguiente figura:

Figura 4. Organización de vocabularios.

Fuente: Bibliothèqhe nationale de France. data.bnf.fr.

Algunos de los problemas y limitaciones que se presentan cuando se enriquecen los registros mediante los Datos Vinculados son los siguientes:

- La denominada “Red de datos” necesita un apoyo, ya que tiene un costo de creación y mantenimiento pero no ofrece ningún beneficio obvio de cara a los usuarios finales.

- El modelo de Datos Vinculados podría llegar a ser demasiado complejo, ya que los datos de origen no se basan en los FRBR, además de que no están estandarizados.

- Las restricciones legales actuales hacen necesario contactar con la propia BnF para reutilización comercial de los datos.

Los posibles casos de uso relacionados con este caso concreto son de índole variada: interés general, bibliografía, acceso a las colecciones digitales, genealogía, negocios de venta de libros en línea, otras bibliotecas digitales, etc.



IDENTIFICATION AND DEDUPLICATION OF LIBRARY RECORDS (IDLR)

Identification and Deduplication of Library Records http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Identification_And_Deduplication_Of_Library_Records

La creación de algoritmos de detección necesita datos de referencia, sin embargo, en la actualidad el acceso a estos datos es aún muy limitado. La aplicación de Datos Vinculados a los registros bibliográficos puede contribuir al desarrollo de algoritmos en la detección automática de registros bibliográficos duplicados donde exista un único registro para cada unidad intelectual. Esto facilitaría la identificación de metadatos de recursos y ayudaría a la eliminación de registros duplicados.

Como consecuencia de la automatización de los catálogos, las bibliotecas comenzaron a trabajar en el registro de sus colecciones para que fueran accesibles electrónicamente a todos los usuarios interesados. En muchos casos, los catálogos se elaboraban con las imágenes escaneadas de las portadas de los documentos, sin embargo, esta práctica no era una técnica precisa de trabajo, y comenzaron a realizarse las fichas catalográficas de forma semiautomática o manual, lo que ayudaba a determinar todos los campos predefinidos de un registro para favorecer su posterior recuperación a través de los catálogos automatizados. Esta práctica hizo que muchos de los asientos catalográficos se duplicaran, por lo tanto, el objetivo de este software es crear el algoritmo que permita identificar los registros duplicados en la biblioteca para que el usuario final solamente visualice un registro correcto y completo. Estos algoritmos necesitan datos de referencia, únicamente accesibles mediante los catálogos de las bibliotecas, aunque en muchas ocasiones el acceso a estos registros para fines comerciales es limitado. Este problema se solucionaría si las bibliotecas ofrecieran todos sus registros utilizando Datos Vinculados, mejorando la calidad de los datos, ya que se accedería a un número mayor de datos de referencia que facilitaría la identificación de los registros duplicados. Los trabajos que se han llevado a cabo para apreciar la utilización de Datos Vinculados y, así evitar duplicidades en los catálogos automáticos de las bibliotecas, son dos:

- Los usuarios realizan las búsquedas a través del catálogo de la biblioteca o en la Web. Esta acción derivará en recibir no un listado con descripciones similares de un mismo registro, sino un registro único con enlaces a varias copias.

- Una red de bibliotecas que quiere unificar sus registros en un solo resultado haciendo coincidir los registros duplicados; el resultado final será el mejor registro para un libro.

En este sentido, no cabe mencionar ningún problema ni limitación, más bien al contrario, ya que el escenario es fácil de lograr y tienen muchos beneficios para la comunidad de usuarios de los catálogos electrónicos.



Un ejemplo de software de detección de registros duplicados es el que llevó a cabo la OCLC (Online Computer Library Center)para el WorldCat12. Desde 1991 la OCLC comenzó a utilizar un software para detectar y unificar todos los registros duplicados del WoldCat. En un primer momento se realizó en la base de datos correspondiente a los libros, para posteriormente ampliarlo a otro tipo de registros como partituras, grabaciones sonoras, material audiovisual, mapas y recursos electrónicos. Con este trabajo los usuarios podrán observar como el WorldCat ha mejorado y ha reducido sustancialmente su número de duplicados ofreciendo un mejor servicio.

LINKED DATA AND LEGACY LIBRARY APPLICATIONS (LDLLA)

Linked Data and legacy library applications http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Linked_Data_and_legacy_library_applications

La inclusión de aplicaciones de LD en los sistemas de información bibliotecarios supone un reto para los arquitectos de sistemas en el momento de la adaptación de los procedimientos preexistentes, para que puedan utilizar las nuevas aplicaciones de LD. La cuestión principal de este problema es la siguiente: cómo pueden las bibliotecas realizar la transición desde las aplicaciones piloto de Datos Vinculados al uso de los mismos por parte de los sistemas de información bibliotecarios.

Con la utilización de Datos Vinculados por parte de los sistemas de información bibliotecarios, dichas organizaciones han tenido que adaptarse al nuevo modelo de aplicación, ya que anteriormente se trabajaba con aplicaciones heredadas o no vinculadas de los datos. Esta nueva realidad significa que los usuarios acceden a las aplicaciones de las bibliotecas a través de una interfaz unificada que se visualiza en una pantalla única de front-end13, en lugar de presentar varias interfaces para los diferentes sistemas de información. Como consecuencia de este hecho, los usuarios no se benefician de los Datos Vinculados producidos por otras aplicaciones. Así, el objetivo que se pretende conseguir es que los encargados de desarrollar las aplicaciones de sistemas de información en las bibliotecas, garanticen a los usuarios el acceso a los Datos Vinculados en otros sistemas de información dentro de la propia institución, donde unas aplicaciones son las herederas y otras hacen referencia a los Datos Vinculados.

Los arquitectos de los sistemas de información tienen como misión adaptar los sistemas existentes en las bibliotecas para el uso de las nuevas aplicaciones de Datos Vinculados. Las primeras actuaciones que se están haciendo al respecto difieren según cada caso particular. Sin embargo, una posibilidad sería crear una aplicación front-end "transparente" a los Datos Vinculados, donde se proporcione las direcciones URL de los recursos a las aplicaciones de Datos Vinculados. Para que esta acción funcione, los

12

WorldCates un catálogo mundial en línea gestionado por el OCLC. 13

Parte de un sistema de software que interactúa directamente con el usuario.



sistemas de información de las bibliotecas deben comenzar a publicar los datos relacionando unos con otros. El escenario en el que se están realizando las primeras aplicaciones es el siguiente: Cualquier usuario que utilice la aplicación principal (front-end) de la biblioteca quiere acceder a la máxima información que contengan los registros, sin embargo, el sistema no permite la visualización de esos datos enriquecidos de los registros porque esa información es desarrollada por otro sistema y el front-end no ha sido adaptado para hacer uso de ella. Por ello, los desarrolladores de sistemas han creado aplicaciones piloto que, por un lado, proporcionan datos enriquecidos sobre los objetos almacenados en dichos sistemas bibliotecarios y, por otro lado, desarrollan nuevas aplicaciones que proporcionan una funcionalidad adicional, que no está presente en las heredadas.

Para llevar a cabo esta simple adaptación, de los sistemas de información bibliotecarios a los nuevos modelos de aplicaciones con Datos Vinculados, se plantea el problema de cómo adaptar las aplicaciones ya existentes al uso de las nuevas. Esto provoca algunos inconvenientes, ya que al incorporar enlaces a las nuevas aplicaciones de datos, los registros se duplican.

Otra limitación es el tiempo en que un programa heredado puede verse limitado en sus funciones mientras se produce el cambio de una a otra. Además, se añade el hecho de que cuando una biblioteca implanta un sistema de información de Datos Vinculados hasta que dicha aplicación de datos está integrada en todos los casos, también puede considerarse heredera de las aplicaciones siguientes y, por tanto, la necesidad de integrar los datos legales y vinculados será necesaria durante algún tiempo.

Otros casos relacionados similares al caso LDLLA, son:

- Authority Data Enrichment que describe los datos existentes de enriquecidos.

- NDNP (Programa Nacional de Edición Digital) que usa Datos Enlazados en una hemeroteca digitalizada.

- NLL (Digitized Map Archive)que usa Datos Enlazados en un archivo de mapa

digitalizado.



MIGRATING LIBRARY LEGACY DATA (MLLD)

Migrating Library Legacy Data http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Migrating_Library_Legacy_Data

Las bibliotecas convierten los metadatos de los que disponen a tripletas RDF por múltiples razones: aprovechar los sistemas y servicios que puedan surgir del entorno de la Web Semántica; fomentar el uso creciente de los metadatos y de los recursos correspondientes; y, por último, contribuir al intercambio general de metadatos en beneficio de todos. El objetivo es representar los datos preexistentes en las bibliotecas (legacy data) como Datos Vinculados, conservando la máxima cantidad de datos, la utilidad y la semántica, así como posibilitar su utilización tanto tradicional como innovadora. Para lograr este propósito se necesitan vocabularios apropiados y conjuntos de elementos disponibles en Datos Vinculados, así como una serie de mapeos estables y consensuados por la comunidad para transformar los formatos de metadatos preexistentes a clases y propiedades RDF. En la actualidad, las bibliotecas tienen gran cantidad de registros que contienen metadatos bibliográficos legibles por máquina. Estos metadatos son de gran calidad porque siguen las normas nacionales e internacionales en la estructura, composición, etc. para adaptarse a los registros bibliográficos tradicionales, que a su vez, el contenido de estos registros tradicionales se compone de términos controlados de vocabularios específicos, aplicados a métodos tradicionales de búsqueda de datos. En este sentido, las bibliotecas quieren convertir los metadatos originarios de sus registros en modelos RDF para beneficiarse de los sistemas y servicios que surgen en torno a la Web Semántica y contribuir al intercambio de metadatos entre diferentes instituciones, para beneficio de todos.

Sin embargo, la práctica actual aún es escasa en las bibliotecas y está en fase experimental, con poca coordinación entre dichas organizaciones.

En este apartado de aplicación de Datos Vinculados entra en juego un recurso, denominado Concise Bounded Description (CBD), cuyo objetivo es ofrecer un marco para la especificación de paquetes de metadatos para un uso adecuado de la Web Semántica por agentes de software.

Según el World Wide Web Consortium el CBD se puede definir “como una unidad óptima en términos generales de conocimientos específicos sobre un recurso para ser utilizado o intercambiado entre los agentes de la Web Semántica”. Por lo tanto, en un nodo en particular de un determinado grafo RDF, una CBD es un subgrafo que consiste en las manifestaciones que en conjunto constituyen un cuerpo de conocimiento sobre el recurso indicado por ese nodo. Así, el punto de partida para la obtención de una CBD es un nodo en particular en un determinado grafo RDF.



Como trabajos desarrollados en este ámbito tenemos tres propuestas:

a) XC (eXtensible Catalog)

Según lo definen Alicia Sellés-Carot y Jorge Serrano-Cobos (2011, p.2) XC es “un software de código abierto centrado en el usuario, que consta de varios toolkits14 utilizados de forma independiente para hacer frente a una necesidad particular o para funcionar combinados y proporcionar un sistema de detección, tanto de la información bibliográfica como de la información de circulación de los fondos, y la identificación de los usuarios, para conectar a los cuatro componentes de software. Estos componentes pueden ser usuarios de la biblioteca con sus recursos”. El esquema de metadatos de XC está basado en RDA y en FRBR, por lo que el kit de herramientas de metadatos permite a la interfaz de usuario presentar una navegación “FRBRizada”, al dejar incorporar metadatos agregados de varias fuentes de información, duplicarlos, normalizarlos y transformar MARC o metadatos Dublin Core en un formato compatible para su uso en la “capa de descubrimiento” (la interfaz de usuario).

b) British Library BNB in RDF/XML

Como ejemplo de migración de datos preexistentes, cabe mencionar el trabajo llevado a cabo en la British Library BNB con la Linked Open Data en RDF / XML de libros publicados representados en la institución británica. Los datos se describen usando las propiedades de vocabularios normalizados.

Los vocabularios a tener en cuenta en este caso de uso son varios, ya que los datos existentes tienen que tener las mismas características que los datos que convertimos a RDF, es decir, deben seguir unos esquemas normalizados para que los datos sean igualmente válidos y accesibles. Por tanto, los vocabularios que se utilizan son los siguientes:

a) Dublin Core (DC). b) Dublin Core terms (DCterms). c) RDF schema (RDFs). d) SKOS (SKOS). e) Bibliographic ontology (BIBO). f) Time ontology in OWL (OWLT). g) ISBD (ISBD).

Uno de los mayores problemas que se plantea en las bibliotecas con la migración de los datos previos a los Datos Vinculados es la atemporalidad que coexiste entre los registros y las normas vigentes, ya que estos datos no han sido adaptados a medida que los modelos han cambiando. Además, existe el problema de la duplicación entre registros por falta de coordinación entre las bibliotecas, tanto en la cobertura como en los formatos comunes de los datos heredados de metadatos RDF a las clases y propiedades.

14

Equipo de instrumentos, grupo de programas y rutinas que se utilizan como base para la programación de un nuevo

sistema.

http://www.extensiblecatalog.org/

http://www.bl.uk/bibliographic/datasamples.html



Este caso práctico se relaciona con cualquiera de los casos de los incluidos en las siguientes agrupaciones:

- Grupo de Datos Bibliográficos. - Grupo de Archivos. - Grupo de Datos de Autoridad. - Grupo de las Colecciones.

OPEN LIBRARY DATA (OLD)

Open Library Data http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Open_Library_Data La Open Library es una gran base de datos bibliográfica (cerca de 25 millones de ítems) de metadatos de libros. Más de un millón de libros electrónicos están representados en esta plataforma. El objetivo de este proyecto es permitir que los usuarios enlacen a los datos de la Open Library sin dificultad, por ejemplo, se pretende vincular una obra específica de la cual se proporcionarán datos sobre las manifestaciones de la misma disponibles a texto completo. Al hablar de Open Library Data nos estamos refiriendo, en primer lugar, a referencias de libros, pero poco a poco se fue ampliando el abanico de ofertas tipológicas que mostrar a los usuarios.

La Open Library vincula los metadatos con los datos bibliográficos incluyendo los textos de libre acceso. Para ello, la base de datos toma las fuentes de los metadatos de los registros bibliográficos de la biblioteca, los datos de los usuarios de IMDb bibliográficas, datos de la editorial ONIX y la entrada directa por los usuarios de OL. Para el almacenamiento de los metadatos la OL ha confeccionado unas plantillas propias que se estructuran en forma de pares clave-valor, que no sigue los estándares normalizados internacionales. Sin embargo, hay ciertos parecidos con las entidades FRBR/FRAD en atributos como obra y autor o el de edición, que se asemeja a la estructura de MARC 21.

Una diferencia notable que existe es que la Open Library no sigue los estándares de la biblioteca tradicional. Un ejemplo de ello, es que las formas de los nombres personales no conservan las formas normalizadas de la biblioteca, por lo tanto, no existen enlaces a las formas autorizadas. Por otro lado, las propiedades del registro no se tratan como subcampos del formato MARC, sino que se tratan como una sola cadena o los encabezamientos de materia que se separan por facetas. Como se puede deducir con este marco la interacción directa de la OL con la biblioteca es difícil.

La tecnología de Datos Vinculados, aplicada a este caso de uso, tiene relación con la creación de elementos bibliográficos y fuentes de datos según Linked Open Data para que puedan utilizarse en aplicaciones Web. Esta tarea se logra asignando las URIs a los



registros de metadatos y recursos referenciados en texto completo. La forma de publicar información útil acerca de estos recursos es a través de RDF y SPARQL.

La manera previa para transformar un modelo de datos común en vocabularios basados en FRBR a la Web de datos hace posible que la información sobre las obras, manifestaciones e ítems que ya están representadas en otras categorías se puedan exponer en Internet de forma estandarizada y reutilizable.

La Open Library ya expone los datos como Datos Enlazados. Algunos ejemplos de los datos expuestos son:

- Autor en UI (Author in UI) 15 - Autor en RDF (Author RDF)16 - Trabajo en UI (Work in UI) 17 - Trabajo en RDF (Work in RDF) 18 - Edición en UI (Edition in UI) 19 - Edición en RDF (Edition in RDF)20

Los vocabularios útiles y que se pueden aplicar en este contexto son los siguientes:

- FOAF - FRBR - RDvocab - DCterms

Hay ciertos aspectos en este caso de uso que hacen que el objetivo que se persigue sea difícil de lograr; especialmente, hay que hacer mención a las formas de los nombres de personas, ya que éstos no están vinculados a los datos de autoridad existentes en una biblioteca. Esta falta de conexión entre datos, crea dificultades para mantener el formato de los registros y que puedan ser utilizados e integrados fácilmente con los datos de otras bibliotecas para hacer uso de ellos y viceversa.

15

http://openlibrary.org/authors/OL22022A/Barbara_Cartland [Consultado el 21-06-2012] 16

http://openlibrary.org/authors/OL22022A.rdf[Consultado el 21-06-2012] 17

http://openlibrary.org/works/OL6037025W/Code[Consultado el 21-06-2012] 18

http://openlibrary.org/works/OL6037025W.rdf[Consultado el 21-06-2012] 19

http://openlibrary.org/books/OL6807502M/Code[Consultado el 21-06-2012] 20

http://openlibrary.org/books/OL6807502M.rdf[Consultado el 21-06-2012]



REGIONAL CATALOG (RG)

Regional Catalog http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Regional_Catalog En Alemania no existe un catálogo agrupado de los fondos de todas las bibliotecas. Las bibliotecas universitarias están organizadas en grupos regionales con un catálogo central que es administrado por uno de sus miembros. La aplicación de las tecnologías de los Datos Vinculados a los servicios regionales centrales puede facilitar la creación de un catálogo unificado alemán. Los usuarios no disponen de una base de datos central que les permita visualizar los registros existentes en cada biblioteca, ya que éstas no se organizan centralizadas en un solo catálogo, si no mediante el conjunto de los catálogos de las bibliotecas universitarias que se agrupan en un catálogo regional global denominado Verbünde21, que cuenta con un servicio central que administra todas las bibliotecas miembro de cada red. La catalogación se lleva a cabo en la base de datos central y los cambios, incorporaciones, etc. se reflejan en cada catálogo regional.

A pesar de que el metabuscador KVK22proporciona a los usuarios un servicio de gran calidad, este servicio podría llegar a ser más eficiente si cada biblioteca publicara y explotara sus datos como Linked Open Data, es decir, que el objetivo específico que tiene el Regional Catalog de Alemania es crear una base de datos común para todos los fondos de las bibliotecas alemanas mediante Datos Vinculados y la tecnología de la Web Semántica.

Para llevar a cabo el objetivo que se pretende conseguir con este caso de uso las primeras aplicaciones de Datos Vinculados que se realizan en las bibliotecas alemanas es la de publicar sus datos bibliográficos y las explotaciones de datos como almacén de Datos Vinculados en tripletas RDF, las cuales sirven de base para los motores de búsqueda.

Algunos de los trabajos previos que se han desarrollado en torno a la utilización de Datos Vinculados con los usuarios y bibliotecas están relacionados con las consultas de documentos en las bibliotecas, hecho que mejora y agiliza los procesos de búsqueda de documentos, al estar interconectados todos los catálogos de las bibliotecas o instituciones afines.

Por un lado, se hace posible que un usuario pueda realizar búsquedas en todas las bibliotecas alemanas simultáneamente formulando una sola consulta, que se envía a un motor de búsqueda construido sobre uno o varios almacenes triples RDF. Como respuesta el usuario obtiene todos los accesos posibles y las bibliotecas que contienen los artículos. Por otro lado, una biblioteca u organización similar centralizada que quiere gestionar una solicitud de préstamo interbibliotecario, en primer lugar, realiza la consulta pertinente al motor de búsqueda y, como resultado, se obtiene la biblioteca más cercana a la que

21

Verbünde: redes 22

KarlsruherVirtuellerKatalog: metabuscador en diferentes bases de datos.



enviar la solicitud que contiene el registro requerido. Algunos de los vocabularios que se pueden mencionar para la publicación de datos bibliográficos y de las explotaciones de estos datos son por ejemplo, BIBO, RDA-vocabulario, etc.

Para lograr el objetivo de que exista un único catálogo de todos los registros de las bibliotecas alemanas, las organizaciones centrales deben publicar sus datos como Datos Enlazados. Pero esta acción que puede parecer sencilla encuentra algunas trabas para su desarrollo:

- Muchas de las instituciones son reacias a liberar sus datos, no hay voluntad política; hecho que dificulta la implementación de un único catálogo.

- Respecto al marco legal surgen varios interrogantes: quién es el propietario de los datos que se administran en una base de datos central y qué licencia tienen esos datos publicados.

- En cuanto a las tareas técnicas, sobre la forma de asignar los datos bibliográficos como tripletas RDF, debe existir un acuerdo de qué vocabularios utilizar, qué estándares de FRBR aplicar, etc. para que todos los registros sigan un mismo patrón y su recuperación sea más fácil.

- En cuanto a los identificadores de los registros similares creados por diferentes instituciones, lo ideal es que existiera algún tipo de vínculo entre los diferentes recursos bibliográficos que enlace estos registros mediante un sistema de identificación que valore los sinónimos.

Algunos Casos de Uso que se pueden relacionar con este en particular son:

Bibliographic Network. Europeana. Open Library. Identification and deduplication of library records. Talis Prism 3.



PODE (PODE)

Pode http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Pode El objetivo del proyecto Pode es utilizar tecnología y datos externos para enriquecer los datos de los registros de los catálogos bibliográficos y, así, crear una plataforma para desarrollar servicios para el usuario final con información y funcionalidades, que no están disponibles en la búsqueda Web actual de la biblioteca. Este caso práctico se centra en la conversión de datos bibliográficos a RDF, aplicando FRBR a los datos y enlazándolos a instancias específicas de otros conjuntos de datos de la tecnología de Datos Abiertos Vinculados. La principal característica de este caso va dirigida a enriquecer los registros bibliográficos de una biblioteca, en particular de las bibliotecas noruegas. Para ello, es necesario desarrollar una plataforma destinada al usuario final que contenga información y funcionalidades que no están disponibles en la Web de búsqueda de la biblioteca en cuestión y, por lo tanto, mejore los registros ya incluidos en la biblioteca.

En este sentido, el objetivo de este proyecto se puede presentar en dos fases diferenciadas: por un lado, la manifestación de las obras de dos autores agrupados por entidades FRBR (obra y expresión), mejorando con información externa y enlaces a las versiones de texto completo y por otro lado, la conversión de los datos bibliográficos FRBR a RDF, enriqueciendo éstos datos con enlaces a casos individuales en DBpedia23, VIAF (Virtual International Authority File)24 y el Proyecto Gutenberg25. Para conseguir estos objetivos se deben llevar a cabo unos trabajos previos que consisten en: crear una aplicación que permita al usuario final navegar por categorías relacionadas con Dewey a través de etiquetas en varios idiomas y; la conversión de los registros MARC en RDF. Las primeras fases del proyecto, se centraron en el uso de protocolos de la biblioteca para acceder a los datos bibliográficos y en la inmersión de éstos con otras fuentes de datos externos a la propia biblioteca a través de las APS de servicio Web. Sin embargo, la fase actual del proyecto difiere de la anterior y se centra en la conversión de datos de la biblioteca a RDF y en la vinculación de los mismos con casos individuales de otros conjuntos de datos de LD. La aplicación de los Datos Enlazados en este caso de uso se basa en la conversión de los datos bibliográficos en RDF enriquecidos con enlaces a las solicitudes externas, para obtener información que mejore y complemente a los datos bibliográficos de las bibliotecas en cuestión. Los primeros pasos llevados a cabo en torno al proyecto Pode han sido exportar todos los registros del catálogo pertenecientes a dos autores noruegos: Knut Hamsun y Petterson

23BDpedia extrae información estructurada de la Wikipedia. 24 Es un proyecto conjunto de diferentes bibliotecas nacionales del mundo que combina virtualmente los ficheros de autoridades de nombres de las instituciones participantes en un único servicio de autoridades de nombre. 25 Es un proyecto mediante el cual se publican libros que ya son de dominio público y se pueden descargar gratuitamente en la Web.



Los registros correspondientes a estos autores se han exportado mediante un proceso automatizado de FRBR, relacionándolos entre sí y convirtiendo esta sintaxis a RDF.

En la actualidad, se está trabajando en una aplicación Web que utiliza los datos que el usuario final percibe, referentes a la producción de esos autores, así como la posibilidad de añadir información adicional relevante de otras fuentes de datos.

Otra tarea que se está llevando a cabo, es convertir los registros del catálogo de la literatura de no ficción de la Biblioteca Multilingüe en Oslo, para permitir al usuario navegar por la colección a través de las categorías Dewey, mediante el uso de las representaciones de Datos Vinculados a los niveles superiores de la Dewey Decimal Classification (DDC, Clasificación Decimal de Dewey) con etiquetas multilingüe.

Los vocabularios que atañen al desarrollo del Proyecto Pode son los siguientes:

- Core FRBR - DC metadataterms - BIBO - Dewey.info - Lexvo26 - Geonames27 - FOAF - SKOS

Conseguir aplicar los estándares FRBR a los registros del catálogo de una biblioteca exige mantener una buena práctica de catalogación para alcanzar resultados óptimos, ya que, la catalogación tiende a cambiar según las instituciones, catalogadores y periodos. Por ello, se han tenido que corregir varios registros ya que al aplicar a toda la colección de la biblioteca los estándares FRBR, no proporcionarían un resultado con la misma calidad.

POLYMATH VIRTUAL LIBRARY (PVL)

Polymath Virtual Library http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Polymath_Virtual_Library La Polymath Virtual Library tiene como objetivo reunir información, datos, textos digitales y sitios Web sobre los polígrafos españoles, hispano-americanos, brasileños y portugueses de todos los tiempos. La columna vertebral del sistema son los autores. El uso de los Datos Vinculados beneficiará a la Polymath Virtual Library pues facilitaría la obtención de enlaces de diferentes recursos y permitirá interactuar con un número creciente de fuentes, así como incrementar la efectividad de la recopilación de datos por medio de procesos semiautomáticos de enriquecimiento de datos y de vinculación a URIs de los Datos Abiertos Vinculados ya disponibles, y para ofrecer los datos como Datos Abiertos

26

Lexvo Es una ontología que proporciona un vocabulario para definir URIs globales para idiomas, palabras, caracteres y

otros objetos del lenguaje humano. 27

Geonames es una Base de datos geográfica.



Vinculados y así mejorar su visibilidad y uso especialmente a través de agregadores como Hispana28 y Europeana29. La información sobre el pensamiento, la filosofía, política, ciencia, etc. de España, Hispano-americana, Portugal y Brasil por escrito en cualquier idioma y en cualquier periodo tienen cabida en la PVL. Esta biblioteca se considera un punto de referencia, ya que reúne información, datos, textos digitales y sitios Web sobre el español, hispanoamericano, eruditos brasileños y portugueses de todos los tiempos. El punto clave del sistema son las referencias a los autores. Para cada autor se crea un registro de autoridad MARC21/RDA y se enriquece con datos biográficos. Los atributos específicos se clasifican para mejorar las relaciones y la navegabilidad del sitio (profesión, ocupación, género, pertenencia, etc.). También se codifican otros datos como fechas de nacimiento y muerte, lugares de nacimiento, idiomas, etc., así cada registro de autoridad añade información de múltiples fuentes. Para crear estos registros de autoridad se consultan diversas fuentes fidedignas, que varían considerablemente dependiendo del autor. Sin embargo, hay varias fuentes comunes que se utilizan para todos los autores como la LCSH (Library Congress Subject Headings) y VIAF (Fichero de Autoridades Virtual Internacional). Como objetivo principal de la PVL, está el incrementar la eficacia de esta colección a través del enriquecimiento semiautomático de los datos, obteniendo para ello las URIs disponibles en LOD y ofrecer datos abiertos vinculados para mejorar su visibilidad y uso. La Polymath Virtual Library mejorará el proceso de obtención de enlaces de diferentes fuentes y la difusión del tipo de esas fuentes con el uso de Datos Vinculados. Los datos a los que se hace referencia son los nombres personales y corporativos, biografías, nombres geográficos, temas, etc. Por otro lado, al ser un tema especializado con una densa red de relaciones la PVL puede contribuir a construir relaciones específicas en los agregadores, ofreciendo su contenido en forma de archivos RDF y el uso de RDFa30 ; esto significa que los usuarios pueden navegar por el sitio entre unos autores y otros de la misma época, área geográfica, mismo idioma, etc. Las labores que se han desarrollado en torno a este caso de uso están relacionadas con las opciones que los usuarios pueden realizar en la Polymath Virtual Library. Algunos ejemplos son:

- Buscar y recuperar a un autor concreto. Pueden leer los datos biográficos y las características fundamentales de sus obras.

- Pueden ir directamente a los textos digitales de estos autores disponibles en el sitio o redirigir a una ubicación diferente.

- Pueden seleccionar las obras que les interesan, descargarlos o formar su propia biblioteca disponible para su consulta en cualquier momento.

28

Hispana es “un directorio y recolector de recursos digitales que reúne las colecciones digitales de archivos, bibliotecas y

museos conformes a la Iniciativa de Archivos Abiertos que promueve la Unión Europea y cumple en relación a los repositorios digitales españoles funciones análogas a las de Europeana en relación a los repositorios europeos”. (Ministerio de Educación, Cultura y Deporte) 29

Europeana es “una biblioteca digital europea de acceso libre que reúne contribuciones ya digitalizadas de reconocidas

instituciones culturales de los países miembros de la Unión Europea. Sus fondos incluyen libros, películas, pinturas, periódicos, archivos sonoros, mapas, manuscritos y otros archivos. (EuropeanaThink Culture) 30

ResourceDescription Framework – in – attributes es una generalización de los atributos de los elementos meta y link de

XHTML.



- Pueden consultar otras fuentes que permitan ofrecer más información y datos incluso debatidos.

- Pueden agregar comentarios, destacar los datos controvertidos, enlaces a otras fuentes de información, etc.

- Pueden navegar por el sitio a otros autores de la misma época, la misma área geográfica, el mismo idioma, los mismos sujetos, que pertenecía a la misma institución, que forman una escuela o movimiento.

Al considerarse una biblioteca que tiene especial interés en los autores, los vocabularios que tienen relación con el caso de uso son los siguientes:

- VIAF - LCSH - RAMEAU (Répertoire d'autorité-matière encyclopédique et alphabétique unifié)31 - Linked Data Services der DNB32 - Instituto Geográfico Nacional (España) - EDM33 (Europeana Data Model) - DBpedia34

El principal problema que se manifiesta en la utilización de Datos Vinculados en este caso práctico es la adquisición automática de la URI, ya que puede aparecer el problema de que las etiquetas en LD no coincidan completamente con los nombres de los registros, lo que puede ocasionar problemas como ambigüedad y que los datos buscados y encontrados no sean los mismos. La combinación de SPARQL con los protocolos de búsqueda distribuidos como SRU35/ OpenSearch ayudaría a mejorar esta limitación.

31

Directorio enciclopédico de autoridad y materia unificado por orden alfabético. 32

Servicio Vinculado de datos de la Biblioteca Nacional Alemana. 33

Es un vocabulario centrado en la representación de metadatos de objetos culturales. 34

BDpedia extrae información estructurada de la Wikipedia. 35

Search Retrieval Via URL es un estándar XML centrado en el protocolo de búsqueda para las consultas de búsqueda en Internet, utilizando CQL(Lenguaje de consulta contextual), una sintaxis estándar para la representación del as consultas.



TALIS PRISM 3 (TP3)

Talis Prism 3 http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Talis_Prism_3 Talis Prism 3 es una interfaz OPAC de nueva generación para la localización y búsqueda de información. Existe una necesidad de interfaces más potentes para navegar por la gran cantidad de contenidos disponibles en las bibliotecas. La exploración por entidades como autores, materias y series es importante, del mismo modo que también lo es la conversión segura de datos de MARC 21 al modelo de Datos Vinculados. Prism 3 está construido sobre la Plataforma Talis, un servicio de alojamiento de Datos Vinculados que ofrece tanto búsquedas SPARQL como búsquedas a texto completo muy completas. La utilización de Datos Vinculados en las bibliotecas requiere de una interfaz potente para poder ofrecer a los usuarios el gran contenido disponible en las bibliotecas. Talis Prism 3 está considerado como un OPAC de nueva generación para la localización y búsqueda de información, que ofrece tanto la consulta SPARQL como potentes búsquedas de texto completo. Este OPAC permite realizar búsquedas por autor, tema y serie además de la extracción fiable de la información de MARC 21 en un modelo de Datos Vinculados.

Es así, que esta interfaz pretende vincular los datos de algunas partes de los registros bibliográficos como autor, título y materia, lo que permitirá ofrecer múltiples puntos de entrada a los datos. Además, al incluir estos datos se puede identificar las versiones alternativas de los recursos y vincular los datos con fuentes externas.

El objetivo de la aplicación de Datos Vinculados con este caso de uso hace hincapié especialmente en la interacción de los usuarios con los sistemas de búsqueda de documentos. Una interfaz será más eficaz siempre que se muestren todas las partes del registro de primera clase, es decir, aquellos elementos que permitan enlazar los datos en un nivel abstracto, hecho que mejora la conexión de los recursos frente a la búsqueda solo de texto completo. En la actualidad, las tecnologías existentes se consideran una herramienta eficaz para lograr la aplicación de nuevos prototipos de interfaz relacionados con los Datos Vinculados, enfocados específicamente a los dominios de las bibliotecas y a las necesidades de los usuarios.

La combinación de los Datos Vinculados junto con el OPAC tiene como consecuencia que los usuarios puedan optimizar sus consultas, por ejemplo:

- Búsqueda, de libros y recursos, sencilla o avanzada. - Filtrar los resultados utilizando facetas. - Ampliar la búsqueda de los elementos relacionados sobre el registro que se ha

realizado la consulta. - Resultados casuales de elementos afines al registro. - Sugerencias de otros servicios relacionados con el registro.

Los vocabularios y conjunto de elementos que pueden ser útiles y aplicables en este contexto son los siguientes:



- FOAF: hace referencia a la persona básica (autor / personaje). - BIBO: referente a los fondos bibliográficos de registro. - Dublin Core: referente a los elementos bibliográficos de carácter más general

(título, autor, etc.). - BIO formato: referente a la información biográfica acerca de las personas

(nacimiento / muerte fecha). - Music Ontology: referente al audio del catálogo de Ontología de los elementos de

organización - la autoría corporativa.

Los problemas que se han manifestado en este caso de uso están relacionados con el proceso técnico, especialmente, con la extracción de la información de los registros MARC 21, ya que la mayoría de los registros se componen de literales y hacen más complicado su utilización en objetos de primera clase sin la necesidad de utilizar fuentes de datos externas, como fuentes de autoridad, para autores, entidades, etc.

Otro aspecto a tener en cuenta en la utilización de Datos Vinculados, es cuando se decide completar los datos de los registros que ya existen, como sucede con las fechas de nacimiento, muerte, etc. Muchas veces estos datos no se consignan en el registro MARC 21 y, por tanto, no es necesario el uso de otros recursos que completen la falta de esos detalles para que se pueda mantener la información de los registros actualizada.

La utilización de Datos Vinculados en las interfaces de las instituciones, no solo se limita a este caso de uso en particular; esto es un ejemplo de uso particular que servirá de guía para la utilización del mismo sistema en otros escenarios similares.

Algunos ejemplos de casos de uso que se pueden incluir son:

La superficie de datos de la biblioteca en una aplicación móvil.

Permitir la agregación de registros en un catálogo colectivo, como el caso de uso Regional Catálog de Alemania.

Activación de recursos y sistemas de lectura de datos para la recolección automática de información para completar sus interfaces. Un ejemplo sería el recurso Talis Aspire.



2.4 Análisis comparativo

Analizados los casos de uso, vamos a proceder a realizar una comparación de las variables extraídas a partir de los objetivos propuestos en el trabajo. Este análisis comparativo nos va a permitir completar la documentación aportada en el Informe Final y la información ofrecida en los casos prácticos. Para visualizar esta información de una forma sencilla se han elaborado unas tablas que acompañan al texto.

1. Procedencia de la autoría

Respecto a la procedencia de la autoría (tabla III), observamos que instituciones y autores personales son los propietarios de estos casos prácticos. Dentro de las instituciones se puede destacar que tienen un carácter tanto público como privado. Ejemplo de entidad pública puede ser la BnF y un tipo de organismo privado puede ser la Fundación Ignacio Larramendi, que además, se corresponde con el único ejemplo de origen español.

Como excepción, se observa que el caso de uso correspondiente a Pode está creado por dos autores, uno de tipo institucional y otro personal.

Una apreciación a destacar, es que ninguna universidad es autora de alguno de los proyectos, hecho que resulta sorprendente ya que este tipo de organismos están muy ligados al LD y Web Semántica.

CASOS

PROCEDENCIA DE LA AUTORÍA

INSTITUCIÓN PERSONA

BN IFLA

AGRIS FAO

CIS JimPitman

BNF BnF

IDLR GuenterMuehlberger

LDLLA UldisBojars

MLLD Gordon Dunsire

OLD Internet Archive

RC AnetteSeiler

PODE Biblioteklaboratoriet Norwegianauthority

Anne-Lena Westrum (Jefa del proyecto)

PVL Fundación Ignacio Larramendi

TP3 Phil John Tabla III. Procedencia de la autoría



2. Objetivos

De modo general, observamos en la tabla IV que la mayor parte de los objetivos propuestos por los diferentes casos de uso están encaminados en última instancia a mejorar las prácticas dirigidas a los usuarios de las bibliotecas o instituciones. Es decir, conseguir que la información que manejan estos organismos sea más visible y accesible para un público que no tiene un conocimiento técnico de los trabajos internos, pero si desean que se les facilite su labor individual para conseguir de manera sencilla la búsqueda y localización de los datos deseados.

Sin embargo, cada unos de los casos prácticos están encaminados a mejorar aspectos concretos del proyecto al que hacen referencia. Los objetivos propuestos por cada caso se consiguen con la conexión de los trabajos de LD y Web Semántica. Podemos observar las siguientes orientaciones:

- AGRIS, dirige sus trabajos a la normalización semántica de sus términos para conseguir un vocabulario específico de sus datos sobre las ciencias agrícolas.

- IDLR, enfoca su labor a la eliminación de duplicados y unificación de registros. - PODE, trabaja para mejorar el etiquetado de recursos web con términos

normalizados. - BNF, MLLD y RC, utilizan interfaces integradas de búsqueda para facilitar la

localización de todos los registros correspondientes a un mismo ejemplar. - BN, CIS, LDLLA, ODL, PVL, y TP3, dirigen sus trabajos para complementar los

datos de los que disponen mediante técnicas de agregación de la información.

CASOS

OBJETIVOS

BN El usuario ve todas las expresiones, manifestaciones y elementos

relacionados con una obra que le resulta interesante.

AGRIS

El catalogador normaliza la semántica de los elementos de los registros de entrada propios a conjuntos de elementos estándar.

El indizador utiliza registros de entrada para buscar en un índice web los recursos relacionados y produce un conjunto de palabras clave relacionadas relevantes de acuerdo a un vocabulario estándar y las descripciones de autoridad.

CIS

El director de un servicio selecciona los datos de las fuentes de entrada para determinar qué libros, artículos, fotografías, videos, etc. se han publicado recientemente y si son de interés para la comunidad.

BNF Los usuarios finales encuentran recursos sobre un determinado

tema o contexto más fácilmente.

IDLR Los usuarios de la biblioteca realizan búsquedas en los catálogos

web y recuperan un solo registro con enlaces a las copias, en lugar



de varias descripciones similares del mismo libro.

Una red de bibliotecas unifica sus registros, elaborando un único registro.

LDLLA Los usuarios, incluidos los de las aplicaciones originales, son

capaces de beneficiarse de las nuevas aplicaciones de LD.

MLLD Se ha optimizado la utilidad de las aplicaciones de usuario para las

salidas de metadatos en las colecciones y conjuntos de datos.

OLD

Los usuarios se encuentran con referencias a los libros en Internet, en una variedad de ambientes, con la posibilidad para vincularlos a una fuente de acceso al registro.

RC

Los usuarios pueden buscar en todas las bibliotecas alemanas a la vez, recibir información sobre posibles referencias destacadas y qué bibliotecas las contienen, e información sobre la biblioteca más cercana

PODE

El usuario final puede ver los productos de un autor agrupados por las temas de trabajo y de expresión, con información adicional relevante añadida de otras fuentes de datos, además de navegar por la colección a través de categorías de clasificación de Dewey.

PVL

Los usuarios pueden buscar y recuperar los datos biográficos de los textos digitales, obras y otras fuentes de información de o acerca de un autor específico, y añadir comentarios, destacar los datos, complementar la información y navegar por otros autores de la misma época entre otras acciones.

TP3

Los usuarios pueden buscar libros y otros recursos por palabra clave simple o índice específico, mejorando sus resultados y ampliar la búsqueda de la navegación a temas o autores.

Tabla IV. Objetivos de los Casos de uso.



3. Requisitos

En la tabla V, se recogen los requisitos utilizados por los diferentes casos de uso para la aplicación de LD en la información que producen y manejan. Todos estos requisitos aparecen detallados en un documento que acompaña al Informe Final, denominado Grupo Incubador de Datos Vinculados de bibliotecas: Conjuntos de datos, Vocabularios de valores y Conjuntos de elementos de metadatos (VOCADBATASET). En este texto se enumeran todos los vocabularios, recursos, terminologías, etc., utilizados en los diferentes casos prácticos de las ocho agrupaciones y, en particular, de los Datos Bibliográficos analizados en este trabajo. Estos requisitos se han clasificado teniendo en cuenta su aparición en los casos prácticos, sin embargo, esta clasificación no se corresponde con la terminología tradicional. Debido a que este punto es el más conflictivo de las variables estudiadas, procedemos a realizar una aclaración puntual.

En primer lugar, debemos definir qué se entiende por Conjunto de datos, Vocabulario de Valores y Conjunto de metadatos (Library Linked Data Incubator Group: Datasets, Value Vocabularies, and Metadata Element Sets, 2011, p. 1-2).

Conjunto de datos: considerados como colecciones de metadatos estructurados, descripciones de cosas como los libros de una biblioteca. En el mundo bibliotecario el equivalente a un conjunto de datos es una colección de registros bibliográficos.

Vocabularios de Valores: define recursos (instancias de materias, estilos artísticos o autores) que se utilizan como valores de elementos en los registros de metadatos. Normalmente un vocabulario de valores no define recursos bibliográficos, como libros, sino más bien conceptos relacionados con los recursos bibliográficos (personas, idiomas, países, etc.). Son componentes estructurales que sirven para llenar de contenido los registros de metadatos. Tradicionalmente se les denominaba Vocabularios Controlados.

Conjunto de metadatos: metadatos definen las clases y atributos utilizados para describir entidades de interés. En la terminología de Datos Vinculados, estos conjuntos de elementos se concretan generalmente por medio de RDF Schemas (Esquemas RDF), OWL Web Ontology Language (Lenguaje de Ontologías Web), que con frecuencia se agrupan bajo el término "vocabulario RDF". Normalmente los conjuntos de elementos de metadatos no describen entidades bibliográficas, sino más bien proporcionan los elementos que se pueden utilizar para describir estas entidades.



En la figura que se muestra a continuación, podemos observar cómo se definen estos requisitos según las normas tradicionales, como se muestra en el cuadro de la izquierda destacado en color morado y, la definición que siguen las normas actuales de LD, representadas en el cuadro rojo de la derecha.

Figura 5. Requisitos tradicionales de las bibliotecas y requisitos LD.

Fuente: Library Standars

Existen algunos casos que varían su denominación tradicional de la empleada en el entorno LD. El problema es que no podemos precisar con exactitud, si el cambio terminológico dificulta la comprensión de los conceptos, o simplemente responde a una evolución natural del propio uso de LD. A continuación, procedemos a nombrar aquellas normas que han cambiado su denominación:

DC: tradicionalmente definido como un formato o esquema de metadatos. Em el informe se identifica dentro del Conjunto de elementos de metadatos, publicados como RDF.

ISBD: normas de descripción internacionales, englobadas dentro de La antigua clasificación clásica como “reglas de catalogación”. En el entorno actual figura dentro del mismo grupo que DC.

FRBR: en sus orígenes se definió como era conocido como un modelo conceptual. Actualmente, se encuadra también dentro del Conjunto de elementos de metadatos, publicados como RDF.



RDA: hace referencia a las actúales normas de descripción y acceso angloamericanas, es decir, son unas reglas de catalogación. Sin embargo, hemos detectado que este recurso no aparece en ningún de los tres grupos, identificados anteriormente, y definidos en el VOCADBATASET. La falta de este recurso puede considerarse una crítica al informe, ya que, en su presentación afirma que todos los requisitos que aparecen en los casos de uso están recogidos en este documento. Por analogía con otras normas de descripción, nosotros encuadraríamos a las RDA dentro del contexto Conjunto de elementos de metadatos.

Precisamente, la mayor parte de recursos utilizados pertenecen al Conjunto de elementos de metadatos. En este grupo destacamos los siguientes recursos utilizados en los casos:

- BIBO - DC - EDM - FOAF - ISBD - FRBR - Lexvo - Music Ontology - RDA - SKOS

Los casos de uso que manejan estos elementos son todos excepto IDLR y LDLLA, que no se engloban dentro de ningún grupo de requisitos. También, podemos observar como los requisitos de Vocabularios de valores, que se han utilizado en los casos prácticos son los siguientes:

- DDC - Geonames - BDpedia - LCSH - RAMEU - VIAF

Estos vocabularios se utilizan a la vez que los recursos de los Conjuntos de elementos de metadatos, es decir, que no son excluyentes unos de otros. Los casos prácticos que emplean tanto estos vocabularios como los conjuntos de metadatos son: PODE, PVL y TP3.

Finalmente, observamos que no existe ningún requisito que se agrupe dentro del Conjunto de datos.



CASOS

REQUISITOS

CONJUNTOS DE

DATOS VOCABULARIOS DE

VALORES

CONJUNTOS DE ELEMENTOS DE

METADATOS

BN

DC BIBO FRBR SKOS

AGRIS

BIBO FOAF SKOS

CIS

BIBO CITO

BnF

DC FOAF RDA SKOS

IDLR

LDLLA

MLLD

BIBO DC ISBD SKOS

OLD

DC FOAF FRBR

RC

BIBO RDA

PODE

DDC

Geonames

BIBO FOAF FRBR Lexvo SKOS

PVL

DBpedia LCSH RAMEU VIAF

EDM

TP3

BIBO DC FOAF Music Ontology

Tabla V. Requisitos utilizados en los Casos de uso



4. Problemas

En cuanto a los problemas y limitaciones surgidos con la aplicación de LD, en casos reales y específicos, podemos observar que las mayores dificultades que se presentan tienen relación con los intereses sociales que se crean alrededor de estos proyectos, en especial, con los costes económicos que supone implantar trabajos de estas características. También hay que aludir a los impedimentos legales impuestos por algunos organismos en cuanto al uso de los datos, ya que son contrarios a liberar información de los cual son propietarios, como es ejemplo de ello CIS, BNF y RC.

Otro inconveniente, muy generalizado entre los distintos casos prácticos, son las limitaciones técnicas que se presentan en el momento de la aplicación de LD a sus datos como sucede en los casos de AGRIS, CIS, BNF, LDLLA, MLLD, RC, PODE, PVL, TP. Esta limitación se debe a que los datos originales de las bibliotecas tienen unos requisitos ya fijados y que no son fáciles de adaptar a los nuevos cambios que se producen.

Podemos destacar que los casos de uso BN e IDLR no presentan ningún tipo de problema con la utilización de los Datos Enlazados.

CASOS

PROBLEMAS

BN

AGRIS Compleja identificación de los datos bibliográficos mediante URIs

debido al carácter heterogéneo de los mismos.

CIS Intereses sociales, económicos y legales.

Limitaciones técnicas.

BNF

Coste económico de creación y mantenimiento.

Modelo de LD complejo.

Restricciones legales para la reutilización de los datos.

IDLR

LDLLA

Adaptación de aplicaciones existentes a las nuevas aplicaciones (problemas de duplicación de registros).

Período de adaptación de aplicaciones (limitación de las funciones mientras se produce el cambio).

MLLD Atemporalidad entre los registros y las normas vigentes.

Duplicación de registros.

OLD No existe relación entre los nombres de personas con los Datos de

autoridad de una institución.

RC

Oposición a liberar los datos.

Legalidad: quién es el propietario y qué licencia tienen esos datos.

Tareas técnicas: homogeneizar los registros.



Identificación de registros similares en distintas instituciones.

PODE Dificultad para aplicación de estándares FRBR a todos los registros

del catálogo por su heterogeneidad.

PVL Etiquetas LD y registros no coinciden (dificultad para asignar URIs).

TP

Extracción de información de los registros MARC 21.

Tabla VI. Problemas en el desarrollo de los Casos de uso

5. Relaciones

En la tabla VII, podemos observar que algunos casos de uso se relacionan con otros ejemplos de casos prácticos de la propia agrupación de Datos Bibliográficos. Tal es el caso de BN y RC. Por otro lado, existen relaciones con casos de otras agrupaciones temáticas, como sucede por ejemplo en AGRIS y MLLD.

Sin embargo, existen relaciones de carácter general que no se especifican con ningún caso de uso en particular como son: BnF, IDLR y TP3.

La conexión entre los conjuntos de casos resuelve muchos de los problemas que limitan el desarrollo de los trabajos individuales de los casos prácticos.

También apreciamos como en los Casos de uso CIS, LDLLA, OLD, PODE y VPVL no existe ningún tipo de relación al respecto.



CASOS

RELACIONES

BN Open Library Data

AGRIS AGROVOC Thesaurus.

FAO Authority Description Concept Scheme

CIS

BNF Interés general, acceso a colecciones digitales, venta de libros en

línea, enlaces a otras bibliotecas digitales.

IDLR WorldCat

LDLLA

MLLD

Agrupación de Datos Bibliográficos.

Agrupación de Archivos.

Agrupación de Datos de Autoridades.

Agrupación de Colecciones.

OLD

RC

Bibliographic Network.

Europeana.

Open Library.

Identification and deduplication of library records.

Talis Prism 3.

PODE

PVL

TP3

Datos en una aplicación móvil.

Catálogos colectivos.

Talis Aspire.

Tabla VII. Relaciones de los Casos de uso



2. CONCLUSIONES Y PROPUESTAS DE MEJORA

A través del estudio realizado sobre los diferentes apartados del trabajo y, tomando como base los objetivos propuestos en el mismo, podemos concluir que el análisis de los Casos de uso llevado a cabo por el Library Linked Data Incubator Group, representa un eje fundamental en cuanto al desarrollo de proyectos LD y Web Semántica se refiere. En este sentido, dicho informe muestra las ventajas que los Datos Enlazados suponen para la descripción de los recursos de bibliotecas que deseen compartir sus datos, no solo con los usuarios sino también con instituciones afines. Además, este estudio de casos concretos es el punto de partida para el desarrollo de proyectos futuros que permitan mejorar y ampliar los vacíos que han surgido en el desarrollo del análisis de los casos. No obstante, podemos extraer otras conclusiones relativas a los objetivos específicos planteados en el trabajo y que se citan a continuación:

Todos los casos de uso tienen especificada la autoría.

Los autores de los casos de uso se identifican con dos tipos de propietarios, por un lado las instituciones, que pueden tener carácter público o privado, y por otro lado, los autores personales. El indicar explícitamente los propietarios de casa caso, refuerza la información que ofrecen.

El propósito general de los casos prácticos se dirige principalmente a los usuarios.

Como objetivo principal del estudio es el usuario, de manera que las bibliotecas e

instituciones mediante el uso de LD pretenden ofrecer la mayor cantidad de datos a los interesados.

Se desarrollan nuevos requisitos para la creación y consumo de Datos Enlazados.

Es preciso trabajar con nuevas técnicas para conseguir que los datos de las

bibliotecas e instituciones adquieran la modalidad de LD. Cada caso práctico, trabaja con diferentes requisitos que no son excluyentes, ya que cada uno de ellos tiene una función diferente dentro del contexto de Datos Enlazados.

La aplicación tecnológica de la Web Semántica y Datos Vinculados en bibliotecas

e instituciones afines, aún debe mejorar.

Es necesario seguir trabajando para perfeccionar y corregir las limitaciones y problemas que presentan los datos tradicionales de las bibliotecas frente al dinamismo de los LD.

Hay que trabajar para resolver los problemas de los casos de uso.

En cuanto a los problemas específicos de los casos de uso, en algunos de ellos aparecen detallados estas limitaciones pero en otros no se concretan, disminuyendo la calidad del contenido del caso práctico.

Las relaciones con otros usos prácticos beneficia la labor desarrollada de cada

caso particular.



Las deficiencias que presentan los casos de uso pueden mejorarse e incluso

solventarse con el complemento de las técnica utilizadas por otros casos prácticos, correspondientes con la propia agrupación de Datos Bibliográficos u otras agrupaciones. Sin embargo, hay cuatro casos, concretamente los relativos a AGRIS, BNF, iDLR, TP3 que se complementan de las ventajas de los otros grupos definidos.

En cuanto a las conclusiones extraídas del análisis del Informe Final en su conjunto, podemos destacar el estudio exhaustivo que lleva a cabo el IncubatorGroup sobre el estado actual que bibliotecas e instituciones afines mantienen en torno al uso y manejo de LD en sus trabajos habituales. Además, este documento tiene un valor añadido, al sentar las bases de los beneficios que el LD y la Web Semántica aportan para la producción y manejo como Datos Enlazados a sus registros.

Un punto importante del informe son las recomendaciones dirigidas a los profesionales de las instituciones culturales. Lo que se pretende conseguir es que dichas organizaciones adquieran la máxima visibilidad en la Web frente a los usuarios que demanden información. Pero esta tarea no se logra solamente convirtiendo los datos de cada biblioteca a LD, sino que el éxito total se obtendría sí la información que proporcionan las bibliotecas y otros recursos de la web se complementaran plenamente para obtener los máximos beneficios.

Respecto al análisis específico de los casos de uso del grupo de Datos Bibliográficos, objeto de nuestro estudio, declarar que realizan una tarea complicada por mostrar con ejemplos reales las ventajas que LD aporta a los datos bibliotecarios. Sin embargo, estos casos de uso deberían estudiarse con mayor detenimiento, ya que siguen un esquema general para todos los ejemplos, pero que en ocasiones no se cumple. Por tanto, deberían examinarse de acuerdo a su contenido e indicar aquellas partes que falle para incluir mejoras en un futuro. Con el Informe Final queda resuelto este aspecto, en la medida que cada caso se relaciona con otro, bien de la misma agrupación o de otra distinta, que le puede servir de ayuda para su propio desarrollo.

Como aspecto negativo, destacar la parte que corresponde al documento complementario del Informe Final, denominado Conjuntos de datos, Vocabularios de valores y Conjuntos de elementos de metadatos (VOCADBATASET). Dicho texto, enumera los distintos recursos utilizados en los casos de uso para la creación de Datos Vinculados, pero están agrupados de manera que no se corresponde con la realidad, es decir, utiliza una terminología no adecuada para definir los requisitos que intervienen el desarrollo o creación de LD, hecho que confunde al lector interesado sobre qué tipo de recurso se utiliza.

Con la elaboración de este trabajo se ha pretendido realizar un estudio detallado de cuál es el contexto que las bibliotecas tienen respecto a la visibilidad e interoperabilidad de sus datos y los beneficios que supondría la utilización de Datos Enlazados, en concreto en el agrupamiento de los Datos bibliográficos.

Futuras líneas de investigación podrían dirigirse, en primer lugar, al desarrollo de los otros siete grupos temáticos enumerados en el Informe Final. Una vez efectuados estos exámenes particulares, posteriormente, se podrían formalizar análisis correlativos entre las diferentes agrupaciones. Además, otros posibles temas de investigación serían las aplicaciones del LD en otros entornos diferentes al de las instituciones culturales, como puede ser el ámbito de los organismos gubernamentales. También podrían llevarse a



cabo investigaciones que trataran justamente lo contrario, es decir, que identificarán que aspectos pueden poner en riesgo la interoperabilidad de la Web, determinando tanto riesgos humanos como tecnológicos.

Nos gustaría culminar nuestro trabajo con las palabras de Pastor Sánchez (2011, p. 92) quien en su obra Tecnología de web semántica resume la importancia del Linked Open Data del siguiente modo:

“En definitiva, LOD es una tendencia que cada día está ganando terreno en muchos ámbitos, incluso en datos gestionados por las administraciones públicas. Actualmente se calcula que existen unos treinta y mil millones de tripletas (sentencias) RDF disponibles en la web conectadas por más de quinientos millones de relaciones”.

Esperamos, y deseamos, con este estudio haber aportado nuestro pequeño granito de arena para que sigan multiplicándose las tripletas que permiten el enlace de datos, no sólo de tipo bibliográfico, objeto de nuestro análisis, sino de los datos de otras instituciones afines y diferentes a nuestro entorno. Asimismo, nos gustaría que los profesionales de la información jueguen un papel fundamental en tal empresa.



3. BIBLIOGRAFÍA

BDpedia (2012) [en línea]. Leipzig: Universitat Leipzig, 2012. Disponible en: http://dbpedia.org/About [Consultado el: 06/07/2012]. BERNERS-Lee, Tim (2006). Linked data [en línea]. [S. l.]: World Wide Web Consortium, 2006. Disponible en: http://www.w3.org/DesignIssues/LinkedData.html [Consultado el: 4/06/2012]. The BIBLIOGRAPHIC Ontology (2009) [en línea]. [S.l.] : The Bibliographic Ontology, 2009. Disponible en: http://bibliontology.com/specification [Consultado el: 06/07/2012]. BIBLIOTETHÈQUE NATIONALE DE FRANCE (2012).RAMEAU: Répertoire d'autorité-matière encyclopédique et alphabétique unifié [en línea]. [París]: BnF, 2012. Disponible en: http://rameau.bnf.fr/ [Consultado el: 06/07/2012]. DEWEY Decimal Classification (2012) [en línea]. Dublin (Ohio): OCLC, Disponible en: http://www.oclc.org/dewey/ [Consultado el: 06/07/2012]. DUBLIN Core Metadata Initiative (1995) [en línea]. [S. l.]: DCMI, 1995. Disponible en: http://dublincore.org/ [Consultado el: 06/07/2012]. EUROPEANA Data Model (EDM) (2012) [en línea]. The Hague: National Library of the Netherlands, 2012. Disponible en: http://pro.europeana.eu/edm-documentation [Consultado el: 06/07/2012]. FOAF Vocabulary Specification 0.98 (2010) [en línea]. [S. l.]: World Wide Web Consortium, 2010. Disponible en: http://xmlns.com/foaf/spec/ [Consultado el: 16/01/2012]. FUNDACIÓN Ignacio Larramendi [en línea] (2012). Madrid: Fundación Ignacio Larramendi, ca. 2012. Disponible en: http://www.larramendi.es/ [Consultado el: 16/01/2012]. GEONAMES (2012) [en línea]. [S. l.]: Geonames, ca. 2012. Disponible en: http://www.geonames.org/ [Consultado el: 06/07/2012]. GRUPO INCUBADOR DE DATOS VINCULADOS (2012). Grupo Incubador de Datos Vinculados de Bibliotecas [en línea].: Casos de uso. Madrid: Fundación Ignacio Larramendi, 2012. Disponible en: http://www.larramendi.es/LAM/Incubator/lld/XGR-lld-usecase-20111025.html [Consultado el: 16/04/2012]. GRUPO INCUBADOR DE DATOS VINCULADOS (2012). Grupo Incubador de Datos Vinculados de Bibliotecas [en línea].: Conjuntos de datos, Vocabularios de valores y



Conjuntos de elementos de metadatos. Madrid: Fundación Ignacio Larramendi, 2012. Disponible en: http://www.larramendi.es/LAM/Incubator/lld/XGR-lld-vocabdataset.html [Consultado el: 16/04/2012]. GRUPO INCUBADOR DE DATOS VINCULADOS (2012). Informe Final del Grupo Incubador de Datos Vinculados de Bibliotecas [en línea]. Madrid: Fundación Ignacio Larramendi, 2012. Disponible en: http://www.larramendi.es/LAM/Incubator/lld/XGR-lld-20111025.html [Consultado el: 16/04/2012]. LIBRARY LINKED DATA INCUBATOR GROUP (2010). Incubator Activity. [S. l.]: World Wide Web Consortium, 2010. Disponible en: http://www.w3.org/2005/Incubator/lld/ [Consultado el: 6/07/2012] LIBRARY LINKED DATA INCUBATOR GROUP (2011). Library Linked Data Incubator Group: Datasets, Value Vocabularies, and Metadata Element Sets [en línea]. [S. l.]: World Wide Web Consortium, 2011. Disponible en: http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset-20111025/ [Consultado el: 6/07/2012]. LIBRARY LINKED DATA INCUBATOR GROUP (2011). Library Linked Data Incubator Group: Use Cases [en línea]. [S. l.]: World Wide Web Consortium, 2011. Disponible en: http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase-20111025/ [Consultado el: 6/07/2012]. LIBRARY LINKED DATA INCUBATOR GROUP (2011). Library Linked Data Incubator Group Final Report [en línea]. [S. l.]: World Wide Web Consortium, 2011. Disponible en: http://www.w3.org/2005/Incubator/lld/XGR-lld-20111025/ [Consultado el: 6/07/2012]. LIBRARY LINKED DATA INCUBATOR GROUP (2011). Library standards and linked data. [S. l.]: World Wide Web Consortium, 2011. Disponible en: http://www.w3.org/2005/Incubator/lld/wiki/images/1/12/LayeredModelV3.pdf [Consultado el: 6/07/2012] LIBRARY OF CONGRESS (2011). Library of Congress Subject Headings [en línea]. Washington: Library of Congress, 2011. Disponible en: http://id.loc.gov/authorities/subjects.html [Consultado el: 6/07/2012]. MÉNDEZ, Eva, Greenberg, Jane (2012). Linked data for open vocabularies and HIVE’s global framework. El profesional de la información, 2012, mayo-junio, vol. 21, no.3, pp. 236-244. MUSIC Ontology Specification (2010) [en línea]. [S.l. : s.n.], 2010.Disponible en: http://musicontology.com/ [Consultado el: 16/01/2012]. PASTOR Sánchez, Juan Antonio; Martínez Menéndez, Francisco Javier; Rodríguez Muñoz, José Vicente (2012). Aplicación de SKOS para la interoperabilidad de



vocabularios controlados en el entorno de linked open data. El profesional de la información, 2012, mayo-junio, vol. 21, no.3, pp. 245-253. PASTOR Sánchez, Juan Antonio (2011). Tecnologías de la web semántica. Barcelona: UOC, 2007. 120 p. El profesional de la información ; 1. ISBN 978-849788-474-7. REGLAMENTO de Trabajos de Fin de Máster (2011) [en línea]. Salamanca: Universidad de Salamanca, 2011. Disponible en: http://posgrado.usal.es/docs/Trabajo%20Fin%20Master%20(20090528).pdf [Consultado el: 4/06/2012]. RÍOS Hilario, Ana (2007) FRBR: realidad actual y perspectivas de futuro. En: Congreso ISKO España (8º. 2007. León). La interdisciplinaridad y la transdisciplinariedad en la organización del conocimiento científico. León: Universidad de León, Secretariado de Publicaciones, 2007, pp. 441-450. RÍOS Hilario, Ana; Martín Campo, Diego; Ferreras Fernández, Tránsito (2012). Linked data y linked open data: su implantación en una biblioteca digital. El caso Europeana. El profesional de la información, 2012, mayo-junio, vol. 21, no.3, pp. 292-297. RÍOS Hilario, Ana Belén (2003). Nuevos horizontes en el análisis de los registros y la normativa bibliográfica. Gijón: Trea, 2003. 165 p. Biblioteconomía y administración cultural; 85. ISBN 84-9704-095-3. STUDY GROUP ON THE FUNCTIONAL REQUIREMENTS FOR BIBLIOGRAPHIC RECORDS (1998). Functional Requirements for Bibliographic Records [en línea]. München: K. G. Saur, 1998. También disponible en: http://www.ifla.org/publications/functional-requirements-for-bibliographic-records [Consultado el: 16/01/2012]. PROGRAMA Oficial de Posgrado en Sistemas de Información Digital: 2010-2011(2010) [en línea]. Salamanca: Universidad de Salamanca, 2010. Disponible en: http://mastersid.usal.es/data/_uploaded/file/M022_Sistemas%20de%20Informacion%20Digital%20Guia.pdf [Consultado el: 4/06/2012]. VIAF: Fichero de Autoridades Virtual Internacional [en línea]. Dublin: Online Computer Library Center, 2011. Disponible en: http://www.nla.gov.au/ [Consultado el: 06/07/2012]. WORLD WIDE WEB CONSORTIUM (2011). Use Case AGRIS [en línea]. [S. l.]: W3C, 2011. Disponible en: http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_AGRIS [Consultado el: 6/07/2012]. WORLD WIDE WEB CONSORTIUM (2011). Use Case Bibliographic Network [en línea]. [S. l.]: W3C, 2011. Disponible en: http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Bibliographic_Network [Consultado el: 6/07/2012].



WORLD WIDE WEB CONSORTIUM (2011). Use Case Community Information Service [en línea]. [S. l.]: W3C, 2011. Disponible en: http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Community_Information_Service [Consultado el: 6/07/2012]. WORLD WIDE WEB CONSORTIUM (2011). Use Case Data BNF [en línea]. [S. l.]: W3C, 2011. Disponible en: http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Data_BNF [Consultado el: 6/07/2012]. WORLD WIDE WEB CONSORTIUM (2011). Use Case Identification And Deduplication Of Library Records [en línea]. [S. l.]: W3C, 2011. Disponible en:http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Identification_And_Deduplication_Of_Library_Records [Consultado el: 6/07/2012]. WORLD WIDE WEB CONSORTIUM (2011). Use Case Linked Data and legacy library applications [en línea]. [S. l.]: W3C, 2011. Disponible en: http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Linked_Data_and_legacy_library_applications [Consultado el: 6/07/2012]. WORLD WIDE WEB CONSORTIUM (2011). Use Case Migrating Library Legacy Data [en línea]. [S. l.]: W3C, 2011. Disponible en: http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Migrating_Library_Legacy_Data [Consultado el: 6/07/2012]. WORLD WIDE WEB CONSORTIUM (2011). Use Case Open Library Data [en línea]. [S. l.]: W3C, 2011. Disponible en: http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Open_Library_Data [Consultado el: 6/07/2012]. WORLD WIDE WEB CONSORTIUM (2011). Use Case Pode [en línea]. [S. l.]: W3C, 2011. Disponible en: http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Pode [Consultado el: 6/07/2012]. WORLD WIDE WEB CONSORTIUM (2011). Use Case Polymath Virtual Library [en línea]. [S. l.]: W3C, 2011. Disponible en: http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Polymath_Virtual_Library [Consultado el: 6/07/2012]. WORLD WIDE WEB CONSORTIUM (2011). Use Case Regional Catalog [en línea]. [S. l.]: W3C, 2011. Disponible en: http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Regional_Catalog [Consultado el: 6/07/2012]. WORLD WIDE WEB CONSORTIUM (2011). Use Case Talis Prism 3 [en línea]. [S. l.]: W3C, 2011. Disponible en: http://www.w3.org/2005/Incubator/lld/wiki/Use_Case_Talis_Prism_3 [Consufvltado el: 6/07/2012].



WORLD WIDE WEB CONSORTIUM (2012).SKOS: Simple knowledge organization for the Web [en línea]. [S. l.]: W3C, 2012. Disponible en: http://www.w3.org/2004/02/skos/intro [Consultado el: 6/07/2012]. WORLD WIDE WEB CONSORTIUM (W3C) (2012) [en línea]. [S. l.]: W3C, 2012.Disponible en: http://www.w3.org/ [Consultado el: 6/07/2012].

la aplicación de linked data en la agrupaciónndez... · pvl polymath virtual library ......

Documents