Download - Repositorios de datos
Repositorios de datosRepositorios de datos
Ingrid Bárcena, Área de Cálculo y ArchivoRicard de la Vega, Área de Portales y RepositoriosCentro de Supercomputación de Catalunya (CESCA)
4ª reunión plenaria e-Ciencia2 de diciembre de 2010
AgendaAgenda
1. Introducción2. Los repositorios de datos3. Hoja de ruta en repositorios4. Conclusiones
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
Centre de SupercomputaciCentre de Supercomputacióó de de CatalunyaCatalunya
� Consorcio público
� Creado en 1991
� Formado por:• Generalitat de Catalunya
• Fundació Catalana per a la Recerca i la Innovació
• 9 universidades catalanas
• Consejo Superior de Investigaciones Científicas
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
Centre de SupercomputaciCentre de Supercomputacióó de de CatalunyaCatalunya
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
El CESCA, facilitador de la El CESCA, facilitador de la actividadactividad I+D+II+D+I
DOCUMENTACI
DOCUMENTACIÓÓNN
TEST DE LA HIPTEST DE LA HIPÓÓTESISTESISEXPERIMENTALEXPERIMENTAL
DIFUSIDIFUSIÓÓN DE LAN DE LAPRODUCCIPRODUCCIÓÓN CIENTN CIENTÍÍFICAFICA
�Tesis, páginas web, revistas
documentos de investigación, …
TEST
DE
LA H
IP
TEST
DE
LA H
IPÓÓ
TESI
TESI
TEÒ
RIC
O
TEÒ
RIC
O
ANANÁÁLI
SI D
E R
ESU
LTAD
OS
LISI
DE
RES
ULT
ADO
S
REPOSITORIOS eREPOSITORIOS e--INFORMACIINFORMACIÓÓNNSUPERCOMPUTACISUPERCOMPUTACIÓÓNNY ALMACENAMIENTOY ALMACENAMIENTO
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
Taxonomia de los Taxonomia de los repositoriosrepositorios
Towards a European e-Infrastructure for e-Science Digital Repositories. 7th e-Concentration Meeting, Brussels, 12-14th October, 2009
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
RepositoriosRepositorios de de datosdatos??
Aprox. 500 EB en 2020
Necesidades:
� Gestión
� Preservación
� Difusión
� Reutilitzación
Existe la necesidad ? Existen iniciativas?Hay una tendencia?
�Mandato del NWO holandés para firmar un contrato con DANS (Data Archiving and NetworkedServices) para gestionarlos según el DSA (Data Seal ofApproval), unas guías para la calidad de los datos.
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
El CESCA, facilitador de la El CESCA, facilitador de la actividadactividad I+D+II+D+I
DOCUMENTACI
DOCUMENTACIÓÓNN
TEST DE LA HIPTEST DE LA HIPÓÓTESITESIEXPERIMENTALEXPERIMENTAL
DIFUSIDIFUSIÓÓN DE LAN DE LAPRODUCCIPRODUCCIÓÓN CIENTN CIENTÍÍFICAFICA
TEST
DE
LA H
IP
TEST
DE
LA H
IPÓÓ
TESI
TESI
TEÒ
RIC
O
TEÒ
RIC
O
ANANÁÁLI
SI D
E R
ESU
LTAD
OS
LISI
DE
RES
ULT
ADO
S
REPOSITORIOS eREPOSITORIOS e--INFORMACIINFORMACIÓÓNNSUPERCOMPUTACISUPERCOMPUTACIÓÓNNY ALMACENAMIENTOY ALMACENAMIENTO
Repositorios de datos
� Gestión de los datos
� Preservación
� Data citation
� Reutilización
Storage
Repository
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
La Red EspaLa Red Españñola de ola de ee--CienciaCiencia
DOCUMENTACI
DOCUMENTACIÓÓNN
TEST DE LA HIPTEST DE LA HIPÓÓTESISTESISEXPERIMENTALEXPERIMENTAL
DIFUSIDIFUSIÓÓN DE LAN DE LAPRODUCCIPRODUCCIÓÓN CIENTN CIENTÍÍFICAFICA
�Tesis, páginas web, revistas
documentos de investigación, …
TEST
DE
LA H
IP
TEST
DE
LA H
IPÓÓ
TESI
TESI
TEÒ
RIC
O
TEÒ
RIC
O
ANANÁÁLI
SI D
E R
ESU
LTAD
OS
LISI
DE
RES
ULT
ADO
S
SUPERCOMPUTACISUPERCOMPUTACIÓÓNNY ALMACENAMIENTOY ALMACENAMIENTO
REPOSITORIOS eREPOSITORIOS e--INFORMACIINFORMACIÓÓNN
Repositorios de datos
� Gestión de los datos
� Preservación
� Data citation
� Reutilización
Storage
Repository
HojaHoja de ruta de ruta repositoriosrepositorios de de datosdatos
2008 2009 2010 2011 2012
ExploraciónAnálisis de referentes
JOCS’09Grupo trabajo REeC
JOCS’09
Requisitos usuarios
Piloto
Estudio viabilidad
?
HojaHoja de rutade ruta
2008 2009 2010 2011 2012
ExploraciónAnálisis de referentes
JOCS’09Grupo trabajo REeC
JOCS’09
Requisitos usuarios
Piloto
Estudio viabilidad
?
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
AnAnáálisis de requisitos lisis de requisitos
� Procedimiento de gestión y ciclo de vida de los datos
� Tipo y formatos de los datos
� Metadatos e interoperatibilidad
� Propiedad intelectual
� Sostenibilidad
� Modelo de repositorio, específico o generalista
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
Ciclo de vida de los datosCiclo de vida de los datos
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
DatosDatos en en investigaciinvestigacióónn
Ciencias de la Tierra
� Mediciones de lluvias� Observaciones astronómicas� Bases de modelos genéticos� Estructuras cristalograficas
Ciencias sociales
� Encuesta de opinión� Estudios demográficos � Mapas de censo
Medicina
� Neuroimagenes del cerebro� Estudios genéticos� Historiales médicos� Mamografias
Origen Topologia
� Experimentos científicos
� Mediciones
� Simulaciones
� Según NSF :
Observacionales, Experimentales y Computacionales
� Según RIN:
Derivadas y Canónicas
Internacionales
• Data Archive UK• DataShare• Ebank Uk• RepoMMan• eCrystals• Observatorio Virtual• ...
En España
• PIC• Meteosix• CETA-CIEMAT• NCAD• ICC• GRyCAP• ...
Ibergrid• Iniciativas
AnAnáálisislisis de de referentesreferentes
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
Arquitectura: repositorios Arquitectura: repositorios generalistasgeneralistas
General Data Repository� Guidelines and best practices of
• Data management and curation
• Intellectual property
• Long term preservation
� General OAI-PMH metadata harvester
� Subject specific metadata harvesters
Specific
metadata
harvester
Storage
Storage
Repository
Repository
Aproximación Top-Down
� Repositorios de propósito general
�CESCA tiene experiencia
� La mayoria de informes y
directivas van en esta linea
� Facilita la interoperabilidad y
compatibilidad de los datos
� Costosos de implementar
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
Arquitectura: repositorios temArquitectura: repositorios temááticosticos
Specific
metadata
harvester
Storage
Storage
Repository
Repository
Aproximación Bottom-Up
� Repositorios temáticos
� La mayoría de experiencias van
en esta línia
� Són más sencillos de implementar
� Suelen ser repositorios aislados
�Storage
�Repository
Subject Specific Data Repository� Data management and curation
� Data dissemination
� Long term preservation
�Metadata provider
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
Nuestra visiNuestra visióón de los repositorios de datosn de los repositorios de datos
General Data Repository� Guidelines and best practices of
• Data management and curation
• Intellectual property
• Long term preservation
� General OAI-PMH metadata harvester
� Subject specific metadata harvesters
Federated Data Repositories NetworkFor specific metadata schema by subject:
� Environmental Science
� Astrophysics
� Social Science
�…
Subject Specific Data Repository� Data management and curation
� Data dissemination
� Long term preservation
�Metadata provider
Specific
metadata
harvester
Storage
Storage
Repository
Repository
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
Repositorios distribuidosRepositorios distribuidos
Red de repositorios temáticos QC
Red de repositorios temáticos x
� Recolector metadatos generals� Procedimientos y normatives
• Data management• Metadatos (reded)• Preservación
HojaHoja de rutade ruta
2008 2009 2010 2011 2012
ExploraciónAnálisis de referentes
JOCS’09Grupo trabajo REeC
Requisitos usuarios
Piloto
Estudio viabilidad
?
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
JOCSJOCS’’20092009
Repositorios de datos en Oxford: servicios institucionales
federados Luis Martínez Uribe, University of Oxford
Proyecto Meteosix: repositorio de información
meteorológica y oceanográfica para Galicia Carlos
Fernández, CESGA
Repositorios digitales sobre infraestructura Grid Raúl
Ramos, CETA-CIEMAT
EL PIC, un centro de superalmacenamiento y gestión de
datos científicos Gonzalo Merino, PIC
NCAD: Non-Coded Amino Acids Database Carlos Alemán,
UPC
Grans bases de dades i mineria de dades en astronomia:
l'observatori virtual Xavier Luri, UB
Mapas en la Web: podemos competir con Google? Josep
Lluís Colomer, Institut Cartogràfic de Catalunya
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
Grupo de trabajo Grupo de trabajo REeCREeC
� Objetivo: elaborar un documento en el que se proponga la creación de una àrea de repositorios de datos dentro del la Red de e-Ciencia
� Participantes:• BSC, David Vicente • CESCA, Miquel Huguet (Coordinador del documento)• CESGA, Carlos Fernández• CETA-CIEMAT, Guillermo Díaz• MICINN, Víctor Castelo• PIC, Yolanda Vives• RedIRIS, Diego Lopez• UNED, Jordi Serrano• UPV, Vicente Hernández
� Hitos e instrumentos recogidos en el documento• Explorar la comunidad de la Red e Ibergrid• Fomentar la colaboración entre los grupos• Estudiar y desarrollar documentación y guias generales
HojaHoja de rutade ruta
2008 2009 2010 2011 2012
ExploraciónAnálisis de referentes
JOCS’09Grupo trabajo REeC
Requisitos usuarios
Piloto
Estudio viabilidad
?
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
Plan de trabajo 2011Plan de trabajo 2011
T4T3T2T1
Entrevistas individuales
Elaboración y distribución de la encuesta
Análisis de los resultados
Desarrollo del piloto
Estudio de usuarios
Informe de experiencias
Propuesta de viabilidad y diseño del repositorio
ConclusionesConclusiones
Oportunidades
• Reutilización
• Data citation
• Preservación
• Colaboración
Servicios• Gestión de los datos
• Legales y éticos
• Buenas prácticas
• Data curation
Retos
• Data deluge
• Interoperabilidad• Relevancia y selección
• Preservación
• Sostenibilidad
• Data clearing
• Metadatos
• Visualización
• Búsquedas
• Sharing plans
• Recomendación de formatos
• etc.
4ª Reunión plenaria e-Ciencia, Barcelona 2 de diciembre
¡¡Gracias Gracias porpor susu atenciatencióónn!!
¿Preguntas?