institucional: gestión de datos comunidad científica y

52
Servicios de DIGITAL.CSIC a la comunidad científica y técnica institucional: Gestión de Datos Isabel Bernal Oficina Técnica de DIGITAL.CSIC Curso del Gabinete de Formación CSIC 25-27 marzo, 2019

Upload: others

Post on 03-Jul-2022

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: institucional: Gestión de Datos comunidad científica y

Servicios de DIGITAL.CSIC a la comunidad científica y técnica institucional: Gestión de Datos 

Isabel Bernal Oficina Técnica de DIGITAL.CSIC 

Curso del Gabinete de Formación CSIC 25-27 marzo, 2019 

Page 2: institucional: Gestión de Datos comunidad científica y

Hacia la Ciencia AbiertaAnálisis e 

interpretación de los datos

Peer reviewPublicación

Revisión de literatura científica

Hipótesis, diseño de la investigación

Recogida de datos

ReplicabilidadReutilización

Pre-prints

Revisiones y anotacionesabiertas 

Registro de hipótesis

Cuadernos de laboratorio abiertos 

Acceso abierto

Datos abiertos

PreservaciónNuevos sistemas de evaluación 

Software abierto

Planes de gestión de datos

Licencias abiertas

Page 3: institucional: Gestión de Datos comunidad científica y

Hacia la consolidación de la Ciencia Abierta en los servicios bibliotecarios

• Desarrollo de planes de gestión de datos • Ayuda en el cumplimiento de los datos FAIR• Gestión de identificadores de autor (ORCID..)• Creación de repositorios y portales • Asesoramiento sobre Ciencia Abierta• Promoción de uso de esquemas de metadatos y 

vocabularios controlados• Gestión, descripción y publicación de datos• Apoyo a la publicación en acceso abierto• Promoción de nuevos indicadores de evaluación• Promoción de licencias abiertas (Creative 

Commons, Open Data Commons..) que fomentan la reutilización de la ciencia

• Apoyo en el cumplimiento de mandatos OA• Agregación de recursos en infraestructuras 

abiertas de investigación

Page 4: institucional: Gestión de Datos comunidad científica y

Preparación de un plan de gestión de datos 

Gestión de datos

Difusión de datos en acceso abierto

Servicios de DIGITAL.CSIC en gestión de datos 

Page 5: institucional: Gestión de Datos comunidad científica y

SERVICIOS PARA PREPARAR PLANES DE GESTIÓN DE DATOS. GESTIÓN DE DATOS “FAIR”

Page 6: institucional: Gestión de Datos comunidad científica y

El papel de la Comisión Europea en impulsar la planificación y la difusión 

de los datos FAIR

Page 7: institucional: Gestión de Datos comunidad científica y

• Qué datos:1. estadísticas, resultados de 

experimentos, mediciones, observaciones de trabajo de campo, resultados de encuestas, grabaciones de entrevistas, imágenes

2. los datos que sirven para validar los resultados de publicaciones científicas y sus metadatos correspondientes y (voluntariamente) otro tipo de datos creados durante el proyecto

• Qué más: Un plan de gestión de datos

• Qué proyectos: a partir de proyectos que inician en 2017, todos por defecto  

• Qué plataformas: repositorios institucionales, centralizados, temáticos. Fuente:Re3data

• Cuándo: tan pronto como sea posible

• Qué metadatos en repositorio:  información necesaria para validar resultados de investigación (p.e, requerimientos de software, código, protocolos de análisis..) Recomendable es la asignación de DOIs para datasets a través de DataCite

• Qué licencias Recomendadas las licencias CC-BY, CC-0

• Qué financiación Los costes asociados a la provisión de acceso abierto a los datos (p.e, mantenimiento y almacenamiento de datos) son elegibles y su reembolso puede realizarse durante la duración del proyecto

• Qué excepciones: “fund" and "prizes" instruments, "ERC proof of concept" grants, "ERA-Nets" that do not produce data, SME instrument, phase 1. Además, opción general de “opt out” por razones de seguridad, éticas, privacidad, otras. 

Page 8: institucional: Gestión de Datos comunidad científica y

¿Por qué DIGITAL.CSIC es un repositorio válido para cumplir con la 

política de datos H2020?

Publicación de datos de investigación (y software, métodos 

asociados)

Asignación de DOIsAsignación de licencias de uso 

estándar

Cumplimiento de políticas de datos de 

revistas

Almacenamiento y descripción de datasets según estándares

Page 9: institucional: Gestión de Datos comunidad científica y

Si vas a usar estos servicios..

Informa a DIGITAL.CSIC tan pronto como sea posibleNo límite de ficheros en el 

repositorio pero sé razonable

Prepara toda la información básica: estructura de los datos, tamaño de ficheros, formato, 

expectativas

DIGITAL.CSIC solicita a los creadores de datos información sobre la naturaleza, 

procesamiento y otras características de los datasets. Estos metadatos son esenciales  

DIGITAL.CSIC no impone ninguna licencia de uso pero recomienda Creative Commons y 

Open Data Commons para datosPreferencia por acceso abierto/embargado 

para los datos

Page 10: institucional: Gestión de Datos comunidad científica y

¿Qué son los datos FAIR?To be Findable, data must have 

unique identifiers, effectively labeling it within searchable resources

To be Accessible, data must be easily retrievable via open systems and effective and secure authentication and authorization procedures. 

To be Interoperable, data should “use and speak the same language” via use of standardized vocabularies. 

To be Reusable, data must be adequately described to a new user, have clear information about data-usage licenses, and have a traceable “owner’s manual,” or provenance.

Page 11: institucional: Gestión de Datos comunidad científica y

Confusión de confusiones

Mis datos son confidenciales y no pueden ser FAIR

Mis datos ya están 

publicados en un artículo

No tengo tiempo y no merece la pena

Es otra carga administrativa  Voy a patentar

Me evalúan por las citas y el factor de 

impacto, ¿qué me importan los datos FAIR?

Yo soy de Humanidades, los datos FAIR 

son para Ciencias

Mis datos son especiales y no pueden ser 

estandarizados

No genero datos sino que uso los ajenos

¡¿Qué más?!

Page 12: institucional: Gestión de Datos comunidad científica y

Recomendaciones para los investigadores• Define las responsabilidades para la gestión de datos entre los miembros del 

equipo en el plan de gestión de datos• Acuerda el uso de estándares comunes para recoger, almacenar y describir datos • Asegúrate de que todos los datos resultantes del proyecto se comparten en una 

plataforma común y segura entre todos los miembros del equipo• Documenta la metodología usada en la recogida de datos y las decisiones de una 

manera sistemática, por ejemplo, usando plantillas comunes• Usa estándares comunes para denominar a los ficheros, formatos, estructura de los 

contenidos• Pon por escrito cómo se gestionan los datos y se comparten entre los miembros del 

equipo • Establece qué datos son de uso interno para los miembros del equipo y cuáles se 

difundirán públicamente• Deposita los datos en un repositorio que permite el acceso a los revisores de las 

publicaciones resultantes del proyecto• Elige licencias de uso estándares para los datos resultantes del proyecto• Asigna un identificador persistente (DOI, Handle, PURL…) a los datos resultantes 

para que puedan ser encontrados, reutilizados y citados• Publica información (METADATOS) sobre los datos resultantes  en repositorios

Page 14: institucional: Gestión de Datos comunidad científica y

Elementos comunes en todos los Planes de Gestión de datos

• Roles y responsabilidades• Descripción, volumen, estructura, 

estándares, formatos de los datos• Recogida y procesamiento de datos• Esquema de Metadatos• Propiedad intelectual y licencias de 

uso• Consideraciones éticas • Acceso, publicación y reutilización 

de los datos• Selección del repositorio • Seguridad y almacenamiento• Preservación a largo plazo• Presupuesto

Page 15: institucional: Gestión de Datos comunidad científica y

Planes de gestión de software• ¿Qué software se ha desarrollado?• ¿Cuáles son sus usuarios potenciales?• ¿Cómo se facilitará su disponibilidad a 

los usuarios?• ¿Qué tipo de ayuda se dará a los usuarios 

potenciales?• ¿Cómo contribuye este software a la 

investigación?• ¿Cómo se relaciona el software con otros 

resultados del proyecto y otros softwares?

• ¿Cómo se analizará el impacto del software en la investigación?

• ¿Dónde se depositará el software para garantizar su accesibilidad a largo plazo?

• https://zenodo.org/record/2159713#.XHl7AvlKi1s 

Page 17: institucional: Gestión de Datos comunidad científica y

Dónde encontrar repositorios de datos

Proyecto piloto de la AGU, DataCite y la comunidad científica de Ciencias de la Tierra, Espacio y Medio ambiente para promover los principios FAIR en estas disciplinas. Objetivo, un registro de repositorios de datos FAIR

https://www.re3data.org/Registro de repositorios de datos, temáticos, institucionales e internacionales. Posibilidad de buscar por disciplina y la descripción de cada repositorio atiende a distintos criterios: licencias de uso, tipos de acceso, políticas, estándares, identificadores persistentes

Page 19: institucional: Gestión de Datos comunidad científica y

Generadores de Planes de Gestión de Datos

https://ds-wizard.org/En fase demo: a través de un cuestionario en torno a diversas cuestiones se guía a los creadores de datos a lo largo del proceso para generar un plan de gestiónDesign of experimentData design and planningData Capture/MeasurementData processing and curationData integrationData interpretationInformation and insight 

Herramienta de facto para preparar planes para proyectos H2020https://dmponline.dcc.ac.uk/ https://dmponline.dcc.ac.uk/public_plans

Page 20: institucional: Gestión de Datos comunidad científica y

Formatos y esquemas de metadatos estándares

Formatos usados frecuentemente por la comunidad científicaUsan especificaciones abiertasIndependientes de software/empresas específicas

Iniciativa internacional de voluntarios para crear un directorio de esquemas de metadatos que son estándares internacionales

Page 21: institucional: Gestión de Datos comunidad científica y

Herramienta para calcular costes en la gestión de datos

Herramienta de la Universidad Técnica de Delft para ayudar a los investigadores y personal institucional a definir las necesidades de personal extra y costes en la gestión de datos de un proyecto

Guía de la Universidad de Utrecht para identificar posibles gastos en la gestión de datos a través de todo el ciclo del proyecto de investigación

Page 22: institucional: Gestión de Datos comunidad científica y

FAIR en la práctica (1/3). Ciencias de la Tierra y del Espacio

• Deposit research data in a FAIR-aligned repository, with a preference for those that explicitly follow the FAIR Data Principles and demonstrate compliance with international standards for data repositories (e.g., CoreTrustSeal). Supplements to articles must not be used as an archive for data.

• Cite and link to the data in the article, following the Joint Declaration of Data Citation Principles and ESIP Guidelines, using the unique, resolvable, and persistent identifiers provided by the repository in which the data are archived.

• Include a Data Availability Statement describing how the data underlying the findings of their article can be accessed and reused.

• Provide unrestricted access to all data and materials underlying reported findings for which ethical or legal constraints do not apply.

• https://www.csescienceeditor.org/article/data-sharing-and-citations-new-author-guidelines-promoting-open-and-fair-data-in-the-earth-space-and-environmental-sciences/ 

Page 23: institucional: Gestión de Datos comunidad científica y

FAIR en la práctica (2/3): Biomedicina• NIH Data Commons: Its main 

objective is to develop the ability to make data FAIR through use of a shared virtual space to store and work with biomedical research data and analytical tools. 

• The NIH Data Commons will leverage currently available cloud-computing environments in a flexible and scalable way, aiming to increase the value of NIH-supported data by democratizing access and use of data and analytical tools and allowing multiple datasets to be queried together. 

• https://commonfund.nih.gov/commons 

Page 24: institucional: Gestión de Datos comunidad científica y

FAIR en la práctica (3/3): Ciencias Sociales

• Iniciativa de CESSDA para Ciencias Sociales• Guía para preparar el plan de gestión de datos• Plantilla editable• Catálogo de datos

Page 25: institucional: Gestión de Datos comunidad científica y

¿Son tus datos FAIR?

Herramienta de autoevaluación para bibliotecarios de datos, personal informáticoA través de varias preguntas en torno a los principios FAIR se calcula un grado de cumplimiento

Page 26: institucional: Gestión de Datos comunidad científica y

LA “R” DE FAIR: DATOS REPRODUCIBLES

Page 27: institucional: Gestión de Datos comunidad científica y

Guía para promover más transparencia y apertura 

Iniciativa del Center for Open Science (COS)Módulo de 8 estándares: •Citación de datos •Transparencia de datos, metodología y código•Diseño y análisis científico•Registro de planes de análisis•Transparencia de los datos•Transparencia de los materiales de investigación•Registro de hipótesis•Replicabilidad

3 niveles de implementación: documentación pública sobre los datos, publicación de los datos, verificación de la reproducibilidad de los datos

Editores /orgs que han suscrito la guía

Page 29: institucional: Gestión de Datos comunidad científica y

Nivel superior de cumplimiento: ejemplo

• Reproducible ResearchOur reproducible research policy is for papers 

in the journal to be kite-marked D if the data on which they are based are freely available, C if the authors’ code is freely available, and R if both data and code are available, and our Associate Editor for Reproducibility is able to use these to reproduce the results in the paper. Data and code are published electronically on the journal’s website as Supplementary Materials.

• Code AvailabilityAuthors are strongly encouraged to submit 

code supporting their publications. Authors should submit a link to a Github repository and to a specific example of the code on a code archiving service such as Figshare or Zenodo.

Artículos: ejemplo

Page 31: institucional: Gestión de Datos comunidad científica y

LA NUBE EUROPEA DE CIENCIA ABIERTA

Page 32: institucional: Gestión de Datos comunidad científica y

Los datos FAIR y la Nube Europea de Ciencia Abierta

• Lanzamiento oficial de EOSC el 22 noviembre 2018

• El objetivo es permitir que los casi 2 millones de investigadores europeos puedan compartir datos de investigación y herramientas de investigación fácilmente en un entorno de Ciencia abierta y colaborativa

• Los datos que se compartan en EOSC deben ser FAIR

Page 35: institucional: Gestión de Datos comunidad científica y

Datos FAIR del CSIC en EOSC

Page 36: institucional: Gestión de Datos comunidad científica y

CÓMO INCLUIR DIGITAL.CSIC EN TU ESTRATEGIA DE COMUNICACIÓN Y DIFUSIÓN

Page 37: institucional: Gestión de Datos comunidad científica y

¿Cómo pueden aprovechar los institutos CSIC su presencia en DIGITAL.CSIC?

Webs de institutos

Webs de proyectos

Proyectos innovadores

Redes sociales

Agregadores • Producción en acceso abierto

• Metadatos (en csv, endnote, xml,  datacite..)

• Perfiles• Indicadores

 

Page 38: institucional: Gestión de Datos comunidad científica y

Comunicando Ciencia Abierta

DIVULGACIÓN CIENTÍFICA

CIENCIA Y SOCIEDAD

INVESTIGACIÓNCSIC            ACCESO ACCESO 

ABIERTO ABIERTO COMO COMO    BASE BASE COMÚNCOMÚN

Page 39: institucional: Gestión de Datos comunidad científica y

Aplicaciones concretas..WEBS INSTITUTOS

Alimentación de páginas con publicaciones, personal, noticias, novedades, seminarios, portales temáticosAsignación de DOIs/handle a publicaciones Indicadores de uso

WEBS PROYECTOS

Documentación y resultados de investigación, cumplimiento de mandatos de acceso abierto, contenidos de contextoColección específicaIntegración en redes socialesIndicadores de uso

GESTION Y DIFUSIÓN CONGRESOS

Revisiones abiertasPublicación de actas y comunicacionesColección específicaIndicadores de uso

Page 42: institucional: Gestión de Datos comunidad científica y
Page 44: institucional: Gestión de Datos comunidad científica y

Difunde tus trabajos que han pasado por un proceso de revisión abierta por pares en DIGITAL.CSIC Material 

didáctico con 3 revisiones abiertas en DIGITAL.CSIC

Revisión abierta

Comentario abierto del autor 

Page 45: institucional: Gestión de Datos comunidad científica y

Apertura de perfiles de investigadores en DIGITAL.CSIC

1. Oficina Técnica2. El propio investigador

Normalización de firmas de autor como tarea previa (biblioteca)

Apertura sistemática de perfiles públicos con (1) autorización expresa e (2) 

investigadores con producción en DIGITAL.CSIC

Page 46: institucional: Gestión de Datos comunidad científica y

Plantilla. Ejemplos de perfiles, gestión de perfiles

Campos descriptivos• Foto• Firma en DIGITAL.CSIC• Otras firmas (REPETIBLE)• Centro/Instituto• Departamento• Categoría profesional• Especialización• ORCID• Perfil en Google Scholar• Otros identificados (con y sin URL) 

(REPETIBLE)• Página web REPETIBLE• Email

Servicios de valor añadido de los perfiles• Mapas de colaboraciones• Estadísticas de uso• RSS• Gestión de perfiles 

Page 47: institucional: Gestión de Datos comunidad científica y

Perfiles de Grupos de Investigación

• Foto• Nombre del grupo• Fecha de inicio• Fecha de finalización• Instituto• Departamento• Línea de investigación• Especialización principal• DescripciónServicios de valor añadido• Mapas de colaboraciones• Estadísticas de uso• RSS• Gestión de perfiles • Enlace a perfiles de investigadores y 

proyectos asociados

Page 50: institucional: Gestión de Datos comunidad científica y

La inclusión en DIGITAL.CSIC multiplica la visibilidad y accesibilidad de la investigación CSIC en la web

Page 51: institucional: Gestión de Datos comunidad científica y

Database: PubMed Total: 7149 

Month Number of Hits   12/2018 69211/2018 66510/2018 7379/2018 7268/2018 6337/2018 7166/2018 6625/2018 7524/2018 6183/2018 3572/2018 3351/2018 256Ejemplo 

ANÁLISIS SEO

INDEXACIÓN POR GOOGLE SCHOLAR

INCLUSIÓN EN INFRAESTRUCTURAS DE INVESTIGACIÓN

VENTAJAS DE DIGITAL.CSIC