repositorio datos ambientales guayana2008
DESCRIPTION
Repositorio de datos ambientalesTRANSCRIPT
1
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Repositorios de Datos Ambientales en la Web
1er Taller Sensibilización en el uso de redes avanzadas en Venezuela
Universidad Nacional Experimental de Guayana Ciudad Guayana Junio 2008
Rodrigo TorrénsZulay Mendez
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
2
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Contenido
• El problema de la ubicación, preservación y uso de colecciones de datos científicas (en Venezuela y el mundo)
• Tendencias en la colaboración científica• Herramientas que pueden ayudar a solucionar
algunos de los problemas• Ejemplos de redes de colaboración en el mundo• Red de Estaciones Bio-climáticas de Mérida y
ECORED Venezuela
Hablaremos sobre:
3
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Partamos de las preguntas básicas:
• Los datos que yo necesito… existen?
• Donde están?
• Como los obtengo?
La mayoria de los científicos se han planteado estas preguntas alguna vez
Los datos producto de una investigación científica
4
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Tenemos que tener capacidades para…
• Manejar volumen de datos generados actualmente
• Preservarlos
• Encontrarlos
• Compartirlos, distribuirlos
• Usarlos, reusarlos
Problemas-retos a los que nos enfrentamos
5
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Ejemplo de degradación normal de los contenidos de información asociados con datos y metadatos a través del tiempo
…Problemas a los que nos enfrentamos
Momento de publicación
Detalles específicos acerca de la recolección de los datos se pierden al pasar el tiempo
Retiro o cambio de carrera del científico recolector
Accidente puede destruir datos y documentación Muerte del investigador y subsecuente perdida
de registros restantes
Co
nte
nid
os
de
Info
rmac
ión
Tiempo (Michener, 1997)
6
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Ante estos retos, tenemos posibilidades y nuevas maneras de…
• producir datos
• de compartirlos (publicarlos)
• de trabajar colaborativamente
Nuevas formas de colaboración científica
7
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Frecuentemente o cada vez más escuchamos y hablamos de…
“ciberinfraestructura”
“e-ciencia”
“e-investigación”
“colaboracion ubicua”
“data-driven Science”
“computación grid”
“computación social”
“acceso abierto al conocimiento”…refiriendose a nuevas formas de producción y diseminación del conocimiento
Nuevas formas de colaboración científica
8
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Datos generados por redes nacionales y mundiales de investigación (biología, medicina, física, etc.):
• Datos del LHC generados en el CERN
• Datos generados por las redes mundiales de sensores sísmicos
• Estudios sobre cambios globales (GCMD-NASA)
• Astronomía, los “telescopios virtuales” (Global Internet Telescope)
• Banco de datos de Proteinas (PDB, Protein Data Bank)
• Data Grids
• Bibliotecas Digitales
• Repositorios de datos
Ejemplos (actuales):
9
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
A esto se unen las iniciativas por el uso sin restricciones de la
información y datos:
• Iniciativas de Acceso Abierto al Conocimiento (OA, Open Access Initiatives)
• Movimiento Datos Libres (OD, Open Data)• Repositorios Institucionales y por disciplina
…Ejemplos
10
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
-
Ejemplos:CERN LHC
11
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Necesidad de usar tecnologías de información (TICs)
• Ubicar• Accesar• Recuperar• Compartir
…datos
La mayoría usa LA RED para satisfacer
estas necesidades
Para…
12
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Un objetivo importante
Que debemos hacer para lograr el…
Uso secundario y a largo plazo de colecciones de datos científicos
Se debe…
Garantizar permanencia de los datos en el tiempo
Poder ubicar y recuperar la información
13
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Herramientas
Herramientas organizativas y tecnológicas que pueden hacer esto posible:
Uso de metadatos y estándares de intercambio de información
Tecnologías de Información y Comunicaciones
Formación de Redes de colaboración entre científicos y entre usuarios de información
Creación y mantenimiento de repositorios de datos
14
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Qué significa la palabra “metadatos”?
• " Datos sobre los datos " .
• "Nivel superior de la información, o instrucciones que describen el contenido, contexto, calidad, estructura, y accesibilidad de una colección de datos específica" (J.K. Michener 1997).
D
M
D
M1
D
M2
Mc
D
M
a) b) c)
Metadatos como parte de los datos
Metadatos externos al recurso de información
Meta-metadatos (colecciones de metadatos)
15
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Para qué “metadatos”?
Preguntas que se deberían poder responder usando metadatos:
•Que datos describe una coleccion de datos científicos?
•Quien produjo la colección?
•Porqué fue creada la colección?
•Como fue creada la colección?
•Que datos componen la colección?
•Cuan confiables son los datos. Que problemas persisten en la colección?
•Como alguien puede obtener una copia de la colección?
•Quien escribio los metadatos?
16
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Ejemplos de metadatos y de comunidades
que usan metadatos
Muestra datos NBIIhttp://www.nbii.gov/
Documentación de datos geoespaciales (estándar FGDC) http://cndg.clearinghouse.gub.uy
17
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Ejemplos de metadatos y de comunidades
que usan metadatosDocumentación de datos geoespaciales (Interfaz a Clearinghouse FGDC y GCMD Data Documenter)
18
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Algunos de los estándares para metadatos geoespaciales, biológicos y ambientales
más usados
•FGDC-CSDGM. Content Standard for Digital Geospatial Metadata. Federal
Geographic Data Committe (1994): Datos geoespaciales. [www.fgdc.gov]
•FGDC-NBII. Perfil Biológico de FGDC. Biología y ciencias naturales. [www.nbii.gov].
•Global Change Master Directory Interchange Format – DIF. (1993) Ciencias de la
Tierra. [gcmd.gsfc.nasa.gov]
•Darwin Core (DwC). Colecciones de Historia Natural.
•Descriptores para Metadatos no-geoespaciales. NCEAS-LTER (1997) Datos
ecológicos. Base del estándar EML. [lternet.washington.edu]
•Dublin Core. Estandar general de identificacion de objetos de información en Internet.
[www.dublincore.org]
19
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Manejo de colecciones de datos científicos. Algunas experiencias locales
Red de Estaciones Ecológicas de Venezuela (ECORED)
Red de Estaciones Bioclimáticas del Estado Mérida (redbc)
20
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Red de Estaciones
Bio-climáticas del Estado Mérida
(redbc)
Justificación
• Dificultades que existen en Venezuela para ubicar y usar colecciones de datos bio-climáticos.
• Interés de organizaciones, instituciones y personas que tienen datos históricos los cuales desean preservar o compartir para su uso a largo plazo.
• Necesidad de implementar un repositorio de datos que permita realizar análisis y descubrir correlaciones entre diferentes conjuntos de información, que ayuden a la toma de decisiones e investigación científica.
21
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
La Experiencia de la Red de Estaciones
Bio-climáticas del Estado Mérida
(redbc)
• Manejo, identificación, y preservación en el tiempo, de recursos de información relacionados con la biología y el clima usando estándares internacionales de formato y contenidos.
• Generación de un Sistema de Información a través del Web que permita el facil acceso de investigadores, productores y organizaciones que necesiten la información producida por la red de estaciones.
Objetivos principales
22
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
La Experiencia de la Red de Estaciones
Bio-climáticas del Estado Mérida
(redbc)
• Mantener en el tiempo las colecciones de datos y desarrollar mecanismos de almacenamiento, catalogación y distribución de la información generada.
• Realizar permanentemente labores de identificación de nuevas fuentes de información que puedan incorporarse a las colecciones existentes.
• Concientizar a los científicos sobre la importancia de la preservación de los datos generados en sus investigaciones.
Objetivos secundarios y tareas
23
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Estaciones de la redbc
• Estación La Hechicera, Mérida
• Estación Mucujún, Mérida
• Estación Santa Rosa, Mérida
• Estación San Juan, Mérida
• Estaciones Sur del Lago UNESUR (2 estaciones)
• Estación Pico Espejo-MARS
• Estación INIA-Chama, Sur del Lago de Maracaibo
• Estación Ciplat, Sur del Lago de Maracaibo
24
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Instituciones colaboradoras de la redbc
•Centro Internacional del Plátano (CIPLAT)
•Instituto Nacional de Investigaciones Agrícolas (INIA)- Chama, Sur
del Lago
•Instituto de Ciencias Ambientales y Ecológicas de la ULA (ICAE)
•Instituto de Investigaciones Agropecuarlas de la ULA (IIAULA)
•Universidad Nacional Experimental del Sur del Lago (UNESUR)
• Institut für Meteorologie und Klimaforschung (IMK)
(Institute for Meteorology and Climate Research, U. Karlsruhe,
Germany)
25
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Funcionamiento de la redbc
Sistema de Información Bioclimático basado en el web
• Ubicación de características de colecciones de datos.
• Utilización de tecnologías Internet-Web, que aceleran y facilitan grandemente el proceso de captura, actualización y difusión de la información bio-climática, permitiendo varios niveles de acceso y recuperación de dicha información.
• Actualmente sólo se proveen datos sin procesar (archivos de datos provenientes de las estaciones meteorológicas) y sus respectivos metadatos. En el futuro se podrá acceder a información previamente procesada (gráficos, tablas, etc).
• Libre acceso a colecciones de datos (datasets) producidos por miembros de la red y (en lo posible) por cualquier persona o institución que los necesite
26
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Internet
Miembros de la REDBC
Servidor (CECALCULA)
Funcionamiento de la redredbcbc Sistema de manejo de datos:
Datos llegan por varias vías (enviados por gerentes locales de información o colaboradores):
-E-mail -Web
-CD-Entregas personales
Gerentes Centrales de información los procesan de ser necesario y los publican en Internet
27
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Consultando las colecciones de datos
Es
Ejemplo: Colección de datos Estación Chama
28
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Enlace
Consultando las colecciones de datos
Ejemplo: Colección de datos Estación Chama
Presentación de datos
•Datos originales (sin procesar)
•Datos ordenados (Por año y por mes)
•html
•xml (EML: Ecological Metadata Language)
•txt
Formato de metadatos
29
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Metadatos html(para visualización por Web)
Metadatos xml (EML) (para intercambio con otros sistemas y procesamiento automático)
Consultando las colecciones de datosEjemplo: Colección de datos Estación Chama
30
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Consultando las colecciones de datosEjemplo: Colección de datos Estación Chama
Interfaces Web: Datos originales
31
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Consultando las colecciones de datosEjemplo: Colección de datos Estación Chama
Datos originalesDatos sin procesar, tal como vienen de los
instrumentos o científicos que los capturan
32
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Consultando las colecciones de datosEjemplo: Colección de datos Estación Chama
Datos ordenados
Datos con algún tipo de procesamiento
33
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Consultando las colecciones de datosEjemplo: Consulta en KNB
Datos enviados a KNB:
http://knb.ecoinformatics.org
34
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Formas de envío y publicación de metadatos y datos?
Afiliarse a la redbc
Llenar Planilla de documentación de datos proporcionada por el gerente central de información.
Se pueden configurar planillas de diferentes tipos: Web, Word, txt, etc.
Documentar los datos
•Contactar por e-mail o teléfono al Proveedor de metadatos
35
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Dificultades en el desarrollo de proyectos de este tipo
• Escaso conocimiento de la importancia de la preservación y posibilidades de uso secundario de los datos
• Poca disposición de los científicos para compartir los datos.• Poca receptividad o disposición para aportar metadatos que
documenten las colecciones de datos.• Confusiones y reservas que tienen que ver con los derechos de
propiedad, publicación y uso de los datos.• Bajo interés por parte de algunos gerentes de información local en
publicar sus colecciones de datos (retardo en envío de datos-pérdida de información).
• Dificultades (aún) con la conexión a internet (conectividad, velocidad)
• Costos de los instrumentos de captura de datos• No existe la figura de “gerente local de información”, o es muy
costoso tenerlos
36
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Estaciones y datos en la redbc
.
37
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
La Experiencia de la Red de Estaciones
Bio-climáticas del Estado Mérida
(redbc)
En realidad hasta ahora ha sido una prueba de concepto (exitosa a nuestro modo de ver)
• Interes y exigencias crecientes• Volumen creciente de información manejada• Muchas posibilidades abiertas• Mucho trabajo por hacer
38
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
El Futuro
• Redes de manejo de conocimientos basadas en datos y metadatos (intención de KNB)
• Acceso a herramientas analíticas "en-línea" para integrar varias herramientas como SAS, MATLAB, etc. con acceso a datos de red de científicos (LTER)
• Herramientas para producir formas alternativas de metadatos que permitan a cualquier sitio participar fácilmente en otras bases de datos internacionales y Clearinghouses de datos (FGDC, GCMD, NBII, etc.)
• Creación de más bancos de datos internacionales o federados perteneciantes a multiples dominios y organizaciones
• Puesta en marcha de la “infraestructura Grid”. Acceso a “Grid de datos” (Datagrids)
• Por último…Comunidades y sociedades del conocimiento
39
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
El Futuro
La visión de Rick Luce (y de muchos otras personas)
Construyendo las bases de las comunidades basadas en el conocimiento
40
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Reflexión final
Termino con otra reflexión de Rick Luce…
“Debemos hacer mucho más que mejorar y dar acceso a la información científica.
Nuestro trabajo ahora es enlazar juntos los cerebros de las personas para que el compartir, el razonamiento y la colaboración se conviertan en parte del trabajo diario.”
Rick Luce. Proyecto Biblioteca sin paredes (Library Without Walls). 1998
41
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
Algunas Referencias•Clearinghouse Federal Geographic Data Commite (FGDC,NBII)http://www.fgdc.gov/clearinghouse/
•Global Change Master Directory (GCMD, DIF)http://gcmd.gsfc.nasa.gov
•Long Term Ecological Research Network (LTER, EML)http://lternet.edu
•Knowledge Network of Biocomplexity
http://knb.ecoinformatics.org
•National Center for Ecological Analysis and Synthesiswww.nceas.gov
•"Open Data" http://en.wikipedia.org/wiki/Open_data
42
Repositorios de Datos Ambientales en la Web
Universidad de Los Andes, Centro de Cálculo Científico, Parque Tecnológico de Mérida
www.cecalc.ula.ve/redbc/
Gracias por la atención!!