estandarizacion de los datos geogr´ aficos´...
TRANSCRIPT
INGENIERIA CATASTRAL Y GEODESIA
PASANTIA:
ESTANDARIZACION DE LOS DATOS GEOGRAFICOS
GENERADOS POR EL INSTITUTO DE INVESTIGACION DE
RECURSOS BIOLOGICOS ALEXANDER VON HUMBOLDT
INCORPORADOS A TRAVES DE LA INFRAESTRUCTURA
INSTITUCIONAL DE DATOS I2D.
Informe final de pasantıa elaborado por: Bryan Ramırez Franco para obtener el grado de
Ingeniero Catastral y Geodesta de la Universidad Distrital Francisco Jose de Caldas
Bogota D.C
6 de marzo de 2017
Dirigida por:
Javier Felipe Moncada Sanchez
Codirigida por:
Yenny Espinosa Gomez
Profesores asociados al Proyecto Curricular de Ingenierıa Catastral y Geodesia
Rafael Ricardo Bastidas Mendez
Investigador Asistente III del IAvH
Indice general
Lista de figuras III
Lista de tablas IV
Lista de terminos V
I VI
1. Introduccion 2
2. Justificacion 4
3. Objetivos 5
3.1. General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.2. Especıficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
II 6
4. Marco teorico conceptual 7
4.1. Infraestructura Institucional de Datos (I2D) . . . . . . . . . . . . . . . . . . . . . . . 7
4.2. Catalogo de informacion Geografica de la I2D GeoNetwork . . . . . . . . . . . . . . 8
4.3. Catalogo de informacion Biologica de la I2D CEIBA . . . . . . . . . . . . . . . . . . 9
4.4. Los metadatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.5. Norma ISO 19115 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.6. Norma ISO 19139 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.7. Minerıa de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.8. La informacion geografica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
III 16
5. Metodologıa 17
5.1. Fase de planificacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
I
5.2. Fase de preparacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.3. Fase de busqueda de carpetas relacionadas con el proyecto . . . . . . . . . . . . . . . 23
5.4. Fase de incorporacion de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.4.1. Consulta del Informe Final de Investigacion y Contratos . . . . . . . . . . . . 25
5.4.2. Reconstruccion de archivos resultado . . . . . . . . . . . . . . . . . . . . . . . 26
5.4.3. Construccion Carpeta Depurada del Proyecto . . . . . . . . . . . . . . . . . . 26
5.4.4. Adaptacion a los lineamientos de incorporacion de la I2D . . . . . . . . . . . 26
5.4.5. Incorporacion de la informacion a los catalogos . . . . . . . . . . . . . . . . . 26
IV 27
6. Resultados obtenidos 28
6.1. Inventario de la informacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.1.1. Primer proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
6.1.2. Segundo proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.1.3. Tercer proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.1.4. Cuarto proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.1.5. Quinto proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7. Conclusiones 47
8. Recomendaciones 49
9. Anexos 51
9.0.1. Anexo: Corresponde a los informes tecnicos elaborados para dar cumplimiento
a los resultados de cada proyecto d recuperacion historica. . . . . . . . . . . . 51
10. Referencias 54
II
Indice de figuras
4.1. Infraestructura Institucional de Datos I2D (logo), Fuente:(IAvH, 2014) . . . . . . . . 7
4.2. Catalogo de informacion Geografica (logo) . . . . . . . . . . . . . . . . . . . . . . . . 8
4.3. Catalogo de Informacion Biologica CEIBA ((logo)), Fuente:(IAvH, 2014) . . . . . . . 9
5.1. Metodologıa para la Recuperacion de Informacion Historica. Fuente: (Suarez, 2016) . 18
5.2. Diagrama de Flujo Fase de Planeacion de Procesos de Recuperacion. Fuente (Suarez,
2016) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.3. Diagrama de Flujo general de la fase de preparacion. Fuente: (Suarez, 2016) . . . . . 22
5.4. Diagrama de flujo de la fase busqueda de carpetas relacionadas con un proyecto.
Fuente: (Suarez, 2016) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.5. Estructura carpeta consolidada proyecto. Fuente: (Suarez, 2016) . . . . . . . . . . . 24
5.6. Diagrama de flujo generado en la fase de incorporacion de datos: Fuente: (Suarez, 2016) 25
6.1. Conjunto de datos a elegir a partir del contenido. Fuente: Apartir de GeoNetwork . . 39
6.2. Mestra por paquetes los campos del metadato. Fuente: A partir de GeoNetwork . . . 40
6.3. Paquetes del conjunto de datos. fuente: GeoNetwork . . . . . . . . . . . . . . . . . . 40
6.4. Visualizacion del proyecto en GeoNetwork. Fuente: GeoNetwork . . . . . . . . . . . . 40
6.5. Creacion y muestra grafica del archivo: Fuente: GeoNetwork . . . . . . . . . . . . . . 41
6.6. Ubicacion del proyecto con su respectivo sistema de referencia: Fuente: GeoNetwork 41
6.7. Palabras clave del proyecto. Fuente: GeoNetwork . . . . . . . . . . . . . . . . . . . . 41
6.8. Organizacion original del proyecto: Fuente: Elaboracion propia . . . . . . . . . . . . 42
6.9. Listado del contenido de la carpeta del proyecto. Fuente: Elaboracion propia. . . . . 42
6.10. Resultado de inspeccion en carpeta contendora. Fuente: Software “DoubleKiller” . . 43
6.11. Forma de estructuracion. Fuente elaboracion propia, a partir de estructura sugerida
por (Suarez, 2016) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
6.12. Forma de estructuracion del conjunto de datos final. Fuente elaboracion propia, a
partir de estructura sugerida por (Suarez, 2016) . . . . . . . . . . . . . . . . . . . . . 43
III
Indice de cuadros
6.1. Descripcion general de la recuperacion de proyectos historicos. Fuente: Elaboracion
propia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
6.2. Reconstruccion de la cartografıa del proyecto: Fuente: Elaboracion propia . . . . . . 31
6.3. Geodatabase: Proyecto Paramo Andino . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.4. Geodatabase: Proyecto Paramo Andino . . . . . . . . . . . . . . . . . . . . . . . . . 34
6.5. Geodatabase: Proyecto Paramo Andino . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.6. Geodatabase: Proyecto Colciencias Dinamica del uso del clima . . . . . . . . . . . . 38
6.7. Muestra de proyectos MXD reestructurados. Fuente: Elaboracion propia a partir de
contenido del proyecto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
9.1. Variables descriptivas de proyectos de informacion. Fuente: (Suarez, 2016) . . . . . . 52
9.2. Variables de priorizacion de productos de informacion. Fuente: (Suarez, 2016) . . . . 53
IV
Lista de terminos
Ceiba: Catalogador biologico del IAvH.
CDMB: Corporacion autonoma regional para a defensa de la meseta de Bucaramanga.
CMD: Comander. Sımbolo del sistema en Windows.
CONDESAN: Consorcio para el Desarrollo Sostenible de la Ecorregion Andina.
CORPONOR: Corporacion autonoma regional de Norte de Santander.
FAO: la organizacion de las Naciones Unidas para la Alimentacion y la Agricultura.
GeoNetwork: Catalogador geografico del IAvH.
GBIF: Global Biodiversity Information Facility.
GML: Geographic Markup Language.
GMP: GBIF Metadata Profile.
HTML: HyperText Markup Language.
I2D: Infraestructura Institucional de Datos.
IAvH: Instituto Alexander von Humboldt.
ICD: Infraestructura Colombiana de Datos.
IPT: Integrated Publishing Toolkit.
ISBN: International Standard Book Number.
ISO: International Organization for Standardization.
KDD: Knowledge Discovery in Databases.
MAVDT: Ministerio de Ambiente y Desarrollo Sostenible de la Republica de Colombia.
OGC: Siglas en ingles Open Geospatial Consortium.
ONG: Organizacion No Gubernamental.
SiaC: sistema de informacion ambiental de Colombia.
SiB: Sistema de Informacion sobre Biodiversidad.
SIG: Sistemas de Informacion Geografica.
UML: Universal Modelling Language.
UNEP: Programa de las Naciones Unidas para el Medio Ambiente.
URI: Uniform Resource Identifier.
WFP: Programa Mundial de Alimentos.
XML: eXtensible Markup Language.
V
Parte I
VI
Agradecimientos
Quiero expresar mi agradecimiento a las personas e instituciones que han estado involucradas en
el desarrollo del proyecto de pasantıa, por sus aportes y contribuciones, las cuales hicieron posible
la realizacion y finalizacion satisfactoria de este proposito; por tales motivos de manera especial
reconozco el trabajo realizado por el Ing. Esp. Edwin Tamayo, quien aporto informacion y asesorıa
valiosa, junto con su disposicion de colaboracion en la solucion de problemas y dudas, tambien
reconozco la labor del Ing. M.Sc Ricardo Bastidas, por su contribucion en la direccion externa en
esta pasantıa, sus aportes en materia metodologica, ademas de la motivacion infundida en la
construccion y mejora de este documento.
Tambien quisiera hacer extensivo mi reconocimiento al Instituto Alexander von Humboldt (IAvH),
en cabeza de su Infraestructura Institucional de Datos (I2D), por los datos suministrados, acceso a
las plataformas catalogadoras y el apoyo brindado en materia metodologica para la recuperacion de
los proyectos.
Por ultimo, reconozco el apoyo brindado por la codirectora de este proyecto, la profesora Yenny
Espinosa, asociada al proyecto curricular de Ingenierıa Catastral y Geodesia, por su colaboracion
en la revision y seguimiento de los avances de este proyecto de pasantıa.
A todos ellos, muchas gracias.
1
1. Introduccion
La Infraestructura Institucional de Datos (I2D), encargada de gestionar la calidad y acceso a los
datos que genera el Instituto Alexander von Humboldt (IAvH), se encuentra realizando la creacion
y aplicacion de una metodologıa que permita la publicacion del material historico existente en los
diferentes repositorios de informacion disponibles en el instituto, dentro de este proceso estan invo-
lucrados datos con elementos biologicos, socioeconomicos y geograficos, los cuales de acuerdo con su
caracter estan siendo recuperados dentro de los catalogadores institucionales pertinentes, conocidos
como el Catalogador biologico del IAvH (Ceiba) y el Catalogador geografico del IAvH (GeoNetwork),
garantizando de esta manera la preservacion de la produccion investigativa y conformacion de la
memoria historica del instituto a traves de su publicacion, tarea que ha sido encargada desde los
lineamiento del IAvH a la I2D.
La metodologıa contempla un numero de fases que finalmente permiten la publicacion de los
proyectos, en concreto la primera fase, denominada Planificacion: plantea en una unica vez crear un
inventario general de los proyectos historicos, que posteriormente se alimentara con nuevas incorpo-
raciones, junto con la estimacion y evaluacion de los proyectos prioritarios a recuperar, a traves de
un indicador de importancia de proyectos. Posteriormente la segunda fase, denominada Preparacion:
realiza una inspeccion de los archivos del inventario previo, con el fin de identificar las carpetas con-
tenedoras de informacion que tiene los atributos suficientes para ser recuperados como proyecto de
informacion historica del IAvH. La tercera fase, denominada Busqueda de informacion, depuracion
y estructuracion de datos: se enfoca en la identificacion por inspeccion visual de documentos o por
correlacion de rutas y archivos compartidos de la informacion de cada proyecto, en cada uno de sus
carpetas componentes, para ası realizar una depuracion de los archivos consolidados. La cuarta fase,
se denomina fase de incorporacion de datos: esta etapa de la metodologıa recoge el trabajo previo
para, de acuerdo con lineamientos de la I2D en cuanto a la documentacion de la informacion, sean
publicados dentro de los catalogadores institucionales (GeoNetwork o Ceiba). Por ultimo, la fase
de disposicion final de la informacion: plantea las formas en que se van a conservar los proyectos e
informacion en general recuperada.
La gran cantidad de archivos existentes dentro de los repositorios institucionales, los cuales estan
sujetos a recuperacion se encuentran en la actualidad en la fase preparacion, por tales motivos, con
el desarrollo de la pasantıa se participa dentro del proceso de recuperacion historica, desde la fase
de Busqueda de informacion, depuracion y estructuracion de datos, hasta la incorporacion de los
2
proyectos dentro de los mismos catalogadores institucionales, estas son tareas que dentro del presente
documento se describen a cabalidad. De acuerdo con esto se logra implementar la metodologıa creada
por el grupo de trabajo de la I2D y hacer una prueba de la eficiencia de sus procesos y tiempo de
ejecucion por proyecto, logrando de esta manera brindar al IAvH informacion sobre como debe
abordar este proceso al tener en cuenta los tiempos e implicaciones que tiene la recuperacion de la
informacion historica, como tambien y no menos importante, recuperar proyectos de informacion
historica importantes para el mismo. De forma concreta, en este documento se muestra el proceso
de recuperacion desde las fases previamente mencionadas de cinco proyectos historicos de caracter
geografico, publicados dentro del catalogador GeoNetwork, los cuales se describen a cabalidad en el
desarrollo del mismo.
Mientras transcurrıa la pasantıa, se acomodaron los parametros de la metodologıa, y se consolido
el documento final con las disposiciones y requerimientos de la recuperacion, por tales motivos, los
dos primeros proyectos tienen dentro de su elaboracion prototipos de la metodologıa de recuperacion,
realizando el consolidado final en los tres ultimos proyectos. Los resultados se encuentran publicados
como ya se menciono dentro del catalogador institucional GeoNetwork y los procesos implıcitos se
mencionan dentro de este documento y anexos en otros cinco informes tecnicos con los pormenores
especıficos de cada uno. El presente documento se encuentra estructurado de la siguiente manera,
en el primer capıtulo se encuentran los objetivos trazados y las implicaciones generales que tiene
la elaboracion de esta pasantıa, el segundo capıtulo aborda la parte conceptual, el tercer capıtulo
describe de manera general, la metodologıa acogida para la recuperacion de los proyectos y su
publicacion, para finalmente en el cuarto capıtulo presentar los resultados, conclusiones y anexos
pertinentes de este proceso.
3
2. Justificacion
El IAvH esta encaminando esfuerzos para realizar la recuperacion de su informacion historica, los
proyectos historicos y actuales emanados por sus diferentes dependencias y convenios se encuentran
en una fase de estructuracion desde los repositorios institucionales, hasta su publicacion de acuerdo
con su relevancia, calidad y completitud en los catalogos institucionales; las grandes cantidades de
datos disponibles han dilatado esta tarea. Por otra parte, el trabajo que realiza la I2D (dependencia
del IAvH) se enfoca actualmente en el mejoramiento de los procesos de gestion y recuperacion de
los datos biologicos y geograficos, en concordancia con el interes del instituto.
Ahora bien, entendiendo que los datos geograficos son parte primordial dentro del proceso de
recuperacion se aclara que los elementos con este tipo de informacion son materia pertinente de esta
propuesta. Por tales motivos la I2D ha disenado una metodologıa acorde con el interes del instituto,
que a traves de diferentes mecanismos le permiten recuperar la informacion historica pertinente,
garantizando una mejor catalogacion, documentacion y estandarizacion de los datos historicos y
actuales, junto con la implementacion de las herramientas disponibles para facilitar el acceso a
esta informacion a traves de su publicacion, con dicha propuesta es motivada la participacion por
medio de la modalidad de pasantıa dentro del proceso de recuperacion historica en el componente
geografico, y dado que las implicaciones tecnicas y la ejecucion de la metodologıa de recuperacion
son acciones inherentes del campo de accion del ingeniero catastral en especial porque la informacion
geografica es vista como eje fundamental de su formacion, y el tratamiento de datos de tipo geografico
mediante tecnicas y tecnologıas especializadas en la medicion y representacion grafica, le permiten
ser el personal idoneo para esta labor.
4
3. Objetivos
3.1. General
Documentar la informacion historica que has sido generada y custodiada por el IAvH, en el marco
de su Infraestructura Institucional de Datos I2D, implementando la metodologıa desarrollada por
el grupo de trabajo de la I2D para la recuperacion de datos, y siguiendo los estandares pertinentes
del catalogador geografico institucional (GeoNetwork) para su correcta publicacion.
3.2. Especıficos
Diagnosticar y depurar la informacion documental historica del IAvH, a traves de la inspeccion
de las carpetas que contienen informacion de proyectos que son candidatos a recuperar.
Estructurar la informacion que se presenta como susceptible de catalogacion de acuerdo con
la metodologıa que sugiere el grupo de trabajo de la I2D.
Recuperar la informacion de los proyectos historicos a traves de su publicacion en los catalogos
Institucionales (GeoNetwork), conforme normas ISO 19115.
Presentar Informes tecnicos de la informacion incorporada dentro de las plataformas de cata-
logacion (GeoNetwork).
5
Parte II
6
4. Marco teorico conceptual
Dado que la tematica central de este proyecto gira en torno a la documentacion de la informacion
historica, es necesario presentar un marco que contenga la informacion conceptual y permita entender
las nociones que abarcan la tematica asociada a la recuperacion y catalogacion de los proyectos a
partir de los metadatos creados, es por este motivo que los metadatos son el tema vital, del cual
se desprenden las tecnicas de inspeccion, los lenguajes asociados a los catalogadores y normas que
permiten la estandarizacion de los datos. A continuacion, las interpretaciones someras de los topicos
necesarios para tal fin.
4.1. Infraestructura Institucional de Datos (I2D)
Figura 4.1: Infraestructura Institucional de Datos I2D (logo), Fuente:(IAvH, 2014)
La I2D (logo en la figura 4.1) les permite a los usuarios y en general interesados acceder a los
datos e informacion generada por el Instituto de Investigacion de Recursos Biologicos Alexander
Von Humboldt; un conjunto de diferentes actores entre los cuales se encuentran estudiantes, inves-
tigadores, entidades estatales y Organizacion No Gubernamental (ONG) entre otros trabajan para
garantizar el acceso a los datos mediante su catalogacion y disposicion a traves de la Web segun lo
menciona (IAvH, 2014).
La I2D tiene como funcion garantizar la interoperabilidad con sistemas de mayor envergadura
como el Sistema de Informacion sobre Biodiversidad (SiB) Colombia, que se encarga de facilitar he-
rramientas para la integracion, publicacion y consulta de la informacion sobre biodiversidad (datos,
metadatos, conjuntos de referencia y fichas de especies), para hacerla mas facilmente disponible a
los usuarios (SiB, 2015). Y el sistema de informacion ambiental de Colombia (SiaC) como actor y
generador de polıticas, procesos, y tecnologıas involucrados en la gestion de informacion ambiental
7
del paıs, para facilitar la generacion de conocimiento, la toma de decisiones, la educacion y la par-
ticipacion social para el desarrollo sostenible (SiaC, 2015). La figura muestra el logo del grupo I2D
del IAvH.
4.2. Catalogo de informacion Geografica de la I2D GeoNetwork
Figura 4.2: Catalogo de informacion Geografica (logo)
Por medio de esta herramienta la I2D incorpora, describe y permite acceder a los datos geoes-
paciales generados y custodiados por el IAvH, con esta facilidad, los datos pueden ser descargados
dependiendo de sus caracterısticas publicas o privadas, segun el (IAvH, 2014) los datos dispuestos en
este catalogo estan documentados siguiendo el estandar International Organization for Standardiza-
tion (ISO) 19139 1 el cual es una especificacion tecnica que desarrolla una implementacion en XML
del modelo de metadatos descrito por ISO 19115, norma que brinda una estructura para describir
informacion geografica mediante elementos de metadatos, aunque esta no delimita como llevar a
cabo su implementacion lo que, por el contrario, si hace la norma ISO 19139; XML es un lenguaje
de marcado que se utiliza para crear documentos que contengan informacion estructurada (Sanchez
et al., 2008, p.80), mas adelante se profundiza en estas tematicas. Esta herramienta es una persona-
lizacion de la aplicacion web GeoNetwork desarrollado por la organizacion de las Naciones Unidas
para la Alimentacion y la Agricultura (FAO), Programa Mundial de Alimentos (WFP), y Programa
de las Naciones Unidas para el Medio Ambiente (UNEP). Logo de la aplicacion GeoNetwork en la
figura 4.2.
La aplicacion web GeoNetwork que es distribuida y desarrollado libremente (Opensource), ha
sido concebida para acceder a bases de datos georreferenciadas y a productos cartograficos a traves
de metadatos descriptivos como lo menciona (Morocho & Naranjo, 2016) GeoNetwork permite “la
colaboracion entre organizaciones reduciendo la duplicacion y mejorando la consistencia y calidad
de la informacion, accesibilidad de una gran variedad de informacion geografica ası como su informa-
cion asociada, organizada y documentada mediante un procedimiento estandarizado y consistente”
(p.3). Para el IAvH, es una herramienta vital dentro de los planes de recuperacion de informa-
1“ISO/TS 19139-Geographic Information-Metadata -eXtensible Markup Language (XML) schema implementation”
8
cion historica, como tambien en el mantenimiento de las bases de datos que contengan informacion
historica del instituto, al gestionar y publicar los datos que se generan en las diferentes dependencias
investigativas, permitiendo ası ampliar los alcances de los productos que genera el IAvH.
4.3. Catalogo de informacion Biologica de la I2D CEIBA
Figura 4.3: Catalogo de Informacion Biologica CEIBA ((logo)), Fuente:(IAvH, 2014)
El catalogador Ceiba (logo en la figura 4.3) permite visualizar y solicitar a traves de un formu-
lario los datos biologicos incorporados a la I2D, los datos dispuestos en Ceiba siguen la estructura
del estandar Darwin Core, los metadatos consignados dentro del catalogo siguen el estandar GBIF
Metadata Profile (GMP) (IAvH, 2014). La aplicacion web Ceiba es una personalizacion de la he-
rramienta Integrated Publishing Toolkit (IPT), aplicacion web gratuita de codigo abierto escrita
en Java, utilizada para publicar y compartir conjuntos de datos de biodiversidad a traves de la
red Global Biodiversity Information Facility (GBIF); disenada para la interoperabilidad, permite
la publicacion de contenido en bases de datos, hojas de calculo de Microsoft Excel o archivos de
texto utilizando estandares abiertos, como, Darwin Core y el lenguaje de metadatos ecologicos (IPT,
2016).
El estandar Darwin Core es el cuerpo de una serie de normas que facilitan el intercambio de
informacion sobre la diversidad biologica proporcionando definiciones de referencia, ejemplos y co-
mentarios (TDWG & DWC, 2015), esta disenado para crear un lenguaje comun para publicar y
documentar datos sobre registros biologicos, que facilita la estandarizacion semantica y de la sinta-
xis de los contenidos. Contiene 175 elementos entre campos, columnas (SiB, 2012).
4.4. Los metadatos
Para definir un dato se necesita acceder a su informacion y ası mostrar su contenido, los me-
tadatos, precisan en esta tarea, al lograr dar informacion sobre el dato en sı mismo, ası como lo
menciona (Sanchez, Nogueras, & Ballari, 2008) son “datos acerca de datos”, que permiten describir
precisamente el contenido, la calidad de informacion y formatos en forma estructurada de los recur-
9
sos; se puede entonces aseverar que son una representacion (Frederick, 2015) o un mecanismo que,
entre otras cosas admite caracterizar la informacion, acceder a ella, y no por ser el ultimo menos
importante, encontrarla, a partir de una localizacion dada.
El cuerpo de un metadato se construye a partir de la estructuracion del contenido, en concor-
dancia con esto existen componentes que admiten dicha tarea, de manera ordenada y practica, el
primer componente Descriptivo se encarga de describir y localizar la informacion tal como lo hace
el International Standard Book Number (ISBN) al catalogar los libros, a la vez el componente Ad-
ministrativo dispone la informacion de fondo que esta asociada a la integridad de los datos, la cual
debe almacenar, conservar y acceder dentro del metadato cuando sea necesario, con esto se definen
los derechos y restricciones que tiene el usuario de la informacion y se acogen los datos a las leyes de
proteccion los derechos intelectuales, y por ultimo el componente Estructural permite la conexion
de la informacion del metadato dentro del mismo, al consumidor y con otros proyectos (Gartner,
2016).
Para dar mayor claridad se hace necesario mencionar algunos terminos que se encuentran en el
contexto de los metadatos como la Open Geospatial Consortium (OGC), quien es la organizacion
encargada de desarrollar estandares para los Sistemas de Informacion Geografica (SIG), la componen
un conglomerado de industrias, empresas y agencias gubernamentales que estan interesadas en
facilitar la interoperabilidad al unificar los formatos en materia geografica (Vitturini & Fillottrani,
2013), las normas que se fabrican allı intentan colaborar con el desarrollo de informacion espacial
compleja al presentar servicios accesibles y utiles con todos los tipos de aplicaciones (Rettig, Beck,
& Rettig, 2011).
Por otro lado, los XML, son lenguajes de marcas utilizados para almacenar datos de forma
legible, tal como lo hace un metadato, al emplear la gramatica de lenguajes especıficos y de esta
manera logra estructurar documentos de mayor envergadura, la importancia de este lenguaje para
los SIG, se da en el soporte que tiene para las bases de datos, siendo util cuando varias aplicaciones
deben comunicarse entre sı o integrar informacion (Silberschatz, Korth, & Sudarshan, 2006). Los
esquemas XML o comunmente conocidos XML-Schema, son la tecnologıa asociada a los XML, para
definir la sintaxis de sus documentos, de acuerdo con esto, cada lenguaje derivado de XML debe
crear un documento que sigue la especificacion de un XML-Schema, este describe la estructura,
validacion, para un contexto determinado de los documentos XML. Por tales razones la intencion
de los esquemas es “definir los componentes validos de un documento XML: elementos que pueden
aparecer, atributos, elementos hijos, orden y numero de los elementos, tipos de datos, valores por
defecto de los elementos” (Sanchez et al., 2008, p.80).
10
Los XML son ampliamente utilizados en la descripcion de productos e intercambiar datos por in-
ternet, su relevancia genero la necesidad de realizar un lenguaje de estas mismas caracterısticas, que
aprobara la generalizacion con protocolos y estandares similares o unificados, con las caracterısti-
cas de un lenguaje de marcado que procesara cantidades de datos considerables y que admitiera
representar y procesar los datos geoespaciales (Lopez-Vazquez, 2012), por tales razones surgen los
Geographic Markup Language (GML), que consienten la estandarizacion, interoperabilidad y en
especial la interconectividad, gracias a la facilidad que ofrecen en la distribucion de informacion y el
manejo de los procesos que impliquen la busqueda o recuperacion en cualquier tipo de representa-
ciones y documentos, “proveyendo la distribucion estandar de fuentes primarias a traves de Internet
y documentos de gran calidad y capacidad multimedia” en materia geografica (Pereira, 2007).
La facilidad con que los GML pueden describir los contenidos geograficos y las formas basicas
en las que se expresa este lenguaje, tales como la variedad de objetos o abstracciones de la realidad,
y la inclusion de entidades, sistemas de coordenadas, geometrıa, topologıa, tiempo, unidades de
medida y valores generalizados, entre otros, son sus ventajas, pero su mayor virtud se encuentra en
la capacidad de integrar todas las formas de informacion geografica.
Con las anteriores definiciones claras se puede mencionar ahora los componentes y resumen en
general de la normatividad creada por la ISO, para los estandares de informacion geografica, en
especıfico de los metadatos, como lo son las normas ISO 19115 y la ISO 19139. A traves de la
norma ISO 19100, la organizacion ISO regula las normas relacionadas con los metadatos, creando
comites que trabajan en distintos campos asociados, el comite tecnico 211: “Geomatica/informacion
geografica”, crean con su grupo de trabajo las normas ISO 19115 en el ano 2003, denominada
‘‘Geographic Information Metadata”, y posteriormente en el ano 2005 la norma ISO/TS 19139
denominada “XML schema Implementation”.
4.5. Norma ISO 19115
De forma general la norma tecnica ISO 19115 se encarga de definir la estructura para describir los
datos que pueden tener una extension geografica (AENOR, 2014), el comite tecnico esta compuesto
por 33 paıses miembros de la ISO/TC211, donde 16 de estos paıses envıan expertos para conformar
el grupo de trabajo que diseno la norma, que en el ano 2003 aprobo el texto definitivo, el cual sirve
de modelo de la terminologıa, definiciones y procedimientos en la aplicacion a los metadatos. Para
definir los metadatos la norma identifica la extension, la calidad, el modelo espacial y temporal, la
referencia espacial, y la distribucion de los datos geograficos.
La norma se aplica en la mayorıa de casos en la catalogacion de conjuntos de datos, y a la des-
11
cripcion completa de los datos y presenta diferentes niveles de informacion tales como los conjuntos
y series de datos geograficos o los fenomenos geograficos individuales. La forma de presentacion es
mediante paquetes Universal Modelling Language (UML), cada uno de estos paquetes contiene una
o mas entidades, las cuales pueden ser especificadas que se conocen como Subclassed, o generali-
zadas conocidas como Superclases (Sanchez et al., 2008). Todos los metadatos dentro de la norma
son especificados mediante diagramas de modelado UML y un diccionario de datos que incluye para
cada elemento una definicion, su condicion obligatoria, optativa o condicional (AENOR, 2014), se
destacan los obligatorios como tıtulo, fecha, idioma, categorıa del tema, resumen descriptivo, fecha
de los metadatos entre otros que se pueden revisar en la norma.
4.6. Norma ISO 19139
Esta especificacion tecnica desarrolla la codificacion de los Metadatos geograficos en XML, es
una implementacion de esquema XML del modelo de metadatos descrito por la norma ISO 19115
(ISO, 2007) y que hace necesario definir las etiquetas entre las mismas. Como esta desarrollada bajo
esquemas en XML, la norma presenta un documento XML-schema, para responder al contenido de
los datos que contiene el metadato, clasificandolos en datos simples, los cuales no tienes ni elementos
hijos ni atributos, y datos complejos los cuales tienen hijos y/o atributos, ademas el documento hace
la declaracion de nombres mediante referencia Uniform Resource Identifier (URI), de esta manera
se eliminan las ambiguedades, y se da solucion a problemas tıpicos de homonimia (Sanchez et al.,
2008).
Los esquemas XML que describen los metadatos asociados a cada nivel de informacion en esta
norma, tambien son generados a partir de modelos UML, que ya han sido definidos como se men-
ciono, por la norma ISO19115 aplicando las reglas de codificacion definidas en la norma ISO 19118
Geographic Information-Encoding, esquemas que permiten la descripcion de los datos e intercambio
a traves de archivos de metadatos de esta manera permite su validacion. Para dar claridad, segun lo
menciona (Sanchez et al., 2008) la norma ISO 19118 “establece un conjunto de reglas de codificacion
para transformar los esquemas conceptuales UML descritos en cualquiera de las normas de la serie
ISO 19100 en esquemas XML”.
4.7. Minerıa de datos
Para dar claridad sobre la tematica asociada a la minerıa de datos, se hace necesario mencionar
la terminologıa asociada, el insumo del que se apoya la minerıa de datos es una de sus claves, por
eso entender de que se vale la minerıa de datos para desarrollarse es un buen comienzo, para el
12
caso, son los volumenes de datos, o como se le conoce al Big Data el cual no es mas que el cumulo
de productos derivados de los resultados de investigaciones tecnicas y cientıficas, como tambien las
grandes asociaciones de colaboracion entre investigadores, los sofisticados y precisos instrumentos
cientıficos, que trabajan con centros de computacion de alto rendimiento, juntos producen cantidades
enormes de informacion asociada a los experimentos, imitaciones y pruebas que se archivan en
petabytes2 de datos, a esto se le conoce como Big Data (Lin, Misic, Shen, & Yu, 2016).
La envergadura de los datos es apoyada por herramientas tecnologicas que soportan la demanda
del movimiento de los datos, al permitir sobrepasar las restricciones de las redes que normalmente
soportan estos flujos como por ejemplo la red de un campus universitario o investigativo; estas
infraestructuras computacionales pasan por alto los cortafuegos y soportan la aceleracion de flujo
de datos, proceso que se conoce como “libre de friccion” a traves de rutas de red de area amplia
a los nuevos repositorios a velocidades de 1-10 Gbps3, esta practica se reconoce como zonas de
demilitarizacion (DMZs) con disenos de redes que pueden proporcionar redes programables de alta
velocidad (1-100 Gbps) con infraestructuras de red dedicadas para flujos de trafico de datos (Lin et
al., 2016).
Ahora, la importancia del Big Data, ha permitido el surgimiento de lo que se podrıa denominar
una nueva profesion conocida como Data Science (Bruce, Patel, Shmueli, & Stephens, 2017), el
termino se le atribuye a todos los procesos que se implementan en la gestion y analisis de los conjuntos
de datos, esto incluye la extraccion de informacion valiosa y la comprension de los sistemas que
han producido los datos (Suthaharan, 2016), es decir que es la generalizacion de todos los agentes
involucrados dentro del analisis de datos como la minerıa de datos, hay que aclarar que el objetivo de
los analisis que se realizan en los conjuntos de datos se pueden realizar a una sola unidad, como una
red informatica o una red de sensores inalambricos, y se compone a su vez de varias subunidades de
interconexion como computadores o sensores trabajando en un conjunto de principios y estrategias
predefinidos para llevar a cabo tareas, como la recopilacion de datos, hechos o estadısticas de un
entorno que se espera el sistema supervise (Suthaharan, 2016). Algunos ejemplos de estos sistemas
incluyen sistemas de deteccion de intrusos en red (Lazarevic, Kumar, & Srivastava, 2005), sistemas
de deteccion de cambios climaticos, de donde se producen cantidades de datos que por su tamano
se conocen como Big Data.
La minerıa de datos se encuentra coligada con lo que se conoce como Knowledge Discovery
in Databases (KDD), termino que se describe basicamente como la realizacion de un analisis
automatico, exploratorio y modelador de grandes cantidades de datos sobre repositorios; con este
2Un petabyte es una unidad de almacenamiento de informacion cuyo sımbolo es PB, y equivale a 1015 bytes3Gigabytes por segundo
13
proceso se identifican patrones validos de grandes cantidades de datos, en esta instancia aparece
la minerıa de datos, ya que ella es el centro del proceso KDD, esta se encarga de la inferencia de
algoritmos que exploren los datos, e implementen un modelo que descubra patrones en la informacion
para conocer el comportamiento de las bases de datos (Maimon, (auth.), Maimon, & (eds.), 2010).
De forma general la minerıa de datos extrae informacion de grandes cantidades de datos, y realiza
una estructura que permita comprender ese conjunto de datos.
Se relaciona la minerıa de datos con la estadıstica, en gran variedades de tecnicas dedicadas a la
exploracion de datos, tales como la regresion lineal o logıstica, componentes principales entre otros,
estos campos se ocupan de procesar grandes volumenes, pero a diferencia los anteriores el trato
que se le da a los datos en terminos de la minerıa de datos no tiene en cuenta lımites estrictos al
dejar la moda de los datos abierta (haciendo imposible la imposicion de limites); esto deja claro de
plano la diferencia existente en el trato de los datos, por otro lado tambien se asocia a las ciencias
de la computacion en campos como la inteligencia artificial, aprendizaje automatico, estadıstica y
sistemas de bases de datos (Bruce et al., 2017; Maimon et al., 2010).
Algunas de las caracterısticas principales de la minerıa de datos se presentan a continuacion,
estas conforman la taxonomıa del termino:
Una de las tareas principales en la minerıa de datos es examinar informacion, existen varios
casos en las que se presentan los datos: una de estas es cuando no se conoce su clasificacion, o se
realizara en un momento futuro, aquı la minerıa de datos predice si esta clasificacion esta hecha o
se realizara. Por otro lado, donde se conoce la clasificacion de los datos, sirve de modelo para que
se desarrollen reglas que se puedan aplicar precisamente cuando no se conoce la clasificacion de los
datos. La prediccion es otra de las acciones de la minerıa, existe una similitud con la clasificacion
de los datos, pero en este caso se es mas especıfico al predecir el valor de las variables numericas,
de forma general la prediccion se refiere la determinacion del valor de una variable continua.
Las reglas de asociacion son disenadas para encontrar patrones de agrupacion generales a
traves de ıtems en grandes bases de datos, las reglas se usan en varias formas, en la mayorıa de
casos a traves de la derivacion de los datos, esto permite encontrar un patron de asociacion y hallar
usos posteriores de la informacion, de la misma forma que se entiende el concepto de la herencia,
por ejemplo.
El desempeno de los algoritmos de minerıa de datos esta supeditado al numero de variable, si este
numero esta limitado mejorara su actuacion, en el caso de que se realice una reduccion de variables,
se le conoce como reduccion de la dimension, generalmente se realiza esto para mejorar el poder
predictivo del metodo utilizado para realizar la minerıa de datos
14
4.8. La informacion geografica.
De forma simple la informacion Geografica es como lo menciona (Longhorn & Blakemore, 2007)
“toda la informacion con un atributo de ubicacion”. (p.2). Esta forma de describir que es el termino
asocia inmediatamente cada uno de los datos que de alguna manera situan la informacion, para
ejemplificar esto se debe echar mano de un conjunto enorme de datos, como direcciones, lımites
fısicos y no fısicos, caracterısticas del medioambiente natural y construido, y tener en cuenta que
se puede representar en dos y tres dimensiones a traves del tiempo. Ademas, tiene como base
los atributos que lo componen como “objetos, estadısticas y archivos que tienen un atributo de
referencia a una ubicacion, el cual necesita de una georreferenciacion a esa ubicacion precisa en la
tierra” (Longhorn & Blakemore, 2007, p.3). La informacion geografica precisamente se representa
por grandes volumenes de datos, en este caso por medio de imagenes de alta resolucion, o bases
de datos con registros unicos de cosas en el espacio como datos representados por medio de puntos
(Longhorn & Blakemore, 2007). Esta involucra datos geoespaciales, geograficos o basados en la
geolocalizacion (Williamson, Rajabifard, & Feeney, 2003, p.14).
Toda esta informacion se maneja dentro de lo que se conoce como Sistemas de Informacion
geografica, la integracion con los SIG, permite entre otras cosas recopilar, almacenar, procesar y
visualizar informacion geografica a traves de formas primitivas geometricas como: puntos, lıneas
y polıgonos que en conjunto representan entidades geograficas y variables espaciales mesurables y
georreferenciados (ubicados). en la actualidad es la herramienta principal para ubicar y relacionar
caracterısticas del territorio, por esto la informacion espacial ha sido vital para los entes guberna-
mentales, desde las pequenas comunidades a modelos de escala mundial y demas, estos datos abarcan
componentes catastrales, que inclusive ademas de inventariar el territorio y los predios permiten re-
lacionar los propietarios de tierras, la infraestructura en terminos viales, industriales y desarrollos
urbanısticos, el uso del suelo, demografıa e inclusive actividades economicas, y mas aun militares, a
tal punto que algunos gobiernos, como el de Estados Unidos incorpora dentro de sus bases de datos
hasta un 80% con informacion geografica (Williamson et al., 2003). La informacion geografica es
vital para tomar decisiones acertadas a escala local, regional y global, lo que le permite relacionase
con ubicaciones cercanas, calcular las distancias y rutas optimas, hacer mapas y ası muchos mas
ejemplos.
15
Parte III
16
5. Metodologıa
Durante el desarrollo de la pasantıa, se llevaba a cabo la elaboracion de una metodologıa acorde
con los planes de recuperacion trazados por el IAvH en materia de informacion historica, a traves
del grupo de trabajo de la I2D se crea un documento metodologico que sirve de ruta para abordar el
tema de recuperacion de ahora en adelante en el Instituto. Para asegurar una correcta elaboracion
de los resultados del trabajo desempenado en el IAvH, se adopta esta metodologıa como guıa para
recuperar los proyectos asignados por la I2D, gracias a la gestion de las primeras dos fases de
esta metodologıa (y el trabajo previo realizado para su construccion) se dispone de un inventario
de informacion realizado una unica vez en el instituto, del cual se disponen los proyectos que se
recuperaron, a continuacion se presenta un resumen de la metodologıa de forma general, junto con
las fases en las que hubo participacion por el desarrollo de la pasantıa.
Resumen: “Prestar servicios profesionales para elaborar e implementar una metodologıa que
permita la recuperacion de informacion historica del Instituto Humboldt sobreinformacion geografica,
biologica y social en las areas de influencia del proyecto GEF-Palma, y su implementacion con la
depuracion y estructuracion de esta informacion teniendo en cuenta sus licencias de acceso y uso”.
Autor: Angelica Joana Suarez Porras (Contratista especializado en gestion de proyectos de
informatica y tecnologıa).
Supervisor: Rafael Ricardo Bastidas Mendez
Derechos: Instituto de Investigacion de Recursos Biologicos Alexander von Humboldt.
Fecha: Bogota, D.C., Noviembre 18 de 2016
La primera fase, denominada Planificacion: plantea en una unica vez crear un inventario gene-
ral de los proyectos historicos, que posteriormente se alimentara con nuevas incorporaciones, junto
con la estimacion y evaluacion de los proyectos prioritarios a recuperar, a traves del indicador de
importancia de proyectos. Posteriormente la segunda fase, denominada Preparacion: realiza una
inspeccion de los archivos del inventario previo, con el fin de identificar las carpetas contenedoras de
informacion que tiene los atributos suficientes para ser recuperados como proyecto de informacion
historica del IAvH. La tercera fase, denominada Busqueda de informacion, depuracion y estructura-
cion de datos: se enfoca en la identificacion por inspeccion visual de documentos o por correlacion
de rutas y archivos compartidos de la informacion de cada proyecto, en cada uno de sus carpetas
componentes, para ası realizar una depuracion de los archivos consolidados. La cuarta fase, se deno-
mina fase de incorporacion de datos: esta etapa de la metodologıa recoge el trabajo previo para, de
17
acuerdo con lineamientos de la I2D en cuanto a la documentacion de la informacion, sean publicados
dentro de los catalogadores institucionales (GeoNetwork o Ceiba). Por ultimo, la fase de disposicion
final de la informacion: plantea las formas en que se van a conservar los proyectos e informacion en
general recuperada. En la figura 5.1 se presenta un diagrama que muestra la Metodologıa para la
recuperacion de Informacion Historica desarrollada durante el proyecto de pasantıa.
Figura 5.1: Metodologıa para la Recuperacion de Informacion Historica. Fuente: (Suarez, 2016)
5.1. Fase de planificacion
Esta fase es el sustento del proceso de recuperacion de informacion historica, porque con ella se
crean los insumos que abastecen el trabajo a realizar, al desarrollar un inventario de los proyectos que
han sido generados por el IAvH, ademas en paralelo, se elabora la implementacion de un indicador de
importancia por proyecto, el cual permite que por medio de la evaluacion de criterios de priorizacion,
definidos por el instituto, como los POA, se recupere la informacion, en acuerdo con la relevancia
de cada proyecto. En la figura 5.2 se muestra la fase de planificacion con sus especificaciones.
18
Figura 5.2: Diagrama de Flujo Fase de Planeacion de Procesos de Recuperacion. Fuente (Suarez, 2016)
El levantamiento del inventario se hace sobre los repositorios institucionales que albergan infor-
macion del IAvH elaborada antes del ano 2014, esto permite identificar el numero de proyectos y
estadısticas asociadas a sus alcances y avances, en comparacion con la totalidad de informacion exis-
tente. Para alcanzar el objetivo trazado por esta fase, se utilizan los contratos e informacion jurıdica
asociada a los proyectos e informes finales, que permitan dilucidar de forma completa los archivos
que componen cada proyecto. Este proceso se sugiere sea realizado una unica vez, posteriormente
siendo alimentado.
El proceso se realiza desde las consultas en los sistemas de informacion institucionales, como
el repositorio de archivos “Gdoc”, donde se conoce alberga expedientes completos de contratos y
convenios, entregables e informes finales de proyectos ejecutados entre los anos 2005-2008, esperando
cargar posteriormente informacion que date hasta el ano 2012, por su puesto se fomenta la evaluacion
de otras fuentes de informacion disponibles. En vinculacion con la inspeccion de fuentes, se realiza
la identificacion de un conjunto de variables que describan las principales caracterısticas de cada
proyecto, estas se encuentran en la seccion de anexos, ver tabla 9.1.
Para realizar la estimacion del indicador de importancia de cada proyecto, el cual permite medir
el nivel de prioridad de recuperacion, se diferencian los tipos de variables de priorizacion, las de
19
tipo Booleano, que responden en binario, o las de tipo discretizado, estas ultimas son variables
descriptivas de tipo comun, a las que se les realiza un proceso de discretizacion, el cual consiste
en transformar datos de tipo continuo a discreto, haciendolas comparables con las variables de
tipo booleano, a traves del proceso de intervalos de igual amplitud. Para realizar este proceso de
discretizacion sobre las variables continuas, se divide el rango de cada variable en un numero n de
intervalos de igual tamano, que para el caso es n = 2, gracias a la naturaleza de las variables tipo
booleano, luego se realizan los siguientes pasos:
1. n = 2, lo que permite la homogeneizacion con las variables booleanas
A : Es el mayor valor del rango.
B : Es el menor valor del rango.
I =(A−B)
n; El ancho del intervalo
n : Numero de intervalos
2. Se calculan los lımites de los intervalos para n = 2
I =(A−B)
n
Primer intervalo: A = B + I
Segundo intervalo: A = B + 2I
3. Sı la variable continua posee valores iguales o mayores al lımite del primer intervalo se asigna
esta como verdadera
Para definir cuales son los proyectos prioritarios entonces se le asigna un peso determinado a los
criterios de priorizacion que esten en concordancia con el lineamiento de importancia del proyecto,
estos se encuentran en la tabla 9.2, en la seccion de anexos. Con ellos se construye la matriz de
comparacion, la cual permite realizar una comparacion entre pares de variables, utilizando la escala
booleana, interpretando la importancia de la variable de acuerdo con la que se esta comparando, es
decir su par. Para calcular el peso de cada variable se realizan los siguientes pasos:
1. Sumar los valores de cada fila de la matriz de comparacion de pares.
2. Calcular la suma total de los valores de la matriz.
3. Dividir el valor de cada elemento de la suma de valores de cada fila por la suma total de estos
elementos.
20
Con los pasos descritos es posible calcular la matriz de pesos por variable:
p′1
p′2
...
p′m
V ariable 1
variable 2
...
variablem
De donde m : Numero de variables de priorizacion, p′m
: Peso para la variable m.
5.2. Fase de preparacion
En esta fase se realiza el levantamiento y analisis de la informacion susceptible de recuperacion,
al identificar carpetas que albergan la informacion (luego del inventario inicial), con la generacion de
un inventario de informacion del contenido de los repositorios, con informacion derivada que admita
la clasificacion de los archivos. Se realizan tareas dentro de esta instancia, para dejar en claro la
informacion disponible al mostrar el contenido original de los archivos y con ayuda del Comander.
Sımbolo del sistema en Windows (CMD) hacer un listado, ademas calcular los atributos derivados.
En la figura 5.3 se muestra el desarrollo de la fase de preparacion.
21
Figura 5.3: Diagrama de Flujo general de la fase de preparacion. Fuente: (Suarez, 2016)
Las carpetas contenedoras de informacion son valoradas en conformidad con el contenido que
albergan, esta tarea permite realizar una preclasificacion, gracias al valor que se ha asignado a la
informacion que cada carpeta contiene, esto permite la separacion de informacion que es candidata
a ser recuperada y sus folios principales. Posteriormente se realiza una trasferencia de las carpetas
dispuestas en el repositorio, a subcarpetas temporales, que permitan realizar un:
1. Back Up del repositorio.
2. Crear un ambiente de Staging (es un escenario donde se realizan cambios y pruebas que sean
necesarios antes de ser publicados los proyectos).
3. Depurar la informacion durante la transferencia de informacion a las subcarpetas.
22
5.3. Fase de busqueda de carpetas relacionadas con el proyecto
Las implicaciones de esta fase empiezan por el proceso que se realiza para encontrar todas las
piezas de los proyectos que se recuperaran y unirlas junto con cada carpeta del repositorio a la que
pertenece, para tales fines el grupo de trabajo ha definido dos tareas:
1. Busqueda e inspeccion visual de los documentos (informes de investigacion).
2. Correlacion por similitud en rutas y archivos compartidos.
para llevar a cabo este proceso se recomienda hacer uso de la documentacion que pueden pre-
sentar los proyectos, como primera medida; tarea que se vuelve reiterativa, cuando se realiza una
inspeccion mas minuciosa, o tampoco se dispone de un informe que sustente la conformacion de las
carpetas, la meta es lograr identificar al proyecto hasta lograr minimizar el numero de carpetas que
no encuentren proyecto. En la figura 5.4 se muestra el diagrama de flujo de la fase de busqueda de
carpetas.
Figura 5.4: Diagrama de flujo de la fase busqueda de carpetas relacionadas con un proyecto. Fuente: (Suarez, 2016)
Cuando se tengan los proyectos listos en el repositorio con el contenido final aportado por los
diferentes informes o contratos, en esta instancia se debe realizar una consulta a los indicadores
de importancia por proyecto, que permitan determinar la prioridad de cada uno, y ası programar
23
su recuperacion. La recuperacion arrancara con la depuracion e integracion de los archivos que
estan dispuestos en las carpetas, de esta manera cada carpeta sera inspeccionada con el fin de
encontrar una clasificacion para el contenido que alberga, redireccionando su contenido a carpetas
con informacion en comun delimitadas por clases:
Biologico: Archivos resultantes de la investigacion con caracter biologico
Geografico: Archivos resultantes de la investigacion con caracter geografico
Socioeconomico: Archivos resultantes de la investigacion con caracter socioeconomico
Documentos: archivos alfanumericos que contienen informacion descriptiva sobre las carac-
terısticas, desarrollo y resultados (Informes)
Referencias: Documentos que fueron usados como insumos de informacion
En cuanto a la depuracion se deben tener encuentra que es primordial deshacerse de los archivos
que presenten duplicidad, o los que posean multiples versiones de sı mismo, ası como de los archivos
que no hacen parte de los resultados finales, relegados a informacion secundaria, estos archivos deben
ser eliminados de las carpetas finales. Por otro lado, conforme se encuentra lista la informacion
se organiza la informacion para permitir la integracion de archivos y generacion de una carpeta
consolidada por proyecto, de acuerdo con el modelo que se presenta en la figura 5.5
Figura 5.5: Estructura carpeta consolidada proyecto. Fuente: (Suarez, 2016)
5.4. Fase de incorporacion de datos
Esta fase parte de un previo trabajo de preparacion de los datos, con una depuracion y es-
tructuracion por carpetas, junto con la consolidacion de la version final y ajustes de los proyectos
pertinentes que permitan incorporar la informacion de acuerdo con los lineamientos que traza el
24
equipo de la I2D en los catalogos institucionales Ceiba y GeoNetwork. Se hace especial mencion de
los procesos, dado que es la fase con mas desarrollo en el trabajo de la pasantıa, por esto se sugieren
detalladamente cada una de las actividades que la componen de acuerdo con lo que se muestra en
la figura 5.6.
Figura 5.6: Diagrama de flujo generado en la fase de incorporacion de datos: Fuente: (Suarez, 2016)
5.4.1. Consulta del Informe Final de Investigacion y Contratos
La revision de los archivos informes que contiene el proyecto, en especıfico de los que describen y
explican los procesos y conclusiones pertinentes del estudio, con este aparte se conocen los alcances
que tiene el proyecto desde una vision mas amplia, con base en los documentos presentados, se
conocen los resultados primordiales y productos que se presentan dentro de los archivos entrega-
dos. Es una herramienta util para determinar conflictos de versionamiento de archivos, informacion
secundaria para relegar, entre otros.
25
5.4.2. Reconstruccion de archivos resultado
La necesidad de presentar los resultados de los proyectos de manera optima, implica que se
recurra a la reconstruccion de archivos que requieran de un perfeccionamiento en su conformacion,
como sucede con los datos geograficos en los proyectos, los cuales en su mayorıa de casos vienen
dispuestos de una manera desordenada, realizar una geodatabase que agrupe los insumos Shapefiles,
o rasters que componen a las salidas graficas y ası estructurar los proyectos *.MXD. Con este
proceso tambien se puede solucionar problematicas de archivos faltantes o multiples versiones de los
resultados, al hacer comparaciones con los informes finales.
5.4.3. Construccion Carpeta Depurada del Proyecto
Con los arreglos pertinentes, como la reconstruccion de archivos geograficos, junto con la depura-
cion de archivos con problemas de duplicidad o corruptos, se genera una carpeta con la informacion
final depurada, la cual debe conservar la forma que se presenta en la figura 5.4, la cual finalmente
es la informacion que ya esta lista para ser recuperada dentro de los catalogos institucionales, para
el caso GeoNetwork.
5.4.4. Adaptacion a los lineamientos de incorporacion de la I2D
Por parte de la I2D, la incorporacion de los proyectos dentro de los catalogadores, debe pasar
un proceso de validacion con respecto a los lineamientos que el grupo de trabajo define, las especi-
ficaciones van desde la correcta identificacion dentro de los catalogadores realizando metadatos en
concordancia con el estandar definido. Si los proyectos en esta etapa no cumplen con los lineamien-
tos de incorporacion o por otra parte no se puede realizar la reconstruccion de los productos del
proyecto la informacion no se recuperara.
5.4.5. Incorporacion de la informacion a los catalogos
Una vez los datos aprueben todas las validaciones requeridas para su incorporacion en los catalo-
gos institucionales se podra proceder con su incorporacion a estos.
26
Parte IV
27
6. Resultados obtenidos
La produccion en concreto que se realizo, se presenta a continuacion de forma general, sin em-
bargo, en cumplimiento a los objetivos especıficos (cuarto objetivo), se elaboraron por cada proyecto
historico de recuperacion, un informe tecnico con los pormenores necesarios que se especifican dentro
de la metodologıa de la I2D y su grupo de trabajo, en dichos informes se encuentran cada una de las
operaciones de depuracion y recuperacion que facilitaron la catalogacion de los proyectos dentro de
los catalogadores, los cuales son los resultados especıficos del trabajo de pasantıa, esta informacion
se presenta como anexo en CD. A continuacion, se mencionan algunos de los detalles destacados
dentro de cada uno de los resultados de la participacion en el proceso de recuperacion historica para
el IAvH.
En resumen, se presenta el cuadro 6.1, donde se consigna informacion basica de cada proyecto,
pero vital dentro de los alcances que pretende obtener el IAvH, esto en materia de reduccion del
peso de los archivos y estructuracion de los archivos geograficos. Cabe resaltarse que el proceso de
depuracion de archivos siempre se llevo a cabo a partir de la creacion de Geodatabases, forma en la
cual se estandarizo la estructuracion de la informacion geografica que contienen los proyectos, razon
por la cual se pudo identificar la mayorıa de shapefiles que eran utiles y prescindir de esta manera
de informacion secundaria; de forma general, se redujo en un 93.74% el volumen de informacion
(peso en disco) del total de los archivos, en el cuadro 6.1 se mencionan los pormenores por proyecto.
Cuadro 6.1: Descripcion general de la recuperacion de proyectos historicos. Fuente: Elaboracion propia
Proyecto 1 2 3 4 5
Peso Inicial 5.18 Gb 50.3 Gb 2.18 Gb 239 Mb 4.37 Gb
Numero de carpetas 110 6.217 19 39 104
Numero de archivos 1.915 71.966 2.172 981 1.629
Peso final 1.38 Gb 3.53 Gb 2.18 Gb 159 Mb 2.70 Gb
Numero de carpetas final 28 1.933 24 26 41
Numero de archivos final 66 26.346 2.171 568 207
Creacion de GDB Si Si No Si Si
reestructuracion de MXD Si Si No Si Si
Reduccion en peso 73.3% 93% 0% 33.5% 38.21%
Todos los proyectos tuvieron reduccion en el peso en disco de sus archivos, la razon principal
28
obedece a la creacion de geodatabases, lo que permitio eliminar informacion redundante o relegada.
Esto en parte responde a un manejo desordenado de la informacion espacial que contenıa inicial-
mente cada proyecto, motivo que responde positivamente a la propuesta de la I2D en materia de
estructuracion por carpetas de la informacion y depuracion de la misma. El tercer proyecto presenta
un manejo de la informacion impecable, en el aspecto de estructuracion de carpetas, y tambien de
la informacion espacial, este incluye en su contenido una geodatabases para su contenido geografico.
A continuacion, se presenta un resumen de cada proyecto, en forma general de su contenido, y por
cada uno, algunos de los trabajos en materia de recuperacion que se realizaron durante el desarrollo
de la pasantıa. Hay que aclarar que, por motivos de extension en este documento, se presenta un tipo
de resultado para cada proyecto, en definitiva, cada proyecto tiene estos mismos procesos, pero se
presenta unicamente lo mas destacado de cada uno. Para mayor detalle por cada proyecto remitirse
a los anexos de informes tecnicos elaborados para cada uno.
6.1. Inventario de la informacion
6.1.1. Primer proyecto
Tıtulo: Consultorıa para realizar la busqueda, compilacion y analisis de informacion disponible
sobre las actividades mineras adelantadas en las zonas de paramo de Colombia, con el fin de generar
una base de informacion a nivel nacional del estado de la minerıa en estos ecosistemas y aportar en
la inclusion de los componentes geologico y geomorfologico en los criterios para la redelimitacion de
paramos, Paramos de Guerrero y Rabanal (Complejo de paramos). Escala: 1:250.000. Ano 2011.
Peso y cantidad de archivos: 5,18 GB (5.571.908.424 bytes), 1.915 archivos, 110 carpetas.
Resumen: El Instituto de Investigacion de Recursos Biologicos Alexander von Humboldt (IAvH)
y la consultorıa de Felipe Rubio (2010), realizaron la busqueda, compilacion y analisis de informacion
disponible sobre las actividades mineras adelantadas en las zonas de paramo de Colombia, con el fin
de generar una base de informacion a nivel nacional del estado de la minerıa en estos ecosistemas.
Incluye las areas comprometidas, situacion legal, tipo de actividades mineras, basado en cruces
de informacion cartografica disponible, todo esto enmarcado en el “Proyecto Paramos Andinos.
Conservacion de la diversidad en el techo de los Andes”.
Para el primer proyecto, se hizo entrega de ciertos productos geograficos, por una parte, salidas
graficas, en concreto seis mapas en formato *.pdf donde se muestra la situacion de tıtulos con
expedientes en los paramos de Almorzadero, Guerrero, Pisba, Rabanal, Santurban, Tota Bijagual
Mamapacha. (un mapa por paramo). Y el siguiente listado de informacion SIG, entre ellos algunos
proyectos *.MXD que necesitaron de su reconstruccion por la falta de Shapefiles que conformaban
29
inicialmente estos proyectos: A continuacion, se presenta la informacion inicial entregada por los
autores del proyecto:
1. Proyecto *.MXD con la visualizacion de los mapas
2. Tıtulos y solicitudes a 2008
3. Tıtulos y solicitudes a 2009
4. Tıtulos a 2010
5. Tıtulos a 2010 en paramo
6. Tıtulos a 2010 con expedientes
7. Complejos de paramos a octubre 9 de 2006
8. Paramos por corporacion titulados a 2008
9. Paramos por corporacion titulados a 2009
10. Paramos por corporacion titulados a 2010
11. Cartografıa Base DANE
12. Cartografıa base IGAC
13. Cienagas y lagunas
14. Cuencas y drenajes y captaciones
15. SIGCOLOMBIA (CARS, cabeceras)
Los mapas o salidas graficas, solo se presentaban en formato *.pdf, por tal razon, se realizo un
MXD por cada uno de estos, a partir de dos Shapefiles que aporto el IAvH, los cuales no existıan
dentro del proyecto, el shape “Atlas Paramos 2007 10jul” con informacion de los paramos hasta el
ano 2007, presenta un sistema coordenado MAGNA Colombia Bogota y el shape “TıtulosConEx-
pedientes” con informacion de los tıtulos en bases de datos de las corporaciones hasta el ano 2010,
presenta un sistema coordenado Colombia Bogota Zone. A partir de estos Shapefiles se construyen
estas seis salidas graficas y se corrige el Proyecto *.MXD con la visualizacion de los mapas, que
finalmente se denomino “Complejoparamos”. En el cuadro 6.2 se muestra el nombre e informacion
de los proyectos reconstruidos.
30
Cuadro 6.2: Reconstruccion de la cartografıa del proyecto: Fuente: Elaboracion propia
Nombre Tipo
Almorzadero MXD elaborado a partir del MXD presentado por el proyecto con
nombre “Humboldt”, contiene el paramo de Almorzadero y los
tıtulos que estan en sus lımites
Bijagual MXD elaborado a partir del MXD presentado por el proyecto con
nombre “Humboldt”, contiene el paramo de Bijagual y los tıtulos
que estan en sus lımites
Complejoparamos MXD elaborado a partir del MXD presentado por el proyecto con
nombre “Humboldt”, contiene el complejo de paramos los tıtulos
que estan en sus lımites
Guerrero MXD elaborado a partir del MXD presentado por el proyecto con
nombre “Humboldt”, contiene el paramo de Guerrero y los tıtulos
que estan en sus lımites
Pisba MXD elaborado a partir del MXD presentado por el proyecto con
nombre “Humboldt”, contiene el paramo de Pisba y los tıtulos que
estan en sus lımites
Rabanal MXD elaborado a partir del MXD presentado por el proyecto con
nombre “Humboldt”, contiene el paramo de Rabanal y los tıtulos
que estan en sus lımites
Santurban MXD elaborado a partir del MXD presentado por el proyecto con
nombre “Humboldt”, contiene el paramo de Santurban y los tıtulos
que estan en sus lımites
Redelimitacion MXD elaborado a partir del MXD presentado por el proyecto con
nombre “Humboldt”, contiene de la redelimitacion para paramo
de Guerrero
Geodatabase Pro-
yecto Paramo An-
dino
Godatabase elaborada con los Shapefiles que contiene el estudio,
mas los que aporto el IAvH y los que se crearon a partir de estos.
El conjunto de datos asociado al proyecto, se encuentra dividido en 5 subcarpetas: la primera
carpeta, denominada “Anexos”, contiene informacion fuente para el proyecto, tales como, informes
de interventorıa ambiental e informacion con tıtulos otorgados. La carpeta “Archivos graficos” al-
berga las salidas graficas resultantes del proyecto. La carpeta denominada “GDB” contiene toda la
informacion geografica asociada al proyecto de investigacion, y se encuentra conformada por el los
siguientes features dataset denominados “Tıtulos y Solicitudes mineras Mayo 20 2009”, “Tıtulos y
solicitudes Dic 2010”, “Tıtulos Octubre 26 2010”, “SIGCOLOMBIA”, “Paramos”, “Mapas IDEAM
prj’, “GRD SRTM90M”, “Cuencas y drenajes”, “Cienagas”, “Cartografıa base Humboldt”, “Capta-
31
ciones” y los Raster Catalog “hlshd 90mf”, “dem90m f” hacen parte de la informacion geoespacial
utilizada por el proyecto para el desarrollo de su contenido, mientras que los features dataset “Tıtu-
los expedientes”, “Tıtulos en paramo”, “Polıgonos a incluir en redelimitacion paramo de Guerrero y
“Paramo”, albergan los Shapefiles que se elaboraron con base en Shapefiles que custodia el IAvH, y
son apoyo del proyecto en cuestion. La carpeta “MXD” presenta las salidas graficas en formato MXD
del proyecto. Finalmente, la carpeta denominada “Documentos”, contiene informacion documental
pertinente al proyecto, consignada dentro de tres archivos .doc -Analisis de minerıa en Paramos-,
-Modelo para toma de decisiones de minerıa-, -Recomendaciones y propuestas- en orden el primero
realiza un acercamiento historico a la problematica minera de afectacion al medioambiente y la
legislacion tanto historica como actual sobre la adjudicacion y control de los proyectos mineros, los
siguientes documentos, en el orden mencionado abordan la metodologıa y conceptos asociados a las
dinamicas de estudio implementados en el proyecto en terminos de insumos y tecnicas utilizadas
para el mismo, tambien los procesos como se generaron los resultados del proyecto (en los casos de
estudio, paramo de Guerrero y Rabanal junto con los demas que componen el complejo de para-
mos (Almorzadero, Pisba, Bijagual, Santurban), y por ultimo se encuentran otros resultados, de los
trabajos del grupo que participo dentro de la metodologıa del proyecto.
A continuacion, en el cuadro 6.3 al 6.5 se elabora una tabla correspondiente al diccionario de
datos que explica de manera sencilla el contenido de la Geodatabase del proyecto:
32
Cuadro 6.3: Geodatabase: Proyecto Paramo Andino
Nivel 1 Nivel 2 Tipo Dato Descripcion Tipo Informacion
Captaciones Feature Datasets FD Cartografıa Basica Insumo
captaciones pais sui geog f FC punto Puntos de captaciones acuıferas Insumo
Cartografıa base Humboldt Feature Datasets FD Cartografıa Basica Insumo
administrativo R FC Polıgono Lımite polıtico Insumo
centros poblados FC Polıgono Lımite de los centros poblados Insumo
drenaje sencillo FC Lınea Drenajes en la zona estudio sencillo Insumo
Laguna FC Polıgono Lagunas naturales Insumo
orografıa FC Punto Nombres de las zonas montanosas Insumo
rios0 Clip FC Lınea Rıos de las zonas de estudio Insumo
rios1 Clip FC Lınea Rıos de las zonas de estudio Insumo
rios2 Clip FC Lınea Rıos de las zonas de estudio Insumo
textos0 Clip FC Punto textos de las zonas de estudio Insumo
Textos1 Clip FC Punto textos de las zonas de estudio Insumo
Textos2 Clip FC Punto textos de las zonas de estudio Insumo
Textos3 Clip FC Punto textos de las zonas de estudio Insumo
via ferrea FC Lınea Vıas ferreas Insumo
vıas FC Lınea Vıas vehiculares Insumo
vias 1 FC Lınea Vıas vehiculares Insumo
Cienagas Feature Datasets FD Informacion base Insumo
Cienaga carto 500Mil prj FC Polıgono Cartografıa de cienagas 1:500.000 Insumo
Embalse Carto 500Mil prj FC Polıgono Cartografıa de embalses 1:500.000 Insumo
Laguna Carto 500Mil prj FC Polıgono Cartografıa de lagunas 1:500.000 Insumo
Cuencas y drenajes Feature Datasets FD cartografıa base Insumo
cuencahidro FC Polıgono Cuencas hidrograficas Insumo
Drenaje ppal FC Polıgono Drenaje principal doble Insumo
Drenaje sec FC Lınea Drenaje tipo sencillo Insumo
GRD SRTM90M Feature Datasets FD Informacion polıtica de parques Insumo
cabmun toponimia FC Lınea Nombre cabeceras municipales Insumo
hidro toponimia FC Lınea Nombre de hidrografıa Insumo
orografia toponimia FC Lınea Nombres de la orografıa Insumo
toponi1 FC Lınea Nombres varios Insumo
Mapas IDEAM prj Feature Datasets FD informacion polıtica Insumo
Desertificacion 2008 FC Polıgono Mapa de desertificacion Insumo
esc prec a2 FC Polıgono Mapa de precipitacion Insumos
esc tempe a2 FC Polıgono Mapa de temperaturas Insumos
33
Cuadro 6.4: Geodatabase: Proyecto Paramo Andino
Nivel 1 Nivel 2 Tipo Dato Descripcion Tipo Informacion
Paramos Feature Datasets FD informacion paramos Resultados
Almorzadero FC Polıgono Limite de paramo Resultados
Atlas Paramos 2007 FC Polıgono Limite de paramo Insumo
Bijagual FC Polıgono Limite de paramo Resultados
Guerrero FC Polıgono Limite de paramo Resultados
Pisba FC Polıgono Limite de paramo Resultados
Rabanal FC Polıgono Limite de paramo Resultados
Santurban FC Polıgono Limite de paramo Resultados
Polıgonos a incluir en redelimitacion paramo de Guerrero Feature Datasets FD informacion polıtica Insumo
Cizalla Nemocon FC Polıgono Falla geologico, limite Insumo
Qrs FC Polıgono Area a delimitar Resultado
SIGCOLOMBIA Feature Datasets FD informacion polıtica Insumo
almacenamiento crudo FC Punto Puntos de almacenamiento crudo Insumo
almacenamiento derirvados FC Punto Puntos de almacenamiento derivados Insumo
almacenamiento gasolinas FC Punto Puntos de almacenamiento gasolinas Insumo
areas carboniferas FC Polıgono Areas de explotacion carbonıfera Insumo
biomas FC Polıgono Zonas de caracterısticas similares Insumo
bosques 98 FC Polıgono Bosques cobertura Insumo
cabeceras FC Punto Cabeceras municipales Insumo
cabeceras 1 FC Punto Cabeceras municipales Insumo
campos petroleros FC Polıgono Zonas de petroleo Insumo
cars FC Polıgono Corporaciones regionales Insumo
centrales FC Punto Centrales petroleras Insumo
centrales generadoras FC Punto Centrales petroleras Insumo
coberturas FC Polıgono Coberturas de la zona Insumo
Colombia FC Polıgono Mapa polıtico Insumo
contratos petroleros98 FC Polıgono Polıgonos de explotacion Insumo
costas FC Lınea Limites costeros Insumo
cuencas sedimentarias FC Polıgono Cuencas sedimentarias Insumo
cuerposdeagua FC Polıgono Cuerpos de agua Insumo
curvas FC Lınea Curvas de nivel Insumo
departamentos FC Polıgono Mapa polıtico Insumo
drenajes FC Lınea Drenajes Insumo
esmeraldas FC Punto Extraccion minera Insumo
gasoductos FC Lınea Transporte de gasoductos Insumo
hierro FC Punto Extraccion de hierro Insumo
limıtrofes FC Lınea Limites Insumo
lineas trans FC Lınea Lıneas de transporte Insumo
mask FC Polıgono Insumo
materiales construccion FC Punto Coleccion de material Insumo
metales preciosos FC Punto Extraccion de metales Insumo
34
Cuadro 6.5: Geodatabase: Proyecto Paramo Andino
Nivel 1 Nivel 2 Tipo Dato Descripcion Tipo Informacion
minas carbon FC Punto Minas de carbon Insumo
municipios FC Polıgono Limites polıticos Insumo
negritudes FC Polıgono Zonas de ubicacion etnica Insumo
nıquel FC Punto Extraccion de nıquel Insumo
nodos gasoductos FC Punto Union de lıneas de transporte Insumo
nodos oleoductos FC Punto Union de lıneas de transporte Insumo
nodos policluctos FC Punto Union de lıneas de transporte Insumo
oleoductos FC Lınea Lıneas de transporte Insumo
plantas diesel FC Punto Procesamiento de diesel Insumo
poliductos FC Lınea Lıneas de transporte Insumo
puertos FC Punto Puertos Insumo
refinerıas FC Punto Refinerıas Insumo
reservas especiales FC Polıgono Lugares de reservas petroleras Insumo
reservas ley2a59 FC Polıgono Reservas segun ley Insumo
resguardos FC Polıgono Resguardos indıgenas Insumo
resguardos puntos incora FC Punto Resguardos indıgenas Insumo
sal FC Punto Puntos de extraccion de sal Insumo
spnn FC Polıgono Parques nacionales Insumo
subestaciones distr FC Punto Estaciones y derivadas Insumo
subests trans FC Punto Estaciones y derivadas Insumo
subregiones FC Polıgono Limites polıticos Insumo
sustracciones FC Polıgono Zonas de sustraccion Insumo
via cabot FC Lınea Vıas Insumo
via fevia ferry FC Lınea Vıas Insumo
via fluvial FC Lınea Vıas Insumo
via maritima FC Lınea Vıas Insumo
Vias 2 FC Lınea Vıas Insumo
vocacion FC Polıgono Uso Insumo
zonasdvidarrea 1 FC Polıgono Zonas de vida (Uso) Insumo
Tıtulos Octubre 26 2010 Feature Datasets FD informacion minera
tit 26oct2010 FC Polıgono Tıtulos mineros a la fecha Insumo
Tıtulos y solicitudes Dic 2010 Feature Datasets FD informacion minera
Solicitudes FC Polıgono Polıgonos con solicitudes mineras Insumo
Tıtulos FC Polıgono Polıgonos con tıtulos mineras Insumo
Tıtulos y Solicitudes mineras Mayo 20 2009 Feature Datasets FD informacion polıtica
Solicitudes 20 Mayo 2009 FC Polıgono Polıgonos con solicitudes mineras Insumo
Titulos 20 Mayo 2009 FC Polıgono Polıgonos con tıtulos mineras Insumo
Tıtulos y solicitudes mineros Octubre 30 2008 Feature Datasets FD informacion minera
Solicitudes 30 octubre 2008 FC Polıgono Polıgonos con solicitudes mineras Insumo
Titulos 30 octubre 2008 FC Polıgono Polıgonos con tıtulos mineras Insumo
Titulos en paramo Feature Datasets FD informacion limites de paramos Resultados
TitulosAlmorzadero FC Polıgono Limite Paramo Resultados
TitulosBijagual FC Polıgono Limite Paramo Resultados
TitulosGuerrero FC Polıgono Limite Paramo Resultados
TitulosPisba FC Polıgono Limite Paramo Resultados
TitulosRabanal FC Polıgono Limite Paramo Resultados
TitulosSanturban FC Polıgono Limite Paramo Resultados
Titulos expedientes Feature Datasets FD informacion minera
TitulosConExpedien FC Polıgono Tıtulos mineros Insumo
Informacion raster Raster Datasets RC Modelo de elevacion
Dem 90m f RC raster Modelo digital de elevacion 90mts Insumo
Hlshd 90m f RC raster Hillshade a partir de DEM Insumo
35
6.1.2. Segundo proyecto
Tıtulo: Relaciones entre la dinamica del uso del suelo y la climatologıa regional como una
evidencia de cambio climatico en la region de los Andes.
Peso y cantidad de archivos: 50,3 GB (54.114.634.500 bytes), 71.966 archivos, 6.217 carpetas.
Resumen: El Instituto Humboldt, Colciencias y la Universidad Nacional de Colombia cele-
braron el Contrato 501-2008, donde se analizaron elementos que configuran el paisaje; cobertura y
uso del suelo, analisis de series de tiempo de precipitacion, temperatura e ındice normalizado de
vegetacion (NDVI) y experimentos climaticos tanto a nivel del area de estudio como de 22 estacio-
nes climatologicas ubicadas bajo diferentes escenarios de conservacion-transformacion, permitiendo
arrojar que la cobertura y uso del suelo, no presenta cambios considerables durante el perıodo 1975-
2005 y que los cambios detectados en la precipitacion se generan principalmente por su coincidencia
temporal con las fases extremas de variabilidad climatica interanual (eventos El Nino y La Nina).
Se generaron en el proyecto los productos cartograficos correspondientes a los mapas de cambio
de uso y cobertura para los anos 1975, 1985, 1995 y 2005 de los cuales se reformaron en su totalidad
a partir de la construccion de una geodatabase y la reestructuracion de los *.MXD.
El sistema de coordenadas y origen usado fue: MAGNA Colombia Bogota
1. Mapa de cobertura y uso del suelo, ano 1985
2. Mapa de cobertura y uso del suelo, ano 2005
3. Mapa de cambio de cobertura y uso del suelo 1975-1985
4. Mapa de cambio de cobertura y uso del suelo 1985-1992
5. Mapa de cambio de cobertura y uso del suelo 1992-2005
El conjunto de datos asociado al proyecto, se encuentra dividido en 2 carpetas: la primera carpeta,
denominada “Documentos”, contiene informacion fuente para el proyecto, organizada en seis capıtu-
los. Primero: Zona de estudio, Segundo: cobertura y uso del suelo y los resultados sobre: i) dinamica
de cambio en cobertura y uso del suelo para los anos 1975, 1985, 1995 y 2005, Tercero: analisis cli-
matologico y la deteccion de cambios en series de tiempo de precipitacion, temperatura y su relacion
con series de tiempo de NDVI, Cuarto: resultados del Modelo Climatico Regional Precis R©, Quinto:
relaciones entre cambios de uso de la tierra y series de tiempo, Sexto: sıntesis de los resultados y al-
gunas pautas para futuras investigaciones en el tema. La segunda carpeta denominada “Geografico”
se encuentra conformada por tres subcarpetas, “Salidas graficas”, “Archivos MXD”, y “Archivos
36
geograficos”. La primera (Salidas graficas), contiene archivos tipo PDF y JPG correspondientes a
los resultados del proyecto. La segunda (Archivos MXD), contiene los archivos MXD utilizados para
producir las salidas graficas. Finalmente, la subcarpeta denominada “Archivos geograficos”, contiene
toda la informacion geoespacial utilizada como insumo junto con los productos geograficos obtenidos
en el proyecto; se encuentra dividida en dos subcarpetas, “GDB” y “Resultados”. La subcarpeta
“GDB‘” esta conformada por 9 Feature Dataset denominados “DANE”, “Consultores”, “Gusta-
vo Galindo”, “IAvH”, “IDEAM”, “IGAC”, “Temporal”, “UASPNN”, “USGS”. 10 Raster Dataset
denominados “change 75 85 2”, “change 85 92 2”, “change 92 05 2”, “cobertura 1992 areaestudio”,
“hllshd15s”, “mosaic 1975 2 area estudio”, “T1985 cambio”, “T2005 cambio”, “T85 05 cambio1”,
Ademas se incluyen dentro de la geodatabase tablas necesarias para la elaboracion de los MXD
denominadas “BOSQUE”, “final05 dic1”, “gridcode id05”, “paramo”, “PASTOS” , “pasycul” , “se-
cundario”,”STATS BOSQUE” ,”STATS PASTO” ,”” ,”” los siguientes Feature Class pertenecen a
los Feature Dataset anteriormente descritos, Feature Class insumos del proyecto: Departamentos
(DANE), Departamentos, estaciones (IDEAM), Dpts, tipos de drenajes (IGAC), Areas de parques
nacionales (UASPNN), Sudamerica (USGS). Archivos raster Insumos: Hillshade (SRTM), raster
Derivados: Cambios anos 75-85, 85-92, 92-05, Mosaico de area de estudio (1975), Cambio en la zona
de estudio (1985, 2005). Archivos Raster y vector utilizados por consultores insumos y derivados
(Consultores).
A continuacion, en el cuadro 6.6 se elabora una tabla correspondiente al diccionario de datos
que explica de manera sencilla el contenido de la Geodatabase del proyecto:
37
Cuadro 6.6: Geodatabase: Proyecto Colciencias Dinamica del uso del clima
Nivel 1 Nivel 2 Tipo Dato Descripcion Tipo Informacion
DANE Feature Datasets FD Cartografıa Basica Insumo
departamentos FC polıgono Limites polıticos por departamentos Insumo
IAvH Feature Datasets FD lımite de zona de estudio Insumo
Limite3 FC Polıgono Lımite de la zona de estudio Insumo
IDEAM Feature Datasets FD Informacion de estaciones Insumo
Departamentos 1 FC Polıgono Limites polıticos por departamentos Insumo
T22estaciones FC Punto Estaciones climaticas Insumo
IGAC Feature Datasets FD cartografıa base Insumo
Deptos. magna FC Polıgono Limites polıticos por departamentos Insumo
Drenaje doble FC Polıgono Drenaje tipo doble Insumo
Drenaje sencillo FC Polıgono Drenaje tipo sencillo Insumo
UASPNN Feature Datasets FD Informacion polıtica de parques Insumo
Parques area FC Polıgono Lımite municipal Insumo
Parques area magna FC Polıgono Lımite departamental Insumo
USGS Feature Datasets FD informacion polıtica Insumo
Suramerica FC Polıgono Limite continental Insumo
Change 75 85 2 Rasters Datasets Cambio cobertura para la zona de estudio Resultado
Change 85 92 2 Rasters Datasets Cambio cobertura para la zona de estudio Resultado
Change 92 05 2 Rasters Datasets Cambio cobertura para la zona de estudio Resultado
Cobertura 1992 Rasters Datasets Cobertura para la zona de estudio 1992 Resultado
Hlshd15s Rasters Datasets Hillshade a partir de MDE Resultado
Mosaic 1975 2 area estudio Rasters Datasets Mosaico del area de estudio ano 1992 Resultado
T1985 cambio Rasters Datasets Cambio de cobertura en la zona ano 1985 Resultado
T2005 cambio Rasters Datasets Cambio de cobertura en la zona ano 2005 Resultado
T85 05 cambio1 Rasters Datasets Comparacion de cambio anos 1985-2005 Resultado
CAMBIO Table Informacion del cambio de cobertura Resultado
Final05 dic1 Table Informacion del cambio de cobertura Resultado
Gridcode id05 Table Informacion del cambio de cobertura Resultado
Paramo Table Informacion del paramo Resultado
PASTOS Table Informacion de pastos en la zona Resultado
pasycul Table Informacion del cambio de cobertura Resultado
Secundario Table Uso secundario Resultado
STATS BOSQUE Table Informacion de cobertura bosque Resultado
STATS PASTO Table Informacion de cobertura pastos Resultado
6.1.3. Tercer proyecto
Tıtulo: Actualizacion de la cartografıa de los complejos de Paramos a escala 1:100.000.
Peso y cantidad de archivos: 2,18 GB (2.350.094.944 bytes), 2.172 archivos, 19 carpetas.
Resumen: El IAvH articulandose con el plan de desarrollo 2010-2014 establece la importancia de
la proteccion de la biodiversidad y la gestion de riesgo de la perdida de la misma, de tal manera que
38
el instituto realiza la actualizacion cartografica de paramos a la escala exigida por la ley, atendiendo
la necesidad de conservacion y gestion integral de los servicios ecosistemicos prestado por estos
ecosistemas estrategicos, generadores de funciones ecologicas que se retribuyen a la sociedad. En
esta actualizacion se indaga un poco mas sobre diferentes niveles de organizaciones biologicas, como
tambien la creacion de modelos de distribucion geografica de especies y su relacion directa con los
ambientes fısico-bioticos y la configuracion de un entorno socioeconomico caracterısticos de estos
Ecosistemas.
Este proyecto se caracterizo por la completitud de sus datos y elaboracion en concordancia con
los estandares que pide la metodologıa de recuperacion de informacion historica, el contenido del
proyecto no necesito de la estructuracion de sus MXD a partir de la elaboracion de Geodatabases,
inclusive, este motivo a la elaboracion de los diccionarios de datos de las geodatabases de los demas
proyectos, pues se tomo en cuenta la estructura con la que se elaboro la descripcion de las Geodata-
bases de este proyecto, por tal razon en este proyecto se hace mencion de algunos de los detalles de
catalogacion durante la recuperacion de informacion al elaborar el metadato dentro de la aplicacion
web GeoNetwork.
Para la elaboracion del metadato se precisa del esquema adecuado para el contenido del proyecto,
en este caso contiene informacion geografica de tipo vector, razon por la cual se elige el esquema
para datos vector en el ISO 19139, tal como se aprecia en la figura 6.1
Figura 6.1: Conjunto de datos a elegir a partir del contenido. Fuente: Apartir de GeoNetwork
Luego se procede a llenar los campos predefinidos, los cuales estan agrupados dentro de categorıas
que abarcan informacion del dato en categorıas afines, para ejemplificar esto se muestra la figura
6.2, que permite en la aplicacion apreciar por paquetes los datos a diligenciar, ası de esta manera
39
se aprecia como se encuentran conformados los paquetes en la figura 6.3
Figura 6.2: Mestra por paquetes los campos del metadato. Fuente: A partir de GeoNetwork
Figura 6.3: Paquetes del conjunto de datos. fuente: GeoNetwork
Lo que resta, se encuentra dentro de la informacion recolectada del proyecto a partir de cada
una de las fuentes que este presente, incluyendo informacion jurıdica, cartografica y documental del
mismo, con la cual se llenan los campos que especifica el catalogador, finalmente, se visualizara de
la siguiente manera figura 6.4, en donde se apreciara el contenido con los campos destacados para
que el consumidor pueda acceder a los datos de interes
Figura 6.4: Visualizacion del proyecto en GeoNetwork. Fuente: GeoNetwork
los campos se muestran para dar informacion a quien se encuentra interesado en el acceso a los
datos, tales como: informacion espacial de la ubicacion, palabras clave o elaboracion del metadato
y autores, entre otros. en la figura 6.5 a la figura 6.7 se muestra apartes del contenido del metadato
para este proyecto.
40
Figura 6.5: Creacion y muestra grafica del archivo: Fuente: GeoNetwork
Figura 6.6: Ubicacion del proyecto con su respectivo sistema de referencia: Fuente: GeoNetwork
Figura 6.7: Palabras clave del proyecto. Fuente: GeoNetwork
6.1.4. Cuarto proyecto
Tıtulo: Revision, depuracion y elaboracion de informacion cartografica correspondiente al pro-
yecto paramo andino en Colombia, escala 1:100.000, 2012.
Peso y cantidad de archivos: 239 MB (251.212.163 bytes), 981 archivos, 39 carpetas.
Resumen: El proyecto “Paramos Andinos PPA” es liderado por el Consorcio para el Desarrollo
Sostenible de la Ecoregion Andina (CONDESAN) con el apoyo del El Instituto Humboldt y otras
entidades de orden internacional .Proyecto que focalizo sus acciones e intervenciones en cuatro
41
areas pilotos: paramos de Belmira, Chiles, Duende y Rabanal y que busco generar conocimiento,
desarrollo de polıticas y mecanismos autonomos para el manejo sostenible de cada paramo, ademas
de intentar superar las mayores barreras que se interponen para la conservacion de la biodiversidad y
para salvaguardar los servicios hidrologicos y socio-ambientales que ofrecen cada uno de los paramos
andinos, incluidos los del presente estudio.
En este proyecto se hace un recuento de los resultados en el proceso de estructuracion por
carpetas, el contenido original del proyecto se encuentra organizado por carpetas como se muestra
en la figura 6.8, con ayuda del CMD se muestra el contenido de los directorios y su peso en el disco
figura 6.9.
Figura 6.8: Organizacion original del proyecto: Fuente: Elaboracion propia
Figura 6.9: Listado del contenido de la carpeta del proyecto. Fuente: Elaboracion propia.
Con la ayuda de un programa tipo freeware conocido como “DoubleKiller” se realiza un proceso
automatico de inspeccion dentro de los archivos para encontrar duplicados, existe cierta tolerancia
dentro de estos resultados gracias a que varios de los archivos que por ejemplo presentan las Geo-
databases tienen una estructura similar, razon por la cual este tipo de archivos son prescindibles
dentro de este apartado. El resultado confirmo que los unicos archivos con problemas de duplicidad
eran los que se encontraban dentro de la geodatabase, (cabe aclararse que en muchos de los casos el
software realiza la comparacion no solo sobre el nombre del archivo, sino que tambien sobre el peso
y fechas de creacion).
42
Figura 6.10: Resultado de inspeccion en carpeta contendora. Fuente: Software “DoubleKiller”
El resultado final de la estructura de carpeta es el siguiente (ver figura 6.11), donde la carpeta
“Documentos” contiene el archivo informe que presenta los pormenores del estudio, la carpeta “Re-
ferencias” se eliminara y contiene la licencia de uso del shape de paramos. Por ultimo, la carpeta
geografica contiene la informacion de productos geograficos, que se explican a continuacion (ver
figura 6.12).
Figura 6.11: Forma de estructuracion. Fuente elaboracion propia, a partir de estructura sugerida por (Suarez, 2016)
Figura 6.12: Forma de estructuracion del conjunto de datos final. Fuente elaboracion propia, a partir de estructura
sugerida por (Suarez, 2016)
6.1.5. Quinto proyecto
Tıtulo: Delimitacion probabilıstica del paramo de Santurban y areas aledanas similares, ubica-
cion de proyecto Angosturas-Greystar.
Peso y cantidad de archivos: 4,37 GB (4.698.267.186 bytes), 1.629 archivos, 104 carpetas.
Resumen: El Instituto de Investigacion de Recursos Biologicos Alexander von Humboldt IAvH
y el Ministerio de Ambiente y Desarrollo Sostenible de la Republica de Colombia (MAVDT), 2010
43
realizan el proyecto con la informacion existente sobre el area de estudio y suministrada al MAVDT
por las corporaciones Corporacion autonoma regional para a defensa de la meseta de Bucaramanga
(CDMB) y Corporacion autonoma regional de Norte de Santander (CORPONOR), se planteo la
delimitacion del paramo Santurban y areas de caracterısticas similares aledanas. Para la delimitacion
mas probable de dicho complejo paramuno se interpreto e identifico la vegetacion caracterıstica
de estos ecosistemas y los rasgos fısicos a traves del modelo de Regresion Logıstica Multiple, se
arrojaron porcentajes probabilısticos que se compararon con el Atlas de Paramo de Colombia (IAvH,
2007) y con la delimitacion de paramos realizada a nivel nacional del 2007, la delimitacion de
CORPONOR,CDMB en donde se obtienen algunas areas en comun como tambien poca relacion
con antiguas delimitaciones. Esta investigacion permitio determinar la ubicacion del proyecto minero
Angostura localizado en el 1-10% de probabilidad de vegetacion paramuna.
La inspeccion de los archivos documentales permitio, conocer cuales archivos se deben prescindir,
entre ellos la informacion cartografica que se puede estructurar dentro de la geodatabase, de esta
manera el estudio presenta los siguientes anexos en materia cartografica, los cuales sirven de base
para su reestructuracion y depuracion.
ANEXO 1: Cartografıa digital en formato shape (*shp), *mxd y salidas graficas (*png).
ANEXO 2: Capas cartograficas para cargar al visor web GEOSiB (Capas GEOVISOR).
ANEXO 2: Capas cartograficas para cargar al visor web GEOSiB (Capas GEOVISOR).
ANEXO 3: Metadatos (en formato *xml).
ANEXO 4: Base de Datos Geografica (BDG)
Anexo 4.1: Geodatabase (Cartografıa PPA.mdb).
Anexo 4.2: Ficha tecnica de los feature class.
ANEXO 5: Revision de cartografıa de areas de paramos colombianas
Anexo 5.1: Listado de la informacion cartografica total revisada (Listado Paramos Colombia).
Anexo 5.2: Listado de la informacion cartografica depurada para las areas piloto (Listado Para-
mos Pilotos).
Anexo 5.3: Mapas de cubrimiento de la informacion cartografica revisada (Mapas Cubrimiento
Informacion).
44
Este proyecto presenta un total de 34 proyectos mxd, en el siguiente cuadro se presentan un
proyecto por cada paramo, por cuestiones de resumen, los demas se encuentran dentro de la carpeta
Archivos MXD, y su restructuracion, algunos de estos por no mencionar la mayorıa tienen precar-
gados shapefiles que no existen, y que desde el inicio no son utilizados, ya que no se encuentran
seleccionados como opcion de muestra (capas apagadas). Por tales razones, se decidio presentar
esta informacion como valida, ya que los shapefiles que se encontraban activos (capas encendidas)
para cada proyecto, estaban disponibles dentro de la informacion concerniente al proyecto, es decir
existen. En el cuadro 6.7 se muestra los MXD reestructurados para este proyecto.
45
Cuadro 6.7: Muestra de proyectos MXD reestructurados. Fuente: Elaboracion propia a partir de contenido del proyecto
Proyecto Mxd Muestra grafica
Paramo Belimira Base General
Paramo Chiles Areas Propuestas Restauracion
Paramo Duende Veredas Agroecologia
Paramo Rabanal HMP
46
7. Conclusiones
Este apartado es la respuesta al plan de trabajo trazado, donde se presentan de forma general
los trabajos realizados y alcances logrados, cada tarea tomo un tiempo de trabajo que estuvo pre-
supuestado, que en concreto acumula 4 meses de trabajo. A continuacion, se presentan las tareas
logradas:
1. Se realizo el diagnostico de cinco proyectos, con la depuracion de la informacion de cada uno,
a traves de la eliminacion de archivos corruptos duplicados o no concernientes al proyecto
documentado; durante el desarrollo de esta tarea, se documento el alcance del proyecto a
traves de la inspeccion de los archivos de texto con las implicaciones pertinentes de cada uno,
tarea que facilito el conocimiento de los procesos realizados dentro de la investigacion, y que
finalmente concedio tratar la informacion de tipo geoespacial de manera optima en acuerdo
con los lineamientos de cada proyecto, de esta manera se realizaron geodatabases, junto con la
estructuracion de las salidas graficas en formato tipo MXD para cada proyecto, permitiendo
ası el orden de la informacion en forma estructurada.
2. La I2D sugirio una estructura de almacenamiento en carpetas de los proyectos a recuperar, se
acogio dicha estructura. Ahora teniendo en cuenta la previa depuracion realizada y el contenido
de cada uno, con este procesos o tarea se busco estandarizar cada proyecto, y ası permitir al
IAvH disponer de la informacion de manera amplia al tener separados, los tipos de informacion
de cada proyecto. Por tales motivos, se describe como estan organizadas las carpetas, para
tener claridad en este punto (Ver figura 5.4) La carpeta contenedora inicial, tiene un ID y
el nombre del proyecto en cuestion, luego, se muestra por carpetas de nuevo organizados
por temas el contenido de cada proyecto, ası, existe una carpeta para cada uno: Biologico,
Geografico, Socioeconomico, Documentos y referencias. La carpeta Geografico concierne a
este trabajo, por las caracterısticas intrınsecas del componente geografico en los proyectos
susceptibles de recuperacion, dentro de esta carpeta se desglosan en subcarpetas los contenidos
en: Archivos MXD, Salidas Graficas y Archivos Geograficos, donde en dicha carpeta se incluyen
las fuentes y resultados del proyecto.
3. En el catalogador GeoNetwork, se publican los proyectos conforme a la norma ISO 19139 (res-
pecto de la implementacion de esquemas dentro del catalogador); la informacion documental
es de gran ayuda pues permite estructurar los campos que define el esquema del catalogador
47
para el metadato, de esta manera se especifican cada uno de los componentes determinan-
tes que conforman el archivo que describe el metadato que se ha elaborado, incluyendo las
limitantes si existen en el proyecto (cuestiones de derechos de autor) y la integridad de los
datos, las cuales han sido revisadas previamente por el profesional a cargo de los datos que se
publican dentro del catalogador. El proceso detallado se explica en la seccion de Resultados
obtenidos y tambien se anexan los links de acceso a los metadatos creados por cada proyecto,
donde finalmente queda publicada la informacion.
4. Por ultimo se elaboraron cinco informes tecnicos, uno por cada proyecto recuperado, en ellos
se muestra el proceso desarrollado y la metodologıa aplicada, junto con los detalles de cada
fase de recuperacion, incluyendo muestras graficas y los aportes hechos para la mejora de la
presentacion de informacion espacial. En un CD anexo se encuentran dichos documentos.
48
8. Recomendaciones
El proceso metodologico de recuperacion historica se construyo en paralelo mientras se desarro-
llaba la pasantıa con el IAvH, por tales motivos sobre la marcha se ajustaron algunos de los procesos
de recuperacion de informacion con caracter geografico, no solo por ser aportes del pasante, sino
tambien por razones pertinentes del grupo de trabajo de la I2D quienes elaboraron la metodologıa;
indiferentemente de esta situacion, mejorar la calidad de los archivos cartograficos sı dicha tarea
es pertinente debe ser la premisa de quien se encuentre realizando la recuperacion. Esto implica
la elaboracion de geodatabases, conexion de archivos MXD a traves de la misma geodatabase y
estandarizacion de los sistemas de coordenadas de los shapefiles.
La gran cantidad de archivos presentes en los repositorios institucionales, hicieron pertinente la
realizacion de un inventario, para este proyecto se recibieron los archivos resultado de dicho inven-
tario; en algunos casos al copiarse los datos se danaron o la informacion necesito de retoques para
la completitud los archivos, razon por la cual se hizo necesario acceder de nuevo a los repositorios,
resulta mas eficiente para el documentador (papel que se realizo en la pasantıa), tener acceso di-
recto a los repositorios para indagar por los datos faltantes, esta tarea agilizarıa la catalogacion de
los proyectos, inclusive, permitirıa en algunos casos recuperar proyectos que se han considerado en
categorıas no recuperables, al poder encontrar los archivos faltantes si llegasen a existir.
En el proceso de depuracion de los archivos, los datos considerados no pertinentes al estudio
o base, son eliminados para reducir el peso en disco de los proyectos, muchos de estos archivos
corresponden a imagenes de satelite o radar, que son parte del proceso de elaboracion cartografica
de los proyectos, mas no son componentes principales de los resultados y en muchos de los casos
son duplicados, para poder estar seguros de la eliminacion responsable de estos archivos se propone
recopilarlos en anexos que permitan hacer una comparacion real, sobre los datos que posee el instituto
y ası verificar si realmente estos datos son duplicados y por lo tanto prescindibles en los proyectos.
De forma general la metodologıa de recuperacion de la informacion historica del IAvH, esta
pensada para fortalecer los procesos de acopio de informacion antigua, y tambien estandarizar los
procesos actuales y venideros de documentacion de la informacion dentro de los catalogos institu-
cionales. Por parte del componente geografico, se recomienda dejar como precedente la elaboracion
de diccionarios de datos que expliquen de forma sencilla la composicion de los datos shapefiles y
geodatabases, esto permite la recuperacion de archivos faltantes de forma mas rapida y tambien
la aclaracion para los usuarios de la informacion al permitir acceder de manera mas clara a los
49
contenidos cartograficos que generan los proyectos.
Fue indiscutible el gran aporte realizado por el grupo de trabajo de la I2D, para la conformacion
de los metadatos en el catalogador GeoNetwork. Sin desmeritar su labor resultarıa mas eficiente,
inclusive partiendo de la idea que, dentro del mismo catalogador, cada uno de los campos a diligenciar
tiene una ayuda de complemento, es necesario la elaboracion de un documento guıa para completar
de forma eficiente los datos que son obligados para la elaboracion del metadato, esto reducirıa el
tiempo de elaboracion de los mismos y descongestionarıa las revisiones por parte del grupo encargado
de aprobar los metadatos, ya que existirıa un mejor nivel de incorporacion de los campos requeridos.
50
9. Anexos
En este aparte, se relacionan algunas de las anotaciones o resultados primordiales para compren-
der el proyecto elaborado, por tales motivos, se han organizado los anexos de la siguiente manera,
los cuales estan en un CD anexo al proyecto:
9.0.1. Anexo: Corresponde a los informes tecnicos elaborados para dar cumplimiento
a los resultados de cada proyecto d recuperacion historica.
Dentro de estos informes tecnicos se agregan los diccionarios de datos elaborados para las geo-
databases creadas, en ellas se explica el contenido de las mismas. A continuacion se mencionan los
titulos de cada uno de los informes:
1er. Informe Proyecto Paramo Andino
2do. Informe Proyecto Colciencias dinamica uso clima
3er. Informe Proyecto Actualizacion de la cartografia de los complejos de Paramos
4to. Informe Proyecto Delimitacion probabilıstica del paramo
5to. Informe Proyecto Paramos Andinos PPA
Los demas anexos se encuentran dentro de este documento.
51
Cuadro 9.1: Variables descriptivas de proyectos de informacion. Fuente: (Suarez, 2016)
N◦ Variable
1 ID
2 Fuente
3 Ano
4 Titulo
5 Autor/Contratista
6 Otros Autores/Contratistas
7 Numero de Investigadores
8 Institucion Aliada
9 Numero de Instituciones Aliadas
10 Convenio
11 Cuantıa
12 Palabras Clave
13 Descripcion
14 Departamento
15 Municipio
16 Sitio de Interes
17 Numero de Visualizaciones
18 Categorıa de Recuperacion
52
Cuadro 9.2: Variables de priorizacion de productos de informacion. Fuente: (Suarez, 2016)
N◦ Variables de Priorizacion Variables descriptivas relacionadas Descripcion Tipo
1 P Ano Ano Se refiere al ano en el que se desa-
rrollo del proyecto
Booleano
2 P Convenio Convenio Indica si el producto fue desarrolla-
da bajo un convenio interadminis-
trativo
Booleano
3 P Localizacion Departamento,
Municipio,
Sitio de
Interes
Se refiere a la localizacion geografica
en la que se desarrollo el producto,
puede estar definida por el nombre
de departamentos, municipios o zo-
nas de interes involucradas e indica
interes sobre una zona en particular
Booleano
4 P Tema Palabras
Clave
Aplica para tematicas de las que se
tiene un mayor interes de recupe-
racion de datos Ej: ecosistemas de
paramo, humedales, areas protegi-
das
Booleano
5 P Plan
Operativo
Anual
Plan Ope-
rativo
Anual
Indica si el proyecto fue incluido en
el Plan Operativo Anual (POA) del
ano correspondiente
Booleano
6 P Categorıa
de Recupe-
racion
Categorıa
de Recupe-
racion
Hace referencia a la categorıa con
que fue clasificado el producto en los
inventarios de datos adelantados por
la I2D
Booleano
7 P Institucion
Aliada
Institucion
Aliada
Se refiere al numero de instituciones
que participaron en el desarrollo del
producto
Discretizado
8 P Cuantıa Cuantıa Valor del contrato en pesos colom-
bianos
Discretizado
9 P Numero
de investi-
gadores
Numero de
investiga-
dores
Se refiere al numero de investigado-
res que participaron en el desarrollo
de la publicacion
Discretizado
10 P Numero
de Visuali-
zaciones
Numero de
Visualiza-
ciones
Se refiere al numero de visualizacio-
nes segun las estadısticas generadas
en el Repositorio Institucional Hum-
boldt Digital
Discretizado
53
10. Referencias
AENOR. (2014). AENOR: Norma UNE-EN ISO 19115-1:2014 [website]. Recuperado el 8 de fe-
brero de 2017, a partir de http://www.aenor.es /aenor/normas/normas/ fichanorma.asp?tipo=
N& codigo= N0054201
Bruce, P. C., Patel, N. R., Shmueli, G., & Stephens, M. L. (2017). Data mining for business
analytics: concepts, techniques, and applications in JMP Pro. John Wiley & Sons.
Dessers, E. (2014). Spatial Data Infrastructures at Work: Analysing the Spatial Enablement of
Public Sector Processes. Leuven University Press.
Frederick, D. (2015). Managing e: Book Metadata in Academic Libraries. Taming the Tiger
(1a ed.). Chandos Publishing.
Gartner, R. (2016). Metadata: Shaping Knowledge from Antiquity to the Semantic Web (1a
ed.). Springer International Publishing.
IAvH. (2014). Infraestructura Institucional de Datos (I2D). Recuperado a partir de
http://www.humboldt.org.co/es/servicios/infraestructura-institucional-de-datos
IPT. (2016). Manual de usuario herramienta IPT, version 2.2. Recuperado a partir de https:
//github.com/gbif/ipt
Lazarevic, A., Kumar, V., & Srivastava, J. (2005). Intrusion Detection: A Survey. En V.
Kumar, J. Srivastava, & A. Lazarevic (Eds.), Managing Cyber Threats (pp. 19?78). Springer
US.
Lin, X., Misic, J., Shen, X., & Yu, S. (2016). Networking for big data. CRC Press.
Longhorn, R. A., & Blakemore, M. (2007). Geographic Information: Value, Pricing, Produc-
tion, and Consumption. Boca Raton: CRC Press.
Lopez-Vazquez, M. A. B.-P. y C. M. (2012). Fundamentos de las Infraestructuras de Datos
Espaciales (IDE). Madrid: UPM Press.
Maimon, O., (auth.), L. R., Maimon, O., & (eds.), L. R. (2010). Data Mining and Knowledge
Discovery Handbook (2a ed.). Springer US.
54
Pereira, R. T. (2007). Retos que afrontan los lenguajes derivados de SGML, para su uso en
Sistemas de informacion geografico Web (WEBSIG).
Rettig, A. J., Beck, R. A., & Rettig, T. J. (2011). An Open Geospatial Consortium Standards-
based Arctic Climatology Sensor Network Prototype. In Proceedings of the 2Nd International
Conference on Computing for Geospatial Research & Applications (pp. 12:1-12:9). New York,
NY, USA: ACM. http://doi.org/10.1145/1999320.1999332
Sanchez, A., Nogueras, J., & Ballari, D. (2008). Normas sobre metadatos (ISO19115, ISO19115-
2, ISO19139, ISO 15836). Mapping, 123, 75?91.
Silberschatz, A., Korth, H. F., & Sudarshan, S. (2006). Fundamentos de bases de datos.
McGraw-Hill.
SiaC. (2015). El Sistema de Informacion Ambiental de Colombia. Recuperado a partir de
http://www.siac.gov.co/index.html
SiB. (2012, octubre). Estandares en informacion sobre biodiversidad. Bogota. Recuperado a
partir de http://www.recibio.net/wp-content/uploads/2012/02/Estandares-DV.pdf
SiB, C. (2015). Sistema de Informacion sobre Biodiversidad en Colombia. Recuperado a partir
de http://www.sibcolombia.net/
Suarez, A. (2016). Metodologıa para la recuperacion de informacion historica del instituto
Humboldt. IAvH.
Suthaharan, S. (2016). Machine Learning Models and Algorithms for Big Data Classification:
Thinking with Examples for Effective Learning (1a ed.). Springer US.
TDWG, B. I. S.-, & DWC, D. C. T. (2015). Darwin Core. Recuperado 29 de noviembre de
2016, a partir de http://rs.tdwg.org/dwc/
Villie Morocho, & Nataly Naranjo. (2016, junio). GeoNetwork como parte del proyecto: In-
tegracion de fuentes de datos Espaciales y monitoreo ambiental con UAV para la toma de
decisiones en Areas pobladas de Areas protegidas de las Islas Galapagos. Universidad de Cuen-
ca. Recuperado a partir de http://biblioteca.wwf.org.ec/handle/123456789/363
Vitturini, M., & Fillottrani, P. (2013). Interoperabilidad y Estandares de Datos para Informa-
cion Geografica. Universidad Nacional del Sur, Buenos Aires, Argentina.
55
Williamson, I. P., Rajabifard, A., & Feeney, M.-E. F. (Eds.). (2003). Developing Spatial Data
Infrastructures: From Concept to Reality (1 edition). London; New York: CRC Press.
56