GUÍA METODOLÓGICA PARA LA APERTURA DE DATOSDE ALTO VALOR DEMOCRÁTICO, SOCIAL Y ECONÓMICO
1.- Introducción – porqué, qué son datos abiertos, los portales y el uso de datos abiertos
2.- Estrategia
• Identificación, priorización y selección de datos para su apertura
• Responsables
3.- Tratamiento y preparación
• Estructura de datos de cada conjunto de datos
• Catalogación
• Formatos
• Condiciones de reutilización
4.- Infraestructura tecnológica – extracción, preparación y publicación
5.- Promoción – plan de formación y difusión
6.- Evaluación – aspectos a comprobar y mejorar
7.- Conclusiones – protocolo de publicación de datos
Índice
Los datos del sector público constituyen un valioso activo para la
promoción económica y el empoderamiento social por lo que deben
articularse mecanismos para detectar necesidades, entre otras:
Transparencia y control democrático
Participación
Mejora o creación de nuevos productos y servicios
Innovación
Mejora la eficiencia de los servicios ofrecidos por el gobierno
Mejora la eficacia de los servicios ofrecidos por el gobierno
Medición del impacto de políticas
Nuevos conocimientos a partir de fuentes de datos combinadas y
patrones en grandes volúmenes de datos
1.1- porqué datos abiertos
1.2 - qué son datos abiertos
“Los datos abiertos son datos quepueden ser utilizados, reutilizados yredistribuidos libremente por cualquierpersona, y que se encuentran sujetos,cuando más, al requerimiento deatribución y de compartirse de la mismamanera en que aparecen.”
Nota: es información no personal, es decir, datos que no contienen información sobre individuos específicos.
1.3 - los portales de datos abiertos
Portal datos abiertos (catálogo) Detalle un conjunto de datos
Fichero de datos
1.4 - el uso de los datos abiertos
Google Maps usa datosabiertos del IGN
Los datos abiertos de EmpresaMunicipal de Transportes deMadrid han servido para queterceros desarrollen 15aplicaciones
En el Portal de datos abiertosnacional hay 200 aplicaciones quereutilizan datos, de las temáticasque se muestran
Periodismo de datos. Muchasnoticias se basan en análisis ovisualizaciones de datosabiertos
1.5- los datos abiertos generan actividad económica
Informe del SectorInfomediario(“Empresasque analizan y trataninformación del sector públicoy/o privado para crear productosde valor añadido destinados aterceras empresas o ciudadaníaen general, sirviendo,entre otras funciones, para latoma eficaz de decisiones”.
ASEDIE 2017
1.6 - cobertura legal e impulso
✓ Legal• Directiva 2013/37/UE (Anterior Directiva 2003/98/CE). Actualmente está en revisión• INSPIRE• Ley 37/2007 sobre Reutilización de la información del sector público• Ley 18/2015 por la que se modifica la Ley 37/2007• RD 1495/2011 sobre Reutilización de la información del sector público• Norma Técnica de Interoperabilidad de reutilización de recursos de la información • Ley 19/2013 de Transparencia, Acceso a la información púbica y Buen gobierno• Ley 12/2014 de transparencia y acceso a la información pública - Canarias
España es líder en Europa
✓ Impulso153 Iniciativas en España
Portal Nacional
Portal Europeo
2.1 - identificación de posibles datos
Se trata de encontrar la información relevante para la ciudadanía, para
las empresas y la propia administración.
2.2 – criterios de priorización
2.3 - selección de conjuntos de datos
Basándose en lo que hay (CAC y otras
CCAA), estudios de datasets de mayor
interés general, estimación de mayor interés
por ser Canarias, se propondría un listado de
20 datasets para hacer el análisis detallado
2.4 - responsables de datos
• Generación, publicación y actualización de
datos
• Cambios, mejoras en los servicios o
herramientas de acceso y condiciones de
reutilización
• Acciones formativas y divulgativas, tanto
internas como externas
• Gestión de las peticiones de datos y
sugerencias
• Nuevos servicios que hagan uso de los
conjuntos de datos publicados
Responsable del
cumplimiento con
la Política de Datos
Abiertos
Grupo de trabajo
asociado al responsable:
Pequeño grupo de
personas que puedan
ayudar a impulsar la
apertura de datos, bien
porque ya tengan
experiencia previa, o
porque gestionen muchos
datos, …
3.1 – estructura de datos de cada conjunto de datos
Objetivo – Asegurar la calidad, ya que poner datos abiertos no es solo “subir un
fichero”. Por cada conjunto de datos que se vaya a publicar, conviene hacer una
ficha que facilita mucho la gestión interna (criterios uniformes globales) y su uso a
los reutilizadores.
Ficha de estructura del conjunto de datos
El contenido incluye la definición de cada campo y para rellenarlo hace falta
entrar en la información y evaluarla. Solamente esta tarea de tener que describir
los campos y sus valores ya va a servir de evaluación de calidad, y por eso es
importante hacer esta ficha.
3.2 - catalogación
Objetivo - facilitar la localización y reconocimiento de los datos, ofreciendo a
los reutilizadores una ficha descriptiva (metadatos) con información acerca de
su naturaleza, disponibilidad, actualización, localización, condiciones de uso y
tasas.
Metadatos de los conjunto de datos:
Identificador, Descripción, Categoría, Autor,
Idioma, Audiencia, Palabras Clave, Ámbito
Geográfico
Metadatos de los recursos: Fechas (Ultima
Actualización, Inicio, Fin), Frecuencia
Actualización, Nº Versión, Formato/s, Tamaño,
Esquema, Documentación, Licencia, Etiquetas,
Responsable.
- Estándar es DCAT-AP, sector público en Europa
y NTI en España.
3.3 - formatos
Existen diversos tipos pero se recomienda seguir los
siguientes formatos de publicación:
Datos tabulares, se recomienda el formato CSV, en los
cuales los valores o cadenas de caracteres que conforman
los datos, se acomodan en filas, separadas por saltos de
línea y columnas, separadas por comas.
Datos estructurados, se recomienda el uso de los
formatos JSON o XML cuya especificación se encuentra
disponible abiertamente.
Datos semánticos, se recomienda el formato JSON-LD o
RDF, donde asociado a los datos están los metadatos de
definición y control de los datos (tipo, unidad de medida, …)
basado en vocabularios estándares
Datos espaciales se recomienda el uso de los formatos SHP, GeoJSON, o KML.
Documentos de texto, se recomienda el uso del formato ODT. Dicho formato forma parte del
estándar ODF (del inglés, Open Document File Format).
3.4 – condiciones de reutilización
Es muy importante conocer las condiciones de uso o términos de reutilización.
Existe una gran aceptación de las licencias CC-BY (Creative Commons) porque
contienen las mejores condiciones de uso respetando la propiedad
intelectual. Son las más extendidas. Sin embargo, las condiciones de uso
que establece la Ley de Reutilización 37/2007, son muy completas, y
abordan un problema que no contemplan las licencias CC-BY, el tratamiento
de información personal e información anonimizada.
Algunas de ellas:
Que el contenido de la información, incluyendo sus metadatos, no sea alterado.
Que no se desnaturalice el sentido de la información.
Que se cite la fuente.
Que se mencione la fecha de la última actualización.
Cuando la información contenga datos de carácter personal, la finalidad o finalidades
concretas para las que es posible la reutilización futura de los datos.
Cuando la información, aun siendo facilitada de forma disociada, contuviera elementos
suficientes que pudieran permitir la identificación de los interesados en el proceso de
reutilización, la prohibición de revertir el procedimiento de disociación mediante la
adición de nuevos datos obtenidos de otras fuentes.
4.1 - Infraestructura tecnológica
Debe cubrir las necesidades en la automatización de la extracción,
preparación y generación de datos:
1.- Localizar e identificar las fuentes de datos
2.- Depurar los datos con el objetivo de paliar los problemas de calidad y
fiabilidad que hayan sido detectados teniendo en cuenta: Calidad - Los datos de calidad son aquellos que pueden entenderse y usarse por las
personas
Propiedad intelectual - Comprobar los derechos de propiedad intelectual o industrial
Datos de carácter personal - Proceso de anonimización, consistente en la adaptación
de datos de manera que los individuos no pueden ser identificados a partir de ellos
Herramientas
Limpieza de datos. Herramientas de extracción, transformación y carga.
Visualizadores para representaciones gráficas que facilitan el entendimiento
de la información publicada. Anonimización de los datos.
Generación de ficheros en formatos reutilizables - CSV, XML. JSON, …
Cumpliendo con los estándares de modelos de datos, metadatos,
interoperabilidad y seguridad.
Componentes de un portal de datos abiertos
1.- Catálogo de datos: así como la federación del mismo en Datos.gob.es, y la opción de
exportación, por lo menos a DCAT y CSV(21) .
2.- Buscador simple: basado en palabras clave.
3.- Filtrado: por sectores de la Notas Técnicas de Interoperabilidad (NTI), por formatos,
por frecuencia de actualización, etc.
4.- Condiciones de uso o términos de reutilización.
5.- Medio de contacto y/o ayuda técnica.
6.- Colaboración ciudadana: nuevos conjuntos de datos para publicar, aplicaciones
realizadas por reutilizadores/as, registro de reutilizadores.
7.- Servicios Interfaz de Programación de Aplicaciones (API).
Y además:
- Servicio SPARQL(22) (lenguaje estándar de consultas para la web semántica).
- Herramientas de visualización.
PlataformasBúsqueda sobre los propios datos publicados. Facilidades para la visualización de datos.
Visualizaciones con filtros geográficos de los contenidos visualizados. La posibilidad de
que los usuarios puedan crear sin necesidad de conocimientos técnicos. Recopilación
automatizada de datos. Generación de cuadros básicos de mando a partir de los
datasets incluidos
4.2 - infraestructura tecnológica
5.- plan de formación y difusión
Formación:
• personal técnico que trabaja con datos
• ciudadanía
• reutilizadores
Plan de difusión
• interno de los datos abiertos
• reutilización de datos abiertos
• externo de los datos abiertos
Norma UNE 178301 Ciudades Inteligentes. Datos abiertos. Es aplicable a CCAA
6. - indicadores de medición de datos abiertos
6.- indicadores de medición de datos abiertos
La Iteración 0, se corresponde con la evaluación de la situación actual que
permite saber donde se está y donde se puede llegar. Esto servirá para que
en el futuro se puedan planificar las actuaciones para mejorar la iniciativa de
datos abiertos de forma ordenada
6.- indicadores de medición de datos abiertos
Ejemplo de evaluación inicial
Valor conseguido: 348
Valor Total 0-200
201-400
401-600
601-800
801-1000
Indicador de datos abiertos
1 2 3 4 5
7. - conclusiones: protocolo para la publicación
Basado en
• Norma UNE 178301 Ciudades
Inteligentes. Datos Abiertos
• Guía FEMP Datos Abiertos
1. Identificación
Conjuntos de datos a abrir.
Quién: departamentos y organismos CAC, ciudadanos,
empresas y grupos de interés.
2. Priorización
Determinar orden incorporación o por publicación
programada.
Quién: departamentos y organismos CAC.
3. Conceptualización del recurso
Identificación fuentes de datos.
Campos que constituirán el recurso.
Aplicación de buenas prácticas en la definición.
Formatos: niveles open data.
Frecuencia actualización.
Quién: departamentos y organismos CAC.
4. Generación del recurso
Generación del fichero, APIS´s dinámicas, etc.
Creación proceso publicación (automático, URL directo
servidor, manual).
Quién: departamentos y organismos CAC.
5. Publicación en el Portal
Alta primera vez en el backoffice.
Quién: departamentos y organismos CAC.
6. Alta en el portal
Quién: departamento responsable datos abiertos.
7. Mantenimiento backoffice
Quién: departamentos y organismos CAC.
8. Publicidad
Quién: departamentos y organismos CAC / comunicación