introducción a la publicación de datos - eduardo poggi

15
Introducción a la Publicación de Datos 1 Eduardo Poggi Las iniciativas relacionadas al Open Data o apertura de datos por parte de las administraciones públicas son novedosas en su aplicación masiva a pesar de ser un tema discutido desde hace muchas décadas. Desde principios del siglo XXI su aplicación se ha vuelto más activa, sin embargo sigue siendo una práctica incipiente. Por lo tanto, el tema se encuentra aún en debate y las conceptualizaciones, definiciones y prácticas asociadas son creadas y modificadas continuamente debiendo considerarse una disciplina en formación. Esto va sucediendo al mismo tiempo que se analizan los efectos -deseados o no- de su aplicación y se va comprendiendo la ecuación de costo/beneficio asociada. Lo que se incluye a continuación es un resumen de lo considerado como – actualmente- establecido sin la pretensión de ser ni completo ni correcto, además de estar sesgado por una mirada desde la gestión de información. Antecedentes Que los Estados transparenten su accionar y muestren la información que gestionan de sus respectivas sociedades no es un requerimiento nuevo, pero en los últimos años ha resurgido alcanzado también por el proceso de informatización y digitalización masivo que ha afectado tanto a las administraciones como a las sociedades. El Open Data, como parte del Open Government, es una postura que exige que los datos administrados por los Estados sean expuestos ante la sociedad. Exceptuando a algunos datos que pueden estar protegidos por condiciones especiales, Open Data propone que todo lo demás sea concebido como información pública y, por lo tanto publicado sin restricciones. Esta demanda se opone a la tradicional postura de los organismos públicos de mantener para sí los datos que ha recopilado, aplicando un principio de reserva implícita que se denomina (OEA, 2010) “oscuridad por defecto“. 2 Según José Manuel Alonso (OEA, 2010), el actual “re-descubrimiento” del valor de los datos en poder de las administraciones públicas se podría haber dado por la confluencia de los siguientes factores: (a) una sociedad más comunicada y acostumbrada a informarse online y que ha ido perdiendo la confianza en sus representantes democráticamente elegidos; (b) una democratización de las fuentes de información como los blogs, y 1 Este documento está basado en una versión anterior elaborada por el autor para el Curso de Implementación de la Carta Iberoamericana de Gobierno Electrónico realizado por el INAP de Argentina y el CLAD, Edición 2011. 2 Este fenómeno también ocurre intra-estado, cuando los organismos no ponen en disponibilidad sus datos a otros organismos ignorando el principio de simplificación registral base de la interoperabilidad. Según estudios realizados en Argentina (AR/SGP/FRRII, 2008) este fenómeno se debe a una gran cantidad de barreras de tipo legal, organizacional, tecnológico y, especialmente, cultural.

Upload: catedra-libre-gobierno-abierto

Post on 28-Jul-2016

215 views

Category:

Documents


3 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Introducción a la publicación de datos - Eduardo Poggi

Introducción a la Publicación de Datos1

Eduardo PoggiLas iniciativas relacionadas al Open Data o apertura de datos por parte de las administraciones públicas son novedosas en su aplicación masiva a pesar de ser un tema discutido desde hace muchas décadas. Desde principios del siglo XXI su aplicación se ha vuelto más activa, sin embargo sigue siendo una práctica incipiente. Por lo tanto, el tema se encuentra aún en debate y las conceptualizaciones, definiciones y prácticas asociadas son creadas y modificadas continuamente debiendo considerarse una disciplina en formación. Esto va sucediendo al mismo tiempo que se analizan los efectos -deseados o no- de su aplicación y se va comprendiendo la ecuación de costo/beneficio asociada.

Lo que se incluye a continuación es un resumen de lo considerado como –actualmente- establecido sin la pretensión de ser ni completo ni correcto, además de estar sesgado por una mirada desde la gestión de información.

AntecedentesQue los Estados transparenten su accionar y muestren la información que gestionan de sus respectivas sociedades no es un requerimiento nuevo, pero en los últimos años ha resurgido alcanzado también por el proceso de informatización y digitalización masivo que ha afectado tanto a las administraciones como a las sociedades. El Open Data, como parte del Open Government, es una postura que exige que los datos administrados por los Estados sean expuestos ante la sociedad. Exceptuando a algunos datos que pueden estar protegidos por condiciones especiales, Open Data propone que todo lo demás sea concebido como información pública y, por lo tanto publicado sin restricciones. Esta demanda se opone a la tradicional postura de los organismos públicos de mantener para sí los datos que ha recopilado, aplicando un principio de reserva implícita que se denomina (OEA, 2010) “oscuridad por defecto“.2

Según José Manuel Alonso (OEA, 2010), el actual “re-descubrimiento” del valor de los datos en poder de las administraciones públicas se podría haber dado por la confluencia de los siguientes factores: (a) una sociedad más comunicada y acostumbrada a informarse online y que ha ido perdiendo la confianza en sus representantes democráticamente elegidos; (b) una democratización de las fuentes de información como los blogs, y (c) un desarrollo tecnológico que permite llegar a una gran masa de público con unos costos bajos.

Es cierto que con el avance del Gobierno Electrónico producido entre fines del sigo XX y principios del XXI, los organismos públicos han avanzado mucho en hacer más accesible cierta información por medio de sus sitios en Internet. Pero se considera que dicha información se publica “preprocesada”, eventualmente a gusto del gobierno de turno, con contenidos que pueden ser parciales y en formatos que dificultan un reprocesamiento que permita analizarlos o integrarlos a otros datos de acuerdo con intereses particulares. Por esta razón, Open Data propone que, además de lo que se publique en los sitios Web, los datos deben ser publicados “en bruto”, es decir sin ningún tipo de tratamiento previo y en formatos procesables automáticamente.

Pero, la propuesta de Open Data va un poco más allá de la transparencia y la posibilidad de control de la administración. Tal como se ha propuesto en los países más avanzados en el tema (EE.UU., Reino Unido, Australia, entre otros), la publicación masiva de los datos en bruto puede convertirse en una materia prima a partir de la cual, la misma sociedad desarrolle actividades que agreguen valor y produzcan bienes intangibles como aplicaciones y servicios de interés social o comercial. Se podría pensar entonces que la efectiva liberación sistemática de datos por parte de

1 Este documento está basado en una versión anterior elaborada por el autor para el Curso de Implementación de la Carta Iberoamericana de Gobierno Electrónico realizado por el INAP de Argentina y el CLAD, Edición 2011.2 Este fenómeno también ocurre intra-estado, cuando los organismos no ponen en disponibilidad sus datos a otros organismos ignorando el principio de simplificación registral base de la interoperabilidad. Según estudios realizados en Argentina (AR/SGP/FRRII, 2008) este fenómeno se debe a una gran cantidad de barreras de tipo legal, organizacional, tecnológico y, especialmente, cultural.

Page 2: Introducción a la publicación de datos - Eduardo Poggi

las administraciones, permitirían desarrollar nuevos modelos de negocio como el "crowdsourcing"3. Con esta postura, Open Data se podría ver más como una “obra pública” de los estados en su rol facilitador de la actividad económica.

En resumen, según Roberto Agune -Presidente del Consejo Estadual de Informática del Gobierno del Estado de São Paulo, Brasil- (OEA, 2010): “la liberación del acceso a los datos gubernamentales se caracteriza como un proceso sistematizado, articulado e intencional, capaz de organizar, transferir y compartir bases de datos e informaciones de carácter público y no restringida, para aumentar el grado de transparencia de la administración pública y permitir una participación más efectiva del ciudadano como usuario, como productor y como generador de conocimiento y productos de interés para la misma sociedad. Resulta aquí innegable el valor político, cultural, económico y social del libre acceso a los datos e informaciones de carácter público“

La demanda suena realmente interesante, pero hay que ser consientes que los estados no han conseguido aún lograr muchos de los principios deseables del Gobierno Electrónico propuestos hace 20 años. La integración masiva de datos y servicios dentro de una misma administración sigue siendo una meta lejana, sin considerar la ampliación a los distintos niveles administrativos o poderes que conformen el Estado. La apropiación de una práctica como el Open Data requerirá de cambios de tipo legal, organizacional, informático, tecnológico y, sobretodo, cultural. En este sentido, se suma una exigencia más a los Estados que deberá ser abordada de forma constante y paulatina, permitiendo comprender sus costos, beneficios y efectos colaterales.

Avancemos ahora en definir en forma más precisa para luego intentar operacionalizar el Open Data.

DefiniciónDe acuerdo con la organización Open Government Data4, se denomina liberación del acceso a datos gubernamentales (open government data) a la puesta en disponibilidad pública por parte de los estados de datos en forma digital a través de Internet de manera que permita y promueva su análisis y reutilización. En 2007 el grupo de trabajo denominado Open Government Working Group reunido en Sebastopol (California, EE.UU.) propuso 8 principios para la liberación del acceso a datos gubernamentales5, los cuales se han convertido en un punto de partida de facto para la puesta en disponibilidad masiva de datos públicos. Estos principios fueron complementados posteriormente en documentos de la W3C6, en síntesis, podríamos aproximar la siguiente definición: el acceso a datos gubernamentales se considera abierto si los datos son puestos a disposición del público cumpliendo con los siguientes principios:

1. Compleción: se libera el acceso a todos los datos públicos, es decir, aquellos que no estén sujetos a restricciones de privacidad, seguridad o privilegio regidos por alguna norma.

3 Crowdsourcing es un término del slang que juega con el término outsourcing usado para describir la práctica de utilizar las habilidades y dedicación de un grupo de aficionados mal o no pagos (multitud, del inglés crowd) para cumplir con alguna función. Básicamente, significa usar a “la multitud”, conocido en español como "tercerización masiva" o "subcontratación voluntaria". Actualmente se le da el sentido de externalizar tareas que tradicionalmente realizaba un empleado o contratista a un grupo numeroso de personas o una comunidad a través de una convocatoria abierta. Su uso depende esencialmente de la masividad de una convocatoria abierta a un grupo indeterminado de personas, donde se reunirían los más aptos para ejercer las tareas, responder ante los problemas complejos y contribuir con las ideas más frescas y relevantes a sus aportaciones. Por ejemplo, se podría invitar al público a desarrollar una nueva tecnología, a llevar a cabo una tarea de diseño (“diseño basado en la comunidad” o “diseño participativo distribuido”), a mejorar un algoritmo, o ayudar a capturar, sistematizar o analizar grandes cantidades de datos. (basado en www.es.wikipedia.org) 4 www.opengovdata.org 5 www.opengovdata.org/home/8principles 6 En Tauberer (2009) se fundamenta la relevancia de la liberación del acceso a los datos en poder de los gobiernos, asignándole la significación de “capital cívico” y se amplían a dieciséis los principios y recomendaciones de buenas prácticas.

Page 3: Introducción a la publicación de datos - Eduardo Poggi

2. Fuente primaria: los datos se publican tal como son recolectados en la fuente, con el mayor nivel de precisión y detalle, no en formas agregadas o modificadas.

3. Oportunidad: los datos se publican tan pronto como sea posible para preservar su valor.4. Accesibilidad: los datos están accesibles para las más amplias gamas de usuarios y de

propósitos.5. Procesables: los datos están en formatos apropiados y razonablemente estructurados

para permitir su tratamiento automatizado.6. No discriminación: los datos están disponibles para todos, sin necesidad de registrarse

para obtenerlos.7. No restricción: los datos están accesibles en un formato sobre el que ninguna entidad

tiene control exclusivo.8. Uso libre: los datos no están sujetos a derechos de autor, patentes, marcas ni a

regulaciones de secreto industrial o comercial. Tampoco están sujetos a restricciones de privacidad, seguridad o privilegio reguladas por otras normas.

9. Documentación: los datos están documentados de forma que puedan ser correctamente interpretados. Idealmente la semántica asociada a los datos debería cumplir también con los restantes principios, por lo que debería ser publicada de forma estandarizada y procesable, sin perjuicio de la documentación tradicional que lo complemente.

10. Permanencia: los datos se mantienen accesibles de forma permanente. 11. Interoperables: los distintos conjuntos de datos son relacionables entre sí sin mayor

esfuerzo, gracias a la estandarización sintáctica y semántica. 12. Garantía de procedencia: los conjuntos de datos están publicados con mecanismos que

provean confianza sobre: las fechas de creación y publicación, la identidad, autenticidad y no repudio de la fuente y su integridad.

Para el cumplimiento de los anteriores principios se pide además:

Asignar a una persona de contacto para responder a quienes desean usarlos.

Asignar a una persona de contacto para responder a las quejas sobre violaciones de los principios.

Disponer de un tribunal administrativo o judicial con competencia y jurisdicción para juzgar si una agencia gubernamental ha aplicado apropiadamente los principios.

Más allá de la exactitud, borrosidad y alcance de la definición, el espíritu del movimiento Open Data es claro: los datos administrados por los estados deben estar fácilmente accesibles al público en general para su libre tratamiento siempre que no violen las protecciones vigentes.

Los principios precedentes especifican cómo se pretende que se publiquen los datos por parte de las administraciones, pero deja varios aspectos borrosos (que comentaremos más adelante). Por lo que debería en realidad ser considerada más como una política establecida por un conjunto de principios, donde es importante no considerarlos de forma aislada, si no relacionada. También pueden existir ciertos factores contextuales –políticos, administrativos, organizacionales, culturales, técnicos- que condicionen significativamente la forma y viabilidad de las iniciativas de liberación del acceso a datos en distintos países o administraciones.7

ConsideracionesAhora que contamos con una aproximación de que es Open Data, presentaremos algunas aclaraciones que permitirán comprender un poco mejor el alcance pretendido o aceptable de los principios enunciados.

Hay que considerar que los datos públicos pueden ser de cualquier tipo: documentos, datos estructurados provenientes de sistemas de información, transcripciones y grabaciones audiovisuales en soporte digital. También se incluyen otros tipos de material no-documental como: geográfico, sobre genomas o compuestos químicos, fórmulas,

7 Como un ejemplo de tal incidencia, sugerimos leer Eaves (2009).

Page 4: Introducción a la publicación de datos - Eduardo Poggi

diagnósticos médicos, etc. Por lo tanto, documento o dato deben considerarse en este apartado en su acepción más amplia.

Las restricciones a la publicación de datos o documentos pueden estar dadas por leyes específicas, por ejemplo: datos sensibles referentes a personas, secreto fiscal o financiero, secretos industriales, aquellos que pueda afectar la estabilidad del sistema financiero o la seguridad nacional, etc. Open Data propone que el principio básico es el de transparencia y las restricciones son las excepciones.

Tampoco se exige que deban publicarse documentos con contenido patentable proveniente de investigaciones industriales, tecnológicas o científicas. Los resultados de estas investigaciones se “abriría” una vez que ya fueran publicados en revistas con arbitraje por pares.

La disponibilidad, accesibilidad, gratuidad, no discriminación pueden ser -en parte- aseguradas por la publicación libre en Internet. Pues, se considera que hoy en día las personas que requieren información de los estados recurren a la Web como única opción o antes de ejercer cualquier otra. Si la información sólo puede obtenerse mediante solicitud a través de correo postal, o peor aún, en persona, no puede considerarse disponible para la gran mayoría de los ciudadanos. Análogamente, el acceso a la información debe ser gratuito o costos muy bajos. Análogamente al caso anterior, si se exige algún pago para la recuperación, se considera que se está limitando la disponibilidad. 8

Lo anterior se complementa con que los datos deben estar disponibles para las gamas más amplias de usuarios y propósitos y formatos compatibles con los usos intencionales y no intencionales de los datos. Los datos deben ser publicados con los protocolos estándares y actuales de la industria y todos los formatos cuando esté disponible para asegurar que los usos no intencionales no se limitan, así como los protocolos y formatos alternativos cuando sea necesario para promover la amplia disponibilidad de más casos de uso limitado. Otro aspecto a considerar es que si los datos son accesibles a través de una interfaz interactiva, debe ser posible además descargar el conjunto completo de forma primaria gracias a una descarga masiva de datos.

Los datos primarios son los datos que se recogen en la fuente, con el nivel más detallado posible de granularidad, evitando formas agregada o modificadas. A menudo se considera que el único acceso abierto a audio, vídeo e imágenes son de baja resolución con el fin de hacerlos adecuados para su visualización en Internet. Si bien este es un caso de uso importante, los editores de datos abiertos tienen la obligación de hacer que la información de alta resolución disponible en grandes cantidades, probablemente además de un formato de baja resolución, para soportar aplicaciones adicionales, tales como la creación de medios de comunicación profesional y el archivo. Del mismo modo, los datos numéricos o estructurados no deben ser agregados para una aplicación particular a costa de ignorar otra información pública que podrían ser utilizados.

En cuanto a la oportunidad, los datos se deben poner a disposición tan pronto como sea necesario para preservar su valor. En otras palabras, los datos no se consideran abiertos si es sólo para compartir una vez que sea demasiado tarde para que puedan ser útiles al público. Adicionalmente, se considera que las actualizaciones deben estar oportunamente disponibles y se debe proveer ayudas para informar a los interesados de las nuevas publicaciones. Dada la heterogeneidad de situaciones, la oportunidad dependerá de la naturaleza de la entidad de datos. Por supuesto que la oportunidad debe equilibrarse dentro de ciertos márgenes de utilidad, confiabilidad y razonabilidad administrativa.

Que los datos sean razonablemente fáciles de procesar indica que deben estar mínimanente estructurados y utilizar un formato de divulgación claro y aceptable a tales fines. Es importante comprender las consecuencias técnicas de la elección de los formatos. Las imágenes de texto no son un sustituto para el propio texto. Para la publicación, es importante evitar las imágenes escaneadas de los documentos impresos.

8 Lo que constituye una “tasa adecuada” para la reutilización de información del gobierno varía de un país a otro. En algunos países, tasas por encima del costo de reproducción de un documento pueden ser vistas como si estuvieran diseñadas para incidir en la capacidad del público para supervisar al gobierno.

Page 5: Introducción a la publicación de datos - Eduardo Poggi

Incluso el PDF puede no permitir un nivel satisfactorio de procesamiento. XML es un formato genérico de datos estándar de la industria, aunque un vuelco en bruto como texto CVS puede considerarse aceptable.

Las libertades de uso implican que la publicación de los datos no debe estar limitada por las leyes como la de propiedad intelectual, derechos de autor, patentes o marcas, o de otras restricciones arbitrarias. Las restricciones deben ser la excepción y no la regla.9 Los datos deben estar disponibles en un formato que no sea exclusivo de ninguna entidad. Los formatos propietarios agregan restricciones sobre quién puede utilizar los datos, cómo puede ser usada y compartida, debilitan la posibilidad de utilización futura y pueden generar un conflicto de intereses.

La permanencia exige que los datos deban estar disponibles en un sitio de Internet estable indefinidamente. Proporcionar documentos con direcciones de Internet permanente ayuda a los ciudadanos compartir documentos con otras personas al permitirles a otros apuntan directamente al documento, en lugar de tener que proporcionar instrucciones sobre cómo llegar a ella o la distribución del documento por separado ellos mismos. Un formato común para los enlaces permanentes a los documentos, que se utiliza en la mayoría de sitios web de periódicos, es "www.agencia.gov / año / mes / día / nombre.xxx". Las direcciones Web de esta forma dan una pista sobre la fecha y la naturaleza del documento

En cuando a la confiabilidad, el contenido publicado debería estar firmado digitalmente o incluir certificación de la fecha de creación de publicación, autenticidad e integridad. Las firmas digitales podrían ayudar al público a validar la fuente de los datos que encuentran. Debido a esto, los medios de comunicación Web deben estar disponibles en formatos adecuados para su visualización en un navegador y debe ser fácilmente localizables a través de buscadores.

Aspectos subyacentesEn los términos definidos, la publicación masiva de los datos gestionados por las administraciones públicas persigue los siguientes beneficios (basado en OEA (2010)):

Equidad: se postula que si la generación de esos datos fue sufragada con recursos públicos, los mismos deben “reintegrarse” a la sociedad de manera totalmente libre y gratuita, preservando las garantías de privacidad y la seguridad.

Transparencia: se señala que la mejor forma de ejercerla es difundiendo datos en bruto, dado que ello permite una constante fiscalización de las acciones del gobierno.

Participación: se supone que la disponibilidad de datos permite a los integrantes de la sociedad desarrollar análisis y ejercer las atribuciones participativas con posiciones sustentadas en las propias perspectivas, sin interferencias emergentes de información “pre-digerida” por otros. Esta dedicación privada estaría además agregando valor a los datos.

Colaboración: se prevé que las distintas instancias de la sociedad –instituciones educativas y de investigación, organizaciones sociales, empresas, habitantes- aportarán, a través de la reutilización de los datos, una escalada de servicios con valor añadido y con creciente aprovechamiento informativo, cognitivo, social y económico.

Deberíamos agregar el beneficio proveniente de la actividad económica relacionada a la explotación de los datos, los cuales, como cualquier otra materia prima, conforman un bien que se puede transformar y que puede crear valor económico. El uso de la tecnología está cambiando la forma como las personas trabajan, producen, aprenden y se relacionan entre sí y con su entorno. Los datos en origen, no procesados ni transformados, permiten aportar valor si son utilizados para generar nuevas funcionalidades y servicios. Con el concepto de reutilización de la información generada por el sector público nos referimos al uso que pueden hacer personas, empresas y organizaciones para crear nuevos productos y/o servicios para otros públicos o destinatarios. (OEA; 2010)

9 Al igual que con lo que constituye tasas adecuadas, condiciones adecuadas de licencia pueden varíar de un país a otro, será necesario entonces un análisis jurídico de cada situación.

Page 6: Introducción a la publicación de datos - Eduardo Poggi

El uso de los datos abiertos suele estar sometido a leyes de reutilización de la información del sector público y tener licencias de propiedad intelectual, aunque la tendencia es abrirlas sin condiciones siempre y cuando se mantenga la fidelidad con la obligatoria citación de la fuente. La Comisión Europea, por ejemplo, considera que los datos públicos tienen que ser reutilizados, tanto por la ciudadanía como por las empresas, ya que esto, además de transparencia, supone un motor al desarrollo de la sociedad de la información y el conocimiento sobre todo para el sector de los contenidos digitales.

En lo que respecta al ámbito científico, según Hélio Kuramoto -Investigador en Ciencias de la Información en el Instituto Brasileño de Ciencias de la Información y Tecnología (IBICT) del Ministerio de Ciencia y Tecnología (MCT), Brasil- (OEA, 2010): “el libre acceso a los datos promovería un mayor intercambio del conocimiento y, en consecuencia, podría contribuir a reducir las desigualdades sociales y la exclusión cognitiva promoviendo la inclusión social. Desde el punto de vista del investigador, el argumento más fuerte es que las iniciativas de acceso libre promueven una mayor visibilidad de sus trabajos e investigaciones, lo que les permitiría lograr un mayor número de citas con el consecuente impacto. También aumentaría la visibilidad de las universidades o instituciones de investigación, resultando en mayores ventajas competitivas. Otro beneficio se podría obtener del aumento de oportunidades de intercambio con otras instituciones similares. Tal vez el único segmento que a primera vista podría no resultar beneficiado es el de los editores y distribuidores de publicaciones científicas, pero incluso ellos podrían beneficiarse, dado que las iniciativas de repositorios institucionales promueven una mayor visibilidad de los trabajos publicados, así como de las propias revistas, lo que implicaría también un aumento de su factor de impacto.”

Términos y condiciones de usoAlgunas implementaciones de Open Data establecen ciertas restricciones a la reutilización que se hacer de los datos, es decir, al uso que pueden hacer personas, empresas y organizaciones para crear nuevos productos y/o servicios para otros públicos o destinatarios. Por ejemplo, el artículo 4 de la Ley 37/2007 de España10, establece dos modalidades:

1. Reutilización sin ningún tipo de condición. Aunque la información puesta a disposición públicamente queda exenta del cumplimiento de condiciones por parte de los reutilizadores (empresas y usuarios), tiene que contener un aviso legal que establezca los puntos básicos de cumplimiento, que son:

o Que el contenido de la información no esté alterado.

o Que no se desnaturalice el sentido de la información.

o Que se cite la fuente.

o Que se mencione la fecha de la última actualización.

2. Reutilización con sujeción a condiciones que establezcan licencias-tipo. Son datos que pueden estar sujetos a derechos de propiedad intelectual de la misma Administración o de terceros (la mayoría de casos). En estos casos, las licencias, además de ser procesables electrónicamente y de estar en formato digital, tienen que tener en cuenta estos criterios:

o Tienen que ser claras, justas y transparentes.

o No tienen que restringir las posibilidades de reutilización.

o No tienen que ser discriminatorias para categorías comparables de reutilización.

La reutilización se puede limitar por la tutela de otros bienes jurídicos prioritarios, como por ejemplo la protección de los datos personales, la intimidad o los derechos de protección intelectual

10 Por este motivo los países de la comunidad han legislado sobre la reutilización de la información del sector público en acuerdo con la Directiva 2003/98/CE del Parlamento Europeo. Véase la versión española de la Ley 37/2007. http://ec.europa.eu/information_society/policy/psi/docs/laws/spain/law2007.pdf También puede verse como ejemplo la versión de Cataluña en http://dadesobertes.gencat.cat/es/com-utilitzar-dades.html.

Page 7: Introducción a la publicación de datos - Eduardo Poggi

de terceros. La reutilización de obras protegidas por la propiedad intelectual se formaliza mediante el uso de la licencia de Reconocimiento Creative Commons CC BY 3.0 (creativecommons.org/licenses/by/3.0/es/)

En la práctica se permite la reproducción, la distribución, la comunicación pública y la transformación para generar una obra derivada, sin ninguna restricción, siempre que se cite al autor (Generalitat de Cataluña). Por ejemplo, en el caso de las fotografías del Banc Iconogràfic de la Generalitat de Cataluña (BIG) y otros tipos de datos en los cuales hay participación de terceros, la reutilización se vehicula a través de alguna de la licencia Creative Commons Reconocimiento – SinObraDerivada CC BY-ND 3.0, se permite el uso comercial de la obra pero no la generación de obras derivadas. 11

En determinados casos, la reutilización sólo será posible con solicitud previa en el ente generador de los datos, como por ejemplo las del Instituto Cartográfico de Cataluña, las condiciones del cual se especifican en www.icc.cat/esl/layout/set/print/Home-ICC/Inici/Condicions-d-us . En cualquier caso, la aceptación de los términos de uso no supone la concesión de los derechos de autor ni la propiedad intelectual sobre los conjuntos de datos. La Generalitat de Cataluña se reserva el derecho de publicar conjuntos de datos para los que haya que satisfacer el pago de contraprestaciones económicas. La cuantía de estas contraprestaciones tendrá como objetivo cubrir los costes asociados a la producción, reproducción y difusión de los conjuntos de datos y en ningún caso puede ser superior. El listado con la cuantía de las contraprestaciones aplicables se encontrará a disposición pública de forma concurrente a la publicación de los conjuntos de datos.

Publicación de datosTal como recomienda el W3C en su guía de publicación (W3C, 2009), se tienen que liberar datos útiles y en formatos reutilizables. Cualquier formato es bienvenido pero cuanto más estructurados y documentados estén los datos, más fácil será reutilizarlos y construir aplicaciones que los traten automáticamente. Por esto hay formatos y proyectos de datos abiertos que se consideran de menor valor que otros. Según algunas recomendaciones, los formatos más adecuados son el RDF, basado en XML y susceptible de pasar fácilmente al siguiente nivel llamado “datos enlazados” (linked data), que a su vez es la base técnica para alimentar la denominada Web semántica, un estándar en el que cada dato contiene información asociada que lo relaciona automáticamente con otros. El W3C también recomienda crear un catálogo con la descripción precisa de todos y cada uno de los conjuntos de datos (data sets) que libera un estado y, a la vez, libera también el propio catálogo en formato RDF.

La W3C (W3C, 2009) recomienda los siguientes pasos para publicar los datos del gobierno

1. La forma más rápida y fácil para que los datos disponibles en la Internet es la publicación de los datos en su forma cruda (por ejemplo, un archivo XML de los datos electorales de las pasadas elecciones). Sin embargo, los datos deben estar estructurados de forma tal que permita a otros a procesarlos exitosamente. Los formatos más conocidos son XML, RDF y CSV.

2. Crear un catálogo en línea de los datos en bruto (pero documentados) para que se pueda descubrir lo que ha sido publicado. Estos conjuntos de datos en bruto deben ser fiables, estructurados y documentados, de lo contrario su utilidad es insignificante. La mayoría de los gobiernos ya tienen mecanismos para crear y almacenar los datos (por ejemplo, Excel, Word y otros formatos de archivos de software específico).

3. Hacer que los datos tanto en formato humano como legibles por máquina: enriquecer su ya existente HTML/XML con la semántica de los recursos, los metadatos, y los identificadores; codificar los datos mediante estándares abiertos y la industria -en particular XML- o crear sus propias normas sobre la base de su vocabulario; que sus datos legible por cualquiera de convertir a HTML/XML, o mediante el uso de las transformaciones en tiempo real a través de CSS o XSLT. Recuerde que debe seguir los requisitos de accesibilidad; uso permanente estampas de tiempo y/o descubrir "URIs"; permitir las citas

11 La licencia completa se puede consultar en

creativecommons.org/licenses/by/3.0/es/legalcode.es.

Page 8: Introducción a la publicación de datos - Eduardo Poggi

electrónicas en la forma de estándar (anclaje / enlaces de identidad o XLinks / XPointers) hipervínculos.

Estos pasos le ayudarán al público a encontrar fácilmente, uso, citar y entender los datos.

Identificar: La capacidad de identificar las cosas por un URI / URL es la base de Internet. El uso de direcciones permanentes en la publicación de datos facilitará su identificación y acceso y podría ser utilizado en bases de datos y metadatos con identificadores universales únicos, por ejemplo, añadiendo un número de serie u otro sistema de nomenclatura interna de un dominio que podría incluir un identificador del organismos publicador.

Documentar: sin la documentación adecuada los datos no son muy útiles o pueden ser mal interpretados. Se deben utilizar estándares ampliamente difundidos, por ejemplo, XML o RDF, que tienen a ser auto-documentados o utilizar esquemas de documentación externa y formatos de datos más simples. También se debería crear una página Web con una descripción clara del conjunto de datos para ayudar a los motores de búsqueda a encontrar datos. Como mínimo, se debe incluir: título, descripción, fecha de publicación y la fuente autorizada. Se debe usar un lenguaje claro y proveer enlaces a la información relativa a ayudar a poner los datos en su contexto. Incluir también un catálogo de datos con la descripción de cada dato y las reglas de validación de datos. Además, el catálogo de datos en sí se considera "datos" y deben ser publicados como datos estructurados, a fin de que terceros puedan procesarlos. El catálogo de datos debe explicar las normas o reglamentos que se deben seguir en el uso del conjunto de datos.

Vincular: relacionar los datos con otras posibles fuentes de forma estandarizada que permita asociarlos a un contexto más amplio. Se recomienda usar URI y http URI según corresponda que puedan ser accedidos públicamente.

Preservar: la preservación de los datos publicados deber ser una de las mayores preocupaciones. No sólo se debe asegurar la presencia de los datos en el tiempo sino su accesibilidad y su relación temporal con otras versiones que permita conocer la historia del conjunto. Esta exigencia debería ser tenida en cuenta al momento de elegir las URI. Si es necesario, se deben proporcionar herramientas para traducir los datos más antiguos. Se deben documentar los cambios entre las versiones, e incluir el número de versión / indicador dentro de los datos si es posible.

Elegir los datos a publicar: todos los datos que se pueden compartir públicamente deben ser abiertos a la difusión pública, siempre en cumplimiento de las normativas aplicables y demás cuestiones de seguridad y privacidad. En primer lugar se podrían publicar los datos ya disponibles en otros formatos, como los impresos por ejemplo, tanto en su versión digital como una más estructurada. También deberían ser publicados todas las normas, reglamentos, códigos y demás documentos públicos relacionados con la misión de la agencia. Luego podrían ir publicándose los datos administrados por los sistemas de gestión.

Elegir el formato adecuado: El uso de estándares permite a las partes interesadas descubrir más fácilmente y proporcionar información sobre los datos para su correcta interpretación. Es preciso tener cuidado en la elección del estándar para publicar cada dato o documento.

Publicar las restricciones al uso: una vez decidida la publicación es recomendable documentar y publicar las posibles restricciones sobre el uso de los datos, tanto genéricas como específicas. Se deben aclarar las licencias y exigencias requeridas para su utilización. Es muy importante ser claro con respecto a los usos previstos, los créditos, las limitaciones y responsabilidades que las partes en particular, tienen en lo que respecta a trabajar con y al proporcionar los datos.

Algunas conclusiones y reflexionesLas experiencias realizadas hasta el momento han dejado algunas lecciones aprendidas que podríamos resumir en las siguientes expresiones:

Page 9: Introducción a la publicación de datos - Eduardo Poggi

Abrir los datos públicos existentes a terceros tiene un costo económico y organizacional; requiere de nuevas prácticas institucionales y cambios culturales, además de cierta sofisticación informática para hacerlos de forma automática y segura. Especialmente la determinación -y posterior protección- de cuales datos son públicos y cuales no impacta fundamentalmente en el esfuerzo-costo de publicar.

La disponibilidad de los datos no garantiza su utilización, son necesarias acciones para promover su tratamiento.

Una comunidad de usuarios interesados con acceso a los datos públicos puede ser una buena fuente de información para las administraciones sobre los intereses de la comunidad.

La apertura de datos no es un fin en si mismo.

El Open Data es novedoso y genera grandilocuentes adhesiones conceptuales, especialmente en el discurso político y en la consultoría asociada, lo cual genera una importante borrosidad del término. Como todo cambio origina detractores sin que -por ahora- aparezcan oposiciones conceptuales significativas, siempre que se respeten las respectivas leyes de protección. Pero, será el tiempo y los avances los que confirmarán, rechazarán o nos sorprenderá con sus reales efectos e implicaciones. Lo que no hay que olvidar, es que las discusiones conceptuales, políticas y jurídicas son en general mucho más fáciles de enunciar que de llevar a la práctica y es preciso considerar los tiempos de implementación y de un análisis serio de sus efectos para mitigar los no deseados y potenciar los beneficiosos. Como en toda implementación significativa, un buen consejo sería tener muy claras metas ambiciosas de largo plazo y avanzar hacia estas con pasos cortos, seguros y continuos. Y, principalmente, no olvidar que Open Data es un medio para conseguir algo mejor, no un fin.

Aquí van algunas cuestiones para discutir, pensar y elaborar:

1. El crowdsourcing puede presentar algunas disyuntivas, por un lado tiene un potencial beneficio de transparencia y demás expectativas que ya hemos enunciado. Pero, por otro lado puede utilizarse para transferir a la sociedad el costo de cumplir con obligaciones que son propias de las administraciones, lo cual sería un uso espurio del concepto de Open Data. ¿Cómo se determina el límite entre lo que son obligaciones estatales y abuso del Open Data?

2. ¿Puede cobrarse el uso de los datos públicos? ¿Nunca, siempre o en algunas circunstancias? Por ejemplo, cuando ciertos datos fueron generados con el presupuesto público y pueden ser aprovechados por algún sector específico para actividades lucrativas. Y, ¿cuándo fueron generados por algún esfuerzo sectorial, por ejemplo los provenientes de la educación privada?

3. ¿Qué significa en la práctica: “no desnaturalizar el sentido de la información”? 4. ¿Hasta que punto se cumple con el anonimato? Las leyes de secreto estadístico

establecen que no se pueden identificar personas físicas pero, ¿y las jurídicas?, ¿y entornos acotados de personas?, ¿es correcto hacer una característica descriptiva de un pequeño barrio ocupado por pocas familias o de un sector industrial muy concentrado?

5. ¿Los datos de tipo científico deben quedar disponibles sólo al ámbito científico? ¿Qué se consideraría el ámbito científico? ¿las instituciones formalmente declaradas?, ¿los centros de investigación privados o las áreas de Investigación y Desarrollo de las empresas?, ¿un estudiante haciendo su tesis es un investigador? y ¿el periodismo de divulgación?

6. ¿Tienen el mismo derecho de acceder a datos públicos un ciudadano del mismo país que un extranjero?

7. ¿Qué pasa con el mal procesamiento de los datos? Dejemos por fuera del análisis la intención delictiva, consideremos sólo error de concepción de los algoritmos o de implementación. ¿Es punible la mala praxis en el procesamiento? ¿Cubriría sólo a profesionales matriculados o a cualquiera?

8. La publicación de los datos seguramente va a requerir una duplicación por parte de las administraciones (no parece sensato que los datos se publiquen desde su reservorio productivo); lo cual va a generar una mayor necesidad de almacenamiento y por lo tanto un

Page 10: Introducción a la publicación de datos - Eduardo Poggi

mayor costo directo (infraestructura de TI), un mayor costo indirecto (huella ecológica) y una mayor demanda de servicios (ancho de banda por ejemplo). ¿Este incremento de costos debe ser pagado por la sociedad como parte del funcionamiento del Estado de derecho?

9. La existencia de la figura de un CIO Público con injerencia sobre los datos se presenta como una necesidad para publicar los datos con confianza y responsabilidad, las cuales que deberían estar compartidas con el responsable funcional de los datos. Esta exigencia no siempre está clara en muchos países, especialmente en las administraciones. ¿Es posible publicar datos sin la respectiva responsabilidad sobre el servicio? Por ejemplo, muchas regulaciones (SOX, COBIT, etc.) han promovido que un balance contable –por nombrar un ejemplo- sea firmado (real o digitalmente) por CEO, CIO, CFO y demás participantes de la cadena jerárquica involucrada antes de ser entregado a las autoridades. ¿En el caso de la publicación de datos estatales, habría que hacer algo parecido?

10. La publicación de datos puede ser considerada como un servicio, por lo tanto, las buenas prácticas exigirían que tuviera asociado un SLA12. De ser así, el Estado debería hacerse cargo de la calidad del servicio de publicación (en este caso, tanto de la disponibilidad como de la calidad de los datos en sí).

BibliografíaAR/SGP (2008) “Res. 99/08: Marco de Interoperabilidad de la República Argentina”.

www.sgp.gov.ar/contenidos/uci/actividades_realizadas/docs/Resolucion_99-08.pdf

AR/SGP/FRRII (2008) “Mapa de restricciones a la Interoperabilidad en el sector público”. Presentación del trabajo realizado por el Grupo de Interoperabilidad del Foro de Responsables Informáticos de la ONTI/SGP en USUARIA 2006. rrii.sgp.gob.ar/index.php?option=com_docman&task=cat_view&gid=154&Itemid=200002

Eaves David (2009) “Open Data: USA vs. Canada”, October 2009. eaves.ca/2009/10/08/open-data-us-vs-canada/

OCDE (2008) “Recomendación para el mejor acceso y el efectivo uso de la información pública”. www.oecd.org/dataoecd/0/27/40826024.pdf

OEA (2010) Boletín Electrónico del Foro de e-Goierno de la Organización de Estados Americanos, N° 56, agosto de 2010. www.suboletin.com/contentsoea/docs/Boletin_56/Principal56.htm

Tauberer, Joshua (2009) “Open Data is Civic Capital: Best Practices for Open Government Data", versión 1.3 del 14/04/2010. http://razor.occams.info/pubdocs/opendataciviccapital.html

W3C (2009) Publishing Open Government Data, W3C Working Draft 8 September 2009. www.w3.org/TR/2009/WD-gov-data-20090908/

Documentos complementarios y enlaces en la web

Referencia Enlace SíntesisWikipedia es.wikipedia.org Enciclopedia abierta. Tracking the state of government open data http://index.okfn.org/ Lista de catálogos de Open

Data.

Open Data USA www.data.gov Ejemplo de publicación de datos abiertos de Estados Unidos.

Open Data UK http://data.gov.uk/ Ejemplo de publicación de

12 Por las siglas en inglés de Acuerdo de Nivel de Servicio: que se implementa como un contrato escrito entre un proveedor de servicio y su cliente con objeto de fijar el nivel acordado para la calidad de dicho servicio. Es una herramienta que ayuda a ambas partes a llegar a un consenso en términos del nivel de calidad del servicio, en aspectos tales como tiempo de respuesta, disponibilidad horaria, documentación disponible, personal asignado al servicio, etc. http://es.wikipedia.org/wiki/Acuerdo_de_nivel_de_servicio

Page 11: Introducción a la publicación de datos - Eduardo Poggi

Referencia Enlace Síntesisdatos abiertos del Reino Unido.

Datos Abiertos CABA http://data.buenosaires.gob.ar/ Ejemplo de publicación de datos abiertos de la Ciudad Autónoma de Buenos Aires.