desafíos en accesibilidad a la información

41
Desafíos en Accesibilidad a la Información Loreto Bravo Universidad de Concepción

Upload: others

Post on 19-Jul-2022

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Desafíos en Accesibilidad a la Información

Desafíos en Accesibilidad a la Información

Loreto BravoUniversidad de Concepción

Page 2: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 2

Asimetrías de Información

El consejo de innovación de Chile ha destacado:Es necesario pasar de una economía basada en recursos naturales a una basada en conocimiento e innovaciónUn obstáculo para conseguirlo son las fallas de información. En particular:

Asimetrías de información: problema encontrado en una transacción donde una parte tiene más o mejor información que otros.

Sugieren como solución:generación de la informaciónpublicación de la información

Page 3: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 3

Qué se ha hecho?Ley sobre documentos electrónicos, firma electrónica y servicios de certificación de dicha firma (N°19.799, 2002)

Ley de Transparencia (2009)Reparticiones de gobierno deben publicar sus datos en la Web

Page 4: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 4

Datos Públicos en ChileBiblioteca del Congreso NacionalCongreso NacionalSenado de ChileCámara de DiputadosGobierno de ChileDiario Legislativo OficialINEServicio de AduanasDirección del trabajoBanco CentralMinisterio de Hacienda CORFOMunicipalidadesSuperintendencia de Valores y Seguros

SERNACMinisterio de EducaciónMinisterio de SaludCONICYTSuperintendencia de SaludFONASAISAPRESSubtelServicio ElectoralCONAFSERNATURInstituto Geográfico MilitarTransantiago

Y muchos más!

Page 5: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 5

Datos Públicos en ChileHay un creciente volumen de información que comienza a estar formalmente disponibleSin embargo, para que sea realmente accesible debe ser posible:

localizarconsultaragregarnavegar

Esto se ve dificultado en la situación actual por:heterogeneidad de los formatos de datosdiferentes modelos de datosgrandes volúmenes de información

Page 6: Desafíos en Accesibilidad a la Información

Congreso de Estudiantes, UBB 6

Page 7: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 7

Buscando en la Web

Busqueda por palabras claves

Palabras claves + estructurasite:filetype:define:intitle:

colores filetype:ppt site:.cl

Page 8: Desafíos en Accesibilidad a la Información

Buscando en la Web

Cual es la correlación entre partido político y voto a favor de proyectos de ley medioambientales?Cual es la relación a lo largo del tiempo de la tasa de interés fijada por el banco central y la utilizada en los bancos?Dado un código de un examen de salud y mi sueldo: que plan de salud me da una mejor cobertura?

Bases de Datos II, 2012 8

Page 9: Desafíos en Accesibilidad a la Información

Congreso de Estudiantes, UBB 9

Dificultad: heterogeneidad de datos

Page 10: Desafíos en Accesibilidad a la Información

Congreso de Estudiantes, UBB 10

Dificultad: estructura de la web

IngredientesComida Ingrediente

Pavo A 1 Pavo

Pavo A Tomillo

Pavo A Jugo limon

<comida><nombre> Pavo A </nombre><ingredientes>

<ingrediente>1 Pavo</ingrediente><ingrediente>tomillo</ingrediente><ingrediente>jugo de limon</ingrediente>

</ingredientes><preparacion> …</preparacion> </comida>

RecetasComida PreparacionPavo A …

menos estructurado

más estructurado

Page 11: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 11

Dificultad: grandes volumenes de información

web superficial

web profunda

Page 12: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 12

Dificultad: distintos tipos de usuario

Page 13: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 13

Dificultad: semántica

Qué significa cada uno de los elementos de la tabla?"IPM General Variación Porcentual"="Ipm gral-var." ?

Page 14: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 14

Dificultad: semántica

Qué significan los códigos?Qué unidades corresponden a los distintos montos?

Page 15: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 15

Qué se puede hacer?

Muchos de estos problemas ya han sido investigados en forma aislada en el área de bases de datos y manejo de informaciónSin embargo, el problema actual es a una escala, heterogeneidad y descentralización que no ha sido enfrentado antes

Page 16: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 16

Publicación de datos

Publicar, hoy en día, no tiene ninguna regulaciónSolo los protocolos básicos de la Web (HTML, HTTP, URL)Recíen el 26 de Marzo del 2012 surgió una propuesta:

“Consulta pública Propuesta de Norma Técnica para Publicación de Datos en Chile”

Este problema puede (y debe!) ser tratado en forma sistemáticaEs necesario crear estándares para:

publicarprotocolos de accesopolíticas de accesometadatos para guardar información de procedencia, uso y contenido

Page 17: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 17

Vinculación de datosCon la aparición de la Internet la información comenzó a ser una colección de islas de documentos y servicios conectados por enlaces sin semánticaLos primeros pasos hacia convertir la Web en una fuente de datos usables por aplicaciones es el enlace de datos en la Web con semántica entendible

Ejemplo: RDFa

Se necesita más: poder vincular datos no solo paginas!Ejemplo: linked data

All content on this site is licensed under <a rel="license"href="http://creativecommons.org/licenses/by/3.0/"> a Creative Commons License </a>.

Page 18: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 18

Consultas a los datosLa noción de consultar y obtener respuestas lógicas es el estándar en el campo de base de datos, pero no en la Web. En la Web, no existe una forma de preguntar consultas estructuradas y lógicas a las fuentes de datos

Proveedores que tienen contratos sobre MM$10 con el Ministerio de Salud?

Los datos están disponibles, pero• En distintas localizaciones• En formatos tan diversos que hacen imposible cualquier procesamiento

directo

Posible solución: contratar a un programador para escribir los scripts adecuados, construir una base de datos común, y un lenguaje como SQL para consulta

Page 19: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 19

Consultas a los datosLa navegación a través de los datos es un compañero necesario a la consulta.

Para las fuentes de datos chilenas, esta es la forma de alcanzar los datos.

El problema de consultar/navegar no es simple! La investigación en lenguajes de consulta como XQuery y SPARQL ha mostrado que no es imposible

La solución no esta allí aun, pero abren el camino...

Page 20: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 20

Integración de datosSi se quiere que la información este realmente disponible a un usuario común, integración es una meta inevitable y crucial.

Por ejemplo, información acerca de estudiantes de escuelas básicas y el sueldo por familia del Ministerio de Educación son necesarios en un proyecto de conectividad en la Agencia de Telecomunicación.

Muchas veces es necesario:Tener una vista comúnTener una forma común de consultaAgregar datos

eficiencia en servidoresnecesidades del usuario, etc

Transferir datos de un esquema a otro

Page 21: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 21

Qué se ha hecho?Existen varios proyectos que han tratado de atacar algunos de estos problemas:

Publicación/VinculaciónLinked data (Datos Vinculados)Freebase

• Ley de transparencia en ChileRDFa…

Consulta/IntegraciónTécnicas tradicionales de integración de datosDataspacesAPIsLenguajes de consultas para grafos…

Page 22: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 22

Linked Data

Surge dentro de la Web semánticaTiene cuatro principios (definidos por Tim Berners-Lee)

Utilizar URIs para identificar los recursos publicados en la Web Utiliza HTTP URIs para que la gente pueda localizar y consultar estos recursos. Cuando alguien busque una URI, proporciona información útilutilizando algún estándar (RDF) Incluir enlaces a otras URI de forma que se potencie el descubrimiento de información en la Web.

Presentación en TED: http://www.youtube.com/watch?v=UUpw-7_SWds

Page 23: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 23

Linked dataInformación de los recursos se presenta usando el modelo de datos de RDF (resource description framework)

Basado en tripletes (sujeto-predicado-obecto)Subject: http://data.linkedmdb.org/resource/film/77Predicate: http://www.w3.org/2002/07/owl#sameAsObject: http://dbpedia.org/resource/Pulp_Fiction_%28film%29

77 Pulp Fictionowl:sameAs

Page 24: Desafíos en Accesibilidad a la Información

Congreso de Estudiantes, UBB 24

Navegando Linked Datahttp://dbpedia.org/page/Concepci%C3%B3n,_Chile

Page 25: Desafíos en Accesibilidad a la Información

25

Navegando Linked DataEl URI de Concepción en la dbpedia es:

http://dbpedia.org/page/Concepci%C3%B3n,_ChileAl acceder ese link el servidor identifica el formato requerido y redirecciona al documento correcto para representar esos datos:

html (por ejemplo si la solicitud viene de un navegador)• Lo que vemos al hacer click a http://dbpedia.org/page/Concepci%C3%B3n,_Chile

n3 (rdf)• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.n3

ttl (rdf)• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.ttl

Y otros…• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.nt• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.xml• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.atom• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.json• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.jrdf• http://dbpedia.org/data/Concepci%C3%B3n,_Chile.jsod

Page 26: Desafíos en Accesibilidad a la Información

26

Navegando Linked DataSe puede recorrer siguiendo los links de source, target o predicate

Page 27: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 27

Linked Data

Los datos organizados de esa manera pueden ser explorados y procesados directamente por computadoras

ya no estan dentro de documentos en donde su significado, utilización, formato, relaciones, etcétera, no son visibles para motores de búsqueda o aplicaciones de computadora.

Page 28: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 28

Como generar Linked data1. Desde cero…2. Utilizando herramientas para RDFizar desde otros

formatos3. Utilizando herramientas que genera vistas en Linked

data para bases de datos relacionalesEj: D2R

4. Wrappers para envolver APIs

Page 29: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 29

Mayo 2007

Page 30: Desafíos en Accesibilidad a la Información

Congreso de Estudiantes, UBB 30

Abril 2008

Page 31: Desafíos en Accesibilidad a la Información

Congreso de Estudiantes, UBB 31

Julio 2009 4.7 billiones de tripletes RDF vinculados por 142 million de links

Page 32: Desafíos en Accesibilidad a la Información

Septiembre 2011Linking Open Data cloud

diagram, by Richard Cyganiak and Anja Jentzsch.

http://lod-cloud.net/

Page 33: Desafíos en Accesibilidad a la Información

Septiembre 2011

Distribución de tripletas por dominio

Bases de Datos II, 2012 33

Distribución de links por dominio

Page 34: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 34

Consultando Linked Data

Lenguaje de consulta para RDF: SPARQLRecomendación de la W3C desde Enero 2008Tan expresiva como algebra relacional

No permite aprovecharnos de la estructura de grafo de linked dataMejor que no tener lenguaje de consulta!

Page 35: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 35

Freebase (http://www.freebase.com)"Base de datos abierta, compartida con el conocimiento del mundo"Esquema es fijo y al igual que linked data, los datos son guardados como un grafoConstruida por la genteTiene un lenguaje de consulta MQL (Metaweb Query Language)Freebase es una empresa que genera ingresos a través de publicidad en su sitio.

En el futuro esperan también tener ingresos ordenando datos propietarios

Page 36: Desafíos en Accesibilidad a la Información

Congreso de Estudiantes, UBB 36

Esquemas en Freebasehttp://schemas.freebaseapps.com/Mas de 37 millones de temas Cada tema tiene tipos y propiedades

Si se quiere ver como una base de datos relacional cada tipo es una tablaEjemplo: http://www.freebase.com/music/album

tema: /musicTipo: /music/albumPropiedad; Artist

Page 37: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 37

Lenguaje de consulta Freebase

MQLMetaweb Query LanguageEjemplo de consulta con API:

https://www.googleapis.com/freebase/v1/mqlread?query={"type":"/music/artist","name":“Los Tres","album":[]}

Para consumo humano se puede usar el link:http://www.freebase.com/query

Page 38: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 38

Freebase

Los datos pueden ser accedidos a través de API: utilizando lenguaje de consulta MQLpuntos RDF: entregan los datos en formato linked dataVolcado de una base de datos (database dump)

Page 39: Desafíos en Accesibilidad a la Información

Congreso de Estudiantes, UBB 39

Web de datos vs Web de documentos

Page 40: Desafíos en Accesibilidad a la Información

Bases de Datos II, 2012 40

Desafío

Hacer este mundo de datos accesible a todos y procesable por todos, de la

forma como las maquinas de búsqueda y los navegadores lo hicieron con el

mundo de documentos.

Page 41: Desafíos en Accesibilidad a la Información

Desafíos en Accesibilidad a la Información

Loreto BravoUniversidad de Concepción