curso de verano "datos y gobierno abierto" david cabo

Post on 11-Jun-2015

73 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Ponencia de David Cabo dentro del curso de verano "Datos y gobierno Abierto" organizado por la iniciativa Aragón Open Data de la Dirección General de Nuevas Tecnologías del Gobierno de Aragón. La ponencia se celebró dentro de los cursos de verano de la Universidad de Zaragoza, en Jaca, del 10 al 12 de Julio de 2013 y se titula "Reutilización de datos abiertos y no tan abiertos"

TRANSCRIPT

...Preparación de datos para su análisis

David Cabo @dcabo

CC BY-NC-SA

Open data / datos abiertos

- disponible online, gratuita - procesable por ordenadores- licencia abierta, reutilizable

PDF

Generadoelectrónicamente

(buscable)

Imagenescaneada

Tablas Formato complejo

PDF

Generadoelectrónicamente

(buscable)

Imagenescaneada

Formato complejoTablas

Tablas

1. Copiar y pegar a Excel no funciona bien

2. Programas de pago: deskUNPDF, Nitro, Acrobat Pro...

3. Servicios web gratuitos:

• cometdocs.com

• pdftoexcelonline.com

• zamzar.com

Tablas

PDF

Generadoelectrónicamente

(buscable)

Imagenescaneada

Formato complejo

Formatos complejos

• Columnas, datos partidos en varias lineas, datos intercalados entre el texto...

• Las herramientas automáticas no suelen ser capaces de extraer la información

• Es necesario:

• extraer el texto del PDF (xpdf / poppler)

• y crear un programa específico (Ruby, Python, Perl... + expresiones regulares)

Tablas

PDF

Generadoelectrónicamente

(buscable)

Formato complejo

Imagenescaneada

Imágenes

• El texto original no está disponible: no podemos buscar en él, ni copiarlo

• Software para reconocer carácteres (OCR)

• La fiabilidad depende de la calidad de la entrada (limpieza, resolución, tipo de letra)

• Bastante trabajo:

• Hay que revisar el resultado

• Difícil de automatizar para muchos ficheros

OCROpen Source

• Tesseract + OCROpus

• Usado por Google

• No es fácil de instalar y utilizar

Comerciales

• AbbyyReader

• Adobe Acrobat Pro

• Solid

• Google Docs (gratis)

http://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-data

Ruby, Google Refine, Firebug, Nokogiri, Tesseract

¿Preguntas?

David Cabo (@dcabo)

top related