Transcript
Page 1: Curso de Verano "Datos y Gobierno Abierto" David Cabo

...Preparación de datos para su análisis

David Cabo @dcabo

CC BY-NC-SA

Page 3: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 4: Curso de Verano "Datos y Gobierno Abierto" David Cabo

Open data / datos abiertos

- disponible online, gratuita - procesable por ordenadores- licencia abierta, reutilizable

Page 6: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 7: Curso de Verano "Datos y Gobierno Abierto" David Cabo

PDF

Generadoelectrónicamente

(buscable)

Imagenescaneada

Tablas Formato complejo

Page 8: Curso de Verano "Datos y Gobierno Abierto" David Cabo

PDF

Generadoelectrónicamente

(buscable)

Imagenescaneada

Formato complejoTablas

Page 9: Curso de Verano "Datos y Gobierno Abierto" David Cabo

Tablas

1. Copiar y pegar a Excel no funciona bien

2. Programas de pago: deskUNPDF, Nitro, Acrobat Pro...

3. Servicios web gratuitos:

• cometdocs.com

• pdftoexcelonline.com

• zamzar.com

Page 10: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 11: Curso de Verano "Datos y Gobierno Abierto" David Cabo

Tablas

PDF

Generadoelectrónicamente

(buscable)

Imagenescaneada

Formato complejo

Page 12: Curso de Verano "Datos y Gobierno Abierto" David Cabo

Formatos complejos

• Columnas, datos partidos en varias lineas, datos intercalados entre el texto...

• Las herramientas automáticas no suelen ser capaces de extraer la información

• Es necesario:

• extraer el texto del PDF (xpdf / poppler)

• y crear un programa específico (Ruby, Python, Perl... + expresiones regulares)

Page 13: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 14: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 15: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 16: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 17: Curso de Verano "Datos y Gobierno Abierto" David Cabo

Tablas

PDF

Generadoelectrónicamente

(buscable)

Formato complejo

Imagenescaneada

Page 18: Curso de Verano "Datos y Gobierno Abierto" David Cabo

Imágenes

• El texto original no está disponible: no podemos buscar en él, ni copiarlo

• Software para reconocer carácteres (OCR)

• La fiabilidad depende de la calidad de la entrada (limpieza, resolución, tipo de letra)

• Bastante trabajo:

• Hay que revisar el resultado

• Difícil de automatizar para muchos ficheros

Page 19: Curso de Verano "Datos y Gobierno Abierto" David Cabo

OCROpen Source

• Tesseract + OCROpus

• Usado por Google

• No es fácil de instalar y utilizar

Comerciales

• AbbyyReader

• Adobe Acrobat Pro

• Solid

• Google Docs (gratis)

Page 20: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 21: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 22: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 23: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 24: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 25: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 27: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 32: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 33: Curso de Verano "Datos y Gobierno Abierto" David Cabo
Page 36: Curso de Verano "Datos y Gobierno Abierto" David Cabo

http://www.propublica.org/nerds/item/doc-dollars-guides-collecting-the-data

Ruby, Google Refine, Firebug, Nokogiri, Tesseract

Page 37: Curso de Verano "Datos y Gobierno Abierto" David Cabo

¿Preguntas?

David Cabo (@dcabo)


Top Related