Download - Data pipeline
Trabajando con Datos
DATA PIPELINEJulio Lopez@jalp_ec@EscuelaDeDatos
¿OPEN DATA?
Hola
Mi nombre es Julio (@jalp_ec), soy de Ecuador tengo 27 años, peso 75 kg (no es cierto) y me encanta andar en bicicleta
Hola
Nombre, País, Edad, Peso, Pasatiempo, Twitter
Julio, Ecuador, 27, 75, bicicleta, @mexflow
Alvaro, Chile, 200, 90, rock, @redmatriz
Daniel, Uruguay, 20, 120, mate, @danielcarranza
Hola
Nombre, País, Edad, Peso, Pasatiempo, Twitter
Julio, Ecuador, 27, 75, bicicleta, @mexflow
Alvaro, Chile, 18, 90, rock, @redmatriz
Daniel, Uruguay, 20, 120, mate, @danielcarranza
Hola.csv
Nombre, País, Edad, Peso, Pasatiempo, Twitter
Julio, Ecuador, 27, 75, bicicleta, @mexflow
Alvaro, Chile, 18, 90, rock, @redmatriz
Daniel, Uruguay, 20, 120, mate, @danielcarranza
Datos• Dataset: Una colección de Datos, usualmente el
mismo tipo de datos. Ejemplo: Alumnos de este taller; un Álbum de Canciones
• Metadata: Datos sobre los Datos. De dónde vienen, cuándo se recolectaron, cómo, sus parámetros. Ejemplo: Sus nombres, medio en el cual trabajan, sección, rol, desdecuándo. Nombre del álbum, autor, canciones, duración, sello, estilo, etc.
• Datos Abiertos: Datos liberados y que cualquiera tiene permitido usar,reusar, construir cosas con ellos y compartir los resultados
¿Cómo empezamos a trabajar?
El “Data Pipeline” inicia planteándose una pregunta
para luego encontrar la información, extraerla,
limpiarla, verificarla, analizarla y presentarla.
http://es.schoolofdata.org/tag/pipeline/#sthash.1hteD09x.dpuf
Data Pipeline
Comenzamos con una o más preguntas
¿Qué sucede en mi país?
¿En qué se gasta el presupuesto público?
¿Cuántos partidos ganó mi selección?
Y así…..
1
2 Obtener la información
Algunas fuentes y portales oficiales de datos
O haciendo uso de pedidos de acceso a la información
HACKEANDO
Nerd MomentExtracción (Hackeand0). Acá los datos se
convierten desde cualquier formato de entrada que se ha adquirido (por ejemplo,
archivos XLS, PDF o incluso documentos de texto plano) en una forma que se puede
utilizar para su posterior procesamiento y análisis.
La mayoría de veces implica cargar los datos en un sistema de base de datos, como MySQL
o PostgreSQL.
O si eres más c00l MongoDB, Redis, SQLite, etc.
SCRAPPING • Scraping es un término que, traducido al
español, literalmente quiere decir “rascado”. Sin embargo, en este contexto, se refiere a la limpieza y filtro de los datos.
• http://es.schoolofdata.org/introduccion-a-la-extraccion-de-datos-de-sitios-web-scraping/#sthash.0qgjKaad.dpuf
• ImportHTML en Google Spreadsheets
3 Extraer
• The Google spreadsheet formula: =importHTML("","table",N)
=importHTML("http://en.wikipedia.org/wiki/List_of_largest_United_Kingdom_settlements_by_population","table",2) - See more at: http://schoolofdata.org/handbook/recipes/liberating-html-tables/#sthash.tDFCZOhd.dpuf
IMPORTDATA o IMPORTXML
Extraer los datos• Tabula Permite extraer tablas de PDFs.
• SmallPDF y Nitro Permiten convertir archivos de PDF a csv. La versión gratuita de Nitro permite un máximo de 50 páginas.
• Import.io Permite scrappear de manera fácil algunos sitios web
Limpiar los datos• Buscar+Reemplazar: Permite fácilmente
buscar términos en la hoja de cálculo y reemplazarlos por otros (google docs)
• Open Refine: Permite limpiar, modificar y exportar bases de datos. Además es gratuita.
4
Análisis de datos• Pivot Tables Una herramienta simple pero
poderosa que permite hacer y responder preguntas con los datos.
• R para los usuarios más avanzados, R es un lenguaje y entorno de programación para el análisis estadístico. Es gratuito y de software libre.
5
Visualización6• Con infogram se pueden crear gráficos e
infografías con un par de clicks. La herramienta es gratuita aunque para usar todas sus opciones se requiere pagar una cuota.
• CartoDB es ideal para visualizar información geolocalizada.
• Tableau Public El programa se descarga y offline permite hacer diferentes tipos de visualizaciones.
• Datawrapper Útil para hacer diferentes tipos de gráficos, todo de forma gratuita.
• Google Fusion Tables Permite organizar, visualizar y compartir información organizada en tablas de datos.
Data Pipeline
¿Cómo se implementa?
• Skillshares (online)
• Blog y web
• Data workshops (offline)
• Expedición de datos (online y offline)
• Other events and Data Projects – Collaborations
Expedición de Datos
¡Muchas gracias!@jalp_ec
@EscuelaDeDatos @SchoolOfData
10 minTarea: Encuentra una página web con una tabla y obtén información de ella.
http://schoolofdata.org/handbook/recipes/liberating-html-tables/
http://schoolofdata.org/handbook/recipes/scraper-extension-for-chrome/
• Una vez que tengas la tabla en tu hoja de cálculo, lo más seguro es que quieras jugar con los datos o cambiarlos de hoja. Haz clic en el botón superior izquierdo y selecciona paste special (pegado especial) y luego paste values only (pegar sólo valores).
Desafío: Ayuda a liberar el presupuesto
Tarea: ¡Encuentra un PDF encarcelado que puedas liberar!
• Por ejemplo, existen muchos PDFs que necesitan tu ayuda en este link: Budget Library of the International Budget Partnership.
Liberar el presupuesto
Una vez que liberes tus datos, compártelos con alguien y ahórrales el penoso trabajo. Incluso los pues subir al OpenSpending group en Datahub o al OpenSpending Mailing List , complementado con una explicación de lo que hiciste.