curs 1.5 publicació de dades

41
INICIATIVA BARCELONA OPEN DATA EL VALOR D’OBRIR LES DADES Procés de Publicació de Dades curs 1.5 Docents: Eduard Gil @edugil39 Enric Montia @EnricMontia

Upload: iopendatabcn

Post on 10-Feb-2017

79 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: Curs 1.5 Publicació de Dades

INICIATIVA BARCELONA OPEN DATA EL VALOR D’OBRIR LES DADES

Procés de Publicació de Dades

curs 1.5

Docents:Eduard Gil @edugil39Enric Montia @EnricMontia

Page 2: Curs 1.5 Publicació de Dades

INTRODUCCIÓ A LES DADES OBERTES

● Identificar les tasques previes que forman part d´un

procés de públicació de dades obertes.● Descriure el que i el perquè de les tasques

relacionades a un procés de públicacio de dades

obertes.● Aplicar tot allò après a casos concrets per ser capaç de

protagonitzar casos d'èxit.

Objectius

Page 3: Curs 1.5 Publicació de Dades

Publicació de Dades Obertes

● Un pla de dades obertes● Seleccionar les dades● Generar un Dataset● Publicar● Promocionar

Page 4: Curs 1.5 Publicació de Dades

Publicació de Dades Obertes

1. Començar amb un pla

5. Manteir-

lo

2. Selecció de les dades

4. Publicaci

ó

3. Creació

d’un Dataset

Procés de l’Open Data

Page 5: Curs 1.5 Publicació de Dades

Publicació de Dades Obertes

Page 6: Curs 1.5 Publicació de Dades

Pla de Dades Obertes

Tenir un Objectiu

Avaluar la Publicació i els usos actuals

Aconseguir Suport

Demostrar el valors

Page 7: Curs 1.5 Publicació de Dades

Pla de Dades Obertes

● Clarificar els objectius : Que vull aconseguir?

● Establir un pla de publicació: per on vull començar?

● No oblidar temes de LOPD i nou GRDP

Page 8: Curs 1.5 Publicació de Dades

Pla de Dades Obertes

Abans de decidir quines dades es publiquen com dades

obertes, les entitats públiques han de tenir una visió

general de les dades que es gestionen en l'actualitat, i per

tant podrien Inclouen bases de dades, registres, recollides

de dades i enquestes, conjunts de dades geoespacials etc.

Diagnòstic situació actual:

Page 9: Curs 1.5 Publicació de Dades

Pla de Dades Obertes

● Clarificar els objectius : Que vull aconseguir?● Establir un pla de publicació: per on vull començar?● Guia “Com fer un cas de negoci amb open data”

http://theodi.org/guides/how-make-business-case-open-data

El link dona error-Iniciativa Barcelona Open Data OdataBCN
Page 10: Curs 1.5 Publicació de Dades

Pla de Dades Obertes

● Buscar lideratge i suport: Directius, Open Data

Evangelists, TIC compartint informació sobre els

objectius i els resultats del pla.● Capturar evidències que les dades obertes estan

aportant valor: consultes, impacte, etc.

Page 11: Curs 1.5 Publicació de Dades

Escollir les Dades

Identificar les dades que tens

Seleccionar les dades obertes que vols

publicar

Desenvolupar un Pla de Publicació de Dades Obertes

Page 12: Curs 1.5 Publicació de Dades

Escollir les Dades

● Hi ha tres principals vies per seleccionar quines dades

es publiquen:■Actualització de les dades que ja estan en el domini

públic.■Seguir les millors pràctiques internacionals.■Les demandes a la unitat.

Page 13: Curs 1.5 Publicació de Dades

Escollir les Dades

Page 14: Curs 1.5 Publicació de Dades

Crear Datasets

Aplicar un format obert

Capturar els metadades

Aplicar una llicència oberta

Revisar els datasets

Page 15: Curs 1.5 Publicació de Dades

Crear Datasets

Després de seleccionar la informació que es desitja publicar

es necessari organitzar les dades de manera que pugui

posar a disposició per a baixar en formats llegibles per les

màquines i tenir en compte si existeixen o no estàndards

internacionals (INSPIRE, els 8 principis del OPEN

GOVERNMENT DATA).

Page 16: Curs 1.5 Publicació de Dades

Metadades

● Identificar Metadades: informació descriptiva sobre les

dades.

● Pot descriure elements com el contingut, el formats etc.

● Unes bones metadades poden permetre la

interoperabilitat amb altres data sets.

Page 17: Curs 1.5 Publicació de Dades

Metadades

● Hi ha tres tipus principals de metadades:■Les metadades descriptives (títol, autor)■Les metadades estructurals (pg x capítol)■Les metadades administratives (format)

Page 18: Curs 1.5 Publicació de Dades

Neteja de les Dades

● La neteja de dades és l'acte de descobriment i correcció

o eliminació de registres de dades errònies d'una taula o

base de dades. ● El procés de neteja de dades permet identificar dades

incompletes, incorrectes, inexactes, no pertinents, etc. i

després substituir, modificar o eliminar aquestes dades

bruts.● Després de la neteja, la base de dades podrà ser

compatible amb altres bases de dades similars en el

sistema.

Page 19: Curs 1.5 Publicació de Dades

Neteja de les Dades

● Si les dades estan netes, és més fàcil de combinar

diferents conjunts de dades i obtenir una visió més

profunda.

● Hi ha una sèrie d'errors comuns en les dades que

hauríem de tenir en compte en qualsevol conjunt de

dades que està treballant.

Page 20: Curs 1.5 Publicació de Dades

Neteja de les Dades

● Errors en el format de les dates: L'error més comú és

l'ús mixt de formats americans (MM/DD/AAAA) i

europeus (DD/MM/AAAA).● Les persones sovint tracten d'estalviar temps en

introduir dades abreujant termes. Si aquestes

abreviatures no són consistents, pot causar errors en el

conjunt de dades.

Page 21: Curs 1.5 Publicació de Dades

Neteja de les Dades

● Un registre duplicat és quan s'ha introduït la mateixa

peça de dades més d'una vegada. Sovint es produeixen

quan els conjunts de dades s'han combinat o perquè no

se sabia que ja existia una entrada.● Les dades redundats son qualsevol cosa que no sigui

rellevant per al seu treball amb el conjunt de dades.

Page 22: Curs 1.5 Publicació de Dades

Neteja de les Dades

● Un registre duplicat és quan s'ha introduït la mateixa

peça de dades més d'una vegada. Sovint es produeixen

quan els conjunts de dades s'han combinat o perquè no

se sabia que ja existia una entrada.● Les dades redundats son qualsevol cosa que no sigui

rellevant per al seu treball amb el conjunt de dades.

Page 23: Curs 1.5 Publicació de Dades

Neteja de les Dades

● Els valors numèrics en els conjunts de dades sovint

utilitzen diferents escales perquè sigui més fàcil per a un

ésser humà al llegir. No obstant, això per a una màquina

provoca errors.

● Els errors d'ortografia.

Page 24: Curs 1.5 Publicació de Dades

Open Refine 2.0 - Introducció

https://www.youtube.com/watch?v=B70J_H_zAWM

Neteja de les Dades

Page 25: Curs 1.5 Publicació de Dades

Llicències

El Sector Públic sobvint externalitza serveis, es fa necessari

explicitar en els contractes de servei que les dades

vinculades a l´activitat del contracte estaran subjectes al

Open Data i podran ser consultades per tothom de forma

gratuïta.

Page 26: Curs 1.5 Publicació de Dades

Llicències

Hi ha mètodes diferents per facilitar l'accés a dades

obertes: com dades en bloc (dadesdump), a través d'una

interfície de

programació d'aplicacions (API), com alimentació, a través

d'un punt final SPARQL, etc. El mètode més utilitzat i útil és

dades en

bloc, el que significa que el conjunt complet de dades ha

d'estar disponible en format descarregable.

Page 27: Curs 1.5 Publicació de Dades

Publicar

● Hem de decidir on publiquem les dades:■Web corporativa.■Portal de dades Obertes.

Page 28: Curs 1.5 Publicació de Dades

Publicar

Un catàleg de dades proporciona un registre o llista de tots

els conjunts de dades existents i un punter (URL) a on es

pot accedir a les dades. Un catàleg de dades de tots els

conjunts de dades obertes de dades disponibles és

generalment el component clau d'un portal de dades

obertes, a més de socials, notícies i els elements de la

comunitat.

Page 29: Curs 1.5 Publicació de Dades

Promoció

● Que la gent sàpiga que has obert alguns conjunts de

dades.● Si hi ha un cert grup de persones al que voleu arribar,

pensar quina seria la millor manera d'aconseguir el

missatge per a ells?● Cal per animar-los a utilitzar les seves dades.

Page 30: Curs 1.5 Publicació de Dades

Activitat final

Exercici pràctic de publicació de dades.

Activitat individual.Temps: 1,5 hores.

Page 31: Curs 1.5 Publicació de Dades

De dades no estructurades a dades estructurades

● Vegem com de propers estem a les dades no-

estructurades.

● Maneres d’estructurar dades no estructurades ?

● Vegem un exemple: https://www.youtube.com/watch?

v=OiskE1Jsr6A

Page 32: Curs 1.5 Publicació de Dades

De dades no estructurades a dades estructurades

● Extraiem el so del vídeo usant: www.vidtomp3.com

● Comprovem que l’àudio estigui ben descarregat en el

nostre ordinador.● Canviem el format fent servir:

www.audio.onlineconvert.com/convert-to-wav

Page 33: Curs 1.5 Publicació de Dades

De dades no estructurades a dades estructurades

● Ara anem a: https://speech-to-text-demo.mybluemix.net

● Pugem l’arxiu .wav i esperem la conversió a text (5 min)

● Copieu el text en un arxiu .txt i guardeu-lo.

Page 34: Curs 1.5 Publicació de Dades

De dades no estructurades a dades estructurades

● Visitem el web:

http://www.online-utility.org/text/analyzer.jsp

● Copiem el text i busquem a les estadístiques.

● Fem una fulla de càlcul amb les frases més usades de

tres paraules i la guardem com a CSV.

Page 35: Curs 1.5 Publicació de Dades

De dades no estructurades a dades estructurades

● Pugem la informació a http://demo.ckan.org

● Revisar que la informació estigui disponible online.

Page 36: Curs 1.5 Publicació de Dades

Activitat final

(Ara de veritat)

Exercici pràctic de publicació i anàlisi de dades.

Activitat individual.Temps: 1,5 hores.

Page 37: Curs 1.5 Publicació de Dades

Activitat final

Buscar a quines hores, en el primer trimestre de 2016, es van posar les multes més cares a Madrid.

Activitat individual.Temps: 1,5 hores.

Page 38: Curs 1.5 Publicació de Dades

Activitat final

És un bon portal de dades obertes el portal de l’Ajuntament de Madrid ?

Activitat individual.Temps: 1,5 hores.

Page 39: Curs 1.5 Publicació de Dades

Activitat final

Amb quins problemes ens trobem ?

Activitat individual.Temps: 1,5 hores.

Page 40: Curs 1.5 Publicació de Dades

Activitat final

Amb quins problemes ens trobem ?

Activitat individual.Temps: 1,5 hores.

Page 41: Curs 1.5 Publicació de Dades

>CD «Direcció_on_volem_el_.csv_combinat»

>copy «Direcció_on_són_els_.csv_a_combinar» «nom_del_nou_arxiu.csv»

Combinar .csv

Activitat individual.Temps: 1,5 hores.