apuntamentos sobre o xornalismo de precisión
DESCRIPTION
Presentación empregada nunha charla sobre xornalismo computacional ou de datos para o alumnado de último curso de Ciencias da Comunicación da USCTRANSCRIPT
Apuntamentos sobre o xornalismo de
precisión (de computación ou de datos)
Carlos Neira Cortizas
Contidos
Estatística e xornalismo
Formación adicional
Procedemento
Fundamentos do traballo con datos e BD
Fontes de datos e Open Data
Obtención e tratamento de datos
Software de análise de datos
Visualización de datos
Estatística e xornalismo
Teoría: O novo xornalismo de precisión (Meyer)
Práctica: o 20% das novas con cifras teñen erros, a maioría de gráficos son inapropiados Erros máis comúns:
Selección de datos irrelevantes ou menos relevantes
Sumas incompletas
Confusión de magnitudes, díxitos significantes
Confusión de medidas (absolutas/relativas, nivel/variación, posición/dispersión)
Avaliación de series temporais (estacionalidade, ciclo, tendencia)
Non consideración ou malinterpretación das marxes de erro en enquisas
Correlación (lineal) non implica causación
Escolla incorrecta do tipo de gráfico, escala, etiquetado, cor…
Suxestión de comparacións incongruentes
Exceso de detalles e adornos
Exemplos: Malaprensa, Junk charts
Estatística e xornalismo
Exercicios: Textos: Curso de
ética xornalística
Gráficos: Tables2Graphs, ChartChooser
Debate: Os/as xornalistas
odian as matemáticas (?) Letras ou ciencias vs.
letras e ciencias
Nivel da educación en España (informe PISA)
Criterio editorial > rigor profesional e científico
Formación adicional
Formación transversal Bases de datos, GIS
Estatística, minaría de datos
Internet, web, redes sociais, APIs, the cloud
Expresións regulares, programación, algoritmos
Desenvolvemento de aplicativos
Deseño gráfico, infografía, visualización de datos
Idiomas: inglés técnico
Formación especializada Socioloxía
Politoloxía
Economía financeira, macroeconomía
…
Procedemento
Noticia descritiva: táboas e gráficos de usar e tirar
Folla de cálculo e base de datos
Noticia(s) en profundidade: construción de bases de datos persoais e explotación demorada
Aplicativos especializados
Formar un equipo ou buscar asesoramento nos ámbitos que se precisan e non se dominan
Recursos / Imprescindible
O 80% do traballo vaise na recompilación e preparación de datos e non na análise
Tempo / Paciencia
Fundamentos do traballo con datos
Infinidade de libros sobre análise de datos
Bastantes menos sobre a obtención e o tratamento de datos
Introduction to Data Technologies (Paul Murrell)
Programación (code is poetry)
HTML / CSS
Almacenamento de datos
Metadatos
XML
Bases de datos
Consultas
SQL
Procesamento de datos
Expresións regulares
Bases de datos
Datos Estruturados
Semiestruturados
Sen estrutura
Bases de datos SQL Clientes:
MS Access, OpenOffice Base, Kexi
Servidores: MySQL, PostgreSQL, Microsoft SQL Server, Oracle, SQLite, MariaDB,
DB2, Informix…
Bases de datos NoSQL BigTable (Google)
DynamoDB (Amazon)
CouchDB, Cassandra, Hadoop, Hbase (Apache)
MongoDB, SimpleDB, Lotus Domino, InfinityDB…
Fontes de datos
Institutos e Oficinas de Estatística: IGE, INE, Eurostat
Organismos gobernamentais: Ministerios, IEF
Fundacións e institucións económicas: IEEG Barrié, NCG, La Caixa, BBVA, FUNCAS, Instituto L.R. Klein, Ardán, Camerdata, BCE, OCDE, World Bank
Lobbies económicos, de pago (a información é poder)
Google Public Data (+ fontes en inglés)
Portais colaborativos de datos e buscadores especializados: Freebase, Zanran
Copias históricas de contidos estáticos de sitios cambiados ou desaparecidos: Archive
Open Data
Power to the people + business
Parte de filosofía máis ampla: open-source governance, ética hacker
Acceso universal á información, e gratuíto (non ao „repago‟)
Ecosistemas e comunidades abertas e colaborativas, participación e decisión
RISP (reutilización información sector público), devolución ao público
Datos estruturados, estándares abertos, linked data e interoperabilidade
O licenciamento debe permitir un uso comercial, xerar negocio cos datos
A situación aquí e hoxe:
As iniciativas parten do ámbito tecnolóxico e non do estatístico ou administrativo
Máis datos pechados que abertos
>50% dos datos xa estaban en organismos estatísticos e rexistros administrativos
Publícanse táboas e frecuencias marxinais e non datos en bruto, matrices ou microdatos
Publícanse formatos non abertos e/ou non automatizables (por ex.: PDF)
Marco lexislativo timorato, Lei de Transparencia en curso = oportunidade perdida
Open Data
Recursos
Data.gov: EUA / Obama, pioneiros
CPEIG: Colexio Profesional de Enxeñaría en Informática de Galicia
Organiza o I Concurso OpenData
Abert@s (portal da Xunta de Galicia)
Datos.gob.es (portal da Administración Xeral do Estado)
Parte do proxecto Aporta
Fundación CTIC
Publica o Catálogo mundial de datos abertos
Asociación Pro Bono Público
Organiza o Desafío AbreDatos
Media-lab Prado: experiencias TIC comunitarias e procomún
CKan: aplicativo para instalar un servidor propio de datos abertos
GIS
Datos xeolocalizados
Todos os datos das ciencias sociais (persoas) son xeorreferenciables
A difusión e a ubicuidade acadadas polas TIC (portátiles, smartphones, tablets, GPS, redes sen fíos, etc.) estenden a produción de datos a calquera lugar
A tecnoloxía e as redes sociais facilitan a creación masiva de datos (big data) sobre calquera actividade humana
Na internet os datos (e non a publicidade) son a primeira fonte de ingresos, de xeración de negocio e de innovación
Software libre: gvSIG, GRASS
Servizos web: Google Maps e Google Earth, OpenStreetMap, IkiMap
Datos: GeoCommons, Natural Earth, CNIG-IGN, IET Xunta
Actualidade: La Cartoteca
Obtención e tratamento de datos
Mundo analóxico „Picado‟ de datos e OCR de texto, listados e táboas numéricas
Almacenamento masivo En soporte óptico: DVDs do Censo, BDs electorais do Ministerio do
Interior…
Pantalla Webscraping: Scrapy / Scraper Wiki
Rede (I) Copia
Descarga directa
Clonador de sitios: HTTrack
Clonador de sitios desaparecidos: Warrick sobre Archive.org…
Xeración Formularios públicos: Google Docs > Google Drive
Sistema profesional e multilingüe de enquisas: LimeSurvey
Obtención e tratamento de datos
Rede (II) Sindicación de contidos
Fluxo personalizado de noticias: por ex.: RSS de Google News das noticias con “xornalismo”
Planet agregando noticias nun CMS: FeedWordPress para WordPress
Agregación, contaxe e visualización de palabras/etiquetas máis frecuentes: FeedVis
Xerador de RSS para webs sen sindicación: OpenDapper
Ferramentas avanzadas
Tubaxes e filtros para xerar datos estruturados: Yahoo Pipes
Depuración e limpeza de datos: Google Refine, DataCleaner
Repositorio/Xestor de contidos xornalísticos cun CMS: ManagingNews sobre Drupal
Distribución OpenSuse para xornalismo de datos: Computational Journalism Server
Obtención e tratamento de datos
Rede (e III)
Combinando a análise de datos coa programación e o desenvolvemento
APIs: social networks & crowdsourcing: Google, Facebook, Twitter, Nestoria
Natural language processing & sentiment analysis: TweetFeel (en), Tuitómetro (es), Daedalus (gl)
Algorithms, machine learning & recommendation systems: Netflix Prize
Enterprise data & Public data = Big Data
Software de análise de datos
Complementos
MS Excel templates & macros (BiPlot, Colored Bar Chart, Geocoding tool, Interactive Regression, Motion charts)
MS Excel add-ins (Analyse-It, Arma, ChartTools, CleanCharts, ErrorBars, Excellent Analytics, FuzzyLookup, LOESS utility, PowerPivot, SolverStat, XLMiner, XLStat, XY Chart Labeler)
Paquetes estatísticos e matemáticos
Matlab, R, SAS, SOFA, SPSS, Statistica
Aplicativos de minaría de datos
Enterprise Miner (SAS), Orange, RapidMiner, SPSS Modeller (IBM)
Paquetes de intelixencia de negocio
Cognos 8 BI / DB2 Data Warehouse (IBM), Data Mining (Oracle), Knime, Netweaver Business Warehouse (SAP), Pentaho
Solucións
Gate (textmining)
Paquetes de integración
Weka, Keel, Tanagra
Bibliotecas de minaría de datos
Especialidades
Prototipos de investigación
Visualización de datos
Nomes: Edward Tufte, o gurú da visualización de datos
Hans Rosling, Gapminder e o boom da representación de datos na rede
Xocas G.V., un galego nas infografías do NYT
Exemplos: Complexidade: Bestiario, The Observatory of Economic Complexity,
Visual Complexity, Visualizing.org,
Interacción: Build Last.fm, TouchGraph for Facebook, Twitterfall
Tempo real: Infomous, NewsMap
Ferramentas: Gephi, Google Fusion Tables, ManyEyes, Tableau, Wordle
Actualidade: Blogs de visualización de datos
Visualización de datos
Visualización de datos
Visualización de datos
Visualización de datos
Exemplos
Manifestación do 17 de Maio de 2012 na Praza da Quintana Asistencia:
Organización: 25.000 persoas
Real: +/- 3.500 persoas
Recursos: Asistencia
Fotografías panorámicas e de perímetro
Manifestómetro (blog)
Manifestómetro (medidor)
Aberración: „Sempre se dixo que…‟ na Quintana caben
15.000 persoas
Iso supón, coa praza limpa de obstáculos, 4,5 persoas / m2
3 veces a media histórica
Exemplos
Sondaxes electorais áutonómicas en Galicia Comportamento:
Subestiman sistematicamente ao PP
O 75% das enquisas poñían por diante do PP a suma de PSOE e BNG, e en só 1 de 3 resultados reais isto aconteceu.
Hai cociñas demoscópicas que engordan sistematicamente ao PP, e iso fai que, ás veces, atinen
Recursos: BD construída ao longo de 12 anos
Folla de cálculo e complementos
Blog para a difusión
Interpretación: Cos últimos datos a posibilidade de que o
PP perda a Xunta son mínimas