sueños y realidades de big data
DESCRIPTION
Vision de los alcances de un proyecto de Big Data. Explorando Técnicas y herramientas de proyectos reales.TRANSCRIPT
Ciencia de Datos Mexicana
Realidades y sueos de
en Mxico Marzo 20151
abel.coronado @ inegi.org.mx
Qu es Big Data?Dan Ariely, Duke UniversityQu es Big Data?
@abxdaQu es Big Data?
Big Data
http://es.wikipedia.org/wiki/Los_ciegos_y_el_elefante
@abxdaQu es Big Data?Big data: A big mistake? Journal Significance, The Royal Statistical SocietyBig data Gartner & Finantial Times
http://datascience.berkeley.edu/what-is-big-data/ @abxdaQu es Big Data?
http://datascience.berkeley.edu/what-is-big-data/ @abxdaQu es Big Data?
Big Data sola significar que una sola maquina cierta cantidad de datos, Ahora Big Data se ha convertido en una palabra de moda.9
http://datascience.berkeley.edu/what-is-big-data/ @abxdaQu es Big Data?
http://datascience.berkeley.edu/what-is-big-data/ @abxdaQu es Big Data?
http://datascience.berkeley.edu/what-is-big-data/ @abxda
Qu es Big Data?
Segn GartnerBig data es informacin en altos volmenes, alta velocidad o alta variedad que demanda formas creativas y viables econmicamente para procesarla con el fin de contribuir a tomar decisiones, actuar y crear valor.http://www.ft.com/intl/cms/e91a32d0-2bac-11e3-bfe2-00144feab7de.pdf Qu es Big Data?
@abxda
Considerar las Nuevas Fuentes de Datos para Complementar a las Tradicionales
@abxda
@abxda
http://upload.wikimedia.org/wikipedia/commons/5/5b/Samurai_award.jpg Tomar decisiones, actuar y crear valor
Big Data en las Oficinas Nacionales de Estadsticahttp://www1.unece.org/stat/platform/download/attachments/58492100/Big+Data+HLG+Final.docx?version=1&modificationDate=1362939424184
@abxda
It is clear that during the next two years there is a need to identify a few pilot projects that will serve as proof of concept.Statistical organisations are, therefore, encouraged to address formally Big data issues in their annual and multi-annual work programmes by undertaking research and pilot projects in selected areas and by allocating appropriate resources for that purpose. @abxda
Big Data en las Oficinas Nacionales de Estadstica
'new' exploration and analysis methods are required: Visualization methods, Text mining, and High Performance Computing.To use Big data, statisticians are needed with a different mind-set and new skills. The processing of more and more data for official statistics requires statistically aware people with an analytical mind-set, an affinity for IT (e.g. programming skills) @abxda
Big Data en las Oficinas Nacionales de Estadstica
http://www.r-bloggers.com/data-science-toolbox-survey-results-surprise-r-and-python-win/ ComprenderRecolectarExplorar, VisualizarLimpiarTransformar/CaracterizarModelar / EntrenarValidarComunicar?Imaginar /Considerar la Integracin de Otras Fuentes Analizar Fuente(s)ConceptualizarUn Proceso de Ciencia de Datos
Experto encomputacin ydesarrollo avanzadosExperto enestadsticamatemticaExperto enel dominio dedatosCIENCIADEDATOSZonapeligrosa!InvestigacintradicionalMachinelearningCiencia de Datos@abxda
http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram
Experto encomputacin ydesarrollo avanzadosExperto enestadsticamatemticaExperto enel dominio dedatosUnicornioZonapeligrosa!InvestigacintradicionalMachinelearningCiencia de Datos@abxdaCIENCIADEDATOS
http://www.anlytcs.com/2014/01/data-science-venn-diagram-v20.html Cientfico de Datos
Ingeniero de Datos@abxdaProductos de DatosManejar las 3 vsvs
VisualizacinModeladoContar HistoriasCientfico de DatosAdministracin de SistemasProgramacinMatemticasEstadsticaIngeniero de DatosAdministracin de Bases de DatosAlmacenamiento de Datos
http://101.datascience.community/2014/07/08/data-scientist-vs-data-engineer/
Equipo de Big Data y Ciencia de DatosEstadsticaMatemticasMachine LearningMinera de TextoInterfaces de UsuarioExperiencia del UsuarioFirst MobileVisualizacin de DatosIngeniera de SoftwareAdministradores de SistemasBases de datos NoSQLArquitecturas Big DataArquitecturas de SoftwareCrowdsourcing@abxda
Internet de las cosasInternet de las personasInternet de las ideasInternet del todoDatos Crudoshdfs://Informacin(Significado)TomarDecisionesActuar
quin?cuntos?por qu?qu?Dnde?Anlisis de DatosEstadsticaMachine LearningEstratificacionesAnlisis de RegresinMuestreoMucho msAnlisis de Redes (Grafos)Minera de DatosVelocidadVariedadVolumenCiencia de Datos (Transforma/Modela)Cmputo Concurrente y ParaleloArquitectura paraCiencia de Datos y Big Data
@abxda@hbcolectivo
Internet de las Personas
Internet de las Cosas
Sensores{ json }< xml >c,s,v
Redes Sociales
Internet de las IdeasCrowdsourcing
Sistemas de Archivos DistribuidosComputo Paralelo y ConcurrenteProgramacin FuncionalRazonamiento Algebraico
EstadsticaAnlisis MultivariadoMachine LearningAnlisis de Interaccin Espacial
{ json }< xml >c,s,v{ json }< xml >c,s,vBases de Datos NoSQLVisualizacin
Panorama Tecnolgico
Infraestructura de Cmputo
Estratificador InegiQu es un producto de datos
Ciencia de Datos
www.inegi.org.mx/est/contenidos/Proyectos/estratificador/ @abxda
Tecnologas Involucradas (2013)
{ JSON }
@abxdaD3.js Librera JavaScript para creacin de losgrficos vectoriales interactivos.Librera JavaScript facilita la incorporacin del patrnMVC en aplicaciones web de una sola pginaDiseo de estructura de la pgina y habilitacinresponsiva via Twitter Bootstrap.JSON formato de intercambio de datos.Motor de anlisis estadstico,habilitador de la inteligenciaestadstica.
Ciencia de Datos
@abxdaCiencia de Datos
@abxdaCiencia de Datos
%Acceso a Internet, %Pc, %Telefono Celular, %Automovil
@abxdaEstratificacin de 1.2 M de ManzanasEn la misma Pc de 4 Procesadores:(2013)SoftwareTiempoManzanasBig Data8 Seg.1221,180Tradicional8 Seg.2,666https://spark.apache.org/
@hbcolectivoTwitter como fuente de Big DataPara medir el pulso emotivo de Mxico y mucho ms
Cuntos caracteres?
@abxda
140 ???
@abxda
Todo listo para la presentacin de #BigData en el @FSLmx .1482
Json: Formato de Intercambio
Nuestra huella en las Redes Sociales
@abxdaTodos los tuits estn disponibles para su recoleccin en tiempo real.
@abxda
Incluso permite consultas geogrficas
@abxda
Dnde recolectar?@abxda
http://www.elasticsearch.org/
@abxda
Por qu ElasticSearch?@abxda
Switch Puertos (a) 10.200.2.xPuertos (b)10.1.1.X
Hydra 2 [10.1.1.X | 10.200.X.X]Hydra1 Master 10.1.1.XAcceso a Internet [Recolecta informacin Redes Sociales]
< ESCALABILIDAD HORIZONTAL >Por qu ElasticSearch?@abxda
Hydra
@abxda< ESCALABILIDAD HORIZONTAL >
Hydra
El 22 de enero cumplimos 1 ao de estar recolectando las 24 horas 7 das de la semana.Mas de 121 millones de tuits recolectadosRecoleccin de tuits en Archivos Distribuidos con Bases de Datos NoSQL.
Visualizacin de la Base de Datos
121 Millones de Tuits
Frecuencia de Tuiteo
# TuitsFrecuencia por hora del da882,007 Tuiteros generaron 43079,312 de Tuits
Frecuencia de Tuiteo
Movilidad de los Tuiteros
4469,550 de desplazamientos de 347,157 Tuiteros
Movilidad hacia Pueblos Mgicos
Contenido de los Tuits
@abxdaRed Nacional de Caminos y Twitter
Red Nacional de Caminos y Twitter
DENUE & Twitter
Horarios de Tuiteo cerca de algn sector
@abxda
PIO Anlisis y la medicin del bienestar a travs de twitterMachine LearningQu es un producto de datos
Indicador de sentimiento
Proceso de Machine LearningObjetivo:
Proceso de Machine Learning
Muestra de TuitsEtiquetado Manual
Representacin numrica
http://scikit-learn.org/http://www.r-project.org/ Machine LearningTuits en Tiempo Real
Modelo Clasificador
Indicador de sentimiento@abxda
EntrenamientoProduccin
http://cienciadedatos.inegi.org.mx/pioanalisis@hbcolectivo@ricardoaolvera@abxda
@abxda
{ JSON }
D3.js Librera JavaScript para creacin de losgrficos vectoriales interactivos.Librera JavaScript facilita la incorporacin del patrnMVC en aplicaciones web de una sola pginaDiseo de estructura de la pgina y habilitacinresponsiva via Twitter Bootstrap.JSON formato de intercambio de datos.Web Api 2 / Interface RESTTecnologas Involucradas
Resultados
@hbcolectivo@ricardoaolvera@abxdaAlrededor de 5000 anotadores de la Universidad Tec Milenio64
Seguimos trabajando Seguimos trabajando en la definicin de la estrategia y entrenamiento de los algoritmos de Machine Learning
IMPLEMENTACIN DE BIG DATA
Hadoop / Apache Spark
@abxda
Procesamiento70 Cores > 3 Ghz>250 Gb Ram5 TB+Recoleccin20 Cores > 3 Ghz100 Gb Ram1 TB
Tecnologa de procesamiento en paralelo para Ciencia de Datos
Apache Spark@abxda
@abxda
Reflexin@abxda
http://www.scidev.net/global/data/feature/big-data-for-development-facts-and-figures.html Reflexin@abxda
Preguntas@abxda