big data: desde el abc hasta lo que (casi) nadie suele decir en las conferencias - alvaro brenna
TRANSCRIPT
Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias
Alvaro Brenna Director A-3i
[email protected] @A3iBcn
Antecedentes y causas de la aparición del Big Data State of the Art Casos de uso Tecnología Impacto Económico y Social Evolución futura
Una visión “estroboscópica”
Definición
Big Data
Volumen expansivo de datos - Definición “móvil” dependiente de la tecnología
NYSE 1 TB de información diaria 150 Exabytes en datos sanitarios (2011) 400 millones de tweets diarios de 200 millones de usuarios activos mensuales 40 Zettabytes de datos para 2020, 300 veces más que en 2005 30.000 millones de contenidos mensuales compartidos en Facebook
3k Petabytes en video de menos de 7 minutos 16k Petabytes en video de más de 7 minutos
El 44% de los usuarios de Twitter nunca han escrito un tweet El 43% de los usuarios que ha escrito un Tweet no lo hicieron en 2014
Facebook almacena hoy 300 petabytes de contenido digital El 91% de los milennials (15-34 años) usan Facebook El 28% de los adolescentes de 12-17 años usan FB “todo el tiempo”
300 horas de video subidas a YouTube por minuto El contenido más buscado en YouTube en 2014 fue Music El 38,4% de los videos vistos en YouTube son musicales
State of the Art
Big Data
2014
2015
2003
Oren Etzioni
Tarifas aéreas 12.000 observaciones 41 días
2008
Sabre
Farecast 200 billones reservas
Microsoft compra Farecast por U$ 100M y es integrado en Bing
2012
75% de aciertos Ahorro promedio de U$ 50 por pasaje
1918
N1H1
500 millones de infectados 50-100 millones de víctimas (3-5% de la población mundial)
2009
Nueva mutación N1H1
3 billones de consultas diarias 50 M de términos más usuales Epidemias estacionales de 2003 a 2008 450 M de modelos matemáticos
Predicción acertada de casos y su distribución geográfica
2009 Semanas después
Nature - publicación de la aproximación Big Data a la pandemia
1997
Ibm Watson
DeepBlue derrota a Gary Kasparov
2008
Inicio del proyecto Watson
Test run vs Jeopardy Humanos 95% aciertos Watson 15% aciertos (en el doble de tiempo)
2011
Watson vence sistemáticamente a los ganadores de Jeopardy
2005 2006
Watson es capaz de competir con los vencedores de Jeopardy
2014
Creación de la BU de Watson
2013
Watson supera en acierto el diagnóstico de cáncer de pulmón
Tecnología
Big Data
Ibm Watson Watson utiliza el m i s m o m a r c o cognitivo que los humanos usan para aprender
f
La aproximación QA recibe preguntas en lenguaje natural y devuelve una respuesta concreta, con lo que NO es comparable con la búsqueda documental
b
La base de conocimiento usada era de unos 200M de páginas de diversas fuentes ( W i k i p e d i a , D B p e d i a , Ya go , W o r d n et , diccionarios, thesauri, etc.
K
Ibm Watson
Watson (80 Teraflops) no llega a entrar en la lista Top500
El coste estimado d e l h a r d w a r e original era de unos U$ 3M
Cluster de 90 Power7 * 8 cores * 4 vías por core = 2.880 vías y 16 Tb de RAM
Deep QA + Apache UIMA Apache Hadoop
SUSE Linux Enteprise Server
Java + Prolog + C++
Alpine ApacheHadoop ApacheHive ApacheMahout BigML Cloudera Datawatch Flume GoogleBigQuery Knime MapReduce Matlab MongoDB NgDataLily Oozie Palantir Redis RightScale SkyTree Spring Statistica WekaAlpine ApacheHadoop ApacheHive ApacheMahout BigML Cloudera Datawatch Flume GoogleBigQuery Knime MapReduce Matlab MongoDB NgDataLily Oozie Palantir Redis RightScale SkyTree Spring Statistica WekaAlpine ApacheHadoop ApacheHive ApacheMahout BigML Cloudera Datawatch Flume GoogleBigQuery Knime MapReduce Matlab MongoDB NgDataLily Oozie Palantir Redis RightScale SkyTree Spring Statistica WekaAlpine ApacheHadoop ApacheHive ApacheMahout BigML Cloudera Datawatch Flume GoogleBigQuery Knime MapReduce Matlab MongoDB NgDataLily Oozie Palantir
Nuevo Paradigma
Nuevos Players
Nuevas Herramientas
Fuerte Presencia OpenSource
Base de Datos específicas
Procesamiento distribuido
Modelización matemática
Generación de Patrones
Paradigma diverso del BI
Diferenciación Tecnológica
Sustituir mi Base de Datos relacional “de toda la vida” por Hadoop ? L
No existe una solución integrada única y holística para el Big Data ? y
No estaremos hablando de un Data Warehouse y un BI “a lo grande” ? J
Y qué pasa con el Cloud ? i
Big Data
Pervasive (o Ubiquitous )Computing
Movilidad
IoT Wearables
Smart Cities
Smart Devices
Los pies en la tierra
Big Data
Casos de uso genéricos
Exploración del Big Data y
Seguridad extendida a partir de patrones E
Personalización extrema de cliente g
Análisis de Operaciones
p
Modernización y ampliación del DataWarehouse
R
Tres proyectos reales y cercanos
Turismo OnLine - Reservas vs Consultas
Desplazamientos físicos de visitantes a través del roaming
Ambiente físico adaptativo a partir del reconocimiento facial de expresiones
Datos
Orígenes de Datos Valor de los Datos Federación de Datos Seguridad Privacidad del Sector Público
Modelos
Data Scientists Machine Learning Real Time Analysis Decision Systems
Transformación
Impacto en el Management Hombre vs Máquina
Del expertise del dominio a la capacidad de decisión no automatizable
En esta presentación se han citado compañías que son Marcas Registradas y se utilizan conceptos y re-ediciones de material que puede estar protegido por Derechos de Autor. Dichos usos están amparados en el derecho de Fair Use en tanto el objetivo del documento no es en ningún caso comercial sino divulgativo.
Ver https://en.wikipedia.org/wiki/Fair_use para más información.
Gracias
?