big data: desde el abc hasta lo que (casi) nadie suele decir en las conferencias - alvaro brenna

33
Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias Alvaro Brenna Director A-3i [email protected] @A3iBcn

Upload: genexus

Post on 15-Apr-2017

488 views

Category:

Software


0 download

TRANSCRIPT

Page 1: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias

Alvaro Brenna Director A-3i

[email protected] @A3iBcn

Page 2: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna
Page 3: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

Antecedentes y causas de la aparición del Big Data State of the Art Casos de uso Tecnología Impacto Económico y Social Evolución futura

Page 4: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

Una visión “estroboscópica”

Page 5: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

Definición

Big Data

Page 6: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

Volumen expansivo de datos - Definición “móvil” dependiente de la tecnología

Page 7: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

NYSE 1 TB de información diaria 150 Exabytes en datos sanitarios (2011) 400 millones de tweets diarios de 200 millones de usuarios activos mensuales 40 Zettabytes de datos para 2020, 300 veces más que en 2005 30.000 millones de contenidos mensuales compartidos en Facebook

Page 8: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

3k Petabytes en video de menos de 7 minutos 16k Petabytes en video de más de 7 minutos

El 44% de los usuarios de Twitter nunca han escrito un tweet El 43% de los usuarios que ha escrito un Tweet no lo hicieron en 2014

Facebook almacena hoy 300 petabytes de contenido digital El 91% de los milennials (15-34 años) usan Facebook El 28% de los adolescentes de 12-17 años usan FB “todo el tiempo”

300 horas de video subidas a YouTube por minuto El contenido más buscado en YouTube en 2014 fue Music El 38,4% de los videos vistos en YouTube son musicales

Page 9: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna
Page 10: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna
Page 11: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna
Page 12: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

State of the Art

Big Data

Page 13: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

2014

2015

Page 14: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

2003

Oren Etzioni

Tarifas aéreas 12.000 observaciones 41 días

2008

Sabre

Farecast 200 billones reservas

Microsoft compra Farecast por U$ 100M y es integrado en Bing

2012

75% de aciertos Ahorro promedio de U$ 50 por pasaje

Page 15: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

1918

N1H1

500 millones de infectados 50-100 millones de víctimas (3-5% de la población mundial)

2009

Nueva mutación N1H1

3 billones de consultas diarias 50 M de términos más usuales Epidemias estacionales de 2003 a 2008 450 M de modelos matemáticos

Predicción acertada de casos y su distribución geográfica

2009 Semanas después

Google

Nature - publicación de la aproximación Big Data a la pandemia

Page 16: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

1997

Ibm Watson

DeepBlue derrota a Gary Kasparov

2008

Inicio del proyecto Watson

Test run vs Jeopardy Humanos 95% aciertos Watson 15% aciertos (en el doble de tiempo)

2011

Watson vence sistemáticamente a los ganadores de Jeopardy

2005 2006

Watson es capaz de competir con los vencedores de Jeopardy

2014

Creación de la BU de Watson

2013

Watson supera en acierto el diagnóstico de cáncer de pulmón

Page 17: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

Tecnología

Big Data

Page 18: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

Ibm Watson Watson utiliza el m i s m o m a r c o cognitivo que los humanos usan para aprender

f

La aproximación QA recibe preguntas en lenguaje natural y devuelve una respuesta concreta, con lo que NO es comparable con la búsqueda documental

b

La base de conocimiento usada era de unos 200M de páginas de diversas fuentes ( W i k i p e d i a , D B p e d i a , Ya go , W o r d n et , diccionarios, thesauri, etc.

K

Page 19: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

Ibm Watson

Watson (80 Teraflops) no llega a entrar en la lista Top500

El coste estimado d e l h a r d w a r e original era de unos U$ 3M

Cluster de 90 Power7 * 8 cores * 4 vías por core = 2.880 vías y 16 Tb de RAM

Deep QA + Apache UIMA Apache Hadoop

SUSE Linux Enteprise Server

Java + Prolog + C++

Page 20: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

Alpine ApacheHadoop ApacheHive ApacheMahout BigML Cloudera Datawatch Flume GoogleBigQuery Knime MapReduce Matlab MongoDB NgDataLily Oozie Palantir Redis RightScale SkyTree Spring Statistica WekaAlpine ApacheHadoop ApacheHive ApacheMahout BigML Cloudera Datawatch Flume GoogleBigQuery Knime MapReduce Matlab MongoDB NgDataLily Oozie Palantir Redis RightScale SkyTree Spring Statistica WekaAlpine ApacheHadoop ApacheHive ApacheMahout BigML Cloudera Datawatch Flume GoogleBigQuery Knime MapReduce Matlab MongoDB NgDataLily Oozie Palantir Redis RightScale SkyTree Spring Statistica WekaAlpine ApacheHadoop ApacheHive ApacheMahout BigML Cloudera Datawatch Flume GoogleBigQuery Knime MapReduce Matlab MongoDB NgDataLily Oozie Palantir

Nuevo Paradigma

Nuevos Players

Nuevas Herramientas

Fuerte Presencia OpenSource

Page 21: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

Base de Datos específicas

Procesamiento distribuido

Modelización matemática

Generación de Patrones

Paradigma diverso del BI

Page 22: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

Diferenciación Tecnológica

Sustituir mi Base de Datos relacional “de toda la vida” por Hadoop ? L

No existe una solución integrada única y holística para el Big Data ? y

No estaremos hablando de un Data Warehouse y un BI “a lo grande” ? J

Y qué pasa con el Cloud ? i

Page 23: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

Big Data

Pervasive (o Ubiquitous )Computing

Movilidad

IoT Wearables

Smart Cities

Smart Devices

Page 24: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna
Page 25: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

Los pies en la tierra

Big Data

Page 26: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

Casos de uso genéricos

Exploración del Big Data y

Seguridad extendida a partir de patrones E

Personalización extrema de cliente g

Análisis de Operaciones

p

Modernización y ampliación del DataWarehouse

R

Page 27: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

Tres proyectos reales y cercanos

Turismo OnLine - Reservas vs Consultas

Desplazamientos físicos de visitantes a través del roaming

Ambiente físico adaptativo a partir del reconocimiento facial de expresiones

Page 28: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna
Page 29: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna
Page 30: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

Datos

Orígenes de Datos Valor de los Datos Federación de Datos Seguridad Privacidad del Sector Público

Modelos

Data Scientists Machine Learning Real Time Analysis Decision Systems

Transformación

Impacto en el Management Hombre vs Máquina

Del expertise del dominio a la capacidad de decisión no automatizable

Page 31: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

En esta presentación se han citado compañías que son Marcas Registradas y se utilizan conceptos y re-ediciones de material que puede estar protegido por Derechos de Autor. Dichos usos están amparados en el derecho de Fair Use en tanto el objetivo del documento no es en ningún caso comercial sino divulgativo.

Ver https://en.wikipedia.org/wiki/Fair_use para más información.

Page 32: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

Gracias

Page 33: Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias - Alvaro Brenna

?