big data: desde el abc hasta lo que (casi) nadie suele decir en las conferencias - alvaro brenna

Post on 15-Apr-2017

492 Views

Category:

Software

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Big Data: Desde el ABC hasta lo que (casi) nadie suele decir en las conferencias

Alvaro Brenna Director A-3i

alvaro.brenna@a-3i.com @A3iBcn

Antecedentes y causas de la aparición del Big Data State of the Art Casos de uso Tecnología Impacto Económico y Social Evolución futura

Una visión “estroboscópica”

Definición

Big Data

Volumen expansivo de datos - Definición “móvil” dependiente de la tecnología

NYSE 1 TB de información diaria 150 Exabytes en datos sanitarios (2011) 400 millones de tweets diarios de 200 millones de usuarios activos mensuales 40 Zettabytes de datos para 2020, 300 veces más que en 2005 30.000 millones de contenidos mensuales compartidos en Facebook

3k Petabytes en video de menos de 7 minutos 16k Petabytes en video de más de 7 minutos

El 44% de los usuarios de Twitter nunca han escrito un tweet El 43% de los usuarios que ha escrito un Tweet no lo hicieron en 2014

Facebook almacena hoy 300 petabytes de contenido digital El 91% de los milennials (15-34 años) usan Facebook El 28% de los adolescentes de 12-17 años usan FB “todo el tiempo”

300 horas de video subidas a YouTube por minuto El contenido más buscado en YouTube en 2014 fue Music El 38,4% de los videos vistos en YouTube son musicales

State of the Art

Big Data

2014

2015

2003

Oren Etzioni

Tarifas aéreas 12.000 observaciones 41 días

2008

Sabre

Farecast 200 billones reservas

Microsoft compra Farecast por U$ 100M y es integrado en Bing

2012

75% de aciertos Ahorro promedio de U$ 50 por pasaje

1918

N1H1

500 millones de infectados 50-100 millones de víctimas (3-5% de la población mundial)

2009

Nueva mutación N1H1

3 billones de consultas diarias 50 M de términos más usuales Epidemias estacionales de 2003 a 2008 450 M de modelos matemáticos

Predicción acertada de casos y su distribución geográfica

2009 Semanas después

Google

Nature - publicación de la aproximación Big Data a la pandemia

1997

Ibm Watson

DeepBlue derrota a Gary Kasparov

2008

Inicio del proyecto Watson

Test run vs Jeopardy Humanos 95% aciertos Watson 15% aciertos (en el doble de tiempo)

2011

Watson vence sistemáticamente a los ganadores de Jeopardy

2005 2006

Watson es capaz de competir con los vencedores de Jeopardy

2014

Creación de la BU de Watson

2013

Watson supera en acierto el diagnóstico de cáncer de pulmón

Tecnología

Big Data

Ibm Watson Watson utiliza el m i s m o m a r c o cognitivo que los humanos usan para aprender

f

La aproximación QA recibe preguntas en lenguaje natural y devuelve una respuesta concreta, con lo que NO es comparable con la búsqueda documental

b

La base de conocimiento usada era de unos 200M de páginas de diversas fuentes ( W i k i p e d i a , D B p e d i a , Ya go , W o r d n et , diccionarios, thesauri, etc.

K

Ibm Watson

Watson (80 Teraflops) no llega a entrar en la lista Top500

El coste estimado d e l h a r d w a r e original era de unos U$ 3M

Cluster de 90 Power7 * 8 cores * 4 vías por core = 2.880 vías y 16 Tb de RAM

Deep QA + Apache UIMA Apache Hadoop

SUSE Linux Enteprise Server

Java + Prolog + C++

Alpine ApacheHadoop ApacheHive ApacheMahout BigML Cloudera Datawatch Flume GoogleBigQuery Knime MapReduce Matlab MongoDB NgDataLily Oozie Palantir Redis RightScale SkyTree Spring Statistica WekaAlpine ApacheHadoop ApacheHive ApacheMahout BigML Cloudera Datawatch Flume GoogleBigQuery Knime MapReduce Matlab MongoDB NgDataLily Oozie Palantir Redis RightScale SkyTree Spring Statistica WekaAlpine ApacheHadoop ApacheHive ApacheMahout BigML Cloudera Datawatch Flume GoogleBigQuery Knime MapReduce Matlab MongoDB NgDataLily Oozie Palantir Redis RightScale SkyTree Spring Statistica WekaAlpine ApacheHadoop ApacheHive ApacheMahout BigML Cloudera Datawatch Flume GoogleBigQuery Knime MapReduce Matlab MongoDB NgDataLily Oozie Palantir

Nuevo Paradigma

Nuevos Players

Nuevas Herramientas

Fuerte Presencia OpenSource

Base de Datos específicas

Procesamiento distribuido

Modelización matemática

Generación de Patrones

Paradigma diverso del BI

Diferenciación Tecnológica

Sustituir mi Base de Datos relacional “de toda la vida” por Hadoop ? L

No existe una solución integrada única y holística para el Big Data ? y

No estaremos hablando de un Data Warehouse y un BI “a lo grande” ? J

Y qué pasa con el Cloud ? i

Big Data

Pervasive (o Ubiquitous )Computing

Movilidad

IoT Wearables

Smart Cities

Smart Devices

Los pies en la tierra

Big Data

Casos de uso genéricos

Exploración del Big Data y

Seguridad extendida a partir de patrones E

Personalización extrema de cliente g

Análisis de Operaciones

p

Modernización y ampliación del DataWarehouse

R

Tres proyectos reales y cercanos

Turismo OnLine - Reservas vs Consultas

Desplazamientos físicos de visitantes a través del roaming

Ambiente físico adaptativo a partir del reconocimiento facial de expresiones

Datos

Orígenes de Datos Valor de los Datos Federación de Datos Seguridad Privacidad del Sector Público

Modelos

Data Scientists Machine Learning Real Time Analysis Decision Systems

Transformación

Impacto en el Management Hombre vs Máquina

Del expertise del dominio a la capacidad de decisión no automatizable

En esta presentación se han citado compañías que son Marcas Registradas y se utilizan conceptos y re-ediciones de material que puede estar protegido por Derechos de Autor. Dichos usos están amparados en el derecho de Fair Use en tanto el objetivo del documento no es en ningún caso comercial sino divulgativo.

Ver https://en.wikipedia.org/wiki/Fair_use para más información.

Gracias

?

top related