big data

42
BIG DATA y un Océano de Datos M.SC. ALDO VALDEZ ALVARADO Agosto, 2016 Preparado como parte de 5ta. Semana de la Ciencia UNIVERSIDAD MAYOR DE SAN ANDRÉS FACULTAD DE CIENCIAS PURAS Y NATURALES SOCIEDAD CIENTÍFICA ESTUDIANTIL FCPN

Upload: msc-aldo-valdez-alvarado

Post on 18-Feb-2017

595 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: Big data

BIG DATA y un Océano de Datos

M.SC. ALDO VALDEZ ALVARADO Agosto, 2016

Preparado como parte de 5ta. Semana de la Ciencia

UNIVERSIDAD MAYOR DE SAN ANDRÉS

FACULTAD DE CIENCIAS PURAS Y NATURALES

SOCIEDAD CIENTÍFICA ESTUDIANTIL FCPN

Page 2: Big data

Antecedentes

Definición

El Valor de los Datos

Herramientas de Big Data

Casos de Éxito

Índice 1

2

3

4

5

Page 3: Big data

ANTECEDENTES

Page 4: Big data

La Revolución de los Datos El proyecto Sloan Digital Sky Survey

http://www.sdss.org/

Page 5: Big data

La Revolución de los Datos El proyecto del Genoma Humano

Page 6: Big data

La Revolución de los Datos IoT

Page 7: Big data

La Revolución de los Datos

¿Qué inicio la revolución de los datos masivos?

Page 8: Big data

La Revolución de los Datos

1. Gran cantidad de datos acumulados hacía inviable su procesamiento en un único ordenador

2. Imposible analizar con las técnicas tradiciones de BD 3. Imposible almacenarlas siguiendo el modelo clásico de BD 4. Heterogeneidad de datos. Necesidad de insertar, consultar y

procesar datos en diferentes estructuras 5. Necesidad de procesar rápidamente los datos. Ejemplo:

queries del buscador web

Page 9: Big data

La Revolución de los Datos • Actualmente existen almacenados +2.7 Zetabytes (1 Zetabyte = 1

Trillón de gigabytes), se esperan 35 Zetabytes para 2020 • En 2012 la información digital alcanzó a nivel mundial 2.837

exabytes (miles de millones de gigabytes). Puestos en DVDs, la torre sería de 400.000 Kms, más que la distancia de la Tierra a la Luna

• Google procesa más de 24 Petabytes/día, información equivalente a varios miles de veces la biblioteca del congreso de USA

• En 2007 solo el 7% de la información estaba en medios analógicos (libros, revistas, fotografías en papel, etc.)

Page 10: Big data

La Revolución de los Datos

Page 11: Big data

La Revolución de los Datos

Page 12: Big data

DEFINICIÓN

Page 13: Big data

Definición

En el 2001, el analista Doug Laney de META Group (ahora Gartner) utilizaba y definía el término Big Data como: “el conjunto de técnicas y tecnologías para el tratamiento de datos, en entornos de gran volumen, variedad de orígenes y en los que la velocidad de respuesta es crítica”.

Page 14: Big data

Las 3 V’s del Big Data

Volumen • Crecimiento exponencial

de datos • De Gigabytes a Terabytes

de información diaria • Se considera un gran

volumen a partir de los Petabyte

Page 15: Big data

Las 3 V’s del Big Data

Velocidad • Frecuencia a la que se genera los datos • Tiempo de respuesta crítico P.ej. Sistemas de tránsito • Procesado en tiempo (casi) real • Consideramos dos tipos de velocidad:

• Velocidad de carga (procesos ETL) • Velocidad de procesamiento

Page 16: Big data

Las 3 V’s del Big Data

Variedad • Diferentes formatos y estructuras de los datos

• Orígenes de datos estructurados. Bases de datos, hojas de cálculo o ficheros CSV

• Orígenes de datos semiestructurados. Documentos XML o páginas web

• Orígenes de datos no estructurados. Documentos de texto, audio, imágenes o vídeo

Page 17: Big data

Las 3 V’s del Big Data

Page 18: Big data

Las 4 V’s del Big Data

Veracidad • IBM introdujo una cuarta V • La gran cantidad de datos y la diversidad de orígenes

provoca que la veracidad debe ser considerada • 2 tipos:

• Exactitud del dato • Exactitud del cálculo

¡No hay unanimidad sobre esta 4ta. V!

Page 19: Big data

Las 4 V’s del Big Data

Page 20: Big data

Claves del Big Data • Una única plataforma para

manejar los datos Integración

• Pre procesamiento de datos • Análisis Estadístico Análisis

• Como mostrar los datos a todo tipo de usuarios Visualización

• Necesidad de herramientas sofisticadas Desarrollo

• Políticas de privacidad de datos

Seguridad y Gobernación

Page 21: Big data

EL VALOR DE LOS DATOS

Page 22: Big data

El Valor de los Datos

Page 23: Big data

El Valor de los Datos El uso intensivo de los datos ha pasado a ser el petróleo de muchas compañías • El nuevo enfoque es almacenar cualquier tipo de dato,

por irrelevante que pueda parecer, para su posterior análisis • Clics de ratón en la página web de mi negocio • Vibración del motor del coche • Movimiento del acelerómetro del smartphone

• Permite crear modelos para responder preguntas complejas, mostrar percepciones contraintuitivas y aprender resultados únicos

Page 24: Big data

El Valor de los Datos

• Valor inmediato de la mayor parte de los datos resulta evidente para quienes lo recopilan (por ejemplo: tiendas, fábricas o ventas online) • A diferencia de las cosas materiales (se gastan o

deterioran), el valor de los datos no disminuye cuando estos se usan, pueden volver a procesarse una y otra vez

• Mucho valor permanece oculto porque los datos no son usados

Page 25: Big data

El Valor de los Datos

• En sector comercial e industrial: la información es un capital muy importante , y a más volumen, crecerá el conocimiento del mercado y consecuentemente la forma de satisfacer el mismo • Evitar roturas de stock, reducir los costes de logística,

acelerar la captación de clientes, o aumentar la efectividad de las campañas de marketing

Page 26: Big data

El Valor de los Datos

Data Scientist

Experto del

Negocio

Estadística

Ciencias de la

Computación

Page 27: Big data

HERRAMIENTAS DE BIG DATA

Page 28: Big data
Page 29: Big data

Procesado de Datos Masivos

Plataformas de Big Data

Procesado de Datos

Page 30: Big data

Lenguajes de Programación

Extracción de Conocimiento

Procesado de Datos Masivos

Page 31: Big data

Almacenamiento de Datos Masivos

BD noSQL

Page 32: Big data

Proveedores

Page 33: Big data
Page 35: Big data

Visualización Google Fusion Table

https://sites.google.com/site/fusiontablestalks/stories

Page 37: Big data

CASOS DE ÉXITO

Page 38: Big data

https://www.google.org/flutrends/about/

Google Flu & Dengue Trends

Page 39: Big data

Farecast.com

Page 40: Big data

Amazon.com

Page 41: Big data

Walmart

Page 42: Big data

Aldo Ramiro Valdez Alvarado

Licenciado en Informática

Master en Dirección Estrategica en Tecnologías de la Información

Docente Titular de Pregrado en la UMSA

Docente de Postgrado en la UMSA

Coordinador del Postgrado en Informática UMSA

Conferencista Nacional e Internacional

http://aldovaldezalvarado.blogspot.com/

https://www.linkedin.com/pub/aldo-valdez-alvarado/20/648/174

[email protected]

Muchas Gracias!!!