big data

Post on 18-Feb-2017

595 Views

Category:

Data & Analytics

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

BIG DATA y un Océano de Datos

M.SC. ALDO VALDEZ ALVARADO Agosto, 2016

Preparado como parte de 5ta. Semana de la Ciencia

UNIVERSIDAD MAYOR DE SAN ANDRÉS

FACULTAD DE CIENCIAS PURAS Y NATURALES

SOCIEDAD CIENTÍFICA ESTUDIANTIL FCPN

Antecedentes

Definición

El Valor de los Datos

Herramientas de Big Data

Casos de Éxito

Índice 1

2

3

4

5

ANTECEDENTES

La Revolución de los Datos El proyecto Sloan Digital Sky Survey

http://www.sdss.org/

La Revolución de los Datos El proyecto del Genoma Humano

La Revolución de los Datos IoT

La Revolución de los Datos

¿Qué inicio la revolución de los datos masivos?

La Revolución de los Datos

1. Gran cantidad de datos acumulados hacía inviable su procesamiento en un único ordenador

2. Imposible analizar con las técnicas tradiciones de BD 3. Imposible almacenarlas siguiendo el modelo clásico de BD 4. Heterogeneidad de datos. Necesidad de insertar, consultar y

procesar datos en diferentes estructuras 5. Necesidad de procesar rápidamente los datos. Ejemplo:

queries del buscador web

La Revolución de los Datos • Actualmente existen almacenados +2.7 Zetabytes (1 Zetabyte = 1

Trillón de gigabytes), se esperan 35 Zetabytes para 2020 • En 2012 la información digital alcanzó a nivel mundial 2.837

exabytes (miles de millones de gigabytes). Puestos en DVDs, la torre sería de 400.000 Kms, más que la distancia de la Tierra a la Luna

• Google procesa más de 24 Petabytes/día, información equivalente a varios miles de veces la biblioteca del congreso de USA

• En 2007 solo el 7% de la información estaba en medios analógicos (libros, revistas, fotografías en papel, etc.)

La Revolución de los Datos

La Revolución de los Datos

DEFINICIÓN

Definición

En el 2001, el analista Doug Laney de META Group (ahora Gartner) utilizaba y definía el término Big Data como: “el conjunto de técnicas y tecnologías para el tratamiento de datos, en entornos de gran volumen, variedad de orígenes y en los que la velocidad de respuesta es crítica”.

Las 3 V’s del Big Data

Volumen • Crecimiento exponencial

de datos • De Gigabytes a Terabytes

de información diaria • Se considera un gran

volumen a partir de los Petabyte

Las 3 V’s del Big Data

Velocidad • Frecuencia a la que se genera los datos • Tiempo de respuesta crítico P.ej. Sistemas de tránsito • Procesado en tiempo (casi) real • Consideramos dos tipos de velocidad:

• Velocidad de carga (procesos ETL) • Velocidad de procesamiento

Las 3 V’s del Big Data

Variedad • Diferentes formatos y estructuras de los datos

• Orígenes de datos estructurados. Bases de datos, hojas de cálculo o ficheros CSV

• Orígenes de datos semiestructurados. Documentos XML o páginas web

• Orígenes de datos no estructurados. Documentos de texto, audio, imágenes o vídeo

Las 3 V’s del Big Data

Las 4 V’s del Big Data

Veracidad • IBM introdujo una cuarta V • La gran cantidad de datos y la diversidad de orígenes

provoca que la veracidad debe ser considerada • 2 tipos:

• Exactitud del dato • Exactitud del cálculo

¡No hay unanimidad sobre esta 4ta. V!

Las 4 V’s del Big Data

Claves del Big Data • Una única plataforma para

manejar los datos Integración

• Pre procesamiento de datos • Análisis Estadístico Análisis

• Como mostrar los datos a todo tipo de usuarios Visualización

• Necesidad de herramientas sofisticadas Desarrollo

• Políticas de privacidad de datos

Seguridad y Gobernación

EL VALOR DE LOS DATOS

El Valor de los Datos

El Valor de los Datos El uso intensivo de los datos ha pasado a ser el petróleo de muchas compañías • El nuevo enfoque es almacenar cualquier tipo de dato,

por irrelevante que pueda parecer, para su posterior análisis • Clics de ratón en la página web de mi negocio • Vibración del motor del coche • Movimiento del acelerómetro del smartphone

• Permite crear modelos para responder preguntas complejas, mostrar percepciones contraintuitivas y aprender resultados únicos

El Valor de los Datos

• Valor inmediato de la mayor parte de los datos resulta evidente para quienes lo recopilan (por ejemplo: tiendas, fábricas o ventas online) • A diferencia de las cosas materiales (se gastan o

deterioran), el valor de los datos no disminuye cuando estos se usan, pueden volver a procesarse una y otra vez

• Mucho valor permanece oculto porque los datos no son usados

El Valor de los Datos

• En sector comercial e industrial: la información es un capital muy importante , y a más volumen, crecerá el conocimiento del mercado y consecuentemente la forma de satisfacer el mismo • Evitar roturas de stock, reducir los costes de logística,

acelerar la captación de clientes, o aumentar la efectividad de las campañas de marketing

El Valor de los Datos

Data Scientist

Experto del

Negocio

Estadística

Ciencias de la

Computación

HERRAMIENTAS DE BIG DATA

Procesado de Datos Masivos

Plataformas de Big Data

Procesado de Datos

Lenguajes de Programación

Extracción de Conocimiento

Procesado de Datos Masivos

Almacenamiento de Datos Masivos

BD noSQL

Proveedores

Visualización Google Fusion Table

https://sites.google.com/site/fusiontablestalks/stories

CASOS DE ÉXITO

https://www.google.org/flutrends/about/

Google Flu & Dengue Trends

Farecast.com

Amazon.com

Walmart

Aldo Ramiro Valdez Alvarado

Licenciado en Informática

Master en Dirección Estrategica en Tecnologías de la Información

Docente Titular de Pregrado en la UMSA

Docente de Postgrado en la UMSA

Coordinador del Postgrado en Informática UMSA

Conferencista Nacional e Internacional

http://aldovaldezalvarado.blogspot.com/

https://www.linkedin.com/pub/aldo-valdez-alvarado/20/648/174

aldo_valdez@hotmail.com

Muchas Gracias!!!

top related