big data
Post on 18-Feb-2017
595 Views
Preview:
TRANSCRIPT
BIG DATA y un Océano de Datos
M.SC. ALDO VALDEZ ALVARADO Agosto, 2016
Preparado como parte de 5ta. Semana de la Ciencia
UNIVERSIDAD MAYOR DE SAN ANDRÉS
FACULTAD DE CIENCIAS PURAS Y NATURALES
SOCIEDAD CIENTÍFICA ESTUDIANTIL FCPN
Antecedentes
Definición
El Valor de los Datos
Herramientas de Big Data
Casos de Éxito
Índice 1
2
3
4
5
ANTECEDENTES
La Revolución de los Datos El proyecto Sloan Digital Sky Survey
http://www.sdss.org/
La Revolución de los Datos El proyecto del Genoma Humano
La Revolución de los Datos IoT
La Revolución de los Datos
¿Qué inicio la revolución de los datos masivos?
La Revolución de los Datos
1. Gran cantidad de datos acumulados hacía inviable su procesamiento en un único ordenador
2. Imposible analizar con las técnicas tradiciones de BD 3. Imposible almacenarlas siguiendo el modelo clásico de BD 4. Heterogeneidad de datos. Necesidad de insertar, consultar y
procesar datos en diferentes estructuras 5. Necesidad de procesar rápidamente los datos. Ejemplo:
queries del buscador web
La Revolución de los Datos • Actualmente existen almacenados +2.7 Zetabytes (1 Zetabyte = 1
Trillón de gigabytes), se esperan 35 Zetabytes para 2020 • En 2012 la información digital alcanzó a nivel mundial 2.837
exabytes (miles de millones de gigabytes). Puestos en DVDs, la torre sería de 400.000 Kms, más que la distancia de la Tierra a la Luna
• Google procesa más de 24 Petabytes/día, información equivalente a varios miles de veces la biblioteca del congreso de USA
• En 2007 solo el 7% de la información estaba en medios analógicos (libros, revistas, fotografías en papel, etc.)
La Revolución de los Datos
La Revolución de los Datos
DEFINICIÓN
Definición
En el 2001, el analista Doug Laney de META Group (ahora Gartner) utilizaba y definía el término Big Data como: “el conjunto de técnicas y tecnologías para el tratamiento de datos, en entornos de gran volumen, variedad de orígenes y en los que la velocidad de respuesta es crítica”.
Las 3 V’s del Big Data
Volumen • Crecimiento exponencial
de datos • De Gigabytes a Terabytes
de información diaria • Se considera un gran
volumen a partir de los Petabyte
Las 3 V’s del Big Data
Velocidad • Frecuencia a la que se genera los datos • Tiempo de respuesta crítico P.ej. Sistemas de tránsito • Procesado en tiempo (casi) real • Consideramos dos tipos de velocidad:
• Velocidad de carga (procesos ETL) • Velocidad de procesamiento
Las 3 V’s del Big Data
Variedad • Diferentes formatos y estructuras de los datos
• Orígenes de datos estructurados. Bases de datos, hojas de cálculo o ficheros CSV
• Orígenes de datos semiestructurados. Documentos XML o páginas web
• Orígenes de datos no estructurados. Documentos de texto, audio, imágenes o vídeo
Las 3 V’s del Big Data
Las 4 V’s del Big Data
Veracidad • IBM introdujo una cuarta V • La gran cantidad de datos y la diversidad de orígenes
provoca que la veracidad debe ser considerada • 2 tipos:
• Exactitud del dato • Exactitud del cálculo
¡No hay unanimidad sobre esta 4ta. V!
Las 4 V’s del Big Data
Claves del Big Data • Una única plataforma para
manejar los datos Integración
• Pre procesamiento de datos • Análisis Estadístico Análisis
• Como mostrar los datos a todo tipo de usuarios Visualización
• Necesidad de herramientas sofisticadas Desarrollo
• Políticas de privacidad de datos
Seguridad y Gobernación
EL VALOR DE LOS DATOS
El Valor de los Datos
El Valor de los Datos El uso intensivo de los datos ha pasado a ser el petróleo de muchas compañías • El nuevo enfoque es almacenar cualquier tipo de dato,
por irrelevante que pueda parecer, para su posterior análisis • Clics de ratón en la página web de mi negocio • Vibración del motor del coche • Movimiento del acelerómetro del smartphone
• Permite crear modelos para responder preguntas complejas, mostrar percepciones contraintuitivas y aprender resultados únicos
El Valor de los Datos
• Valor inmediato de la mayor parte de los datos resulta evidente para quienes lo recopilan (por ejemplo: tiendas, fábricas o ventas online) • A diferencia de las cosas materiales (se gastan o
deterioran), el valor de los datos no disminuye cuando estos se usan, pueden volver a procesarse una y otra vez
• Mucho valor permanece oculto porque los datos no son usados
El Valor de los Datos
• En sector comercial e industrial: la información es un capital muy importante , y a más volumen, crecerá el conocimiento del mercado y consecuentemente la forma de satisfacer el mismo • Evitar roturas de stock, reducir los costes de logística,
acelerar la captación de clientes, o aumentar la efectividad de las campañas de marketing
El Valor de los Datos
Data Scientist
Experto del
Negocio
Estadística
Ciencias de la
Computación
HERRAMIENTAS DE BIG DATA
Procesado de Datos Masivos
Plataformas de Big Data
Procesado de Datos
Lenguajes de Programación
Extracción de Conocimiento
Procesado de Datos Masivos
Almacenamiento de Datos Masivos
BD noSQL
Proveedores
Visualización Tableau Public
http://www.tableau.com/es‐es
Visualización Google Fusion Table
https://sites.google.com/site/fusiontablestalks/stories
Visualización CartoDB
http://cartodb.github.io/lisbon‐2014/#/2/24.7/‐7.0/0
CASOS DE ÉXITO
https://www.google.org/flutrends/about/
Google Flu & Dengue Trends
Farecast.com
Amazon.com
Walmart
Aldo Ramiro Valdez Alvarado
Licenciado en Informática
Master en Dirección Estrategica en Tecnologías de la Información
Docente Titular de Pregrado en la UMSA
Docente de Postgrado en la UMSA
Coordinador del Postgrado en Informática UMSA
Conferencista Nacional e Internacional
http://aldovaldezalvarado.blogspot.com/
https://www.linkedin.com/pub/aldo-valdez-alvarado/20/648/174
aldo_valdez@hotmail.com
Muchas Gracias!!!
top related