Download - Webinar ISACA Chalico
RIESGOS EN EL MANEJO DE BIG DATA Y ANALÍTICOS PREPARÁNDONOS PARA LATIN CACS 2015Carlos Chalico, LI, CISA, CISSP, CISM, CGEIT, CRISC, PbDA, ISO27000LA
#LatinCACS @carloschalico
@CarlosChalicoT
BIENVENIDOS
¿Tiene preguntas? Utilice el botón Ask A Question
El Audio se transmite via streaming
¿Temas técnicos? Haga Click en el botón ?
Utilice el botón Feedback para compartir sus opiniones sobre este evento.
¿Sugerencias o comentarios? Envíe su correo electrónico a [email protected]
Utilice el botón Attachments para encontrar lo siguiente
• Copia en PDF de la Presentación del día de hoy
• Liga a Event Home Page en donde los miembros de ISACA pueden encontrar el cuestionario CPE Quiz
• MORE Documentación adicional del Presentador de hoy
• Próximos eventos de ISACA
2
#LatinCACS @carloschalico
@CarlosChalicoT
PRESENTADOR DE HOY
• Especialista en riesgos de TI: CISA, CISSP, CISM, CGEIT, CRISC, PbDA, ISO27000LA
• 18 años de experiencia
• Colaborador de EY 1996-2012
• Actualmente dirige la oficina de Toronto de Ouest Business Solutions Inc.
• Instructor en la Universidad de Toronto (Big Data, Gobierno de TI, Seguridad de la Información)
• Director de Membresía capítulo Toronto ISACA
@carloschalico @CarlosChalicoT
#LatinCACS
3
#LatinCACS @carloschalico
@CarlosChalicoT
AGENDA
1. Comprendiendo el concepto
2. ¿Cómo llegamos aquí?
3. Consideraciones y herramientas
4. Riesgos en Big Data y Analíticos
5. La aportación de ISACA
6. Conclusiones
4
#LatinCACS @carloschalico
@CarlosChalicoT
COMPRENDIENDO EL CONCEPTO
5
#LatinCACS @carloschalico
@CarlosChalicoT
COMPRENDIENDO EL CONCEPTO
6
• Colección de conjuntos de datos tan grandes y complejos que se hacen difíciles de manejar usando herramientas tradicionales de base de datos
• Entre los retos identificados se encuentran:
- Captura
- Almacenamiento
- Búsqueda
- Transferencia
- Compartición
- Análisis y visualización
#LatinCACS @carloschalico
@CarlosChalicoT
COMPRENDIENDO EL CONCEPTO
• ¿De qué nos sirven los datos una vez colectados?
• El valor de los datos es cuestionable, limitado, si nada se hace con ellos
• Análisis de Datos, Analíticos
- Descubrimiento y comunicación de elementos de valor significativos en los datos
- Este tipo de análisis usa simultáneamente: estadística, programación e investigación de operaciones
- Se favorece de la visualización para compartir valores, hallazgos
• Análisis de datos empresariales
7
#LatinCACS @carloschalico
@CarlosChalicoT 8
• El análisis de datos y el manejo de Big Data puede incluir el uso de herramientas de Inteligencia Artificial como el aprendizaje de máquina (supervisado o no supervisado)
• Las fuentes de datos incluyen elementos estructurados tradicionales, pero también nuevos elementos no estructurados:
- Navegación web
- Uso de redes sociales
- Sensores de IoT
- Datos de vigilancia
COMPRENDIENDO EL CONCEPTO
#LatinCACS @carloschalico
@CarlosChalicoT 9
Volumen
Velocidad
Variedad
Validez VeracidadAdaptado de Gartner Inc. Svetlana Sicular
Doug Laney
COMPRENDIENDO EL CONCEPTO
#LatinCACS @carloschalico
@CarlosChalicoT
¿CÓMO LLEGAMOS AQUÍ?
10
• 2003: Secuencia del genoma humano
• 2003: Google publica “The Google File System”
• 2005: NUMB3RS
• 2006: Businessweek: Math Will Rock Your World; PBS transmite The Great Robot Race
• 2007: iPhone
• 2008: 21
• 2010: iPad, Apple Siri.
10
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
#LatinCACS @carloschalico
@CarlosChalicoT
¿CÓMO LLEGAMOS AQUÍ?
11
11
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
• 2011: IBM Watson gana Jeopardy; Moneyball; Nevada permite que los vehículos autónomos de Google circulen por sus caminos
• 2012: HBR pone el foco en el concepto; Nate Silver predice las elecciones en Estados Unidos por estado
• 2013: Hadoop 2; Conferencia Strata conference > 3,200 aasistentes
• 2014: artículo en The Economist.
#LatinCACS @carloschalico
@CarlosChalicoT
¿CÓMO LLEGAMOS AQUÍ?
12
• Big Data ha atraído de forma importante a la prensa • En más de un foro se habla sobre cómo Big Data
transformará al mundo • Paradójicamente, no podemos predecir cómo • Volúmenes de datos
- NYSE produce 1TB/día de transacciones - Facebook guarda aproximadamente 10 billones de fotos = 1 Pb - Ancestry.com: 2.5 PB - El CEO de Ericsson predijo un elevado número de dispositivos
conectados para 2020 - El IoT está aquí - El monto de los datos se duplica aceleradamente
#LatinCACS @carloschalico
@CarlosChalicoT
¿CÓMO LLEGAMOS AQUÍ?
13
#LatinCACS @carloschalico
@CarlosChalicoT
CONSIDERACIONES Y HERRAMIENTAS
14
• El Big Data y los analíticos proveen múltiples puntos mejorados de toma de decisiones
• Ayudan a: - Enfocar mejor la estrategia operativa - Mejorar las técnicas de mercadotecnia - Hacer procesos más eficientes - Detectar eventos inusuales o inesperados (ataques,
fraude, violaciones a medidas de control interno) - Hacer más efectivas las labores de investigación y
desarrollo - Incrementar utilidades
• La “prisa” en su adopción es un arma de doble filo por la que muchas organizaciones cometen serios errores al no implantar correctamente
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
#LatinCACS @carloschalico
@CarlosChalicoT
CONSIDERACIONES Y HERRAMIENTAS
15
• Algunas de las aplicaciones del Big Data y los analíticos incluyen: - Predicción de ataques - Auditoría continua - Análisis de mercado basado en sentimientos - Calificación de créditos - Control de calidad - Administración de inversiones - Manejo de insumos y mejora de la cadena de suministro - Incremento de precisión en labores agrícolas - Seguridad y rastreo de medios de transporte - Servicio a clientes - Manejo de flota - Recomendaciones
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
#LatinCACS @carloschalico
@CarlosChalicoT
CONSIDERACIONES Y HERRAMIENTAS - RECOMENDADORES
16
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
• Piensa por un momento:
- ¿Cuáles son esos artículos que tiendes a comprar? - ¿Qué tipo de películas te gustan? - ¿Qué tipo de música te gusta? - ¿Qué libros lees? - ¿Que es aquello que genera una influencia en tus hábitos
de consumo?
#LatinCACS @carloschalico
@CarlosChalicoT
CONSIDERACIONES Y HERRAMIENTAS - RECOMENDADORES
17
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
Considerando que ya sabemos… • Tus Preferencias • Las preferencias de tus
amigos • Lo que has comprado en el
pasado • Las ofertas existentes • Lo que estás comprando
ahora
¿Qué…:
• más podría gustarte? • haría juego con eso que
acabas de comprar? • recomendarías a tus
amigos? • más podrías comprar en
otra ocasión?
#LatinCACS @carloschalico
@CarlosChalicoT
CONSIDERACIONES Y HERRAMIENTAS - RECOMENDADORES
18
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
House of Cards no se lanzó al aire sin fundamento
Netflix posee una cantidad de datos sin precedente sobre entretenimiento
#LatinCACS @carloschalico
@CarlosChalicoT
CONSIDERACIONES Y HERRAMIENTAS
19
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
• Las relacionales surgieron en los 70s • Han visto retos de escalamiento • Tienen problemas manejando texto y video • Enfocadas en almacenamiento no redundante • Buenas para datos estructurados • Hoy estamos capturando grandes volúmenes
de datos esparcidos en diversas fuentes • Las organizaciones se están tramsformando
¿Qué ha pasado con las bases de datos?
#LatinCACS @carloschalico
@CarlosChalicoT
CONSIDERACIONES Y HERRAMIENTAS
20
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
• Diseñados para GRANDES volúmenes de datos • Reconocen y tratan las posibilidades de fallas en discos • Tienen mejoras significativas sobre las bases de datos
relacionales para aplicaciones específicas relacionadas con Big Data
• Generalmente se pierde – Modelo relacional (maduro) – Indexación – Fortaleza en consistencia
Manejadores de Bases de Datos para Big Data
#LatinCACS @carloschalico
@CarlosChalicoT
CONSIDERACIONES Y HERRAMIENTAS
21
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
#LatinCACS @carloschalico
@CarlosChalicoT
CONSIDERACIONES Y HERRAMIENTAS
22
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
• La velocidad a la que los datos se pueden leer en las unidades de disco no ha seguido el ritmo de aumento de la capacidad de almacenamiento
• Puede tomar hasta 2 ½ horas leer un Tb en un disco (la escritura es más lenta)
• Las bases de datos relacionales pueden perder mucho tiempo haciendo búsquedas
• Muchos de los datos usados hoy son semi-estructurados o no estructurados
Hadoop ¿Por qué tanto escándalo?
#LatinCACS @carloschalico
@CarlosChalicoT
CONSIDERACIONES Y HERRAMIENTAS
23
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
• En 2003, Google publicó “The Google File System” describiendo su sistema escalable y distribuido de base de datos
• A este le siguió “MapReduce: Simplified Data Processing on Large Clusters” describiendo el enfoque usado por Google para implementar su motor de indexación de escala mundial
• Hadoop es una alternativa de código abierto creada por Doug Cutting de Apache Lucene
Hadoop ¿Por qué tanto escándalo?
#LatinCACS @carloschalico
@CarlosChalicoT
CONSIDERACIONES Y HERRAMIENTAS
24
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
• Un sistema de archivos distribuido (HDFS) y un motor de proceso (MapReduce)
• Originalmente pensado para ser el corazón del motor de búsqueda Lucene pero evolucionó (usado por Yahoo!)
• 2008: el sistema más rápido para ordenar un Tb de datos (209 segundos en 900 nodos)
• Ha probado tener mayor aplicación de la que originalmente se pensó
¿Qué es exactamente Hadoop?
#LatinCACS @carloschalico
@CarlosChalicoT
CONSIDERACIONES Y HERRAMIENTAS
25
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
• HDFS – Diseñado para que grandes volúmenes de datos puedan
distribuirse en muchas computadoras – Optimizado para concentrarse en velocidad de
transferencia • MapReduce
– Marco para dividir el proceso de datos en pequeñas fracciones paralelas
– Orientado a trabajar por lotes (no para búsquedas rápidas) • Modelo de seguridad basado en Kerberos • Diseñado para trabajar con grandes arreglos de computadoras
¿Qué es exactamente Hadoop?
#LatinCACS @carloschalico
@CarlosChalicoT
CONSIDERACIONES Y HERRAMIENTAS
26
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
split 2 map
reduce part 0
split 0 map
split 1 map
reduce part 1
OrdenaCopia
Une
¿Qué es exactamente Hadoop?
#LatinCACS @carloschalico
@CarlosChalicoT
CONSIDERACIONES Y HERRAMIENTAS
27
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
Data Storage
Data Processing
Data Access
Data Exchange(ETL)
Data Management
Drill, Mahout, Spark, Storm Data Analytics
El ecosistema Hadoop (en constante cambio)
#LatinCACS @carloschalico
@CarlosChalicoT
CONSIDERACIONES Y HERRAMIENTAS
28
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
El ecosistema Big Data (Una muestra)
#LatinCACS @carloschalico
@CarlosChalicoT
RIESGOS EN BIG DATA Y ANALÍTICOS
29
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
Fuente: Data Management Association International (DAMA)
DMBoK Wheel
#LatinCACS @carloschalico
@CarlosChalicoT
Los riesgos en Big Data son los mismos que en los ambientes tradicionales más los relacionados con:
• Proteger el capital intelectual de la organización derivado de la aplicación de analíticos
• Proteger los datos que pueden ser más vulnerables o no tan bien controlados al estar fuera de sus repositorios nativos
• Concentrar activos de información en ubicaciones específicas aumentando el riesgo individual y/o compuesto
• Nuevas herramientas, incluyendo las de código abierto que pueden ser menos confiables desde la perspectiva de seguridad de la información
30
RIESGOS EN BIG DATA Y ANALÍTICOS
#LatinCACS @carloschalico
@CarlosChalicoT
¿Qué busca mi organización para considerar a los datos seguros?
31
RIESGOS EN BIG DATA Y ANALÍTICOS
Identificación – Quién accede a los datos Autenticación – Confirmar que se es quien se dice ser Autorización – Determiner que tiene los derechos necesarios
Confidencialidad – No todos deben acceder a todo Privacidad – Hay muchas restricciones en PII Auditoría – Registro de quién accede a qué
Integridad – Mantener la “pureza” de los datos Disponibilidad – Que los datos estén cuando se necesitan
Validez – Que el dato sea real Exactitud – Que el dato sea correcto Vigencia – El dato sirve en el momento en el que se usa
Adaptado de curso “Foundations of Enterprise Analytics”
Universidad de Toronto
#LatinCACS @carloschalico
@CarlosChalicoT 32
RIESGOS EN BIG DATA Y ANALÍTICOSPrivacidad, el elemento que no todos quieren ver
• Estos temas no solo impactan el lado financiero, sino que se encuentran muy cerca de los sentimientos del consumidor
• Valor accionario, reputación, ventas, utilidad, supervivencia política, todos pueden ser positiva o negativamente impactados por asuntos relacionados con privacidad
• Retos en el manejo de riesgo compuesto • Los requerimientos legales son complejos y,
generalmente, incluyen multas MUY importantes • Indispensable integración técnico-legal-administrativa
#LatinCACS @carloschalico
@CarlosChalicoT 33
RIESGOS EN BIG DATA Y ANALÍTICOSPrivacidad, la regulación en el mundo
Fuente: Ernst & Young México
#LatinCACS @carloschalico
@CarlosChalicoT 34
LA APORTACIÓN DE ISACALas cinco preguntas
1.¿Podemos confiar en nuestras fuentes de datos? 2.¿Qué información estamos colectando sin exponer a la
organización a batallas en el terreno legal y regulatorio? 3.¿Cómo protegeremos nuestras fuentes, procesos y
decisiones de robo y corrupción? 4.¿Qué políticas se han implementado para asegurar que
los empleados mantengan la información de los stakeholders protegida mientras trabajan para la organización y aún después?
5.¿Cuáles de nuestras acciones están creando tendencias que podrían ser seguidas por nuestros rivales?
#LatinCACS @carloschalico
@CarlosChalicoT 35
LA APORTACIÓN DE ISACA• Las consideraciones de riesgo:
- Ambientes complejos - Crecimiento masivo de transacciones - Explosión de nuevos tipos de interacción con
datos: redes sociales, dispositivos - Uso de nuevas herramientas - Amenazas internas y externas - APT
• Acciones mínimas -Identificar TODOS los datos sensibles -Asegurar TODOS los datos sensibles -Demostrar cumplimiento con leyes y -Definir y ejecutar acciones de monitoreo -Definir, operar, y mantener modelos ágiles y efectivos de respuesta a incidentes
#LatinCACS @carloschalico
@CarlosChalicoT
CONCLUSIONES
36
Lecturas recomendadas
#LatinCACS @carloschalico
@CarlosChalicoT
CONCLUSIONES
37
Lecturas recomendadas
#LatinCACS @carloschalico
@CarlosChalicoT
CONCLUSIONES
38
Lecturas recomendadas
#LatinCACS @carloschalico
@CarlosChalicoT
CONCLUSIONES
39
• La seguridad de la información y privacidad deben ser elementos clave en el diseño de un modelo de Big Data y analíticos
• Si no existen modelos generales en la organización, los riesgos en Big Data y analíticos son aún mayores
• La naturaleza de Big Data atrae riesgos adicionales • La integración del tema en el marco corporativo de
riesgos es indispensable • La definición de un modelo de gobierno es crucial • COBIT se constituye como una herramienta de gran valor • Tenemos un reto importante con la gente: analíticos-
seguridad-cambio-efectividad • ¿Ha muerto la privacidad?
#LatinCACS @carloschalico
@CarlosChalicoT
“Conforme la era digital avanza, el término “Big Data” emerge al centro del universo del
Internet de las Cosas. Es fácil entender porqué. Un creciente arreglo de sensores, dispositivos y
sistemas de información genera grandes montos de datos. Redes sociales, sistemas de mensajería, audio, video y un rápidamente
creciente universo de documentos se agrega a la mezcla”
Samuel Greengard
40
¿Qué cosa es eso del Internet de las Cosas?
Carlos Chalico, LI, CISA, CISSP, CGEIT, CRISC, PbDA, ISO27000LA Director Eastern Region, Ouest Business Solutions Inc.
21-22 de Septiembre, Ciudad de México
Definiendo la estrategia de privacidad
121133
https://www.isaca.org/ecommerce/pages/latin-america-cacs-isrm.aspx
www.isaca.org/webinars
GRACIAS POR SU ASISTENCIA
FOR MORE GO TO:
Carlos Chalico, LI, CISA, CISSP, CISM, CGEIT, CRISC, PbDA, ISO27000LA Director Eastern Region, Ouest Business Solutions Inc. [email protected] +1(647)638-8062