integración de datos sin límites con pentaho

21
www.datalytics.com Integración de Datos sin límites con Pentaho Ing. Rubén Obando

Upload: datalytics

Post on 11-Jun-2015

2.087 views

Category:

Technology


1 download

DESCRIPTION

Presentación de Pentaho Data Integration dada durante el foro "Las Dimensiones del BI" en Medellín (COL), donde se presentó la problemática de la integración de datos en la actualidad (cada vez más información, fuentes más diversas, datos no estructurados, etc.), como muchas empresas aún hoy intentan resolver este problema con programación SQL o similar y como Pentaho Data Integration puede no solo resolver este problema de una manera muy ágil, si no también como puede utilizarse para comenzar a analizar la información y realizar tareas de Data Discovery y Data Visualization antes de la generación de cubos, reportes, etc.

TRANSCRIPT

Page 1: Integración de Datos sin límites con Pentaho

www.datalytics.com Integración de Datos sin límites con Pentaho

Ing. Rubén Obando

Page 2: Integración de Datos sin límites con Pentaho

Un día en la oficina…

Cuántos de nuestros clientes migrarían a la competencia en caso subamos el precio un X%?

Cuál es la rentabilidad del

producto X?

Dónde están nuestros clientes más rentables?

Cuán efectivo son nuestras campañas

de MKT? Cuál debería continuar?

Qué nuevas geografías deberíamos incluir en

nuestro objetivo de venta?

Nuestras ventas presentan estacionalidad?

Page 3: Integración de Datos sin límites con Pentaho

El problema de la falta de integración

Islas de información: datos dispersos en diferentes áreas, sistemas, arquitecturas.

Imposibilidad de cruzar datos de diferentes sistemas. Visión incompleta.

Pareto invertido: los analistas pasan mucho tiempo recolectando y procesando

información, en lugar de analizarla.

Variedad y diversidad: aumentan las fuentes de información: no sólo bases de datos y

hojas de cálculo. Se sumaron redes sociales, sistemas en la nube, etc.

BIG DATA: la información se está duplicando cada 2 años, y el 80% son datos no

estructurados.

Pobre calidad de datos: en general los datos de los sistemas transaccionales presentan

vicios e inconsistencias, producto de errores de carga, malfuncionamiento, etc.

Falta de una única versión de la verdad: multiplicidad de criterios y terminología. Por

ejemplo: dos áreas distintas informan diferentes valores para un mismo KPI.

Page 4: Integración de Datos sin límites con Pentaho

Siebel PeopleSoft SAP R/3 XML

VSAM MQSeries AS/400

DB2 UDB Informix Oracle Microsoft ...

Archivos Planos FTP

Web Logs

Datos Analistas

En resumen…

Page 5: Integración de Datos sin límites con Pentaho

La integración de datos es la práctica que consiste en recolectar los datos de diversas fuentes, cruzarlos, enriquecerlos, consolidarlos y cargarlos en un Data Warehouse.

El nombre ETL viene del acrónimo en Inglés Extract, Transform & Load.

Extract: de los diversos sistemas transaccionales y fuentes.

Transform: transformar los datos, cruzarlos, enriquecerlos, etc.

Load: cargar la información en un repositorio centralizado.

Las herramientas de ETL son herramientas visuales orientadas a Drag & Drop y zero-coding, lo que se traduce en mayor productividad del equipo de desarrollo, menor time-to-value y un mantenimiento más sencillo.

La herramienta de ETL debe poder conectarse a diversas fuentes y diversas arquitecturas.

Los datos en los sistemas fuente suelen tener errores e inconsistencias, por lo cual se suele aplicar en esta etapa procesos de validación y limpieza (Data Quality).

Los procesos ETL generalmente se ejecutan por la noche, para no sobrecargar los sistemas transaccionales con pesadas consultas.

Data Integration (ETL)

Page 6: Integración de Datos sin límites con Pentaho

La evolución de SQL a ETL

Por que hacer esto?

Page 7: Integración de Datos sin límites con Pentaho

… cuando podríamos hacer esto???

La evolución de SQL a ETL

Page 8: Integración de Datos sin límites con Pentaho

Donde encaja el ETL?

Siebel PeopleSoft SAP R/3 XML

VSAM MQSeries AS/400

DB2 UDB Informix Oracle Microsoft ...

Archivos Planos FTP

Web Logs

DW ODS Data Mart

Extract Transform Clean Load

ETL

Datastage Informatica Oracle DI Pentaho DI SAS DIS Etc.

SAS, SPSS, Rapid Miner

Pentaho, Oracle/Hyperion, Microstrategy, SAS, Etc.

Oracle IBM DB2 SQL Server Teradata Sybase IQ Etc.

Page 9: Integración de Datos sin límites con Pentaho

Pentaho Data Integration

Permite tomar información de diferentes fuentes, consolidarla y cargarla en un repositorio analítico.

Su entorno de trabajo visual y drag & drop se traduce en un menor tiempo de desarrollo y un mantenimiento más sencillo y agilidad para incorporar nuevas fuentes de información e indicadores.

Plug-in de Agile BI:

Data Discovery: Análisis y visualización de información en tiempo real

Data Modeling: Modelado y publicación de cubos OLAP para prototipado y validación de requerimientos

Page 10: Integración de Datos sin límites con Pentaho

+ de 150 steps para manipulación, enriquecimiento de datos y generación de reportes.

Repositorio integrado: control de versiones para trabajo colaborativo y scheduling de procesos.

Conectividad nativa contra:

Típicas: SQL Server, Oracle, DB2, Teradata, Sybase IQ, SAP, MySQL, PostgreSQL, etc.

No tan típicas: AS/400, Hadoop, LDAP/Active Directory, SalesForce, Google Analytics, etc.

Nuevos Features:

Soporte para MongoDB, Cassandra, Hbase.

Capacidad de ejecución de jobs Map/Reduce (Hadoop) y acceso a archivos en Hadoop.

ElasticSearch.

Archivos HL7.

Capacidad de documentación automática.

Cliente REST.

Etc…

Pentaho Data Integration

Page 11: Integración de Datos sin límites con Pentaho

Carga de Data warehouse y Data Marts:

Soporte para slowly changing dimensions, cargas bulk, merge, sincronización y otros conceptos de Data Warehousing

Exports de bases de datos a archivos planos, XML u otras bases de datos.

Import de datos a bases de datos, desde diversas fuentes como archivos planos, hojas de Excel, datos alojados en la nube, etc.

Migración de datos de sistemas Legacy.

Exploración de datos de diversas fuentes.

Enriquecimiento de datos mediante la integración de diversas fuentes.

Procesos de Data Quality y Data Cleansing mediante transformación de datos.

Usos comunes de PDI

Page 12: Integración de Datos sin límites con Pentaho

Generación de reportes batch.

Envío de alertas vía e-mail.

Integración de aplicaciones (middleware).

Implementación de procesos a nivel SO (transferencia de archivos, limpieza de file system, etc.).

Usos comunes de PDI (continuación)

Page 13: Integración de Datos sin límites con Pentaho

Pentaho Data Integration Server

Repositorio Enterprise:

Versionador

Seguridad y control de acceso

Almacenamiento

Scheduling

Data Integration Web Console:

Ejecución y monitoreo

Gestión de procesos

Análisis de performance, trends, históricos.

Configuración de umbrales de alerta

Steps exclusivos:

Google Docs

Google Analytics

Full Agile BI Plug-in

Page 14: Integración de Datos sin límites con Pentaho

Soporte para BIG DATA

Hadoop MPP storage & processing High-availability Any data type

NoSQL (no relacionales)

Non-relational, flexible Low-cost High-performance

Bases de datos analíticas

Relational High-performance load & query Tecnologías:

• Columnar, MPP, in-memory, DW appliances, OLAP databases

Page 15: Integración de Datos sin límites con Pentaho

Reconocimiento de analistas

Pentaho Data Integration esta siendo reconocido por los analistas como uno de los

jugadores de peso en materia de BIG DATA con su herramienta de integración.

Fuente: Forrester Wave™, Soluciones Hadoop empresariales, 1.er trimestre de 2012

Page 16: Integración de Datos sin límites con Pentaho

Agile BI para prototipos de BI

Facilidades para prototipos OLAP, Data Profiling y visualización de datos desde la propia herramienta de ETL.

Page 17: Integración de Datos sin límites con Pentaho

Data Discovery / Visualization

Page 18: Integración de Datos sin límites con Pentaho

Data Discovery / Visualization

Page 19: Integración de Datos sin límites con Pentaho

Facilidad de uso:

Orientada a metadatos (definir que queremos hacer, y no como hacerlo).

Menos código implica menos complejidad y menor tiempo de desarrollo.

Seteo sencillo, interfaz gráfica intuitiva y fácil de mantener.

Basada en arquitectura moderna:

100% Java y multi-plataforma (Windows, Linux, Unix, Mac OS).

Soporte para múltiples sistemas de datos de manera nativa.

Procesamiento en paralelo, performance y escalabilidad.

+150 steps predefinidos para diversas operaciones.

Bajo costo de ownership:

Try & Buy (versión Enterprise Edition).

Ciclos de implementación cortos.

Costos de mantenimiento reducido.

Modelo de suscripción anual (versión Enterprise Edition).

Por qué Pentaho Data Integration?

Page 20: Integración de Datos sin límites con Pentaho

Prueba de Concepto

Punto de Venta

Clientes Proveedores Productos Geografía Tiempo

Compras Presupuesto Ventas