herramientas de business intelligence - kybele.etsii.urjc.essi... · las herramientas de olap se...
TRANSCRIPT
www.kybele.urjc.es
Herramientas de Business Intelligence
Departamento de Lenguajes y Sistemas Informáticos II
http://www.kybele.es
Curso 2012-2013
ISI/SI - 1 IS/ISI
www.kybele.urjc.es
Sistemas de Datawarehousing
Son el núcleo de las aplicaciones de BI
Elementos principales
Tecnologías de Datawarehousing: Recogida y gestión de grandes volúmenes de datos
Tecnologías OLAP y Datamining: Análisis de datos
Software de consulta amigable e intuitivo para el usuario final
Características:
Semántica expresada en términos del negocio
Diseñada para su rápida recuperación y análisis
Orientado información relevante para el negocio
Modelo de datos multidimensional para hacer mas fácil la navegación y explotación de datos
ISI/SI - 2 IS/ISI
www.kybele.urjc.es
Datawarehouse
Datawarehouse = Almacenes de datos
Datawarehouse ≠ Inteligencia de negocio
Busca dar una visión unificada de los datos
Incluyendo el de los sistemas transaccionales y legados
Almacén consistente separado y homogéneo donde son cargados datos transformados provenientes de diferentes fuentes, disponible a usuarios finales de forma que ellos puedan entenderlos y usarlos en el contexto de un negocio
(Barry Devlin)
ISI/SI - 3 IS/ISI
www.kybele.urjc.es
Objetivos de un Datawarehouse
Orientado a temas
Los datos están organizados de manera que todos los elementos queden unidos entre sí.
Registro histórico
Los cambios producidos a lo largo del tiempo quedan registrados para que los informes puedan reflejar esas variaciones.
No volátil
La información no se modifica ni se elimina, una vez almacenado se convierte en sólo lectura, y se mantiene para futuras consultas.
Integrado
Contiene los datos de todos los sistemas operacionales de la organización, y dichos datos deben ser consistentes.
ISI/SI - 4 IS/ISI
www.kybele.urjc.es
DWH como registro histórico
Los datos son relativos a un periodo de tiempo y deben ser incrementados periódicamente
Los datos son almacenados como fotos (snapshots) correspondientes a periodos de tiempo.
Datos Tiempo
01/2003
02/2003
03/2003
Datos de Enero
Datos de Febrero
Datos de Marzo
www.kybele.urjc.es
DWH - No volátil
Los datos almacenados no son actualizados, sólo son incrementados.
READ
Carga
INSERT READ
UPDATE
DELETE
Bases de datos operacionales Almacén de Datos
El periodo de tiempo cubierto por un DWH varía entre 2 y 10 años.
ISI/SI - 6 IS/ISI
www.kybele.urjc.es
Sistemas Transaccionales vs Datawarehouse
Características Sistemas Transaccionales Datawarehouses
Datos Actuales y Actualizables Históricos y estáticos
Almacenamiento BD pequeñas y medianas BD grandes (GB y TB)
Procesos Repetitivos No previsibles
Estructura Detallada Detallada con niveles de agregación
Usos Soporte operacional orientado a procesos
Soporte de análisis orientado a info. Relevante
Unidad de ejecución Transaccional Consulta
Cantidad de datos Miles Millones
Modelo de accesos Escritura principalmente y lectura
Lectura principalmente
Tiempo de respuesta Segundos-minutos Segundos-horas
ISI/SI - 7 IS/ISI
www.kybele.urjc.es
Desarrollo del DWH
Tener en cuenta algunos aspectos de la organización: Situación actual de partida
Tipo y Características del negocio
Entorno técnico (Hw, Aplicaciones, Herramientas actuales ( DSS) etc)
Expectativas de los usuarios
Etapas de desarrollo de un DWH
Desarrollo Modelo
Conceptual Prototipo Piloto
Prueba de concepto
tecnológico
ISI/SI - 8 IS/ISI
www.kybele.urjc.es
Ventajas e inconvenientes de los DWH
Ventajas
Acceso fácil para usuarios finales
Mejora funcionamiento de sistemas de apoyo a la
decisión
Trabajo en conjunto con otras aplicaciones
empresariales
Inconvenientes
Altos costos (mantenimiento)
Información subóptima en consultas
Posibilidad de obsolescencia
ISI/SI - 9 IS/ISI
www.kybele.urjc.es
Arquitectura de un DWH
BD
FD 2
FD1
FD 3
DATAWAREHOUSE
Fuentes Internas
Fuentes Externas
ETL
Copia de Seguridad
Interfaz y Operadores (Metadata)
Data Marts
ERP
CRM
Consultas e informes
Herramientas EIS
Herramientas OLAP
Minería de Datos
ISI/SI - 10 IS/ISI
www.kybele.urjc.es
Elementos de un DWH
Funciones ETL: Extracción(extraction), transformación (transformation) y carga (load)
Extracción Acción de obtener la información deseada a partir de los datos almacenados en
fuentes externas. Transformación Cualquier operación realizada sobre los datos para que puedan ser cargados en el
data warehouse o se puedan migrar de éste a otra base de datos. Carga. Consiste en almacenar los datos en la base de datos final, por ejemplo el data
warehouse objetivo normal.
Metadatos: "datos acerca de los datos“ Documenta y recoger todas las definiciones referentes a: Tablas , Columnas de tablas, Relaciones entre tablas , Jerarquías y Dimensiones de
datos y Entidades y Relaciones
Middleware Asegura la conectividad entre todos los componentes de la arquitectura de un almacén de datos. Servicios u operaciones que hacen posible el funcionamiento de aplicaciones distribuidas sobre plataformas heterogéneas que se sitúa entre las capas de aplicaciones y las capas inferiores (sistema operativo y red).
ISI/SI - 11 IS/ISI
www.kybele.urjc.es
Arquitectura de un Almacén de Datos
Modelo multidimensional:
Se representa una actividad que es objeto de análisis (hecho) y las dimensiones que caracterizan la actividad (dimensiones).
Info relevante sobre el hecho (actividad) se representa por un conjunto de indicadores (medidas o atributos de hecho).
Info descriptiva de cada dimensión se representa por un conjunto de atributos (atributos de dimensión).
Ejemplo: Organización: Cadena de supermercados. Actividad objeto de análisis: ventas de productos. Información registrada sobre una venta: “del producto “Tauritón 33cl” se han vendido en el almacén “Almacén nro.1” el día 17/7/2003, 5 unidades por un importe de 103,19 euros.”
Para hacer el análisis no interesa la venta individual (ticket) realizada a un cliente sino las ventas diarias de productos en los distintos almacenes de la cadena.
ISI/SI - 12 IS/ISI
www.kybele.urjc.es
Arquitectura de un Almacén de Datos
importe
unidades
Departamento
Nro_producto
Categoría
Marca
Tipo
Día
Mes
Semana
Almacén
Ciudad
Región
Tipo
Año
Descripción
Actividad que es objeto de análisis con los indicadores que interesa analizar
Dimensiones (puntos de vista) desde los que se puede analizar la actividad.
Pro
ducto
Trimestre
atributos
hecho
medidas
www.kybele.urjc.es
Arquitectura de un Almacén de Datos
Entre los atributos de una dimensión se
definen jerarquías
departamento
almacén
ciudad región
tipo
día mes año
Producto
Almacén
Tiempo
nro. producto categoría
trimestre
semana
ISI/SI - 14 IS/ISI
www.kybele.urjc.es
Arquitectura de un Almacén de Datos
Este esquema multidimensional recibe varios nombres:
Estrella: si la jerarquía de dimensiones es lineal
Estrella jerárquica o copo de nieve: si la jerarquía no es lineal.
PERSONAL
VENTAS
tiempo
tiempo producto
lugar
proyecto
equipo
ISI/SI - 15 IS/ISI
www.kybele.urjc.es
Data Mart
¿Se puede recopilar toda la información necesaria en un único esquema estrella o copo de nieve?
NO: necesidad de varios esquemas.
VENTAS
PERSONAL
PRODUCCIÓN
CAMPAÑA
tiempo
tiempo
tiempo
producto
producto
lugar
proyecto equipo
producto proveedor
lugar
lugar
tiempo
Almacén
formado por
4 datamarts.
Cada uno de estos esquemas se denomina Datamart.
ISI/SI - 16 IS/ISI
www.kybele.urjc.es
Data Mart
¿Qué es? Parte de un DWH De un fin específico Solución táctica
Subconjunto de un almacén de datos, generalmente en forma de estrella o copo de nieve.
Por qué Consultas mas rápidas y menos usuarios Desarrollo mas rápido
Integrados Asegurar la consistencia de los datos Requiere de una planificación avanzada
ISI/SI - 17 IS/ISI
www.kybele.urjc.es
Análisis de Datos en DWH
OLTP : Procesamiento Transaccional en Línea (Online Transacction Process)
Operacionales Transacciones en línea
OLAP: Procesamiento analítico en línea (Online Analytical Process)
Respuestas rápidas a problemas ad hoc. Alto nivel de detalle en cada operación
Elementos de control Variables de decisión: Representan una medición del negocio Se basan en el concepto de cubo
ISI/SI - 18 IS/ISI
www.kybele.urjc.es
Análisis de datos en DWH
Se pueden obtener hechos a diferentes niveles de agregación
Obtención de medidas sobre los hechos parametrizadas por atributos de las dimensiones y restringidas por condiciones impuestas sobre las dimensiones
Zumo Piña 1l.
Cola 33cl.
Leche Entera Cabra 1l
Tauritón 33cl
Cerveza Kiel 20 cl
Jabón Salitre
1 2 3 4 1 2
TIEMPO:
trimestre
Madrid Barcelona
Valencia
Zaragoza Alicante
Murcia
17
57
93
5
12
Ventas en
miles de
Euros
Jerarquía de dimensiones:
Categoría
Gama Prov.
\ /
Artículo
País
Ciudad
Supermercado
Año
/ \
Trimestre \
/ \
Mes Semana
\ /
Día
|
Hora
PRODUCTO:
artículo
LUGAR:
ciudad
PRODUCTO LUGAR TIEMPO
2004 2005
22
Un nivel de agregación para un conjunto de dimensiones se denomina cubo
HECHO: “El primer trimestre de 2004 la empresa vendió en
Valencia el producto tauritón 33 cl. por un
importe de 22.000 euros”
ISI/SI - 19 IS/ISI
www.kybele.urjc.es
Herramientas OLAP
Operaciones OLAP
Carácter de agregación
Roll: Eliminar
criterio de agrupación existente
Drill: Nuevo criterio a
partir de los grupos
actuales
Redimensionar
Pivot: Reorientar
dimensiones del informe
Selección y proyección de datos
Slice: En dos
dimensiones
Dice: En mas de dos
dimensiones
ISI/SI - 20 IS/ISI
www.kybele.urjc.es
Herramientas OLAP
Las herramientas de OLAP se caracterizan por:
Ofrecer una visión multidimensional de los datos (matricial).
No imponer restricciones sobre el número de dimensiones.
Ofrecer simetría para las dimensiones.
Permitir definir de forma flexible (sin limitaciones) sobre las dimensiones: restricciones, agregaciones y jerarquías entre ellas.
Ofrecer operadores intuitivos de manipulación: drill-down, roll-up, slice-and-dice, pivot.
Ser transparentes al tipo de tecnología que soporta el almacén de datos (ROLAP o MOLAP).
ISI/SI - 21 IS/ISI
www.kybele.urjc.es
Variaciones de OLAP
Sistemas ROLAP
Se implementan sobre tecnología relacional, pero disponen de algunas facilidades para mejorar el rendimiento (índices de mapas de bits, índices de JOIN).
Sistemas MOLAP
Disponen de estructuras de almacenamiento específicas (arrays) y técnicas de compactación de datos que favorecen el rendimiento del almacén.
Sistemas HOLAP
Sistemas híbridos entre ambos.
ISI/SI - 22 IS/ISI
www.kybele.urjc.es
ROLAP y MOLAP
Herramienta OLAP
Herramienta OLAP
Servidor Relacional
Desktop
Servidor Multidimensional
Warehouse
MOLAP ROLAP
www.kybele.urjc.es
Data Mining Minería de Datos
Minería de datos: Extraer información precisa
Proceso semiautomático de análisis de grandes bases de datos con el fin de encontrar patrones interesantes para el usuario
ISI/SI - 24 IS/ISI
www.kybele.urjc.es
Es la extracción automática de información predictiva escondida desde bases de datos.
Estudia métodos y algoritmos que permiten la extracción automática de información sintetizada que permite caracterizar las relaciones escondidas.
Tecnología que ayuda a enfocarse en la información más importante en los almacenes de datos.
Minería de Datos
ISI/SI - 25 IS/ISI
www.kybele.urjc.es
Proceso de Minería de Datos
BD Datos
Selección Pre
procesamiento
Selección de características
Extracción de conocimiento Evaluación
Modelo clasificador
Conocimiento
www.kybele.urjc.es
Herramientas Minería de Datos
Predicen tendencias futuras y comportamientos.
Pueden responder a preguntas que consumarían demasiado tiempo para resolverlas.
La automatización, provee herramientas típicas de soporte de decisión.
Obtienen de las bases de datos patrones escondidos.
Pueden ser implementadas en diferentes tipos de arquitecturas
ISI/SI - 27 IS/ISI
www.kybele.urjc.es
Ciencias de Administración y Sistemas de Información
Técnicas
Minería de Datos
Reconocimiento de Patrones
Aprendizaje automático
Bases de Datos
Modelamiento matemático
ISI/SI - 28 IS/ISI
www.kybele.urjc.es
Técnicas de Minería de Datos
Son el resultado de un largo proceso de investigación y desarrollo de productos.
Pueden ser implementadas rápidamente en software y en las plataformas de hardware existente.
La Minería de Datos esta soportada por tres tecnologías maduras:
Colección masiva de datos.
Multiprocesamiento.
Algoritmos de minería de datos.
ISI/SI - 29 IS/ISI
www.kybele.urjc.es
Taxonomía de la Minería
Data Mining
Verification Driven DM Discovery Driven DM
SQL SQL Generator Description Prediction
Query Tools
OLAP
Visualization
Clustering
Association
Secuential Association Distillation
Clasification Statistical Regression
Decision Tree Rule Induction
Neural Network
www.kybele.urjc.es
Métodos de la Minería
Métodos Estadísticos
Anova Análisis de Covarianza
JI Cuadrado Contrasta la
independencia de variables
Análisis de clusters
Clasifica poblaciones
Regresión Lineal Variables
dependientes e independientes
ISI/SI - 31 IS/ISI
www.kybele.urjc.es
Técnicas de la Minería
• Subconjuntos que a su vez son particionados Arboles de Decisión
• Información por coincidencia
• SI – Entonces Reglas de Asociación
• Técnicas de reproducción para búsqueda y optimización
• Utilizada en primeras fases de minería de datos Algoritmos genéticos
• Modelamiento real evitando el determinismo
• Tratamiento probabilístico Lógica difusa
• Estudio de una variable a través del tiempo
• Se basa en ciclos tendencias y estaciones Series temporales
• Aprender sobre relaciones de dependencia
• Trabajo con BD incompletas Redes bayesianas
• Entrada: Conjunto de casos asociados a una clasificación
• Se usan árboles de decisión Inducción a reglas
• Formalización de árboles y reglas de decisión
• Posee motores de inferencia Sist. Basados en conocimiento y
sist expertos
ISI/SI - 32 IS/ISI
www.kybele.urjc.es
Evaluación de la Minería
Selección de técnicas adecuadas. El mínimo aceptable para elegir una tecnología de MD y un producto depende de qué tanto el producto beneficia al negocio: Ingresos. Costos disminuidos. Rendimiento de inversiones.
Para desarrollar con éxito un negocio, el MD debe buscar algo más que patrones deseados.
Se tienen tres medidas claves, para una evaluación de las herramientas.
Precisión Explicación Integración
ISI/SI - 33 IS/ISI
www.kybele.urjc.es
Retos de las herramientas de BI
Evitar caer en una falsa interpretación equivocarse.
Tiempo y espacio.
Privacidad
ISI/SI - 34 IS/ISI
www.kybele.urjc.es
Tendencias en Business Intelligence
Tecnologías verdes
Redes sociales
Visualización de datos
BI móviles
BI en la nube
Minería de texto
Minería de web
ISI/SI - 35 IS/ISI
www.kybele.urjc.es
Minería de Web y de Texto
Aplicación de técnicas de DM para la extracción de información de la web y de textos
Text mining
Web mining
ISI/SI - 36 IS/ISI
Web Content Mining
• Fuente: Contenido textual no estructurado (usualmente HTML)
Web Structure Mining
• Fuente: Enlacies URL contenidos en las páginas
Web Usage Mining
• Fuente: Descripción de las visitas de un website (clicks por sesión, etc)
Entradas
•Diversas Fuentes de datos
•Desestructurados o Semiestructurados
Establecer el Corpus
•Recolectar y organizar la información de un dominio específico
Crear matriz TD
•TD: Término-Documento
•Estructura el Corpus
Extraer Conocimiento
•Descubrir nuevos patrones en la matriz TD
www.kybele.urjc.es
Tecnologías Verdes
Green computing, green IT Estudio y práctica para el diseño, creación y uso de artefactos informáticos de manera eficiente minimizando el impacto al medio ambiente.
Elementos creados: monitores, impresoras, dispositivos de almacenamiento, sistemas de comunicación y de redes
Objetivos: Reducir el uso de materiales contaminantes
Uso eficiente de la energía durante el periodo de vida de los productos
Fomentar la reciclabilidad y biodegradabilidad de los productos obsoletos
Ejemplos: La norma Energy Star
Certificación TCO
ISI/SI - 37 IS/ISI
www.kybele.urjc.es
Redes sociales
ISI/SI - 38 IS/ISI
Red Social Usuarios
(Visitantes únicos) Porcentaje
Facebook.com 792,999,000 55.1 %
Twitter.com 167,903,000 11.7 %
LinkedIn.com 94,823,000 6.6 %
Google+ 250,000,000 17.7 %
MySpace 61,037,000 4.2 %
Others 255,539,000 17.8 %
Total 1,438,877,000 100 %
Tomado de: ComScore: Google+ Grows Worldwide Users From 65 Million In October To 67 Million In November". December 22, 2011.
http://techcrunch.com/2011/12/22/googlesplus/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+Techcrunch+%28TechCrunch%29.
www.kybele.urjc.es
BI en Redes Sociales
Inteligencia de negocios 2.0: Herramientas para analizar y decidir libremente qué tipo de comunicación, información y colaboración quieren llevar a cabo con las marcas y organismos
Colaboración entre usuarios Amplitud de fuentes de información Generar interacción con los usuarios
Métricas asociadas: Retorno de la Interacción
Retorno de implicación Retorno de la participación Retorno de la confianza
ISI/SI - 39 IS/ISI
www.kybele.urjc.es
Visualización de datos
Comunicar información de manera clara y efectiva a través de gráficos
Visualización atractiva e interesante de la información Ejemplo: blogs o websites p.e. www.visuwords.com
ISI/SI - 40 IS/ISI
www.kybele.urjc.es
Visualización de datos
Ejemplo: Nubes de palabras
Frecuencia de términos
ISI/SI - 41 IS/ISI
www.kybele.urjc.es
BI en la nube
En 2012 los medianos y pequeños negocios que no tengan los recursos de IT suficientes llevaran y adoptarán sus negocios hacia la nube
SaaS BI = Alojar una aplicación o plataforma de BI en la nube y proporcionar funciones bajo demanda para los usuarios empresariales
Reducción de costos Menos infraestucturas
ETL puede subir datos a la nube para su procesamiento
El 46% de los encuestados considera que es "difícil" trasladar los datos a la nube y desde ella en un entorno de BI SaaS.
ISI/SI - 42 IS/ISI
www.kybele.urjc.es
BI en dispositivos móviles
Compañías están probando aplicaciones móviles que sirvan para mejorar sus labores a nivel de negocio.
Dispositivos móviles usados mas allá de labores de comunicación
Apple calcula que un 92% de las empresas de la lista Fortune 500 desarrollarán aplicaciones para iPad.
ISI/SI - 43 IS/ISI
www.kybele.urjc.es
Herramientas de BI en 2.0
Trends in Business Analytics. http://www.youtube.com/watch?v=nfMnILQVZXo&feature=related
Mobile BI is on the move. http://www.information-management.com/news/mobile-bi-infrastructure-data-quality-adoption-cio-gartner-10022807-1.html
LITEBI: Business Intelligence in the Cloud. http://www.youtube.com/watch?v=5hxtZsyx_6w
La inteligencia de negocio y su potencial en Redes Sociales http://www.youtube.com/watch?v=yAgJjcVEwlo
Observatorio de Redes Sociales 2012. http://tcanalysis.com/blog/posts/infografia-4-c2-aa-oleada-observatorio-de-redes-sociales
TVE En Portada. Ciberbasura sin fronteras http://www.youtube.com/watch?v=KirbKJeIv28
ISI/SI - 44 IS/ISI
www.kybele.urjc.es
Resumiendo
ISI/SI - 45 IS/ISI
www.kybele.urjc.es
Bibliografía
Beltrán Martínez, Beatriz. Minería de Datos. http://bbeltran.cs.buap.mx/Ceneval.ppt
Turban, Efraín; Sharda, Ramesh; Denle, Dursun; King, David. Business Intelligence. A managerial Approach. 2nd Edition.Pearson. ISBN 10: 0-13-247882X
Pérez López, César. Minería de Datos: técnicas y herramientas. Paraninfo. 2008. ISBN: 9788497324922
Piattini, Mario; Marcos, Esperanza; Calero, Coral y Vela, Belén. Tecnologías y diseño de bases de datos. Ra-Ma. 2006. ISBN: 8478977333
ISI/SI - 46 IS/ISI