fundamentos de olap

44
INTELIGENCIA DE NEGOCIOS Fundamentos de OLAP UNIVERSIDAD LOS ÁNGELES DE CHIMBOTE FACULTAD DE INGENIERÍA ESCUELA DE INGENIERIA DE SISTEMAS

Upload: javier-villar

Post on 11-Sep-2015

44 views

Category:

Documents


3 download

DESCRIPTION

hace una breve descripcion en diapositivas de los cubos OLAP para el proceso de BI

TRANSCRIPT

  • INTELIGENCIA DE NEGOCIOS

    Fundamentos de OLAP

    UNIVERSIDAD LOS NGELES DE CHIMBOTE

    FACULTAD DE INGENIERAESCUELA DE INGENIERIA DE SISTEMAS

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Tabla de Contenido

    Arquitectura de un DWH OLTP

    Load Manager

    DW Manager

    Query Manager

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Objetivos

    1. Presentar la arquitectura de una DWH

    2. Presentar los conceptos bsicos necesarios para entender la tecnologa OLTP

    3. Presentar ejemplos sencillos de cada uno de los conceptos relacionados al OLTP

  • ARQUITECTURA DE UN DATA WAREHOUSING

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Arquitectura de un DWH

    Datos

    Warehouse

    Consultas y anlisis de

    datos

    Fuentes externas

    Integracin de Datos

    OLAP Server

    OLAP

    Consultas/Reportes

    Minera de datos

    Metadata

    SupervisinAdministracin

    Fuentes internas

    Adquisicin de datos

    Extraccin de datos

    Construccin y mantenimiento

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Arquitectura

    Los datos son extrados desde aplicaciones, bases de datos, archivos, etc.

    Los datos son integrados, transformados y limpiados, para ser cargados en el DW

    La informacin del DW se estructura en cubos multidimensionales, los cuales preparan esta informacin para responder a consultas dinmicas con una buena performance.

    Los usuarios acceden a los cubos multidimensionales del DW utilizando herramientas de consulta, exploracin, anlisis, reportes, etc.

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    OLTP OLTP (On Line Transaction

    Processing), informacin transaccional generada por la empresa en su operacin.

    Diferentes formatos, procedencia, funcin, configuracin.

    Archivos de textos.

    Hipertextos.

    Hojas de clculos.

    Informes semanales, mensuales, anuales, etc.

    Bases de datos transaccionales.

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    ETLETL (Extraccin, Transformacin y Carga).

    Extraccin. Desde los OLTP

    Transformacin. Manipulacin, integracin, solucin de inconsistencias.

    Carga. Carga en el DWH

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    ETL. Extraccin

    Extrae los datos relevantes desde diversas

    fuentes OLTP.

    Procesamiento sin paralizar el OLTP, ni el DWH

    Gestiona los metadatos del proceso ETL.

    Facilita la integracin de fuentes internas y externas.

    Tablas auxiliares y temporales para clculos intermedios.

    El DWH se puebla desde estas tablas.

    CRM ERP TXTAplicaciones a la medida Otras

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    ETL . Transformacin Convierte datos inconsistentes

    en datos compatibles y congruentes, para ser cargados en el DW.

    Codificacin.

    Medida de atributos.

    Convenciones de nombramiento.

    Fuentes mltiples.

    Limpieza de Datos (Data Cleaning).

    Datos no existentes (missing values).

    Datos extremos (outliers)

    ETL

    BD Temporal ETLETL

    Sistema Objetivo

    Evaluar Calidad de datos

    Registros de excepcin

    Correccin de datos

    por el usuario

    BDRArchivos planos CRMERP

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    ETL . TransformacinCodificacin. Medida de atributos.

    Convenciones de nombramiento. Fuentes mltiples.

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    ETL. TransformacinDatos no existentes

    El dato no existe por que:

    No fue registrado en el momento

    En la integracin de BD una de

    ellas no tiene esa columna

    Datos extremos

    Se presenta por que:

    Caso excepcional

    Error de digitacin.

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    ETL. Carga

    Carga el DWH con: Datos transformados que

    residen en tablas temporales.

    Datos de OLTP que tienen correspondencia directa.

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    El proceso ETL

    Extraccin. Se extraen datos relevantes desde los OLTP y se depositan en tablas temporales.

    Transformacin. Se integran y transforman los datos en las tablas temporales para evitar inconsistencias.

    Carga. Se carga desde las tablas temporales al DHW.Si existe correspondencia directa entre los datos del OLTP y del DWH, se procede a la carga.

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Tareas del ETL Initial Load (Carga Inicial)

    Primera carga.

    Movimiento de gran cantidad de datos.

    Fuerte consumo de tiempo.

    Incremental Load (Carga Incremental o actualizacin)

    Mantenimiento o refresco peridico (frecuencia de actualizacin)

    Movimiento de pocos datos (nuevos o modificados).

    Problema control de cambios (desde la fecha anterior)

    Identificar las instancias de los OLTP involucradas.

    Utilizar disparadores (triggers) en los OLTP.

    Recurrir a marcas de tiempo (Time Stamp).

    Comparar los datos existentes en los dos ambientes (OLTP y DW).

    Full Load (Carga total)

    Si el control de cambios es complejo, cargar desde cero.

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Administracin del DWH Transforma los datos fuentes en un modelo

    dimensional.

    Gestiona los datos mediante tablas de hechos y de dimensiones (repositorio de datos)

    Las tablas de hechos y dimensiones permiten crear cubos OLAP

    Permite ejecutar sentencias MDX (Multidimensional Expressions).

    Define las polticas de particionamiento de la tabla de hechos para mejorar la eficiencia de las consultas.

    Ejecuta copias de respaldo.

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Base de Datos Multidimensionales

    Una BDMD se usa para crear aplicaciones OLAP.

    Cada tabla almacena registros de la forma:

    D1, D2, D3, M1, M2, M3.

    Cada tabla se relaciona a un hipercubo (o un cubo OLAP)

    DBR BMDM CUBO

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Base de Datos Multidimensionales

    Cada tabla almacena registros de la forma:

    D1, D2, D3, M1, M2, M3.

    Di es una dimensin Describe un aspecto del negocio.

    Define la organizacin lgica de los datos.

    Provee un medio para analizar datos del negocio.

    Permite filtrar y manipular los datos almacenados

    Mi es una medida (hecho) Siempre son numricas

    Cruzan todas las dimensiones en todos los niveles.

    Son indicadores sumarizados (sumas, promedios,

    Fact Table

    TimeProductCustomerEmployeeTotalQuantityFreightDescount

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Modelos Multidimensionales

    Esquema en Estrella

    (Star Scheme).

    Esquema Copo de Nieve

    (Snowflake Scheme).

    Esquema Constelacin

    (Starflake Scheme).

    Tablas de dimensiones

    Tabla de hechos

    Medidas

    Dimensiones

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Esquema Estrella

    Tablas de dimensiones

    Tabla de hechos

    Medidas o hechos

    Dimensiones

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Esquema Copo de Nieve

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Esquema Constelacin

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Tabla de dimensiones

    Definen la organizacin lgica de los datos.

    Tiene una PK (nica) y columnas de referencia: Clave principal (PK) o identificador nico.

    Clave forneas.

    Datos de referencia primarios (identifican la dimensin)

    Datos de referencia secundarios (complementan la descripcin).

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Las tablas de hechos contienen hechos.

    Los hechos o medidas son los valores de datos que se analizan (son numricos).

    La tabla de hechos tiene una clave primaria compuesta por las claves primarias de las tablas de dimensiones relacionadas a este.

    Los hechos son aquellos datos que residen en una tabla de hechos y que son utilizados para crear indicadores, a travs de sumarizaciones

    Tablas de Hechos

    Medidas o hechos

    Dimensiones

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Hechos o medidas

    Las medidas representan los valores que son analizados: Cantidad de pacientes admitidos Llamadas efectuadas. ImporteTotal = precioProducto * cantidadVendida Rentabilidad = utilidad / PN CantidadVentas = cantidad PromedioGeneral = AVG(notasFinales)

    Valores numricos porque estos valores son las bases de las cuales el usuario puede realizar clculos.

    Si la medida es no numrica debemos codificarla

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Hechos o medidas

    Caractersticas de las medidas: Deben ser numricas. Cruzan todas las dimensiones en todos los niveles.

    Las medidas pueden clasificarse en:Naturales

    Estas formas de agregacin pueden ser:

    Suma: es la operacin que suma los valores de las columnas

    Cuenta: realiza un conteo de los valores

    Mnima: devuelve un valor mnimo

    Mxima: proporciona el mayor de los valores

    Cuenta de Distintos: cuenta los valores diferentesCalculadas

    Clculos Matemticos

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de ChimboteCubos Multidimensionales o hipercubos Representa o convierte datos planos que se

    encuentran en filas y columnas, en una matriz deN dimensiones.

    Los atributos existen a lo largo de varios ejes odimensiones y la interseccin de ellas representael valor que tomar el indicador.

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    La idea de multidimensionalidad

    Sales

    Year

    Producttype

    Region

    Productcategory

    Quarter

    Product

    3 dimensiones

    granularity

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    29

    El Cubo

    1999

    1998

    1997

    Mobiles Fax Standard

    Vaud

    Fribourg

    Neuchatel

    Regin

    Ao

    Tipo deProducto

    Ventas de telefonos Standard en 1997 en la regin Vaud

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Indicadores, Atributos y Jerarquas

    Los objetos a incluir en un cubo son:

    Los indicadores, son sumarizaciones (suma,conteo, promedio, etc), efectuadas sobre algnhecho. Dependen de los atributos/jerarquas quese utilicen para analizarlos.

    Los atributos, son criterios utilizados para analizarlos indicadores. Se basan, en los datos dereferencia de las tablas de dimensiones.

    En un cubo, los atributos son los ejes del mismo.

    Son campos o criterios de anlisis, pertenecientesa tablas de dimensiones.

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Indicadores, Atributos y Jerarquas

    Una jerarqua representa una relacin lgica entre dos o ms atributos; si poseen una relacin padre-ho.

    Tienen las siguientes caractersticas: Existen varias en un mismo cubo.

    Tienen dos o ms niveles.

    Relacin 1-n o padre-ho entre atributos consecutivos de un nivel superior y uno inferior.

    Se pueden identificar cuando existen relaciones 1-n o padre-ho entre los propios atributos de

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Granularidad

    La granularidad es el nivel de detalle en que se almacena la informacin.

    Por ejemplo: Datos de ventas o compras de una

    empresa, pueden registrarse da a da

    Datos pertinentes a pagos de sueldos o

    cuotas de socios, podrn almacenarse

    a nivel de mes.

    A mayor nivel de detalle, mayor posibilidad analtica, ya que los mismos podrn ser resumidos o sumarizados.

    Los datos con granularidad fina (nivel de detalle) podrn ser resumidos hasta obtener una granularidad media o gruesa. No sucede lo mismo

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Consultas

    Ejecuta consultas relacionales, tales como Join y agregaciones, y de consultas propias del anlisis de datos, como drill-up y drill-down.

    Una consulta consiste en obtener indicadoresdesde una tabla de hechos, restringidas por las propiedades o condiciones de los atributos.

    Las operaciones pueden ser: Drill-down.

    Drill-up.

    Drill-across.

    Roll-across.

    Pivot.

    Page.

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Ejemplo

    Sea el siguiente esquema estrella

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Drill-downD

    ato

    sori

    gin

    ale

    sD

    rill-

    dow

    nM

    atr

    icia

    lmen

    te

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Drill-upD

    rill-

    up

    Ma

    tric

    ialm

    en

    teD

    ato

    sori

    gin

    ale

    s

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Drill-acrossD

    rill-

    acr

    oss

    Ma

    tric

    ialm

    en

    teD

    ato

    sori

    gin

    ale

    s Se analiza a mayor detalle agregando un criterio ms

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Roll-acrossR

    oll-

    acro

    ss

    Ma

    tric

    ialm

    en

    teD

    ato

    sori

    gin

    ale

    s

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Pivot

    Selecciona el orden de visualizacin de atributos e indicadores

    Roll-

    acro

    ss

    Ma

    tric

    ialm

    en

    teD

    ato

    sori

    gin

    ale

    s

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Page

    Presenta el cubo dividido en secciones, mediante valores de un atributo, como si se tratase de pginas de un libro:

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    Page

    Pivot permite realizar las siguientes acciones:1. Mover un atributo o indicador desde el encabezado

    de fila al encabezado de columna.

    2. Mover un atributo o indicador desde el encabezado de columna al encabezado de fila.

    3. Cambiar el orden de los atributos o indicadores del encabezado de columna.

    4. Cambiar el orden de los atributos o indicadores del encabezado de fila.

    Es muy til cuando las consultas devuelven muchos registros y es necesario desplazarse por los datos para poder verlos en su totalidad.

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    PageP

    g

    ina 1

    Ma

    tric

    ialm

    en

    teD

    ato

    sori

    gin

    ale

    s

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    PageP

    g

    ina 1

    Ma

    tric

    ialm

    en

    teD

    ato

    sori

    gin

    ale

    s

  • Facultad de Ingeniera Escuela de Ingeniera de Sistemas

    Universidad Los ngeles de Chimbote

    PREGUNTAS