unidad vii esp parte 3 clase de datawarehouse ( ing. doño)

23
DATA WAREHOUSE Concepts & Rules

Upload: titiushko-jazz

Post on 15-Aug-2015

22 views

Category:

Documents


1 download

TRANSCRIPT

DATA WAREHOUSEConcepts & Rules

Que es Data Warehouse?• Tecnicamente Data Warehouse

es una base de datos corporativa que almacena datos de diferentes fuentes con ciertas reglas y que esta disponible para los analisis de negocio y la toma de decisiones bajo un modelo multidimensional.

• Es un proceso y no un producto que acompana al negocio de acuerdo a su estrategia.

Que es Data Warehouse?

Nuestros clientes internos deben conceptualizarse bajo el esquema siguiente:

Data Warehouse es el expediente de nuestra organización en donde se almacenan los datos con las reglas de negocio, bajo estandares y con la disponibilidad que el negocio demande.

Porque construir un DWH?• Sistemas no integrados• Múltiples e incompatibles estructuras de datos• Muchos puntos de entrada a los datos• Manejo de información histórica• Para facilitar las actividades de reporteo y análisis de

usuarios• Proveer una vista única del negocio

La necesidad de montar un Data Warehouse nace cuando una organización crece suficientemente como para tener un volumen de datos suficientemente grande como para que acceder a los datos sea un problema, como para comparar datos de diferentes orígenes se a un problema.

Que es Data Warehouse?

• Bill Inmon: A warehouse is a subject oriented, integrated, time-variant and non-volatile collection of data in support of management’s decision making process.

• Ralph Kimball: A warehouse is a copy of transaction data specifically structured for query and analysis.

Diferencias entre DWH y los sistemas Transaccionales

Datos Primitivos / Operacionales Datos Derivados / Data Warehouse

Orientados a la aplicación Orientados a un tema

Detallados Sumarizados, al menos procesados y clasificados

Exacta, al momento del acceso Representa valores a través del tiempo

Sirve a los oficinistas, digitadores, cajeros Sirve a los mandos medios y directivos

Puede ser actualizada No se actualiza

Se ejecuta repetitivamente Se ejecuta heurísticamente (en demanda)

Los requerimientos para procesar se entiende a priori

Los requerimientos para procesar se entienden a posteriori

Accesible atómicamente Accesible por conjuntos de datos

Orientado a la transacción Orientado al análisis

No redundante Redundante

Estructura estática Estructura dinámica

Pequeños volúmenes de datos Grandes volúmenes de datos

Alto uso Bajo uso

Descripción de un Data Warehouse

Creacion de un Data Warehouse

Arquitectura

Capacidad

Integración

Definicion y Diseno de Data Marts.

Organización fisica.

Definicion de Fuentes.

ETL

End-User application

Y Inmon creo el DWH en 7 días…..

Para comprender el potencial de nuestro DWH, lo mejor es empezar a construirlo y dejar que los usuarios comprendan que es y que se puede hacer con el. Esto quiere decir… que la mejor manera de afrontar la creación de un Data Warehouse es hacerlo por fases.

Los 7 días ….

Día 1• En el primer día hay una multiplicidad de sistemas

funcionando y dando soporte a nuestro entorno operacional. Realizando transacciones.

Día 2• El día dos se empieza a llenar el Data Warehouse. Ya hay

algunas tablas y algunas Metricas introducidas y ya empezamos a dar servicio a algún usuario que empieza a ver el potencial…

Los 7 días ….

Día 3• El tercer día la mayoría del Data Warehouse ya está lleno

y con estos datos frescos y listos para ser usado su popularidad aumenta, creciendo el número de usuarios interesados en él. Los sistemas de Business Intelligence y analíticos empiezan a mirar al Data Warehouse.

Día 4• El cuarto día el Data Warehouse ya está casi lleno y la

mayoría de sistemas de Business Intelligence y analíticos ya atacan al Data Warehouse. Comienza la competición por acceder a los recursos del Data Warehouse.

Los 7 días ….Día 5• El quinto día nacen los datamarts. La competición entre los diferentes

departamentos de la empresa es ya muy seria y en necesario crear Datamarts. El Data Warehouse empieza a ser demasiado grande y demasiado congestionado. Es mejor crear datamarts con la porción de información que cada departamento necesita y que estos trabajen con esos subconjuntos específicos para ellos y no con todo el Data Warehouse.

Día 6• El sexto día se consolidan los datamarts. Son más cómodos,

manejables, Todo (o casi todo) el BI y análisis se realiza a través de OLAP. Los datamarts se consolidan como la interacción estándard de la organización para el consumo de datos. El Data Warehouse pasa a ser eso, el almacen del que se sacan los datos para ser consumidos pero no se usa práctimente para nada mas que para eso.

Los 7 días ….• Día 7 o día N• La arquitectura ya está

desarrollada al 100%. En el lado operacional, los sistemas origen, quedan sólo las operaciones y todas las consultas analíticas se hacen en el Data Warehouse o los Datamarts. Cada departamento con necesidades analíticas tiene ya su datamart a partir del cual trabajan y del que incluso empiezan a sacar sus datos derivados, como análisis what-if, escenarios etc.

Multidimensional: La clave!• para construir un Data Warehouse, hay que grabarse en la mente

que la información es multidimensional.

• Métricas (también llamadas indicadores) son aquellos datos que implican un valor relacionado con un Hecho de Negocio. Son siempre valores numéricos, susceptibles de ser sumados para obtener cualquier valor agregado, y responden a la pregunta: ¿Cuánto…? Ejemplos son: Deudas a proveedores, Venta Neta, Unidades Vendidas, Minutos de una llamada telefónica, Número de Hijos…

• Dimensiones son aquellos datos que califican o hacen referencia a ese Hecho de Negocio, cómo se produjo y bajo qué circunstancias, y responden a las preguntas ¿Quién…?, ¿Cuándo…?, ¿Dónde…?, ¿Cómo…?, ¿Qué?, etc. Número de Cliente, Fecha, Código de Oficina, Clave de departamento, municipio, rango de edad, etc, son dimensiones

Multidimensional: La clave!¿Qué es un Hecho de Negocio? Es cualquier Operación que tenga interés para el Negocio: Una llamada telefónica que hay que facturar, una venta de un artículo, un pago de recibo, un abono en una cuenta…en fin cualquier cosa que tenga reflejo contable en una compañía, y que sea relevante para el negocio. Y casi siempre un Hecho de Negocio tiene pocas métricas, y muchas dimensiones

Ejemplo Metricas/Dimensiones

Ejemplo Metricas/Dimensiones

• En esta factura, los hechos de negocio son las líneas individuales de venta, cada uno de los artículos que han sido adquiridos en esa compra.

• Para cada artículo, existen dos indicadores: el Número de Artículos Adquiridos  y el Precio de Venta al Público de dichos artículos.

• Todo lo demás, son dimensiones.: El código del vendedor  que es normalmente la Señorita que nos atiende en Caja; El tipo de terminal o numero de caja; El Centro Comercial en que se produjo la Operación ;código de empresa; código de tienda; código de Operación ; La Fecha y Hora en que se produjo la Operación, La Forma de Pago (en este caso “En Efectivo”; si hubiera sido con tarjeta de crédito, aparecería su número, y la indicación “con tarjeta de crédito” de débito, etc.

Como se representan las metricas y dimensiones?

Mediante una representación en Estrella (Star Schema, en inglés) o, mejor aún, con una representación en Copo de Nieve (Snowflake Schema). en el modelo en estrella las dimensiones son de únicamente un nivel, mientras que en el modelo en Copo de Nieve, las dimensiones pueden tener jerarquías por ejemplo, un año tiene la buena costumbre de dividirse en doce meses, que a su vez se dividen en días, estos en horas, éstas en minutos, etc. Si se mantiene esa jerarquía, es posible comparar las ventas de los cinco primeros días de febrero de los últimos tres años, o las de los últimos sábados de junio, por franjas horarias, o las de ciertas secciones de Alimentación, por medio de pago… y muchas más que se les ocurrirán a los responsables del negocio.

Como se representan las metricas y dimensiones?

Data Marts

Los Data marts son subconjuntos de datos de un data warehouse para áreas especificas.

Entre las características de un data mart destacan:• Usuarios limitados.• Área especifica.• Tiene un propósito especifico.• Tiene una función de apoyo.

Cubos

• es una base de datos multidimensional.

• ¿Qué es una dimensión?• Es aquello por lo que podemos desglosar

un indicador o métrica.• Algunos ejemplos de dimensiones pudieran ser:

tienda, departamento, producto, linea, bodega, etc.

Beneficios• Los Procesos de Toma de Decisiones pueden ser mejorados

mediante la disponibilidad de información• Procesos y datos de los sistemas operacionales, así como los

datos en el Data Warehouse, son usados y examinados por tanto pueden quedar expuestos posibles defectos en aplicaciones actuales, siendo posible mejorar la calidad de nuevas aplicaciones

• La gente tiene mayor confianza en las decisiones empresariales

• La información compartida conduce a un lenguaje común, conocimiento común, y mejoramiento de la comunicación en la empresa.

• Visibilidad, accesibilidad, y conocimiento de los datos producen mayor confianza en los sistemas operacionales.

Ejemplo