metodología de almacén de datos

7
UNIVERSIDAD POLITÉCNICA SALESIANA CARRERA DE INGEENEIRÍA EN SISTEMAS BASE DE DATOS III NOMBRES: -Vinicio Galarza B. -Víctor Flores A. - David López P. FECHA: 7 de octubre 2011 TEMA: Modelado de un Almacén de Datos Resumen Ejecutivo: El modelado de un almacén de datos se basa en tener datos correctamente guardados, para esto se sigue nueve pasos que dictan cómo desarrollar un almacén de datos que se coherente con la realidad de los datos que se está modelando. Antes de ello, se debe tener muy claro ciertos conceptos que ayudan para la elaboración de un almacén de datos, como por ejemplo todo lo que tiene que ver tablas y relaciones. La “topología” también es importante porque eso agilitará el poder de las consultas. Desarrollo: CONCEPTOS PREVIOS QUE SE DEBEN TENER EN CUENTA PARA LA ELABORACIÓN DE UN ALMACEN DE DATOS Para la construcción de un almacén de datos es necesario saber casi exactamente los requerimientos de usuario y qué datos se van a obtener. Pues si bien la elaboración de un almacén de datos es compleja, lo más consecuente es desarrollarlo mediante mercado de datos, ya que esta solución es más factible por su sencillez. Después se recolecta los datos desde OLTP u OLAP según sea el caso, para llenar el almacén de datos con datos coherentes, limpios y válidos. Modelado de la dimensionalidad.- Es una técnica utilizada en la elaboración de un almacén de datos, que utiliza ciertos criterios del modelo E-R con ciertas restricciones. Pues bien, esta técnica nos dice que debemos tener una tabla de hechos, que está formada por una clave principal compuesta y tablas de dimensión, que están formadas por una clave principal simple. Esto quiere decir que las claves principales de las tablas de dimensión forman la clave compuesta de la tabla de hechos. También las tablas de dimensión tienen otro campo llamado clave natural, que son independientes de la clave principal simple que se la llama clave subrogada que es un tanto independiente de los campos que posee la tabla de dimensiones. La tabla de hechos se conforma con datos factuales, es decir con datos que puedan quedar constantes a través del tiempo y que se cambien la menor cantidad de veces posible.

Upload: pao-piedra

Post on 30-Jul-2015

168 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Metodología de Almacén de Datos

UNIVERSIDAD POLITÉCNICA SALESIANA CARRERA DE INGEENEIRÍA EN SISTEMAS

BASE DE DATOS III NOMBRES: -Vinicio Galarza B.

-Víctor Flores A.

- David López P.

FECHA: 7 de octubre 2011 TEMA: Modelado de un Almacén de Datos Resumen Ejecutivo:

El modelado de un almacén de datos se basa en tener datos correctamente guardados, para

esto se sigue nueve pasos que dictan cómo desarrollar un almacén de datos que se coherente

con la realidad de los datos que se está modelando.

Antes de ello, se debe tener muy claro ciertos conceptos que ayudan para la elaboración de un

almacén de datos, como por ejemplo todo lo que tiene que ver tablas y relaciones. La

“topología” también es importante porque eso agilitará el poder de las consultas.

Desarrollo:

CONCEPTOS PREVIOS QUE SE DEBEN TENER EN CUENTA PARA LA ELABORACIÓN DE UN

ALMACEN DE DATOS

Para la construcción de un almacén de datos es necesario saber casi exactamente los

requerimientos de usuario y qué datos se van a obtener. Pues si bien la elaboración de un

almacén de datos es compleja, lo más consecuente es desarrollarlo mediante mercado de

datos, ya que esta solución es más factible por su sencillez. Después se recolecta los datos

desde OLTP u OLAP según sea el caso, para llenar el almacén de datos con datos coherentes,

limpios y válidos.

Modelado de la dimensionalidad.- Es una técnica utilizada en la elaboración de un almacén de

datos, que utiliza ciertos criterios del modelo E-R con ciertas restricciones. Pues bien, esta

técnica nos dice que debemos tener una tabla de hechos, que está formada por una clave

principal compuesta y tablas de dimensión, que están formadas por una clave principal simple.

Esto quiere decir que las claves principales de las tablas de dimensión forman la clave

compuesta de la tabla de hechos. También las tablas de dimensión tienen otro campo llamado

clave natural, que son independientes de la clave principal simple que se la llama clave

subrogada que es un tanto independiente de los campos que posee la tabla de dimensiones.

La tabla de hechos se conforma con datos factuales, es decir con datos que puedan quedar

constantes a través del tiempo y que se cambien la menor cantidad de veces posible.

Page 2: Metodología de Almacén de Datos

A diferencia de la tabla de hechos, los atributos de las tablas de dimensión son datos textuales

descriptivos, que se usan como restricciones a las consultas que se hacen al almacén, es decir,

siempre habrá una comparación excluyente de datos en cada consulta.

Una vez visto cómo se integran las tablas, pues ahora viene la “topología” de la base de datos

que servirá como almacén de datos. Existen tres tipos de esquemas empleados: 1) Estrella: Es

aquel que desnormaliza a las tablas de dimensión para que las consultas sean más eficientes al

recorrer menor número de tablas. 2) Copo de Nieve: En este esquema se hace una

normalización de las tablas para que las dimensiones tengan dimensiones. 3) Copo de Estrella:

Es una combinación entre los dos esquemas antes mencionados.

Independientemente del esquema que se utilice, el modelo dimensional brinda las siguientes

ventajas:

� EFICIENCIA: Los esquemas propuestos ofrecen alta eficiencia en las consultas.

� POSIBILIDAD DE CAMBIAR REQUISITOS CAMBIANTES: Puede soportar consultas ad

hoc.

� AMPLIABILIDAD: Si no se afecta la coherencia de la granularidad, permite ser

ampliables tanto en la tabla de hechos como en la tabla de dimensiones.

� CAPACIDAD DE MODELAR SITUACIONES EMPRESARIALES COMUNES: Por esta razón

es la base del Datawarehousing.

� PROCESAMIENTO DE CONSULTAS PREDECIBLE: Por la esquemas anteriores, las

consultas son directas, ya que los atributos siguen una línea recta de

esquematización.

METODOLOGÍA DE DISEÑO DE DATOS PARA EL ALMACÉN DE DATOS

La metodología que se va a usar es la que planteó Kimball en 1996, que propone en

descomponer el almacén de datos en mercados de datos, para después integrarlos y así,

montar un almacén de alcance corporativo.

Son nueve los pasos a seguir para que el almacén de datos a más de ser coherente, cumpla

todo lo antes establecido.

Paso 1: Selección de Proceso: Se tiene que apuntar al centro de los requisitos

principales del cliente, es decir, a la esencia del almacén de datos.

Paso 2: Granularidad: Se refiere a cómo va estar conformada la tabla de hechos, es

decir, que todos los datos representativos confluyen en la tabla de hechos.

Paso 3: Identificación y conformación de las dimensiones: Se establecen los hechos

que están contenidos dentro de la tabla de hechos. Es referente a las descripciones

individuales que se pueden obtener desde las tablas de dimensión hacia la tabla de

hechos.

Paso 4: Selección de los hechos: Se seleccionan los hechos que van a intervenir en el

mercado de datos, o sea, que datos intervienen en la producción del DataWerehousing.

Page 3: Metodología de Almacén de Datos

Paso 5: Almacenamiento de los valores pre-calculados en la tabla de hechos: Quiere

decir que hemos de registrar dentro del almacén de datos los valores que serán pre-

calculados, como por ejemplo, si queremos encontrar el cálculo de uno de los campos

registrados dentro de la tabla de hechos, debemos pre-calcular dicha operación para así

agilizar el tiempo de consulta.

Paso 6: Terminación de las tablas de dimensión: En este paso, se añaden descripciones

textuales para que las dichas tablas se vuelvan intuitivas y comprensibles para el

usuario.

Paso 7: Selección de la duración de la base de datos: Es la cualidad de hasta que

hechos puede retroceder el almacén, esto deriva en un alto grado de problemas ya que

pueden haber actualizaciones que cambien los datos y así, llevar a confusiones en el

momento de presentar reportes.

Paso 8: Control de las dimensiones lentamente cambiantes: Aquí, se pide identificar

cuáles son los valores antiguos y cuáles son los valores nuevos, porque los que más

importan son los valores antiguos en el momento de la toma de decisiones.

Paso 9: Selección de las prioridades de consulta y de los modos de consulta: Esto es

referente más al desarrollo físico del almacén de datos. De cómo este distribuido el

almacén en el disco y todos sus componentes para que sea de fácil interpretación.

CRITERIOS PARA EVALUAR LA DIMENSIONALIDAD DE UN ALMACÉN DE DATOS

GRUPO CRITERIO

Arquitectura Declaración explícita

Hechos y dimensiones conformadas

Integridad dimensional

Navegación Abierta de los agregados

Simetría dimensional

Escalabilidad dimensional

Tolerancia relativa a la densidad

Administración Modificación sencilla

Replicación dimensional

Notificación de cambio de dimensión

Administración de claves subrogadas

Coherencia internacional

Expresión Jerarquías multidimensión

Jerarquía de dimensiones intercaladas

Dimensiones multivaluadas

Dimensiones lentamente cambiantes

Papeles de una Dimensión

Dimensiones de rangos de hechos generales sobre la

marcha

Dimensiones de comportamiento de hechos generales

sobre la marcha

Page 4: Metodología de Almacén de Datos

EJEMPLO DE MODELADO DE UN ALMACÉN DE DATOS

Siguiendo los pasos anteriormente descritos, se ha desarrollado un modelo de almacén de datos como el que sigue:

Page 5: Metodología de Almacén de Datos

El siguiente modelo está basado en un modelo E-R.

Page 6: Metodología de Almacén de Datos

Aplicando los criterios de un modelo dimensional quedaría de la siguiente manera:

Page 7: Metodología de Almacén de Datos

CONCLUSIONES:

• El diseño multidimensional es un método de diseño de bases de datos basado en el

modelo relacional.

• Es necesario seleccionar un esquema adecuado que refleje el uso previsto.

• Los almacenes de datos existen para facilitar las consultas complejas, que involucran a

gran cantidad de datos y que son con frecuencia ad hoc.

RECOMENDACIONES:

� Cada vez que una base de datos fuente cambia, el administrador del almacén de datos

debe considerar las posibles interacciones con otros elementos del almacén

� Las fuentes y sus datos evolucionarán y el almacén debe contemplar dichos cambios.

BIBLIOGRAFÍA:

� http://informatica.uv.es/iiguia/DBD/Teoria/data-warehouses.pdf

� CONNOLLY, Thomas, BEGG, Carolyn, Sistemas de bases de datos: un enfoque práctico

para diseño, implementación y gestión, 4 Edison ilustrada, Pearson Educación, 2006.