ulagos.files.wordpress.com€¦  · web viewdatos de oficina, archivos en formato de word, excel,...

76
CAMPUS SANTIAGO INGENIERÍA (E) EN INFORMÁTICA PARA TÉCNICOS Avenida República N° 517, Santiago, RM Teléfono: (2) 6753000 D A T A W A R E H O U S E D A T A W A R E H O U S E Profesor Héctor Schulz Pérez Integrantes Luis Prieto Quezada Claudio Biewer Mansilla Rodrigo Arenas Aguirre

Upload: phungkhuong

Post on 23-Sep-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

CAMPUS SANTIAGOINGENIERÍA (E) EN INFORMÁTICA PARA TÉCNICOSAvenida República N° 517, Santiago, RMTeléfono: (2) 6753000

D A T A W A R E H O U S ED A T A W A R E H O U S E

Profesor Héctor Schulz Pérez

Integrantes Luis Prieto Quezada

Claudio Biewer Mansilla

Rodrigo Arenas Aguirre

Santiago, 31 de Agosto 2011

Page 2: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

2

Índice

D A T A W A R E H O U S ED A T A W A R E H O U S E...........................................................................................1I. Introducción......................................................................................................................3II. Definición.......................................................................................................................3III. Objetivos del Data Warehouse.................................................................................4IV. Características del Data Warehouse.......................................................................5

A. Orientado a temas..............................................................................................................5B. Integrado...............................................................................................................................7C. De tiempo variante (Variable en el tiempo).................................................................11D. No volátil.............................................................................................................................14

V. Por qué construir un DataWarehouse?...............................................................16VI. Ciclo de Desarrollo....................................................................................................17

A. Consideraciones previas al desarrollo de un DataWarehouse.............................19B. Alcance de un Data Warehouse....................................................................................20C. Redundancia de Datos....................................................................................................20

VII. Modelo de Planificación para un DataWarehouse............................................22A. Requerimientos del Negocio..........................................................................................23B. Misión..................................................................................................................................24C. Decisiones..........................................................................................................................24D. Decisiones clasificadas por clase de usuario, tipo y función de negocio..........28E. Planificación Tecnológica..................................................................................................29

VIII. Arquitectura del DataWarehouse.......................................................................31A. El motor del dataWarehouse..........................................................................................33B. Requisitos para que un DBMS trabaje con un Data Warehouse..........................40C. Herramientas de Acceso ó Herramientas de Usuario Final....................................43

IX. Explotación del Data Warehouse...........................................................................48A. Potencial del Data Warehouse.......................................................................................48B. Extracción y manipulación de datos del Data Warehouse.....................................48C. Procesamiento Informático............................................................................................49D. Procesamiento Analítico.................................................................................................50E. Data Mining............................................................................................................................52

X. Glosario de Términos asociados con Data Warehouse..................................53XI. Bibliografía...................................................................................................................57

I. Introducción

Page 3: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

3

El hombre, desde los orígenes de la civilización se ha interesado en la utilización

de la información, en el campo de batalla, en el proceso de edificación de las

grandes estructuras y para anticiparse a los eventos de la naturaleza; siempre ha

requerido cada vez más contar con mejores fuentes de información.

La Revolución de la información, ha provocado cambios fundamentales en la

elaboración y el uso de la información producidos a finales del siglo XX. La

información dispuesta en el periódico y hasta la información almacenada en las

bases de datos han permitido que la información esté al alcance de todos y la

tecnología asociada a todos estos logros de nuestra sociedad han conducido a que

esta información empiece a adquirir importancia estratégica. gracias a que esa

información se interrelaciona como se ha estudiado en el tema de Data

Warehouse.

II. Definición

Como definición inicial para la compresión del término, Data Warehouse se traduce

al idioma español, como un almacén, depósito o bodega de datos, pero aplicando

el término a la vida cotidiana, tal como lo señala William Harvey Inmon, quien es

considerado como el padre de este concepto, “un Data Warehouse es un conjunto

de datos integrados orientados a una materia que varían con el tiempo y que no

son transitorios, los cuales soportan el proceso de toma de decisiones de una

administración."

De acuerdo con algunas organizaciones, el Data Warehouse es una arquitectura.

Para otras, es un depósito consistente en datos (separados y que no interfieren con

los sistemas operativos y de producción existentes) que Ilena por completo los

diferentes requerimientos de acceso y reporte de datos. Para algunos otros, el Data

Warehouse es un proceso continuo que mezcla los datos de varias fuentes

heterogéneas, incluyendo datos históricos y adquiridos para soportar la constante

Page 4: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

4

necesidad de consultas estructuradas y/o ad hoc, reportes analíticos y soporte de

decisiones.

Así como hay gran divergencia para establecer una definición precisa de un Data

Warehouse, hay un claro consenso de que la tecnología del Data Warehouse es un

ingrediente esencial en el conjunto de soluciones para el soporte de decisiones en

una empresa.

III. Objetivos del Data Warehouse

Hacer que la información de la organización sea accesible: los contenidos del Data

Warehouse son entendibles y navegables, y el acceso a ellos son caracterizado por

el rápido desempeño. Estos requerimientos no tienen fronteras y tampoco limites

fijos. Cuando hablamos de entendible significa, que los niveles de la información

sean correctos y obvios. Mientras que cuando hablamos de navegables, significa el

reconocer el destino en la pantalla y llegar a donde queramos con solo un clic.

Rápido desempeño significa, cero tiempos de espera.

Hacer que la información de la organización sea consistente: la información de una

parte de la organización puede hacerse coincidir con la información de la otra parte

de la organización. Si dos medidas de la organización tienen el mismo nombre,

entonces deben significar la misma cosa. Y a la inversa, si dos medidas no

significan la misma cosa, entonces son etiquetados diferentes. Información

consistente significa, información de alta calidad. Significa que toda la información

es contabilizada y completada.

Ser información adaptable y elástica: el Data Warehouse está diseñado para

cambios continuos. Cuando se le hacen nuevas preguntas al Data Warehouse, los

datos existentes y las tecnologías no cambian ni se corrompen. Cuando se agregan

datos nuevos al Data Warehouse, los datos existentes y las tecnologías tampoco

cambian ni se corrompen.

Page 5: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

5

Ser un seguro baluarte que protege los valores de la información: el Data

Warehouse no solamente controla el acceso efectivo a los datos, si no que da a los

dueños de la información gran visibilidad en el uso y abusos de los datos, aún

después de haber dejado el Data Warehouse.

Ser la fundación de la toma de decisiones: el Data Warehouse tiene los datos

correctos para soportar la toma de decisiones. Solo hay una salida verdadera del

Data Warehouse: las decisiones que son hechas después de que el Data

Warehouse haya presentado las evidencias. La original etiqueta que preside el

Data Warehouse sigue siendo la mejor descripción de lo que queremos construir,

un sistema de soporte a las decisiones.

IV. Características del Data WarehouseA. Orientado a temas

Una primera característica del Data Warehouse es que la información se

clasifica en base a los aspectos que son de interés para la empresa. Siendo así,

los datos tomados están en contraste con los clásicos procesos orientados a las

aplicaciones.

En la Figura se muestra el contraste entre los dos tipos de orientaciones.

FIG.1

Page 6: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

6

El ambiente operacional se diseña alrededor de las aplicaciones y funciones

tales como préstamos, ahorros, tarjeta bancaria y depósitos para una institución

financiera. Por ejemplo, una aplicación de ingreso de órdenes puede acceder a

los datos sobre clientes, productos y cuentas. La base de datos combina estos

elementos en una estructura que acomoda las necesidades de la aplicación.

En el ambiente Data Warehousing se organiza alrededor de sujetos tales como

cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, éstos

pueden ser clientes, productos, proveedores y vendedores. Para una universidad

pueden ser estudiantes, clases y profesores. Para un hospital pueden ser

pacientes, personal médico, medicamentos, etc.

La alineación alrededor de las áreas de los temas afecta el diseño y la

implementación de los datos encontrados en el Data Warehouse. Las principales

áreas de los temas influyen en la parte más importante de la estructura clave.

Las aplicaciones están relacionadas con el diseño de la base de datos y del

proceso. En Data Warehousing se enfoca el modelamiento de datos y el diseño

de la base de datos. El diseño del proceso (en su forma clásica) no es separado

de este ambiente.

Las diferencias entre la orientación de procesos y funciones de las aplicaciones

y la orientación a temas, radican en el contenido de la data a escala detallada.

En el Data Warehouse se excluye la información que no será usada por el

proceso de sistemas de soporte de decisiones, mientras que la información de

las orientadas a las aplicaciones, contiene datos para satisfacer de inmediato los

requerimientos funcionales y de proceso, que pueden ser usados o no por el

analista de soporte de decisiones.

Page 7: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

7

Otra diferencia importante está en la interrelación de la información. Los datos

operacionales mantienen una relación continua entre dos o más tablas basadas

en una regla comercial que está vigente. Las del Data Warehouse miden un

espectro de tiempo y las relaciones encontradas en el Data Warehouse son

muchas. Muchas de las reglas comerciales (y sus correspondientes relaciones

de datos) se representan en el Data Warehouse, entre dos o más tablas.

B. IntegradoIntegra datos recolectados de diferentes sistemas operacionales de la

organización y o fuentes externas.

El aspecto más importante del ambiente Data Warehousing es que la

información encontrada al interior está siempre integrada.

FIG.2

Page 8: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

8

La integración de datos se muestra de muchas maneras: en convenciones de

nombres consistentes, en la medida uniforme de variables, en la codificación de

estructuras consistentes, en atributos físicos de los datos consistentes, fuentes

múltiples y otros.

El contraste de la integración encontrada en el Data Warehouse con la carencia

de integración del ambiente de aplicaciones, se muestran en la figura, con

diferencias bien marcadas.

A través de los años, los diseñadores de las diferentes aplicaciones han tomado

sus propias decisiones sobre cómo se debería construir una aplicación. Los

estilos y diseños personalizados se muestran de muchas maneras.

Se diferencian en la codificación, en las estructuras claves, en sus

características físicas, en las convenciones de nombramiento y otros. La

capacidad colectiva de muchos de los diseñadores de aplicaciones, para crear

aplicaciones inconsistentes, es fabulosa. La figura mencionada, muestra algunas

de las diferencias más importantes en las formas en que se diseñan las

aplicaciones.

Codificación. Los diseñadores de aplicaciones codifican el campo GENERO en

varias formas. Un diseñador representa GENERO como una "M" y una "F", otros

como un "1" y un "0", otros como una "X" y una "Y" e inclusive, como "masculino"

y "femenino".

No importa mucho cómo el GENERO llega al Data Warehouse. Probablemente

"M" y "F" sean tan buenas como cualquier otra representación. Lo importante es

que sea de cualquier fuente de donde venga, el GENERO debe llegar al Data

Warehouse en un estado integrado uniforme.

Por lo tanto, cuando el GENERO se carga en el Data Warehouse desde una

aplicación, donde ha sido representado en formato "M" y "F", los datos deben

convertirse al formato del Data Warehouse.

Page 9: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

9

Medida de atributos. Los diseñadores de aplicaciones miden las unidades de

medida de las tuberías en una variedad de formas. Un diseñador almacena los

datos de tuberías en centímetros, otros en pulgadas, otros en millones de pies

cúbicos por segundo y otros en yardas.

Al dar medidas a los atributos, la transformación traduce las diversas unidades

de medida usadas en las diferentes bases de datos para transformarlas en una

medida estándar común.

Cualquiera que sea la fuente, cuando la información de la tubería llegue al Data

Warehouse necesitará ser medida de la misma manera.

Convenciones de Nombramiento. El mismo elemento es frecuentemente

referido por nombres diferentes en las diversas aplicaciones. El proceso de

transformación asegura que se use preferentemente el nombre de usuario.

Fuentes Múltiples. El mismo elemento puede derivarse desde fuentes múltiples.

En este caso, el proceso de transformación debe asegurar que la fuente

apropiada sea usada, documentada y movida al depósito.

Tal como se muestra en la figura, los puntos de integración afectan casi todos

los aspectos de diseño - las características físicas de los datos, la disyuntiva de

tener más de una de fuente de datos, el problema de estándares de

denominación inconsistentes, formatos de fecha inconsistentes y otros.

Cualquiera que sea la forma del diseño, el resultado es el mismo - la información

necesita ser almacenada en el Data Warehouse en un modelo globalmente

aceptable y singular, aun cuando los sistemas operacionales subyacentes

almacenen los datos de manera diferente.

Page 10: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

10

Cuando el analista de sistema de soporte de decisiones observe el Data

Warehouse, su enfoque deberá estar en el uso de los datos que se encuentre en

el depósito, antes que preguntarse sobre la confiabilidad o consistencia de los

datos.

C. De tiempo variante (Variable en el tiempo)

Los datos son relativos a un periodo de tiempo y estos deben ser integrados

periódicamente, los mismos son almacenados como fotos que se corresponden

a un periodo de tiempo.

FIG.3

Page 11: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

11

Toda la información del data Warehouse es requerida en algún momento. Esta

característica básica de los datos en un depósito, es muy diferente de la

información encontrada en el ambiente operacional. En éstos, la información se

requiere al momento de acceder. En otras palabras, en el ambiente operacional,

cuando usted accede a una unidad de información, usted espera que los valores

requeridos se obtengan a partir del momento de acceso.

Como la información en el data Warehouse es solicitada en cualquier momento

(es decir, no "ahora mismo"), los datos encontrados en el depósito se llaman de

"tiempo variante".

Los datos históricos son de poco uso en el procesamiento operacional. La

información del depósito por el contraste, debe incluir los datos históricos para

usarse en la identificación y evaluación de tendencias. (Ver Figura).

FIG.4

Page 12: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

12

El tiempo variante se muestra de varias maneras:

La más simple es que la información representa los datos sobre un horizonte

largo de tiempo - desde cinco a diez años. El horizonte de tiempo representado

para el ambiente operacional es mucho más corto - desde valores actuales hasta

sesenta a noventa días. Las aplicaciones que tienen un buen rendimiento y

están disponibles para el procesamiento de transacciones, deben llevar una

cantidad mínima de datos si tienen cualquier grado de flexibilidad. Por ello, las

aplicaciones operacionales tienen un corto horizonte de tiempo, debido al diseño

de aplicaciones rígidas.

La segunda manera en la que se muestra el tiempo variante en el data

Warehouse está en la estructura clave. Cada estructura clave en el data

Warehouse contiene, implícita o explícitamente, un elemento de tiempo como

día, semana, mes, etc.

El elemento de tiempo está casi siempre al pie de la clave concatenada,

encontrada en el data Warehouse. En ocasiones, el elemento de tiempo existirá

FIG.5

Page 13: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

13

implícitamente, como el caso en que un archivo completo se duplica al final del

mes, o al cuarto.

La tercera manera en que aparece el tiempo variante es cuando la información

del data Warehouse, una vez registrada correctamente, no puede ser

actualizada. La información del data Warehouse es, para todos los propósitos

prácticos, una serie larga de "snapshots" (vistas instantáneas). Por supuesto, si

los snapshots de los datos se han tomado incorrectamente, entonces pueden ser

cambiados. Asumiendo que los snapshots se han tomado adecuadamente, ellos

no son alterados una vez hechos. En algunos casos puede ser no ético, e

incluso ilegal, alterar los snapshots en el data Warehouse. Los datos

operacionales, siendo requeridos a partir del momento de acceso, pueden

actualizarse de acuerdo a la necesidad.

D. No volátilLos datos que son almacenados no sufren ninguna actualización solo son

incrementados. El período cubierto para un DW va de 2 a 10 años.

FIG.6

Page 14: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

14

La información es útil sólo cuando es estable. Los datos operacionales cambian

sobre una base momento a momento. La perspectiva más grande, esencial para

el análisis y la toma de decisiones, requiere una base de datos estable.

En la Figura se muestra que la actualización (insertar, borrar y modificar), se

hace regularmente en el ambiente operacional sobre una base de registro por

registro. Pero la manipulación básica de los datos que ocurre en el data

Warehouse es mucho más simple. Hay dos únicos tipos de operaciones: la

carga inicial de datos y el acceso a los mismos. No hay actualización de datos

(en el sentido general de actualización) en el depósito, como una parte normal

de procesamiento.

Hay algunas consecuencias muy importantes de esta diferencia básica, entre el

procesamiento operacional y del data Warehouse. En el nivel de diseño, la

necesidad de ser precavido para actualizar las anomalías no es un factor en el

data Warehouse, ya que no se hace la actualización de datos. Esto significa que

en el nivel físico de diseño, se pueden tomar libertades para optimizar el acceso

a los datos, particularmente al usar la normalización y desnormalización física.

Otra consecuencia de la simplicidad de la operación del data Warehouse está en

la tecnología subyacente, utilizada para correr los datos en el depósito. Teniendo

que soportar la actualización de registro por registro en modo on-line (como es

frecuente en el caso del procesamiento operacional) requiere que la tecnología

tenga un fundamento muy complejo debajo de una fachada de simplicidad.

Page 15: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

15

V. Por qué construir un DataWarehouse?

Pueden darse algunas justificaciones para un emprendimiento de DataWarehouse:

Sistemas no integrados Múltiples e incompatibles estructuras de datos

Muchos puntos de entrada a los datos

Manejo de información histórica

Para facilitar las actividades de reporteo y análisis de usuarios

Proveer una vista única del negocio

FIG.7

Page 16: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

16

VI. Ciclo de Desarrollo

El Data Warehouse sigue el mismo ciclo de perfeccionamiento que todos los

desarrollos de software.

Las fases del ciclo son las mismas, lo mismo que su secuencia, sólo existen

variantes únicas que se relacionan específicamente con el Data Warehouse para

tareas dentro de estas fases. La siguiente figura muestra el ciclo clásico de

desarrollo de software:

FIG.8

FIG.9

FIG.10

Modelizar datos

Definir data marts

Localizar datos

Proceso Iterativo de

construcción

Localizar datos

Análisis de especificaciones

Construir procedimientos

Replicación

Cargar y replicar

Desarrollo

Prueba

Construcción

Planeación

Requerimientos Análisis

Diseño

Page 17: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

17

Planeación: La planeación es una fase importante de la implementación del Data

Warehouse. Las decisiones tomadas durante la fase de planeación tienen un

impacto significativo en el ámbito de implementación y en la magnitud del esfuerzo.

Las decisiones clave de planeación incluyen la selección de un enfoque de arriba

hacia abajo (de Io general a Io particular), de abajo hacia arriba (en sentido

opuesto) o combinado; la selección de la arquitectura apropiada de Data

Warehouse; la selección adecuada del ámbito de información, fuentes de datos y

tamaño del metamodelo; y la estimación de planes de programa y proyecto y

justificaciones de presupuesto.

Requerimientos: Durante la fase de requerimientos se debe considerar una

diversidad de ellos. Los requerimientos son conducidos por el negocio y por la

tecnología. La cuidadosa selección y especificación de requerimientos en esta

etapa proporciona un proyecto cimentado que arroja resultados con rapidez.

Análisis: La fase de análisis es importante ya que determina la forma en que se

cubrirán los requerimientos. Esta fase se enfoca principalmente en la conversión de

especificaciones de requerimientos a especificaciones de metamodelo para el Data

Warehouse. Después, estas especificaciones se usan para generar extractores del

Data Warehouse y software de transformación, integración, resumen y adición.

Construcción: La fase de construcción resalta los diversos intercambios "construir

en comparación con comprar". Mediante la selección adecuada de componentes

suministrados por fabricantes, es posible construir una primera implementación del

Data Warehouse rápida y eficaz.

Despliegue: La fase de despliegue en el ciclo de desarrollo del Data Warehouse

tiene un componente único denominado comercialización de información. Esto

reconoce que la mercancía que suministra el Data Warehouse a sus usuarios

finales (clientes) es la propia información. Como un producto de mercancía, la

información también debe comercializarse como los bienes de consumo. La

Page 18: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

18

comercialización comprende la capacidad de hacer énfasis en la disponibilidad, los

beneficios y el empaque para hacerla atractiva al usuario final.

A. Consideraciones previas al desarrollo de un DataWarehouseHay muchas maneras para desarrollar data Warehouses como tantas

organizaciones existen. Sin embargo, hay un número de dimensiones diferentes

que necesitan ser consideradas:

Alcance de un data Warehouse Redundancia de datos

La Figura muestra un esquema bidimensional para analizar las opciones

básicas. La dimensión horizontal indica el alcance del depósito y la vertical

muestra la cantidad de datos redundantes que deben almacenarse y

mantenerse.

FIG.11

Data Warehouse distribuido

Data Warehouse Centralizado

Data Warehouse

Virtual

Warehouse Virtual

Warehouse proyecto

Warehouse Departamento

o divisional

Warehouse funcional de la

empresa

Redundancia de datos

Alcance del datawarehouse

Page 19: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

19

B. Alcance de un Data WarehouseEl alcance de un data Warehouse puede ser tan amplio como toda la

información estratégica de la empresa desde su inicio, o puede ser tan limitado

como un data Warehouse personal para un solo gerente durante un año.

En la práctica, en la amplitud del alcance, el mayor valor del data Warehouse es

para la empresa y lo más caro y consumidor de tiempo es crear y mantenerlo.

Como consecuencia de ello, la mayoría de las organizaciones comienzan con

data Warehouses funcionales, departamentales o divisionales y luego los

expanden como usuarios que proveen retroalimentación.

C. Redundancia de DatosHay tres niveles esenciales de redundancia de datos que las empresas deberían

considerar en sus opciones de data Warehouse:

Data Warehouses "virtual" o "Point to Point" Data Warehouses "centrales"

Data Warehouses "distribuidos"

No se puede pensar en un único enfoque. Cada opción adapta un conjunto

específico de requerimientos y una buena estrategia de almacenamiento de

datos, lo constituye la inclusión de las tres opciones.

1. Data Warehouses "Virtual" o "Point to Point"

Una estrategia de data Warehouses virtual, significa que los usuarios finales

pueden acceder a bases de datos operacionales directamente, usando

cualquier herramienta que posibilite "la red de acceso de datos".

Este enfoque provee flexibilidad así como también la cantidad mínima de

datos redundantes que deben cargarse y mantenerse. Además, se pueden

Page 20: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

20

colocar las cargas de consulta no planificadas más grandes, sobre sistemas

operacionales.

Como se verá, el almacenamiento virtual es, frecuentemente, una estrategia

inicial, en organizaciones donde hay una amplia (pero en su mayor parte

indefinida) necesidad de conseguir la data operacional, desde una clase

relativamente grande de usuarios finales y donde la frecuencia probable de

pedidos es baja.

Los depósitos virtuales de datos proveen un punto de partida para que las

organizaciones determinen qué usuarios finales están buscando realmente.

2. Data Warehouses "Centrales"

El concepto de data Warehouses centrales es el concepto inicial que se tiene

del data Warehouse. Es una única base de datos física, que contiene todos

los datos para un área funcional específica, departamento, división o

empresa.

Los data Warehouses centrales se seleccionan por lo general donde hay una

necesidad común de los datos informáticos y un número grande de usuarios

finales ya conectados a una red o computadora central. Pueden contener

datos para cualquier período específico de tiempo. Comúnmente, contienen

datos de sistemas operacionales múltiples.

Los data Warehouses centrales son reales. Los datos almacenados en el data

Warehouse son accesibles desde un lugar y deben cargarse y mantenerse

sobre una base regular. Normalmente se construyen alrededor de RDBMS

avanzados o, en alguna forma, de servidor de base de datos informático

multidimensional.

Page 21: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

21

3. Data Warehouses Distribuidos

Los data Warehouses distribuidos son aquellos en los cuales ciertos

componentes del depósito se distribuyen a través de un número de bases de

datos físicas diferentes.

Cada vez más, las organizaciones grandes están tomando decisiones a

niveles más inferiores de la organización y a la vez, llevando los datos que se

necesitan para la toma de decisiones a la red de área local (Local Area

Network - LAN) o computadora local que sirve al que toma decisiones.

Los data Warehouses distribuidos comúnmente involucran la mayoría de los

datos redundantes y como consecuencia de ello, se tienen procesos de

actualización y carga más complejos.

VII. Modelo de Planificación para un DataWarehouse

El proceso de planificación de un DW/DM debe considerar:

La diversidad de roles y responsabilidades de los usuarios

El rápido crecimiento de la población de usuarios, especialmente usuarios no

técnicos

El mejoramiento constante de las habilidades técnicas de los usuarios

La evolución de procesos de toma de decisión que son basados en

comunicaciones y colaboración extensiva

Page 22: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

22

A. Requerimientos del NegocioEl diseño de un DW/DM debe ser consistente con la dirección estratégica de la

organización; por lo tanto el proceso de planificación debería empezar en el nivel

de alta gerencia con una definición completa de los requerimientos del negocio.

Contempla 3 capas:

Revisión de la misión corporativa, sus metas y objetivos

Identificando puntos de decisión y preguntas necesarias

Identificando a los usuarios

FIG.12

Modelo de planificación para un datawarehouse

Misión

Decisiones

Usuarios

Requerimientos de Información

Estrategia de la base de

datos

Estrategia de la base de aplicación

Estrategia de la base de explotación

Requerimientos del negocio

Planificación Tecnológica

Page 23: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

23

B. Misión La especificación de la misión corporativa debe definir las metas de la

empresa en términos de negocios y haciéndolo así, también define un claro

propósito para invertir en Data Warehouse.

La especificación de la misión del negocio debe establecer metas

específicas para ayudar a alcanzar el crecimiento del negocio. Ejemplos de

metas

Llegar a ser un productor de bajo costo

Expandir geográficamente el mercado

Expandir el tamaño del mercado

Entrar en nuevos mercados

Construir mercados compartidos

Por ejemplo, la meta para expandir geográficamente debe traducirse hacia un

objetivo específico de incremento del beneficio desde las operaciones

internacionales en un 25 %. Mientras más claro y resumido sean establecidos la

misión, las metas y los objetivos del negocio, será mas fácil alinear el diseño del

Data Warehouse y de las aplicaciones con la misión de la organización.

C. Decisiones Un enfoque útil para las necesidades de los usuarios es empezar definiendo

las decisiones que ellos deben realizar

Un Data Warehouse debe ser diseñado para soportar tres tipos de

decisiones

Operacional

Táctica

Estratégica

1. Decisiones Operativas

Page 24: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

24

Son realizadas cada día, generalmente por los ejecutivos de primera línea.

Estas decisiones tienden a confiar en análisis repetitivo de nuevos datos y

generalmente requieren sistemas de reportes y análisis de datos que son

altamente orientados para un aspecto específico del negocio. Los tomadores

de decisiones operacionales desean información como contenido, ya

procesado, para la ayuda en la toma de decisión apropiada, mas que una

herramienta analítica que puede ser usada para generar contenido.

Un ejemplo de decisión operativa es la facultad que tiene el encargado o

gerente de un almacén de hacer nuevos pedidos de productos cuyo inventario

está a punto de agotarse ó a la inversa devolver aquellos productos que no

tienen el nivel de ventas esperado en lugar de esperar a que estos lleguen a

su fecha de caducidad.

2. Decisiones Tácticas

Requieren mayor flexibilidad que las decisiones operacionales en términos de

acceso a datos y las capacidades analíticas provistas a los usuarios.

Aunque aún muy centradas en entregar eficientemente contenido a los

usuarios, aplicaciones de soporte a la decisión táctica también proveen a los

usuarios con capacidades analíticas asociadas con el contenido.

Por ejemplo, una aplicación de soporte a la decisión táctica debe proveer al

usuario con un reporte que le permita desglosar en las dimensiones claves del

reporte o añadir elementos a la dimensión.

Una decisión táctica típica puede recaer en el hecho de poner productos en

oferta cuando su fecha de expiración se acerca ó cuando son productos

nuevos y se requiere de llamar la atención de los posibles clientes.

Page 25: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

25

3. Decisiones EstratégicasRequieren decisiones ad hoc de los datos contenidos en el Warehouse, así

como también recursos de datos que no son manejados como parte del

dataWarehouse. Soporte de decisiones estratégicas se centran en proveer a

los usuarios con herramientas potentes que pueden ser usadas para crear

contenidoEstas decisiones están orientadas a la gerencia alta de un negocio y

tienen que ver con la orientación o destino que se requiere dar al negocio,

algunos ejemplos de este tipo de decisión incluyen la apertura de nuevas

sucursales de un negocio, la aplicación de estudios de mercado para el

lanzamiento de nuevos productos, etc.

4. UsuariosEl siguiente paso en la planificación del dataWarehouse es identificar los

varios grupos de usuarios responsables de las decisiones operacionales,

tácticas y estratégicas.De la misma forma que hay una gran cantidad de

maneras para organizar un data Warehouse, es importante notar que también

hay una gama cada vez más amplia de usuarios finales.

Servicio a clientes

Producción

Ventas

Comercialización

Contabilidad y finanzas

Usu

ario

s O

casio

nale

s

Usu

ario

s re

gula

res

Usu

ario

s ex

pert

os

Ejecutivos

Gerentes

Analistas

Personal de Apoyo

Funciones

Jerarquía

Nivel de competencia de usuarios

Page 26: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

26

Comúnmente hay 4 clases de usuarios finales del dataWarehouse:

Administradores (Power Users)

Autores (Analistas Financieros y de Negocios)

Usuarios activos (Usuarios de Soporte, de oficina, personal administrativo)

Usuarios casuales (Ejecutivos y Gerentes)

5. AdministradoresSon los miembros del personal de soporte en Tecnología de Información

quienes ejecutan tanto tareas relacionadas con el negocio así como técnicas

tales como asegurar la calidad del contenido del dataWarehouse y de las

aplicaciones que lo accedan, manteniendo el meta dato para informar a los

otros usuarios acerca de los cambios en el dataWarehouse ó en las

aplicaciones.

6. Autores Son quienes desarrollan las aplicaciones del negocio.

Los autores típicamente buscan las herramientas de análisis de datos

más potentes y de riqueza funcional ad hoc disponibles y a menudo

tienen las habilidades técnicas para usar estas herramientas óptimamente

7. Activos Son menos hábiles técnicamente que los autores, generalmente gastan

mucho tiempo buscando información desde el dataWarehouse y

analizando las respuestas

Estos usuarios requieren rápidas y exactas respuestas a los aspectos del

negocio. Este grupo tiende a ser la clase de usuarios más impaciente

FIG.13

Page 27: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

27

8. Casuales El grupo menos técnico, son también los usuarios menos frecuentes del

dataWarehouse, pero el mas numeroso.

Este grupo generalmente incluye ejecutivos de nivel senior y ejecutivos de

primera línea, pero a menudo se extiende a todos los niveles de la

estructura administrativa de una organización, desde ejecutivos hasta el

campo de representantes de ventas

Debido a que los usuarios casuales, por definición, ingresan

infrecuentemente al sistema de dataWarehouse, simplicidad es un

requerimiento principal de diseño para este grupo. Ello necesitan

comandos y controles que son tanto fáciles a usar y fáciles a recordar

D. Decisiones clasificadas por clase de usuario, tipo y función de negocio

El siguiente gráfico muestra la importancia de los usuarios y los tipos de

decisiones que ellos deben tomar

FIG.14

Ventas

Marketing

Finanzas

Fabricación

Producción

Administrador Autor Activo Casual

Estratégica

Técnica

Operacional

Funciones del negocio

Clases de Usuarios

Tipos de Registro

Page 28: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

28

Requerimientos de Información

Hacen referencia a los requerimientos de Tecnología de Información que son

necesarios en los emprendimientos de DataWarehouse.

E. Planificación Tecnológica1. Estrategia de la Base de Datos

Se trata de la creación de la base de datos. Entre otras cosas incluye

Contenido: Qué datos e información se requieren para solucionar las

preguntas y necesidades de los usuarios

Fuentes: Cuáles son los fuentes de la información y donde se encuentran

las fuentes.

Extracción: Cómo se extraen los datos y con que periodicidad se cargan

en el dataWarehouse.

Preparación: Qué se requiere para depurar y validar los datos fuentes

Diseño: Cuál es el diseño apropiado para la base de datos

Afinamiento: Qué aspectos de afinamiento y rendimiento se van a

considerar

Plataforma: Como será la plataforma en la que residirá el dataWarehouse,

como se compone la red, cuales son los componentes de hardware y

software.

Administración: Qué se requiere para administrar el dataWarehouse en

términos de seguridad, procesos de actualización, gestión de metadatos,

aseguramiento de la calidad, etc.

2. Estrategia de la AplicaciónLa estrategia de aplicación trata con la tecnología en dos puntos: la capa de

lógica analítica y la capa de presentación. Identificando acceso a los datos y

análisis de requerimientos define el conjunto de requerimientos básicos del

usuario. Algunas preguntas de los usuarios pueden ser respondidas

simplemente recuperando los datos desde el Warehouse, pero muchas mas

Page 29: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

29

preguntas requieren algún tipo de rutinas analíticas a ser ejecutadas sobre los

datos. Estas rutinas analíticas pueden ser clasificadas desde algo tal simple

como cálculo del porcentaje de cambio del volumen de ventas hasta la

creación de un modelo matemático complejo.

Se identifican las funciones de análisis de datos que se necesitan para

satisfacer las necesidades de los usuarios.

Acceso; Identificar que usuarios van a tener acceso a la información y

también que nivel de información podrá ver cada uno de ellos.

Análisis: Qué funciones de análisis de información serán necesarias para

satisfacer los requerimientos.

Modelamiento; Requerimientos para análisis estadísticos de datos,

minería de datos, u otro soporte de modelamiento matemático

Aplicaciones; Necesidades para aplicaciones específicas del negocio

Procesos: Cómo ayuda el dataWarehouse a los procesos de negocio,

Qué mejoras en los procesos de negocio se logran con el

dataWarehouse.

Soporte: Cómo los usuarios recibirán soporte y capacitación en el

dataWarehouse.

3. Estrategia de la Explotación

En la estrategia de explotación se consideran los siguientes aspectos

Interfaz: Cuales usuarios usarán aplicaciones cliente servidor y cuales

accederán a través de clientes web (browser)

Colaboración; Como se promoverá la colaboración entre los usuarios.

Agentes: Cómo se automatizarán los procesos de análisis y reportes.

Motor de búsqueda; Cómo los recursos del dataWarehouse serán

registrados en motores de búsqueda.

Page 30: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

30

Seguridad: Cómo será garantizada la seguridad de la información y de la

base de datos.

VIII. Arquitectura del DataWarehouse

El siguiente gráfico muestra la arquitectura clásica de un DataWarehouse,

compuesto por:

Fuentes de Datos Motor del DataWarehouse

o Gestor de Carga

o Metadatos

o Agregaciones

o Gestor del DataWarehouse

o Gestor de Respaldos

o DW Repositorio

Herramientas de Acceso

Page 31: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

31

FIG.15

Page 32: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

32

En forma resumida la arquitectura puede verse expresada en la siguiente figura:

Fuentes de DatosCualquier origen de información que pueda ser considerado para el

dataWarehouse, aquí se incluye los siguientes elementos:

Los sistemas OLTP`s que son los sistemas de Legacy que actualmente

operan en la empresa.

Datos antiguos provenientes de migraciones.

Fuentes externas como otros sistemas de la compañía, sistemas de otras

empresas, sistemas de gobierno, internet, etc.

Datos de oficina, archivos en formato de Word, Excel, archivos planos,

PDF’s, mails, etc.

A. El motor del dataWarehouseEstá integrado por los siguientes componentes

FIG.16

ERP

OLTP

LEGACY

DATAMART COMERCIAL

DATAMART FINANZAS

DATAMART RRHH

DATAMART SERVICIO CLIENTE

INFORMACIÓN EXTERNA

METADATA

DATA WAREHOUSE

USUARIOS

Page 33: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

33

1. Gestor de CargaQuizá sea uno de los elementos más importantes para el dataWarehouse,

generalmente incluye las operaciones de

Extracción: Es el proceso que accesa a los datos OLTP existentes, en

cualquier forma que exista, desde cualquier DBMS en que exista.

Típicamente, extracción y el siguiente paso, propagación, son

administrados por el mismo producto. No todas las herramientas de

extracción y propagación soportan todas las plataformas, de tal manera

que una faceta importante de la selección de herramientas es si la

herramienta soporta los sistemas operativos y las bases de datos que se

esté usando para el dataWarehouse.

Propagación: Es el proceso de mover datos desde los sistemas fuente

hacia el sistema objetivo que contendrá el data Warehouse. El proceso de

propagación toma lugar en tiempo real, o en un calendario predeterminado

(batch), o sobre demanda, y puede efectuar un refresco total del

Warehouse o justo un cambio neto. Cuando se selecciona una herramienta

de propagación, se aspira que ésta ofrezca la gestión de cambios netos

como también refresco total y permitirá tanto actualizaciones en tiempo real

y calendarizadas (batch).

Depuración (Limpieza): El nivel lógico cubre problemas de valores de

datos que son inconsistentes dentro de la información importada (ejemplo,

clientes con estado casado, pero con una edad de 3 años). El nivel técnico

evalúa problemas de información tales como campos no inicializados o

valores inválidos en los datos importados (ejemplo, valor de la fecha

Febrero 31).

Transformación: Convierte datos desde su formato OLTP al apropiado

formato del dataWarehouse ejecutando funciones tales como

desnormalización de datos, traduciendo códigos hacia texto significativo,

Page 34: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

34

convirtiendo una variedad de formatos de fechas hacia un formato

estándar, convirtiendo texto tal como nombres de ciudades hacia texto

estándar y renombrando campos desde nombres técnicos no significativos

hacia nombres significativos que un usuario final entenderá.

Carga: Los datos fuentes normalmente son extraídos y almacenados en

archivos temporales tipo texto, los mismos que deben ser cargados a la

base de datos del data Warehouse. La figura resume el proceso de carga,

los archivos temporales finalmente son colocados en la base de data

Warehouse de destino.

El módulo de Gestor de Carga también es conocido como Integrador, y es muy

importante tanto en la Fase de Construcción como en la Fase de Explotación de

un Data Warehouse.

FIG.17

DATOS.TXT

TEMPORALES

DATA WAREHOUSE

Page 35: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

35

Confiabilidad de los datos

La data "sucia" es peligrosa. Las herramientas de limpieza especializadas y las

formas de programar de los clientes proporcionan redes de seguridad.

No importa cómo esté diseñado un programa o cuán hábilmente se use. Si se

alimenta mala información, se obtendrá resultados incorrectos o falsos.

Desafortunadamente, los datos que se usan satisfactoriamente en las

aplicaciones de línea comercial operacionales pueden ser basura en lo que

concierne a la aplicación data warehousing.

Los datos "sucios" pueden presentarse al ingresar información en una entrada

de datos (por ejemplo, "Sistemas S. A." en lugar de "Sistemas S. A.") o de otras

causas. Cualquiera que sea, la data sucia daña la credibilidad de la

implementación del depósito completo. A continuación, en la Figura se muestra

un ejemplo de formato de ventas en el que se pueden presentar errores.

FIG.18

Page 36: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

36

Afortunadamente, las herramientas de limpieza de datos pueden ser de gran

ayuda. En algunos casos, puede crearse un programa de limpieza efectivo. En el

caso de bases de datos grandes, imprecisos e inconsistentes, el uso de las

herramientas comerciales puede ser casi obligatorio.

Decidir qué herramienta usar es importante y no solamente para la integridad de

los datos. Si se equivoca, se podría malgastar semanas en recursos de

programación o cientos de miles de dólares en costos de herramientas.

La limpieza de una data "sucia" es un proceso multifacético y complejo. Los

pasos a seguir son los siguientes:

1. Analizar sus datos corporativos para descubrir inexactitudes, anomalías y

otros problemas.

2. Transformar los datos para asegurar que sean precisos y coherentes.

3. Asegurar la integridad referencial, que es la capacidad del Data

Warehouse, para identificar correctamente al instante cada objeto del

negocio, tales como un producto, un cliente o un empleado.

4. Validar los datos que usa la aplicación del Data Warehouse

Page 37: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

37

2. Meta DatosEsta área del Warehouse almacena todas las definiciones de los meta datos

(datos acerca de los datos) usados por todos los procesos en el Warehouse.

Los meta datos son usados para una variedad de propósitos incluyendo:

FIG.19

Page 38: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

38

Los procesos de extracción, transformación y carga (meta datos es

usado para mapear las fuentes de datos a una vista común de la

información dentro del Warehouse).

Los procesos de gestión del Warehouse (cada tabla es descrita

incluyendo su estructura, índices, vistas; meta datos es usado también

para automatizar la producción de tablas resumen).

Como parte de los procesos de gestión de consulta (meta datos es

usado para dirigir una consulta a la fuente de datos más apropiada)

3. AgregacionesEste componente del Warehouse almacena todos los datos agregados,

predefinidos y generados por el gestor del Warehouse.

El propósito de información resumida es para mejorar el rendimiento de las

consultas. Aunque hay costos operacionales incrementados asociados con la

agregación inicial de los datos, esto debería ser compensado eliminando el

requerimiento para ejecutar continuamente operaciones de agregación (tales

como clasificación o agrupación) en las respuestas a las consultas de los

usuarios. El dato agregado es actualizado continuamente en la medida que

nuevos datos son cargados en al Warehouse.

4. Gestor del DataWarehouseEn algunos casos el gestor del Warehouse también genera perfiles de

consultas para determinar qué índices y agregaciones son apropiadas. Un

perfil de consulta puede ser generado para cada usuario, grupo de usuario, o

el Data Warehouse y está basada en la información que describe las

características de las consultas tales como la frecuencia, tablas objetivo, y

tamaño de los results set.

Page 39: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

39

5. Gestor de RespaldosEs el componente que se encarga de respaldar constantemente la

información del repositorio del Data Warehouse.

6. Repositorio del Data WarehouseEs el repositorio en si o la base de datos física donde se almacena la

información del Data Warehouse.

B. Requisitos para que un DBMS trabaje con un Data Warehouse1. Rendimiento de carga

Data Warehouse requiere de carga incremental de nuevos datos en una base

periódica dentro de ventanas de tiempo pequeñas

El rendimiento de procesos de carga debería ser medido en cientos de

millones de filas o gigabytes de datos por hora y no debería haber un límite

máximo que restringa al negocio

2. Procesamiento de cargaMuchos pasos deben ser dados para cargar un dato nuevo o actualizado

hacia el Data Warehouse incluyendo conversión de datos, filtrado,

reformateado, chequeos de integridad, almacenamiento físico, indexación y

actualización de los meta datos

Aunque cada paso en la práctica puede ser atómico, el proceso de carga

debería parecer que se ejecuta como una unidad de trabajo única.

3. Gestión de calidad de los datos

El Data Warehouse debe asegurar consistencia local, consistencia global e

integridad referencial a pesar de las fuentes "sucias" y tamaños masivos de

bases de datos

Page 40: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

40

la preparación y carga son pasos necesarios, ellos no son suficientes. La

habilidad para responder a las consultas de los usuarios finales es la medida

del éxito para una aplicación de Data Warehouse.

Mientras más preguntas son respondidas, los analistas tienden a solicitar

preguntas más complejas y creativas

4. Rendimiento de consultasGestión basada en hechos y análisis ad hoc no deben ser retardadas o

inhibidas por el rendimiento del RDBMS Data Warehouse.

Consultas complejas y grandes para operaciones claves del negocio deben

ser completadas en un período de tiempo razonable.

5. Escalabilidad de terabytesEl tamaño de Data Warehouse está creciendo a enormes tasas con tamaños

en el rango de cientos de gigabytes hasta los terabytes y petabytes (1015).

Los RDBMS no deben tener ninguna limitación arquitectural para el tamaño

de la base de datos y deberían soportar gestión modular y paralela. En el

evento de fallas, el RDBMS debería soportar disponibilidad continua, y

proveer mecanismos para recuperación. El RDBMS debe soportar

dispositivos de almacenamiento en masa tales como discos ópticos y

dispositivos de gestión de almacenamiento jerárquico.

Finalmente, rendimiento de consultas no debería ser dependiente del tamaño

de la base de datos, sino más bien de la complejidad de la consulta.

6. Escalabilidad de usuarios en masa

El pensamiento actual es que el acceso a un Data Warehouse es limitado a

un número de usuarios gerenciales relativamente bajo.

Page 41: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

41

Se predice que en el futuro, el Data Warehouse RDBMS debería ser capaz de

soportar cientos, o aún miles de usuarios concurrentes mientras se mantiene

un aceptable rendimiento en las consultas

7. Trabajo en redSistemas de Data Warehouse deberían ser capaces de cooperación en un

gran red de Data Warehouse

El Data Warehouse debe incluir herramientas que coordinen el movimiento de

subsets de datos entre Data Warehouse

Los usuarios deberían ser capaces de mirar en y trabajar con múltiples Data

Warehouses desde una estación de cliente única

8. Facilidad de administraciónLa muy grande escala y naturaleza cíclica en el tiempo del Data Warehouse

demanda facilidad y flexibilidad administrativa

El RDBMS debe proveer control para límites de recursos en la

implementación

9. Análisis dimensional integradoLa potencia de vistas multidimensionales es ampliamente aceptada y soporte

dimensional debe ser inherente en el RDBMS Warehouse para proveer el

más alto rendimiento para herramientas OLAP relacional.

El RDBMS debe soportar creación rápida y fácil de resúmenes comunes

precalculados en grandes Data Warehouses, y proveer herramientas de

mantenimiento para automatizar la creación de estos agregados

precalculados

10.Funcionalidad de consulta avanzadaUsuarios finales requieren cálculos analíticos avanzados, análisis secuencial y

comparativo, y accesos consistentes a datos detallados y resumidos.

Page 42: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

42

Usando SQL en un ambiente cliente servidor y herramientas apunte y dispare

puede algunas veces ser no práctico o aún imposible debido a la complejidad

de las consultas de los usuarios.

El RDBMS debe proveer un completo y avanzado set de operaciones

analíticas.

C. Herramientas de Acceso ó Herramientas de Usuario Final

Estas herramientas pueden reunirse en 4 grupos

Herramientas de Reportes y Consultas Herramientas de Desarrollo de Aplicaciones

Herramientas de Procesamiento Analítico en Línea (OLAP)

Herramientas de Minería de Datos

FIG.20

Page 43: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

43

1. Herramientas de Reportes y ConsultasSimplifican la generación de código SQL. Los usuarios formulan consultas a la

base de datos sin tener que interactuar con el lenguaje de programación de

bases de datos SQL).

2. Herramientas de desarrollo de aplicaciones

Los requerimientos de usuarios finales pueden ser tales que las capacidades

pre-construidas de las herramientas de reportes y consultas son inadecuadas

ya sea debido a que el análisis requerido no puede ser ejecutado o debido a

que la interacción del usuario requiere un no razonable alto nivel de expertise

por parte del usuario

En esta situación el acceso de usuarios puede requerir el desarrollo de

aplicaciones usando ambientes gráficos de accedo de datos desarrollados

principalmente para ambientes cliente/ servidor.

Algunas de estas plataformas de desarrollo de aplicaciones se integran con

herramientas OLAP populares, y pueden accesar todos los sistemas de bases

de datos principales, incluyendo Oracle, SQL Server, Sybase, e Informix.

Ejemplos de estos ambientes de desarrollo de aplicaciones incluyen

PowerBuilder de PowerSoft, VisualBasic de Microsoft, y Bussines Objects.

3. Herramientas de Procesamiento Analítico en Línea (OLAP)Típicas aplicaciones de negocios para estas herramientas incluyen evaluación

de la efectividad de una campaña de marketing, previsión de ventas de

productos, y planificación de la capacidad. Estas herramientas asumen que

los datos están organizados en un modelo multidimensional, el cual es

soportado por una base de datos multidimensional especial (MDDBMS) o por

Page 44: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

44

una base de datos relacional diseñada para permitir consultas

multidimensionales.

Este tipo de herramientas permiten a los usuarios ingresar a un Data

Warehouse desde cualquier dimensión simple para empezar el análisis, luego

navegar a otra dimensión para un mayor análisis de la información.

OLAP es online analytical processing. Se trata de una forma de almacenar la información en una Base de Datos que permita realizar de forma más efectiva las queries. Es una definición abreviada, claro está, la realidad es más compleja.

MOLAP, Multidimensional OLAP. Tanto los datos fuente como los datos agregados o precalculados residen en el mismo formato multidimensional. Optimiza las queries, pero requiere más espacio de disco y diferente software. El primer punto está dejando ser un problema: el espacio de disco cada vez es más barato.

ROLAP, Relational OLAP. Tanto los datos precalculados y agregados como los datos fuente residen en la misma base de datos relacional. Si el Data Warehouse es muy grande o se necesita rapidez por parte de los usuarios puede ser un problema.

HOLAP, Hybrid OLAP: Es una combinación de los dos anteriores. Los datos agregados y precalculados se almacenan en estructuras multidimensionales y los de menor nivel de detalle en el relacional. Requiere un buen trabajo de análisis para identificar cada tipo de dato.

Los datos se almacenan en una estructura de cubo (es como si estuviera

totalmente indexado) y la velocidad de acceso se hace mucho más eficiente.

Page 45: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

45

En este caso, la primera consulta nos muestra los puntos que han acumulado los

titulares de la tarjeta clásica, en todos los tipos de cabinas y en todos los meses.

Mientras, que en la segunda filtramos el cubo para los que volaron en turista.

Este tipo de consultas devuelve los datos de forma instantánea.

4. Herramientas de Mineo de DatosMineo de datos es el proceso de descubrir nuevas correlaciones significativas,

patrones y tendencias por medio del mineo de grandes cantidades de datos

almacenados en un Data Warehouse o en un data Mart, usando técnicas

estadísticas, reconocimiento de patrones y algoritmos de aprendizaje para

identificar relaciones entre los elementos de datos.

Ejemplo de un Data Warehouse

En la Figura se muestra un ejemplo hipotético de un data Warehouse

estructurado para un centro de producción industrial.

Se muestra sólo el detalle actual, no así los niveles de esquematización ni los

archivos de detalle más antiguos.

Además, se observa que hay tablas del mismo tipo divididas a través del

tiempo. Por ejemplo, para el histórico de la fabricación de las piezas, hay

muchas tablas separadas físicamente, representando cada una un trimestre

diferente. La estructura de los datos es consistente con la tabla de la

elaboración de las piezas, aunque físicamente hay muchas tablas que

lógicamente incluyen el histórico.

Para los diferentes tipos de tablas hay diferentes unidades de tiempo que

físicamente dividen las unidades de información. El histórico de fabricación

está dividido por trimestres, el histórico de la orden de piezas está dividido por

años y el histórico de cliente es un archivo único, no dividido por el tiempo.

Page 46: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

46

Así también, las diferentes tablas son vinculadas por medio de un identificador

común, piezas u órdenes de piezas (la representación de la interrelación en el

ambiente de depósito toma una forma muy diferente al de otros ambientes, tal

como el ambiente operacional).

FIG.21

Page 47: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

47

IX. Explotación del Data WarehouseA. Potencial del Data Warehouse

El Data Warehouse no produce resultados en forma mágica. Los

administradores de empresas y los analistas deben acceder y recuperar los

datos del Data Warehouse y convertirlos en información y en hechos. Estos

hechos conforman los cimientos de una base de conocimientos que sirve para

determinar la salud de la empresa y la dirección futura del negocio. Como en las

granjas, los usuarios sólo cosecharán la información que se pueda derivar de los

datos que sembraron en el Data Warehouse, y sólo mediante el uso de las

herramientas de cosecha adecuadas. Algunas de las herramientas de cosecha

necesarias son: las de acceso y recuperación, las de reportes de base de datos,

las de análisis y las de data mining.

Uno de los retos al cosechar un Data Warehouse consiste en no convertir

montículos de información en montañas de datos. Es fácil caer en la trampa de

"entre más, mejor". No es esencial conocer todos los hechos, sólo los cruciales.

Como ejemplo, una campaña de ropa para niños necesita cosechar exacta y

rentablemente sólo aquellas familias que tienen niños.

B. Extracción y manipulación de datos del Data WarehouseHerramientas de soporte de decisiones es el término genérico para referirse a

las aplicaciones y herramientas del Data Warehouse que se emplean para

recuperar, manipular y analizar los datos, y para presentar después los

resultados. Estas herramientas se usan en dos modalidades: verificación y

descubrimiento. En la modalidad de verificación, el usuario empresarial crea una

hipótesis -una cuestión empresarial- e intenta confirmarla accediendo a los datos

en el Data Warehouse. Las herramientas que implementan la modalidad de

verificación son de consulta, de sistemas de reporte y de análisis

multidimensional. En la modalidad de descubrimiento, las herramientas intentan

descubrir características en los datos como patrones de compra o la asociación

Page 48: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

48

entre la adquisición de artículos diferentes. En la modalidad de descubrimiento, o

eureka, el usuario empresarial no conoce ni sospecha los patrones y

asociaciones descubiertos. La herramienta de Data Mining es un ejemplo de la

modalidad de descubrimiento.

Desde la perspectiva de disponibilidad de herramientas, las dos modalidades de

verificación y descubrimiento se clasifican en tres enfoques: Procesamiento

Informático, Procesamiento Analítico y Data Mining.

C. Procesamiento InformáticoLa recuperación de la inversión en un Data Warehouse se basa en la capacidad

de los usuarios empresariales para extraer los datos correctos del Data

Warehouse, convertirlos en información y luego utilizar esa información para

tomar mejores decisiones. Los usuarios empresariales pretenden extraer los

datos correctos con una mínima inversión en tiempo y sin complicaciones.

FIG.22

Page 49: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

49

A los ejecutivos y gerentes de alto nivel les interesa ver los resultados de una

actividad de procesamiento informático en forma de reportes, cuadros y gráficas.

Los gerentes desean acceder a consultas estándar de rutina. Un ambiente de

'consulta administrativa' cubre la mayoría de sus necesidades. El procesamiento

informático apoya a la modalidad de verificación del soporte de decisiones.

Comprende técnicas como análisis estadísticos básicos y de datos, consultas y

reportes. Los datos que se acceden y procesan pudieran ser históricos o

bastante recientes, y pudieran estar un poco o muy resumidos. Los resultados se

presentan en forma de reportes o gráficas.

El procesamiento informático asiste a los usuarios empresariales en la búsqueda

de respuestas a cuestiones empresariales, como las siguientes:

¿Cuáles fueron los ingresos por ventas en el fin de semana del Día de

Acción de Gracias (nuestro mejor fin de semana de ventas) para todas las

tiendas del medio oeste, con corte por departamento?

¿Cuáles fueron los diez artículos más rentables durante la venta posterior

a la Navidad? ¿Cuáles fueron los diez menos rentables?

¿Cómo se comparan las ventas del Día de Acción de Gracias con las del

mismo fin de semana, en los últimos cinco años, por departamento y

tienda?

D. Procesamiento AnalíticoTambién el procesamiento analítico apoya a la modalidad de verificación del

soporte de decisiones. Su meta consiste en hacer que los datos estén

disponibles para el usuario de la empresa en su perspectiva de las dimensiones

empresariales. Se pueden responder e interpretar preguntas complejas como

"¿Cuántos automóviles vendimos en Estados Unidos en el primer trimestre de

1995 que tuvieran un sistema de audio CD, con un precio de 25,000 dólares o

menos?'. Este procesamiento maneja capacidades de análisis de subconjuntos

(slice and dice), profundización (drill-down) y condensación y adición (roll-up).

Los datos que se emplean en el procesamiento analítico son, por Io general,

históricos tanto a nivel de resumen como al de detalle.

Page 50: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

50

Los gerentes y analistas empresariales requieren la funcionalidad del

procesamiento analítico cuando deben responder preguntas complejas corno las

siguientes:

¿Cuántos esquíes de nieve, fabricados por SpeedSkiDown, Inc., se

vendieron a hombres en el mes de noviembre, en nuestras tiendas de las

regiones del medio oeste, del noroeste y de la Montaña?

¿Cómo se compara Io programando con Io real del mismo mes en los dos

últimos años?

¿Cuántas minivans azules teníamos en inventario (al fin del trimestre) con

un reproductor de discos compactos y un tercer asiento, cuando la lista de

precios era menor de $19,995? Se requieren totales por condado para

cada trimestre de los últimos cinco años, comparar Io real contra Io

planeado, y comparar el inventario de cada trimestre con el del anterior y

el del siguiente?

Los gerentes ejecutivos saben que "el futuro pertenece a quienes pueden verlo y

llegar ahí primero". Por tal razón, los ejecutivos y gerentes empresariales no sólo

comprenden "lo que pasa en el negocio", sino también "que va a suceder". El

procesamiento analítico se utiliza tanto para análisis históricos complejos, con

una extensa manipulación, como para la planeación a futuro y pronóstico -el

pasado como prólogo del futuro.

Los datos empresariales son, de hecho, multidimensionales. Se encuentran

relacionados y regularmente son jerárquicos; por ejemplo, los datos de ventas,

los datos del inventario y los pronósticos de presupuestos están

interrelacionados y dependen entre si. En la práctica, para predecir las ventas de

un nuevo producto específico, se requiere analizar los patrones de compras

anteriores, la adopción de nuevos productos, las preferencias regionales y otros

factores empresariales similares. La proyección de ventas para nuestra cuestión

de los "esquíes de SpeedSkiDown, Inc.", requiere comprender los patrones de

ventas de los últimos años.

Page 51: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

51

E. Data MiningEl Data Mining apoya la modalidad de descubrimiento del soporte de decisiones.

Las herramientas de Data Mining recorren los datos detallados de transacciones

para desenterrar patrones y asociaciones ocultos. Por lo regular los resultados

generan extensos reportes o se les analiza con herramientas de visualización de

datos descubiertos.

El procesamiento informático es excelente y rentable para el despliegue masivo de consultas,

análisis y reportes de datos de dos o tres dimensiones. Las herramientas de procesamiento

analítico permiten diversas visualizaciones de los datos, como ventas por marca, tienda,

temporada y periodos de tiempo, las cuales se pueden definir, consultar y analizar. Las

herramientas de Data Mining son esenciales para comprender el comportamiento de los

clientes.

Usuarios del Data Mining

Los usuarios clave en perspectiva del Data Mining son los

analistas empresariales, los peritos en estadística y los

profesionales en tecnología de la información que auxilian a los

usuarios empresariales. Quienes obtienen beneficios de los

resultados del Data Mining son los gerentes empresariales y los

ejecutivos, que desean entender los factores de éxito del negocio

con base en datos completos del cliente y, utilizar luego, este

conocimiento para afinar las estrategias de producción, precios y

comercialización; mejorar el nivel de éxito de las estrategias; e

impulsar el balance.

Hasta la fecha, las empresas han dependido del procesamiento

informático y analítico para medir y comprender la estabilidad de

un negocio. El procesamiento informático -consultas y reportes-

es más sencillo de usar, pero requiere de una estrecha dirección

del analista (ver figura). Los analistas preguntan cuestiones

específicas y verifican las cuestiones o hipótesis con los datos.

Para este fin, los datos deben estar bien organizados. El

procesamiento analítico (OLAP) requiere de menos dirección del

Page 52: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

52

analista, aunque los datos deben estar organizados en una forma

especial (base de datos multidimensional), o accederse bien de

manera especial (visión multidimensional). En ocasiones se utiliza

una combinación de técnicas de consulta y OLAP para

comprender el comportamiento del cliente o para construir perfiles

de segmentos de mercado; pero el proceso de aplicar estas

técnicas es conducido esencialmente por el analista empresarial.

En estos casos, este proceso también se conoce como Data

Mining y se define como la modalidad de descubrimiento del

soporte de decisiones, la cual es conducida por los datos y no por

el analista empresarial.

X. Glosario de Términos asociados con Data Warehouse

AgregaciónActividad de combinar datos desde múltiples tablas para formar una unidad de

información más compleja, necesitada frecuentemente para responder consultas

del Data Warehouse en forma más rápida y fácil.

Data Mart (DM). Es un conjunto de datos que son estructurados de una forma que facilite su

posterior análisis. Un Data Mart contiene información referente a un área en

particular, con datos relevantes que provienen de las diferentes aplicaciones

operacionales. Los Data Mart pueden ser de diversas bases de datos relacionales

FIG.23

Page 53: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

53

o de diversas bases de datos OLAP dependiendo del tipo de análisis que se quiera

desarrollar.

Data mining de pronóstico.

Es un data mining que produce un modelo para ser usado con nuevos datos para

pronosticar un valor o predecir un probable resultado basado en patrones en la

data histórica.

Data mining descriptivo.

Es un tipo de data mining (minería de datos) que produce un modelo para describir

patrones de los datos históricos y requiere interacción humana para determinar la

significación y el significado de estos patrones.

Datos no depurados.

Datos que son ambiguos o que carecen de validez por ser inexistentes, ausentes,

incorrectos o duplicados.

Data Warehouse (DW) Es un almacén o repositorio para los datos. Muchos expertos definen el Data

Warehouse como un almacén de datos centralizados que introduce datos en un

almacén de datos específico llamado data mart. Otros aceptan una amplia

definición de Data Warehouse, como un conjunto integrado de marts.

Descendiente.

Algún miembro de algún nivel inferior en relación a otro miembro específico.

Desktop online analytical processing (DOLAP). Es un tipo de almacenamiento OLAP que mantiene los datos en una máquina

cliente y suministra análisis multidimensional de forma local.

Dimensión.

Es una vista de datos categóricamente consistente. Todos los miembros de una

dimensión pertenecen a un mismo grupo. Entidad independiente dentro del modelo

Page 54: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

54

multidimensional de una organización, que sirve como llave de búsqueda (actuando

como índice), o como mecanismo de selección de datos.

Drill Down :

Exponer progresivamente más detalle (dentro de un reporte o consulta), mediante

selecciones de ítems sucesivamente.

Drill-Up : Es el efecto contrario a drill -down. Significa ver menos nivel de detalle,

sobre la jerarquía significa generalizar o sumarizar, es decir, subir en el árbol

jerárquico.

DSS : Sistema de Soporte de Decisiones. Sistema de aplicaciones automatizadas que

asiste a la organización en la toma de decisiones mediante un análisis estratégico

de la información histórica.

ETT (Extracción, Transformación y Transporte de datos) : Pasos por los que atraviesan los datos para ir desde el sistema OLTP ( o la fuente

de datos utilizada) a la bodega dimensional.

Extracción, se refiere al mecanismo por medio del cual los datos son leídos

desde su fuente original.

Transformación (también conocida como limpieza) es la etapa por la que puede

atravesar una base de datos para estandarizar los datos de las distintas fuentes,

normalizando y fijando una estructura para los datos.

Transporte, que consiste básicamente en llevar los datos leídos y

estandarizados a la bodega dimensional (puede ser remota o localmente).

Generalmente, para un Data Mart no es necesario atravesar por todos estos pasos,

pues al ser información localizada, sus datos suelen estar naturalmente

estandarizados (hay una sola fuente).

Page 55: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

55

Granularidad: Indica el grado de detalle asociado a un hecho particular.

El primer gran factor decisivo de la granularidad es el tiempo, ya que mientras

menor sea el intervalo de tiempo, mayor será el grado de detalle obtenido.

La granularidad depende directamente del número de dimensiones que se

asocian a la tabla de hechos.

Se deben considerar otros factores como la carga del procesador, espacio de

almacenamiento y satisfacer a cabalidad los requerimientos del cliente.

Hechos (Medidas): Son medidas numéricas, las cuales describen los resultados (rendimiento) del

negocio.

Un hecho debe ser un valor cuantificable ó medible. Por ejemplo el número de

unidades vendidas, ingreso por ventas, etc.

Jerarquía:

Es un conjunto de atributos descriptivos que permite que a medida que se tenga

una relación de muchos a uno se ascienda en la jerarquía. Por ejemplo : los

Centros de Responsabilidad están asociados a un Tipo de Unidad, el cual pueden

corresponder a una gerencia, subgerencia, superintendencia, etc.; por otro parte,

cada CR está asociado a otro CR a nivel administrativo y, también existe una

clasificación a nivel funcional.

Olap (On-line Analytical Processing): Conjunto de principios que proveen una ambiente de trabajo dimensional para

soporte decisional.

Oltp (On-line Transaction Processing) : Sistema transaccional diario (o en detalle) que mantiene los datos operacionales

del negocio.

Page 56: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

56

Rollup:Comando propio del lenguaje Oracle Express, que simboliza las sumas agregadas

de una variable a través de los niveles jerárquicos de las dimensiones que la

sustentan.

Snapshot:Imagen instantánea de los datos en un tiempo dado.

Sumarización:

Actividad de incremento de la granularidad de la información en una base de datos.

La

sumarización reduce el nivel de detalle, y es muy útil para presentar los datos para

apoyar al proceso de Toma de Decisiones.

Tabla Dimensional:Dentro del esquema estrella, corresponde a las tablas que están unidas a la tabla

central a través de sus respectivas llaves. La cantidad de estas tablas le otorgan la

característica de multidimensionalidad a esta estrategia.

XI. Bibliografía

1. BF System Definición de Data Warehouse2. Modelamiento Dimensional, Carmen Gloria Wolf

3. IBM DB2 OLAP Server, Maria Ibarra, Documentación Técnica.

4. Data Warehousing Fácil, Programación en Castellano, Claudio Casares.

5. Todo BI, Características de Pentaho OPEN SOURCE

6. Manual para la Construcción de un Data Warehouse, Business Intelligence, Transformando la Información en Decisiones, Octavio Licea

7. Data Warehouse, Monografías.com, Damián Gutíerrez

8. Apuntes de Data Warehouse, Presentaciones Ing, Victor Aguilar, Escuela Politécnica Nacional Ecuador

9. Diseño y Optimización de Bases de Datos y Data Warehouse, Universidad Politécnica de Madrid, Dr. Eusebio Santos

Page 57: ulagos.files.wordpress.com€¦  · Web viewDatos de oficina, archivos en formato de Word, Excel, archivos planos, PDF’s, mails, etc. ... Todo BI, Características de Pentaho

57