introducciÓn - dspace.ucacue.edu.ecdspace.ucacue.edu.ec/bitstream/reducacue/4000/4/marco...
TRANSCRIPT
Diseño de un prototipo de un Data WebHouse
1
INTRODUCCIÓN
Desde un inicio, las bases de datos se convirtieron en una herramienta fundamental de
control y manejo de las operaciones comerciales. Fue así como en unos pocos años
en grandes empresas y negocios existía un considerable número de información
almacenada en diferentes fuentes de datos y estas ya habían alcanzado un tamaño
considerablemente grande.
Con esta gran acumulación de información, los directivos de tales empresas y
negocios se dieron cuenta que esta podría tener un fin útil, al estar reflejada la mayoría
de sus operaciones comerciales durante los llamados ciclos de negocios propios del
mercado.
A su vez, los mercados empresariales han experimentado una transformación radical.
Las empresas demandan mayor rapidez y eficiencia en la entrega de productos, y
mejora en todos los servicios existentes, por lo que se hace imprescindible encontrar
formas más eficaces de distribuir los productos, más facilidades para hacer estudios
de mercado basados en la información de las operaciones comerciales de las
empresas y de sus clientes y, en definitiva, mayor rapidez a la hora de tomar
decisiones.
Por tanto, pensaron en lo ideal que sería unificar las diferentes fuentes de información
de las cuales disponían, en un único lugar, al que sólo se le incorporaría información
relevante, sobre la base de una estructura organizada, integrada, lógica, dinámica y de
fácil explotación. La respuesta a esto fueron los Almacenes de Datos o Data
WareHouse (DW).
Sin embargo, para hacer un uso eficiente de la información histórica almacenada en
un DW para la ayuda a la toma de decisiones, era vital garantizar que estos datos
fueran fáciles de obtener, estandarizados y confiables se resumen en la facilidad de
poder tomar decisiones vía Web y para esto se implementa Data WebHouse.
Diseño de un prototipo de un Data WebHouse
2
Así y todo, el problema de la limpieza de datos es poco tratado o evitado por muchas
empresas, al no considerar adecuadamente el impacto para el negocio de tener
almacenada información deficiente.
Diseño de un prototipo de un Data WebHouse
3
CAPÍTULO I
1. DATA WAREHOUSE
1.1 CONCEPTO DE DATA WAREHOUSE
El Data Warehouse es una tecnología para el manejo de la información construido
sobre la base de optimizar el uso y análisis de la misma utilizado por las
organizaciones para adaptarse a los vertiginosos cambios en los mercados.
Su función esencial es ser la base de un sistema de información gerencial, es decir,
debe cumplir el rol de integrador de información proveniente de fuentes
funcionalmente distintas (Bases Corporativas, Bases propias, de Sistemas Externos,
etc.) y brindar una visión integrada de dicha información, especialmente enfocada
hacia la toma de decisiones por parte del personal jerárquico de la organización.
Es un sitio donde se almacena de manera integrada toda la información resultante de
la operatoria diaria de la organización. Además, se almacenan datos estratégicos y
tácticos con el objetivo de obtener información estratégica y táctica que pueden ser de
gran ayuda para aplicar sobre las mismas técnicas de análisis de datos encaminadas
a obtener información oculta (Data Mining).
Esta información incluye movimientos que modifican el estado del negocio, cualquier
interacción que se tenga con los clientes y proveedores, y cualquier dato adicional que
ayude a comprender la evolución del negocio.
Esta tecnología ayuda a la organización a responder preguntas esenciales para la
toma de decisiones que le permitan obtener ventajas competitivas y mejorar su
posición en el mercado en el que operan. Algunas de las preguntas podrían ser:
¿Cuál es el perfil de mis clientes?
¿Cómo es su comportamiento?
¿Cuál es la rentabilidad que me deja?
¿Cuál es el riesgo que corro con él?
Diseño de un prototipo de un Data WebHouse
4
¿Qué servicios y productos utiliza y cómo puedo incrementarlos?
Además, se aplican técnicas de limpieza e integración de datos, esto asegura la
existencia de estructuras homogéneas persistentes en el tiempo.
Para comprender mejor el funcionamiento de ésta tecnología explicaremos su
arquitectura y los sistemas OLTP y OLAP.
1.2 ARQUITECTURA DEL DATA WAREHOUSE
La arquitectura de esta tecnología está integrada por los siguientes componentes:
1.2.1 OLTP (On-Line Transaction Processing)
Son aplicaciones que definen el comportamiento habitual de un entorno operacional de
gestión y ejecutan las operaciones del día a día. Algunas de las características más
comunes de este tipo de transacciones podrían ser:
Altas/Bajas/Modificaciones
Consultas rápidas, escuetas y predecibles
Gráfico Nº 1. Arquitectura de Data WareHouse
Diseño de un prototipo de un Data WebHouse
5
Poco volumen de información e información disgregada
Transacciones rápidas
Gran nivel de concurrencia
Modo de actualización on-line
Baja redundancia de datos
Algunos ejemplos de este tipo de aplicaciones son:
Compras
Ventas
Inventario
Sueldos
1.2.2 CONSOLIDACIÓN
Es la parte del proceso de Data Warehouse que se encarga de producir el cambio de
los sistemas OLTP a las Bases de Datos OLAP. Consolidan datos de aplicaciones no
integradas, datos disgregados y los transforman. Este proceso está compuesto por
tres pasos:
Validación de Consistencia de los datos
- Comprueba la validez de los datos en el entorno operacional
- Inconsistencia entre distintas aplicaciones dentro del sistema
Mecanismos de Consolidación
- Refresco de datos: Volcado completo de los datos procedentes del
sistema operacional.
Factores técnicos
- Mecanismo de transporte
- Tiempos de carga
- Reformateo de datos
1.2.3 MIDDLEWARE
Diseño de un prototipo de un Data WebHouse
6
Es un software que reside físicamente en un Cliente y en un Servidor de
Comunicaciones, localizado entre el Cliente y el Servidor. Actúa como traductor entre
distintas tecnologías. Permite que dos o más sistemas trabajen juntos aunque no
estén preparados para ello.
Algunas de sus características más relevantes son:
Un mismo middleware puede poseer más de una máquina virtual para soportar
diferentes entornos de desarrollo
Gestiona las comunicaciones con el Data Warehouse
Controla la concurrencia y controla los procesos Batch.
Posee diversos controladores de Bases de Datos para acceder a las distintas
fuentes, por ejemplo, Oracle, Sybase, AS400, etc.
1.2.4 OLAP (On-Line Analytical Process)
Son aplicaciones que se encargan de analizar datos del negocio para generar
información táctica y estratégica que sirve de soporte para la toma de decisiones.
Mientras que las transacciones OLTP utilizan Bases de Datos Relacionales u otro tipo
de archivos, OLAP logra su máxima eficiencia y flexibilidad operando sobre Bases de
datos Multidimensionales.
Podemos nombrar las siguientes características como las más sobresalientes de estas
aplicaciones:
Estructura de datos transparente al usuario
Solo Consulta, trabajan sobre la información operacional generada por los
sistemas OLTP
Consultas sobre grandes volúmenes de datos no predecibles
Información histórica
Modo de actualización Batch
Alta redundancia de datos para facilitar la generación de consultas y obtener
buenos tiempos de respuesta
Diseño de un prototipo de un Data WebHouse
7
Poderoso Back-end analítico para múltiples aplicaciones de usuarios
Trabaja con resúmenes de miles de registros condensados en una sola
respuesta.
1.3 DATA MARTS
1.3.1 DEFINICIÓN DE DATA MARTS
Un Data Mart es una versión especial de almacén de datos (Data Warehouse). Son
subconjuntos de datos con el propósito de ayudar a que un área específica dentro del
negocio pueda tomar mejores decisiones. Los datos existentes en este contexto
pueden ser agrupados, explorados y propagados de múltiples formas para que
diversos grupos de usuarios realicen la explotación de los mismos de la forma más
conveniente según sus necesidades.
El Data Mart es un sistema orientado a la consulta, en el que se producen procesos
Batch de carga de datos (altas) con una frecuencia baja y conocida. Es consultado
mediante herramientas OLAP que ofrecen una visión multidimensional de la
información. Sobre estas bases de datos se pueden construir EIS (Executive
Information Systems, Sistemas de Información para Directivos) y DSS (Decision
Support Systems, Sistemas de Ayuda a la toma de Decisiones). Por otra parte, se
conoce como Data Mining al proceso no trivial de análisis de grandes cantidades de
datos con el objetivo de extraer información útil, por ejemplo para realizar
clasificaciones o predicciones.
VENTAJAS
Son más simples de implementar que un Data Warehouse
Pequeños conjuntos de datos y, en consecuencia, menor necesidad de
recursos.
Se encuentran más rápidamente las necesidades de las Unidades de Negocio
Diseño de un prototipo de un Data WebHouse
8
DESVENTAJA
Añaden tiempo al proceso de actualización.
En síntesis, son pequeños Data Warehouse centrados en un tema o un área de
negocio específico. En muchos casos, los Data Warehouse comienzan siendo Data
Marts con el objetivo de minimizar los riesgos para luego ir ampliando su espectro
gradualmente según las necesidades de la empresa, para que las mismas sean
satisfactorias para el bienestar de la institución y reconocimiento de la persona que
empleará y tomará las decisiones.
1.4 DATA MART OLAP
Se basan en los populares cubos OLAP, que se construyen agregando, según los
requisitos de cada área o departamento, las dimensiones y los indicadores necesarios
de cada cubo relacional. El modo de creación, explotación y mantenimiento de los
cubos OLAP es muy heterogéneo, en función de la herramienta final que se utilice.
1.5 DATA MART OLTP
Se basa en un simple extracto del Data Warehouse, no obstante, lo común es
introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las
operaciones más usuales) aprovechando las características particulares de cada área
de la empresa. Las estructuras más comunes en este sentido son las tablas reporte,
que vienen a ser factibles reducidas y las vistas materializadas, que se construyen con
la misma estructura que las anteriores, pero con el objetivo de explotar la reescritura
de query (aunque sólo es posibles en algunos SGBD avanzados, como Oracle).
Los Data Marts que están dotados con estas estructuras óptimas de análisis presentan
las siguientes ventajas:
Diseño de un prototipo de un Data WebHouse
9
Poco volumen de datos
Mayor rapidez de consulta
Consultas SQL y/o MDX sencillas
Validación directa de la información
Facilidad para la historización de los datos.
1.6 ELEMENTOS QUE INTEGRAN UN ALMACÉN DE DATOS
1.6.1 METADATOS
Uno de los componentes más importantes de la arquitectura de un almacén de datos
son los metadatos. Se define comúnmente como "datos acerca de los datos", en el
sentido de que se trata de datos que describen cuál es la estructura de los datos que
se van a almacenar y cómo se relacionan.
El metadato documenta, entre otras cosas, qué tablas existen en una base de datos,
qué columnas posee cada una de las tablas y qué tipo de datos se pueden almacenar.
Los datos son de interés para el usuario final, el metadato es de interés para los
programas que tienen que manejar estos datos. Sin embargo, el rol que cumple el
metadato en un entorno de almacén de datos es muy diferente al rol que cumple en
los ambientes operacionales. En el ámbito de los Data Warehouse el metadato juega
un papel fundamental, su función consiste en recoger todas las definiciones de la
organización y el concepto de los datos en el almacén de datos, debe contener toda la
información concerniente a:
Tablas
Columnas de tablas
Relaciones entre tablas
Jerarquías y Dimensiones de datos
Diseño de un prototipo de un Data WebHouse
10
Entidades y Relaciones
1.7 DIFERENCIAS ENTRE OLTP Y OLAP
Mientras que las aplicaciones OLTP se caracterizan por estar actualizadas
constantemente por varios usuarios a través de transacciones operacionales sobre
datos individuales, las aplicaciones OLAP son utilizadas por personal de niveles
ejecutivos que requieren datos con alto grado de agregación y desde distintas
perspectivas (dimensiones), como ser:
Totales de venta:
Por región,
Por producto,
Por período de tiempo, etc.
1.7.1 DATOS MULTIDIMENSIONALES
Tabla Nº 1. Diferencias entre OLTP y OLAP
Diseño de un prototipo de un Data WebHouse
11
En el análisis multidimensional, los datos se representan mediante dimensiones como
producto, territorio y cliente. En general, las dimensiones se relacionan en jerarquías,
por ejemplo, ciudad, estado, región, país y continente. El tiempo es también una
dimensión estándar con sus propias jerarquías tales como: día, semana, mes,
trimestre y año.
1.8 IMPLEMENTACIÓN DE UN DATA WAREHOUSE
La estructura adoptada para el almacén de datos se debe realizar de tal modo que
satisfaga las necesidades de la empresa, dicha elección es clave en la efectividad del
Data Warehouse. Existen tres formas básicas de estructura del almacén:
Data Warehouse central.- La implementación consta de un solo nivel con un
solo almacén que soporta los requerimientos de información de toda la
empresa.
Data Warehouse distribuido.- Es una estructura de un solo nivel que se
particiona para distribuirlo a nivel departamental.
Data Warehouse de dos niveles.- Es una combinación de los anteriores que
soporta requerimientos de información tanto a nivel empresarial como
departamental.
1.9 COSTOS DEL DATA WAREHOUSE
Gráfico Nº 2. Datos Multidimensionales
Diseño de un prototipo de un Data WebHouse
12
Uno de los puntos más importantes a tener en cuenta en el momento de decidir
implementar un Data Warehouse es el costo que trae aparejado. A grandes rasgos los
costos asociados a un proyecto Data Warehouse son el Costo de Construcción y el
costo de Mantenimiento y Operación una vez construido.
1.9.1 COSTO DE CONSTRUCCIÓN
Es similar a al Costo de Construcción de cualquier sistema de Tecnología. Se pueden
clasificar en tres tipos:
RECURSOS HUMANOS: Es necesario contar con conocimiento sobre el perfil
y cualidades del personal ya que el desarrollo de esta tecnología requiere de la
participación tanto del personal técnico como de los especialistas de negocios,
estos dos grupos trabajarán juntos durante todo el desarrollo del Data
Warehouse.
TIEMPO: Además de los tiempos de construcción y entrega del Data
Warehouse, se debe tener en cuenta los tiempos de planificación del proyecto
y de definición de la Arquitectura.
TECNOLOGÍA: El costo de la nueva tecnología introducida por el Data
Warehouse se debe considerar solo como el costo inicial de la implementación.
1.9.2 COSTO DE OPERACIÓN Y MANTENIMIENTO
Es necesario, una vez que se ha finalizado la construcción y se ha entregado el
producto se debe dar soporte que es una fuente continua de costos.
Los costos de operación se dividen en:
Costo de Evolución
Costo de Crecimiento
Costo producido por cambios
1.10 IMPACTOS DE IMPLEMENTACIÓN DEL DATA WAREHOUSE
Diseño de un prototipo de un Data WebHouse
13
El éxito del Data Warehouse no está en la construcción sino en utilizarlo para mejorar
los procesos empresariales, operacionales y de toma de decisiones, para que esto
suceda se deben tener en cuenta los impactos producidos en los siguientes ámbitos:
1.10.1 IMPACTO EN LA GENTE
La construcción requiere de la participación activa de quienes utilizarán el Data
Warehouse, depende tanto de la realidad de la empresa como de las condiciones que
existan en ese momento, las cuales determinarán cual será su contenido.
El Data Warehouse provee los datos que posibilitará a los usuarios a acceder a su
propia información en el momento que la necesitan. Esta posibilidad para entregar
información presenta varias implicancias:
Los usuarios deberán adquirir nuevas destrezas.
Se eliminará los largos tiempos de análisis y programación para obtener
información. Como la información estará lista para ser utilizada,
probablemente, aumenten las expectativas. Pueden existir nuevas
oportunidades en la comunidad empresarial para los especialistas de
información.
Se reducirá hasta casi eliminarse la gran cantidad de reportes en papel.
La madurez del Data Warehouse dependerá del uso activo y retroalimentación
de sus usuarios.
1.10.2 IMPACTOS EN LOS PROCESOS EMPRESARIALES Y DE TOMA DE
DECISIONES
Mejora del proceso de toma de decisiones por medio de la disponibilidad de la
información. Las decisiones se toman más rápidamente por gente más informada.
Los procesos empresariales pueden ser optimizados, se elimina el tiempo de espera
de información que, generalmente, es incorrecta o no se encuentra.
Se reducen los costos de los procesos y muchas veces se aclaran sus conexiones y
dependencias, aumentando así la eficiencia en dichos procesos.
Diseño de un prototipo de un Data WebHouse
14
El Data Warehouse permite que los datos de los sistemas operaciones sean utilizados
y examinados, cuando estos datos se organizan para tener significado para la
empresa la gente comienza a aprender de los sistemas y pueden quedar expuestos
posibles defectos de las aplicaciones actuales.
Aumenta la confianza de las decisiones tomadas en base a la información del Data
Warehouse, debido a que tanto los responsables de la toma de decisiones como los
afectados conocen que están basadas en información de buena calidad.
La información compartida conduce a un lenguaje común, conocimiento común y
mejora de la comunicación en la empresa.
Teniendo en cuenta las etapas de construcción, soporte del Data Warehouse y soporte
de los sistemas operacionales, algunos de los impactos técnicos son los siguientes:
En el momento de construcción de un Data Warehouse el impacto más grande
sobre la gente técnica está dado por la curva de aprendizaje, algunas de las
nuevas destrezas a adquirir son:
o Conceptos y estructura del Data Warehouse.
o Nuevas de demandas de soporte técnico debido a la utilización de
nuevas tecnologías, nuevas demandas de recursos.
o Es necesario adquirir destrezas de desarrollo incremental evolutivo.
o Trabajo en equipo con gente del área de negocios como participantes
activos del desarrollo del proyecto.
1.11 EL DATA MINING Y SU RELACIÓN CON EL DATA WAREHOUSE
Las técnicas de Data Mining son el resultado de un largo proceso de investigación y
desarrollo de productos orientados al almacenamiento, extracción y análisis de datos.
Esta evolución comenzó cuando los datos de negocios fueron almacenados por
primera vez en computadoras, y continuó con mejoras en el acceso a los datos, y más
recientemente con tecnologías generadas para permitir a los usuarios navegar a
través de los datos en tiempo real.
Diseño de un prototipo de un Data WebHouse
15
Data Mining está soportada por las siguientes tecnologías:
Soportes de almacenamiento masivo de datos
Potentes computadoras con multiprocesadores
Data Warehouse.
Algoritmos de Data Mining.
Data Mining es la extracción de información oculta y predecible de grandes bases de
datos.
Un sistema Data Mining es una tecnología de soporte para usuario final cuyo objetivo
es extraer conocimiento útil y utilizable a partir de la información contenida en las
bases de datos de las empresas.
Las herramientas de Data Mining sirven para predecir tendencias y comportamientos,
de esta manera permiten a las organizaciones tomar decisiones proactivas para
adaptarse rápidamente a los cambios del mercado obteniendo así ventajas
competitivas.
Las herramientas de Data Mining pueden responder a preguntas de negocios que
tradicionalmente consumen demasiado tiempo para poder ser resueltas por consultas
en un sistema tradicional de soporte operacional. La potencialidad de estas
herramientas reside en la capacidad de explorar las bases de datos en busca de
patrones ocultos, encontrando información predecible que para un experto sería casi
imposible debido al gran volumen de información.
Una vez que las herramientas de Data Mining fueron implementadas en computadoras
cliente servidor de alto performance o de procesamiento paralelo, pueden analizar
bases de datos masivas para brindar respuesta a preguntas tales como, "¿Cuáles
clientes tienen más probabilidad de responder al próximo mailing promocional, y por
qué? y presentar los resultados en formas de tablas, con gráficos, reportes, texto,
hipertexto, etc.
El origen de la información que utilizan los algoritmos de Data Mining, por lo general,
son datos históricos que se encuentran almacenados en un Data Warehouse. El partir
Diseño de un prototipo de un Data WebHouse
16
de un Data Warehouse simplifica la etapa previa a la etapa de preparación de los
datos ya que se construye en base a la integración de fuentes de datos múltiples y
heterogéneas Bases de Datos relacionales, ficheros planos y registros de
transacciones en línea.
El Data Warehouse dota a las organizaciones de memoria, y el Data Mining de
inteligencia.
La mejor forma de aplicar las técnicas de Data Mining es que éstas se encuentren
totalmente integradas con el Data Warehouse así como también con herramientas
flexibles e interactivas para el análisis de negocios. Varias herramientas de Data
Mining actualmente operan fuera del Data Warehouse, requiriendo pasos extra para
extraer, importar y analizar los datos. Además la integración con el Data Warehouse
permite que ni bien los cambios originados en las bases de datos operacionales son
replicados al Data Warehouse pueden ser analizados directamente y monitoreados
mediante las técnicas de Data Mining. El Server de Data Mining debe estar integrado
con el Data Warehouse y el Server OLAP para insertar el análisis de negocios
directamente en esta infraestructura. Un avanzado metadato centrado en procesos
Gráfico Nº 3. Escala de un Data WareHouse en base de Bases relacionales
Diseño de un prototipo de un Data WebHouse
17
define los objetivos del Data Mining para resultados específicos tales como manejos
de campañas promociónales, optimización de promociones, etc.
A medida que el Data Warehouse crece con nuevas decisiones y resultados, la
organización puede aplicar Data Mining para obtener las mejores prácticas y aplicarlas
en futuras decisiones.
Este diseño representa una transferencia fundamental desde los sistemas de soporte
de decisión convencionales. Más que simplemente proveer datos a los usuarios finales
a través de software de consultas y reportes, el Server de Data Mining aplica los
modelos de negocios del usuario directamente al Data Warehouse y devuelve un
análisis proactivo de la información más relevante.
Estos resultados mejoran los metadatos
en el Server OLAP proveyendo un
estrato de metadatos que representa
una vista fraccionada de los datos.
Generadores de reportes,
visualizadores y otras herramientas de
análisis pueden ser aplicadas para
planificar futuras acciones y confirmar el
impacto de esos planes.
Gráfico Nº 4.Pirámide Evolutiva de la Toma de decisiones
Diseño de un prototipo de un Data WebHouse
18
CAPÍTULO II
2. DATA WEBHOUSE
2.1 CONCEPTO DE DATA WEBHOUSE
Un Data WebHouse realiza las mismas funciones que un Data Warehouse con la
diferencia en que la fuente de datos para un sistema de Soporte a la decisión proviene
del canal Web.
Permite obtener una visión única y global de los visitantes y/o clientes, que integran
varias fuentes de datos efectuando Clickstream Analysis sobre datos acumulados.
Realiza elaboración de análisis multidimensionales teniendo conocimiento de lo que
pasa en la página Web.
Su enriquecimiento de los perfiles de visitantes y/o clientes es factible con
informaciones sobre preferencias e indicadores de comportamientos de clientes que
se encuentran en línea.
2.2 IMPACTO EN LA WEB CON EL ALMACÉN DE DATOS
Con el surgimiento de la Web, una parte significativa del mundo ha visto alterado el
modo de comunicarse, la forma en que se dirigen y gestionan los negocios y las
diferentes ramas de la economía, los servicios, la ciencia y el desarrollo tecnológico.
La Web se ha convertido en mucho más que una tecnología para conectar dispositivos
de procesamiento distribuido pasando a representar una infraestructura para el
desarrollo y la gestión de productos y/o servicios de cualquier persona o entidad en
cualquier lugar del planeta.
La interacción de los usuarios con los diferentes sitios que se encuentran en la Web a
través de la selección de los mismos constituye una inmensa fuente de datos sobre el
comportamiento de los clientes. Estos datos llamados Clickstream o que bien
pudiésemos denominar secuencia de selecciones en español (esto proviene de la
acción del usuario de seleccionar a través del clic de los botones del ratón o Mouse)
Diseño de un prototipo de un Data WebHouse
19
en la mayoría de los casos se encuentran en un estado bruto y no tendrán tal vez una
apariencia adecuada pero los mismos tienen un potencial de detalles nunca
imaginables sobre cada proceso de interacción del ser humano con la Web.
La secuencia de selecciones conforma una serie cronológica de acciones casi
microscópicas que pueden ser agrupadas en sesiones representándose de este modo
una trayectoria de acciones que pudiesen haber conducido al hombre que interactúa
con la Web a una compra, una descarga de productos y/o servicios u otro
comportamiento en que estemos interesados para analizar y/o comprender.
Infelizmente muchas organizaciones no han conseguido aprovechar con eficacia esta
ventaja que brinda una cantidad invalorable de información simplemente porque no
poseen los recursos necesarios para aprovechar esto eficazmente. La actual evolución
de las Nuevas Tecnologías de la Información (NTIC) está haciendo posible que se
puedan generar recursos que atiendan las necesidades de estas organizaciones.
Entender la secuencia de los clicks a los que hacíamos referencia con anterioridad y
almacenarlos en bases de datos para que le sean realizados análisis efectivos
proporcionará un ambiente eficaz para la manipulación de este tipo de información en
un Data WebHouse o Almacén de Datos por medio de Web que es la forma en que se
denomina el término en idioma español.
Mediante el uso de distintos recursos de extracción y manipulación de los datos, la
tecnología de Data WebHouse permite que una gran cantidad de usuarios pueda
realizar inferencias en uno o más bancos de datos modelados de forma especial. Esto
agiliza el acceso a las informaciones y también permite la formulación de consultas
definidas en cualquier momento, con un simple movimiento de arrastrar y soltar
objetos en interfaces gráficas. Entiéndase el uso específicamente de las más
populares actualmente de las interfaces, la interfaz Web.
Existe un consenso, casi unánime en la actualidad en afirmar que Internet ya es el
acontecimiento más revolucionario del mundo de la informática y se vaticina que los
cambios más significativos en el ámbito de los sistemas de información corporativos
Diseño de un prototipo de un Data WebHouse
20
vendrán con la aplicación de la tecnología Internet, concretamente el desarrollo de
redes privadas vía Internet.
El almacén de datos se está convirtiendo en la infraestructura que apoya gestión de
relaciones con clientes (CRM), implementando en el almacén de datos la realización
para que el cliente posea pulsaciones disponibles para el análisis. Estas fuerzas están
cambiando nuestra forma de diseñar e implementar el almacén de datos. Como una
señal de estos cambios en la Web se ha pasado a denominar a la toma de decisiones
en Web con “Data WebHouse”.
El Data WebHouse no tiene centro, porque es inevitablemente distribuida. Los datos
WebHouse no sólo son distribuidos en cada una de las organizaciones, sino que
también se distribuye entre múltiples organizaciones.
En la Web se encuentran socios de negocios organizadas en cadenas de suministro
para el intercambio de información.
2.3 ARQUITECTURA BÁSICA
Un Data WebHouse abarcan múltiples organizaciones y las empresas tiene que tener
algún tipo de uniformidad previsible habiendo un conjunto de normas que permiten a
las diferentes partes de los Data WebHouse reconocerse y comunicarse mutuamente.
Su principal característica es el modelado dimensional, las mismas que están
conformadas con lo que se llama “almacén de datos con arquitectura de bus”.
El almacén de datos con arquitectura de bus es la base de un reparto íntegro de
almacén de datos del sistema, tales como la Data WebHouse.
2.4 COMPONENTES CENTRALIZADOS DEL DATA WEBHOUSE
El componente centralizado de los Data WebHouse se basa en las definiciones de las
dimensiones y la conformación de los hechos. Estas definiciones son lógicas, no
físicas. En la mayoría de los Data WebHouse, son conformados por las dimensiones,
como calendario (la dimensión temporal) cliente y producto.
Diseño de un prototipo de un Data WebHouse
21
Por lo tanto, la responsabilidad de cada una de las dimensiones conformado debe
confiarse a un grupo de “dimensión autoridad”, que define, mantiene y publica una
dimensión particular de todos los Data Marts clientes que se conectan con la
utilización de los datos WebHouse.
2.5 CUBOS DE INFORMACIÓN Y DIMENSIONES
CUBOS.- Los cubos de información o cubos OLAP funcionan como los cubos de
rompecabezas en los juegos, en el juego se trata de armar los colores y en el data
Warehouse se trata de organizar los datos por tablas o relaciones; los primeros (el
juego) tienen 3 dimensiones, los cubos OLAP tienen un número indefinido de
dimensiones, razón por la cual también reciben el nombre de hipercubos. Un cubo
OLAP contendrá datos de una determinada variable que se desea analizar,
proporcionando una vista lógica de los datos provistos por el sistema de información
hacia el data Warehouse, esta vista estará dispuesta según unas dimensiones y podrá
contener información calculada. El análisis de los datos está basado en las
dimensiones del hipercubo, por lo tanto, se trata de un análisis multidimensional.
A la información de un cubo puede acceder el ejecutivo mediante "tablas dinámicas"
en una hoja de cálculo o a través de programas personalizados. Las tablas dinámicas
le permiten manipular las vistas (cruces, filtrados, organización, totales) de la
información con mucha facilidad. Las diferentes operaciones que se pueden realizar
con cubos de información se producen con mucha rapidez. Llevando estos conceptos
Gráfico Nº 5. Centralización de Data WebHouse
Diseño de un prototipo de un Data WebHouse
22
a un data Warehouse, éste es una colección de datos que está formada por
«dimensiones» y «variables», entendiendo como dimensiones a aquellos elementos
que participan en el análisis y variables a los valores que se desean analizar.
DIMENSIONES.- Las dimensiones de un cubo son atributos relativos a las variables,
son las perspectivas de análisis de las variables (forman parte de la tabla de
dimensiones). Son catálogos de información complementaria necesaria para la
presentación de los datos a los usuarios, como por ejemplo: descripciones, nombres,
zonas, rangos de tiempo, etc. Es decir, la información general complementaria a cada
uno de los registros de la tabla de hechos.
2.6 DATA WEBHOUSING
2.6.1 CONCEPTO DE DATA WEBHOUSING
Data WebHousing es el centro de la arquitectura para los sistemas de información,
soporta el procesamiento informático al proveer una plataforma sólida, a partir de los
datos históricos para hacer el análisis. Facilita la integración de sistemas de aplicación
no integrados. Organiza y almacena los datos que se necesitan para el procesamiento
analítico, informático sobre una amplia perspectiva en tiempo real.
Se puede caracterizar un Data WebHouse haciendo un contraste de cómo los datos
de un negocio almacenados en un Data WebHouse, difieren de los datos
operacionales usados por las aplicaciones de producción.
Diseño de un prototipo de un Data WebHouse
23
2.6.2 TIPOS DE SISTEMAS DE INFORMACIÓN
El ingreso de datos en el Data WebHouse viene desde el ambiente operacional en casi
todos los casos. El Data WebHouse es siempre un almacén de datos transformados y
separados físicamente de la aplicación donde se encontraron los datos en el ambiente
operacional.
Los sistemas de información se han dividido de acuerdo al siguiente esquema:
Sistemas Estratégicos.- Orientados a soportar la toma de decisiones, facilitan la
labor de la dirección, proporcionándole un soporte básico, en forma de mejor
información, para la toma de decisiones. Se caracterizan porque son sistemas sin
Base de Datos Operacional Data WebHouse
Datos Operacionales Datos del negocio para Información
Orientado a la aplicación Orientado al sujeto
Actual Actual + histórico
Detallada Detallada + más resumida
Cambia continuamente Estable
Tabla Nº 2. Comparación en Base de Datos operacionales y Data WebHouse
Gráfico Nº 6. Sistemas de información
Diseño de un prototipo de un Data WebHouse
24
carga periódica de trabajo, es decir, su utilización no es predecible, al contrario de los
casos anteriores, cuya utilización es periódica.
Destacan entre estos sistemas: los Sistemas de Información Gerencial (MIS),
Sistemas de Información Ejecutivos (EIS), Sistemas de Información Georeferencial
(GIS), Sistemas de Simulación de Negocios (BIS y que en la práctica son sistemas
expertos o de Inteligencia Artificial-AI).
Sistemas Tácticos.- Diseñados para soportar las actividades de coordinación de
actividades y manejo de documentación, definidos para facilitar consultas sobre
información almacenada en el sistema, proporcionar informes y, en resumen, facilitar
la gestión independiente de la información por parte de los niveles intermedios de la
organización.
Destacan entre ellos: los Sistemas Ofimáticos (OA), Sistemas de Transmisión de
Mensajería (E-mail y Fax Server), coordinación y control de tareas (Work Flow) y
tratamiento de documentos (Imagen, Trámite y Bases de Datos Documentarios).
Sistemas Técnico - Operativos.- Que cubren el núcleo de operaciones tradicionales
de captura masiva de datos (Data Entry) y servicios básicos de tratamiento de datos,
con tareas predefinidas (contabilidad, facturación, almacén, presupuesto, personal y
otros sistemas administrativos). Estos sistemas están evolucionando con la irrupción
de sensores, autómatas, sistemas multimedia, bases de datos relacionales más
avanzadas y Data WebHousing.
Sistemas Interinstitucionales.- Este último nivel de sistemas de información recién
está surgiendo, es consecuencia del desarrollo organizacional orientado a un mercado
de carácter global, el cual obliga a pensar e implementar estructuras de comunicación
más estrechas entre la organización y el mercado (Empresa Extendida, Organización
Inteligente e Integración Organizacional), todo esto a partir de la generalización de las
redes informáticas de alcance nacional y global (INTERNET), que se convierten en
vehículo de comunicación entre la organización y el mercado, no importa dónde esté la
Diseño de un prototipo de un Data WebHouse
25
organización (INTRANET), el mercado de la institución (EXTRANET) y el mercado
(Red Global).
Sin embargo, la tecnología Data WareHousing basa sus conceptos y diferencias entre
dos tipos fundamentales de sistemas de información en todas las organizaciones: los
sistemas técnico-operacionales y los sistemas de soporte de decisiones. Este último
es la base de un Data WebHouse.
2.6.3 SISTEMAS TÉCNICO-OPERACIONALES
Como indica su nombre, son los sistemas que ayudan a manejar la empresa con sus
operaciones cotidianas. Estos son los sistemas que operan sobre el "backbone"
(columna vertebral) de cualquier empresa o institución, entre las que se tiene sistemas
de ingreso de órdenes, inventario, fabricación, planilla y contabilidad, entre otros.
Debido a su volumen e importancia en la organización, los sistemas operacionales
siempre han sido las primeras partes de la empresa a ser computarizados. A través de
los años, estos sistemas operacionales se han extendido, revisados, mejorados y
mantenidos al punto que hoy, ellos son completamente integrados en la organización.
Desde luego, la mayoría de las organizaciones grandes de todo el mundo,
actualmente no podrían operar sin sus sistemas operacionales y los datos que estos
sistemas mantienen.
2.6.4 SISTEMAS DE SOPORTE DE DECISIONES
Por otra parte, hay otras funciones dentro de la empresa que tienen que ver con el
planeamiento, previsión y administración de la organización. Estas funciones son
también críticas para la supervivencia de la organización, especialmente en nuestro
mundo de rápidos cambios.
Las funciones como "planificación de marketing", "planeamiento de ingeniería" y
"análisis financiero", requieren, además, de sistemas de información que los soporte.
Pero estas funciones son diferentes de las operacionales y los tipos de sistemas y la
información requerida son también diferentes. Las funciones basadas en el
conocimiento son los sistemas de soporte de decisiones.
Diseño de un prototipo de un Data WebHouse
26
Estos sistemas están relacionados con el análisis de los datos y la toma de decisiones,
frecuentemente, decisiones importantes sobre cómo operará la empresa, ahora y en el
futuro. Estos sistemas no sólo tienen un enfoque diferente al de los operacionales,
sino que, por lo general, tienen un alcance diferente.
Mientras las necesidades de los datos operacionales se enfocan normalmente hacia
una sola área, los datos para el soporte de decisiones, con frecuencia, toma un
número de áreas diferentes y necesita cantidades grandes de datos operacionales
relacionadas, son estos sistemas sobre los se basa la tecnología Data WebHouse.
2.6.5 CARACTERÍSTICAS DE UN DATA WEBHOUSE
Entre las principales se tiene:
Orientado a Temas.- Una primera característica del Data WebHouse es que la
información se clasifica en base a los aspectos que son de interés para la
empresa. Siendo así, los datos tomados están en contraste con los clásicos
procesos orientados a las aplicaciones.
El ambiente operacional se diseña alrededor de las aplicaciones y funciones
tales como préstamos, ahorros, tarjeta bancaria y depósitos para una
institución financiera. Por ejemplo, una aplicación de ingreso de órdenes puede
acceder a los datos sobre clientes, productos y cuentas. La base de datos
combina estos elementos en una estructura que acomoda las necesidades de
la aplicación.
Diseño de un prototipo de un Data WebHouse
27
En el ambiente Data WebHouse se organiza alrededor de sujetos tales como
cliente, vendedor, producto y actividad. Por ejemplo, para un fabricante, éstos
pueden ser clientes, productos, proveedores y vendedores. Para una
universidad pueden ser estudiantes, clases y profesores. Para un hospital
pueden ser pacientes, personal médico, medicamentos, etc.
Las
aplicaciones están relacionadas con el diseño de la base de datos y del
proceso. En Data WebHousing se enfoca el modelamiento de datos y el diseño
de la base de datos con fuente en la Web.
Gráfico Nº 7. Data Warehouse y Data WebHouse tiene orientación directa al tema.
Diseño de un prototipo de un Data WebHouse
28
Las diferencias entre la orientación de procesos y funciones de las aplicaciones
y la orientación a temas, radican en el contenido de la data a nivel detallado. En
el Data WebHousing se excluye la información que no será usada por el
proceso de sistemas de soporte de decisiones, mientras que la información de
las orientadas a las aplicaciones, contiene datos para satisfacer de inmediato
los requerimientos funcionales y de proceso, que pueden ser usados o no por
el analista de soporte de decisiones.
Integración.- El aspecto más importante del ambiente Data WebHousing es
que la información encontrada al interior está siempre integrada.
La integración de datos se muestra de muchas maneras: en convenciones de
nombres consistentes, en la medida uniforme de variables, en la codificación
de estructuras consistentes, en atributos físicos de los datos consistentes,
fuentes múltiples y otros.
De Tiempo Real.- Toda la información del Data WebHouse es requerida en
algún momento. Esta característica básica de los datos en un depósito, es muy
diferente de la información encontrada en el ambiente operacional. En éstos, la
información se requiere al momento de acceder. En otras palabras, en el
ambiente operacional, cuando usted acceda a una unidad de información,
usted espera que los valores requeridos se obtengan a partir del momento de
acceso.
Volátil.- Los datos operacionales cambian sobre una base momento a
momento. La perspectiva más grande, esencial para el análisis y la toma de
decisiones, requiere un browser para dicho propósito.
Hay algunas consecuencias muy importantes de esta diferencia básica, entre el
procesamiento operacional y del Data WebHouse. En el nivel de diseño, la
necesidad de ser precavido para actualizar las anomalías no es un factor en el
Data WebHouse, ya que se trabaja en tiempo real. Esto significa que en el nivel
Diseño de un prototipo de un Data WebHouse
29
físico de diseño, se pueden tomar libertades para optimizar el acceso a los
datos, particularmente al usar la normalización y de normalización física.
La fuente de casi toda la información del Data WebHouse es el ambiente Data
Warehouse a simple vista, se puede pensar que hay redundancia masiva de
datos entre los dos ambientes. Desde luego, la primera impresión de muchas
personas se centra en la gran redundancia de datos, entre el ambiente
Warehouse y el ambiente de WebHouse, para entender esto se debe
considerar lo siguiente:
o Los datos se filtran cuando pasan desde el ambiente operacional al de
depósito. Existe mucha data que nunca sale del ambiente operacional.
Sólo los datos que realmente se necesitan ingresarán al ambiente de
Data WebHouse.
o El horizonte de tiempo de los datos es muy diferente de un ambiente al
otro. La información en el ambiente operacional es más reciente con
respecto a la del Data WebHouse.
o Desde la perspectiva de los horizontes de tiempo únicos, hay poca
superposición entre los ambientes Data Warehouse y Data WebHouse.
Los datos experimentan una transformación no tan fundamental cuando pasa al
Data WebHouse. La menor parte de los datos se alteran significativamente al
ser seleccionados y movidos Data WebHouse.
Diseño de un prototipo de un Data WebHouse
30
CAPÍTULO III
3. ANÁLISIS DE UN PROTOTIPO DE UN DATA WEBHOUSE
3.1 ESTUDIO DEL SISTEMA ACTUAL
Un Data WebHouse debe ser diseñado desde el principio como un sistema totalmente
distribuido, con muchos nodos desarrollado de manera independiente que contribuye a
la general de su conjunto. En otras palabras, no existe un centro de Data WebHouse.
No tiene que ser un sistema cliente / servidor, sino uno preparado para la Web. Es
decir, rediseñado con posibilidad de sistema de entrega de sus resultados y
exponiendo sus interfaces remotas a través de navegadores de la Web.
Deberá poseer un trato textual, numérica, gráfica, fotografía, audio, vídeo y flujos de
datos porque la Web ya apoya esta combinación de medios de comunicación, apoyo a
nivel atómico comportamiento datos, al menos, el nivel terabyte de datos en muchos
Marts, especialmente los que contengan datos de pulsaciones. Muchos análisis de
comportamiento deben, por definición, a través de rastrear el nivel más bajo de los
datos debido a que el análisis se oponen a resumir las limitaciones de antelación.
Permitir responder a un usuario final en un tiempo aproximado de 10 segundos,
independientemente de la complejidad de la solicitud.
Además incluye la interfaz de usuario de la eficacia como criterio principal de diseño.
La única cosa que importa en los datos WebHouse es la publicación de información en
la Web.
Con este almacén de datos en evolución, conseguiremos hacer tres grandes factores
de diseño técnico más difícil.
3.2 RECOLECCIÓN DE DATOS
Para conseguir los resultados de la búsqueda de información perseguidos es
imprescindible contar con un buen proyecto, que capte los intereses y las inquietudes
del Cliente y las transforme, de forma ordenada, en la imagen gráfica que la empresa
Diseño de un prototipo de un Data WebHouse
31
quiere ofrecer en Internet, respetando la funcionalidad exigida y garantizando los
tiempos de ejecución y el control del presupuesto.
3.3 ESTRUCTURA DE CONTENIDOS
En este nivel estudiaremos elementos como:
Imagen gráfica
Diagramas de navegación
Facilidad de aprendizaje y uso
Itinerarios con sus objetivos de comunicación
Ergonomía de pantallas de los aplicativos, etc.
En base al plan establecido en este apartado, el Cliente tendrá una idea clara de la
totalidad de las aportaciones que deberá realizar en paralelo con nuestro trabajo:
fotografías, textos, organigramas, etc.
3.4 DETERMINACIÓN DE OBJETIVOS
Para plantearnos los objetivos que con lleven al fin del proyecto tenemos que tener en
cuenta la necesidad del cliente o empresa, teniendo en cuenta principalmente el
problema por el cual necesita ayuda para la toma de decisiones en diferentes áreas de
la empresa. Además sería conveniente intercambiar opiniones sobre la realización de
cubos y dimensiones que se necesitaran para la realización del proyecto en Data
WebHouse.
3.5 ANÁLISIS DEL PROBLEMA PARA LA TOMA DE DECISIONES
La complejidad en el desarrollo se ha presentado como la principal desventaja de un
DW. Esto se debe a que la realidad para cada negocio es distinta, y un DW debe
responder a las características particulares que presenta cada uno de ellos, tanto de
configuración como del conjunto de requisitos a satisfacer; por lo cual no es fácil
estandarizar la forma de desarrollar este tipo de proyectos.
Diseño de un prototipo de un Data WebHouse
32
El empleo de una forma de trabajo ordenada es un factor de importancia en el
desarrollo e implantación de proyectos de Data WebHousing, y la tendencia en general
busca lograr a través del uso de una metodología, recortar los tiempos de desarrollo y
programar la inversión de recursos de manera eficiente; además proporciona un
lenguaje común logrando que exista comunicación, permitiendo la incorporación de
nuevos miembros al equipo de trabajo siendo productivos inmediatamente.
En la actualidad no podemos asegurar cuál estrategia de implementación es mejor o
peor, sin embargo al analizar las tendencias generales del mercado se encuentra que
la estrategia de desarrollo de Data Marts está siendo adoptada con mayor frecuencia
en los últimos tiempos. A esta tendencia general se le ha identificado como la
aproximación que garantiza la probabilidad de éxito más grande en la implantación de
Data WebHousing, tanto por la rapidez en la obtención de resultados en períodos
cortos con inversiones moderadas como por la modularidad posible de alcanzar con
este enfoque considerando cada Data Marts como un incremento del sistema final
(Data WebHouse).
CAPÍTULO IV
4. DISEÑO DE UN PROTOTIPO DE UN DATA WEBHOUSE
4.1 VISIÓN GENERAL DEL PROYECTO DEL DISEÑO DE DATA
WEBHOUSE
Es fundamental disponer del diseño más avanzado desarrollado por experto
profesionales que nos garanticen la óptima comunicación de nuestros objetivos a
través de la Web.
Diseño de un prototipo de un Data WebHouse
33
4.2 COMPONENTES DEL DISEÑO
4.2.1 Tabla de hecho.- Es la representación en el Data Warehouse de
los procesos de negocio de la organización. Por ejemplo, una
venta puede identificarse como un proceso de negocio de
manera que es factible, si corresponde en nuestra organización,
considerar la tabla de hecho ventas.
4.2.2 Dimensión: Es la representación en el Data Warehouse de una
vista para un cierto proceso de negocio. Si regresamos al
ejemplo de una venta, para la misma tenemos el cliente que ha
comprado, la fecha en la que se ha realizad. Estos conceptos
pueden ser considerados como vistas para este proceso de
negocio. Puede ser interesante recuperar todas las compras
realizadas por un cliente. Ello nos hace entender por qué la
identificamos como una dimensión.
4.2.3 Métrica: son los indicadores de negocio de un proceso de
negocio. Aquellos conceptos cuantificables que permiten medir
nuestro proceso de negocio. Por ejemplo, en una venta tenemos
el importe de la misma.
4.3 APLICACIONES DE DATA WEBHOUSE
Para poder aplicar a un proyecto Data WebHouse se necesita tener claro las
aplicaciones con las que se trabajara.
Puntualidad.- Los resultados deben estar disponibles en tiempo real. "A
partir del día anterior" se debe analizar la presentación de informes. Tener
en un tiempo justo los inventarios, junto con la personalización en masa,
nos obligan a comprender y responder a la demanda.
Diseño de un prototipo de un Data WebHouse
34
Los volúmenes de datos.- El gran paso a la personalización en masa
significa que ahora se debe capturar, analizar y responder a todas las
transacciones en el negocio incluyendo cada gesto hace un cliente, tanto
antes como después del operativo o transacciones de venta y no parece
haber limite del volumen. Por ejemplo, la combinación de Microsoft
relacionados con sitios Web, analizados diario como una sola entidad, en
algunos días de gran influencia han capturado más de mil millones de
eventos de la página.
Los tiempos de respuesta. La Web hace que rápidamente los tiempos de
respuesta críticos. Si algo útil no ocurre dentro de los 10 segundos el
usuario puede navegar a otra página. Aquellos de nosotros que corren
grandes almacenes de datos saber que muchas preguntas tendrá más de
10 segundos.
4.4 ARQUITECTURA
Como estos factores de diseño se han convertido en más difícil, nos encontramos un
mayor apoyo continuo de los usuarios y las solicitudes. Para abordar estos problemas,
tenemos que ajustar nuestra arquitectura de almacenamiento de datos. No podemos
hacer que nuestro único servidor de base de datos cada vez más poderosos. No
podemos hacer que entregar todos estos objetos complicado y espero estar a la altura
de la escalada de estos requisitos.
4.5 IMAGEN CORPORATIVA
La imagen es mucho más que el aspecto, es un conjunto de características que hacen
que su empresa comunique eficazmente las ideas que desea expresar a sus clientes:
modernidad, excelencia, seguridad, liderazgo, confianza... En todo tipo de relación con
el cliente, nada importa más que la primera impresión.
Diseño de un prototipo de un Data WebHouse
35
4.6 INTERACCIÓN DEL USUARIO
El nuevo medio que es Internet permite no sólo expresar ideas a los usuarios, sino
provocar sus reacciones, conocer sus intereses y conseguir que su relación sea activa.
Cultivar esto fortalece la fidelización con la marca o empresa y a su vez permite que la
relación usuario – servidor sea más definida.
4.7 USABILIDAD Y NAVEGABILIDAD
Aunque una Web sea muy atractiva, se deberá utilizar las tecnologías más modernas
que ofrezca los contenidos de mayor calidad, si no se tiene en cuenta cómo y quién la
usará?, todo esfuerzo será una pérdida de tiempo y dinero.
4.8 PLANIFICACIÓN Y MÉTODO
Es importantísimo contar con suficiente información por parte del cliente antes de
comenzar un proyecto. Hay que conocer objetivos, estrategias, perfiles de usuarios,
calendarios, etc. Nuestro método reduce los costos del proyecto a través de una
planificación estricta y etapas de desarrollo claras.
Diseño de un prototipo de un Data WebHouse
36
CAPITULO V
5. TECNOLOGÍA Y FASES DE EJECUCIÓN
5.1 TECNOLOGÍA
5.1.1 CREATIVIDAD Y DISEÑO
Para el diseño se debe tener en cuenta las actuales tendencias de diseño en la red y
la consecución de los objetivos de comunicación que se pretenden, dando forma a una
serie de Plantillas de Diseño que conformarán la nueva imagen de su empresa en todo
el mundo.
5.1.2 TRATAMIENTO DE IMÁGENES
Es fundamental focalizar la atención de los usuarios en los objetivos propuestos
mediante el primer impacto visual, por eso realizamos un tratamiento de imágenes
depurado que no sólo persigue una óptima calidad gráfica, sino su máxima ligereza,
evitando retardos innecesarios en la carga de las páginas y agilizando así la
navegación de los usuarios.
5.1.3 ANIMACIONES GRÁFICAS
Las últimas tendencias en la red y la mejora en las comunicaciones con la aparición de
la banda ancha han hecho habitual el uso de animaciones gráficas en la Web, pero
como en el cine o la televisión, estamos ante un nuevo lenguaje de comunicación, que
requiere tanto del empleo de las últimas tecnologías, como de los mejores
profesionales.
Diseño de un prototipo de un Data WebHouse
37
5.1.4 AUDIO Y VÍDEO STREAMING
Gracias a las nuevas tecnologías de Streaming y a la banda ancha es posible la
emisión de Audio y Vídeo con garantías de calidad y economía, que ponen al alcance
de muchas empresas nuevas posibilidades en el campo de la formación y el
entretenimiento.
5.1.5 PROGRAMACIÓN DE SCRIPTS
Para convertir la Web en una herramienta de comunicación total para su empresa, se
necesita del desarrollo de pequeños programas que sean capaces de interactuar
contra sus bases de datos de gestión interna, ofreciendo así ilimitados servicios a sus
usuarios, mejorando los procesos de Atención al Cliente, Contratación a Distancia,
Gestión Remota, el Tele-trabajo o el acceso a la Información “Online”.
5.2 FASES DE EJECUCIÓN
Trabajar en equipo con el Cliente y coordinar las diferentes fases de desarrollo del
proyecto son aspectos fundamentales para garantizar el éxito del mismo. Por eso
contamos con un equipo multidisciplinar capaz de llevar a la práctica los proyectos
aprobados por nuestros clientes, ajustándose a los requerimientos exigidos,
respetando el presupuesto y los tiempos de ejecución, y realizando un exhaustivo
control de calidad a satisfacción del Cliente.
5.2.1 DEFINICIÓN DEL PROYECTO
En la etapa de Proyecto, trabajando de un modo interactivo e iterativo con el Cliente,
en un tiempo razonablemente breve podremos intercambiar la necesaria información y
madurar la misma lo suficiente, como para que las definiciones a las que lleguemos,
supongan la más adecuada síntesis entre su conocimiento en el área de negocio
Diseño de un prototipo de un Data WebHouse
38
propuesta y nuestro conocimiento del Medio (Internet) y de las aplicaciones de negocio
en el mismo.
5.2.2 PROPUESTA Y ANÁLISIS
Analizar las distintas alternativas a nivel preliminar en sus tres dimensiones (alcance,
costo y plazo) es el mejor modo para lograr adecuar las expectativas del Proyecto con
los resultados finales. El hecho de adelantar la tarea de realizar definiciones (que
debería hacerse de cualquier modo), nos permite a todos una mayor visión de
conjunto de trabajo a realizar y al Cliente en particular una forma fiable y temprana de
conocer los costos y los plazos del proyecto, elementos necesarios para la toma de
decisiones.
5.2.3 DISEÑO Y CREATIVIDAD
Para el diseño se debe realizar realizará un estudio exhaustivo de los objetivos de la
empresa sobre la cual se va a implementar el proyecto, teniendo en cuenta las
necesidades expresadas por el Cliente con el objetivo de optimizarlo al máximo e
imprimir dinamismo respetando un entorno de navegación fácil. En este sentido,
introduciendo elementos dinámicos, trabajando las imágenes y adaptándolas al
entorno Web conseguiremos una más fácil y rápida navegación.
5.2.4 PRODUCCIÓN DE CONTENIDOS
Por la experiencia que hemos acumulado en el terreno de la creación de contenidos
para Portales corporativos, consideramos que es fundamental que el usuario
identifique claramente la información relativa a la empresa y la información relativa a
los productos y servicios. En este sentido, nos parece oportuno proponer una
estructuración de contenidos dinámica y acorde con la consecución de los objetivos
propuestos.
Diseño de un prototipo de un Data WebHouse
39
5.2.5 CONTROL DE CALIDAD
Conjuntamente con el Cliente revisaremos todo el trabajo realizado, procediendo a la
corrección de los errores detectados y al ajuste de los últimos detalles previos a la
puesta en producción, realizando el test de prueba en el departamento de desarrollo
de producto.
Diseño de un prototipo de un Data WebHouse
40
CAPITULO VI
6. EJEMPLIFICACIÓN DE UN POSIBLE PROTOTIPO DE UN DATA
WEBHOUSE
6.1 DISEÑO PARA EL SISTEMA DE GESTIÓN DE INFORMACIÓN
HOSPITALARIA GALÁN DEL HOSPITAL UNIVERSITARIO.
INTRODUCCIÓN
El presente trabajo teórico de un prototipo de data WebHouse para un sistema de
gestión de información hospitalaria. El mismo constituye un estudio de aproximación
teórica pues constituye un tema novedoso en nuestro país. A partir de una propuesta
metodológica existente se realiza un ajuste de la misma a las condiciones y recursos
disponibles a escala local con vistas a realizar un diseño teórico del Data WebHouse
en cuestión. Se utilizan métodos como el teórico y se emplean procedimientos como la
revisión bibliográfica. De igual modo se utiliza lenguaje de modelado como UML para
el diseño teórico del prototipo. Finalmente el resultado del estudio será el diseño
teórico del prototipo para el caso de estudio. Es necesario señalar que este estudio
todavía está en etapa de ejecución, no está totalmente culminado y el mismo
constituye la investigación a desarrollar para optar por la categoría científica.
APLICACIONES QUE SE USARÁ DURANTE EL ESTUDIO
WebHouse,
Interfaz Web,
Clickstream,
Secuencia de selecciones,
Data Warehouse,
Diseño de sistemas
Diseño de un prototipo de un Data WebHouse
41
DESARROLLO
Todas estas ventajas que se producen al integrar el DW y la tecnología Internet han
propiciado que esta integración sea una realidad cada vez más palpable en el mundo.
El advenimiento de una nueva forma de interactuar con los almacenes de datos ha
traído como consecuencia la aparición de un nuevo término; el Data WebHouse esto o
lo que es igual, el casamiento del DW con la Web. Esto se basa en el
aprovechamiento de cada una de las acciones que realizan los usuarios sobre los
sitios Web que conforman la Internet.
Esto puede ser un elemento central, cohesivo a aprovechar por los sistemas
organizacionales de hoy en día a cualquier nivel. Una óptica de enfoque en el cliente /
usuario a través de una visión de competitividad desde el punto de información como
recurso para la toma estratégica de decisiones deberá ser vital y decisivo a la vez.
El Data WebHouse es aún un concepto nuevo que todavía esta transitando por una
fase de maduración y que necesita más tiempo para el logro de un mayor desarrollo y
calidad. Dentro del contexto de la tecnología de la información se presenta como una
solución que deberá ser imprescindible en su adopción por la cantidad de ventajas que
ofrece.
En el contexto mundial actual uno de los ámbitos de trabajos que más datos acumula
es el sector de la salud. Es innegable la existencia de infinidad de programas para el
manejo de los registros médicos que actualmente se utilizan en este ámbito. Ello
implica no solo el manejo de las estadísticas que permiten la gestión hospitalaria sino
también la acumulación de datos como fuente de investigación biomédica.
Los hospitales son lugares de trabajo muy complejo. A los efectos de su dirección y
administración, la mezcla de funciones asistenciales, docentes, investigativas y
administrativas como centros importantes de servicios de salud con otras que
podemos denominar de infraestructura, de ingeniería o de hotelería explican la
afirmación precedente, máxime cuando se pretenden optimizar todos los procesos que
Diseño de un prototipo de un Data WebHouse
42
a diario se suceden en una institución que no "descansa" por prestar servicios
continuados las 24 horas del día y los 365 días del año.
Por otra parte, es considerable el volumen de datos que se generan y se requieren
para la gestión hospitalaria. Es por ello que para lograr calidad en la dirección y la
administración de estas instituciones en los tiempos actuales, se necesita, cada vez
más e inexorablemente de su informatización.
En el caso especifico de Cuba, a pesar de existir un Sistema Nacional de Estadísticas
de Salud vamos a encontrar un grupo de soluciones de gestión de la información de
carácter local que se han estado desarrollando en dependencia del potencial científico
y tecnológico con que cuenta cada institución del sistema de salud cubano. Un
ejemplo representativo de esto es el caso del Sistema de Gestión de Información
Hospitalaria (SGIH) GALÁN del Hospital Universitario Lima. En este centro se inició de
manera incipiente el trabajo de informatización en 1986, proceso que se ha acelerado
durante la última década, pues no fue sino hasta finales del año 1997 en que se
comenzó la elaboración de un proyecto mucho más integral que ha abarcado de
manera paulatina prácticamente a todas las esferas y servicios para dar respuesta a
las necesidades crecientes de optimizar la gestión informática del centro.
En un comienzo se fueron identificando las prioridades en los departamentos que
contaban con la mayor parte de la información. Por ello el Departamento de Registros
Médicos fue el que más impulso recibió en los inicios. Se crearon módulos con
recursos y personal propios de la institución, se capacitó al personal, se elaboró un
Proyecto de Informatización General de los Servicios y se constituyó el actual Centro
de Gestión Informática (CGI). Se crearon las bases de datos centralizadas para dar
respuesta a los diferentes tipos de usuarios.
Fue necesario la creación de la red interna del centro que actualmente cuenta con
aproximadamente 148 computadoras, ubicadas estratégicamente en los lugares de
mayor demanda de información y procesamiento y se elaboraron los primeros módulos
Diseño de un prototipo de un Data WebHouse
43
informatizados. Surge así un SGIH denominado GALÁN que cuenta con 38 módulos
de informatización
Si bien este sistema presenta inobjetablemente un grupo de potencialidades que lo
hacen atractivo para su uso el mismo presenta un insuficiente aprovechamiento de las
potencialidades de la red interna del centro para la interacción de los usuarios con las
bases de datos de la misma a través de interfaces Web o lo que es igual necesita de
un diseño efectivo de Data WebHouse que proporcione acceso vía interfaz Web a los
datos de modo tal que contribuya de forma efectivo a la toma estratégica de
decisiones en el centro.
ANÁLISIS DEL PROBLEMA
En base a lo hablado anteriormente se toma en cuenta lo siguiente:
PROBLEMA CIENTÍFICO: El insuficiente aprovechamiento de las potencialidades de
las interfaces Web para la gestión de la información en el Sistema de Gestión de
Información Hospitalaria GALÁN del Hospital Universitario en Lima.
OBJETO DE INVESTIGACIÓN: El acceso vía interfaz Web a las bases de datos que
integran el Sistema de Gestión de Información Hospitalaria GALÁN del Hospital
Universitario.
CAMPO DE ACCIÓN: Implementación de un diseño de un prototipo de Data
WebHouse para el Sistema de Gestión de Información Hospitalaria GALÁN del
Hospital Universitario en Lima.
HIPÓTESIS
Diseño de un prototipo de un Data WebHouse
44
Si se hace un diseño teórico de un prototipo de Data WebHouse para el Sistema de
Gestión de Información Hospitalaria GALÁN del Hospital Universitario en Lima se
logrará una propuesta metodológica que de elaborarse e implementarse logrará un
mayor nivel de aprovechamiento de los datos para la toma de decisiones y que esto
contribuya a que esta sea una institución por la excelencia de los servicios.
OBJETIVOS Y SOLUCIONES
OBJETIVO GENERAL: Diseñar teóricamente un prototipo de Data WebHouse para el
Sistema de Gestión de Información Hospitalaria GALÁN del Hospital Universitario en
Lima.
Para lograr el objetivo de nuestra investigación pretendemos cumplir las siguientes
tareas de investigación:
Análisis teórico del estado en que se encuentra la problemática planteada en la
bibliografía contemporánea.
Estudio de la experiencia acumulada en el desarrollo, aplicación y validación de
sistemas informáticos.
Estudio de la experiencia acumulada en el desarrollo, aplicación y validación de
metodologías para el diseño de interfaces de usuario tipo Web.
Estudio de las diferentes plataformas para la implementación de sitios Web
interactivos: Plataformas Cliente - Servidor, Active Server Pages (ASP),
Common Gateway Interface (CGI), etc.
Estudio de los diferentes Sistemas de Gestión de Bases de Datos (SGBD)
Relacionales – SQL Server, Oracle, etc. –
Diseño de un prototipo teórico de Data WebHouse que permita la integración y
almacenamiento de toda la información generada por el sistema GALÁN del
Hospital Universitario.
Diseño de un prototipo de un Data WebHouse
45
DISEÑO DEL PROTOTIPO
Este diseño deberá cumplir metodológicamente con el desarrollo de los siguientes
elementos componentes:
Visión General del proyecto de diseño de Data WebHouse
Data Warehouse para Análisis del Secuencia de Selecciones
Aplicaciones de Data WebHouse
Usuarios del Data WebHouse
Arquitectura
Definición del origen de los datos a medir
Definición de las Dimensiones
Modelación resultante de la unión de las tablas de datos y las dimensiones
definidas.
Implementación del proceso de captura
Fuente de Datos
Granularidad de la Secuencia de Selecciones
Impacto de la implementación del Data WebHouse en el sitio existente
Características del sitio que influenciara en el proceso de captura
Identificación de usuarios
Asociación de usuarios con una identificación permanente
Control de sesiones de usuario
Aspectos de seguridad y privacidad
Compilación de la información del usuario
Definición de los datos a colectar
Compilación de datos
Desempeño de la solución
Consideraciones sobre el proceso de Implementación del Data WebHouse
diseñado
Diseño de un prototipo de un Data WebHouse
46
Consideraciones sobre el proceso Implementación del proceso de extracción y
transformación.
Arquitectura postproceso
Implementación del proceso de carga
Análisis de la Información
Diseño de un prototipo de un Data WebHouse
47
CAPÍTULO VII
7. CONCLUSIONES Y RECOMENDACIONES
7.1 CONCLUSIONES
El diseño teórico de un prototipo de Data WebHouse proporciona una propuesta
metodológica que de elaborarse e implementarse conllevará al logro de un mayor nivel
de aprovechamiento de los datos para la toma de decisiones.
Esta demanda es casi en su totalidad una gran noticia para nosotros Data WareHouse
y Data WebHouse, ya los dos trabajan como dos potentes imanes.
El Data WebHouse desempeñará un papel importante en aquellos que realicen una
función de cooperación con el mundo en un futuro muy próximo, ya que son el centro
de atención de las grandes empresas actuales, porque son una colección de datos
donde se encuentra integrada la información de estas, proporcionando una
herramienta para que puedan hacer un mejor uso de la información y para el soporte
al proceso de toma de decisiones gerenciales.
Existen numerosas causas que provocan suciedad en los registros de los sistemas
operacionales, lo que trae como consecuencia que haya gran cantidad de datos
almacenados en las empresas que carece de la calidad adecuada para ser utilizada de
forma confiable.
Para las organizaciones actuales, la estandarización de las direcciones de sus listas
de clientes es un punto fundamental que toman muy en cuenta, ya que direcciones de
empresas que no tengan esta característica de Data WebHouse provocaría pérdida de
credibilidad.
Diseño de un prototipo de un Data WebHouse
48
7.2 RECOMENDACIONES
Una vez culminado el trabajo de investigación se considera muy recomendable el
estudio e implementación de un Data WebHouse en empresas que generan y
recopilan grandes cantidades de información, teniendo en cuenta el valor de dicha
información y usando los patrones y las tendencias en su uso, para obtener nuevos
conocimientos.
Sería beneficioso para las empresas decidirse por la implementación de un Data
WebHouse porque obtendrían un cambio realmente fructífero en el momento de tomar
decisiones, debido a que el acceso a las bases de datos es vía Web, teniendo como
ventaja además la formación de líderes empresariales en el área BI (Business
Intelligence).
Tomando en cuenta las necesidades de tomar decisiones estratégicas por parte de la
persona encargada de la misma, se le recomienda el uso de dimensiones, tablas de
hecho y métrica que posee el Data WebHouse obteniendo así bases de datos
centralizadas que serán gradualmente una mejora en la organización.
Diseño de un prototipo de un Data WebHouse
49
GLOSARIO
ASP.- (Active Server Pages). Es una tecnología de Microsoft para páginas Web
generadas dinámicamente, que ha sido comercializada como un anexo a
Internet Information Services (IIS).
BACK-END.- Es un tipo de abstracción que ayuda a mantener las diferentes
partes del sistema separadas.
BACKBONE.- Se refiere a las principales conexiones troncales de Internet.
Está compuesta de un gran número de routers comerciales, gubernamentales,
etc.
CGI.- (Common Gateway Interface). Pequeños programas situados en un
servidor Web, para poder ser utilizados desde las páginas Web que se
hospeden en dicho servidor.
CLICKSTREAM ANALYSIS.- Rastro que un usuario va dejando de su paso por
las distintas páginas Web que visita.
CRM.- ((Customer Relationship Management). Son las soluciones tecnológicas
para conseguir desarrollar la "teoría" del marketing relacional.
DATA ENTRY.- Es el proceso de ingresar datos a una computadora para que
estos sean procesados.
DW.- Data WareHouse.
DATA MINING. - (Mina de datos). Es una actividad de extracción cuyo objetivo
es el de descubrir hechos y contenidos en las bases de datos.
Es considerado también como una detección de modelos de comportamiento
de usuarios al navegar por Internet que realizan de forma oculta muchas
empresas informáticas para predecir necesidades de los clientes que luego
utilizarán para ofrecerle servicios, programas, etc.
DSS.- (Sistemas de Soporte a las Decisiones): Son sistemas que ayudan a los
funcionarios y ejecutivos de las organizaciones a tomar decisiones inteligentes
Diseño de un prototipo de un Data WebHouse
50
y documentadas acerca de los diversos aspectos críticos de gran impacto
sobre los objetivos de la organización.
EIS.- (Sistemas de Información para Ejecutivos): Son aplicaciones
computacionales creadas para satisfacer las necesidades de información
actualizada de los ejecutivos de las empresas en forma rápida y fácil de
entender.
(GIS).- (Geographical Information System). Sistema de Información
Geográfica.- Es una metodología para adquirir, almacenar, gestionar, editar y
mostrar datos relacionados con mapas y planos geográficos
HIPERCUBOS.- es la extrapolación de un cubo (objeto tridimensional) a un
espacio de cuatro dimensiones.
MDX.- Son Expresiones multidimensionales, para consultar datos
multidimensionales en un cubo.
NTIC.- Son un conjunto de procesos y productos que son el resultado del
empleo de nuevas herramientas surgidas del campo de la informática, soportes
de la información y canales de comunicación, relacionados con el
almacenamiento, procesamiento y transmisión digital de la información.
PROCESOS BATCH.- Es una técnica mediante la cual, un número de tareas
se agrupan y se procesan en un orden determinado.
QUERY.- Un query es una herramienta del sistema que nos permite la
posibilidad de extraer o consultar datos de una base de datos.
STREAMING.- es un término que se refiere a ver u oír un archivo directamente
en una página Web sin necesidad de descargarlo antes al ordenador.
SGBD.- (Sistema de gestión de base de datos): Es una agrupación de
programas que sirven para definir, construir y manipular una base de datos.
WAREHOUSING.- Es el centro de la arquitectura para los sistemas de
información. Soporta el procesamiento informático al proveer una plataforma
sólida, a partir de los datos históricos para hacer el análisis. Facilita la
Diseño de un prototipo de un Data WebHouse
51
integración de sistemas de aplicación no integrados. Organiza y almacena los
datos que se necesitan para el procesamiento analítico, informático sobre una
amplia perspectiva de tiempo.
WORKFLOW.- Se refiere al flujo de trabajo a seguir para la consecución de
una tarea o trabajo predeterminado. El workflow general de una empresa
presenta las actividades a realizarse así como los tiempos y organización de
las mismas.
Diseño de un prototipo de un Data WebHouse
52
BIBLIOGRAFÍA
Direcciones Web
www.administracion.econo.unlp.edu.ar/655/paginas_web/06_materiales/Proyec
to_Datawarehouse.pdf
http://es.wikipedia.org/wiki/Almac%C3%A9n_de_datos
http://www.sqlmax.com/dataw1.asp
www.inf.udec.cl/~revista/ediciones/edicion5/datawh.PDF
http://www.monografias.com/trabajos40/prototipo-data-webhouse/prototipo-
data-webhouse.shtml
www.intelligententerprise.com/db_area/archives/1999/992112/webhouse.jhtml
www.chrispeiris.com/articles/data_WebHousing.html
www.webhouse.es
www.exa.unicen.edu.ar/cursosg/docs/2008/DataWarehouse.pdf
es.wikipedia.org/wiki/
http://www.novabase.es/showCategory.asp?idCat=BusinessIntelligence