fundamentos teóricos de los almacenes de datos. metodologías y herramientas para el desarrollo de...
TRANSCRIPT
Distribución de horas
C CP L S Eval. Total
Tema 1: Fundamentos teóricosde los almacenes de datos.
2 - - 2 - 4
Tema 2: Análisis y diseño dealmacenes de datos.
2 2 6 2 2 14
Tema 3: Carga y Explotación dealmacenes de datos.
4 - 20 - 6 30
Totales 8 2 26 4 8 48
Introducción
Sistemas de Bases de Datos I
Sistemas de Bases de Datos II
SistemasGestores de
Bases de Datos
Relacionales
Modelo Relacional
Aplicaciones informáticas
Contexto empresarial
Orientadas a procesos
Introducción
• Sistemas de Información de Clientes
• Sistemas Financieros• Sistemas de Ventas• Sistemas de Producción• Sistemas de Recursos
Humanos• Sistemas de Marketing
¿Cuántos zapatos vendimos el último mes?
¿Cuántos zapatos del 41 decolor rojo se vendieron elúltimo mes en la zonanorte; comparados con lasventas del mismo mes elaño pasado?
Introducción
• Sistemas de Información de Clientes
• Sistemas Financieros• Sistemas de Ventas• Sistemas de Producción• Sistemas de Recursos
Humanos• Sistemas de Marketing
¿Cuántos zapatos vendimos el último mes?
¿Cuántos zapatos del 41 decolor rojo se vendieron elúltimo mes en la zonanorte; comparados con lasventas del mismo mes elaño pasado?
Introducción
Gran volumen de información
Entorno empresarial competitivo
Mercado global
• Mejor control sobrelas áreas de laempresa.
• Alerta oportuna.• Seguimiento de
indicadores.• Respuestas rápidas
a las preguntas delnegocio.
C
o
n
t
e
x
t
o
N
e
c
e
s
i
d
a
d
Solución
Almacenes de datos
Tema 1: Fundamentos teóricos de los almacenes de datos.Conferencia 1: Metodologías y herramientas para el desarrollo de almacenes de datos.
Objetivos
•Caracterizar la tecnología de almacenes de datos, asícomo las metodologías y herramientas para suimplementación.
Sumario
• Sistemas de información.
• Introducción a los almacenes de datos*.
• Metodologías para el desarrollo de DW.
• Arquitectura de un DW.
• Tecnologías para desarrollar DW.
*Data Warehouse - DW
Bibliografía
• DEVLIN, Barry. Data Warehouse: From Architecture toImplementation. Addison-Wesley, 1997. ISBN 9780201964257.
• INMON, W. H. Building the Data Warehouse. John Wiley & Sons,2005. ISBN 9780471774235.
• KIMBALL, Ralph and ROSS, Margy. The Data Warehouse Toolkit:The Complete Guide to Dimensional Modeling. John Wiley &Sons, 2011. ISBN 9781118082140.
Sistemas de información
Un sistema de información es un conjunto deelementos orientados al tratamiento y administraciónde datos e información, organizados y listos para su usoposterior, generados para cubrir una necesidad uobjetivo.
Sistemas de información
Nivelestratégico
Nivel táctico
Nivel operativo
Nivel transaccional
Cubren el núcleode operacionestradicionales decaptura masiva dedatos y serviciosbásicos detratamiento dedatos.
Trabajadores
Gerentes de nivel medio
Sistemas de información
Nivelestratégico
Nivel táctico
Nivel operativo
Nivel transaccional
Facilitar la gestiónindependiente dela información porparte de losnivelesintermedios de laorganización.
Gerentes de alto nivel
Sistemas de información
Nivelestratégico
Nivel táctico
Nivel operativo
Nivel transaccional
Orientados asoportar la tomade decisiones yfacilitar la labor dedirección.
Ejecutivos
Sistemas de información
Nivelestratégico
Nivel táctico
Nivel operativo
Nivel transaccional
Sistemas informacionales
Sistemas operacionales
Sistemas de información
Sistemas operacionales:Son aquellos que tienen como objetivo reflejar elestado y funcionamiento de las empresas/organizaciones, registrando las transacciones uoperaciones diarias de los principales procesos oactividades que realizan.
Procesamiento Transaccional en Línea (OLTP)
Sistemas de información
Sistemas informacionales:Son aquellos que tienen como objetivo mantenerdisponible un compendio de información históricagarantizando una fuente única, contribuyendo arealizar análisis y toma de decisiones estratégicas alargo plazo.
Procesamiento Analítico en Línea (OLAP)
Sistemas de información
Nivelestratégico
Nivel táctico
Nivel operativo
Nivel transaccional
Sistemas informacionales
Sistemas operacionales
Almacenes de
datos
Sistemas operacionales ↔ informacionales
Sistemas operacionales
Sistemasinformacionales
Sistemasinformacionales
Data Warehouse
OLTP vs OLAP
Sistemas operacionales
(OLTP)
Sistemas informacionales
(OLAP)
Base de datos orientada al proceso
Base de datos orientada al análisis
OLTP vs OLAP
Sistemas operacionales Sistemas informacionales
Pocos registros Muchos registros
Actualizan datos Leen datos
Tiempo de respuesta críticoTiempo de respuesta no tan crítico
Usuarios: operativosUsuarios: directivos y administradores
Datos operacionales Datos relevantes
Toma de decisiones
La toma de decisiones es el proceso de identificaciónde un problema u oportunidad y la selección de unaalternativa de acción entre varias existentes.
Sistemas para el Soporte de Decisiones*
Son aquellos que tienen como objetivos medir, evaluary controlar los principales indicadores del negocio,buscando identificar, proyectar o predecir tendencias apartir de los datos acumulados.
*Decision Support System(DSS)
Inteligencia de negocio*
Conjunto de estrategias y herramientas enfocadas a laadministración y creación de conocimiento medianteel análisis de datos existentes en una organización.
*Inteligencia empresarial, Business intelligence (BI)
Avances en los sistemas de informaciónConocimiento
Datos
R
e
f
i
n
a
m
i
e
n
t
o
Estadísticasy reportes
Modelo relacionalSGBD
Almacenes de Datos + OLAP
Minería dedatos
Modelos, reglas,patrones
1970 1980 1990 2000
Almacén de Datos
“Simplemente es un almacén de datos único, completoy consistente, obtenido de una variedad de fuentes ypuesto a disposición de los usuarios terminales de talmanera que ellos puedan entenderlo y usarlo en uncontexto empresarial”.
Barry Devlin (1997)
Almacén de Datos
Es una fuente de datos de la empresa que puede serconsultada.
• No debe ser organizada con ayuda del modeloentidad/relación• Es frecuentemente modificada, a partir de datoscorrectos.
Ralph Kimball (1998)
Almacén de datos
“Un almacén de datos es una colección de datos•orientados a temas,• integrados,•no volátiles y• variables en el tiempo,
organizados para soportar necesidades empresariales”.
W. H. Inmon (1992)
Metodología Hefesto
• La construcción e implementación de un almacén dedatos puede adaptarse muy bien a cualquier ciclo devida de desarrollo de software.
• No se recomienda utilizar metodologías con largasfases de captura de requisitos y de análisis.
• Fases de desarrollo y de despliegue relativamentecortas.
Metodología SQLBI
Avalada por Microsoft y orientada totalmente a susherramientas: Microsoft SQL Server, Microsoft SQLServer Analysis Services y su oferta más completa eneste campo que es Microsoft Suite for BusinessIntelligence.
Mercado de datos*
Es un repositorio de información, similar a un almacénde datos, pero orientado a un área o departamentoespecífico de la organización.
Ralph Kimball (1998)
*Data Mart - DM
Metodología Kimball
Ciclo de vida dimensional del negocio:• Centrarse en el negocio• Construir una infraestructura de información
adecuada• Realizar entregas en incrementos significativos• Ofrecer la solución completa
Metodología Kimball
Planificación
del proyecto
Definición
de
requisitos
del
negocio
Diseño ArquitecturaSelección de productos e
instalación
Modelo
Dimensional
Diseño
Físico
Diseño
de
procesos
ETL
Integración
y
despliegue
Mantenimiento
y crecimiento
Especificación
Aplicación Usuario
Desarrollo
Aplicación Usuario
Gestión del proyecto
Metodología Kimball
Planificación
del proyecto
Definición
de
requisitos
del
negocio
Diseño ArquitecturaSelección de productos e
instalación
Modelo
Dimensional
Diseño
Físico
Diseño
de
procesos
ETL
Integración
y
despliegue
Mantenimiento
y crecimiento
Especificación
Aplicación Usuario
Desarrollo
Aplicación Usuario
Gestión del proyecto
Planificacióndel proyecto
Metodología Kimball
Planificación
del proyecto
Definición
de
requisitos
del
negocio
Diseño ArquitecturaSelección de productos e
instalación
Modelo
Dimensional
Diseño
Físico
Diseño
de
procesos
ETL
Integración
y
despliegue
Mantenimiento
y crecimiento
Especificación
Aplicación Usuario
Desarrollo
Aplicación Usuario
Gestión del proyecto
Definiciónde
requisitosdel
negocio
Metodología Kimball
Planificación
del proyecto
Definición
de
requisitos
del
negocio
Diseño ArquitecturaSelección de productos e
instalación
Modelo
Dimensional
Diseño
Físico
Diseño
de
procesos
ETL
Integración
y
despliegue
Mantenimiento
y crecimiento
Especificación
Aplicación Usuario
Desarrollo
Aplicación Usuario
Gestión del proyecto
DiseñoArquitectura
técnica
Metodología Kimball
Planificación
del proyecto
Definición
de
requisitos
del
negocio
Diseño ArquitecturaSelección de productos e
instalación
Modelo
Dimensional
Diseño
Físico
Diseño
de
procesos
ETL
Integración
y
despliegue
Mantenimiento
y crecimiento
Especificación
Aplicación Usuario
Desarrollo
Aplicación Usuario
Gestión del proyecto
Selección de productos e instalación
Metodología Kimball
Planificación
del proyecto
Definición
de
requisitos
del
negocio
Diseño ArquitecturaSelección de productos e
instalación
Modelo
Dimensional
Diseño
Físico
Diseño
de
procesos
ETL
Integración
y
despliegue
Mantenimiento
y crecimiento
Especificación
Aplicación Usuario
Desarrollo
Aplicación Usuario
Gestión del proyecto
ModeloDimensional
Metodología Kimball
Planificación
del proyecto
Definición
de
requisitos
del
negocio
Diseño ArquitecturaSelección de productos e
instalación
Modelo
Dimensional
Diseño
Físico
Diseño
de
procesos
ETL
Integración
y
despliegue
Mantenimiento
y crecimiento
Especificación
Aplicación Usuario
Desarrollo
Aplicación Usuario
Gestión del proyecto
DiseñoFísico
Metodología Kimball
Planificación
del proyecto
Definición
de
requisitos
del
negocio
Diseño ArquitecturaSelección de productos e
instalación
Modelo
Dimensional
Diseño
Físico
Diseño
de
procesos
ETL
Integración
y
despliegue
Mantenimiento
y crecimiento
Especificación
Aplicación Usuario
Desarrollo
Aplicación Usuario
Gestión del proyecto
Diseño de procesos
ETL
Metodología Kimball
Planificación
del proyecto
Definición
de
requisitos
del
negocio
Diseño ArquitecturaSelección de productos e
instalación
Modelo
Dimensional
Diseño
Físico
Diseño
de
procesos
ETL
Integración
y
despliegue
Mantenimiento
y crecimiento
Especificación
Aplicación Usuario
Desarrollo
Aplicación Usuario
Gestión del proyecto
EspecificaciónAplicación
Usuario
Metodología Kimball
Planificación
del proyecto
Definición
de
requisitos
del
negocio
Diseño ArquitecturaSelección de productos e
instalación
Modelo
Dimensional
Diseño
Físico
Diseño
de
procesos
ETL
Integración
y
despliegue
Mantenimiento
y crecimiento
Especificación
Aplicación Usuario
Desarrollo
Aplicación Usuario
Gestión del proyecto
DesarrolloAplicación
Usuario
Metodología Kimball
Planificación
del proyecto
Definición
de
requisitos
del
negocio
Diseño ArquitecturaSelección de productos e
instalación
Modelo
Dimensional
Diseño
Físico
Diseño
de
procesos
ETL
Integración
y
despliegue
Mantenimiento
y crecimiento
Especificación
Aplicación Usuario
Desarrollo
Aplicación Usuario
Gestión del proyecto
Integracióny
despliegue
Metodología Kimball
Planificación
del proyecto
Definición
de
requisitos
del
negocio
Diseño ArquitecturaSelección de productos e
instalación
Modelo
Dimensional
Diseño
Físico
Diseño
de
procesos
ETL
Integración
y
despliegue
Mantenimiento
y crecimiento
Especificación
Aplicación Usuario
Desarrollo
Aplicación Usuario
Gestión del proyecto
Mantenimientoy crecimiento
Metodología Kimball
Planificación
del proyecto
Definición
de
requisitos
del
negocio
Diseño ArquitecturaSelección de productos e
instalación
Modelo
Dimensional
Diseño
Físico
Diseño
de
procesos
ETL
Integración
y
despliegue
Mantenimiento
y crecimiento
Especificación
Aplicación Usuario
Desarrollo
Aplicación Usuario
Gestión del proyectoGestión del proyecto
Metodología Kimball
Planificación
del proyecto
Definición
de
requisitos
del
negocio
Diseño ArquitecturaSelección de productos e
instalación
Modelo
Dimensional
Diseño
Físico
Diseño
de
procesos
ETL
Integración
y
despliegue
Mantenimiento
y crecimiento
Especificación
Aplicación Usuario
Desarrollo
Aplicación Usuario
Gestión del proyecto
Arquitectura de un Almacén de Datos
OLTP
Datos antiguos
Fuentes externas
Datos de oficina
ReportesInformes
OLAP
Mineríade datos
Almacén
Datos
Metadatos
ETL
Herramientas
Oracle:
• Oracle OLAP
• JOLAP
• OWB
Plataforma integrada de datawarehousing y businessintelligence que contienefuncionalidad ETL, OLAP y datamining en la base de datos.Oracle cambia el planteamientotradicional ofreciendo una basede datos integrada relacional-multidimensional.
Herramientas
Oracle:
• Oracle OLAP
• JOLAP
• OWB
Hyperion, IBM, Oracle ySun Microsystems se unenpara crear una nuevaplataforma independienteque permita la creación,almacenamiento, acceso ymanejo de datos ymetadatos en servidoresOLAP.
Herramientas
Oracle:
• Oracle OLAP
• JOLAP
• OWB
Oracle Warehouse Builder es elproducto tradicional de Oraclepara la creación del esquema delDW, definición de jerarquías ymedidas, mapeo de las fuentesde información, ejecución ymantenimiento de las actividadesde ETL y herramientas paramejorar la calidad de lainformación.
Herramientas
Microsoft :
• SSAS
• SSIS
• SSRS
• MDX
• SQL Server
Ofrece funciones de OLAP yminería de datos paraaplicaciones de Inteligencia deNegocio. Permite diseñar,crear y administrarestructurasmultidimensionales yvisualizar modelos de mineríade datos.
Herramientas
Microsoft :
• SSAS
• SSIS
• SSRS
• MDX
• SQL Server
Es una plataforma paracrear soluciones deintegración de datos de altorendimiento, incluidos lospaquetes de extracción,transformación y carga (ETL)para el almacenamiento dedatos.
Herramientas
Microsoft :
• SSAS
• SSIS
• SSRS
• MDX
• SQL Server
Dispone de una gama completade herramientas y servicios listospara usar, para crear,implementar y administrarinformes para la organización,así como de características deprogramación que permitiránextender y personalizar lafuncionalidad de los informes.
Herramientas
Microsoft :
• SSAS
• SSIS
• SSRS
• MDX
• SQL Server
MultiDimensionaleXpressions o expresionesmultidimensionales es unlenguaje de consulta parabases de datosmultidimensionales.
Herramientas
Microsoft :
• SSAS
• SSIS
• SSRS
• MDX
• SQL Server
Es una plataforma global debase de datos que ofreceadministración de datosempresariales conherramientas integradas deinteligencia de negocios.
Herramientas
Hadoop (BigData):
•Hive™
•HiveQL
Apache Hadoop es unframework de software quesoporta aplicacionesdistribuidas bajo una licencialibre. Permite a lasaplicaciones trabajar conmiles de nodos y petabytesde datos.
Herramientas
Hadoop (BigData):
•Hive™
•HiveQL
Permite la creación de undatawarehouse sobre tecnologíaHadoop, mediante elalmacenamiento de grandescantidades de datos y su análisis através de una interfaz SQL. Hive escompatible con diversasherramientas de generación deinformes e inteligencia de negociocomo Pentaho.
Herramientas
Hadoop (BigData):
•Hive™
•HiveQL
Es la interfaz SQL que ofreceHive para ser capaz demanejar la informaciónalmacenada por Hadoop.
Herramientas
Pentaho:• Es una suite de herramientas de inteligencia de
negocio, con licencia de software libre, para lagestión y toma de decisiones empresariales.•Permite realizar análisis multidimensional,
presentación de informes, minería de datos,tableros de control, así como el montaje decuadros de mandos.
Herramientas
Pentaho Analysis Services:
Su nombre de desarrollo es Mondrian. Es un servidorOLAP (procesamiento analítico en línea) escrito enJava. Es compatible con MDX (expresionesmultidimensionales) y el lenguaje de consulta XMLpara el análisis (XMLA).
Herramientas
Pentaho Reporting:
Es la herramienta con la cual el usuario es capaz decrear informes usando datos de fuentes externas.Estos informes son generados en XML y pueden serexportados a diversos tipo de archivos finales, comopuede ser PDF, HTML o documentos de texto.
Herramientas
Pentaho DashBoard:
Se utiliza para crear cuadros de mando en la interfazfinal de la herramienta web (Pentaho BI Server). Estoscuadros de mando podrán realizar funciones deconsulta y análisis de los datos.
Herramientas
Pentaho Data Mining:
Se emplea para extraer información implícita en losdatos. Desarrollado con el motor de minería de datosWeka. Permite extraer patrones, clusterizar, clasificaro extraer reglas de asociación de los datos.
Herramientas
Pentaho Data Integration:
Es la herramienta que proporciona mediante unainterfaz de usuario sencilla e intuitiva la posibilidad demanipulación de los datos desde una fuente externa eindependiente a la herramienta. Permite implementarlos procesos de extracción, transformación y carga dedatos.
Orientación del Estudio Independiente
Dividir el aula en 4 equipos para desarrollar el Seminario #1 de laasignatura “Principales tendencias y arquitecturas de almacenesde datos. Componentes y estándares de las tecnologías dealmacenes de datos”.
Temas:
1- Tendencias actuales en el desarrollo de almacenes de datos.
2- Arquitecturas para el diseño de almacenes de datos.
3- Componentes de las tecnologías de almacenes de datos.
4- Estándares existentes para soluciones de almacenes de datos.