bases de datos avanzadas - universidad veracruzana · 2017. 5. 25. · primero tira de todos los...

44
Facultad de Estadística e Informática BASES DE DATOS AVANZADAS

Upload: others

Post on 10-Mar-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

BASES DE DATOS AVANZADAS

Page 2: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Clase 26

Page 3: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Agenda

➢Integración de datosoSistemas de mediación

oData Warehousing

Page 4: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Integración de datosCÓMPUTO EN LA NUBE

Page 5: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

¿Qué es?

“La integración de datos la podemos definir como el proceso de combinar datos que residen en diferentes fuentes y permitirle al usuario final tener una vista unificada de todos sus datos”

Page 6: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

¿Qué es?

“La integración de datos la podemos definir como el proceso de combinar datos que residen en diferentes fuentes y permitirle al usuario final tener una vista unificada de todos sus datos”

Page 7: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

¿Qué es?

➢ Brindan al usuario la percepción de consultar una única fuente de datos.

➢ El usuario no necesita preocuparse por:▪ Conocer las fuentes disponibles.▪ Localizar y acceder a las fuentes de datos.▪ Consultar cada fuente.▪ Integrar las respuestas de cada fuente.

Page 8: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

¿Qué es?

Sistemas de

Integración

Heterogéneas

Autónomas

Poco estructuradas

Distribuidas

Page 9: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Heterogeneidad en cuanto a:

➢ Nivel de estructuración.➢ Modelo de datos.➢ Plataforma de software.➢ Convenciones de sintaxis.➢ Convenciones semánticas.➢ Diferencias de granularidad.

Page 10: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Clasificación

I. Virtuales: Los datos se mantienen en las fuentes y el sistema es un intermediario.

II. Materializados: Los datos se copian a un gran almacén central. Extract, Transform, Load (ETL)

Page 11: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Clasificación. Materializados

Extract, Transform, Load (ETL)Es un proceso en el que se extrae la información de las fuentes de datos, se transforman para que sean homogéneos y luego se cargan en una fuente destino. La idea es ofrecer una fuente de datos única que contiene toda la información contenida en las distintas fuentes de datos .

Page 12: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Clasificación. Materializados

Ventajas:•La información está físicamente en un repositorio único•Las consultas se resuelven de forma más rápidaDesventajas:•La información no suele estar actualizada: hay que ejecutar el proceso ETL para sincronizar los datos en caso de que las fuentes se actualicen

Page 13: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Clasificación. Virtuales

Definición: Ofrece una vista virtual que responde las consultas de los usuarios . La integración de los datos se hace en tiempo real, consultando cada una de las fuentes de datos cada vez que un usuario hace una consulta, es decir, ofrecer una vista en tiempo real de los datos.

Fuente de datos 1

Fuente de datos 2

Fuente de datos 3

Consulta 1

Consulta 1.1 Consulta 1.2 Consulta 1.3

Page 14: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Clasificación. Virtuales

Ventajas:•Ofrece una vista actualizada de los datos en tiempo real•Las fuentes trabajan de forma independiente (No hay que estar actualizando de forma continua)Desventajas:• Es más difícil resolver las consultas para dividirlas en las distintas fuentes y hacer el mapeo entre las fuentes y la vista de datos (Supone más tiempo para resolver las consultas)

Page 15: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Ejemplos

➢ Sistemas de mediación.➢ Sistemas de Data Warehousing.➢ Portales Web.➢ Etcétera.

Page 16: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Sistemas de Mediación

Mediador

VeracruzCiudad de

MéxicoYucatán Zacatecas

1

2 2 2 23 3 3 3

4

Alumnos con mejor promedio en el

sistema educativo nacional

…..

Integra la información virtualmente

Page 17: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

“Un conjunto de datos orientado a temas, integrado, no volátil, variante en el tiempo, como soporte en la toma de decisiones de dirección” W.H. Inmon.

Page 18: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

“Un conjunto de tecnologías de soporte a la toma de decisión, cuyo objeto es que quien trabaja con los conocimientos (ejecutivo, director, analista) pueda tomar decisiones de manera más rápida y eficaz.”

Page 19: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing. Características.

Están diseñados para realizar eficientemente la extracción, procesamiento y presentación para el análisis y la toma de decisiones.

No están diseñadas para soportar transacciones.

Page 20: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing. Características.

✓ Almacén de datos integrados provenientes de diversas fuentes, procesados para su almacenamiento en un modelo multidimensional.

✓ Suelen mantener series de tiempo y análisis de tendencia, necesitando datos históricos.

Page 21: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing. Características.

✓ Su contenido cambia con menos frecuencia que las bases de datos tradicionales. Su actualización es periódica.

✓ En las bases de datos la transacción es el agente de cambio, un almacén de datos se actualiza de acuerdo a una política de actualización analizada cuidadosamente.

Page 22: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing. Conceptos relacionados.

OLAP On-line analytical processing/Procesamiento analítico on-line.Describe el análisis de datos complejos del almacén de datos.Es lo más rápido para ejecutar sentencias SELECT.

Page 23: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

DSS Decision support systems/Sistemas de soporte a la toma de decisiones o EIS Executive informationsystems/Sistemas de información ejecutiva.

Page 24: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

OLTP On-line transaction processing/Procesamiento de transacciones on-line, son soportadas por las bases de datos tradicionales. Incluyen inserciones, actualizaciones, supresiones y consultas.

Page 25: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data WarehousingProceso completo de almacenamiento utilizando almacenes de datos

DATOS

METADATOS

Otras entradas de datos

Bases de datosALMACÉN DE DATOS

Limpieza Reformateo

OLAP

DESSIEIS

MINERÍA DEDATOSActualizaciones / Nuevos datos

E T L

Page 26: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Usando este método, todos los datos de las diferentes bases de datos que tiene la intención de integrar son extraídos, transformados y cargados. Eso significa que el data warehouseprimero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos los datos a un formato común para que un conjunto de datos sea compatible con otro. A continuación, carga estos nuevos datos en su propia base de datos. Cuando se envía la consulta, el data warehouse localiza los datos, los recupera y los presenta en una visión integrada.

Data WarehousingProceso completo de almacenamiento utilizando almacenes de datos

Page 27: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing. Ejemplos.

Ejemplos de Data Warehouse: MS SQL SERVER Business Inteligence es la solución para construir data warehouse del manejador de base de datos SQL SERVER. EXCEL Business Inteligence La hoja de cálculo EXCEL de Microsoft permite la construcción de cubos y almacenes de datos para realizar análisis de información por medio de escenarios. Oracle Data Warehousing es la solución de Oracle para la creación de data warehouse.

Page 28: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing. Modelado de datos

Modelos multidimensionales Cubos de datos (Hipercubos si tienen más de tres dimensiones).Considerando que una base de datos relacional puede ser pensada como de dos dimensiones, una base de datos multidimensional considera cada atributo de datos (tal como producto, región geográfica de ventas, y período de tiempo) como una “dimensión" separada.

Page 29: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

Matriz de dos dimensiones

Page 30: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

Matriz de tres dimensiones

El cubo puede ser rotado (cambiar su orientación dimensional) para mostrar una orientación diferente de los ejes, con la técnica llamada pivotaje.

Page 31: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

Los modelos multidimensionales pueden crear vistas jerárquicas,

conocidas como visualización roll-up y

drill-down.

Page 32: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

Visualización roll-up.Mueve hacia arriba la jerarquía, agrupando en unidades más grandes.

P. ej. La vista de productos individuales hasta una amplia lista de categorías de productos.

Page 33: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

Visualización drill-down. Operación contraria a roll-up.

Proporcionando una vista más fina.

P. ej. La descomposición de ventas regionales en subregiones y los tipos de productos en detalle de productos.

Detalle

Detalle

Detalle

Page 34: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

El modelo de almacenamiento multidimensional implica dos tipos de tablas:

La tabla de dimensión. Tuplas de atributos de la

dimensión.

La tabla de hechos. Agrupación de tuplas. Una tabla

por cada hecho registrado. Cada hecho contiene una(s) variable(s) que asocia con punteros a la tabla de dimensión.

Page 35: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

Tabla de dimensiónTabla de hechos

Page 36: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

Esquemas multidimensionales.

De estrella. Una tabla de hechos con una única tabla por cada dimensión.De copo de nieve. Variación de la anterior. Las tablas dimensionales están organizadas en una jerarquía para normalizarlas.

Page 37: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

De estrella

Page 38: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

De copo de nieve

Page 39: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

Constelación de hechos. Conjunto de tablas de hechos que comparten algunas tablas de dimensión

Page 40: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

Técnicas de indexación.Se emplean técnicas de indexación para obtener mayor rendimiento en el acceso.

Indexación bitmap. Construye un vector de bits por cada valor del dominio (columna) a indexar.

Page 41: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

Técnicas de indexación. Indexación bitmapPor ejemplo:Inventario de 100,000 coches.Indexación bitmap para el tipo de coche.Existen cuatro tipos: económico, compacto, gama media, de lujo Cuatro vectores de bits.

Page 42: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

Data Warehousing

Técnicas de indexación. Indexación de concatenación.Empleado en el esquema de estrella.Relaciona los valores de una dimensión con las filas de la tabla de hechos.

Es empleada frecuentemente para mantener las relaciones establecidas entre los valores de una clave principal y una clave externa.

Page 43: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Gracias por su atención

Page 44: BASES DE DATOS AVANZADAS - Universidad Veracruzana · 2017. 5. 25. · primero tira de todos los datos de las distintas fuentes de datos. Entonces, el data warehouse convierte todos

Facultad de Estadística e Informática

ReferenciasFundamentos de Sistemas de Bases de Datos - 5ta Ed. - Elmasri & Navathe

Oracle Data Integrato, s.f., Extraído de: http://www.oracle.com/ocom/groups/public/@otn/documents/webcontent/317498_esa.pdf

Universidad de Sevilla. (2013). Integración de datos. Extraído de: https://www.lsi.us.es/docencia/get.php?id=6707