mds y dqs ¿quÉ es eso? - wordpress.com · lo nuevo del bi en sql server 2012 miguel angel...

40
MDS Y DQS ¿QUÉ ES ESO? Lo nuevo del BI en SQL Server 2012 Chapter Leader SQL PASS México Miguel Angel Granados Troncoso

Upload: others

Post on 18-Mar-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

MDS Y DQS ¿QUÉ ES ESO?Lo nuevo del BI en SQL Server 2012

• Chapter Leader SQL PASS MéxicoMiguel Angel Granados Troncoso

MIGUEL ANGEL GRANADOS TRONCOSO

• Miguel es un profesional con más de 15 de experiencia,él es graduado de la Universidad AutónomaMetropolitana.

• A lo largo de su carrera ha trabajado en diferentes tiposde industrias que van desde finanzas hastaautomatización pasando por las áreas de Salud,Biodiversidad y la enseñanza.

• Ha desempeñado puestos de: Desarrollador, Líder deProyectos, Arquitecto, DBA, Profesor y consultor de IT.

• Actualmente labora como mentor de SolidQ.• En la parte de comunidades lidera el capítulo SQL PASS

Ciudad de México.• Su especialidad es el área de Inteligencia de Negocios.

AGENDA

Escenarios Definiciones, Procesos y EstándaresMaster Data Services Data Quality Services

Crece BajoDemanda

CumplimientoOrganizacional

ProductividadOptimizada

11Datos HaciaCualquier Parte

SolucionesRápidas

Analísis & DW Escalable

8Datos Consistentesy Creíbles

Tranquilidad y Confianza

Auto Servicio BI Administrado

4

ExploraciónRápida de Datos

3DesempeñoSuper Veloz

29s Requeridos& Protección

1

5 76

12109

DATOS CONSISTENTES Y CREÍBLES

% de datos maestros completos & precisos

Hrs que pasan los empleados cadasemana buscando información

Mejor 20% Desempeño 1.2hrs

50% DesempeñoMedio 2.8hrs

91%

68%

Debajo 50%Bajo 30% Desempeño 6hrs

Las empresas con datos precisos se desempeñan mejor¹

¹Fuente: “Turning Pain into Productivity with Master Data Management,” Aberdeen Group, Feb 2011

POR QUÉ DEBO TENER MDM? SI PUEDO…

- Incompleta y costosa

- No considera la interacciónhumana

- Cómo se obtuvieron los datos?

- Tenemos los datos quenecesitamos?

- Es escalable?

LA IMPORTANCIA DE LA CALIDAD DE DATOS

Los problemas de Calidad de Datos le cuestan a lasempresas en E.U. más de $600 billones al año.

Data Warehousing Institute (TDWI)

Los costos asociados con datos de mala calidadincluyen:

• Exceso de inventario• Costos altos en la cadena de abastecimiento• Mayores costos de marketing directo• Facturación• Y otros más…

PROBLEMAS DE MALA CALIDADCalidad de datos

Problema Ejemplo

Formato ¿Los valores tienen un formato estándarconsistente?

Formatos de números telefónicos:xxxxxxxxxx, (xxx) xxx-xxxx1.xxx.xxx.xxxx, etc.

Etandarización ¿Se entienden y están definidos de manera consistente los valores de los datos?

‘Genero’ = M, F, U

‘Genero’ = 0, 1, 2

Consistencia ¿Los valores tienen el mismo significado? Cómo se presentan las ganancias?Dólares, Euros, ambos?

Integridad ¿Se encuentrán presentes los datosnecesarios?

20% de los apellidos esta vacío, el50% de los códigos postales son 99999

Precisión ¿Los datos representan con exactitud la realidad o provienen de una fuente verificable?

Un proveedor aparece como ‘Activo’ perosalio del negociohace seis años

Validación ¿Los valores de los datos se encuentran en rangos aceptables?

Los valores de salarios deben de estarentre 60,000-120,000

Duplicados Los datos aparecen varias veces John Ryan y Jack Ryan aparecen en el sistema – ¿son la misma persona?

AGENDA

Escenarios Definiciones, Procesos y EstándaresMaster Data Services Data Quality Services

QUÉ ES UN DATO MAESTRO?• Son los datos clave que forman parte de los activos

más importantes de la empresa.

FUENTES DE DATOS MAESTROS

• Metadatos• Datos Transaccionales• Datos Jerárquicos• Datos semiestructurados• Datos No estructurados

IDENTIFICANDO DATOS MAESTROS

• La Cardinalidad• La Complejidad• La Volatilidad• Mantenimiento

histórico de los datos• Reutilización

GOBERNABILIDAD DE DATOS

Gobernabilidad TI

Gobernabilidad de datos.

Administración de datos.

Calidad de datos.

Corrección de datos

Estratégico

Táctico

ADMINISTRACIÓN DE LOS DATOS

Contenido

• Detalles acerca del tema

• Identificación de atributos

• Nombres de los temas

• Definiciones• Representación de

los valores• Formatos Estándar

Relacionamiento

• Parte de identidad (atributos similares)

• Agrupación (Reglas/Lógica)

• Jerarquía (Padre/Hijo)

• Reglas de Relacionamiento/Escenarios

Acceso

• Políticas de acceso y compartición (internas/externas)

• Provisión de datos• Metadatos (uso,

linaje, etcétera)• Normativas/Seguri

dad• Fuentes de datos

externas

Cambios Administrativos

• Calidad de los datos y Aceptación

• Medición y monitoreo

• Detección y corrección de errores

• Control de cambios centralizados

• Jurisdicción sobre los datos

Procesamiento

•Coincidencia e identificación

•Procesamiento CRUD (Created,Read,Updated,Deleted)

•Corrección de datos•Depurar los cambios de datos

•Reglas de persistencia•Integración al flujo de trabajo

Estandarización de datos

Administración de datos

Administración de los datos maestros

CALIDAD DE LOS DATOS

• La calidad de los datos consiste en verificar si los mismos son aptos para su uso previsto en las operaciones, la toma de decisiones y la planeación.

Información

Monitorear

Planeación

Analizar

INICIATIVAS DE CONTROL DE CALIDAD

• Conocer el contexto de los datos.• Perfilar los datos que se requieren.• Crear y mantener los estándares de calidad.• Dar seguimiento a la calidad de los datos.

CÓMO ADMINISTRAR LA CALIDAD DE LOS DATOS?La gestión de la calidad de datos implica el establecimiento e implementación de:

• Roles• Responsabilidades• Políticas• Procedimientos• Tecnología

PersonasPersonas TecnologíaTecnología ProcesosProcesosPersonas Tecnología Procesos

ESTÁNDARES DE CALIDAD

ISO 8000

• Los principios de la calidad de datos

• Las características de los datos que determinan su calidad

• Los procesos que aseguran la calidad de los datos

ISO 22745

• Define los diccionarios técnicos abiertos

• Aplicación de los diccionarios a los datos maestros

International Association for Information and Data Qualityhttp://www.iaidq.org/

AGENDA

Escenarios Definiciones, Procesos y EstándaresMaster Data Services Data Quality Services

SERVICIOS DE DATOS MAESTROS• Centralizar la gestión de los activos de información.• Crear una sola versión autorizada de los datos.• Mejorar la calidad, consistencia e integridad de los

datos.• Crear reportes y análisis más precisos.• Promover el cumplimiento de la normatividad.

Versionamiento

ValidaciónCreación de reglas de negocio

para garantizar la exactitudModelado

Entidades, Atributos, Jerarquias

Habilita la Integración & el Intercambio

CAPACIDADES DE MDS

MDS

Seguridad basada en roles y Anotación de Transacciones

Master Data Stewardship

Externa(CRM, ..)Excel DWH

Carga datos por lotesusando tablas de

pasoConsume datos a través de vistas

Registra cambios a través de APIs

Excel Add-In Web UI Coincidencia de datos

Workflow / Notificaciones

COMPONENTES DEL MDS• Base de datos Master Data Services

• Contiene los objetos que usa Master Data Services

• Aplicación Web de Master Data Services• Permite a los administradores crear y administrar los

objetos de Master Data Services, como las entidades y los atributos.

• Permite a los responsables (data stewards) administrarlos datos maestros.

• Master Data Services Configuration Manager• Permite a los administradores crear la base de datos para

Master Data Services y la aplicación Web.

COMPONENTES DE UNA SOLUCIÓN MDS• Modelo (Model)• Entidades (Entities)• Atributos (Attributes)• Miembros (Members)• Jerarquías (Hierarchies)• Colecciones (Collections)• Reglas de negocio (Business rules)• Vistas de Suscripción (Subscription views)• Versiones (Versions)

CÓMO UTILIZAR MDS?

• Decida qué datos desea administrar• Construya un modelo• Cargue los datos• Cree reglas• Establesca flujos de trabajo y Notificaciones• Defina la seguridad• Cree procesos de refresco de datos• Comparta los datos

ARQUITECTURA MDS

INTEGRACIÓN DE MDS CON DQS

• Realiza la coincidencia de datos• Integrado dentro del MDS Excel Add-In• Poderoso en escenarios de:

• Prevención de duplicación de datos (dedupe)• La agrupación de información se solicita para las

optimizaciones• Utiliza el conocimiento existente creado por los

expertos de calidad de los datos en el DQS• Permite añadir conocimiento/ adaptar el

conocimiento existente en el MDS Excel Add-In

AGENDA

Escenarios Definiciones, Procesos y Estándares Master Data Services Data Quality Services

Data Quality Services (DQS) es una solución de calidad de los datos basada en el conocimiento, que permite a los profesionales de TI y a los data stewards mejorar fácilmente la calidad de sus datos.

CONCEPTOS DE UNA SOLUCIÓN DQS

Dirigidas por el ConocimientoBasado en una Base de Conocimientos de Calidad de Datos (Data Quality Knowledge Base - DQKB) que es reutilizable para mejorar la Calidad de Datos

Descubrimiento de ConocimientoAdquiere conocimiento adicional a través de datos muestra y realimentación del usuario.

SemánticaLos datos son mapeados en Dominios, que capturan su Semántica

Abierto y ExtensibleSoporta el uso de Conocimiento generado por el usuario y Proveedores

de datos de referencia de terceros.

Fácil de usarExperiencia de usuario diseñada para incrementar la productividad

QUÉ ES UNA BASE DE CONOCIMIENTO?• Repositorio de conocimiento acerca de los datos:

• Los Dominios definen valores y reglas para cada campo• Las políticas de Coincidencia definen reglas para identificar registros

duplicados.

QUÉ ES UN DOMINIO?

• Los Dominios son específicos para un campo de datos.

• Los Dominios contienen las reglas para los datos

• Los Dominios pueden ser individuales o compuestos

Dominio

Valores

Datos de referencia

Reglas y Relaciones

KB

Nombre

ApellidosNombre

• En Azure Marketplaceresiden proveedores especialistas en limpieza de datos

Da de alta una cuenta

Suscríbete al servicio de referencia

Dirige tu dominio hacia el servicio de referencia

QUÉ ES UN SERVICIO DE REFERENCIADE DATOS?

DirecciónDirección

REQUISITOS PARA UNA SOLUCIÓN DQ

LimpiezaLimpieza

MatchingProfiling

MonitoreoMonitoreo

Dar seguimiento y monitorear el estado de lasactividades de calidad de datos y la calidad de los datos

Analizar las fuentesde datos; obtenerinformación acercade la calidad de los datos, paraidentificar los problemas de calidad.

Analizar las fuentesde datos; obtenerinformación acercade la calidad de los datos, paraidentificar los problemas de calidad.

Modificar, eliminar o enriquecer los datosincompletos e incorrectos. Estoincluye correcciónestandarización y enriquecimiento.

Modificar, eliminar o enriquecer los datosincompletos e incorrectos. Estoincluye correcciónestandarización y enriquecimiento.

Identificar, enlazar y quitar duplicadosdentro o a través de conjuntos de datos.

Identificar, enlazar y quitar duplicadosdentro o a través de conjuntos de datos.

Profiling Integrado

ProgresoProgreso NotificacionesNotificacionesEstátusEstátus

PROCESOS PARA DQS

Construir

Usar

Proyectos DQ

Administrar Conocimiento

Base deConocimientos

DatosEmpresariales

DatosEmpresariales

Datos deReferenciaDatos de

Referencia

Base de ConocimientoBase de Conocimiento

LIMPIEZA DE DATOS - USANDO SSIS

Políticas de Coincidencia

Definición de Referencias

Data Flow SSIS

Fuente Componente de DQS Cleansing

Paquete SSIS

Destino

ServidorDQS

Valores/Reglas

ARQUITECTURA DQSClientes DQS

Descubre y Administra

Conocimiento

Descubre y Administra

Conocimiento

Servicios DQS en la Nube

DataMarket – Datos de RefernciaCategorizados

DataMarket – Datos de RefernciaCategorizados

Cliente DQS

Servidor DQS

API Referencia de Datos(Navega, Ordena, Valida…)API Referencia de Datos

(Navega, Ordena, Valida…)API Referencia de Datos

(Navega, Obten, Actualiza…)API Referencia de Datos

(Navega, Obten, Actualiza…)

Almacén de Conocimientos

DQS EngineDescubrimiento

de Conocimiento

Descubrimientode

Conocimiento

Data Profiling Exploración

Data Profiling Exploración CoincidenciaCoincidencia

LimpiezaLimpieza

Datos de ReferenciaDatos de

Referencia

Serviciosde

Referenciade Datos

Serviciosde

Referenciade Datos

DQS Store - KB, DominiosDQS Store - KB, Dominios

© 2010 Microsoft Corporation. Microsoft Materials - Confidential. All rights reserved.

ProyectosInteractivos DQ

ProyectosInteractivos DQ

AdministraciónAdministración

Futuros Clientes: Excel, SharePoint,MDS…

Futuros Clientes: Excel, SharePoint,MDS…

ProyectosDQS

ProyectosDQS

KBs Publicados

KBs Publicados

Componente DQS Cleansing para SSISComponente DQS

Cleansing para SSIS

Almacén de proyectos DQ

Otros Clientes DQS

Datos de Referenciade 3er

PREGUNTAS

Mi Bloghttp://www.granadostroncoso.com.mx

SolidQ Mentors blogshttp://blogs.solidq.com/Pages/Home.aspx

SolidQ Journalhttp://www.solidq.com/sqj/Pages/Home.aspx

Microsofthttp://www.microsoft.com/sqlserver/en/us/solutions-technologies/SQL-Server-2012-business-intelligence.aspx