mds y dqs ¿quÉ es eso? - wordpress.com · lo nuevo del bi en sql server 2012 miguel angel...
TRANSCRIPT
MDS Y DQS ¿QUÉ ES ESO?Lo nuevo del BI en SQL Server 2012
• Chapter Leader SQL PASS MéxicoMiguel Angel Granados Troncoso
MIGUEL ANGEL GRANADOS TRONCOSO
• Miguel es un profesional con más de 15 de experiencia,él es graduado de la Universidad AutónomaMetropolitana.
• A lo largo de su carrera ha trabajado en diferentes tiposde industrias que van desde finanzas hastaautomatización pasando por las áreas de Salud,Biodiversidad y la enseñanza.
• Ha desempeñado puestos de: Desarrollador, Líder deProyectos, Arquitecto, DBA, Profesor y consultor de IT.
• Actualmente labora como mentor de SolidQ.• En la parte de comunidades lidera el capítulo SQL PASS
Ciudad de México.• Su especialidad es el área de Inteligencia de Negocios.
Crece BajoDemanda
CumplimientoOrganizacional
ProductividadOptimizada
11Datos HaciaCualquier Parte
SolucionesRápidas
Analísis & DW Escalable
8Datos Consistentesy Creíbles
Tranquilidad y Confianza
Auto Servicio BI Administrado
4
ExploraciónRápida de Datos
3DesempeñoSuper Veloz
29s Requeridos& Protección
1
5 76
12109
DATOS CONSISTENTES Y CREÍBLES
% de datos maestros completos & precisos
Hrs que pasan los empleados cadasemana buscando información
Mejor 20% Desempeño 1.2hrs
50% DesempeñoMedio 2.8hrs
91%
68%
Debajo 50%Bajo 30% Desempeño 6hrs
Las empresas con datos precisos se desempeñan mejor¹
¹Fuente: “Turning Pain into Productivity with Master Data Management,” Aberdeen Group, Feb 2011
POR QUÉ DEBO TENER MDM? SI PUEDO…
- Incompleta y costosa
- No considera la interacciónhumana
- Cómo se obtuvieron los datos?
- Tenemos los datos quenecesitamos?
- Es escalable?
LA IMPORTANCIA DE LA CALIDAD DE DATOS
Los problemas de Calidad de Datos le cuestan a lasempresas en E.U. más de $600 billones al año.
Data Warehousing Institute (TDWI)
Los costos asociados con datos de mala calidadincluyen:
• Exceso de inventario• Costos altos en la cadena de abastecimiento• Mayores costos de marketing directo• Facturación• Y otros más…
PROBLEMAS DE MALA CALIDADCalidad de datos
Problema Ejemplo
Formato ¿Los valores tienen un formato estándarconsistente?
Formatos de números telefónicos:xxxxxxxxxx, (xxx) xxx-xxxx1.xxx.xxx.xxxx, etc.
Etandarización ¿Se entienden y están definidos de manera consistente los valores de los datos?
‘Genero’ = M, F, U
‘Genero’ = 0, 1, 2
Consistencia ¿Los valores tienen el mismo significado? Cómo se presentan las ganancias?Dólares, Euros, ambos?
Integridad ¿Se encuentrán presentes los datosnecesarios?
20% de los apellidos esta vacío, el50% de los códigos postales son 99999
Precisión ¿Los datos representan con exactitud la realidad o provienen de una fuente verificable?
Un proveedor aparece como ‘Activo’ perosalio del negociohace seis años
Validación ¿Los valores de los datos se encuentran en rangos aceptables?
Los valores de salarios deben de estarentre 60,000-120,000
Duplicados Los datos aparecen varias veces John Ryan y Jack Ryan aparecen en el sistema – ¿son la misma persona?
QUÉ ES UN DATO MAESTRO?• Son los datos clave que forman parte de los activos
más importantes de la empresa.
FUENTES DE DATOS MAESTROS
• Metadatos• Datos Transaccionales• Datos Jerárquicos• Datos semiestructurados• Datos No estructurados
IDENTIFICANDO DATOS MAESTROS
• La Cardinalidad• La Complejidad• La Volatilidad• Mantenimiento
histórico de los datos• Reutilización
GOBERNABILIDAD DE DATOS
Gobernabilidad TI
Gobernabilidad de datos.
Administración de datos.
Calidad de datos.
Corrección de datos
Estratégico
Táctico
ADMINISTRACIÓN DE LOS DATOS
Contenido
• Detalles acerca del tema
• Identificación de atributos
• Nombres de los temas
• Definiciones• Representación de
los valores• Formatos Estándar
Relacionamiento
• Parte de identidad (atributos similares)
• Agrupación (Reglas/Lógica)
• Jerarquía (Padre/Hijo)
• Reglas de Relacionamiento/Escenarios
Acceso
• Políticas de acceso y compartición (internas/externas)
• Provisión de datos• Metadatos (uso,
linaje, etcétera)• Normativas/Seguri
dad• Fuentes de datos
externas
Cambios Administrativos
• Calidad de los datos y Aceptación
• Medición y monitoreo
• Detección y corrección de errores
• Control de cambios centralizados
• Jurisdicción sobre los datos
Procesamiento
•Coincidencia e identificación
•Procesamiento CRUD (Created,Read,Updated,Deleted)
•Corrección de datos•Depurar los cambios de datos
•Reglas de persistencia•Integración al flujo de trabajo
Estandarización de datos
Administración de datos
Administración de los datos maestros
CALIDAD DE LOS DATOS
• La calidad de los datos consiste en verificar si los mismos son aptos para su uso previsto en las operaciones, la toma de decisiones y la planeación.
Información
Monitorear
Planeación
Analizar
INICIATIVAS DE CONTROL DE CALIDAD
• Conocer el contexto de los datos.• Perfilar los datos que se requieren.• Crear y mantener los estándares de calidad.• Dar seguimiento a la calidad de los datos.
CÓMO ADMINISTRAR LA CALIDAD DE LOS DATOS?La gestión de la calidad de datos implica el establecimiento e implementación de:
• Roles• Responsabilidades• Políticas• Procedimientos• Tecnología
PersonasPersonas TecnologíaTecnología ProcesosProcesosPersonas Tecnología Procesos
ESTÁNDARES DE CALIDAD
ISO 8000
• Los principios de la calidad de datos
• Las características de los datos que determinan su calidad
• Los procesos que aseguran la calidad de los datos
ISO 22745
• Define los diccionarios técnicos abiertos
• Aplicación de los diccionarios a los datos maestros
International Association for Information and Data Qualityhttp://www.iaidq.org/
SERVICIOS DE DATOS MAESTROS• Centralizar la gestión de los activos de información.• Crear una sola versión autorizada de los datos.• Mejorar la calidad, consistencia e integridad de los
datos.• Crear reportes y análisis más precisos.• Promover el cumplimiento de la normatividad.
Versionamiento
ValidaciónCreación de reglas de negocio
para garantizar la exactitudModelado
Entidades, Atributos, Jerarquias
Habilita la Integración & el Intercambio
CAPACIDADES DE MDS
MDS
Seguridad basada en roles y Anotación de Transacciones
Master Data Stewardship
Externa(CRM, ..)Excel DWH
Carga datos por lotesusando tablas de
pasoConsume datos a través de vistas
Registra cambios a través de APIs
Excel Add-In Web UI Coincidencia de datos
Workflow / Notificaciones
COMPONENTES DEL MDS• Base de datos Master Data Services
• Contiene los objetos que usa Master Data Services
• Aplicación Web de Master Data Services• Permite a los administradores crear y administrar los
objetos de Master Data Services, como las entidades y los atributos.
• Permite a los responsables (data stewards) administrarlos datos maestros.
• Master Data Services Configuration Manager• Permite a los administradores crear la base de datos para
Master Data Services y la aplicación Web.
COMPONENTES DE UNA SOLUCIÓN MDS• Modelo (Model)• Entidades (Entities)• Atributos (Attributes)• Miembros (Members)• Jerarquías (Hierarchies)• Colecciones (Collections)• Reglas de negocio (Business rules)• Vistas de Suscripción (Subscription views)• Versiones (Versions)
CÓMO UTILIZAR MDS?
• Decida qué datos desea administrar• Construya un modelo• Cargue los datos• Cree reglas• Establesca flujos de trabajo y Notificaciones• Defina la seguridad• Cree procesos de refresco de datos• Comparta los datos
INTEGRACIÓN DE MDS CON DQS
• Realiza la coincidencia de datos• Integrado dentro del MDS Excel Add-In• Poderoso en escenarios de:
• Prevención de duplicación de datos (dedupe)• La agrupación de información se solicita para las
optimizaciones• Utiliza el conocimiento existente creado por los
expertos de calidad de los datos en el DQS• Permite añadir conocimiento/ adaptar el
conocimiento existente en el MDS Excel Add-In
Data Quality Services (DQS) es una solución de calidad de los datos basada en el conocimiento, que permite a los profesionales de TI y a los data stewards mejorar fácilmente la calidad de sus datos.
CONCEPTOS DE UNA SOLUCIÓN DQS
Dirigidas por el ConocimientoBasado en una Base de Conocimientos de Calidad de Datos (Data Quality Knowledge Base - DQKB) que es reutilizable para mejorar la Calidad de Datos
Descubrimiento de ConocimientoAdquiere conocimiento adicional a través de datos muestra y realimentación del usuario.
SemánticaLos datos son mapeados en Dominios, que capturan su Semántica
Abierto y ExtensibleSoporta el uso de Conocimiento generado por el usuario y Proveedores
de datos de referencia de terceros.
Fácil de usarExperiencia de usuario diseñada para incrementar la productividad
QUÉ ES UNA BASE DE CONOCIMIENTO?• Repositorio de conocimiento acerca de los datos:
• Los Dominios definen valores y reglas para cada campo• Las políticas de Coincidencia definen reglas para identificar registros
duplicados.
QUÉ ES UN DOMINIO?
• Los Dominios son específicos para un campo de datos.
• Los Dominios contienen las reglas para los datos
• Los Dominios pueden ser individuales o compuestos
Dominio
Valores
Datos de referencia
Reglas y Relaciones
KB
Nombre
ApellidosNombre
• En Azure Marketplaceresiden proveedores especialistas en limpieza de datos
Da de alta una cuenta
Suscríbete al servicio de referencia
Dirige tu dominio hacia el servicio de referencia
QUÉ ES UN SERVICIO DE REFERENCIADE DATOS?
DirecciónDirección
REQUISITOS PARA UNA SOLUCIÓN DQ
LimpiezaLimpieza
MatchingProfiling
MonitoreoMonitoreo
Dar seguimiento y monitorear el estado de lasactividades de calidad de datos y la calidad de los datos
Analizar las fuentesde datos; obtenerinformación acercade la calidad de los datos, paraidentificar los problemas de calidad.
Analizar las fuentesde datos; obtenerinformación acercade la calidad de los datos, paraidentificar los problemas de calidad.
Modificar, eliminar o enriquecer los datosincompletos e incorrectos. Estoincluye correcciónestandarización y enriquecimiento.
Modificar, eliminar o enriquecer los datosincompletos e incorrectos. Estoincluye correcciónestandarización y enriquecimiento.
Identificar, enlazar y quitar duplicadosdentro o a través de conjuntos de datos.
Identificar, enlazar y quitar duplicadosdentro o a través de conjuntos de datos.
Profiling Integrado
ProgresoProgreso NotificacionesNotificacionesEstátusEstátus
PROCESOS PARA DQS
Construir
Usar
Proyectos DQ
Administrar Conocimiento
Base deConocimientos
DatosEmpresariales
DatosEmpresariales
Datos deReferenciaDatos de
Referencia
Base de ConocimientoBase de Conocimiento
LIMPIEZA DE DATOS - USANDO SSIS
Políticas de Coincidencia
Definición de Referencias
Data Flow SSIS
Fuente Componente de DQS Cleansing
Paquete SSIS
Destino
ServidorDQS
Valores/Reglas
ARQUITECTURA DQSClientes DQS
Descubre y Administra
Conocimiento
Descubre y Administra
Conocimiento
Servicios DQS en la Nube
DataMarket – Datos de RefernciaCategorizados
DataMarket – Datos de RefernciaCategorizados
Cliente DQS
Servidor DQS
API Referencia de Datos(Navega, Ordena, Valida…)API Referencia de Datos
(Navega, Ordena, Valida…)API Referencia de Datos
(Navega, Obten, Actualiza…)API Referencia de Datos
(Navega, Obten, Actualiza…)
Almacén de Conocimientos
DQS EngineDescubrimiento
de Conocimiento
Descubrimientode
Conocimiento
Data Profiling Exploración
Data Profiling Exploración CoincidenciaCoincidencia
LimpiezaLimpieza
Datos de ReferenciaDatos de
Referencia
Serviciosde
Referenciade Datos
Serviciosde
Referenciade Datos
DQS Store - KB, DominiosDQS Store - KB, Dominios
© 2010 Microsoft Corporation. Microsoft Materials - Confidential. All rights reserved.
ProyectosInteractivos DQ
ProyectosInteractivos DQ
AdministraciónAdministración
Futuros Clientes: Excel, SharePoint,MDS…
Futuros Clientes: Excel, SharePoint,MDS…
ProyectosDQS
ProyectosDQS
KBs Publicados
KBs Publicados
Componente DQS Cleansing para SSISComponente DQS
Cleansing para SSIS
Almacén de proyectos DQ
Otros Clientes DQS
Datos de Referenciade 3er