resolviendo problemas de calidad de datos con data quality services

Post on 30-Jul-2015

107 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Resolviendo problemas de Calidad de Datos con

Data Quality Services

17 de Junio 2015 (12 pm GMT -5)Mary Arcia

Resumen:El aseguramiento de la calidad de datos es el proceso que más demanda tiempo, gente y dinero dentro de nuestros proyectos de BI. Entendiendo el efecto clave en el proceso de la toma de decisiones que genera el” business intelligence”, no puede tratarse la calidad de los datos como un proceso tardío. En esta sesión vamos a conocer cómo tras una metodología de calidad de datos, los servicios de Data Quality Services ahorrar tiempo y garantizar datos sanos y correctos para nuestros sistemas.

Está por comenzar: Próximos Eventos

Moderador: José L. Rivera

Minería de Datos - Machine Learning - HD Insight

24 de JunioFreddy Angarita

Manténgase conectado a nosotros!

Visítenos en http://globalspanish.sqlpass.org

/SpanishPASSVC

lnkd.in/dtYBzev

/user/SpanishPASSVC

/SpanishPASSVC

3

4

Oportunidades de Voluntariado

PASS no pudiera existir sin personas apasionadas y dedicadas de todas partes del

mundo que dan de su tiempo como voluntarios.

Se un voluntario ahora!!

Para identificar oportunidades locales visita volunteer.sqlpass.org

Recuerda actualizar tu perfil en las secciones de “MyVolunteering” y MyPASS para mas

detalles.

Sigan Participando!

• Obtén tu membresía gratuita en sqlpass.org

• Linked In: http://www.sqlpass.org/linkedin• Facebook: http://www.sqlpass.org/facebook• Twitter: @SQLPASS• PASS: http://www.sqlpass.org

Resolviendo problemas de Calidad de Datos con Data Quality Services

17 de Junio de 2015

Mary ArciaMCTS Microsoft SQL Server Especialista de BI/Grupo de Desarrollo GDSQL PASS Venezuela

Moderador: José L. Rivera

AGENDA

• QUÉ ES CALIDAD DE DATOS.• IMPORTANCIA DE LA CALIDAD DE DATOS EN NUESTRAS ORGANIZACIONES.• IMPACTO EN LOS PROYECTOS (Implementaciones de sistemas, Migraciones, Proyectos

de BI).

• DIMENSIONES Y MÉTRICAS DE CALIDAD DE LOS DATOS.• PROCESOS PARA EL ASEGURAMIENTO DE LA CALIDAD DEL DATO.• Ciclo de Vida de un proyecto sin calidad de datos• Ciclo de Vida de un proyecto con calidad de datos

• DATA QUALITY SERVICES• ARQUITECTURA DE DATA QUALITY SERVICES• PROYECTOS DE DATA QUALITY SERVICES• PREGUNTAS

QUÉ ES CALIDAD DE DATOS

ALGUNOS PROBLEMAS DE MALA CALIDAD….

• “Los datos de ventas no me cuadran”.• “Las direcciones están mal”.• “No hay manera de cuadrar la información”.• “La campañas de marketing no tienen una segmentación correcta”.• “El sistema está malo”.

• !Qué buena es la información…. ….cuándo y cómo la necesito!

IMPORTANCIA DE LA CALIDAD DE DATOS

o Imprescindible para tener una toma de decisiones correcta:• Información no correcta decisiones no correctas.• Debe basarse en la realidad.

o Pieza básica en la gestión de información corporativa: Aplicaciones CRM, ERP, BI realmente útiles.

o ROI inmediato:• Mejora de la rentabilidad por incremento de ingresos y disminución de costos.

o Impacto directo en el negocio:• Mejor control y rendimiento de las aplicaciones informáticas

IMPACTO DE LA MALA CALIDAD DE LOS DATOS

IMPACTO EN LOS PROYECTOS DE BI

o Datos accesibles, agregados y racionalizados para el consumo de BI.o Precisión y verificabilidad de los datos en los informes.o Incremento de la confianza en el datawarehouse:

• Mejores relaciones usuarios de BI y Equipo de IT • Directivos con decisiones más precisas

o Reconocimiento de nuevos patrones y tendenciaso Identificación de sobrecostes y ahorro de gastoso Reducción del Time To Market de los proyectos

DIMENSIONES Y MÉTRICAS DE LA CALIDAD DE LOS DATOS

Nombre Descripción Ejemplo

Formato Tenemos un formateo consistente en los estándares?

Nro de teléfono: (xxx)-xxx-xxxx,58+ xxx.xxx.xx.xx, xxx-xxxx

Estandarización Son los elementos de dato definidos y se comprenden sus valores?

Código de Género: M, F, U, 0, 1, 2

Consistencia Representan los valores lo mismo? Tienen el mismo significado?

Consumos representados en Bs, Pesos argentinos, pesos colombianos, dólares, etc

Completitud Se encuentra completa toda la data que necesitamos?

20% de los apellidos de los clientes están en blanco, 50% de las direcciones no tienen código postal

DIMENSIONES Y MÉTRICAS DE LA CALIDAD DE LOS DATOS

Nombre Descripción Ejemplo

Exactitud Representa la data la realidad exacta? Son las fuentes verificables?

Los clientes no se encuentran en las direcciones registradas. Los proveedores listados como activos no lo están desde hace 6 años

Validez Se encuentran los valores entre los rangos aceptables?

Los límites de crédito de los clientes no corresponden a su perfil

Duplicidad Los datos aparecen varias veces?

Los clientes Maria Alejandra Pérez y Marialejandra Pérez son lo mismo

PROCESOS PARA EL ASEGURAMIENTO DE LA CALIDAD DEL DATO

1. Descubrir

2. Perfilar

3. Limpiar

4. Match

5. Consolida

r

6. Monitoriza

r

Identificar y medir la calidad de los datos

Definir reglas y objetivos de la calidad de los datos

Diseñar los procesos de mejora de la calidad de los datos

Matcheo de información y estadísticas

Implementar los procesos de mejora de calidad

Monitorear la calidad de los datos vs los objetivos

CICLO DE VIDA DE UN PROYECTO SIN CALIDAD DE DATOS

Detectar

Orígenes

Pruebas de

Carga de

Datos

Desarrollo de

Informes

Pruebas y

cuadresUATAceptaci

ón Final

CICLO DE VIDA DE UN PROYECTO CON CALIDAD DE DATOS

Detectar

Orígenes

Análisis de

Perfilado de Datos

Procesos de

Carga

Enriquecimiento y

MatchingUATAceptaci

ón Final

Monitorear DQ

Pruebas y

cuadres

Desarrollo de

Informes

QUÉ ES DATA QUALITY SERVICES

Data Quality Services (DQS) es una solución basada en el conocimiento de la calidad de datos que permite a

los administradores de datos y profesionales de IT la mejora de la

calidad de sus datos fácilmente.

BENEFICIOS DE DATA QUALITY SERVICES

Conocimiento

Limpieza

Consolidación

Aporte de Valor

ARQUITECTURA DE DATA QUALITY SERVICES

CLIENTE

Data Quality Services Client

Componente Integration Services

SERVIDOR

DQS_MAIN

DQS_PROJECT

DQS_STAGING

ARQUITECTURA DE DATA QUALITY SERVICES

Dominios Reglas de matching

Dominios Compuesto

s

Bases de Conocimiento

Reglas y Relacione

sValores

Referencias Externas

Construyendo una Base de Conocimiento

ENTIDAD

Tarjetahabientes

Apellidos y Nombres

Nacionalidad Nro. Tarjeta Tipo Producto Limite de Crédito

Atributos

DQKB_Tarjetahabiente

Dominios

Tipo de Producto

Límite de Crédito

Nacionalidad

DEMO

CONSTRUYENDO UNA BASE DE CONOCIMIENTO

PROYECTOS DE DQS

o PROYECTOS DE CLEANSING

o PROYECTOS DE MATCHING

PROYECTOS DE DQSProyectos de Limpieza de Datos

Limpieza de Datos

Partiendo de la Base de Conocimiento

Información Extra

Sobre las decisiones que toma

Base de Conocimiento en la nube

Consumir datos

DEMO

PROYECTOS DE CLEANSING

PROYECTOS DE DATA QUALITY SERVICESProyectos de Matching

Creación de Reglas

Política de comportamiento del motor DQS

Matching

Lógica DifusaAgrega Metadatos

Exportación

Datos que quedan en el modelo

SQL Server, Excel, DQS

DEMO

PROYECTOS DE MATCHING

RECURSOS

o Data Quality Services - MSDN - Microsoft• https://msdn.microsoft.com/es-ve/library/ff877925.aspx

o SQL Server Data Quality Services - TechNet – Microsoft• https://technet.microsoft.com/es-es/sqlserver/hh780961.aspx

o Data Quality Services (DQS) - Site Home - MSDN Blogs• http://blogs.msdn.com/b/dqs/

o PASS Global Spanish Virtual Chapter• https://globalspanish.sqlpass.org/

PREGUNTAS

Minería de Datos - Machine Learning - HD Insight

24 de Junio (12 pm GMT -5)Freddy Angarita

Resúmen:Demostración del uso de tecnologías predictivas de Microsoft.

Próximo Evento

top related