gest ión de calidad de datos

55
1 UAS Carlos López Vázquez Gestión de Calidad de Datos Carlos López [email protected] Universitario Autónomo del Sur - 2005 Universitario Autónomo del Sur - 2005 Estrategias para Mejorar Viene de: Introducción Continúa con: Política de Calidad de Datos

Upload: sunila

Post on 08-Jan-2016

38 views

Category:

Documents


5 download

DESCRIPTION

Gest ión de Calidad de Datos. Estrategias para Mejorar. Carlos López [email protected]. Viene de : Introducción. Continúa con : Política de Calidad de Datos. Universitario Autónomo del Sur - 2005. Tópicos a considerar. Introducción Algunas definiciones Estrategias - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Gest ión de Calidad de Datos

1

UA

S C

arlo

s L

ópez

Váz

quez

Gestión de Calidad de Datos

Carlos Ló[email protected]

Universitario Autónomo del Sur - 2005Universitario Autónomo del Sur - 2005

Estrategias para Mejorar

Viene de:

Introducción

Continúa con:

Política de Calidad de Datos

Page 2: Gest ión de Calidad de Datos

2

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Algunas definiciones Estrategias Qué datos mejorar Caso de una única BD Caso del DW

Page 3: Gest ión de Calidad de Datos

3

UA

S C

arlo

s L

ópez

Váz

quez

Una tarea siempre titánica...

Volumen de datos tamaño empresa Tendencia es a manejar más datos

» DW» BDOO » Herramientas de última generación» Intranet/Internet

Se requieren planes...

Page 4: Gest ión de Calidad de Datos

4

UA

S C

arlo

s L

ópez

Váz

quez

==

=D

efin

e có

mo

==

=>

pro

ced

er e

n e

se c

aso

<==Solicita recursos==

<=Info

rma s

obre

problem

as ob

serv

ados

==Definen qué datos serán mejorados=>

Plan de Calidad de Datos (PCD)

Infraestructura administrativa

Administración del PCD

Planes operacionales

Objetivos claros para el negocio

Administración del PCD

Infraestructura administrativa

Planes operacionales

Objetivos claros para el negocio

Page 5: Gest ión de Calidad de Datos

5

UA

S C

arlo

s L

ópez

Váz

quez

Algunas definiciones...

Calidad Precisión ¿Correctitud? ¿Exactitud?

Quality Precision Accuracy

El idioma español tiene limitaciones en este aspecto...

Page 6: Gest ión de Calidad de Datos

6

UA

S C

arlo

s L

ópez

Váz

quez

Una definición operativa...

Def.: “...Calidad(A) > Calidad(B) si...”– intrínsecamente subjetiva– asociada a las necesidades– dos clientes podrían disentir– eso si el cliente “sabe lo que quiere”...

Page 7: Gest ión de Calidad de Datos

7

UA

S C

arlo

s L

ópez

Váz

quez

Ejemplo de las dificultades...

MINMAX: Cal(A)=5.0;Cal(B)=0.5 A<B

StdDev: Cal(A)=2.04;Cal(B)=0.0 A<B

RMSE: Cal(A)=5.0;Cal(B)=1.22 A<B

Page 8: Gest ión de Calidad de Datos

8

UA

S C

arlo

s L

ópez

Váz

quez

Una definición operativa (2) ...

– dos clientes podrían disentir

Hay cosas que todos quieren o esperan:

relevancia correctitud

poder “ver” acceso simple

seguridad privacidad

Page 9: Gest ión de Calidad de Datos

9

UA

S C

arlo

s L

ópez

Váz

quez

Son dimensiones diferentes...

En Calidad de Datos se distinguen cuatro: Modelo de Datos (ej. relevancia) Valores mismos (ej. correctitud) Presentación (ej. poder “ver”) Tecnológicos (ej. acceso simple)

El curso trata sobre la segunda dimensión

Page 10: Gest ión de Calidad de Datos

10

UA

S C

arlo

s L

ópez

Váz

quez

Para los valores mismos...

...también se distinguen cuatro dimensiones: Correctitud Vigencia Completitud Consistencia

Page 11: Gest ión de Calidad de Datos

11

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (1)

<E,A,V1>

<E,A,V2>

<E,A,V3>

...

<E,A,V2>

<E,A,V>

Ej. <EMPLEADO,AÑO_NACIMIENTO,VALOR>

E=“1745”,E.AÑO_NACIMIENTO=”1960”

Page 12: Gest ión de Calidad de Datos

12

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (2)

Quizá lo mejor que pueda lograrse es...

<E,A,[VMAX,VMIN]>

Ej. < FECHA,TEMPERATURA_AMBIENTE, VALOR>

FECHA=“18071825.120000”,FECHA.TEMP=”19.60”

Un caso con dos problemas:

•No existe “verdadero”

•No existió nunca

Page 13: Gest ión de Calidad de Datos

13

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (3)

Las combinaciones formalmente posibles no necesariamente son válidas

Ej. EMPLEADO=“9999”

EMPLEADO.NOMBRE=“Jorge Batlle Ibáñez”

EMPLEADO.AÑO_NACIMIENTO=“1925”

EMPLEADO.CARGO=“Desconocido”

¡ Simplemente no es empleado!

Page 14: Gest ión de Calidad de Datos

14

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (4)

<E,A,”Juguetería/Bazar”>

<E,A,”JUGUETERIA/BAZAR”>

<E,A,”Jugueteria/Bazar”>

...

<E,A,”Jugueteria / Bazar”>

¡Hay varios valores “correctos”!

Page 15: Gest ión de Calidad de Datos

15

UA

S C

arlo

s L

ópez

Váz

quez

Correctitud (5)

En resumen:

• No siempre existe un “verdadero valor”

• Aún existiendo, puede ser inaccesible

• Métricas específicas al problema

• Métricas problemáticas

Page 16: Gest ión de Calidad de Datos

16

UA

S C

arlo

s L

ópez

Váz

quez

Para los valores mismos...

...también se distinguen cuatro dimensiones: Correctitud Vigencia Completitud Consistencia

Page 17: Gest ión de Calidad de Datos

17

UA

S C

arlo

s L

ópez

Váz

quez

Vigencia (1)

ESTALLOVIENDO.NOW=TRUE

LUN MAR MIE JUE

Es algo que depende del tiempo...

Page 18: Gest ión de Calidad de Datos

18

UA

S C

arlo

s L

ópez

Váz

quez

Vigencia (2)

Datos permanentes– Fecha de nacimiento– Tipo de sangre– Lugar de nacimiento País de nacimiento!

Datos dinámicos|– Cambian ocasionalmente

» Nombre y/o apellido (ej.: USA)

» Dirección

– Cambian regularmente» Salario|

Page 19: Gest ión de Calidad de Datos

19

UA

S C

arlo

s L

ópez

Váz

quez

Para los valores mismos...

...también se distinguen cuatro dimensiones: Correctitud Vigencia Completitud Consistencia

Page 20: Gest ión de Calidad de Datos

20

UA

S C

arlo

s L

ópez

Váz

quez

Cuatro posibilidades– El empleado no tiene teléfono ==>OK– El empleado tiene teléfono, pero se ignora el

número==>INC– El empleado tiene un número que no figura en

la guía ==>OK– Se ignora si el empleado tiene teléfono ==>OK

Completitud (1)

EMPLEADO.HOMEPHONE=“Null”

Veamos un poco más de detalle

Page 21: Gest ión de Calidad de Datos

21

UA

S C

arlo

s L

ópez

Váz

quez

Completitud (2)

El “Null” debería tener colores...» Valor desconocido de un atributo aplicable (el

registro es incompleto)

» Indicador de atributo no aplicable (el registro es completo)

» Atributo de aplicabilidad desconocida

» Valor especial de un atributo (el registro es completo)

Difícil de implementar...

Page 22: Gest ión de Calidad de Datos

22

UA

S C

arlo

s L

ópez

Váz

quez

Completitud (3)

Dos problemas:Completitud de registros en la base– Completitud de la base

Ej.: Lista de Empleados Activos Ej.: Diccionario de neologismos

Page 23: Gest ión de Calidad de Datos

23

UA

S C

arlo

s L

ópez

Váz

quez

Para los valores mismos...

...también se distinguen cuatro dimensiones: Correctitud Vigencia Completitud Consistencia

Page 24: Gest ión de Calidad de Datos

24

UA

S C

arlo

s L

ópez

Váz

quez

Consistencia (1)

Dos o más cosas no son incompatibles Dos o más datos pueden ser correctos a la vez Un par de casos típicos

– Redundancia– Consistencia interna

Page 25: Gest ión de Calidad de Datos

25

UA

S C

arlo

s L

ópez

Váz

quez

Consistencia (2)

Redundancia– Varias copias de lo mismo– Actualización independiente– Mantenimiento separado

Empleado.Dirección=“Aconcagua 1234”

Empleado.Dirección=“Rancagua 1234”

Empleado.Dirección=“Aconcagua 2134”

Page 26: Gest ión de Calidad de Datos

26

UA

S C

arlo

s L

ópez

Váz

quez

Consistencia (3)

Consistencia interna– Existen reglas a cumplir

» explícitas

» implícitas

Empleado.Dirección=“Aconcagua 1234”

Empleado.CP=“11600”

Page 27: Gest ión de Calidad de Datos

27

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Algunas definiciones Estrategias Qué datos mejorar Caso de una única BD Caso del DW

Page 28: Gest ión de Calidad de Datos

28

UA

S C

arlo

s L

ópez

Váz

quez

Tres niveles, tres generaciones

Detección + corrección

Diseño de procesos

Mejora de procesos

Page 29: Gest ión de Calidad de Datos

29

UA

S C

arlo

s L

ópez

Váz

quez

Detección + corrección

Tácticas corrientes:– Laissez fair – Comparar:

» datos vs. realidad

» con otra base

» con reglas del negocio

Page 30: Gest ión de Calidad de Datos

30

UA

S C

arlo

s L

ópez

Váz

quez

Comparar datos con realidad...

Viable para pocos datos Caro y lento Útil para evaluar niveles de calidad

mediante muestreo Inviable para datos muy dinámicos

Page 31: Gest ión de Calidad de Datos

31

UA

S C

arlo

s L

ópez

Váz

quez

Comparar datos con otra base...

Trabajo de laboratorio (la realidad no entra) Hipótesis implícitas

» Existe una base, independiente, y redundante

» No tiene demasiados errores

La comparación puede no ser simple Es un método seductor...

Page 32: Gest ión de Calidad de Datos

32

UA

S C

arlo

s L

ópez

Váz

quez

...con reglas del negocio... (1)

Se expresan como Data Edits... Un único campo:

– “el valor debe ser uno de {0,1,2...9}” Múltiples campos:

– “Ciudad y País deben coordinarse” Relaciones probabilísticas:

– “Hijos=4 y Edad=15 es improbable” Si fallan, se revisan los casos anómalos

Page 33: Gest ión de Calidad de Datos

33

UA

S C

arlo

s L

ópez

Váz

quez

...con reglas del negocio... (2)

A Favor: Revelan muchas inconsistencias No requiere una segunda base

En contra: Difíciles de hallar/explicitar Requieren “expertos” Pueden cambiar con el tiempo Se aplican una vez, o son permanentes

Page 34: Gest ión de Calidad de Datos

34

UA

S C

arlo

s L

ópez

Váz

quez

...con reglas del negocio... (3)

Ej.: Caso del Censo (López, JISS 1997)

Escaneado+interpretación automática Sólo datos categóricos Digitar dos veces, o sólo lo erróneo

Reglas derivadas de los datos ==>¡No hay experto!

Resultado de la simulación:

Page 35: Gest ión de Calidad de Datos

35

UA

S C

arlo

s L

ópez

Váz

quez

0 2 4 6 8 10 12 14 16 18 200

10

20

30

40

50

60

70

80

90

100Overall results vs. effort level

3% of the surveys initially contaminatedwith 2 errors each; Marginal 0.10%

% of controlled data

% o

f err

ors

foun

d

Bes

t po

ssib

le o

pera

tion

line

Expected duplicate performance locus

...con reglas del negocio... (4)

Page 36: Gest ión de Calidad de Datos

36

UA

S C

arlo

s L

ópez

Váz

quez

Tres niveles, tres generaciones

Detección + corrección

Mejora de procesos

Diseño de procesos

Page 37: Gest ión de Calidad de Datos

37

UA

S C

arlo

s L

ópez

Váz

quez

Mejora de procesos

¿Y la prevención? Ej.: 1000 datos/día, 20 campos, 2% errores

==>¡400 errores/día!

Page 38: Gest ión de Calidad de Datos

38

UA

S C

arlo

s L

ópez

Váz

quez

Un ejemplo...

VENTAS

ÓRDENES

DESPACHO

FACTURACIÓN

Page 39: Gest ión de Calidad de Datos

39

UA

S C

arlo

s L

ópez

Váz

quez

Prevención...

Uso extenso de reglas del negocio Quizá pequeños cambios

» Ej.: habilitar/inhibir edición

Corrección temprana Seguimiento Más barato que corrección Única alternativa si “llueven datos”

Page 40: Gest ión de Calidad de Datos

40

UA

S C

arlo

s L

ópez

Váz

quez

Tres niveles, tres generaciones

Detección + corrección

Mejora de procesos

Diseño de procesos

Page 41: Gest ión de Calidad de Datos

41

UA

S C

arlo

s L

ópez

Váz

quez

Diseño del proceso

“a prueba de errores” Exitosa en manufactura

Ideas: Eliminar re-digitación Incorporar reglas Reasignar propiedades

No hay muchos ejemplos con datos

Page 42: Gest ión de Calidad de Datos

42

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Algunas definiciones Estrategias Qué datos mejorar Caso de una única BD Caso del DW

Page 43: Gest ión de Calidad de Datos

43

UA

S C

arlo

s L

ópez

Váz

quez

¿Qué datos mejorar... primero?

Tan importante como la estrategia Hay que lograr éxitos al principio Buscar consensos Considerar varios criterios:

– estrategia global de la empresa

– relevancia para problemas ya conocidos

– distancia ser<==>deber ser

– impacto económico

Page 44: Gest ión de Calidad de Datos

44

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Algunas definiciones Estrategias Qué datos mejorar Caso de una única BD Caso del DW

Page 45: Gest ión de Calidad de Datos

45

UA

S C

arlo

s L

ópez

Váz

quez

Una única base

1) Definir estrategiaEstrategiaProblemas conocidosNivel de errorImpacto ($)

Datos prioritarios

Cambios lentos

Cambios rápidos

Caso intermedio

Page 46: Gest ión de Calidad de Datos

46

UA

S C

arlo

s L

ópez

Váz

quez

Hay casos mezclados...

BD de Clientes: Cliente.FechaNacimiento

Cliente.Domicilio

Cliente.Saldo

¿Razones?– acotar el trabajo de limpieza– asegurar un retorno

Page 47: Gest ión de Calidad de Datos

47

UA

S C

arlo

s L

ópez

Váz

quez

Tópicos a considerar

Introducción Algunas definiciones Estrategias Qué datos mejorar Caso de una única BD Caso del DW

Page 48: Gest ión de Calidad de Datos

48

UA

S C

arlo

s L

ópez

Váz

quez

Muchas bases...

A) Bases que no se solapan

Page 49: Gest ión de Calidad de Datos

49

UA

S C

arlo

s L

ópez

Váz

quez

Muchas bases...

B) Bases cliente-servidor

Page 50: Gest ión de Calidad de Datos

50

UA

S C

arlo

s L

ópez

Váz

quez

Muchas bases...

C) Bases solapadas pero independientes

Page 51: Gest ión de Calidad de Datos

51

UA

S C

arlo

s L

ópez

Váz

quez

Más de una base...

Page 52: Gest ión de Calidad de Datos

52

UA

S C

arlo

s L

ópez

Váz

quez

Vale la pena mencionar...

Problemas con datos, no con SGBD... Duplicación por razones técnicas

– Backup– Redundancia quizá requerida

==> ¡Usar Master-Slave! DW explícitamente crea redundancia DW recibe datos de varias fuentes

Page 53: Gest ión de Calidad de Datos

53

UA

S C

arlo

s L

ópez

Váz

quez

El caso del DW

Identificar los datos requeridos Identificar la(s) fuente(s) Estimar niveles de error y caracterizar

velocidad de cambios

Tres pasos:

Page 54: Gest ión de Calidad de Datos

54

UA

S C

arlo

s L

ópez

Váz

quez

Resumen

Plan operacional:– Detección+corrección– Manejo de procesos– Diseño de procesos

Pueden convivir Datos críticos Controlar redundancia

Page 55: Gest ión de Calidad de Datos

55

UA

S C

arlo

s L

ópez

Váz

quez

Gestión de Calidad de Datos

Carlos Ló[email protected]

Universitario Autónomo del Sur - 2005Universitario Autónomo del Sur - 2005

Estrategias para Mejorar

Viene de:

Introducción

Continúa con:

Política de Calidad de Datos