“una introducción a la calidad de los datos y de la ... · • ejemplo: datos organizados según...

47
Ismael Caballero [email protected] Grupo Alarcos- Escuela Superior de Informática Universidad de Castilla La Mancha 10 de Mayo de 2010 “Una Introducción a la Calidad de los Datos y de la Información en Sistemas de Información”

Upload: others

Post on 21-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

Ismael Caballero

[email protected]

Grupo Alarcos- Escuela Superior de Informática

Universidad de Castilla La Mancha

10 de Mayo de 2010

“Una Introducción a la Calidad de los Datos y de la Información en Sistemas de

Información”

Page 2: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

2

1. Importancia de la Calidad de los Datos en las

Organizaciones.

2. Definiciones Básicas

3. Procesos técnicos relacionados con los datos.

4. Tipos de Datos

5. Tipos de Sistemas

6. Definición del Concepto de Calidad de Datos y de

Información (DIQ)

7. Dimensiones de Calidad de Datos .

8. Bibliografía y Referencias

Índice de Contenidos

Page 3: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

3

1. Importancia de la Calidad de los Datos en las

Organizaciones.

2. Definiciones Básicas

3. Procesos técnicos relacionados con los datos.

4. Tipos de Datos

5. Tipos de Sistemas

6. Definición del Concepto de Calidad de Datos y de

Información (DIQ)

7. Dimensiones de Calidad de Datos .

8. Bibliografía y Referencias

Índice de Contenidos

Page 4: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

4

Id Título Director Año Nro_

Remakes

AñoUltimo

Remake

1 Casablanca Weir 1942 3 1940

2 El Club de los Poetas Curtiz 1989 0 NULL

3 Vacaciones en Roma Wylder 1953 0 NULL

4 Sabrina NULL 1964 0 1985

(Ejemplo en Batini y Scannapieco, 2006))

No existe esta

película, sino

“El Club de los

Poetas

Muertos”

Curtiz es el director

de Casablanca y

Weir el de “El club

de los Poetas

Muertos”

Si el número de remakes es 0, no tiene

sentido que haya una fecha para el

último remake: o realmente se han

hecho remakes o no debería aparecer

una fecha

Un remake no puede

haberse hecho antes

que la primera

versión de la película

Falta el nombre del

Director: o no exite

(hecho imposible o

no se sabía)

¿Qué problemas de Calidad de Datos se observan en la tabla?

Page 5: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

5

Importancia de la Calidad de los Datos

• Situación Actual:

Los datos se han convertido en uno de los activos más

importantes de las organizaciones, ya que son clave en

la toma de decisiones estratégicas u operativas (Ballou y

Tayi, 1999; Bobrowski et al., 1999; Bovee et al., 2003;

Redman, 1996; Strong et al., 1997b).

Por eso se recopilan datos para ser más competitivos

(Eppler, 2001b; Gertz et al., 2004; Batini y Scannapieco,

2006).

Tal cantidad de datos puede llevar a una situación

caótica:

• Datos inútiles e innecesarios.

• Redundancia incontrolada de datos

• Gran cantidad de datos históricos caducados.

Page 6: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

6

• Consecuencias de esa posible Situación:

Los datos se convierten en fuentes de problemas (Strong et

al., 1997b):

• Datos no usados,

• Barreras en la accesibilidad de los datos,

• Dificultades en la utilización de los datos y de la información

Y estos problemas afectan negativamente al rendimiento

de los procesos de negocio de la organización (Levin et

al., 2007):

• A un nivel técnico: e.g. Implementación de almacenes de

datos.

• A un nivel organizacional:

– Pérdida de clientes al estar insatisfechos.

– Pérdidas financieras debido a desperdicios de recursos en

términos de tiempo y de dinero y a una baja o escasa

productividad.

– Trabajadores descontentos y desmotivados.

• A un nivel legal: Dependiendo de ciertas leyes, como la LOPD.

Importancia de la Calidad de los Datos (II)

Page 7: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

7

Importancia de la Calidad de los Datos (III)

• Solución:

Mejorar la calidad de los datos y de la información a

través de la gestión de la calidad de los datos y de la

información (Ballou y Tayi, 1996; Liu y Chi, 2002; Wang,

1998; Caballero et al. 2004) implementando las

correspondientes estrategias organizacionales.

Una de estas estrategias deben ser las actividades de

evaluación y mejora (Eppler, 2003) a nivel de productos de

datos y a nivel organizacional.

Page 8: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

8

1. Importancia de la Calidad de los Datos en las

Organizaciones.

2. Definiciones Básicas

3. Procesos técnicos relacionados con los datos.

4. Tipos de Datos

5. Tipos de Sistemas

6. Definición del Concepto de Calidad de Datos y de

Información (DIQ)

7. Dimensiones de Calidad de Datos .

8. Bibliografía y Referencias

Índice de Contenidos

Page 9: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

9

Definiciones Básicas

• Entidad:

Personas, cosas, lugares, conceptos, sucesos, reales o

abstractos, de interés para la semántica del problema, (De

Miguel y Piattini, 1999)

• Población:

Conjunto de entidades del mundo real

• Atributo:

Cualquier hecho observable de una entidad

• Dato:

Valor observado o medido para un determinado atributo

de una entidad recolectado del mundo real.

Page 10: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

10

Definiciones Básicas (II)

• Instancia:

Conjunto de todos los valores que toman los atributos de

una determinada entidad

Atributo2

Atributo3

Atributo1

Atributo6

Atributo4Atributo5

Valor2

Valor3

Valor1

VAlor6

Valor4Valor5

Instancia

Page 11: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

11

Definiciones Básicas (III)

• Base de Datos:

Colección de valores para un conjunto de atributos

elegidos de entidades del mundo real

Definición (De Miguel y Piattini, 1999)

• Colección o depósito de datos integrados, almacenados en

soporte secundario (no volátil) y con redundancia controlada.

• Los datos, que han de ser compartidos por diferentes

usuarios y aplicaciones, deben mantenerse independientes

de ellos, y

• su definición (estructura de la base de datos) única y

almacenada junto con los datos, se ha de apoyar en un

modelo de datos, el cual ha de permitir captar las

interrelaciones y las restricciones existentes en el mundo

real.

• Los procedimientos de actualización y recuperación,

comunes y bien determinados, facilitarán la seguridad del

conjunto de datos.

Page 12: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

12

Definiciones Básicas (IV)

Valor2

Valor3

Valor1

VAlor6

Valor4

Valor2

Valor3

Valor1

VAlor6

Valor4Valor5

Valor2

Valor3

Valor1

VAlor6

Valor4Valor5

Valor2

Valor3

Valor1

VAlor6

Valor4Valor5

Valor2

Valor3

Valor1

VAlor6

Valor4Valor5

Valor2

Valor3

Valor1

VAlor6

Valor4Valor5

Page 13: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

13

Definiciones Básicas (V)

• Modelo de Datos:

Conjunto de conceptos, reglas y convenciones que nos

permiten describir y manipular (consultar y actualizar) los

datos de un cierto mundo real que deseamos almacenar

en la base de datos

• Esquema del Modelo de Datos:

Gráfico que representa un Modelo de Datos, una

estructura de la base de datos.

• Sistema Gestor de Bases de Datos (SGBD):

Conjunto coordinado de programas, procedimientos,

lenguajes, ... que suministra a los distintos tipos de

usuarios los medios necesarios para describir y manipular

los datos almacenados en las bases de dato, garantizando

su seguridad.

Page 14: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

14

Definiciones Básicas (VI)

• Producto de Datos o de Información (PI) Producto obtenido tras un proceso de fabricación a partir de

datos almacenados en una base de datos y que pueden ser considerados como materias primas.

• Ejemplo: El resultado de una simple consulta select.

• Información Valor añadido del producto de datos obtenido por su

Interpretación. (English, 1999)

Datos útiles en un contexto (Eppler, 2001)

Conjunto de Datos proporcionados a través de un producto de datos que son útiles en un contexto.

• Usuario Cualquier persona o proceso que puede interactuar con una

base de datos a través de una interfaz (de texto, gráfica o de SOA) para desarrollar algunas funciones relacionadas con la misma base de datos o con su trabajo específico.

• Conocimiento Información útil en un contexto (English, 1999)

Page 15: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

15

Definiciones Básicas (VII)

• Calidad de Datos

Aquellas características que deben tener los datos como

materias primas para que, utilizando un proceso de

producción adecuado se pueda generar un producto de

información.

• Calidad de Información

Aquellas características que debería tener un Producto de

Información (PI) para que su utilización sea adecuada,

esto es que cumpla, con los requisitos de usuario

• Dimensiones de Calidad de datos

Son criterios que permiten juzgar la calidad de los datos

desde un determinado punto de vista. Se pueden entender

como las características del Software propuestas en ISO

9126.

Page 16: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

16

1. Importancia de la Calidad de los Datos en las

Organizaciones.

2. Definiciones Básicas

3. Procesos técnicos relacionados con los datos.

4. Tipos de Datos

5. Tipos de Sistemas

6. Definición del Concepto de Calidad de Datos y de

Información (DIQ)

7. Dimensiones de Calidad de Datos .

8. Bibliografía y Referencias

Índice de Contenidos

Page 17: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

17

Procesos Técnicos Relacionados con los Datos

• Procesos Técnicos Relacionados (Redman, 1996) Diseño e Implementación del Esquema de la Base de

datos

• Consiste en la definición de la estructura de un continente (oesquema) para los datos. Esta estructura puede estardistribuida en varias localizaciones para mejorar elrendimiento de la organización.

Recolección de Datos

• Es el hecho de captar valores de la realidad para losatributos de las entidades modeladas en la base de datos através de distintos mecanismos/herramientas comoformularios, encuestas,…

Almacenamiento de los Datos

• Consiste en guardar los valores captados en la fase derecolección en el continente definido anteriormente. Espreciso tener en cuenta que puede ser necesario repartir losvalores entre las distintas particiones del esquema realizadasdurante la distribución (integrar los datos)

Page 18: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

18

Procesos Técnicos Relacionados con los Datos (II)

Extracción de los Datos

• Consiste en la selección y recuperación de los valores

almacenados en el continente o base de datos. Al igual que

con el almacenamiento habría que tener en cuenta que los

datos pueden venir de distintas localizaciones o fuentes.

Teóricamente, el SGBD debería hacer este proceso de forma

transparente al usuario.

• La extracción de datos, no implica que se agoten..

Elaboración del Producto de Datos

• Siguiendo los Procesos de Negocio, esta fase consiste en

obtener un producto de datos a partir de los datos (materia

prima) que satisfaga las necesidades de un consumidor.

Entrega del Producto de Datos

• Es el proceso por el cual se hace llegar al destinatario del

producto de información dicho producto para que pueda

utilizarlo para desarrollar el trabajo para el que lo ha

solicitado.

Page 19: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

19

Procesos Técnicos Relacionados con los Datos (III)

Generación de Información

• Consiste en interpretar el producto de datos para poder

realizar un trabajo, típicamente tomar una decisión

relacionada con el ámbito de trabajo del usuario

Generación del Conocimiento (Organizacional).

• A partir de la información generada anteriormente, este

proceso consiste en establecer una serie de políticas que

puedan ser aplicadas en cualquiera de los procesos

anteriores para mejorar los existentes y evitar posibles

defectos.

Page 20: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

20

Relación Ontológica de los Conceptos Presentados

Sistema de

Información

Visión del Usuario del

Mundo real Inferida del

Sistema de Información

Visión del Usuario del

Mundo Real para

almacenar en el Sistema

Percepción del Mundo

Real capturada por el

Desarrollador

Mundo Real

Diseño de la Base de Datos

Recolección

Representación de la

semántica del Mundo Real

Almacenamiento

Posible Deficiencias

de los Datos

Extracción y Elaboración

del Producto de Información

Page 21: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

21

1. Importancia de la Calidad de los Datos en las

Organizaciones.

2. Definiciones Básicas

3. Procesos técnicos relacionados con los datos.

4. Tipos de Datos

5. Tipos de Sistemas

6. Definición del Concepto de Calidad de Datos y de

Información (DIQ)

7. Dimensiones de Calidad de Datos .

8. Bibliografía y Referencias

Índice de Contenidos

Page 22: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

22

Tipos de Datos

• Atendiendo a su estructuración:

Estructurados

• Siguen un esquema predefinido

• Ejemplo: Datos organizados según Modelo Relacional

Semiestructurados

• Los datos tienen una estructura flexible, e incluso carecer de

ella.

• Ejemplo: XML

No estructurados

• No siguen ningún criterio para ser estructurados.

• Ejemplo: ficheros de texto en lenguaje natural

Page 23: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

23

Tipos de Datos (II)

• Atendiendo a la naturaleza del producto (Batini yScannapieco, 2006): Ítems de Datos como materias primas.

• Son considerados las unidades más pequeñas de datos.

• Son utilizados para construir el resto de los componentes.

Ítems de Datos como componentes.• Son los datos utilizados para generar un producto de Información.

• Se obtienen como una consulta de recuperación select.

Ítems de Datos como productos de datos o información.• Son el resultado de un proceso de producción y provienen de uno o

varios Ítems de Datos como componentes.

• Atendiendo a su composición (granularidad) Datos Elementales

• Son datos gestionados en las organizaciones por procesosorganizacionales y representan a valores individuales del mundoreal.

Datos Agregados.• Son un conjunto de datos elementales obtenidos mediante una

determinada función de agregación

Page 24: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

24

Tipos de Datos (III)

• Otros tipos de datos

Datos Federados

• Son aquellos que vienen de fuentes de datos heterogéneas y necesitan de varias de ellas para ser integrados.

Datos Web

• Son recuperados de la web, y aunque no poseen un formato determinado constituyen uno de las principales fuentes de datos.

• Atendiendo a su aspecto temporal:

Datos Estables

• Datos que no van a cambiar a lo largo del tiempo, como publicaciones científicas, que se incrementarán, pero las ya existentes no variarán.

Datos poco cambiantes

• Datos que pueden sufrir algunas modificaciones. Por ejemplo algunos datos personales, como la dirección, el teléfono,…

Datos cambiantes frecuentemente.

• Datos de los que se espera que sufran cambios, como la información del tráfico, tasas de ventas, …

Page 25: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

25

Tipos de Datos (IV)

• Tipos de Datos objetos de Estudio en nuestro

contexto:

Datos Estructurados y Semiestructurados

Datos Elementales

Ítems de Datos como Materia Prima y Productos de Datos

Page 26: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

26

1. Importancia de la Calidad de los Datos en las

Organizaciones.

2. Definiciones Básicas

3. Procesos técnicos relacionados con los datos.

4. Tipos de Datos

5. Tipos de Sistemas

6. Definición del Concepto de Calidad de Datos y de

Información (DIQ)

7. Dimensiones de Calidad de Datos .

8. Bibliografía y Referencias

Índice de Contenidos

Page 27: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

27

Tipos de Sistemas de Información

• Los Sistemas de Información son el entorno dondese ejecutan los procesos técnicos de los datos.

• Criterios de clasificación: Distribución

• Estudia si los datos van a ser o no distribuidos entre distintaslocalizaciones

• Valores Posibles ={“Sí”, “No”}

Heterogeneidad

• Tiene en cuenta los diferentes tipos de semánticas y técnicasusados para la representación conceptual y lógica de losdatos.

• Valores Posibles ={“Sí”, “No”}

Autonomía

• Define el grado de jerarquía de los sistemas así como lasposibles reglas de coordinación entre ellos, estableciendoderechos y obligaciones.

• Valores Posibles ={“Totalmente”, “Semi”, “No”}

Page 28: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

28

Tipos de Sistemas De Información (II)

NO

SEMI TOTALMENTE

Heterogeneidad

Distribución

Autonomía

Sistemas

Distribuidos

Sistemas

Monolíticos

Sistemas

Data Warehouse

Sistemas

Colaborativos

Sistemas

Peer-to-Peer

Page 29: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

29

1. Importancia de la Calidad de los Datos en las

Organizaciones.

2. Definiciones Básicas

3. Procesos técnicos relacionados con los datos.

4. Tipos de Datos

5. Tipos de Sistemas

6. Definición del Concepto de Calidad de Datos y de

Información (DIQ)

7. Dimensiones de Calidad de Datos .

8. Bibliografía y Referencias

Índice de Contenidos

Page 30: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

30

Definición de Calidad de Datos (I)

• Definiciones de Calidad de Datos / Calidad de

Información

Berti y Scannapieco (2006) y Lee et al. (2006):

• Concluyen que una definición muy aceptada es “fitness for

use”.

Brien (1991):

• “Es el grado con el que la información tiene contenido, forma

y características temporales que le dan un valor añadido al

usuario final”.

Eppler (2001):

• “Calidad de información es la característica de la información

para satisfacer los requisitos funcionales, técnicos, cognitivos

y estéticos de los productores, consumidores,

administradores y expertos”.

Page 31: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

31

Definición de Calidad de Datos (II)

Huang et al. (1999): “

• La calidad de la información puede ser definida como la

información que se adapta a su uso para los consumidores

de información”.

Kahn y Strong (1998):

• “Calidad de información es el conjunto de características que

deben satisfacer o superar las expectativas del consumidor”.

Lesca y Lesca (1998):

• es “el conjunto de características que hacen que la

información tenga más valor para los usuarios”.Es el grado

con el que los productos de datos satisfacen las necesidades

y requisitos de los clientes.

Page 32: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

32

Definición de Calidad de Datos (III)

• ¿Qué se ve afectado por la Calidad de Datos?

Todas aquellas Entidades que forman parte del proceso

de negocio:

• Calidad de la materia prima

– Calidad del esquema de la Base de Datos

– Calidad de los propios datos.

– Soporte del SGBD.

• Calidad de los procesos técnicos implicados en los datos

• Calidad de los productos de datos.

• ¿Cómo se define la calidad de datos?

Mediante las dimensiones de calidad de datos

• Es posible definir para cada entidad ciertas características

que permitan simplificar el estudio de la calidad de datos,

descomponiéndola en unidades más pequeñas como

propone ISO 9126.

Page 33: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

33

Dimensiones de Calidad de Datos (IV)

•Focos de estudio de la calidad de los datos (Piattini et al., 2006)

Calidad de los Datos

Calidad de la Base de DatosCalidad de la Presentación

Calidad del SGBDCalidad del Modelo de

DatosCalidad de los Datos

Calidad del Modelo

Físico

Calidad del Modelo

Lógico

Calidad del Modelo

Conceptual

Page 34: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

34

1. Importancia de la Calidad de los Datos en las

Organizaciones.

2. Definiciones Básicas

3. Procesos técnicos relacionados con los datos.

4. Tipos de Datos

5. Tipos de Sistemas

6. Definición del Concepto de Calidad de Datos y de

Información (DIQ)

7. Dimensiones de Calidad de Datos .

8. Bibliografía y Referencias

Índice de Contenidos

Page 35: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

35

Dimensiones de Calidad de Datos

• Aspectos de Medición para Calidad de los Propios

Datos:

Es necesario medir para Gestionar la Calidad de los

propios datos.

Tradicionalmente se han desarrollado métricas ad hoc

para dimensiones de calidad identificadas a partir de las

necesidades de los usuarios.

No existe un conjunto de dimensiones universales

porque cada autor define las que mejor se adaptan a su

contexto.

Como las métricas se definen para esas dimensiones,

también dependen fuertemente del contexto y son poco

exportables a otros contextos y por tanto poco

generalizables.

Page 36: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

36

•Dimensiones de Calidad

La calidad es un concepto muldimensional.

• Para medir la calidad es necesario descomponer la calidad en

características observables llamadas dimensiones de calidad, en

base a las cuales es posible definirla, identificarla y medirla.

• La calidad es un concepto muldimensional porque se necesitan

varias dimensiones para decir cómo de bueno son los datos que se

van a usar para una aplicación.

Atributo de Calidad

Característica 1.1

Atributo de Calidad

Característica 1.2

Características de Calidad -1

Atributo de Calidad

Características de Calidad -2

Atributo de Calidad

Características de Calidad -3

Características de Calidad

Estructura de Calidad según ISO 9126

Dimensiones de Calidad de Datos (II)

Page 37: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

37

• English (1999) distingue dos categorías de

dimensiones:

Calidad inherente

• Exactitud de los datos, compleción de valores, ...

Calidad Pragmática

• Oportunidad, Características, ...

• Strong et al. (1997) identifica las siguientes:

Intrínsecas

• Precisión, Objetividad, Credibilidad,...

Accesibilidad

• Accesibilidad, Seguridad en el acceso, ...

Contextual

• Relevancia, Valor añadido, oportunidad,...

Representacional

• Interpretabilidad, facilidad de comprensión , ...

Dimensiones de Calidad de Datos (III)

La más

aceptada

y

utilizada

Page 38: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

Dimensiones de Calidad de Datos (IV)

38

• ISO/IEC 25012

• Presenta las dimensiones de calidad de datos

para los sistemas de Información

Inherentes Inherentes y

Dependientes

Dependientes

Compleción

Consistencia

Credibilidad

Actualidad

Conformidad

Confidencialidad

Eficiencia

Precisión

Trazabilidad

Entendibilidad

Disponibilidad

Portabilidad

Recuperabilidad

Page 39: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

39

Dimensiones de Calidad de Datos (V)

• Algunas Dimensiones inherentes a los datos:

Accuracy (exactitud/precisión)

• Definida como la diferencia entre el valor real v y el valor

almacenado en la base de datos v’

– Ejemplos:

» Una persona se llama “Ismael” y en la base de datos

aparece “Ishmail” (sintatic accuracy)

» Una persona se llama “Ismael” y en la base de datos

aparece como “Ramón” (semantic accuracy)

Completitud

• Definida como la medida en la que los datos tienen suficiente

alcance o profundidad para la tarea que se está realizando.

– Ejemplos:

» Cuando se dejan valores sin almacenar en una base de

datos, bien porque no se conocen, bien porque no existen.

Page 40: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

40

Dimensiones de Calidad de Datos (VI)

• Algunas Dimensiones relacionadas con el Tiempo:

Oportunidad (Timeliness)

• Expresa cómo de actuales son los datos para una tarea.

– Ejemplos:

» Cotizaciones de Valores de Bolsa: si llega un dato en un instante t

y hay que decidir realizar una acción antes de un instante t’ en el

que con toda probabilidad ese dato va a cambiar. Si se toma la

decisión pasado t’ con el dato que se tenía en el momento t las

consecuencias de la decisión probablemente no serán las mismas.

Volatilidad (Volatility)

• Caracteriza la frecuencia con la que los datos varían en el tiempo.

– Ejemplos:

» Fechas de Nacimiento no varían (Volatilidad nula).

» Cotizaciones de Valores de Bolsa (gran volatilidad)

Actualidad (Currency)

• Se refiere al retraso que se puede producir al actualizar los datos.

– Ejemplo:

» Se le quiere mandar una felicitación de Navidad a una persona que

cambió de dirección postal

Page 41: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

41

Dimensiones de Calidad de Datos (VII)

• Dimensiones Relacionadas con la Integridad

Consistencia (Consistency)

• Captura la violación de las reglas semánticas definidas para

un conjunto de datos.

– Ejemplo:

» Violación de las reglas de integridad de identidad

» Violación de las reglas de integridad referencial

» Violación de las reglas de integridad de dominio

• Otras dimensiones:

Accesibilidad

• Determinar el grado en el que un usuario puede acceder a

los datos.

Page 42: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

42

Dimensiones de Calidad de Datos (VIII)

•Algunos ejemplos de Formas de Medir1 (Lee et al., 2006)

Grado de Adherencia a las restricciones de Integridad de

una tabla T:

• Integridad de Entidad:

• Integridad Referencial:

• Integridad de Atributo o Columna (Accuracy):

Compleción de una Tabla

)(

)(1)(

TNT

TNulasNúmerodePKTGAIE NT=Número de Tuplas

)(

)(1),(

TDNT

TesNoExistentNúmerodeFKTDTGAIR

NT=Número de Tuplas

TD= Tabla Dependiente

)(

)(1)(

ANT

ANVIAGAIA

NVI(A)= Número de

Valores Incorrectos del

Atributo A

NT=Número de Tuplas

)(

)(1)(

TNT

TNVNCTC

NVNC(T)= Número de

Valores no Completos

de la tabla T

NT=Número de Tuplas

1 Muchas de estas medidas se pueden definir de la misma forma sobre distintas entidades,

por lo que habría que identificar dichas entidades y adaptar la definición a ellas.

Page 43: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

43

Dimensiones de Calidad de Datos (IX)

•Algunos ejemplos de Formas de Medir (Lee et al., 2006) (2)

Grado de Consistencia de una Tabla (T)

Grado de Credibilidad de una tabla:

Cantidad Apropiada De Datos:

Tasa de Actualidad de los Datos

)(

)(1)(

TNT

TNVTCTGC

NVTC=Número de

Violaciones de Tipo de

Consistencia

))'(),(min()( TGCTOGCTGC TO=Tabla Origen

T’= Comparación Lógica

)(

)(,

)(

)(min)(

TNVP

TNVN

TNVN

TNVPTTCAD

NVP(T)=Número de

Valores

Proporcionados

NVN(T)=Número de

Valores Necesarios

s

TdVolatilida

TActualidadTnidadTasaOportu

0),

)(

)(1max)(

S= Sensibilidad del

Contexto

Page 44: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

44

1. Importancia de la Calidad de los Datos en las

Organizaciones.

2. Definiciones Básicas

3. Procesos técnicos relacionados con los datos.

4. Tipos de Datos

5. Tipos de Sistemas

6. Definición del Concepto de Calidad de Datos y de

Información (DIQ)

7. Dimensiones de Calidad de Datos .

8. Bibliografía y Referencias

Índice de Contenidos

Page 45: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

45

Bibliografía y Referencias

• Aiken, P., Allen, M.D., Parker, B., Mattia, A. (2007) “Measuring Data Management Practice

Maturity: A Community’s Self-Assessment” IEEE Computer 40(4):42-50

• Ballou, D. P. and G. K. Tayi (1999). "Enhancing Data Quality in Data Warehouse

Environments." Communications of the ACM 42(1): 73-78.

• Batini, C. and M. Scannapieco (2006). Data Quality: Concepts, Methodologies and

Techniques. Berlin, Springer-Verlag Berlin Heidelberg.

• Bobrowski, M., M. Marré, et al. (1998). A Software Engineering View of Data Quality. Second

International Software Quality in Europe, Brussels, Belgium.

• Bovee, M., R. P. Srivastava, et al. (2003). "A Conceptual Framework and Belief-Function

Approach to Assesing Overall Information Quality." International Journal of Intelligent Systems

18: 51-74.

• Brien, J. O. (1991). Introduction to Information Systems in Business Management. Boston,

MA: USA.

• De Miguel, A. and M. Piattini (1999). Diseño de Bases de Datos Relacionales. Madrid, Ra-Ma.

• English, L. (1999). Improving Data Warehouse and Business Information Quality: Methods for

reducing costs and increasing Profits. New York, NY, USA, Willey & Sons.

• Eppler, M. J. (2001). "The Concept of Information Quality: An interdisciplinary Evaluation of

recent Information Quality Frameworks." Studies in Communication Sciences 1: 167-182.

• Eppler, M. J. (2003). Managing Information Quality. Secacus, NJ, USA, Springer-Verlag New

York Inc.

• Gertz, M., M. T. Özsu, et al. (2004). "Report on the Dagstuhl Seminar "Data Quality on the

Web"." SIGMOD RECORD 33(1): 127-132.

Page 46: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

46

Bibliografía y Referencias (II)

• Huang, K. T., Y. W. Lee, et al. (1999). Quality Information and Knowledge. Upper Saddle

River, NJ, USA, Prentice-Hall.

• ISO/IEC-JTC1/SC7 (1998). ISO/IEC 9126: Information Technology - Software Product

Evaluation - Quality Characteristics and Guidelines for their Use. Geneva, Switzerland,

International Organization for Standarization.

• Kahn, B. K., D. M. Strong, et al. (2002). "Information Quality Benchmarks: Product and

Service Performance." Communications of the ACM 45(4ve): 184-192.

• Lesca, H. and E. Lesca (1995). Gestion de l’information, qualité de l’information et

performance de’l enterprise. Paris, France, Litec.

• Liu, L. and L. N. Chi (2002). Evolutional Data Quality: a theory-specific view. Seventh

International Conference on Information Quality (ICIQ'02), MIT, Cambridge, MA, USA.

• Redman, T. C. (1996). Data Quality for the Information Age. Boston, MA, USA, Artech

House Publishers.

• Strong, D. M., Y. W. Lee, et al. (1997). "Data Quality in Context." Communications of the

ACM 40(5): 103-110.

• Strong, D. M., Y. W. Lee, et al. (1997). "Ten potholes in the road to information quality."

IEEE Computer 30(18): 38-46.

• Wand, Y. and R. Y. Wang (1996). "Anchoring Data Quality Dimensions in Ontological

Foundations." Communications of the ACM 39(11): 86-95.

• Wang, R. Y. (1998). "A Product Perspective on Total Data Quality Management."

Communications of the ACM 41(2): 58-65.

Page 47: “Una Introducción a la Calidad de los Datos y de la ... · • Ejemplo: Datos organizados según Modelo Relacional Semiestructurados • Los datos tienen una estructura flexible,

Ismael Caballero

[email protected]

Grupo Alarcos- Escuela Superior de Informática

Universidad de Castilla La Mancha

10 de Mayo de 2010

“Una Introducción a la Calidad de los Datos y de la Información en Sistemas de Información”

Muchas gracias

por su atención