“una introducción a la calidad de los datos y de la ... · • ejemplo: datos organizados según...
TRANSCRIPT
Ismael Caballero
Grupo Alarcos- Escuela Superior de Informática
Universidad de Castilla La Mancha
10 de Mayo de 2010
“Una Introducción a la Calidad de los Datos y de la Información en Sistemas de
Información”
2
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
Índice de Contenidos
3
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
Índice de Contenidos
4
Id Título Director Año Nro_
Remakes
AñoUltimo
Remake
1 Casablanca Weir 1942 3 1940
2 El Club de los Poetas Curtiz 1989 0 NULL
3 Vacaciones en Roma Wylder 1953 0 NULL
4 Sabrina NULL 1964 0 1985
(Ejemplo en Batini y Scannapieco, 2006))
No existe esta
película, sino
“El Club de los
Poetas
Muertos”
Curtiz es el director
de Casablanca y
Weir el de “El club
de los Poetas
Muertos”
Si el número de remakes es 0, no tiene
sentido que haya una fecha para el
último remake: o realmente se han
hecho remakes o no debería aparecer
una fecha
Un remake no puede
haberse hecho antes
que la primera
versión de la película
Falta el nombre del
Director: o no exite
(hecho imposible o
no se sabía)
¿Qué problemas de Calidad de Datos se observan en la tabla?
5
Importancia de la Calidad de los Datos
• Situación Actual:
Los datos se han convertido en uno de los activos más
importantes de las organizaciones, ya que son clave en
la toma de decisiones estratégicas u operativas (Ballou y
Tayi, 1999; Bobrowski et al., 1999; Bovee et al., 2003;
Redman, 1996; Strong et al., 1997b).
Por eso se recopilan datos para ser más competitivos
(Eppler, 2001b; Gertz et al., 2004; Batini y Scannapieco,
2006).
Tal cantidad de datos puede llevar a una situación
caótica:
• Datos inútiles e innecesarios.
• Redundancia incontrolada de datos
• Gran cantidad de datos históricos caducados.
6
• Consecuencias de esa posible Situación:
Los datos se convierten en fuentes de problemas (Strong et
al., 1997b):
• Datos no usados,
• Barreras en la accesibilidad de los datos,
• Dificultades en la utilización de los datos y de la información
Y estos problemas afectan negativamente al rendimiento
de los procesos de negocio de la organización (Levin et
al., 2007):
• A un nivel técnico: e.g. Implementación de almacenes de
datos.
• A un nivel organizacional:
– Pérdida de clientes al estar insatisfechos.
– Pérdidas financieras debido a desperdicios de recursos en
términos de tiempo y de dinero y a una baja o escasa
productividad.
– Trabajadores descontentos y desmotivados.
• A un nivel legal: Dependiendo de ciertas leyes, como la LOPD.
Importancia de la Calidad de los Datos (II)
7
Importancia de la Calidad de los Datos (III)
• Solución:
Mejorar la calidad de los datos y de la información a
través de la gestión de la calidad de los datos y de la
información (Ballou y Tayi, 1996; Liu y Chi, 2002; Wang,
1998; Caballero et al. 2004) implementando las
correspondientes estrategias organizacionales.
Una de estas estrategias deben ser las actividades de
evaluación y mejora (Eppler, 2003) a nivel de productos de
datos y a nivel organizacional.
8
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
Índice de Contenidos
9
Definiciones Básicas
• Entidad:
Personas, cosas, lugares, conceptos, sucesos, reales o
abstractos, de interés para la semántica del problema, (De
Miguel y Piattini, 1999)
• Población:
Conjunto de entidades del mundo real
• Atributo:
Cualquier hecho observable de una entidad
• Dato:
Valor observado o medido para un determinado atributo
de una entidad recolectado del mundo real.
10
Definiciones Básicas (II)
• Instancia:
Conjunto de todos los valores que toman los atributos de
una determinada entidad
Atributo2
Atributo3
Atributo1
Atributo6
Atributo4Atributo5
Valor2
Valor3
Valor1
VAlor6
Valor4Valor5
Instancia
11
Definiciones Básicas (III)
• Base de Datos:
Colección de valores para un conjunto de atributos
elegidos de entidades del mundo real
Definición (De Miguel y Piattini, 1999)
• Colección o depósito de datos integrados, almacenados en
soporte secundario (no volátil) y con redundancia controlada.
• Los datos, que han de ser compartidos por diferentes
usuarios y aplicaciones, deben mantenerse independientes
de ellos, y
• su definición (estructura de la base de datos) única y
almacenada junto con los datos, se ha de apoyar en un
modelo de datos, el cual ha de permitir captar las
interrelaciones y las restricciones existentes en el mundo
real.
• Los procedimientos de actualización y recuperación,
comunes y bien determinados, facilitarán la seguridad del
conjunto de datos.
12
Definiciones Básicas (IV)
Valor2
Valor3
Valor1
VAlor6
Valor4
Valor2
Valor3
Valor1
VAlor6
Valor4Valor5
Valor2
Valor3
Valor1
VAlor6
Valor4Valor5
Valor2
Valor3
Valor1
VAlor6
Valor4Valor5
Valor2
Valor3
Valor1
VAlor6
Valor4Valor5
Valor2
Valor3
Valor1
VAlor6
Valor4Valor5
13
Definiciones Básicas (V)
• Modelo de Datos:
Conjunto de conceptos, reglas y convenciones que nos
permiten describir y manipular (consultar y actualizar) los
datos de un cierto mundo real que deseamos almacenar
en la base de datos
• Esquema del Modelo de Datos:
Gráfico que representa un Modelo de Datos, una
estructura de la base de datos.
• Sistema Gestor de Bases de Datos (SGBD):
Conjunto coordinado de programas, procedimientos,
lenguajes, ... que suministra a los distintos tipos de
usuarios los medios necesarios para describir y manipular
los datos almacenados en las bases de dato, garantizando
su seguridad.
14
Definiciones Básicas (VI)
• Producto de Datos o de Información (PI) Producto obtenido tras un proceso de fabricación a partir de
datos almacenados en una base de datos y que pueden ser considerados como materias primas.
• Ejemplo: El resultado de una simple consulta select.
• Información Valor añadido del producto de datos obtenido por su
Interpretación. (English, 1999)
Datos útiles en un contexto (Eppler, 2001)
Conjunto de Datos proporcionados a través de un producto de datos que son útiles en un contexto.
• Usuario Cualquier persona o proceso que puede interactuar con una
base de datos a través de una interfaz (de texto, gráfica o de SOA) para desarrollar algunas funciones relacionadas con la misma base de datos o con su trabajo específico.
• Conocimiento Información útil en un contexto (English, 1999)
15
Definiciones Básicas (VII)
• Calidad de Datos
Aquellas características que deben tener los datos como
materias primas para que, utilizando un proceso de
producción adecuado se pueda generar un producto de
información.
• Calidad de Información
Aquellas características que debería tener un Producto de
Información (PI) para que su utilización sea adecuada,
esto es que cumpla, con los requisitos de usuario
• Dimensiones de Calidad de datos
Son criterios que permiten juzgar la calidad de los datos
desde un determinado punto de vista. Se pueden entender
como las características del Software propuestas en ISO
9126.
16
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
Índice de Contenidos
17
Procesos Técnicos Relacionados con los Datos
• Procesos Técnicos Relacionados (Redman, 1996) Diseño e Implementación del Esquema de la Base de
datos
• Consiste en la definición de la estructura de un continente (oesquema) para los datos. Esta estructura puede estardistribuida en varias localizaciones para mejorar elrendimiento de la organización.
Recolección de Datos
• Es el hecho de captar valores de la realidad para losatributos de las entidades modeladas en la base de datos através de distintos mecanismos/herramientas comoformularios, encuestas,…
Almacenamiento de los Datos
• Consiste en guardar los valores captados en la fase derecolección en el continente definido anteriormente. Espreciso tener en cuenta que puede ser necesario repartir losvalores entre las distintas particiones del esquema realizadasdurante la distribución (integrar los datos)
18
Procesos Técnicos Relacionados con los Datos (II)
Extracción de los Datos
• Consiste en la selección y recuperación de los valores
almacenados en el continente o base de datos. Al igual que
con el almacenamiento habría que tener en cuenta que los
datos pueden venir de distintas localizaciones o fuentes.
Teóricamente, el SGBD debería hacer este proceso de forma
transparente al usuario.
• La extracción de datos, no implica que se agoten..
Elaboración del Producto de Datos
• Siguiendo los Procesos de Negocio, esta fase consiste en
obtener un producto de datos a partir de los datos (materia
prima) que satisfaga las necesidades de un consumidor.
Entrega del Producto de Datos
• Es el proceso por el cual se hace llegar al destinatario del
producto de información dicho producto para que pueda
utilizarlo para desarrollar el trabajo para el que lo ha
solicitado.
19
Procesos Técnicos Relacionados con los Datos (III)
Generación de Información
• Consiste en interpretar el producto de datos para poder
realizar un trabajo, típicamente tomar una decisión
relacionada con el ámbito de trabajo del usuario
Generación del Conocimiento (Organizacional).
• A partir de la información generada anteriormente, este
proceso consiste en establecer una serie de políticas que
puedan ser aplicadas en cualquiera de los procesos
anteriores para mejorar los existentes y evitar posibles
defectos.
20
Relación Ontológica de los Conceptos Presentados
Sistema de
Información
Visión del Usuario del
Mundo real Inferida del
Sistema de Información
Visión del Usuario del
Mundo Real para
almacenar en el Sistema
Percepción del Mundo
Real capturada por el
Desarrollador
Mundo Real
Diseño de la Base de Datos
Recolección
Representación de la
semántica del Mundo Real
Almacenamiento
Posible Deficiencias
de los Datos
Extracción y Elaboración
del Producto de Información
21
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
Índice de Contenidos
22
Tipos de Datos
• Atendiendo a su estructuración:
Estructurados
• Siguen un esquema predefinido
• Ejemplo: Datos organizados según Modelo Relacional
Semiestructurados
• Los datos tienen una estructura flexible, e incluso carecer de
ella.
• Ejemplo: XML
No estructurados
• No siguen ningún criterio para ser estructurados.
• Ejemplo: ficheros de texto en lenguaje natural
23
Tipos de Datos (II)
• Atendiendo a la naturaleza del producto (Batini yScannapieco, 2006): Ítems de Datos como materias primas.
• Son considerados las unidades más pequeñas de datos.
• Son utilizados para construir el resto de los componentes.
Ítems de Datos como componentes.• Son los datos utilizados para generar un producto de Información.
• Se obtienen como una consulta de recuperación select.
Ítems de Datos como productos de datos o información.• Son el resultado de un proceso de producción y provienen de uno o
varios Ítems de Datos como componentes.
• Atendiendo a su composición (granularidad) Datos Elementales
• Son datos gestionados en las organizaciones por procesosorganizacionales y representan a valores individuales del mundoreal.
Datos Agregados.• Son un conjunto de datos elementales obtenidos mediante una
determinada función de agregación
24
Tipos de Datos (III)
• Otros tipos de datos
Datos Federados
• Son aquellos que vienen de fuentes de datos heterogéneas y necesitan de varias de ellas para ser integrados.
Datos Web
• Son recuperados de la web, y aunque no poseen un formato determinado constituyen uno de las principales fuentes de datos.
• Atendiendo a su aspecto temporal:
Datos Estables
• Datos que no van a cambiar a lo largo del tiempo, como publicaciones científicas, que se incrementarán, pero las ya existentes no variarán.
Datos poco cambiantes
• Datos que pueden sufrir algunas modificaciones. Por ejemplo algunos datos personales, como la dirección, el teléfono,…
Datos cambiantes frecuentemente.
• Datos de los que se espera que sufran cambios, como la información del tráfico, tasas de ventas, …
25
Tipos de Datos (IV)
• Tipos de Datos objetos de Estudio en nuestro
contexto:
Datos Estructurados y Semiestructurados
Datos Elementales
Ítems de Datos como Materia Prima y Productos de Datos
26
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
Índice de Contenidos
27
Tipos de Sistemas de Información
• Los Sistemas de Información son el entorno dondese ejecutan los procesos técnicos de los datos.
• Criterios de clasificación: Distribución
• Estudia si los datos van a ser o no distribuidos entre distintaslocalizaciones
• Valores Posibles ={“Sí”, “No”}
Heterogeneidad
• Tiene en cuenta los diferentes tipos de semánticas y técnicasusados para la representación conceptual y lógica de losdatos.
• Valores Posibles ={“Sí”, “No”}
Autonomía
• Define el grado de jerarquía de los sistemas así como lasposibles reglas de coordinación entre ellos, estableciendoderechos y obligaciones.
• Valores Posibles ={“Totalmente”, “Semi”, “No”}
28
Tipos de Sistemas De Información (II)
NO
SÍ
SÍ
SEMI TOTALMENTE
Heterogeneidad
Distribución
Autonomía
Sistemas
Distribuidos
Sistemas
Monolíticos
Sistemas
Data Warehouse
Sistemas
Colaborativos
Sistemas
Peer-to-Peer
29
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
Índice de Contenidos
30
Definición de Calidad de Datos (I)
• Definiciones de Calidad de Datos / Calidad de
Información
Berti y Scannapieco (2006) y Lee et al. (2006):
• Concluyen que una definición muy aceptada es “fitness for
use”.
Brien (1991):
• “Es el grado con el que la información tiene contenido, forma
y características temporales que le dan un valor añadido al
usuario final”.
Eppler (2001):
• “Calidad de información es la característica de la información
para satisfacer los requisitos funcionales, técnicos, cognitivos
y estéticos de los productores, consumidores,
administradores y expertos”.
31
Definición de Calidad de Datos (II)
Huang et al. (1999): “
• La calidad de la información puede ser definida como la
información que se adapta a su uso para los consumidores
de información”.
Kahn y Strong (1998):
• “Calidad de información es el conjunto de características que
deben satisfacer o superar las expectativas del consumidor”.
Lesca y Lesca (1998):
• es “el conjunto de características que hacen que la
información tenga más valor para los usuarios”.Es el grado
con el que los productos de datos satisfacen las necesidades
y requisitos de los clientes.
32
Definición de Calidad de Datos (III)
• ¿Qué se ve afectado por la Calidad de Datos?
Todas aquellas Entidades que forman parte del proceso
de negocio:
• Calidad de la materia prima
– Calidad del esquema de la Base de Datos
– Calidad de los propios datos.
– Soporte del SGBD.
• Calidad de los procesos técnicos implicados en los datos
• Calidad de los productos de datos.
• ¿Cómo se define la calidad de datos?
Mediante las dimensiones de calidad de datos
• Es posible definir para cada entidad ciertas características
que permitan simplificar el estudio de la calidad de datos,
descomponiéndola en unidades más pequeñas como
propone ISO 9126.
33
Dimensiones de Calidad de Datos (IV)
•Focos de estudio de la calidad de los datos (Piattini et al., 2006)
Calidad de los Datos
Calidad de la Base de DatosCalidad de la Presentación
Calidad del SGBDCalidad del Modelo de
DatosCalidad de los Datos
Calidad del Modelo
Físico
Calidad del Modelo
Lógico
Calidad del Modelo
Conceptual
34
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
Índice de Contenidos
35
Dimensiones de Calidad de Datos
• Aspectos de Medición para Calidad de los Propios
Datos:
Es necesario medir para Gestionar la Calidad de los
propios datos.
Tradicionalmente se han desarrollado métricas ad hoc
para dimensiones de calidad identificadas a partir de las
necesidades de los usuarios.
No existe un conjunto de dimensiones universales
porque cada autor define las que mejor se adaptan a su
contexto.
Como las métricas se definen para esas dimensiones,
también dependen fuertemente del contexto y son poco
exportables a otros contextos y por tanto poco
generalizables.
36
•Dimensiones de Calidad
La calidad es un concepto muldimensional.
• Para medir la calidad es necesario descomponer la calidad en
características observables llamadas dimensiones de calidad, en
base a las cuales es posible definirla, identificarla y medirla.
• La calidad es un concepto muldimensional porque se necesitan
varias dimensiones para decir cómo de bueno son los datos que se
van a usar para una aplicación.
Atributo de Calidad
Característica 1.1
Atributo de Calidad
Característica 1.2
Características de Calidad -1
Atributo de Calidad
Características de Calidad -2
Atributo de Calidad
Características de Calidad -3
Características de Calidad
Estructura de Calidad según ISO 9126
Dimensiones de Calidad de Datos (II)
37
• English (1999) distingue dos categorías de
dimensiones:
Calidad inherente
• Exactitud de los datos, compleción de valores, ...
Calidad Pragmática
• Oportunidad, Características, ...
• Strong et al. (1997) identifica las siguientes:
Intrínsecas
• Precisión, Objetividad, Credibilidad,...
Accesibilidad
• Accesibilidad, Seguridad en el acceso, ...
Contextual
• Relevancia, Valor añadido, oportunidad,...
Representacional
• Interpretabilidad, facilidad de comprensión , ...
Dimensiones de Calidad de Datos (III)
La más
aceptada
y
utilizada
Dimensiones de Calidad de Datos (IV)
38
• ISO/IEC 25012
• Presenta las dimensiones de calidad de datos
para los sistemas de Información
Inherentes Inherentes y
Dependientes
Dependientes
Compleción
Consistencia
Credibilidad
Actualidad
Conformidad
Confidencialidad
Eficiencia
Precisión
Trazabilidad
Entendibilidad
Disponibilidad
Portabilidad
Recuperabilidad
39
Dimensiones de Calidad de Datos (V)
• Algunas Dimensiones inherentes a los datos:
Accuracy (exactitud/precisión)
• Definida como la diferencia entre el valor real v y el valor
almacenado en la base de datos v’
– Ejemplos:
» Una persona se llama “Ismael” y en la base de datos
aparece “Ishmail” (sintatic accuracy)
» Una persona se llama “Ismael” y en la base de datos
aparece como “Ramón” (semantic accuracy)
Completitud
• Definida como la medida en la que los datos tienen suficiente
alcance o profundidad para la tarea que se está realizando.
– Ejemplos:
» Cuando se dejan valores sin almacenar en una base de
datos, bien porque no se conocen, bien porque no existen.
40
Dimensiones de Calidad de Datos (VI)
• Algunas Dimensiones relacionadas con el Tiempo:
Oportunidad (Timeliness)
• Expresa cómo de actuales son los datos para una tarea.
– Ejemplos:
» Cotizaciones de Valores de Bolsa: si llega un dato en un instante t
y hay que decidir realizar una acción antes de un instante t’ en el
que con toda probabilidad ese dato va a cambiar. Si se toma la
decisión pasado t’ con el dato que se tenía en el momento t las
consecuencias de la decisión probablemente no serán las mismas.
Volatilidad (Volatility)
• Caracteriza la frecuencia con la que los datos varían en el tiempo.
– Ejemplos:
» Fechas de Nacimiento no varían (Volatilidad nula).
» Cotizaciones de Valores de Bolsa (gran volatilidad)
Actualidad (Currency)
• Se refiere al retraso que se puede producir al actualizar los datos.
– Ejemplo:
» Se le quiere mandar una felicitación de Navidad a una persona que
cambió de dirección postal
41
Dimensiones de Calidad de Datos (VII)
• Dimensiones Relacionadas con la Integridad
Consistencia (Consistency)
• Captura la violación de las reglas semánticas definidas para
un conjunto de datos.
– Ejemplo:
» Violación de las reglas de integridad de identidad
» Violación de las reglas de integridad referencial
» Violación de las reglas de integridad de dominio
• Otras dimensiones:
Accesibilidad
• Determinar el grado en el que un usuario puede acceder a
los datos.
42
Dimensiones de Calidad de Datos (VIII)
•Algunos ejemplos de Formas de Medir1 (Lee et al., 2006)
Grado de Adherencia a las restricciones de Integridad de
una tabla T:
• Integridad de Entidad:
• Integridad Referencial:
• Integridad de Atributo o Columna (Accuracy):
Compleción de una Tabla
)(
)(1)(
TNT
TNulasNúmerodePKTGAIE NT=Número de Tuplas
)(
)(1),(
TDNT
TesNoExistentNúmerodeFKTDTGAIR
NT=Número de Tuplas
TD= Tabla Dependiente
)(
)(1)(
ANT
ANVIAGAIA
NVI(A)= Número de
Valores Incorrectos del
Atributo A
NT=Número de Tuplas
)(
)(1)(
TNT
TNVNCTC
NVNC(T)= Número de
Valores no Completos
de la tabla T
NT=Número de Tuplas
1 Muchas de estas medidas se pueden definir de la misma forma sobre distintas entidades,
por lo que habría que identificar dichas entidades y adaptar la definición a ellas.
43
Dimensiones de Calidad de Datos (IX)
•Algunos ejemplos de Formas de Medir (Lee et al., 2006) (2)
Grado de Consistencia de una Tabla (T)
Grado de Credibilidad de una tabla:
Cantidad Apropiada De Datos:
Tasa de Actualidad de los Datos
)(
)(1)(
TNT
TNVTCTGC
NVTC=Número de
Violaciones de Tipo de
Consistencia
))'(),(min()( TGCTOGCTGC TO=Tabla Origen
T’= Comparación Lógica
)(
)(,
)(
)(min)(
TNVP
TNVN
TNVN
TNVPTTCAD
NVP(T)=Número de
Valores
Proporcionados
NVN(T)=Número de
Valores Necesarios
s
TdVolatilida
TActualidadTnidadTasaOportu
0),
)(
)(1max)(
S= Sensibilidad del
Contexto
44
1. Importancia de la Calidad de los Datos en las
Organizaciones.
2. Definiciones Básicas
3. Procesos técnicos relacionados con los datos.
4. Tipos de Datos
5. Tipos de Sistemas
6. Definición del Concepto de Calidad de Datos y de
Información (DIQ)
7. Dimensiones de Calidad de Datos .
8. Bibliografía y Referencias
Índice de Contenidos
45
Bibliografía y Referencias
• Aiken, P., Allen, M.D., Parker, B., Mattia, A. (2007) “Measuring Data Management Practice
Maturity: A Community’s Self-Assessment” IEEE Computer 40(4):42-50
• Ballou, D. P. and G. K. Tayi (1999). "Enhancing Data Quality in Data Warehouse
Environments." Communications of the ACM 42(1): 73-78.
• Batini, C. and M. Scannapieco (2006). Data Quality: Concepts, Methodologies and
Techniques. Berlin, Springer-Verlag Berlin Heidelberg.
• Bobrowski, M., M. Marré, et al. (1998). A Software Engineering View of Data Quality. Second
International Software Quality in Europe, Brussels, Belgium.
• Bovee, M., R. P. Srivastava, et al. (2003). "A Conceptual Framework and Belief-Function
Approach to Assesing Overall Information Quality." International Journal of Intelligent Systems
18: 51-74.
• Brien, J. O. (1991). Introduction to Information Systems in Business Management. Boston,
MA: USA.
• De Miguel, A. and M. Piattini (1999). Diseño de Bases de Datos Relacionales. Madrid, Ra-Ma.
• English, L. (1999). Improving Data Warehouse and Business Information Quality: Methods for
reducing costs and increasing Profits. New York, NY, USA, Willey & Sons.
• Eppler, M. J. (2001). "The Concept of Information Quality: An interdisciplinary Evaluation of
recent Information Quality Frameworks." Studies in Communication Sciences 1: 167-182.
• Eppler, M. J. (2003). Managing Information Quality. Secacus, NJ, USA, Springer-Verlag New
York Inc.
• Gertz, M., M. T. Özsu, et al. (2004). "Report on the Dagstuhl Seminar "Data Quality on the
Web"." SIGMOD RECORD 33(1): 127-132.
46
Bibliografía y Referencias (II)
• Huang, K. T., Y. W. Lee, et al. (1999). Quality Information and Knowledge. Upper Saddle
River, NJ, USA, Prentice-Hall.
• ISO/IEC-JTC1/SC7 (1998). ISO/IEC 9126: Information Technology - Software Product
Evaluation - Quality Characteristics and Guidelines for their Use. Geneva, Switzerland,
International Organization for Standarization.
• Kahn, B. K., D. M. Strong, et al. (2002). "Information Quality Benchmarks: Product and
Service Performance." Communications of the ACM 45(4ve): 184-192.
• Lesca, H. and E. Lesca (1995). Gestion de l’information, qualité de l’information et
performance de’l enterprise. Paris, France, Litec.
• Liu, L. and L. N. Chi (2002). Evolutional Data Quality: a theory-specific view. Seventh
International Conference on Information Quality (ICIQ'02), MIT, Cambridge, MA, USA.
• Redman, T. C. (1996). Data Quality for the Information Age. Boston, MA, USA, Artech
House Publishers.
• Strong, D. M., Y. W. Lee, et al. (1997). "Data Quality in Context." Communications of the
ACM 40(5): 103-110.
• Strong, D. M., Y. W. Lee, et al. (1997). "Ten potholes in the road to information quality."
IEEE Computer 30(18): 38-46.
• Wand, Y. and R. Y. Wang (1996). "Anchoring Data Quality Dimensions in Ontological
Foundations." Communications of the ACM 39(11): 86-95.
• Wang, R. Y. (1998). "A Product Perspective on Total Data Quality Management."
Communications of the ACM 41(2): 58-65.
Ismael Caballero
Grupo Alarcos- Escuela Superior de Informática
Universidad de Castilla La Mancha
10 de Mayo de 2010
“Una Introducción a la Calidad de los Datos y de la Información en Sistemas de Información”
Muchas gracias
por su atención