y matemÁticas ciencias

Escuela Académico-Profesional de Informática

Facultad de Ciencias Físicas y Matemáticas

Universidad Nacional de Trujillo

DESARROLLO DE UN MÉTODO PARA MEJORAR LA CALIDAD

DE DATOS EN EL PROCESO DE

CONSTRUCCIÓN DE UN DATA WAREHOUSE

Tesis para la obtención del Título de Ingeniero Informático

Karina C. Espinoza Pareja Hilda P. Carrillo Bello

Biblioteca Digital - Dirección de Sistemas de Informática y Comunicación - UNT

Esta obra ha sido publicada bajo la licencia Creative Commons Reconocimiento-No Comercial-Compartir bajola misma licencia 2.5 Perú. Para ver una copia de dicha licencia, visite http://creativecommons.org/licences/by-nc-sa/2.5/pe/

BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS

Presentación

Señores Miembros del Jurado:

En cumplimiento a las normas vigentes del Reglamento de Grados y Títulos de la Facultad de Ciencias

Físicas y Matemáticas, carrera de Informática de la Universidad Nacional de Trujillo tenemos a bien

poner a vuestra consideración el presente trabajo de investigación intitulado:

“Desarrollo de un Método para mejorar la Calidad de Datos en el Proceso de Construcción de un

Data Warehouse”.

Con la culminación de este trabajo de investigación se espera cumplir las exigencias formuladas en

toda investigación, agradeciéndoles por anticipado las sugerencias y apreciaciones que se hiciera al

respecto.

Trujillo, Mayo del 2013

- - - - - - - - - - - - - - - - - - - - - - - - - - - - -

KARINA CECILIA ESPINOZA PAREJA

- - - - - - - - - - - - - - - - - - - - - - - - - - - - -

HILDA PATRICIA CARRILLO BELLO



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS

Dedicatoria

“Esta tesis quiero dedicarla a mi madre que desde siempre me ha dado su apoyo incondicional, por

sus consejos, sus valores, por la motivación constante que me ha permitido ser una persona de bien y

ha inculcado en mí el deseo de superación”

Hilda Carrillo Bello

A mis padres, la Sra. Lidia Pareja y el Sr. Oswaldo Espinoza por ser el pilar fundamental en todo lo

que he hecho hasta ahora, por los principios y valores que han inculcado en mí y por el apoyo

incondicional que me dan. Ellos son mi mayor ejemplo de perseverancia y constancia. Hoy por hoy me

enorgullezco de quien soy y todo se lo debo a ellos.

Karina Espinoza Pareja



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS

Agradecimientos

“Quiero darles las gracias a todas las personas que de alguna manera colaboraron conmigo para que

este trabajo esté hoy realizado. A mi madre por el estímulo, la buena predisposición y sobre todo el

apoyo que me brindó siempre para poder culminar este proyecto. Doy gracias a Dios que me enseño a

perseverar y luchar en todo lo relacionado con este proyecto de tesis. También a agradezco a mi

asesor de tesis que estuvo involucrado en el desarrollo de este trabajo por comprometerse enteramente

con él y guiarnos hasta su culminación.”

Hilda Carrillo Bello

Le agradezco infinitamente a DIOS por haberme permitido llegar hasta este punto y haberme dado

salud para lograr mis objetivos, se de corazón que siempre me acompañas y proteges, gracias por

todo. A mis padres porque creen en mí y siempre me apoyan incondicionalmente. A mi asesor Carlos

Castillo, por la buena predisposición para apoyarnos en el desarrollo de esta tesis y finalmente a

todos aquellos que de una u otra manera me apoyaron para hacer posible este trabajo.

Karina Espinoza Pareja



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS

Resumen En el presente trabajo, se propone el desarrollo de un método para mejorar la calidad de datos en el

proceso de construcción de un Data Warehouse. La calidad en los datos está relacionada con las

dimensiones de calidad que se definen sobre los datos, es por esta razón que el método propuesto mide

la calidad en función a 4 dimensiones de calidad, que son la exactitud, completitud, consistencia y

unicidad. Se ha hecho un análisis de los errores más comunes que se presentan en los datos, en qué

consisten, por qué resulta importante su consideración, las posibles causas que los generó y la forma de

medirlo. También se propone agregar una base de datos temporal dentro del proceso ETL, es en esta

base donde se analizaran los datos, detectaran los errores y a la vez se corregirán.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS

Índice General

1. PLAN DE INVESTIGACIÓN ......................................................................................................... 1

1.1. REALIDAD PROBLEMÁTICA ............................................................................................. 1

1.2. ANTECEDENTES ................................................................................................................... 2

1.3. OBJETIVOS ............................................................................................................................ 4

1.4. FORMULACIÓN DEL PROBLEMA ..................................................................................... 5

1.5. HIPÓTESIS .............................................................................................................................. 5

1.6. JUSTIFICACIÓN DEL PROBLEMA ..................................................................................... 5

1.7. VIABILIDAD .......................................................................................................................... 6

1.8. LIMITACIONES ..................................................................................................................... 6

1.9. ORGANIZACIÓN DEL ESTUDIO ........................................................................................ 7

2. MARCO TEÓRICO ......................................................................................................................... 9

2.1. INTELIGENCIA DEL NEGOCIO (BI)................................................................................... 9

2.1.1. Importancia de BI ............................................................................................................. 9

2.1.2. Beneficios de BI ............................................................................................................. 10

2.2. DEFINICIÓN DE DATAWAREHOUSE .............................................................................. 10

2.2.1. Diseño de un Data Warehouse ....................................................................................... 12

2.2.2. ETL ................................................................................................................................ 19

2.3. CALIDAD DE DATOS ......................................................................................................... 21

2.3.1. Antecedentes .................................................................................................................. 22

2.3.2. ¿Qué es calidad de datos? ............................................................................................... 23

2.3.3. La Importancia de la calidad de datos ............................................................................ 24

2.3.4. Áreas de investigación en calidad de datos .................................................................... 24

2.3.5. Dimensiones de la calidad de datos ................................................................................ 25

2.3.6. Enfoque en las dimensiones de la calidad de datos ........................................................ 33

2.3.7. Técnicas y actividades de calidad de datos .................................................................... 34

2.4. LIMPIEZA DE DATOS ......................................................................................................... 35

2.4.1. Problemas que enfrenta la limpieza de datos ................................................................. 36

2.4.2. Fases de la limpieza de datos ......................................................................................... 37

2.4.3. Detección y corrección de errores .................................................................................. 38



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS

2.4.4. Prevención de errores ..................................................................................................... 40

2.5. CONTROL DE CALIDAD DE LOS DATOS ....................................................................... 41

2.5.1. Valoración de datos ........................................................................................................ 41

2.5.2. Control de calidad de datos ............................................................................................ 41

2.5.3. Seguimiento y reporte .................................................................................................... 41

2.6. CICLO DE MEJORAMIENTO DE LA CALIDAD DE DATOS EN UNA

ORGANIZACIÓN ............................................................................................................................. 42

2.6.1. Valoración ...................................................................................................................... 42

2.6.2. Plan ................................................................................................................................. 42

2.6.3. Implementar ................................................................................................................... 42

2.6.4. Evaluar ........................................................................................................................... 43

2.6.5. Adaptar ........................................................................................................................... 43

2.6.6. Educar ............................................................................................................................ 43

3. RESULTADOS .............................................................................................................................. 45

3.1. ERRORES MÁS COMUNES EN LOS DATOS ................................................................... 45

3.1.1. EXACTITUD ................................................................................................................. 45

3.1.2. COMPLETITUD ............................................................................................................ 48

3.1.3. CONSISTENCIA ........................................................................................................... 49

3.1.4. UNICIDAD .................................................................................................................... 51

3.2. DESARROLLO DE MÉTODO PARA MEJORAR LA CALIDAD DE DATOS ................ 54

3.2.1. DIAGRAMA DE PROCESOS ...................................................................................... 54

3.2.2. DESARROLLO DEL MÉTODO ................................................................................... 56

4. DISCUSIÓN DE RESULTADOS ................................................................................................. 63

5. CONCLUSIONES ......................................................................................................................... 67

5.1. CONCLUSIONES ................................................................................................................. 67

5.2. TRABAJOS FUTUROS ........................................................................................................ 68

REFERENCIAS ..................................................................................................................................... 69



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS

Índice de Figuras

FIGURA 1: Proceso ETL con la base de datos temporal .................................................................. 57

FIGURA 2: Etapas por las que pasan los datos en la base de datos Temporal ................................. 58



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS

Índice de Tablas Tabla 1 – Tipos de errores en los datos .................................................................................................. 45

Tabla 2: Análisis de errores en los datos ................................................................................................ 59

Tabla 3: Corrección de errores en los datos ........................................................................................... 60

Tabla 4: Resultados de las dimensiones de calidad para un campo determinado .................................. 61

Tabla 5: Cuadro comparativo entre método tradicional y método propuesto ........................................ 65



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS

Índice de Cuadros Cuadro 1: Porcentaje de errores encontrados para un campo determinado. ........................................... 63

Cuadro 2: Porcentaje de errores encontrados para un campo determinado después de la corrección de

los mismos. ............................................................................................................................................. 64



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS

CAPÍTULO I

PLAN DE INVESTIGACIÓN



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS

Desarrollo de un Método para Mejorar la Calidad de Datos en el Proceso de Construcción de un Data Warehouse

1

1. PLAN DE INVESTIGACIÓN

1.1. REALIDAD PROBLEMÁTICA

Dado que la información es un recurso organizacional, y que es usada para generar nuevo

conocimiento encaminado hacia la creación de mejores estrategias empresariales, es

importante analizar la calidad de los datos.

El dicho "Garbage in, garbage out" que en español significa “Entra basura, sale basura”

quiere decir que "Si se ingresan datos incorrectos en nuestros sistemas, la salida resultante

también será incorrecta”, esto se convierte en una desafortunada realidad cuando la calidad

de los datos no se aborda.

Ocurre que muchos de los datos dentro de las organizaciones presentan impurezas, esto es,

son inconsistentes, no están presentes, no pueden leerse o simplemente son erróneos. Esto

afecta considerablemente a las organizaciones, ya que tienen que invertir más tiempo de lo

planificado en resolver estas irregularidades, además de pérdidas de confianza, tiempo y

dinero.

El presente trabajo de investigación propone un método para mejorar la calidad de los

datos y así evitar que los datos lleguen al Data Warehouse (DW) con errores.

Características de la realidad problemática

Una baja calidad de datos hace que las empresas incurran en costos innecesarios,

ya que se tiene que volver a realizar el proceso para corregir los errores en los

datos.

La credibilidad de una organización desde el punto de vista de clientes y

proveedores se ve afectada con decisiones tomadas en base a datos de baja calidad.

La baja calidad de datos empeora con el tiempo, como por ejemplo, una base de

clientes se vuelve obsoleta en un mes, debido a que estos se mueren, se divorcian,

se casan, se mudan, etc.

Los continuos cambios en el sistema como las migraciones de sistemas, los

cambios en los sistemas fuente, actualizaciones, datos antiguos y obsoletos, etc.

generan muchísimos nuevos errores.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


2

Pérdidas económicas considerables debido a la baja calidad de los datos en las

empresas, que no fueron detectadas a tiempo.

1.2. ANTECEDENTES

En el artículo “El valor de la calidad de datos y el ETL” escrito por T. Nguyen, se presenta

la importancia de los datos en las organizaciones, cada una de estas, se basa en los datos

para producir información útil para que la toma de decisiones empresariales sea efectiva.

Por desgracia, se pone más énfasis en la información y la calidad de datos no recibe la

atención que merece. El artículo muestra una reciente encuesta donde revela que el 75% de

las organizaciones no tienen procesos de calidad de datos, ya que la mayoría de las

empresas no han tomado medidas para determinar la gravedad de los problemas de calidad

de datos y su impacto en el balance final, debido a que no admiten conscientemente que

sus decisiones empresariales se basan en datos inexactos e incompletos. También se

explica las razones por que la calidad de los datos que las empresas recopilan y analizan es

tan pobre. Según la investigación, menciona que las razones varían, desde la naturaleza

ambigua de los propios datos hasta la confianza en la perfección de la entrada de datos.

En esta investigación se define la calidad de los datos como un proceso de organizar la

información para que los registros individuales sean exactos, actualizados, completos,

consistentes, oportunos, únicos, válidos y coherentes. La integración de la calidad de los

datos y ETL minimiza el riesgo de fracaso, el costo y la cantidad de recursos necesarios

para gestionar los datos [1].

Según Iván Amon Uribe en la tesis de grado “Guía metodológica para la selección de

técnicas de depuración de datos”, expone la importancia que deben tener los datos, y que

estos deben contener la menor cantidad de errores posibles, ya que actualmente las

organizaciones toman decisiones basadas en datos almacenados en sus bases o bodegas de

datos. Según Andreas Bittere, vicepresidente de investigación de Garther “No existe una

compañía en el planeta que no tenga un problema de calidad de datos y aquellas compañías

que reconocen tenerlo, a menudo subestiman el tamaño de éste”. Se habla también sobre

los problemas que presentan los datos, al reunir información de varias fuentes, o al interior

de un archivo o una misma tabla en una base datos relacional, como por ejemplo el

atributo nombre puede contener “Juan Alberto López Gómez” para un registro y para otro

“Juan A. López G.” haciendo referencia a la misma persona o el nombre “Carlos” puede



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


3

presentar errores de digitación con caracteres sobrantes, faltantes o transpuestos

(“Carklos”, “Calos”, Catlos”). Por estas razones, esta tesis muestra una guía metodológica,

que oriente al analista de los datos hacia una selección con mayor rigor científico, de las

técnicas adecuadas para tres de los posibles problemas que puedan presentar los datos:

detección de duplicados, valores atípicos incorrectos y valores faltantes, analizando

detalladamente cada uno de estos, proponiendo técnicas, métricas, diseño y una

metodología para tratar de resolver o minimizar los errores [2].

Otro estudio sobre “Calidad de datos en ingeniería de software empírica” realizado por B.

Bianchi Gallo, muestra las dimensiones de la calidad de datos, donde cada dimensión tiene

un aspecto particular que se define como factor de calidad, este factor se puede medir a

través de métricas y un mismo factor de calidad puede medirse con diferentes métricas. A

continuación se menciona algunas de estas dimensiones de calidad de datos: exactitud y

unicidad, completitud, actualidad, volatilidad y consistencia. En este estudio también se

menciona actividades y técnicas para mejorar la calidad en los datos. Las actividades

relativas a la calidad de datos se refieren a cualquier proceso o transformación que se

aplica a los datos con el objetivo de mejorar su calidad. Para llevar a cabo dichas

actividades, se hace uso de distintas técnicas.

A continuación se describen algunas actividades relativas a la calidad de los datos:

obtención de nueva información, estandarización, identificación de objetos, integración de

datos, confiabilidad de las fuentes, composición de calidad, detección de errores,

corrección de errores, optimización de costos. Se destaca el análisis de los posibles errores

a encontrar en los datos generados, la limpieza de los datos, migrando los mismos a un

nuevo esquema que se adecúa mejor a la realidad planteada, y la construcción de un

programa que automatiza la gran mayoría de los procesos de limpieza y migración [3].

Siguiendo con la investigación, en el artículo “Calidad De Los Datos: Un Reto Para La

Moderna Empresa” escrito por J. Vilalta Alonso y M. Delgado Fernández, nos habla sobre

el papel de los datos como soporte de las decisiones que toman los directivos. Para que las

decisiones sean objetivas no basta con que se tomen basadas en los datos sino que,

además, éstos deben tener la calidad adecuada. Se habla también de sistemas de calidad de

datos que han ido evolucionando desde la simple detección y corrección de datos erróneos

o duplicados hasta la consideración de que la detección y eliminación de errores forma

parte importante de la gestión de los flujos de información que soportan los procesos

fundamentales de las organizaciones. El artículo también presenta las iniciativas para la



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


4

garantía de la calidad de los datos, que son los llamados sistemas de evaluación de la

calidad de los datos y metodologías o procedimientos de diagnóstico, dirigidos a evaluar el

estado actual de los datos, de esta forma las organizaciones toman decisiones y pueden

descubrir las causas que los originan, para prevenir o reducir su ocurrencia [4].

En el artículo “La calidad de los datos: Su importancia para la gestión empresarial” escrito

por J. Heredia Rico y J. Vilalta Alonso, la calidad de los datos está asociada a un conjunto

de dimensiones o atributos que son los que la definen. Un objetivo fundamental de la

definición de las dimensiones es poder establecer un lenguaje común y también focalizar

los problemas de calidad de los datos y las oportunidades de mejora. De acuerdo a este

artículo, las dimensiones más importantes, pues son las más utilizadas están la exactitud, la

integridad, la consistencia y la coherencia. Los resultados de una inadecuada calidad en los

datos implican procesos de toma de decisiones inadecuados, además resulta muy costoso el

efecto sobre los clientes de la empresa. Este se puede materializar en la insatisfacción de

los clientes debido a nombres incorrectos, facturas con cantidades erróneas, envío de

productos o cantidades equivocadas, etc. En algunas empresas de producción, el personal

relacionado con la producción, dedica un porcentaje no despreciable de su tiempo de

trabajo a la corrección de errores en los datos, en otras ocasiones se tiene que realizar

continuamente correcciones en la base de datos. Así mismo en el artículo se menciona una

manera de medir la calidad de los datos, enfocándose en las dimensiones de calidad (la

exactitud, la integridad, la consistencia y la coherencia). En principio, definir las

dimensiones que sean importantes para el conjunto de datos en análisis, y después se deben

establecer indicadores que permitan cuantificar o calificar el grado de adecuación del dato

atendiendo a cada dimensión [5].

Luego de haber estudiado todas estas investigaciones, podemos decir que la calidad de los

datos es un proceso de continuo esfuerzo y que si no se toma en cuenta puede generar

grandes pérdidas para las organizaciones.

1.3. OBJETIVOS

Objetivo General

Desarrollar un método para mejorar la calidad de los datos en el proceso de

construcción de un DW.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


5

Objetivos Específicos

Analizar los tipos de errores que se pueden encontrar en los datos.

Analizar las dimensiones de la calidad de datos.

Asociar los tipos de errores a las dimensiones de calidad.

Desarrollar el método para mejorar la calidad de datos en el proceso de


1.4. FORMULACIÓN DEL PROBLEMA

¿Cómo mejorar la calidad de los datos en el proceso de construcción de un DW?

1.5. HIPÓTESIS

El desarrollo de un método permite mejorar la calidad de datos en el proceso de


1.6. JUSTIFICACIÓN DEL PROBLEMA

Muchos proyectos de DW han fracasado debido a problemas de calidad de datos. Es un

hecho documentado que miles de millones de dólares se pierden debido a la calidad

deficiente de los datos. Más allá de la pérdida de recursos, hay descontento por parte de los

clientes, disminución de los ingresos por ventas, erosión de la credibilidad e incapacidad

para tomar decisiones de negocios. Tanto así que la consecuencia de la mala calidad de

datos es suficiente para causar el fracaso de la organización.

Mejorar la calidad de datos se ha convertido en una prioridad de la alta dirección.

Es por esta razón que se desarrolla el presente trabajo de investigación con la finalidad de

dar a conocer los procedimientos y métodos necesarios para mejorar la calidad de los datos

en las organizaciones. Con lo que lograremos que las organizaciones confíen en sus datos,

por ende en sus decisiones.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


6

1.7. VIABILIDAD

La presente investigación es viable, ya que se dispone de los recursos necesarios para

poder llevarla a cabo. Sólo se requiere la predisposición de las organizaciones a

implementar estos procesos para analizar sus datos, ya que este análisis les permitirá tomar

decisiones que mejorarán sus ventajas competitivas frente a su competencia. El proyecto es

sostenible y rentable económicamente si se realiza de forma correcta.

1.8. LIMITACIONES

El presente trabajo presenta las siguientes limitaciones.

No se abarca la etapa de construcción completa de un proceso de DW porque no se

encuentra dentro del alcance del trabajo de investigación, el mismo se enfoca en la

mejora de la calidad de datos dentro del proceso ETL que es una etapa antes de la

carga de datos en el DW.

El método desarrollado es analítico, queda a disposición de otros trabajos de

investigación la implementación y ejecución del mismo.

Sólo se han considerado los tipos de errores que mayormente se presentan en los

datos y a la vez los más importantes.

Existen varias dimensiones que reflejan distintos aspectos de los datos. Esto no

resulta ser una sorpresa al considerar que los datos pretenden representar todo tipo

de características de la realidad, desde espaciales y temporales, hasta sociales. En

el presente proyecto sólo se han considerado 4 dimensiones de calidad.

En el proceso de corrección de datos se necesitará el apoyo de las áreas que se

encargan de registrar la información en los sistemas, se espera que ellos se

comprometan con el proyecto, para de esta manera reflejar fielmente los datos con

la realidad.

La calidad de los datos está en función a las 4 dimensiones de calidad

consideradas.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


7

1.9. ORGANIZACIÓN DEL ESTUDIO

El presente trabajo de tesis consta de un total de cinco capítulos, divididos en secciones de

acuerdo al nivel de detalle que se consideró necesario.

El primer capítulo es el plan de investigación, incluye todo lo necesario con el

planteamiento del problema a estudiar, partiendo desde la realidad problemática, los

antecedentes, el problema en concreto, la hipótesis planteada, los objetivos establecidos, la

justificación del mismo y las limitaciones más relevantes que se detectaron durante el

desarrollo de la tesis.

El segundo capítulo, Marco Teórico, abarca los conceptos teóricos que sustentan el estudio

relacionado con la mejora de calidad de datos en el proceso de construcción de un DW.

En el tercer capítulo, Resultados, se realiza un análisis de los errores más comunes que se

presentan en los datos, en qué consisten, por qué resulta importante su consideración, la

forma de medirlo y se desarrolla el método para mejorar la calidad de datos.

En el cuarto capítulo, Discusión de Resultados, se realiza una comparativa del antes y

después de aplicar el método propuesto.

Finalmente en el quinto capítulo, se presentan las conclusiones a las cuales se llegaron

durante el proceso del trabajo de investigación y posibles trabajos futuros.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS

CAPÍTULO II

MARCO TEÓRICO



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


9

2. MARCO TEÓRICO

2.1. INTELIGENCIA DEL NEGOCIO (BI)

En el mundo actual de los negocios, las empresas que quieren mantenerse en un buen sitial

y ser competitivas no solo deben caracterizarse por la calidad de sus productos sino

también por el grado de información que se maneja con sus clientes, empleados, gerentes y

socios. En el caso de los directivos de las empresas, se tienen que enfrentar

ante ciertos escenarios como disponer de más información pero menos tiempo para

analizarla, sistemas de información que no ayuda a la toma de decisiones ágiles y además

responsables de generar información urgente en muchos de los casos están saturados por

las peticiones de información y no pueden cumplir con todas las peticiones.

Es a partir de estos problemas que nace el concepto de Inteligencia de Negocios o sus

siglas en inglés (Business Intelligence BI) el cual engloba los sistemas de información de

una empresa para obtener algo más que información, se lo usa para obtener conocimiento.

Las empresas en los últimos años han hecho grandes inversiones en sistemas ERP

(Enterprise Resource Planning) y CRM (Customer Relationship Management) los cuales

proveen una gran cantidad de datos para las empresas, las cuales ahora desean poder usar

esta gran cantidad de información para la toma de decisiones y acciones para un mejor

desempeño de sus negocios. Por dichas razones se están adoptando en las empresas en uso

de sistemas BI [7].

2.1.1. Importancia de BI

Generalmente, en las organizaciones se genera una gran cantidad de datos e

información que en muchos de los casos el análisis de la misma se convierte en un

verdadero problema para los directivos.

Las tecnologías y los sistemas de BI permiten realizar un análisis mucho más ágil y

comprensible para la toma de decisiones empresariales, las aplicaciones BI buscan

incrementar la eficiencia en la organización. Podemos decir que la información,

correctamente analizada e interpretada, es la mayor fuente de poder de las

empresas, ya que da pistas muy claras acerca del camino a seguir en futuras

acciones.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


10

2.1.2. Beneficios de BI

Entre los beneficios más importantes que brinda una aplicación BI a las

organizaciones, se puede mencionar los siguientes [7]:

Minimiza el tiempo de carga de datos, debido a que todos los datos se

encuentran en un mismo repositorio o fuente de información.

Los procesos de extracción y carga de la información son automáticos

debido al uso de procesos definidos y metodologías.

Las herramientas BI permiten realizar análisis, y establecer comparaciones

para la toma de decisiones.

Permite a los usuarios no depender de reportes o informes programados,

porque los mismos serán generados de manera dinámica.

Posibilita la formulación preguntas y respuestas que son claves para el

desempeño de la organización.

Permite acceder y analizar directamente los indicadores de éxito.

Una solución BI empieza, desde los sistemas de origen o los sistemas

operacionales de la organización es decir las bases de datos, archivos planos, hojas

de cálculo, sistemas ERP que son los que generan datos de la organización. Sobre

los datos obtenidos se realiza un proceso de extracción de los datos de sus

diferentes fuentes, transformación que consiste en una estandarización de los datos

y carga de los datos en un nuevo repositorio como un Data Warehouse o en varios

Data Marts para de esta manera ser estructurados y presentados a los usuarios

finales en forma de Reportes, Tableros de mando, etc.

2.2. DEFINICIÓN DE DATAWAREHOUSE

Según Inmon [6], un DW es:

“Una colección de datos que sirve de apoyo a la toma de decisiones, organizados

por temas, integrados, no volátiles y en los que el concepto de tiempo varía

respecto a los sistemas tradicionales”.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


11

Debe ser organizado por temas, debido a que los datos en el DW no se organizan acorde

con las aplicaciones que los usan, sino que lo hacen acorde con su semántica,

independientemente de qué aplicación los utilice. Por ejemplo, una compañía podría tener

datos organizados por clientes, proveedores, productos, etcétera, independientemente de la

aplicación que los vaya a utilizar.

Otra de las características que se citan en la definición anterior, y que es, a juicio del

propio autor, la más importante de un DW, es la de la integración. Un DW se construye a

partir de los datos de las diversas fuentes de datos de una organización, lo que hace

necesario un esfuerzo para “poner en común” los datos de las diferentes fuentes.

Cada una de las fuentes de datos de la organización tendrá sus propios modelos de datos,

sus propias políticas de asignación de nombres a campos, de codificación de valores, y

muchas diferencias más, que hacen que el hecho de recolectar los datos de ellas para

unirlos en un esquema común suponga un gran esfuerzo, tanto computacional como

humano.

El esfuerzo computacional proviene del hecho que hay que recorrer todos los datos a

integrar, y realizar una transformación para que encaje con el esquema centralizado que se

adopte para el DW. El esfuerzo humano es debido a la necesidad de estudiar los modelos

conceptuales, realizar uno común, unificar todas las políticas de asignaciones, y, en

definitiva, toda tarea no automatizable que genere el proceso de la recolección e

integración de los datos.

Otra característica importante es la de la no volatilidad. Existen varias razones por las que

los datos de un DW no son volátiles. Las más importantes son:

Un DW se construye para dar soporte a la toma de decisiones, y este tipo de tareas

pueden requerir el análisis de datos de diferentes momentos del tiempo, para

realizar análisis comparativos.

Mantener diferentes versiones temporales de los datos permite recuperar el estado

de los datos de la organización en cualquier instante, de modo que se pueden

deshacer efectos indeseados de procesamientos erróneos.

Por tanto, los datos de un DW no sufren actualizaciones. En él, se mantienen diferentes

versiones temporales de dichos datos, y, por tanto, el proceso que se realiza en vez de una



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


12

actualización de los datos es una inserción de los nuevos datos, a los que se añade una

marca temporal que los distingue de las diferentes versiones temporales ya existentes de

dichos datos.

La siguiente característica mencionada por Inmon en su definición se refiere a que el

tiempo es un factor diferenciador en los datos del DW, y con ello se quiere decir que:

En los sistemas tradicionales, la caducidad de los datos, o su validez no suele

exceder de, como mucho, dos o tres meses. En muchos casos los datos varían

todos los días. Mientras tanto, los datos del DW tienen un horizonte temporal de

años.

En los sistemas de gestión, los datos con los que se trabaja son los datos actuales,

mientras que los datos del DW pueden verse como una serie de “snapshots”

tomados en un momento del tiempo, que no sufren actualizaciones.

La estructura de los datos operacionales puede contener, o no, alguna referencia

temporal. En cambio, la fecha siempre forma parte de la clave de los datos en el

DW, para distinguir las diferentes versiones de los datos, como ya se había

mencionado.

Es importante destacar que un DW no es un producto, por lo tanto no puede comprarse,

este debe ser construido paso a paso. Es de vital importancia entender esto al plantearse

implantar un DW en una organización. Queda claro que no podemos comprarlo, podemos

encontrar herramientas que ayuden a la construcción de este, o gestores de bases de datos

que aporten facilidades para la construcción de un DW. El hecho de que sea algo a

construir implica que se requiere un periodo de tiempo que variará según las necesidades

de la organización hasta que el sistema esté en perfecto funcionamiento [6].

2.2.1. Diseño de un Data Warehouse

De acuerdo a la definición mencionada anteriormente, un DW recoge los datos de

diferentes fuentes, en un proceso que se denominaría adquisición, los almacena en

una base de datos relacional, y posteriormente los ofrece a los usuarios en la fase

de acceso a los datos. Este esquema da pie a pensar en tres módulos principales a

tener en cuenta a la hora de realizar un diseño de un sistema de DW, que son [6]:



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


13

Componente de acceso

Componente de almacenamiento

Componente de adquisición

Componente de Acceso

Una de las partes principales de todo el sistema de DW es aquel que proporciona a

los usuarios el acceso a los datos que éste alberga. Sin este componente, los datos

del DW no valdrían para nada. Este módulo debe ser capaz de entender las

peticiones que los usuarios realicen, proporcionando una interfaz sencilla, clara y

potente, que permita a los usuarios hacer un uso efectivo de los datos. Para ello,

debe ser capaz de realizar peticiones al subsistema de almacenamiento.

El diseño de interfaces de usuario cae fuera del ´ámbito de este capítulo, por lo que

no se ahondara más en ese sentido, pero sí deben destacarse varios aspectos

relacionados con el DW:

El sistema debe distinguir entre usuarios y los posibles permisos que estos

tienen en el ámbito del sistema, ya que de ello dependerá el conjunto de

acciones que pueda realizar el usuario sobre el DW. Deberá por tanto

disponerse de información acerca de usuarios y permisos.

El componente de acceso deberá conocer de qué datos dispone el DW,

para poder proporcionar al usuario dicha información, y que éste pueda

realizar sus consultas. Será necesario, por tanto, que se tenga acceso a un

catálogo de los datos disponibles para cada tipo de usuario.

Por otro lado, es necesario destacar que no son sólo los usuarios los que acceden,

sino que diversas aplicaciones pueden requerir el acceso al DW. Aunque las

aplicaciones de Data Mining son las más frecuentes, debe tenerse en cuenta que

pueden requerir acceso:

Simples consultas de bases de datos

Generadores de informes

Aplicaciones personalizadas

Paquetes de negocios

Facilidades incluidas en productos (hojas de cálculo, por ejemplo)



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


14

Componente de Almacenamiento

Este módulo es el que gestiona el DW, entendiendo por DW la base de datos que

contiene los datos. Pero si bien el DW es una base de datos relacional, hay que

apuntar que tiene una serie de características especiales. Entre éstas, se destacan a

continuación las más relevantes de cara al desarrollo e implantación de un DW:

Gran número de tablas, proveniente de las diferentes fuentes de datos de la

organización.

Tablas extremadamente grandes, ya que albergan datos provenientes de

toda la organización.

Alto nivel de interdependencia

Método de acceso no predefinido, ya que cada tipo de usuario realiza

peticiones bien diferenciadas.

Acceso en modo sólo lectura para usuarios, ya que, como se ha indicado,

el DW surge para los propósitos de análisis. Los cambios se siguen

produciendo en las fuentes originales de datos.

Los datos se refrescan periódicamente de múltiples fuentes. Debido a que

las fuentes de las que proviene el DW sufren cambios, sería necesario

incluir dichos cambios en el DW para que estén disponibles para las tareas

de análisis.

Alto porcentaje de los datos históricos. Como se ha indicado, para permitir

el análisis temporal, en el DW los datos no se modifican, sino que se

mantienen diferentes versiones temporales de los datos. Esto hace que, tras

cierto tiempo de funcionamiento del sistema, se hayan producido

numerosas versiones y que, por tanto, la mayoría de los datos sean datos

históricos.

Las anteriores características se pueden agrupar en tres categorías, que tienen que

tenerse en cuenta a medida que se construye el DW:

A. Alto volumen de datos y accesos no predefinidos: Los expertos en bases

de datos relacionales saben que la combinación de grandes volúmenes de

datos y accesos no predefinidos es toxica para el rendimiento. Por tanto, se



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


15

tendrá un problema de rendimiento/flexibilidad, al que podrán darse las

siguientes soluciones:

Anticiparse al peor caso posible, lo cual puede tener excesivos

requerimientos.

Evitar que los usuarios tengan total libertad de acción,

estableciendo monitorización para establecer tiempos y cargas.

Pre computar parte de las consultas, lo cual puede hacer que se

necesite mucho espacio para las dichas consultas pre computadas.

Establecer patrones fijos de consulta, a costa de perder flexibilidad

en el sistema.

Cualquiera de estas soluciones tiene sus inconvenientes, ya sea para el

usuario, que dispondrá de menor flexibilidad a la hora de acceder al

sistema, o para el desarrollador, que deberá emplear tiempo en preparar

plantillas, o reservando espacio para datos pre computados, por citar

alguna de las tareas.

B. Complejidad del entorno: Es una de las trampas de la construcción,

debido a que muchos desarrolladores no se dan cuenta de la complejidad

que se puede llegar a tener debido principalmente a:

Número de tablas. A medida que crece el número de tablas se

torna más complicado saber qué contiene cada tabla, por lo que

será necesario un catálogo de tablas más sofisticado que una

simple lista de contenidos. Este nuevo catálogo debe organizarse

de tal modo que los nuevos usuarios puedan saber qué contiene.

Interdependencia de tablas. Además de saber qué contienen las

tablas, será necesario conocer las relaciones entre ellas. Como

consecuencia directa de esto, el mencionado catálogo se complica.

Esto ha llevado a que la mayoría de productos se centran en

proporcionar capacidades para gestionar catálogos de una manera

más sofisticada.

C. Tiempo: Se tendrán que mantener cientos de tablas cuyos datos son

refrescados en momentos diferentes. Por lo tanto, es crucial para las



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


16

consultas el momento en que los datos son actualizados, lo que hace

necesario que existan monitores de tiempo y de sincronismo.

Componente de Adquisición

Este componente supone el interfaz con los sistemas operacionales, ya que recoge

los datos que estos usan, para que se almacenen en el DW.

Su tarea es recoger los datos y hacerlos disponibles para el sistema de

almacenamiento. Desde un punto de vista global, esta tarea parece simple:

Identificar los datos que se quieren cargar en el DW y cargarlos.

Por desgracia, cuando se presta más atención a los detalles, esto no es tan simple,

ya que surgen múltiples problemas cuando se trata de integrar datos de múltiples

fuentes.

Desde el momento en que se decide qué datos formarán parte del DW, empieza la

tarea de integración. Una vez establecidos qué datos se incluirán, se procederá a

buscar en las fuentes de datos la integración dichos datos.

El primer problema que se plantea al realizar esta tarea es la heterogeneidad de las

fuentes, que dificultará la tarea de encontrar estos datos. Esta dificultad es debida a

que un mismo dato en distintas bases de datos puede tener:

Diferente nombre

Diferentes tipos de almacenamiento

Diferentes asignaciones de valores

Diferente representación interna, en el caso de que los datos estén

almacenados en diferentes gestores.

El primer problema, que puede denominarse problema de asignación de nombres,

se refiere al hecho de que, en las diversas fuentes de datos, las políticas de

asignación de nombres pueden ser diferentes. Esto da como resultado que tablas,

atributos y demás elementos de una base de datos no puedan ser identificados de

manera univoca por su nombre. No se puede suponer que dos elementos de

diferentes fuentes son iguales por tener el mismo nombre, ni que son diferentes



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


17

sólo por tener nombres diferentes. Será necesario consultar las descripciones de los

datos para comprobar qué datos son los buscados.

El siguiente punto hace notar que tampoco el tipo utilizado para representar un

dato tiene por qué ayudar a la tarea de encontrar atributos iguales. Dos datos

equivalentes no tienen por qué estar almacenados bajo el mismo tipo de

representación.

Y, análogamente lo que ocurría con el nombre, tampoco el hecho de que dos datos

sean del mismo tipo quiere decir nada acerca de su igualdad. Por ´último, la misma

información puede estar representada con diferentes valores de atributos, sean del

mismo tipo o no.

También, como ocurría en los dos casos anteriores la asignación del mismo valor

de atributo no quiere decir que se esté hablando de la misma información real.

Se puede observar que no es sencillo definir un método para automatizar la

búsqueda de los datos a través de la base de datos de la organización.

Una vez se ha identificado qué datos y de qué bases de datos pasarán a formar

parte del DW, se procederá con la integración en sí, lo que conlleva:

La recolección de los datos origen

La traducción de dichos datos al formato con el que se almacenarán en el

DW

El almacenamiento en el DW.

La complejidad de esta tarea no se centra ya en la dificultad de recolección, ya que

esta tarea suele ser susceptible de automatización. El problema en este caso es que

es necesario traducir un gran volumen de datos de múltiples formatos y transportar

dichos datos de su ubicación original al DW, lo cual puede requerir el uso de redes

de ordenadores. No obstante el principal problema suele estar en la integración.

Una vez se realiza esta integración, se dispone de los primeros datos en el DW, por

lo que estará disponible para su uso.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


18

Por tanto, las funciones del módulo de adquisición pueden resumirse en las

siguientes:

Extracción de datos: Este proceso contempla la recolección de datos de

las fuentes seleccionadas, así como la planificación de futuras extracciones

que se realizarán una y otra vez durante la vida del DW para “refrescar” el

contenido de éste.

Limpieza de datos: Ocurre que muchos de los datos presentan impurezas,

esto es, son inconsistentes, no están presentes, no pueden leerse o

simplemente son erróneos.

Existen múltiples causas por las que los datos pueden ser erróneos: pueden ser

inexactos, o puede que hagan referencia a datos inexistentes (un registro de venta

con un número de cliente que no existe), o valores simplemente fuera de rango

(una persona de 200 años de edad). La limpieza de datos es una tarea ardua, que no

puede realizarse de manera plena, ya que la cantidad de datos hace que no sea

eficiente la comprobación de todos y cada uno de los valores. En cambio, si

pueden realizarse una serie de tareas automáticas que evitarán que ciertos errores

lleguen al DW. Así, puede comprobarse de manera automática si los datos están

fuera de rango, o si no contienen valor alguno, y definir políticas para ambos

casos.

Formato de los datos: Una vez que los datos están limpios, será necesario

amoldarlos a los formatos con los que se almacenarán en el DW, ya que

éstos pueden diferir de los originales.

Procesamiento de la mezcla: Si los datos provienen de una única fuente,

no existirá este problema, pero en muchos casos, los datos provienen de

fuentes diversas lo que hace necesario tratar las disparidades introducidas

por cada fuente.

Tratamiento de claves: Una de las necesidades básicas de toda base de

datos es el poder identificar los datos por una clave. Esto no es diferente en

un DW, así que deberán definirse claves para todos los datos. El problema

es que uno de los puntos en que más suelen diferir los diferentes gestores

es en el método de identificación de sus datos, por lo que será necesario



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


19

definir claves que puedan ser traducidas a partir de todas las claves origen.

Este proceso puede parecer una particularización del anterior, pero por su

importancia y complejidad suele requerir un tratamiento aparte.

Proceso de purga: Puede ocurrir que no se quiera almacenar todas las

ocurrencias de datos en el DW, y que se desee que datos que cumplan una

serie de condiciones no estén presentes en éste. Para ello, es necesario un

proceso que “filtre” este tipo de información, buscando el patrón deseado,

y excluyéndolo de la lista a almacenar al DW.

Carga de datos: Por último, una vez que los datos han pasado por todo el

proceso de adecuación, sólo resta almacenarlos en lo que será su nuevo

hogar, el DW.

Además, este componente debe encargarse de monitorizar los cambios que se

produzcan en los datos fuente, para poder integrar éstos en el DW. Cada vez que se

requiera una carga de nuevos datos, se realizará sobre éstos el mismo proceso que

se realizó la primera vez, por lo que debe almacenarse la información necesaria

para repetir el proceso de manera automática.

Cabe comentar que el orden de las tareas de preprocesado puede variar para cada

caso, de modo que debe estudiarse en qué orden se produce una limpieza de los

datos mejor y más eficiente.

2.2.2. ETL

ETL son las siglas en inglés de extraer, transformar y cargar (Extract, Transform

and Load). Es un proceso que permite mover datos desde múltiples fuentes,

reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o DW

para analizar, o en otro sistema operacional para apoyar un proceso de negocio.

La primera parte del proceso ETL consiste en extraer los datos desde las fuentes.

La mayoría de los proyectos de almacenamiento de datos consolidan datos de

diferentes sistemas de fuentes de datos. Cada sistema separado puede usar una

organización diferente de los datos o formatos distintos.

Por otro lado los formatos de las fuentes normalmente se encuentran en bases de

datos relacionales o ficheros planos, pero pueden incluir bases de datos no



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


20

relacionales u otras estructuras diferentes. La extracción convierte los datos en un

formato preparado para iniciar el proceso de transformación. Es necesario que esta

extracción cause un impacto mínimo en los sistemas fuente. La fase de

transformación aplica una serie de reglas de negocio o funciones sobre los datos

extraídos para convertirlos en datos que serán cargados.

Algunas fuentes de datos requieren alguna pequeña manipulación de los datos. No

obstante, en otros casos pueden ser necesarias aplicar algunas de las siguientes

transformaciones:

Seleccionar sólo ciertas columnas para su carga.

Traducir códigos.

Codificar valores libres.

Derivar nuevos valores calculados.

Unir datos de múltiples fuentes.

Sumarizar múltiples filas de datos.

Generación de campos clave en el destino.

Transponer o pivotar.

Estas son sólo algunas de las transformaciones estándar que se aplican, pero

dependerá de cada caso concreto aplicar algunas operaciones específicas. La fase

de carga es el momento en el cual los datos de la fase anterior son cargados en el

destino. Dependiendo de los requerimientos de la organización, este proceso puede

abarcar una amplia variedad de procesos diferentes.

Algunos almacenes de datos sobrescriben información antigua con nuevos datos.

Los sistemas más complejos pueden mantener un historial de los registros de

manera que se pueda hacer una auditoría de los mismos y disponer de un rastro de

toda la historia de un dato. La dificultad del proceso del proceso ETL de un DW

hace que se cometan errores.

Entre los errores más comunes destacan los siguientes:

La periodicidad de los procesos ETL no están bien definida.

No se realiza una limpieza de datos.

No se realiza una ponderación de la calidad de los datos.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


21

Los procesos ETL no están bien definidos.

La primera fase de un proyecto de minería de datos es un proceso de ETL, la

extracción, transformación y carga de la información de los datos necesarios. Pero,

a pesar de ser la menos llamativa, es fundamental para su éxito. La fase de ETL es

[6]:

Crítica, porque el resto de las fases del proyecto se alimentan de ella y no

pueden comenzar hasta que la ETL ha concluido satisfactoriamente.

Una fuente potencial de costes inesperados dado que, si bien no debería

absorber más allá del 60 % del tiempo de ejecución del proyecto de

minería de datos, no es infrecuente que llegue a acaparar el 90 % de ´el y

que, además, acabe provocando retrasos importantes en su ejecución.

Específica, porque la información que se extrae de las bases de datos

empresariales para la realización de estudios de minería de datos tiene que

ajustarse a unos criterios de contenido, calidad y formato a los que los

responsables de los sistemas de información de las empresas no están

habituados.

Difícil, porque conlleva el extraer e integrar datos de fuentes muy diversas

y plataformas muchas veces heterogéneas y acceder a información

contenida en sistemas que no están concebidos ni diseñados para las

exigencias de un proceso masivo de análisis de datos.

Multidisciplinar, porque no se trata de una actividad meramente técnica:

implica la adquisición en un plazo de tiempo corto de la visión de negocio

necesaria para comprender el valor funcional de la información bajo,

además, las ópticas distintas de los distintos usuarios finales y los distintos

departamentos de la empresa.

2.3. CALIDAD DE DATOS

El objetivo del presente capítulo es abordar la temática de la calidad en los datos, llegando

a conocer sus conceptos y características fundamentales, y sobretodo comprender su

relevancia para nuestro estudio.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


22

En primera instancia se introducen sus principales conceptos, las dimensiones y factores de

calidad. Luego se explican las técnicas y actividades que se llevan a cabo en el área de la

calidad de datos, y en línea con este último punto se trata la limpieza de datos, cuyo

objetivo final es la mejora en la calidad de los mismos.

Previo a cualquier análisis de datos, es importante conocer acerca de la relevancia de la

calidad de datos. Es por esto que se menciona de manera breve de qué trata la calidad de

datos y el motivo por el cual resulta importante (por no decir imprescindible) su estudio.

Finalmente se trata cuáles son las áreas de investigación que le competen.

2.3.1. Antecedentes

Las organizaciones invierten mucho dinero y esfuerzo en mejorar sus sistemas de

información en pro de agilizar sus procesos y optimizar sus productos, cuando los

datos no se encuentran en un estado óptimo estos proyectos no generan la

rentabilidad esperada y el costo de devolverse en el proceso puede salir más

elevado que el proyecto mismo.

Los datos son un activo muy importante de la empresa, siendo fundamental que

éstos cumplan con todos los atributos de calidad manejados en la actualidad; desde

que existen los sistemas de información ha existido la preocupación de que los

datos sean correctos y se ha buscado la forma de prevenir y corregir los errores

que se puedan presentar en ellos. Inicialmente la calidad se realizaba de forma

manual o con programas que no fueron desarrollados en lenguajes para ese uso.

Los primeros sistemas de Calidad de Datos fueron desarrollados por el gobierno de

Estados Unidos a principio de los 80, en un sistema denominado NCOA (National

Change Of Address Registry), el cual se creó para regular los cambios de

domicilio, fallecimientos, bodas, divorcios, etc.

A principio de los 90 se creó en España un sistema especializado en Calidad de

Datos para corregir o informar el código postal en la dirección de los clientes de

las principales entidades financieras del país, en ese entonces se utilizó una técnica

muy primitiva llamada “Fuerza bruta” y no implementaba las metodologías que

tienen ahora los sistemas modernos de Calidad de Datos.

Hoy en día aunque se está trabajando en nuevas metodologías y hay tecnología

para el manejo de la Calidad de Datos falta crear un poco más de conciencia en



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


23

cuanto a su manejo, ya que aunque se tiene conocimiento de esto existen muchos

problemas de calidad en las organizaciones.

2.3.2. ¿Qué es calidad de datos?

Los datos representan objetos del mundo real. Dichas representaciones resultan ser

aplicables en contextos de diferentes y variadas características. Por otro lado, los

datos pueden ser almacenados o sometidos a algún proceso o transformación,

siendo siempre de suma importancia para garantizar la sobrevivencia y éxito de las

organizaciones. El problema de la calidad de datos ha sido objeto de estudio desde

varias perspectivas y por diferentes áreas a lo largo de los años, tal es el caso de la

Estadística, Gestión o Computación. A medida que su importancia se hace más

evidente a los ojos de estas y otras áreas, se incrementan también las

investigaciones e intenciones de mejora en este sentido.

Es indudable que el almacenamiento y/o procesamiento de datos es de vital

importancia en la vida de todas las personas y organizaciones, en una gran

variedad de actividades (más allá de la informática y los sistemas de información).

Existen varios ejemplos de situaciones de la vida cotidiana, donde se hace

necesario almacenar, procesar, transmitir y utilizar datos. Uno de ellos, cuando

elaboramos una lista para hacer las compras almacenamos datos correspondientes

a qué productos comprar, en qué cantidad, de qué marca.

En cuanto al concepto de calidad de datos, suele suceder que intuitivamente se

piensa en ciertos aspectos de los datos. Por lo general se tiende a pensar en que los

datos sean exactos. Sin embargo, hace falta ahondar más en este concepto, para

entender que hay varias “caras” o aspectos (las llamadas dimensiones), que hacen

a la calidad de los datos. Más adelante en el documento se explican algunas

dimensiones (exactitud, completitud, actualidad, entre otras) en detalle. Como

ejemplo trivial, se puede pensar en la situación de la elaboración de una lista para

compras: Si se omite anotar un producto o la cantidad a comprar de cierto

producto, se enfrenta el problema de completitud. Si ocurre una equivocación en la

cantidad de cierto producto o se escribe mal su marca, se enfrenta el problema de

exactitud. Si en lugar de llevar la lista de hoy se lleva la de ayer, se enfrenta el

problema de actualidad. Entonces, se puede decir que la definición de la calidad de



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


24

los datos está relacionada estrechamente con la exactitud, completitud,

consistencia y actualidad de los datos (entre otros). Es por esto que la calidad de

datos es denominada un concepto “multifacético”, ya que depende y es función de

las dimensiones que la definen [3].

2.3.3. La Importancia de la calidad de datos

Son pocas las ocasiones en las cuales se es consciente de las consecuencias que la

mala calidad de datos trae aparejada. Sin embargo, es de suma importancia lograr

identificar sus causas para eliminar, o en su defecto mejorar, la problemática de

raíz.

En el ejemplo anterior de elaboración de la lista de compras, la mala calidad de los

datos puede acarrear consecuencias no deseadas (como omitir comprar un

producto que se necesitaba, o una cantidad equivocada), ninguna de ellas de

gravedad. Pero no es difícil pensar en otro tipo de situaciones (listas de productos

para importación en cantidades masivas, nombres de clientes duplicados, errores

en cobros, errores médicos) donde una falta puede provocar problemas de

gravedad.

La mala calidad de los datos influye de manera muy significante y profunda en la

efectividad y eficiencia de las organizaciones así como en todo el negocio,

llevando en algunos casos a pérdidas multimillonarias. Cada día se hace más

notoria la importancia y necesidad en distintos contextos de un nivel de calidad

adecuado para los datos.

2.3.4. Áreas de investigación en calidad de datos

Lograr calidad en los datos es una tarea compleja y multidisciplinaria, debido a su

importancia, naturaleza, y la variedad de tipos de datos y sistemas de información

que pueden estar implicados.

La investigación dentro del área de calidad de datos incluye los siguientes puntos:

Dimensiones: Las mediciones sobre el nivel de calidad de los datos se

aplican a las dimensiones de interés.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


25

Metodologías: Proveen guías de acción.

Modelos: Representan las dimensiones y otros aspectos de la calidad de

datos.

Técnicas: Proveen soluciones a problemas de calidad de datos.

Herramientas: Son necesarias para que las metodologías y técnicas puedan

llevarse a cabo de manera efectiva.

2.3.5. Dimensiones de la calidad de datos

En la sección anterior, se introdujeron a modo de ejemplo conceptos como

exactitud, completitud y actualidad. Todas estas características (y varias más) de

los datos, se denominan dimensiones de la calidad de los datos.

Cada dimensión refleja un aspecto distinto de la calidad de los datos. Las mismas

pueden estar referidas a la extensión de los datos (su valor), o a la intensión (su

esquema). De esta manera podemos distinguir entre calidad en los datos y calidad

en los esquemas. El foco del presente proyecto es en la calidad inherente a los

datos.

Se define factor de calidad como un aspecto particular de una dimensión. En este

sentido, una dimensión puede ser vista como un agrupamiento de factores de

calidad que tienen el mismo propósito. Es claro que la mala calidad en los datos

puede provocar varios problemas, así como también la mala calidad de un

esquema (por ejemplo un esquema de una base de datos relacional sin normalizar)

podría provocar problemas mayores, tales como redundancias. Ambos tipos de

dimensiones, tanto las referidas a los datos como a los esquemas, proveen una

visión cualitativa de la calidad, mientras que las medidas cuantitativas se

representan mediante las métricas.

Una métrica es un instrumento que define la forma de medir un factor de calidad.

Un mismo factor de calidad puede medirse con diferentes métricas. Por otro lado,

definimos método de medición como un proceso que implementa una métrica. A

su vez, una misma métrica puede ser medida por diferentes métodos.

Existen varias dimensiones que reflejan distintos aspectos de los datos. Esto no

resulta ser una sorpresa al considerar que los datos pretenden representar todo tipo



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


26

de características de la realidad, desde espaciales y temporales, hasta sociales. A

continuación se describen algunas dimensiones de la calidad de datos [3].

2.3.5.1. Exactitud (Accuracy) y Unicidad (Uniqueness)

De acuerdo al enfoque teórico que se trata más adelante, la exactitud se define

como una correcta y precisa asociación entre los estados del sistema de

información y los objetos del mundo real.

Existen tres factores de exactitud: exactitud semántica, exactitud sintáctica y

precisión.

La exactitud sintáctica se refiere a la cercanía entre un valor v y los elementos

de un dominio D. Esto es, si v corresponde a algún valor válido de D (sin

importar si ese valor corresponde a uno del mundo real). Para poder medir la

exactitud sintáctica se puede utilizar la comparación de funciones, métrica que

mide la distancia entre un valor v y los valores en el dominio D. Otras

alternativas posibles son la utilización de diccionarios que representen

fielmente el dominio, o el chequeo de los datos contras reglas sintácticas.

La exactitud semántica se refiere a la cercanía que existe entre un valor v y un

valor real v‟.

Esta dimensión se mide fundamentalmente con valores booleanos (indicando si

es un valor correcto o no), para lo cual es necesario conocer cuáles son los

valores reales a considerar. En este caso, interesa medir que tan bien se

encuentran representados los estados del mundo real. Una de las métricas

utilizadas es la comparación de los datos con referenciales considerados

válidos.

La precisión, por otra parte, se refiere al nivel de detalle de los datos.

El enfoque hasta ahora ha sido en la exactitud a nivel de valores, o sea, del

valor de una celda (o campo) de una tupla. Sin embargo, es posible pensar en

la exactitud a nivel de tupla, o a nivel de tablas, e incluso considerando la base

entera. Es decir, se pueden considerar distintos niveles de granularidad a la



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


27

hora de evaluar la calidad de los datos. Es por esto que se definen funciones de

agregación, las cuales miden la exactitud de conjuntos de datos. Por ejemplo,

obtener la medida de una tupla a partir de la medida de exactitud de cada una

de sus celdas. El ratio es una función de agregación que consiste en identificar

la cantidad de valores correctos sobre la cantidad de valores totales. Brinda un

porcentaje de valores correctos. Otros ejemplos de funciones de agregación son

los promedios y promedios ponderados.

Para aclarar los conceptos se plantea un ejemplo sencillo. Se posee una base de

datos donde se almacena el nombre y la edad de determinadas personas. Para

el dato “Edad” se especifica que su valor estará en el rango 0 a 120. Además,

se sabe que existe una persona llamada Oscar Javier Morales, de 23 años de

edad. Se consideran entonces los siguientes casos:

Si existe un registro para una persona donde el campo edad tiene el valor 234,

entonces se trata de un error sintáctico (valor fuera del rango 0 a 120).

Si existe un registro para Oscar donde el campo edad tiene el valor 19,

entonces se trata de un error semántico, ya que es sabido que Oscar no tiene 19

años, sino que tiene 23 (en este caso no hay error sintáctico, pues 19 es un

valor válido para la edad).

Se enfrenta un problema de precisión si existe el interés de conocer la edad

exacta de Oscar, ya que solo se conoce la cantidad de años, no los meses ni

días de vida.

A pesar de que la exactitud semántica es generalmente más compleja de medir

que la exactitud sintáctica (ya que se requieren conocer los valores del mundo

real), cuando ocurren errores de tipeo ambos tipos de exactitud coinciden. Al

modificar su valor, se logrará exactitud sintáctica, ya que el valor escrito

correctamente se corresponderá con alguno del dominio, y semántica, ya que

existirá un valor real asociado al valor escrito correctamente.

Una forma de chequear la exactitud semántica es comparar diferentes fuentes

de datos, y encontrar a partir de estas el valor correcto deseado. Esto también

requiere de la resolución del problema de identificación de objetos, el cual



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


28

consiste en identificar si dos tuplas representan el mismo objeto en el mundo

real.

En el caso en que la exactitud sea considerada en un conjunto de valores, es

necesario considerar también la duplicación. Dicha problemática ocurre

cuando un objeto del mundo real se encuentra presente más de una vez (más de

una tupla representa exactamente el mismo objeto).

Sin embargo, podrían existir también tuplas que representan el mismo objeto

del mundo real pero con diferentes claves. Este aspecto es considerado por la

dimensión de Unicidad. Es importante destacar aquí que existen diferentes

situaciones que pueden llevar a la duplicación de datos: cuando la misma

entidad se identifica de diferentes formas, cuando ocurren errores en la clave

primaria de una entidad, cuando la misma entidad se repite con diferentes

claves.

Distinguimos dos factores de la dimensión Unicidad:

Duplicación: La misma entidad aparece repetida de manera exacta.

Contradicción: La misma entidad aparece repetida con

contradicciones.

2.3.5.2. Completitud (Completeness)

La completitud se puede definir como la medida en que los datos son de

suficiente alcance y profundidad.

De acuerdo al enfoque teórico, esta dimensión se define como la capacidad del

sistema de información de representar todos los estados significativos de una

realidad dada.

Existen dos factores de la completitud: cobertura y densidad.

La cobertura se refiere a la porción de datos de la realidad que se encuentran

contenidos en el sistema de información. Al igual que para la exactitud

semántica, la cobertura involucra una comparación del sistema de información

con el mundo real. Una vez más un referencial es requerido. Debido a que



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


29

suele ser difícil obtenerlo, otra alternativa es estimar el tamaño de tal

referencial.

La densidad se refiere a la cantidad de información contenida, y la faltante

acerca de las entidades del sistema de información.

Completitud de Datos Relacionales: La completitud en un modelo relacional

puede caracterizarse por los siguientes aspectos:

Valores nulos: El significado de los valores nulos puede ser variado.

Un valor nulo puede indicar que dicho valor no existe en el mundo

real, que el valor existe en el mundo real pero no se conoce, o que no

se sabe si el valor existe o no en el mundo real.

Es importante conocer la causa de su presencia.

Suposiciones:

CWA (Suposiciones del Mundo Cerrado, Closed World Assumption):

Todos los valores del mundo real se encuentran en el modelo

relacional. En un modelo CWA con valores nulos, la completitud se

define a partir de la granularidad de los elementos del modelo

(completitud del valor, de la tupla, de un atributo, o de la relación).

OWA (Suposiciones del Mundo Abierto, Open Worl Assumption): No

se puede asegurar que todos los valores del mundo real se encuentran

en el modelo relacional. En un modelo OWA sin valores nulos, la

completitud se mide como la cantidad de tuplas representadas en la

relación sobre su tamaño total (la cantidad de objetos del mundo real

que constituye la totalidad de la relación).

Por ejemplo, si se requiere tener registrados en una base de datos los datos

(nombre, edad y sexo) de todas las personas que habitan en el planeta Tierra,

entonces cada persona no registrada en la base degradará la completitud de los

datos (esto sería completitud a nivel de la relación).



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


30

También se verá disminuida la completitud si no se cuenta con la edad de

ciertas personas, o con su sexo (esto último se refiere a la completitud a nivel

de tupla o registro).

2.3.5.3. Dimensiones Relacionadas con el Tiempo

Los cambios y actualizaciones de los datos son un aspecto importante de la

calidad de datos a tener en cuenta. Es posible afirmar que en determinados

contextos un dato no actualizado es de mala calidad y puede llegar a ocasionar

problemas graves.

Como ejemplo, suponer que se planean unas vacaciones a una isla del Caribe.

Además de los preparativos correspondientes, se verifica el pronóstico del

clima para asegurar que no ocurran huracanes en los días que se estará allí. Si

la información climática no fue debidamente actualizada (por ejemplo si se

consulta una página web que no posee mantenimiento), puede que se esté

recibiendo el pronóstico equivocado, y por ende, que se estropeen las

vacaciones. Por lo tanto, el pronóstico podría ser muy completo y exacto desde

el punto de vista de la información climática que brinda, pero si es antiguo de

nada serviría.

Se describen las siguientes dimensiones relacionadas con el tiempo:

Actualidad (Currency): Trata sobre la actualización de los datos y su

vigencia. Esta dimensión puede ser medida de acuerdo a la

información de “última actualización".

Volatilidad (Volatility): Se refiere a la frecuencia con que los datos

cambian en el tiempo. Una medida para esta dimensión es la cantidad

de tiempo que los datos permanecen siendo válidos.

Edad (Timeliness): Especifica que tan actuales/viejos son los datos

para la tarea/evento en cuestión. Para medir esta dimensión es

necesario considerar una métrica de actualidad, y verificar que los

datos se encuentren dentro del límite establecido por la tarea/evento en

cuestión.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


31

2.3.5.4. Consistencia (Consistency)

Esta dimensión hace referencia al cumplimiento de las reglas semánticas que

son definidas sobre los datos.

De acuerdo al enfoque teórico, la inconsistencia de los datos se hace presente

cuando existe más de un estado del sistema de información asociado al mismo

objeto de la realidad. Una situación que podría ocasionar inconsistencias en los

datos es la incorporación de datos externos o con otros formatos.

Un ejemplo sencillo: Si en una tabla se almacenan datos de personas, tales

como fecha de nacimiento y edad, entonces si en un registro se tiene como

fecha de nacimiento el 01/01/2005 y como edad 42 años, existe una

inconsistencia (como se explica a continuación, se estaría violando una regla

intra-relacional).

Restricciones de integridad: Las restricciones de integridad definen

propiedades que deben ser cumplidas por todas las instancias de un esquema

relacional.

Se distinguen tres tipos de restricciones de integridad:

Restricciones de dominio: Se refiere a la satisfacción de reglas sobre

el contenido de los atributos de una relación.

Restricciones intra-relacionales: Se refiere a la satisfacción de reglas

sobre uno o varios atributos de una relación.

Restricciones inter-relacionales: Se refiere a la satisfacción de reglas

sobre atributos de distintas relaciones.

Existen además diferentes tipos de dependencias:

Dependencias de clave: no existen dos instancias de una relación r con la

misma clave k.

Dependencias de inclusión (restricciones referenciales): Algunas instancias de

la relación r están contenidas en instancias de otra relación s. Un ejemplo de

esta dependencia son las restricciones de clave foránea.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


32

Dependencias funcionales: una relación r satisface la dependencia funcional X-

>Y si para todo par de tuplas t1 y t2 se cumple que: Si t1.x = t2.x t1.y = t2.y

2.3.5.5. Relaciones entre las Dimensiones

Es claro que las dimensiones no son independientes entre sí, sino que se

interrelacionan de manera estrecha. Es necesario ser cuidadoso a la hora de

invertir esfuerzo en mejorar un aspecto (dimensión) de la calidad de datos, ya

que podría estar afectando negativamente otro aspecto de estos.

En línea con lo mencionado anteriormente, dependiendo del contexto

particular en el cual nos situemos elegiremos mejorar aquellas dimensiones

que consideramos de mayor valor para la calidad de nuestros datos, e ignorar

las que no la perjudican o afectan de manera significativa.

A modo de ejemplo, se mencionan algunas de las relaciones negativas más

comunes entre diferentes dimensiones de la calidad de datos:

Datos exactos, completos o consistentes podría implicar su desactualización

debido al tiempo que es necesario invertir en actividades de chequeo y

corrección.

La completitud (muchos datos) tiene mayores probabilidades de acarrear

errores de inconsistencia en los datos. Sin embargo, también existen

correlaciones positivas, esto es, que mejoran más de un factor. Es importante

identificar en primera instancia cuáles son los factores o dimensiones que se

requiere mejorar de acuerdo al contexto de aplicación, para luego evaluar si es

posible realizarlo de forma conjunta.

A modo de ejemplo, mencionamos algunas de las correlaciones positivas más

comunes entre diferentes factores de la calidad de datos:

La corrección de errores de tipeo mejora tanto la exactitud semántica como

sintáctica. Si se logran obtener datos más actualizados, se podría mejorar la

exactitud semántica (más datos corresponderían a la realidad). Si se completan

los valores nulos (densidad) también se podría mejorar la exactitud semántica.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


33

2.3.6. Enfoque en las dimensiones de la calidad de datos

A continuación se definen tres enfoques distintos que es posible adoptar con

respecto a las definiciones de las dimensiones en Calidad de Datos.

Enfoque Teórico

Este enfoque considera la correcta representación de la realidad en un sistema de

información.

En este aspecto, interesa conocer las deficiencias que se generan cuando ocurren

desviaciones en dicha representación. Dentro de las deficiencias relativas al diseño

del sistema de información, se destacan las siguientes:

Representación incompleta: Cuando un objeto del mundo real no se

asocia con ningún estado del sistema de información.

Representación ambigua: Cuando varios objetos del mundo real se

asocian con el mismo estado del sistema de información.

Representación sin significado: Cuando existen estados del sistema de

información que no se encuentran asociados con ningún objeto del mundo

real.

En lo que respecta a las deficiencias operacionales destacamos los errores

(garbling), que se refieren a una incorrecta asociación entre los objetos de la

realidad y los estados del sistema de información.

Enfoque Empírico

En este caso la información es obtenida a partir de entrevistas, cuestionarios y

experimentos. Se destacan cuatro categorías:

Calidad de Datos intrínseca: Calidad que los datos deben tener por sí sola

(ejemplo: exactitud).

Calidad de Datos contextual: Toma en cuenta el contexto en que los datos

son utilizados (ejemplo: completitud).

Calidad de Datos representacional: Referente a la calidad de la

representación de los datos (ejemplo: interpretación).



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


34

Calidad de Datos para la accesibilidad de los mismos.

Enfoque intuitivo

Las dimensiones son definidas de acuerdo al sentido común y la experiencia

práctica. Se destacan tres categorías: esquema conceptual, valor de los datos y

formato de los datos.

2.3.7. Técnicas y actividades de calidad de datos

En esta sección se explican algunas actividades y técnicas desarrolladas para

mejorar la calidad de los datos.

Las actividades relativas a la calidad de datos se refieren a cualquier proceso (o

transformación) que se aplica a los datos con el objetivo de mejorar su calidad.

Para llevar a cabo dichas actividades, se hace uso de distintas técnicas.

A continuación se describen algunas actividades relativas a la calidad de los datos:

Obtención de nueva información: Es el proceso de refrescar la

información almacenada en la base con datos de mayor calidad (por

ejemplo ingresar datos más precisos, de mayor actualidad).

Estandarización: Es el proceso de “normalizar” los datos almacenados,

de manera que queden almacenados respetando cierto formato (por

ejemplo todos los números de teléfono deben incluir el código de región).

Identificación de Objetos: Es el proceso por el cual se identifican

registros (dentro de una misma tabla, o entre tablas) que hacen referencia

al mismo objeto de la realidad.

Integración de datos: Hace referencia a la actividad de unificar datos

provenientes de distintas fuentes, resolviendo los problemas que esto trae

aparejados (redundancias, problemas de consistencia, duplicación).

Confiabilidad de las fuentes: Implica “calificar” a las distintas fuentes de

información de acuerdo a la calidad de los datos que proveen (esto tiene

más sentido considerando un sistema P2P por ejemplo).



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


35

Composición de calidad: Hace referencia a la definición de un álgebra

para calcular la composición (o agregación) de las medidas de las

dimensiones de calidad de datos. Por ejemplo, calcular la completitud de

una unión de relaciones, a partir de la completitud de cada relación.

Detección de errores: Dadas una o más tablas, y ciertas reglas que los

registros de dichas tablas deben cumplir, este es el proceso de detectar qué

registros no cumplen con dichas reglas.

Corrección de errores: Luego de la detección, esta actividad se encarga

de corregir los registros con errores, de manera que se respeten todas las

reglas correspondientes.

Optimización de costos: Implica obtener la mejor relación costo-

beneficio al aplicar procesos de mejora de la calidad de los datos.

2.4. LIMPIEZA DE DATOS

La limpieza de datos es un arma fundamental para lograr mejorar la calidad de los datos.

Es por esto que resulta imprescindible abordar esta temática, para conocer y comprender

los problemas que debe enfrentar, así como las fases que forman parte de cualquier

proceso de limpieza. Por otro lado, la limpieza de datos abre caminos para la detección,

corrección y prevención de errores en los datos.

La limpieza de datos (data cleaning o data cleansing) intenta resolver la problemática de la

detección y corrección de errores e inconsistencias que ocurren en los datos, con el fin de

mejorar su calidad. Estas actividades son de mayor importancia en las bases de datos en las

cuáles la información se ingresó de alguna manera que deja lugar a la aparición de errores.

Por ejemplo, cuando la información la ingresan personas desde el teclado, cuando se

obtiene de fuentes no muy confiables o cuando se integran diferentes fuentes de

información. En este último caso se vuelve necesario también consolidar los datos cuyo

significado es el mismo (pero varían en su representación), así como descartar aquellos

datos que se encuentren duplicados. Un ejemplo de ello son DW y sistemas de información

basados en web.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


36

Existen variadas herramientas que dan soporte a la limpieza de datos. Sin embargo, es

importante tener en mente que esta tarea implica, además de la utilización de herramientas,

un arduo trabajo manual o de programación de bajo nivel para su resolución [3].

2.4.1. Problemas que enfrenta la limpieza de datos

Tanto la limpieza como la transformación de datos se encuentran abocadas a

resolver la misma problemática, ya que es necesario realizar transformaciones a

nivel de la estructura, representación o contenido de los datos para lograr

efectivamente su limpieza. Los problemas que enfrenta la limpieza de datos se

pueden clasificar como sigue [3]:

Problemas provenientes de una sola fuente de información.

La calidad de los datos depende en gran medida de las restricciones de integridad y

el esquema en el cual se encuentran inmersos. Por ejemplo, las bases de datos

tienen menor probabilidad de poseer errores e inconsistencias en los datos, a

diferencia de los archivos de texto plano en los cuales no existe ningún tipo de

reglas ni restricciones con respecto a los datos ni sus valores.

Se distinguen además problemas a nivel del esquema o a nivel de instancia. Estas

últimas son las que conciernen a la calidad de los datos, y son ocasionados por

ejemplo por errores de tipeo.

Problemas provenientes de varias fuentes de información.

Cuando se integran varias fuentes de información, los problemas existentes para

una sola fuente se incrementan drásticamente. En este caso, se distinguen dos tipos

de problemas a nivel del esquema:

Conflictos de nombres: Cuando se utiliza el mismo nombre para

representar distintos objetos, o cuando distintos nombres representan el

mismo objeto.

Conflictos estructurales: Cuando el mismo objeto se representa de distinta

manera en fuentes de información distintas.

A nivel de instancia, los conflictos que pueden suceder son:



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


37

Diferentes representaciones para el mismo valor (por ejemplo el sexo con

valores F/M o 0/1).

Diferentes interpretaciones del mismo valor (por ejemplo una medida

expresada en minutos o segundos).

Diferentes niveles de agregación.

Diferentes puntos en el tiempo.

Sin duda, una de las mayores problemáticas de la limpieza de datos es la

identificación de datos que representan el mismo objeto del mundo real. Sin

embargo, al momento de realizar esta tarea es necesario considerar que a pesar de

que existe información redundante, en muchas ocasiones los datos que representan

el mismo objeto podrían complementarse (por ejemplo obtener la dirección y el

teléfono a partir del registro de una persona, y su edad y sexo a partir de otro

registro de la misma persona).

2.4.2. Fases de la limpieza de datos

A continuación se detallan las fases de las cuales consta un proceso de limpieza de

datos [3].

A. Análisis de datos: Esta fase consiste en determinar los errores e

inconsistencias que deberán eliminarse. Para ello se realiza una inspección

manual y se utilizan programas de análisis de datos.

Existen dos enfoques:

1. Data profiling: Consiste en analizar los datos de una base de datos y a

partir de estos obtener propiedades que se cumplen en la misma. Se

centra en el análisis de los atributos: su contenido, estructura,

dependencias en una relación, solapamiento con atributos de otras

relaciones, valores faltantes y duplicados.

Ejemplos:

Para valores ilegales: Definición de cardinalidades, valores

máximos y mínimos, variaciones/desviaciones.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


38

Para errores de tipeo: Ordenar los campos de manera tal que los

valores con errores se sitúen cerca de los reales.

Para valores faltantes: Cantidad de nulos, presencia de valores por

defecto pueden indicar también la falta de un valor.

Variación en la representación de valores: comparar columnas

iguales de tablas (fuentes) distintas.

Duplicados: Ordenar los valores por cantidad de ocurrencias.

2. Data mining: Se ocupa de la identificación de patrones en conjuntos

de datos (por ejemplo definir una relación entre distintos atributos).

B. Definición de transformaciones de datos y reglas de mapeo: Consiste

en un conjunto de pasos durante los cuales se llevan a cabo

transformaciones a nivel del esquema y de las instancias. Para ello se

pueden utilizar herramientas de ETL (Extraction, Transformation,

Loading), sentencias SQL (Standar Query Language) o funciones

definidas por el usuario.

2.4.3. Detección y corrección de errores

Utilizar el término error puede resultar demasiado amplio, teniendo en cuenta el

concepto multifacético con el que se define la calidad de datos. Por lo tanto, se

puede poner foco en [3]:

Detectar y corregir inconsistencias: Básicamente se trata de detectar registros

que no cumplan con determinadas reglas, y luego modificar los datos, por ejemplo

a partir de la obtención de nueva información, para que cumplan con las reglas.

Esta tarea incluye asegurar que la información se encuentra consistente (sin

contradicciones) y libre de redundancias.

Una técnica para la localización de errores es la llamada Data editing, la cual

consiste en la definición de reglas (edits) que deben ser respetadas por cierto

conjunto de datos, para lograr de esta manera la detección de inconsistencias. Los

edits representan condiciones de error, por lo cual deben ser consistentes y no



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


39

redundantes. Los datos de un registro deben ser ajustados de manera tal que

cumplan con las reglas, pero minimizando las modificaciones a los datos.

A modo de ejemplo, se tiene una tabla de personas donde se almacenan (entro

otros datos) si la persona tiene empleo y la edad de la persona. Luego, es posible

definir una regla que especifique que si la edad de la persona es menor a 16,

entonces el campo empleo debe ser false. A partir de esta regla, se pueden

identificar los registros que no la cumplan, y corregirlos.

Existen varias formas de corregir los errores detectados:

Refrescar la base de datos con nuevos datos.

Utilizar los edits definidos de manera tal que cuando no se cumple una

regla, se imputa un valor que haga que la misma sea verdadera.

Detectar y corregir datos incompletos: Si se consideran las tablas de las bases de

datos relacionales, el primer caso de incompletitud a tener en cuenta son los

valores nulos. En este caso si bien es muy simple detectar los datos incompletos,

puede que corregir sea difícil (en el caso de no tener forma de obtener la

información faltante).

Aquí se distinguen dos tipos de fuentes de incompletitud: datos truncados, que

corresponden a aquellos datos que son eliminados por no ser significantes para la

realidad en cuestión, por ejemplo, y datos censurados, que corresponden a aquellos

datos que se sabe que no fueron obtenidos, ya sea porque no se pudo o porque se

omitió.

Detectar y corregir anomalías: Este es el caso de datos cuyo valor difiere en gran

medida con respecto a los demás datos. La situación puede ser cualquiera de las

siguientes:

El valor fue mal medido, o mal ingresado en la base.

El valor corresponde a una “muestra” distinta a la de todos los demás.

El valor es correcto y simplemente corresponde a algún suceso inusual de

la realidad.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


40

Estos datos se pueden identificar a partir de dos medidas distintas: midiendo la

distancia de los valores registrados a los valores que se espera que haya

(desviación interna), o midiendo la variación de los datos en el tiempo con

respecto a otros datos (desviación relativa). Existen varias técnicas para ello. Una

de ellas, calcula el valor promedio y la desviación estándar de cierto conjunto de

datos, para identificar aquellos valores que se desvíen “demasiado” del valor

promedio. Se podría definir por ejemplo un valor límite a partir del cual el dato es

sospechoso de estar incorrectamente registrado. Otras técnicas utilizan también el

factor tiempo para identificar datos anómalos, partiendo de la base que datos

medidos o registrados en cierto lapso de tiempo pueden estar altamente

relacionados, y también teniendo en cuenta posibles ciclos donde aparezcan

“picos” en los valores, por ejemplo como puede ser el uso de celulares en Navidad

o Año Nuevo.

Lidiar con estas anomalías implica un doble esfuerzo: Primero se deben

identificar, y luego decidir si corresponden a datos correctos de sucesos de la

realidad poco comunes, o si corresponden a datos incorrectos y deben ser

corregidos.

2.4.4. Prevención de errores

Consiste en evitar que ocurran inconsistencias en los datos a futuro. Para ello es

necesario identificar primero cuáles son las causas de los errores y cómo lograr

eliminarlas de manera permanente.

La localización y corrección de errores se lleva a cabo para datos cuya creación y

actualización es poco frecuente. Sin embargo, la prevención de errores a través del

manejo de procesos es utilizada en mayor medida cuando los datos son

actualizados y creados de manera frecuente. Se incluyen controles a los procesos

en los cuales los datos son creados y/o actualizados para evitar que sucedan

inconsistencias.

Los edits también pueden ser utilizados para la prevención de errores y la mejora

de procesos, evitando la ocurrencia de ciertas inconsistencias en la base. Otra

forma de prevención de errores consiste en identificar cuáles con las actividades



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


41

manuales en las cuales suelen ocurrir la mayor cantidad de errores, y buscar su

automatización [7].

2.5. CONTROL DE CALIDAD DE LOS DATOS

Cualquier iniciativa de Calidad de Datos necesita procesos bien definidos para ser seguida

y permitir maximizar el control de calidad. A continuación se menciona los detalles del

proceso del control de Calidad de Datos implicado en la valoración, limpieza e incremento

de datos, y seguimiento y reporte de las anomalías de los datos [7].

2.5.1. Valoración de datos

La valoración de los datos consiste en analizar las estructuras de datos, esta es una

fase importante para la gestión de datos pues las prioridades de esfuerzos de la

corrección se determinan en esta fase. En el mapeo de datos o fase de

perfilamiento, el mapeo es llevado acabo entre los sistemas de origen y destino. El

perfilamiento proporciona más visibilidad a los requisitos de limpieza. Los

informes de limpieza pueden ser creados y priorizados e las entidades que son

críticas para la migración, es decir, la entidd cliente se debe limpiar a fondo para

evitar que afecte entidades dependientes tales como contratos o cuentas

pendientes.

2.5.2. Control de calidad de datos

Esta fase se centra en la corrección y estandarización de los datos e implica la

limpieza e incremento de los datos. Los datos s evalúan para determinar los

errores, las anomalías, las duplicaciones y las insuficiencias. La fase implica la

detección de errores y la corrección de datos para controlar la integridad de datos

en un cierto plazo

2.5.3. Seguimiento y reporte

Esta fase permite saber si la corrección ha sido exitosa o no. Provee la habilidad de

priorizar la calidad de datos. El desempeño de los equipos de calidad de datos

puede ser valorado en la acción tomada en la calidad de los eventos reportados. El



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


42

seguimiento también ayuda a identificar las causas más comunes de error y ayuda

a explorar la posibilidad de procedimientos automatizados de corrección.

2.6. CICLO DE MEJORAMIENTO DE LA CALIDAD DE DATOS EN UNA

ORGANIZACIÓN

2.6.1. Valoración

Cada ciclo de mejora comienza con una valoración. Esto puede ser una evaluación

de calidad a la muestra de datos de toda la empresa, o evaluar la calidad de datos

de uno de los departamentos. Al realizar la evaluación, no se deben limitar los

esfuerzos a los perfiles de datos y la recogida de datos estadísticos sobre los

defectos, se debe analizar toda la entrada de datos o proceso de manipulación de

datos para encontrar las causas profundas de los errores y encontrar oportunidades

de mejora de procesos

Otro tipo de evaluación es una auditoria periódica de datos. Este tipo de

evaluación se limita por lo general a un archivo o una base de datos a la vez. Se

trata de datos de perfil, así como la validación manual de datos, contra los datos de

dominio documentados (válidos los valores de los datos). Estos dominios ya

deberían haber sido documentados como los metadatos, si no, se pueden encontrar

en los programas, el código de traducción de libros, pantallas de ayuda en línea,

hojas de cálculo y otros documentos.

2.6.2. Plan

Después de que las oportunidades de mejora se han definido, se deben analizar,

priorizar, aprobar, financiar, asignar los recursos (personas) y programar. Dado

que todas las inversiones no tienen el mismo retorno, son igual de prácticas o

viables, se debe realizar un análisis de impacto que permita determinar que

mejoras tienen mayores beneficios.

2.6.3. Implementar

En este momento es cuando se ponen en marcha las mejoras propuestas. En

algunos casos, el grupo de calidad de los datos puede poner en práctica las mejoras



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


43

aprobadas, pero en otros casos, otras personas ya sean del negocio o de TI pueden

hacerlo.

Esto implicaría a las personas del negocio quienes están accediendo a los datos, el

administrador de la base de datos quien hace el mantenimiento de ésta, y los

desarrolladores que tienen acceso a ésta.

2.6.4. Evaluar

Las mejores ideas a veces son contraproducentes. Aunque algunos análisis de las

repercusiones se han llevado a cabo durante la planificación, es posible que algo

pase desapercibido. O peor, la implementación de la mejora puede estar creando

un nuevo problema. Por lo tanto, es aconsejable monitorear la implementación de

mejoras y evaluar su eficacia. Si se considera necesario, una mejora puede ser

revertida.

2.6.5. Adaptar

Ojalá la mayoría de las mejoras no deban ser revertidas, sin embargo algunas

pueden tener modificaciones antes de anunciar a toda la organización o ser

convertidas en nuevas normas, directrices o procedimientos.

2.6.6. Educar

El último paso es difundir la información sobre el nuevo proceso de mejora que se

ha implementado. Dependiendo del alcance del cambio, la educación se puede

lograr a través de aulas de formación apoyando este trabajo en computadoras, un

anuncio en la intranet de la organización, un boletín interno, o simple notificación

por correo electrónico.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS

CAPÍTULO III

RESULTADOS



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


45

3. RESULTADOS

3.1. ERRORES MÁS COMUNES EN LOS DATOS

En el presente capítulo se describe, cuáles son los tipos de errores más comunes que se

pueden presentar en los datos, en qué consisten, por qué resulta importante su

consideración, las posibles causas que los generó y la forma de medirlo.

Como mencionamos anteriormente en la sección Dimensiones de la Calidad de Datos,

cada dimensión tiene asociado factores de calidad, es por esta razón que los errores en los

datos se han asociado a los factores de calidad y por ende éstos a las dimensiones de

calidad. Esto puede visualizarse en la Tabla 1.

Las dimensiones de calidad de datos que se miden son: Exactitud, Completitud,

Consistencia y Unicidad.

Tabla 1 – Tipos de errores en los datos

Dimensión Factor Tipo de Error

EXACTITUD Exactitud sintáctica Valor fuera de rango

Estandarización

Registro mal ingresado

Exactitud semántica Registro inexistente

Valor fuera de referencial

COMPLETITUD Densidad Valor nulo

CONSISTENCIA Integridad intra-relación Reglas de integridad intra-relación

Valor único

Integridad referencial Referencia inválida

UNICIDAD Duplicación Registro duplicado

Contradicción Registro contradictorio

3.1.1. EXACTITUD

Para la dimensión Exactitud, se identifican los tipos de errores que se mencionan a

continuación.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


46

Dentro del factor exactitud sintáctica:

Valor fuera de rango.

Estandarización.

Registro mal ingresado.

Dentro del factor exactitud semántica:

Registro inexistente.

Valores fuera de referencial.

A continuación se describe cada uno de estos tipos de errores de manera detallada.

3.1.1.1. Valor fuera de rango

Es tipo de error suele darse si se trabaja con fechas, edades o campos

numéricos.

Medición:

La forma de medir estos errores consiste en establecer un rango al que debe

pertenecer el valor de cada celda, y verificarlo mediante la ejecución de

consultas SQL.

3.1.1.2. Estandarización

Este tipo de error suele darse debido a que en diferentes áreas de la

organización los sistemas que se usan, registran su información con diferentes

criterios, esto causará problemas al momento de integrar dicha información.

Un claro ejemplo se da cuando se registra el sexo de una persona, en algunas

bases de datos se registran como 1 y 0 y en otras como F y M. También suele

darse cuando se asignan siglas.

Medición:

Se debe establecer el formato a usar para el registro, y solo los que cumplan

esta condición podrán almacenarse en la base de datos.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


47

3.1.1.3. Registro mal ingresado

Este tipo de error se da cuando el personal encargado de ingresar los datos al

sistema lo hace erróneamente.

Medición:

Es un error que no podremos controlar fácilmente. Si se emiten facturas y los

datos que mostramos en ella, son incorrectos, serán los mismos clientes los

que nos lo harán saber. La solución se hará manualmente.

3.1.1.4. Registro inexistente

En este caso se identifican aquellos registros (tuplas) que no corresponden a

ningún objeto de la realidad. Esto es, registros que se encuentran almacenados

en la base de datos, pero que se asocian a un objeto que en la realidad no

existe. Los registros inexistentes no deberían formar parte de la base en

cuestión ya que no reflejan la realidad, además de que su consideración a la

hora de analizar los datos afectaría el resultado obtenido. Es por este motivo

que interesa identificarlos.

Medición:

No se identifica una forma automática de medir este tipo de error, ya sea

mediante una sentencia SQL o un algoritmo determinado.

La métrica utilizada consiste entonces en la revisión manual de las tuplas

involucradas en el presente tipo de error, con el fin de identificar si las mismas

corresponden o no a objetos de la realidad.

3.1.1.5. Valor fuera de referencial

Este tipo de error suele darse cuando se sabe con certeza cuales son los valores

permitidos por el campo. Por ejemplo cuando usamos combos de datos, de

manera que sólo deben existir en la base de datos valores permitidos por ese

campo.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


48

Los motivos por los que se podría incurrir en este tipo de error son a causa de

incorporación de datos externos, o de ingreso de datos directamente en la base,

que no correspondan con los valores permitidos. Por otra parte, el

administrador del sistema podría definir o registrar de manera incorrecta el

conjunto de valores permitidos para un campo. Este hecho puede ocasionar

que existan valores que es posible registrar, pero que se encuentran fuera de

los valores permitidos por el campo.

Medición:

Se debe corroborar si los valores permitidos por los campos son correctos, una

vez corroborado, se recorren las tuplas para el campo determinado (mediante

una consulta SQL), donde sólo se deben encontrar los valores permitidos. En

caso de encontrar valores incorrectos, se debe analizar si existen registros en la

base de datos que utilicen y/o referencien dichos valores.

3.1.2. COMPLETITUD

Para la dimensión Completitud, se identifica el tipo de error que se menciona a

continuación.

Dentro del factor densidad:

Valor nulo.

A continuación se describe este tipo de error de manera detallada.

3.1.2.1. Valor nulo

La existencia de valores nulos influye en el análisis de los datos que se lleve a

cabo, ya que al obtener estadísticas de los mismos se hace necesario dejar de

lado aquellos valores vacíos.

Resulta necesario identificar en primera instancia cuáles son los campos que

admiten nulos y cuáles no, según el esquema actual de la base de datos. Luego,

se identifican aquellos campos que admiten nulos, pero deberían en la realidad

contener algún valor distinto de vacío. Este último caso es el que interesa



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


49

medir. Se asume que el control sobre los campos declarados como no nulos se

realiza correctamente por el SGBD.

El motivo de omisión de los campos podría ser cualquiera de los siguientes:

La persona encargada de registrar los datos en el sistema no ingresa el

valor (puede ser por omisión accidental o por no saber determinarlo).

Un error en el manejo de los datos (ya sea de la aplicación web, o de la

base) que ocasiona que el valor ingresado por el registrador no se

almacene correctamente.

Medición:

Se incluyen en este tipo de error los atributos que deberían ser no nulos, pero

no fueron definidos como tales en la base de datos. La forma de medir estos

errores consiste en verificar mediante la ejecución de consultas SQL si los

valores de las celdas que interesa medir se encuentran vacíos.

3.1.3. CONSISTENCIA

La consistencia captura la satisfacción de reglas semánticas definidas sobre los

datos. Lo primero que se debe identificar son las reglas existentes, para luego

evaluar su cumplimiento en el dominio bajo estudio. La mayoría de estas reglas

suele ser controlado por el SGBD.

Para la dimensión Consistencia, se identificaron los tipos de errores que se

mencionan a continuación.

Dentro del factor integridad intra-relación:

Reglas de integridad intra-relación.

Valor único.

Dentro del factor integridad referencial:

Referencia inválida.




BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


50

3.1.3.1. Reglas de integridad intra-relación

Se definen un conjunto de reglas sobre los atributos que deben ser satisfechas

en la base de datos. El hecho de que alguna de estas reglas sea violada, afecta

la consistencia de los datos y por lo tanto cualquier análisis que se lleve a cabo

a partir de estos.

La causa principal por la cual estas reglas no son satisfechas, es la falta de

definición de restricciones en la base de datos.

Medición:

La forma de medir este tipo de error consiste en verificar mediante la

ejecución de consultas SQL si se cumplen las reglas de integridad intra-

relación previamente definidas para la realidad bajo estudio.

3.1.3.2. Valor único

Este tipo de error suele darse en aquellas tuplas que contengan el mismo valor

en ciertos atributos (que no es la clave primaria), pero que deberían ser únicos.

Se debe identificar cuáles son los campos que son declarados como únicos y

cuáles no, según el esquema actual de la base de datos. Luego, se identifican

aquellos campos que no contienen la restricción de unicidad, pero que

deberían tenerla. Estas últimas tuplas son las que interesa medir. Se asume que

el control sobre los campos declarados como únicos se realiza correctamente

por el SGBD.

La causa de este error es la no definición de restricciones unique sobre los

campos involucrados.

Medición:


ejecución de consultas SQL si se cumplen las restricciones de unicidad en las

celdas que interesa medir.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


51

3.1.3.3. Referencia inválida

Este tipo de error suele darse cuando no se cumplen las reglas establecidas

entre atributos de distintas tablas. Se debe identificar aquellas referencias hacia

determinadas tuplas que no existen, y por lo tanto resultan ser referencias

inválidas.

Este tipo de error se debe a un error en el diseño del esquema de la base de

datos, ya que se omite la definición de foreign keys sobre ciertos atributos. Lo

primero que se debe analizar son las restricciones de integridad referencial

existentes sobre la base de datos en cuestión. A partir de dicho análisis, se

obtienen los campos para los cuales la definición de foreign key fue omitida.

Medición:


ejecución de consultas SQL si existen tuplas que contengan referencias

inválidas.

3.1.4. UNICIDAD

Para la dimensión Unicidad, se identifican los tipos de errores que se mencionan a

continuación.

Dentro del factor duplicación:

Registro duplicado.

Dentro del factor contradicción:

Registro contradictorio.


3.1.4.1. Registro duplicado

Este tipo de error se da cuando existen dos o más registros que aparecen

repetidos de manera exacta. Existen dos situaciones:

Cuando contienen el mismo valor en la clave y demás atributos.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


52

A pesar de contener distinta clave primaria, hacen referencia al mismo

objeto de la realidad y contienen los mismos datos en los campos que

se definan.

A pesar de que los controles del SGBD evitan la existencia de registros

duplicados con la misma clave primaria, se deben realizar los chequeos

necesarios para verificar que no existan registros repetidos.

La causa de este tipo de error se puede deber a una equivocación por parte de

la persona encargada de registrar la información, ya que podría registrar varias

veces las misma información, o un error del sistema que ocasione se

almacenen registros repetidos en la base de datos. Es importante considerar

este tipo de error ya que, de no ser así, los resultados obtenidos a partir del

análisis de los datos que se lleve a cabo resultarían erróneos.

Medición:

La forma de medir este tipo de error consiste en verificar mediante la ejecución

de consultas SQL si existen tuplas duplicadas, según los criterios de

duplicación que se definan.

3.1.4.2. Registro contradictorio

Este tipo de error se da cuando existen dos o más registros que aparecen

repetidos de manera contradictoria. Esto significa que contienen distinto valor

en la clave y/o demás atributos, a pesar de que hacen referencia al mismo

objeto de la realidad.

La causa de este tipo de error se puede deber a una equivocación de la persona

encargada de registrar la información en el sistema, o un error en el sistema

que ocasione que se almacenen registros contradictorios en la base. Es

importante considerar este tipo de error ya que, de no ser así, los resultados

obtenidos a partir del análisis de los datos que se lleve a cabo resultarían

erróneos.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


53

Medición:


ejecución de consultas SQL y algoritmos programados si existen tuplas

contradictorias.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


54

3.2. DESARROLLO DE MÉTODO PARA MEJORAR LA CALIDAD DE DATOS

3.2.1. DIAGRAMA DE PROCESOS

Método Propuesto

BASE DE DATOS TEMPORAL

Extracción

Detección de

errores

Análisis de datos

Corrección de

errores

Transformación

Carga



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


55

A. Extracción

Consiste en extraer los datos desde los sistemas de origen. La mayoría de los proyectos

de almacenamiento de datos fusionan datos provenientes de diferentes sistemas de

origen. Cada sistema separado puede usar una organización diferente de los datos o

formatos distintos. Los formatos de las fuentes normalmente se encuentran en base de

datos relacionales o ficheros planos, pero pueden incluir base de datos no relacionales

u otras estructuras diferentes. La extracción convierte los datos a un formato preparado

para iniciar el proceso de transformación.

B. Almacenamiento en base de datos temporal

Luego de la extracción almacenamos los datos en la base de datos temporal, donde se

realizará el análisis, detección y corrección de errores. Es recomendable que el modelo

de datos que se trabaje para esta base de datos se corresponda con el que se usará para

el DW, de esta manera se logrará recuperar la mayor cantidad de datos para la toma de

decisiones.

C. Análisis de datos

Dependiendo del contexto particular en el cual nos situemos elegiremos mejorar

aquellas dimensiones que consideramos de mayor valor para la calidad de nuestros

datos, e ignorar las que no la perjudican o afectan de manera significativa, queda a

criterio del analista de datos realizar este proceso. Lo primero que se debe identificar

son los factores o dimensiones que se requiere mejorar para cada campo de las tablas

de la base de datos temporal, una vez definidas las dimensiones, se elegirá qué tipo de

error se analizará para cada una de ellas y a la vez se debe definir las reglas que los

campos de dichas tablas deben cumplir. Para el desarrollo de este análisis nos

apoyaremos en la Tabla 1 donde se muestran los tipos de errores asociados a sus

respectivas dimensiones, lo que nos permitirá medirlos posteriormente.

D. Detección de errores

Una vez definidos los errores que se deben analizar, se deben definir las consultas que

nos permitirán obtener la cantidad de errores encontrados para cada campo. En este

proceso se debe detectar qué registros no cumplen con las reglas establecidas en la

etapa anterior.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


56

E. Corrección de errores

Esta etapa se encarga de corregir los registros con errores, de manera que se respeten

las reglas establecidas en la etapa de análisis. Los errores encontrados pueden ser

solucionados de 2 formas: manualmente y automáticamente. En el primer caso lo que

se hace es identificar los errores, a que área de la organización le corresponde el

registro de la información y que sean ellos los encargados de actualizarla con data

correcta y la segunda se hace mediante consultas SQL a la base de datos.

F. Transformación

Esta fase aplica una serie de reglas de negocio o funciones sobre los datos extraídos

para convertirlos en datos que serán cargados.

Algunas fuentes de datos requieren alguna pequeña manipulación de los datos. No

obstante, entre otros casos pueden ser necesarias aplicar algunas de las

transformaciones mencionadas en el capítulo 2.

G. Carga

La fase de carga es el momento en el cual los datos de la fase anterior (transformación)

son cargados en el sistema de destino

3.2.2. DESARROLLO DEL MÉTODO

Nuestro método propone tener una base de datos temporal en el proceso ETL

donde se detecten y corrijan los errores. Esta base se encontraría entre la etapa de

Extracción y Transformación como se muestra en la Figura 1. Como

mencionamos anteriormente, la extracción convierte los datos en un formato

preparado para iniciar el proceso de transformación y La fase de transformación

aplica una serie de reglas de negocio o funciones sobre los datos extraídos para

convertirlos en datos que luego serán cargados en el DW. Si los datos que

mandamos a cargar no cumplen las reglas de negocio establecidas, lo que se hará

es asignarle un valor por defecto o en el peor de los casos no se tomará en cuenta.

Se corre el riesgo de que justamente la información que no se tome en cuenta sea

esencial para nuestro análisis posterior.

Es por esta razón que se propone que los errores en los datos sean corregidos en la

base de datos temporal para luego aplicar las transformaciones correspondientes y



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


57

posteriormente cargarlo en el DW como se muestra en la Figura 2. En la sección

Análisis de errores más comunes, se detallan los tipos de errores que se han

considerado, se explican las posibles causas que generaron el error y la manera de

solucionarlo. Este es una etapa muy importante ya que nos permite actualizar la

información con data fidedigna, lo que mejorará enormemente la calidad de los

datos de la organización.

Los errores que encontramos en los datos pueden ser solucionados de 2 formas:

manualmente y automáticamente. En el primer caso lo que se hace es identificar

los errores, a que área de la organización le corresponde el registro de la

información y que sean ellos los encargados de actualizarla con data correcta y la

segunda se hace mediante consultas SQL a la base de datos. Hay casos donde el

error encontrado se debe a errores en el código de sus sistemas, a la falta de

especificaciones para los campos de sus bases de datos, en estos casos se emite un

informe con los detalles de los mismos, para que estas observaciones sean

solucionadas por los desarrolladores de la organización.

FIGURA 1: Proceso ETL con la base de datos temporal

Extracción

Base

Temporal

Transformación Carga



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


58

FIGURA 2: Etapas por las que pasan los datos en la base de datos Temporal

A continuación se describe el método propuesto.

1. Almacenar los datos seleccionados para el proceso de DW en la base de datos temporal.

2. Buscar los errores especificados en la Tabla 1 mediante consultas SQL, esto se debe hacer

para cada campo almacenado en la base de datos temporal. Dependerá del encargado de este

proceso que tipos de errores analizará para cada campo. A medida que vamos encontrando los

errores vamos registrando los resultados en la Tabla 2.

Analizar Datos

Detectar Errores

Corregir Errores

Prevenir

Errores



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


59

Tabla 2: Análisis de errores en los datos

ANÁLISIS DE ERRORES EN UN CAMPO DETERMINADO

TOTAL DE TUPLAS 1000

Dimensión Factor Tipo de Error Total de

Errores

Porcentaje

de Error

EXACTITUD Exactitud

sintáctica

Valor fuera de rango 200 20%

Estandarización 250 25%

Registro mal ingresado 150 15%

Exactitud

semántica

Registro inexistente 130 13%

Valor fuera de

referencial

180 18%

COMPLETITUD Densidad Valor nulo 170 17%

CONSISTENCIA Integridad intra-

relación

Reglas de integridad

intra-relación

160 16%

Valor nulo 200 20%

Integridad

referencial

Referencia inválida 110 11%

UNICIDAD Duplicación Registro duplicado 180 18%

Contradicción Registro contradictorio 170 17%

3. Una vez obtenida la Tabla 2, elegimos aquellos tipos de error donde su porcentaje es mayor a

15%, se ha considerado este valor de manera general, pero sería recomendable asignar el

margen dependiendo de la importancia del campo, esto depende mucho del proyecto que se

esté trabajando y de los efectos que estos puedan tener dentro de la organización. Los tipos de

errores de un campo determinado que tengan el porcentaje de error mayor a 15% deben pasar

por el proceso de corrección de datos. En la sección Análisis de errores más comunes, se

explica cómo se deben solucionar dichos errores.

4. Una vez corregidos los errores, volvemos hacer un análisis de cada campo, como se hizo en el

paso 2, con la finalidad de hacer un comparativo entre los porcentajes de error que presentan

ahora los datos y vamos registrando los resultados en la Tabla 3.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


60

Tabla 3: Corrección de errores en los datos

CORRECCIÓN DE ERRORES EN UN CAMPO DETERMINADO

TOTAL DE TUPLAS 1000

Dimensión Factor Tipo de Error Total de

Errores

Porcentaje

de Error

EXACTITUD Exactitud

sintáctica

Valor fuera de rango 100 10%

Estandarización 100 10%

Registro mal ingresado 50 5%

Exactitud

semántica

Registro inexistente 50 5%

Valor fuera de

referencial

80 8%

COMPLETITUD Densidad Valor nulo 100 10%


relación

Reglas de integridad

intra-relación

40 4%

Valor nulo 130 13%

Integridad

referencial

Referencia inválida 50 5%

UNICIDAD Duplicación Registro duplicado 70 7%

Contradicción Registro contradictorio 30 3%

5. Se obtendrá un valor promedio de todos los porcentajes de error relacionados con la dimensión

en estudio como se muestra en la Tabla 4, esto se hará para cada campo que pasará al DW.

Los valores de los porcentajes que hemos colocado son a modo de ejemplo ya que lo que se

propone es un método general.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


61

Tabla 4: Resultados de las dimensiones de calidad para un campo determinado

NOMBRE DEL CAMPO PARA EL QUE SE HACE EL ANÁLISIS

Dimensión Factor Tipo de Error Porcentaje

de Error

Promedio

EXACTITUD Exactitud sintáctica Valor fuera de rango 10%

7.6%

Estandarización 10%

Registro mal ingresado 5%

Exactitud semántica Registro inexistente 5%

Valor fuera de referencial 8%

COMPLETITUD Densidad Valor nulo 10% 10%


relación

Reglas de integridad intra-

relación

4%

7.3% Valor nulo 13%

Integridad referencial Referencia inválida 5%

UNICIDAD Duplicación Registro duplicado 3%

3% Contradicción Registro contradictorio 3%

6. Una vez que tenemos lista la Tabla 4, podemos hacer un análisis de los porcentajes de error

promedio obtenidos, por ejemplo en la Tabla 4 podemos interpretar que la exactitud para el

campo “X” se cumple en 7.6%, la completitud en 10%, la consistencia en 7.3% y la Unicidad

en 3%, si se está de acuerdo con ellos (porcentajes de error permitidos), se podrá decir que el

proceso de corrección de datos fue exitoso y por ende se mejoró la calidad de los datos para

cada campo de la base de datos temporal, por ende estaría lista para la etapa de transformación

y carga en el DW.

.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS

CAPÍTULO IV

DISCUSIÓN DE RESULTADOS



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


63

4. DISCUSIÓN DE RESULTADOS

Cada campo considerado en la base de datos temporal debería pasar por el proceso de análisis,

detección y corrección de errores. De esta manera se podrá analizar las dimensiones de calidad

en cada uno de ellos como se hace en el Cuadro 2, éste análisis nos permitirá saber si los datos

son de calidad o no, ya que es el principal objetivo del presente trabajo de investigación.

En el Cuadro 1 se muestra el análisis de errores que presenta el campo “X”, podemos darnos

cuenta que los porcentajes de errores que se muestra en cada dimensión de calidad son

superiores a los permitidos, por lo que este campo debe pasar por el proceso de corrección de

datos.

Cuadro 1: Porcentaje de errores encontrados para un campo determinado.

Exactitud Completitud Consistencia Unicidad

Porcentaje de Error Permitido 15% 15% 15% 15%

Porcentaje de Error Actual 18.20% 17% 16.00% 18%

0%

2%

4%

6%

8%

10%

12%

14%

16%

18%

20%

Po

rce

nta

je d

e E

rro

r

Análisis de errores en los datos



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


64

Después de pasar por la etapa de Corrección de Datos, se vuelve hacer el análisis de las

dimensiones de calidad para cada campo. En el Cuadro 2 podemos darnos cuenta que los

porcentajes de errores actual para el campo “X” son menores a los permitidos, con lo que se

demuestra que la calidad en los datos se ha logrado.

Cuadro 2: Porcentaje de errores encontrados para un campo determinado después de la

corrección de los mismos.

Exactitud Completitud Consistencia Unicidad

Porcentaje de Error Permitido 15% 15% 15% 15%

Porcentaje de Error Actual 7.60% 10% 7.30% 3%

0%

2%

4%

6%

8%

10%

12%

14%

16%

Po

rce

nta

je d

e E

rro

r

Análisis de errores en los datos



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


65

4.1. Cuadro comparativo de método tradicional y el método propuesto

A continuación se muestra en la Tabla 5 un cuadro comparativo entre el método

tradicional (ETL) y el método propuesto.

Tabla 5: Cuadro comparativo entre método tradicional y método propuesto

MÉTODO TRADICIONAL MÉTODO PROPUESTO

Extracción Extracción

Base Temporal

Análisis

Detección

Corrección

Transformación Transformación

Carga Carga



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS

CAPÍTULO V

CONCLUSIONES



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


67

5. CONCLUSIONES

En este capítulo se presentan las conclusiones y aportes obtenidos con el desarrollo de este

proyecto así como las recomendaciones para futuras investigaciones. Es fundamental que los

datos resultantes sean de buena calidad, ya que estos son el punto de partida para análisis

estadísticos, estudios comparativos, análisis de datos y toma de decisiones dentro de una

organización, razón principal para la elaboración de esta tesis.

5.1. CONCLUSIONES

1. Se realizó el análisis de los diferentes tipos de errores que se presentan en los datos y

se seleccionó aquellos que pueden presentarse con mayor frecuencia dentro de los

datos de las organizaciones.

2. Luego de haber analizado los tipos de errores que se presentan en los datos, se realizó

el estudio de las dimensiones de calidad de datos y se seleccionaron aquellas que están

relacionadas con los errores en estudio. Las dimensiones consideradas son exactitud,

completitud, consistencia y unicidad.

3. Todo el análisis sobre errores y dimensiones de calidad de datos nos permitió proponer

un método para mejorar la calidad de datos en el proceso de construcción de un DW.

4. Para mejorar la calidad de datos y reflejar fielmente la realidad de los datos de las

organizaciones, se propone tener una base de datos temporal en el proceso ETL, en la

que se detecten y corrijan los errores. De esta manera evitaremos que ciertos datos que

son importantes para la organización, se le asignen valores por defecto o simplemente

no sean tomados en cuenta.

5. El método propuesto está sujeto a las características del proyecto en el que se trabaje.

Esto quiere decir que los errores que se busquen en los datos, las dimensiones que se

tomen en cuenta para medir la calidad de los datos y los porcentajes de error

permitidos dependerán del proyecto en particular.

6. Se presentan casos donde el error encontrado se debe a errores en el código de sus

sistemas, a la falta de especificaciones para los campos de sus bases de datos, en estos

casos se emite un informe con los detalles de los mismos, para que estas observaciones

sean solucionadas por los desarrolladores de la organización.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


68

5.2. TRABAJOS FUTUROS

1. Se propone que se automatice el método propuesto, mediante el uso de una

herramienta existente en el mercado o un software de la propia empresa, para realizar

el análisis de los datos en el menor tiempo posible.

2. Hacer un catálogo de todas las dimensiones de calidad que existen y de los tipos de

errores que se presentan en los datos, donde se defina qué tipos de errores abarca cada

dimensión. Este sería un catálogo general y serviría de mucha ayuda a todas las

organizaciones que piensan implementar un proceso de DW.

3. Se podría desarrollar un método que mida la calidad de datos después de la

construcción de un DW, ya que nuestro método mide la calidad de datos antes de que

los datos se carguen en el DW.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


69

REFERENCIAS

[1] Tho Nguyen, SAS Institute Inc. Cary, North Carolina. The Value of ETL and Data Quality.

[2] I. Amon Uribe. Guía metodológica para la selección de técnicas de depuración de datos, 2010.

[3] B. Bianchi gallo, M. Valverde Corrado. Un caso de estudio en Calidad de Datos para Ingeniería de

Software Empírica, 2009.

[4] J. Vilalta Alonso, M. Delgado Fernández. Calidad de datos: Un reto para la empresa moderna,

2007.

[5] J. Heredia Rico, J. Vilalta Alonso. La calidad de los datos: Su importancia para la gestión

empresarial, 2009.

[6] I. Arribas López. Data Warehouse de soporte a datos de GSA, 2008.

[7] Byron Boada, Alvaro Tituaña. "Desarrollo de una aplicación de bussiness intelligense (bi) para la

empresa empaqplast". Escuela Politecnica del Ejercito. Departamento de Ciencias de la

Computacion.Sangolqui - Ecuador 2012.



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS


70



BIBLIO

TECA DE C

IENCIAS FÍSIC

AS

Y MATEMÁTIC

AS

y matemÁticas ciencias

Documents