ticb1 - mineria de datos

Upload: roger-fabian-molina-salvador

Post on 13-Jul-2015

325 views

Category:

Documents


3 download

TRANSCRIPT

B1G1T07 - MINERA DE DATOS.

1.

LA MINERA DE DATOS: DATA MINING.................................................................................................................. 3 1.1 EL PROCESO DE DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS........................................ 3 1.2 DEFINICIONES DE MINERA DE DATOS............................................................................................................... 3 1.3 FUNDAMENTOS DE LA MINERA DE DATOS...................................................................................................... 4 1.4 FASES DEL PROCESO DE MINERA DE DATOS................................................................................................... 5 1.4.1 PASOS EN LA FASE DE PREPARACIN DE LOS DATOS ............................................................................... 5 1.4.2 PASOS EN LA MINERA DE DATOS .................................................................................................................. 5 1.5 ELEMENTOS O TCNICAS DE LA MINERA DE DATOS .................................................................................... 5

2.

APLICACIN A LA RESOLUCIN DE PROBLEMAS DE GESTIN .................................................................... 5 2.1 PLANTEAMIENTO INICIAL DEL PROBLEMA...................................................................................................... 5 2.2 EL ANLISIS DE LA INFORMACIN ..................................................................................................................... 5 2.2.1 CONOCIMIENTO EVIDENTE ............................................................................................................................ 5 2.2.2 CONOCIMIENTO MULTIDIMENSIONAL ......................................................................................................... 5 2.2.3 CONOCIMIENTO OCULTO................................................................................................................................ 5 2.3 LA MINERA DE DATOS RESUELVE EL PROBLEMA.......................................................................................... 5 2.4 APLICACIONES DE LA MINERA DE DATOS ....................................................................................................... 5 2.4.1 MARKETING........................................................................................................................................................ 5 2.4.2 PREDICCIN ...................................................................................................................................................... 5 2.4.3 REDUCCIN DE RIESGOS ................................................................................................................................ 5 2.4.4 DETECCIN DE FRAUDES ............................................................................................................................... 5 2.4.5 CONTROL DE CALIDAD .................................................................................................................................... 5

3.

TECNOLOGA Y ALGORITMOS.................................................................................................................................. 5 3.1 MODELOS DE LA MINERA DE DATOS................................................................................................................. 5 3.1.1 MODELO DE VERIFICACIN ........................................................................................................................... 5 3.1.2 LOS NUEVOS MODELOS AUTOMTICOS ....................................................................................................... 5 3.1.3 MODELOS PREDICTIVOS.................................................................................................................................. 5 3.1.4 MODELOS DE DESCUBRIMIENTO DEL CONOCIMIENTO ........................................................................... 5 3.2 CLASIFICACIN........................................................................................................................................................ 5 3.2.1 CLASIFICADORES DE RBOLES DE DECISIN............................................................................................. 5 3.2.2 CREACIN DE CLASIFICADORES DE RBOLES DE DECISIN.................................................................. 5 3.2.3 OTROS TIPOS DE CLASIFICADORES............................................................................................................... 5 3.2.4 REGRESIN......................................................................................................................................................... 5 3.3.1 REGLAS DE ASOCIACIN ................................................................................................................................. 5 3.3.2 OTROS TIPOS DE ASOCIACIN ....................................................................................................................... 5

4.

BASES DE DATOS MULTIDIMENSIONALES............................................................................................................ 5 4.1 ANLISIS MULTIDIMENSIONAL........................................................................................................................... 5 4.1.1 EL ESQUEMA MULTIDIMENSIONAL ............................................................................................................... 5 4.1.2 CARACTERSTICAS DEL ANLISIS MULTIDIMENSIONAL............................................................................ 5 4.2 MODELO DE DATOS MULTIDIMENSIONAL (MDM)........................................................................................... 5 4.3 DIMENSIONES ........................................................................................................................................................... 5 4.3.1 EJEMPLO 1.......................................................................................................................................................... 5 4.3.2. EJEMPLO 2.......................................................................................................................................................... 5 4.4 JERARQUAS.............................................................................................................................................................. 5 4.4.1 EJEMPLO 3.......................................................................................................................................................... 5 4.5 BD MULTIDIMENSIONALES VERSUS BD RELACIONALES.............................................................................. 5

5.

PROCESAMIENTO ANALTICO EN LNEA (OLAP)................................................................................................ 5 5.1 DEFINICIN DE OLAP.............................................................................................................................................. 5

5.2 CARACTERSTICAS DE LOS SISTEMAS OLAP .................................................................................................... 5 5.3 IMPLEMENTACIN DE SISTEMAS OLAP ............................................................................................................. 5 5.3.1 MOLAP (Multidimensional-OLAP)...................................................................................................................... 5 5.3.2 ROLAP (Relational-OLAP) .................................................................................................................................. 5 5.3.3 HOLAP (Hydrid-OLAP) ....................................................................................................................................... 5 5.4 ROLAP: TIPOS DE DISEO...................................................................................................................................... 5 5.4.1 ESQUEMA EN ESTRELLA .................................................................................................................................. 55.4.1.1 5.4.1.2 5.4.1.3 TABLA DE HECHOS ........................................................................................................................................................ 5 TABLAS DE DIMENSIN................................................................................................................................................ 5 FIGURA DE TABLA DE HECHOS CON TABLA DE DIMENSIONES......................................................................... 5

5.4.2 ESQUEMA EN COPO DE NIEVE ....................................................................................................................... 5 5.4.3 CONSTELACIN DE ESTRELLAS ..................................................................................................................... 5 5.4.4 NDICES BITMAP................................................................................................................................................ 5 5.5 ELECCIN DE UNA HERRAMIENTA OLAP .......................................................................................................... 5 5.6 COMPARATIVA DE OLAP Y OTROS SISTEMAS .................................................................................................. 5 5.6.1 MINERA DE DATOS FRENTE A OLAP Y DSS.................................................................................................. 5 5.6.2 SISTEMAS OLTP VERSUS SISTEMAS OLAP ..................................................................................................... 5 6. 7. 8. CONCLUSIN ................................................................................................................................................................... 5 BIBLIOGRAFA ................................................................................................................................................................ 5 ESQUEMA RESUMEN .................................................................................................................................................. 5

1.

LA MINERA DE DATOS: DATA MINING

El trmino minera o recopilacin de datos (data mining) hace referencia al proceso de anlisis semiautomtico de bases de datos de gran tamao para hallar estructuras tiles. Al igual que la bsqueda de conocimiento en la inteligencia artificial o el anlisis estadstico, la minera de datos intenta descubrir reglas y estructuras a partir de los datos. Es decir, la minera de datos trata de la bsqueda del conocimiento en las bases de datos. Los almacenes de datos guardan todos los datos relevantes para una organizacin, estando estructurados para que se pueda extraer informacin a partir de dichos datos. En este tema vamos a ver como la minera de datos permite sacar el mximo provecho del almacn de datos, ofreciendo una serie de tcnicas y herramientas que automatizan (o semiautomatizan) el proceso de extraccin de informacin y significado a partir de los datos que ste contiene. El nombre de minera de datos (data mining) deriva de las similitudes entre buscar valiosa informacin de negocios en grandes bases de datos y minar una montaa para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente dnde residen los valores.

1.1

EL PROCESO DE DESCUBRIMIENTO DE CONOCIMIENTO EN BASES DE DATOS

El descubrimiento de conocimiento en las bases de datos es el proceso no trivial de identificacin de patrones vlidos, potencialmente tiles y comprensibles en los datos. El objetivo es la extraccin de conocimiento de los datos, en el contexto de las bases de datos de gran tamao. El proceso es iterativo, consta de unos pasos bsicos e involucra decisiones por parte del usuario, siendo interactivo. Esto quiere decir que el proceso requiere el entendimiento del dominio de la aplicacin por parte del usuario. Se han identificado los siguientes pasos como componentes del proceso: Seleccin de un conjunto de datos objetivo. Preprocesamiento y limpieza de los datos. Transformacin y reduccin en la dimensin de los datos. Seleccin del mtodo de minera de datos y de la tcnica (algoritmo) de minera de datos e implementacin de la tcnica para realizar la extraccin de patrones. Interpretacin o evaluacin de los patrones extrados. Consolidacin del conocimiento descubierto.

Por otro lado, el consorcio Cross-Industry Standard Process for Data Mining propuso un modelo estndar y de acceso pblico del proceso. El modelo es jerrquico y consta de cuatro niveles de abstraccin: El primer nivel est constituido por una serie de fases las cuales se dividen en tareas generales. El segundo nivel se conoce como genrico, ya que, trata de cubrir todas las posibles situaciones de minera de datos. El tercer nivel es ms especializado, describiendo particularmente qu acciones deben llevarse a cabo dependiendo de situaciones especificas. El cuarto nivel es la instanciacin del proceso, como un registro de acciones, decisiones y resultados del proceso completo de minera de datos.

1.2

DEFINICIONES DE MINERA DE DATOS

Veamos ahora una serie de definiciones de minera de datos, que ayudan a entender mejor en qu consiste:

La minera de datos pretende obtener visiones en profundidad de los datos corporativos que no son fcilmente detectables. De hecho, ms que analizar los resultados de la actividad, permite modelizarla construyendo patrones o categoras que la identifiquen, respondiendo a las necesidades de informacin del tipo qu hay en los datos de inters?, o qu podra ocurrir en un futuro?, en base al descubrimiento de tendencias o agrupaciones interesantes de datos. De hecho, las herramientas enmarcadas bajo la denominacin de Minera de Datos (MD), permiten no slo el anlisis de informacin que tradicionalmente ha venido siendo realizado por los Sistemas de Soporte a la Decisin (DSS), sino, y esto es lo realmente importante y diferencial, el planteamiento y descubrimiento automtico de hechos e hiptesis, ya sean patrones, reglas, grupos, funciones, modelos, secuencias, relaciones, correlaciones, etc. Una cualidad que resalta es la posibilidad de anticiparse a las variaciones del entorno, lo que facilitar darles una mejor y ms rpida respuesta. La extraccin de informacin oculta y predecible de grandes bases de datos, es una nueva y poderosa tecnologa con gran potencial para ayudar a las compaas a concentrarse en la informacin ms importante de sus Bases de Informacin (Data Warehouse). Las herramientas de Data Mining predicen futuras tendencias y comportamientos, permitiendo en los negocios tomar decisiones proactivas y conducidas por un conocimiento acabado de la informacin. Los anlisis prospectivos automatizados ofrecidos por un producto as van ms all de los eventos pasados provistos por herramientas retrospectivas tpicas de sistemas de soporte de decisin. Las herramientas de Data Mining pueden responder a preguntas de negocios que tradicionalmente consumen demasiado tiempo para poder ser resueltas y a los cuales los usuarios de esta informacin casi no estn dispuestos a aceptar. Estas herramientas exploran las bases de datos en busca de patrones ocultos, encontrando informacin predecible que un experto no puede llegar a encontrar porque se encuentra fuera de sus expectativas. La minera de datos consiste en la bsqueda de relaciones y patrones globales que se hallan presentes en las grandes bases de datos pero que estn ocultos entre el gran volumen de datos existente. Estas relaciones representan un conocimiento til sobre los objetos de la base de datos y la realidad que representan.

Los puntos en comn que observamos en las definiciones anteriores son: Es necesario disponer de unas bases de datos o, mejor an, de un almacn de datos, sobre los cuales realizar el proceso de minera. El proceso de minera debe ser automtico en la mayor medida posible, debido a los grandes volmenes de datos que se analizan. Los resultados obtenidos deben representar conocimiento til y no evidente a primera vista.

Despus de estudiar el concepto y definiciones de la minera de datos, terminamos este punto poniendo de manifiesto que las aplicaciones de MD extraen conocimiento escondido, patrones de comportamiento no explcitos, relaciones ocultas o informacin predictiva del almacn, sin necesidad de preguntas o peticiones especficas sino utilizando distintas tcnicas, tales como algoritmos matemticos, mtodos estadsticos, modelos lgicos borrosos, algoritmos genticos, inducciones de reglas, sistemas expertos y sistemas basados en el conocimiento y redes neuronales.

1.3

FUNDAMENTOS DE LA MINERA DE DATOS

Las tcnicas de minera de datos son el resultado de un largo proceso de investigacin y desarrollo de productos. Esta evolucin comenz cuando los datos de negocios fueron almacenados por primera vez en computadoras, y continu con mejoras en el acceso a los datos, y ms recientemente con tecnologas generadas para permitir a los usuarios navegar a travs de los datos en tiempo real. La minera de datos est lista para su aplicacin en la comunidad de negocios porque est soportada por tres tecnologas que ya estn suficientemente maduras: Recoleccin masiva de datos. Potentes computadoras con multiprocesadores.

Algoritmos de Data Mining.

Los componentes esenciales de la tecnologa de Data Mining han estado bajo desarrollo durante dcadas, en reas de investigacin como la estadstica, la inteligencia artificial y el aprendizaje de mquinas. Hoy, la madurez de estas tcnicas, junto con los motores de bases de datos relacionales de alto rendimiento, han hecho que estas tecnologas sean prcticas para los entornos de data warehouse actuales.

1.4

FASES DEL PROCESO DE MINERA DE DATOS

Para alcanzar buenos resultados es necesario comprender que la minera de datos no se basa en una metodologa estndar y genrica que resuelve todo tipo de problemas, sino que consiste en una metodologa dinmica e iterativa que va a depender del problema planteado, de la disponibilidad de la fuente de datos, del conocimiento de las herramientas necesarias, de la metodologa desarrollada, y de los requerimientos y recursos de la empresa. El procedimiento para resolver un problema a travs de la minera de datos se divide en dos grandes etapas: la preparacin de los datos y la minera de datos propiamente dicha.

1.4.1

PASOS EN LA FASE DE PREPARACIN DE LOS DATOS Planteamiento del problema: Definir de manera objetiva cul es el problema a resolver, determinar con qu recursos humanos y tecnolgicos se cuenta, cules son las fuentes de informacin y cul es la disponibilidad de la informacin. Seleccin de los datos: De todas las fuentes de informacin disponibles se debe establecer cules son las que se van a considerar. Es decir, se decide sobre qu datos se va a trabajar, tanto desde el punto de vista fsico, como desde el punto de vista lgico. Se debe realizar un tratamiento y estructuracin de la informacin con el objetivo de presentarla de la mejor manera posible para posteriores anlisis. Limpieza y preprocesamiento de los datos: En esta fase se analizan los datos con la finalidad de reorganizar la informacin eliminando aquella que es poco til o completando la que nos falta. Se eliminan los datos irrelevantes, se unifican los criterios de representacin que pueden no ser los mismos en todas las fuentes de datos y se eliminan redundancias y duplicados. Reduccin y proyeccin de datos: Consiste en encontrar las caractersticas tiles que representan las dependencias de los datos en el objetivo del proceso.

1.4.2

PASOS EN LA MINERA DE DATOS Seleccin de tcnicas de minera de datos. Seleccin de los algoritmos de minera de datos. En l son seleccionados los mtodos para que sean usados en la bsqueda de patrones de los datos. Esto incluye decidir qu modelos y parmetros son ms apropiados para la adquisicin del tipo de conocimiento deseado. A travs de la entrega de los datos para los algoritmos de minera de datos seleccionados se llega al conocimiento. Extraccin del conocimiento. Bsqueda de patrones: Es esta fase donde se escogen y se aplican las tcnicas de minera de datos para la determinacin de patrones de inters en los datos. Para ello se interpretan los resultados obtenidos a lo largo del proceso para la construccin de modelos o se buscan estructuras subyacentes dentro de la informacin. Las herramientas de minera de datos, analizan los datos ya preparados para extraer significado e informacin. Construccin del modelo. Interpretacin y evaluacin: Con los resultados obtenidos en la fase anterior se lleva a cabo el anlisis, interpretacin y evaluacin para la determinacin de un modelo eficiente que sea til en la toma de decisiones. Validacin del modelo: Implementar el modelo desarrollado en el proceso real y determinar su efectividad en diferentes casos de aplicacin. Si las pruebas arrojan resultados satisfactorios el modelo queda

comprobado y garantizado para su uso regular. Sin embargo, si los resultados son poco satisfactorios, se debera regresar a las fases anteriores y fortalecer el anlisis para mejorar el modelo final.

1.5

ELEMENTOS O TCNICAS DE LA MINERA DE DATOS

La aplicacin ideal de la MD se llevara a cabo sobre las bases de datos corporativas, que como ya hemos comentado pueden ser un Almacn de Datos, o sobre otras especficas de propsito departamental (o Data Marts), contemplando elementos o tcnicas como los siguientes: Agentes inteligentes: Se encargan de analizar la informacin para detectar patrones y relaciones, ya sea de forma automtica, o bien interactuando con el analista. Las tcnicas que utilizan les permiten identificar grupos, comportamientos y reglas cuyo descubrimiento habra supuesto un enorme esfuerzo de trabajo metdico. Son tomados del campo de la inteligencia artificial y entre ellos destacan los sistemas expertos, el aprendizaje automtico, la visin por ordenador o la teora de juegos. Utilizan estructuras de datos y algoritmos basados en rboles de decisin, redes neuronales, tcnicas de agrupamiento y lgica difusa. Estas tcnicas son especialmente adecuadas para herramientas de minera que utilizan los modelos predictivo y de descubrimiento, ya que son muy buenas en la deteccin de patrones. Deteccin de alarmas: Consiste en la ejecucin peridica o permanente de ciertos agentes para detectar acciones o situaciones susceptibles de desencadenar una accin extraordinaria o fuera del ciclo ordinario, pudindose activar en tiempo real, o detectarse y almacenarse para su posterior anlisis y tratamiento. Anlisis multidimensional: Se basa en la estructuracin y presentacin de la informacin bajo aquellas perspectivas, ejes o dimensiones de inters. Las tcnicas multidimensionales son muy buenas para cruzar los datos de mltiples formas y con distintos niveles de agregacin. Se basan en la utilizacin de bases de datos multidimensionales. Los estudiaremos con detalle en el apartado dedicado a OLAP. Consultas e informes: sta es la forma tradicional de obtener informacin a partir de bases de datos. Las plataformas suelen incorporar herramientas de consulta (lenguaje SQL) con interfaces grficas muy avanzados, intuitivos y fciles de usar, cierto grado de anlisis multidimensional y agentes inteligentes. Adicionalmente pueden utilizar tcnicas matemticas y estadsticas para analizar los datos obtenidos. Estas tcnicas son muy apropiadas si se va a utilizar el modelo de Verificacin. Su principal ventaja es que son de eficiencia probada, trabajan sobre las bases de datos relacionales ya existentes y adems es muy sencillo encontrar herramientas amigables al usuario que las soporten. Tratamiento de datos: Los datos suelen estar almacenados en los formatos ms adecuados para su gestin por parte de los sistemas existentes, pero pueden no ser los ms adecuados para su procesamiento por parte de la MD, de ah que muchos desarrollos de MD incorporen mdulos de tratamiento de datos con el objeto de simplificar al mximo las interfaces de datos e informacin.

2.2.1

APLICACIN A LA RESOLUCIN DE PROBLEMAS DE GESTINPLANTEAMIENTO INICIAL DEL PROBLEMA

El desarrollo tecnolgico ha aumentado considerablemente la mejora de los sistemas de almacenamiento de datos de las empresas. El problema es que, a medida que aumenta nuestra capacidad para almacenar y acceder a la informacin, ms problemas tenemos para tratarla. Un ejemplo claro lo podemos ver en la revolucin que ha supuesto Internet y en cmo la informacin que se genera dentro de cualquier campo de nuestro inters aumenta considerablemente cada ao, mientras que a su vez, cada vez nos vemos ms incapaces de asimilarla. En la industria, igualmente, la preocupacin de las empresas por producir mejor y ms barato, la bsqueda constante de reducir incertidumbre en el proceso de fabricacin y el aumento creciente de la informacin que se tiene de los procesos productivos, hace que crezca, cada vez ms, la necesidad por analizarla. Bien es cierto, que esta necesidad solo aparece cuando la empresa tiene un volumen de histricos del proceso realmente importante.

2.2

EL ANLISIS DE LA INFORMACIN

Tambin la evolucin de la tecnologa ha facilitado y automatizado en gran medida las tareas de anlisis de informacin. Cada paso en esta evolucin se apoya en los anteriores, y cada uno de ellos ha supuesto un avance significativo para el usuario, que ha visto como cada progreso le abra nuevas posibilidades de anlisis y aumentaba el nivel de abstraccin de las consultas. Para decidir cul es la tcnica ms adecuada para una determinada situacin, es necesario distinguir el tipo de informacin que se desea extraer de los datos. Segn su nivel de abstraccin, el conocimiento contenido en los datos puede clasificarse en distintas categoras y requerir una tcnica ms o menos avanzada para su recuperacin. stas son las tres categoras de conocimiento con las que nos podemos encontrar.

2.2.1

CONOCIMIENTO EVIDENTE

Se trata de la informacin fcilmente recuperable con una simple consulta (por ejemplo con un lenguaje como el SQL). Un ejemplo de este tipo de conocimiento es una pregunta como Cules fueron las ventas en Espaa el pasado marzo?.

2.2.2

CONOCIMIENTO MULTIDIMENSIONAL

El siguiente nivel de abstraccin consiste en considerar los datos con una cierta estructura. Por ejemplo, en vez de considerar cada transaccin individualmente, las ventas de una compaa pueden organizarse en funcin del tiempo y de la zona geogrfica, y analizarse con diferentes niveles de detalle (pas, regin, localidad,...). Tcnicamente, se trata de reinterpretar una tabla con n atributos independientes como un espacio n-dimensional, lo que permite detectar algunas regularidades difciles de observar con la representacin monodimensional clsica. Este tipo de informacin es la que analizan las herramientas OLAP, que estudiaremos mas adelante y que resuelven de forma automtica cuestiones como Cules fueron las ventas en Espaa el pasado marzo? aumentando el nivel de detalle: mostrar las de Madrid.

2.2.3

CONOCIMIENTO OCULTO

Se trata de la informacin no evidente, desconocida a priori y potencialmente til, que puede recuperarse mediante tcnicas de minera de datos, como reconocimiento de regularidades. Esta informacin es de gran valor, puesto que no se conoca y se trata de un descubrimiento real de nuevo conocimiento, del que antes no se tena constancia, y que abre una nueva visin del problema. Un ejemplo de este tipo sera Qu tipos de clientes tenemos? Cul es el perfil tpico de cada clase de usuario?.

2.3

LA MINERA DE DATOS RESUELVE EL PROBLEMA

Como se ha visto en el punto anterior, las tcnicas disponibles para extraer la informacin contenida en los datos son muy variadas y cada una de ellas es complementaria del resto, no excluyentes entre s. Cada tcnica resuelve problemas de determinadas caractersticas y para extraer todo el conocimiento oculto, en general ser necesario utilizar una combinacin de varias. La mayor parte de la informacin de inters contenida en una base de datos, aproximadamente el 80%, corresponde a conocimiento superficial, fcilmente recuperable mediante consultas sencillas con SQL. El 20% restante corresponde a conocimiento oculto que requiere tcnicas ms avanzadas de anlisis para su recuperacin. Estas cifras pueden dar la falsa impresin de que la cantidad de informacin recuperable mediante tcnicas de minera de datos es despreciable. Sin embargo, se trata precisamente de informacin que puede resultar de vital importancia para la empresa y que no se puede desdear.

Bsicamente, y como ya hemos comentado, la clave que diferencia la minera de datos respecto de las tcnicas clsicas es que el anlisis que realiza es exploratorio, no corroborativo. Se trata de descubrir conocimiento nuevo, no de confirmar o desmentir hiptesis. Con cualquiera de las otras tcnicas es necesario tener una idea concreta de lo que se est buscando y, por tanto, la informacin que se obtiene con ellas est condicionada a la idea preconcebida con que se aborde el problema. Con la minera de datos es el sistema y no el usuario el que encuentra las hiptesis, adems de comprobar su validez. Por lo tanto, queda claro que el descubrimiento de esta informacin oculta es posible gracias a la minera de datos, que entre otras sofisticadas tcnicas aplica la inteligencia artificial para encontrar patrones y relaciones dentro de los datos permitiendo la creacin de modelos, es decir, representaciones abstractas de la realidad. La obtencin de un buen modelo permitir una buena comprensin del funcionamiento de una empresa, y ser una base idnea para la toma de decisiones. Es decir, dado que el objetivo ltimo de la gestin de los datos corporativos es ofrecer informacin de calidad a la direccin, cuanto ms eficiente sea el proceso de minera, mayor ser en cantidad y en calidad la informacin disponible para soportar la toma de decisiones. Mediante stas herramientas y tcnicas se pueden obtener patrones y estructuras de informacin muy valiosas para la industria que pueden ayudar, mediante el anlisis de los grandes volmenes de datos de histricos almacenados, a mejorar la calidad y reducir los costes de los procesos productivos as como comprender mejor las causas que generan fallos en los mismos. Los beneficios de la utilizacin de las tcnicas de minera de datos en diversas organizaciones son enormes, de forma que las empresas ms innovadoras, las estn incorporando con gran xito de forma extensiva.

2.4

APLICACIONES DE LA MINERA DE DATOS

La informacin hallada a travs de las tcnicas de minera de datos tiene numerosas aplicaciones en el mundo empresarial. Las aplicaciones ms usadas son las que necesitan algn tipo de prediccin. Por ejemplo, cuando una persona solicita una tarjeta de crdito, la compaa emisora quiere predecir si la persona constituye un buen riesgo de crdito. La prediccin tiene que basarse en los atributos conocidos de la persona, como edad, sus ingresos, sus deudas etc. Las reglas para realizar la prediccin se deducen de los mismos atributos de titulares de tarjetas de crdito pasados y actuales, junto con su conducta observada. Otra clase de aplicaciones busca asociaciones. Por ejemplo, los libros que se suelen comprar juntos. Si un cliente compra un libro, puede que la librera en lnea le sugiera otros libros asociados. Puede que otros tipos de asociacin lleven al descubrimiento de relaciones causa-efecto. Por ejemplo, el descubrimiento de asociaciones inesperadas entre un medicamento recin introducido y los problemas cardiacos llev al hallazgo de que el medicamento poda causar problemas cardiacos en algunas personas. El medicamento se retir del mercado. Las asociaciones son un ejemplo de patrones descriptivos. Las agrupaciones son otro ejemplo de este tipo de patrones. Algunos ejemplos de campos de aplicacin de la minera de datos en el mundo empresarial son: Gestin de mercados y de riesgos. Diseo de estrategias competitivas. Ingeniera financiera y promocin comercial. Deteccin de fraudes.

Al igual que en el mundo empresarial, en el medio cientfico es muy habitual la recoleccin de gran cantidad de datos, de los que resulta muy difcil extraer conocimiento. Por ello, la minera de datos se est aplicando en campos como:

Diagnstico mdico. Clasificacin y estudio de seales biomdicas. Deteccin de patrones en imgenes astronmicas. Anlisis de biosecuencias en biomedicina. Tcnicas documentales.

Estudiamos ahora con ms profundidad algunas de las aplicaciones mas concretas de la minera de datos dentro de las organizaciones en campos como: marketing, prediccin, reduccin de riesgos, deteccin de fraudes y control de calidad.

2.4.1

MARKETING

ste es uno de los campos donde los xitos de la minera de datos son ms conocidos. Cuanto ms precisa sea la informacin que tengamos sobre los clientes, mayores posibilidades tendremos de aumentar nuestros ingresos y rentabilizar al mximo nuestras acciones. El objetivo fundamental puede resumirse en determinar quin comprar qu, cundo y dnde. Veamos tres aplicaciones concretas dentro del marketing: Targeting: Podemos aumentar espectacularmente el porcentaje de respuesta a una campaa de marketing si se dirige a los objetivos adecuados. La minera de datos permite detectar entre los potenciales clientes los que presentan una mayor probabilidad de responder a la campaa y dirigirla a ellos especficamente, con lo cual se consigue reducir drsticamente los costes. Fidelizacin de clientes: Conseguir un nuevo cliente o recuperar uno perdido resulta mucho ms costoso que mantener uno que ya lo es. De ah la rentabilidad de las campaas de fidelizacin de clientes, que detectan aqullos que parece ms probable que se vayan a perder, permitiendo llevar a cabo iniciativas que eviten dicha prdida. La minera de datos tambin permite detectar nuevas oportunidades de mercado, comparando hbitos de consumo de diferentes clientes, por ejemplo, o determinando la ubicacin ms conveniente para un determinado negocio.

2.4.2

PREDICCIN

Conocer a priori cmo evolucionar una variable en el futuro constituye una informacin muy valiosa y supone una indudable ventaja competitiva. Se trata de una herramienta de evidente inters tanto desde el punto de vista comercial, como en gestin o control de procesos. A partir de los datos histricos almacenados y utilizando tcnicas de minera de datos pueden elaborarse modelos que permitan estimar con precisin la evolucin de una variable en el futuro. Disponer de esta informacin con tiempo suficiente permite adecuar la respuesta de forma ptima. Esto puede resultar til en los campos ms diversos: Deteccin de oportunidades. Prevencin de problemas. Gestin ptima del personal. Optimizacin de stocks.

2.4.3

REDUCCIN DE RIESGOS

La minera de datos permite construir sistemas de evaluacin automtica de riesgos, basados en la experiencia previa. Estos sistemas resultan de gran utilidad cuando la cantidad de casos a evaluar es excesiva para su

procesamiento manual. El empleo de tcnicas de minera de datos ha aumentado la eficacia y fiabilidad de dichos sistemas, logrando un comportamiento ms similar al de los expertos humanos.

2.4.4

DETECCIN DE FRAUDES

Aplicando tcnicas de minera de datos, pueden obtenerse modelos que permitan descubrir posibles fraudes, basndose en la deteccin de comportamientos anmalos, en comparacin con los datos registrados anteriormente. Podemos encontrar aplicaciones concretas en operadores de telefona o empresas de gestin de tarjetas de crdito. Estas compaas analizan el uso que los clientes hacen de sus servicios y pueden localizar, de manera muy rpida, un uso fraudulento de los mismos.

2.4.5

CONTROL DE CALIDAD

Existen numerosos ejemplos en los que se han aplicado tcnicas de minera de datos para desarrollar sistemas automticos de control de calidad. Estos sistemas suponen un considerable ahorro en el proceso productivo, puesto que facilitan: Deteccin ms precisa de productos defectuosos: A menudo el control de calidad se realiza de forma manual y, por tanto, depende de una evaluacin subjetiva por parte del personal encargado del mismo. El principal problema de este mtodo es que el criterio de calidad no es estable sino que depende de la persona que realiza el anlisis. La minera de datos permite desarrollar sistemas automticos de control de calidad que discriminan los productos defectuosos con un alto grado de precisin y fiabilidad, segn un criterio objetivo. Localizacin precoz de defectos: El control de calidad no slo debe realizarse al final del proceso. Cuanto antes se detecte un fallo, menor ser su impacto. A menudo no resulta fcil medir la variable que determina la calidad del producto en tiempo real o en la cadena de produccin. En estos casos, es imprescindible utilizar tcnicas de minera de datos para descubrir posibles relaciones que permitan detectar los fallos utilizando las variables disponibles durante el proceso. Identificacin de causas de fallos: La minera de datos no slo resulta til para discriminar los productos defectuosos. Tambin ayuda a determinar los fallos ms frecuentes as como identificar las causas de los mismos. Esto permite adoptar medidas para evitarlos en el futuro. Anlisis no destructivo: A menudo, para obtener la informacin que se necesita, hay que realizar un anlisis destructivo. Un ejemplo tpico es la evaluacin de la resistencia de un material, medida que se establece forzndolo hasta que se rompe. Utilizando minera de datos es posible estimar con bastante exactitud el valor de este tipo de parmetros en funcin de otras caractersticas que s pueden medirse sin destruir el producto. Esto permite controlar la calidad de todos los productos fabricados y no slo de una pequea muestra, ya que no se destruyen con el examen.

3.

TECNOLOGA Y ALGORITMOS

Antes de estudiar las tcnicas y algoritmos principales, vamos a ver los modelos que a lo largo del tiempo han ido apareciendo y en los que se apoya la minera de datos.

3.1

MODELOS DE LA MINERA DE DATOS

3.1.1

MODELO DE VERIFICACIN

Este es el modelo ms parecido al proceso tradicional de extraccin de informacin basado en lenguajes de consulta a bases de datos (por ejemplo SQL). Su principal caracterstica es que no extrae informacin nueva, sino que, basndose en los datos del almacn, verifica la validez de las afirmaciones que se le presentan. El proceso comienza por el establecimiento de una hiptesis por parte del usuario. Este, a continuacin, solicita a la herramienta que verifique su validez. Una vez recibida la respuesta, el usuario puede refinar o detallar la hiptesis, preparar unas preguntas ms especficas y solicitar una nueva verificacin. De esta manera se consigue un proceso iterativo dirigido por un operador humano. La desventaja de este modelo es, que si al usuario no se le ocurre realizar una pregunta clave, o no ve una relacin importante entre diferentes elementos de la base de datos, la herramienta por s sola carece de iniciativa para investigar por su propia cuenta.

3.1.2

LOS NUEVOS MODELOS AUTOMTICOS

La minera de datos ha dado lugar a una paulatina sustitucin del anlisis de datos dirigido a la verificacin, por un enfoque de anlisis de datos dirigido al descubrimiento del conocimiento. La principal diferencia entre ambos se encuentra en que en el ltimo, se descubre informacin sin necesidad de formular previamente una hiptesis. La aplicacin automatizada de algoritmos de minera de datos permite detectar fcilmente patrones en los datos, razn por la cual esta tcnica es mucho ms eficiente que el anlisis dirigido a la verificacin cuando se intenta explorar datos procedentes de repositorios de gran tamao y complejidad elevada. Dichas tcnicas emergentes se encuentran en continua evolucin como resultado de la colaboracin entre campos de investigacin tales como bases de datos, reconocimiento de patrones, inteligencia artificial, sistemas expertos, estadstica, visualizacin, recuperacin de informacin, y computacin de altas prestaciones. Los algoritmos de minera de datos se clasifican en dos grandes categoras de modelos con distintas denominaciones: Modelos predictivos, tambin llamados: Modelos supervisados. Modelos basados en la memoria. Minera de datos dirigida. Modelos de descubrimiento del conocimiento, tambin llamados: Modelos no supervisados. Modelos descriptivos. Minera de datos no dirigida. Por lo tanto con los nuevos modelos usamos la minera de datos para: Predecir: Utilizar algunas variables o campos en una base de datos para predecir valores desconocidos o futuros. Describir: Encontrar patrones que describan la informacin (interpretables por el hombre).

3.1.3

MODELOS PREDICTIVOS

Los algoritmos supervisados o predictivos predicen el valor de un atributo (etiqueta), de un conjunto de datos, conocidos otros atributos (atributos descriptivos). A partir de datos cuya etiqueta se conoce se induce una relacin entre dicha etiqueta y otra serie de atributos. Esas relaciones sirven para realizar la prediccin en datos cuya etiqueta es desconocida. Esta forma de trabajar se conoce como aprendizaje supervisado y se desarrolla en dos fases: Entrenamiento: Construccin de un modelo usando un subconjunto de datos con etiqueta conocida. Prueba: Prueba del modelo sobre el resto de los datos.

El usuario indica sobre qu variables se quiere obtener la prediccin y el sistema proporciona la respuesta. Esta respuesta la puede proporcionar explicando cmo la consigui, lo cual a su vez puede ser una informacin tan valiosa como la respuesta en si misma, o sin explicarlo. Cuando una aplicacin no es lo suficientemente madura no tiene el potencial necesario para una solucin predictiva fiable. En este caso de puede optar por diversos caminos alternativos: Modelo predictivo restringido: No se obtiene prediccin alguna. Modelo predictivo no restringido: Se obliga a la realizacin de una prediccin de menor fiabilidad. Modelos de descubrimiento del conocimiento: Que descubren patrones y tendencias en los datos actuales (no utilizan datos histricos).

Ejemplos: Cul es el riesgo de este cliente?, Se quedar el cliente? Algunas tcnicas asociadas a los modelos predictivos: Clasificacin: Clasificar datos en clases predefinidas. Estimacin: A diferencia de la clasificacin (que trata con resultados discretos), la estimacin trata con valores numricos continuos. A partir de un conjunto de valores de entrada, la estimacin obtiene un valor para una cierta variable continua, como puede ser una renta, la altura, etc. Prediccin de valores: Una prediccin no es ms que un tipo de clasificacin o estimacin. Regresin: Funcin que convierte datos en valores de una funcin de prediccin. rboles de decisin: Son estructuras en forma de rbol que representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificacin de un conjunto de datos. Redes neuronales artificiales: Modelos predecibles no lineales que aprenden a travs del entrenamiento y semejan la estructura de una red neuronal biolgica. Series temporales.

3.1.4

MODELOS DE DESCUBRIMIENTO DEL CONOCIMIENTO

El objetivo de estos modelos es establecer algn tipo de relacin entre todas las variables. En estos modelos se utiliza la herramienta de minera para descubrir nueva informacin que no estaba anteriormente en el almacn de forma explcita. Segn este modelo es la propia herramienta quien se plantea sus propias preguntas, sin necesidad de que el usurario establezca hiptesis o realice preguntas concretas, aunque, ste puede intervenir para guiar los caminos a explorar. Habitualmente esta bsqueda se dirige hacia la categorizacin de los registros en grupos para detectar patrones aplicables o extraer relaciones implcitas en los datos. Tambin es comn la bsqueda de elementos extraos o fuera de lo normal.

Ejemplo: Un cliente que compra productos dietticos es tres veces ms probable que compre caramelos. Algunas tcnicas asociadas a los modelos de descubrimiento del conocimiento: Asociacin: Permite establecer las posibles relaciones entre acciones o sucesos aparentemente independientes. Reconocimiento de patrones: Permite la asociacin de una seal o informacin de entrada con aquella o aquellas con las que guarda mayor similitud, y que ya estn catalogadas en el sistema. Segmentacin o agrupamiento: Esta herramienta posibilita la identificacin de tipologas o grupos en los cuales los elementos guardan similitud entre s y se diferencian de los de otros grupos. Clustering: Es la tarea de segmentar un grupo diverso en un nmero de subgrupos ms similar (denominados clusters). Lo que distingue el clustering de la clasificacin es que ste no requiere un conjunto predefinido de clases. Reglas de asociacin: Se trata del agrupamiento por afinidad que tiene como objetivo determinar qu cosas van juntas. Deteccin de desviaciones.

3.2

CLASIFICACIN

Dentro de los modelos de prediccin, una de las tcnicas ms importantes es la clasificacin. En este apartado vamos a describir qu es la clasificacin, a estudiar tcnicas para la creacin de un tipo de clasificadores, denominados clasificadores de rboles de decisin y se analizarn otras tcnicas de prediccin. De manera abstracta, el problema de la clasificacin es el siguiente: dado que los elementos pertenecen a una de las clases y dados los casos pasados de los elementos junto con las clases a las que pertenecen, el problema es predecir la clase a la que pertenece un elemento nuevo. La clasificacin se puede llevar a cabo hallando reglas que dividan los datos dados en grupos disjuntos. Continuando con el ejemplo del apartado 2.4, un banco tiene que decidir si debe conceder una tarjeta de crdito a un solicitante. El banco tiene diversa informacin sobre esa persona, la cual puede utilizar para adoptar una decisin. Para adoptar la decisin el banco asigna un nivel de valor de crdito de: excelente, bueno, mediano o malo a cada integrante de un conjunto de muestras de clientes actuales segn su historial de pagos. Luego, el banco intenta hallar reglas que clasifiquen a sus clientes como excelentes, buenos, medianos o malos. El proceso de creacin de clasificadores comienza con una muestra de los datos, denominada conjunto de formacin. Para cada tupla del conjunto de formacin ya se conoce la clase a la que pertenece. Existen diversas maneras de crear clasificadores. Una de las tcnicas ms utilizadas para este fin son los clasificadores de rboles de decisin.

3.2.1

CLASIFICADORES DE RBOLES DE DECISIN

Los clasificadores de rboles de decisin son una tcnica muy utilizada para la clasificacin. Como sugiere su nombre estos clasificadores utilizan un rbol. Cada nodo hoja tiene una clase asociada, y cada nodo interno tiene un predicado o funcin asociado. Continuando con el ejemplo, para concretar las reglas que clasifican los clientes en excelentes, buenos, medianos o malos, vamos a considerar dos atributos: titulacin e ingresos. En la siguiente figura se muestra un rbol de decisin que estable las reglas concretas de clasificacin.

titulacin

ninguna ingresos < 50K 50 a 100K > 100K

bachiller ingresos < 50K >= 50K

licenciado ingresos < 25 K 25 a 75K

doctorado ingresos >75K < 25K >= 25K

malo

mediano

bueno

excelente

Para clasificar un nuevo caso se empieza por la raz y se recorre el rbol hasta alcanzar una hoja. En los nodos internos se evala el predicado o funcin, para hallar a que nodo hijo hay que ir. El proceso contina hasta llegar a un nodo hoja.

3.2.2

CREACIN DE CLASIFICADORES DE RBOLES DE DECISIN

La pregunta que se plantea es el modo de crear un clasificador de rboles de decisin, dado un conjunto de casos de formacin. La manera ms frecuente de hacerlos es utilizar un algoritmo impaciente, que trabaja de manera recursiva, comenzando por la raz y construyendo el rbol hacia abajo. Inicialmente solo hay un nodo, la raz, y todos los casos de formacin estn asociados con este nodo. En cada nodo, si todos o casi todos los ejemplos de formacin asociados con el nodo pertenecen a la misma clase, el nodo se convierte en un nodo hoja asociado a esa clase. En caso contrario, hay que seleccionar un atributo de particin o condiciones de particin para crear nodos hijos. En el ejemplo elegido, se escoge el atributo titulacin y se crean cuatro hijos, uno por cada valor de la titulacin. Las particiones en menor nmero de conjuntos son preferibles a las particiones en muchos conjuntos, ya que llevan a rboles de decisin ms sencillos y significativos. Hay que averiguar el modo de hallar la mejor particin para un atributo. El modo de dividir un atributo depende del tipo de atributo. Los atributos pueden tener dos tipos de valores: Valores continuos: Los valores se pueden ordenar de manera significativa para la clasificacin, como la edad o los ingresos. Valores categricos: No tienen ningn orden significativo para la clasificacin, como los nombres de los departamentos o de los pases.

Generalmente los atributos que son nmeros se tratan como valores continuos, y los atributos de cadenas de caracteres se tratan como categricos. En el ejemplo escogido se ha tratado el atributo titulacin como categrico y el atributo ingresos como valor continuo. En primer lugar se considera el modo de hallar las mejores particiones para los atributos continuos. Por sencillez solo se consideran particiones binarias de los atributos con valores continuos, es decir, particiones que den lugar a dos hijos. El caso de las particiones mltiples ya es ms complicado y se pueden dar con valores continuos o categricos. Para los atributos categricos se pueden tener particiones mltiples, con un hijo para cada valor del atributo. Esto funciona muy bien para los atributos categricos con pocos valores diferentes, como la titulacin o el sexo.

La idea principal de construccin de rboles de decisin es la evaluacin de los diferentes atributos y de las distintas condiciones de particin y la seleccin del atributo y de la condicin de particin que generen el ndice mximo de ganancia de informacin. El mismo procedimiento funciona de manera recursiva en cada uno de los conjuntos resultantes de la particin, lo que hace que se construya de manera recursiva el rbol de decisin.

3.2.3

OTROS TIPOS DE CLASIFICADORES

Hay varios tipos de clasificadores a parte de los clasificadores de rbol. Dos tipos que han resultado bastantes tiles son: Clasificadores de redes neuronales: Utilizan los datos de formacin para adiestrar redes neuronales artificiales. Clasificadores bayesianos: Hallan la distribucin de los valores de los atributos para cada clase de los datos de formacin. Cuando se da un nuevo caso, d, utilizan la informacin de la distribucin para estimar, para cada clase cj, la probabilidad de que el caso d pertenezca a la clase cj, denotada por p(cj /d). Para hallar esta probabilidad (de que el caso d est en la clase cj) los clasificadores bayesianos utilizan el teorema de Bayes. Una ventaja de estos clasificadores es que pueden clasificar los casos con valores de los atributos desconocidos y nulos, ya que estos valores se omiten del clculo de probabilidades. Por el contrario, los clasificadores de rboles de decisin no pueden tratar de manera significativa las situaciones en las que el caso que hay que clasificar tiene un valor nulo para el atributo de particin utilizado para avanzar por el rbol de decisin.

3.2.4

REGRESIN

La regresin trata la prediccin de valores, no de clases. Dados los valores de un conjunto de variables, X1, X2,..., Xn, se desea predecir el valor de una variable Y. Por ejemplo se puede tratar el nivel educativo con un nmero y los ingresos con otro nmero, y con base a estas dos variables, querer predecir la posibilidad de impago, que podra ser un porcentaje de probabilidad de impago o el importe impagado.

3.3

ASOCIACIONES

Como ya se dijo, las asociaciones permiten establecer las posibles relaciones entre acciones o sucesos aparentemente independientes. As, se puede reconocer cmo la ocurrencia de un determinado suceso puede inducir la aparicin de otro u otros. Este tipo de herramientas son particularmente tiles, por ejemplo, para comprender los hbitos de compra de los clientes y para la concepcin de ofertas, de ventas cruzadas y del "merchandising". Los comercios en general suelen estar interesados en las asociaciones entre los diferentes artculos que compra la gente. Ejemplos de estas asociaciones son: Alguien que compra pan es bastante probable que compre tambin leche. Una persona que compr un libro X es bastante probable que tambin compre el libro Y.

3.3.1

REGLAS DE ASOCIACIN

Un ejemplo de regla de asociacin es: pan => leche. En el contexto de las compras de alimentacin, la regla dice que los clientes que compran pan tambin tienden a comprar leche con una probabilidad elevada. Una regla de asociacin debe tener una poblacin asociada: la poblacin consiste en un conjunto de casos. En el ejemplo de la tienda de alimentacin, la poblacin puede consistir en todas las compras en la tienda de alimentacin, cada compra es un caso.

Las reglas tienen un soporte, as como una confianza asociados. Los dos se definen en el contexto de la poblacin: El soporte: Es una medida de la fraccin de la poblacin que satisface tanto el antecedente como el consecuente de la regla. Por ejemplo, supongamos que solo el 0,001 % de todas las compras incluyen leche y clavos. El soporte de la regla leche => clavos es bajo. Las empresas no suelen estar interesadas en reglas que tienen un soporte bajo, ya que afectan a pocos clientes y no merece la pena prestarles atencin. La confianza: Es una medida de la frecuencia con que el consecuente es cierto cuando lo es el antecedente. Por ejemplo la regla pan => leche tiene una confianza del 80% si el 80% de las compras que incluyen pan incluyen tambin leche. Hay que tener en cuenta que la confianza de pan => leche puede ser muy diferente de la confianza de leche => pan, aunque las dos tienen el mismo soporte.

3.3.2

OTROS TIPOS DE ASOCIACIN

El uso de meras reglas de asociacin tiene varios inconvenientes. Uno de los principales es que muchas asociaciones no son muy interesantes, ya que pueden predecirse. Por ejemplo, si mucha gente compra cereales y mucha gente compra pan, se puede predecir que un nmero bastante grande de personas comprar las dos cosas, aunque no haya ninguna relacin entre las dos compras. Lo que resultara interesante es una desviacin de la ocurrencia conjunta de las dos compras. O dicho en trminos estadsticos, lo que se busca son correlaciones entre los artculos. Otro tipo importante son las asociaciones de secuencias. Las series de datos temporales, como las cotizaciones burstiles en una serie de das, constituyen un ejemplo de datos de secuencias.

4.

BASES DE DATOS MULTIDIMENSIONALES

La idea bsica empleada por las bases de datos multidimensionales (BDM) es muy sencilla: en lugar de utilizar tablas bidimensionales para almacenar los datos, como se hace en una base de datos relacional (DBR), emplea tablas n-dimensionales (o hipercubos). Es algo parecido a utilizar una hoja de clculo para el tratamiento de datos, solo que, se podrn utilizar ms de dos dimensiones y se dispondr de otras capacidades adicionales. Una BDM est diseada para los sistemas de soporte de decisiones en la cual los datos tienen una estructura matricial (multidimensional) para su almacenamiento. Este tipo de organizacin admite consultas ms complejas.

4.1

ANLISIS MULTIDIMENSIONAL

El anlisis multidimensional consiste en analizar hechos econmicos o, de otros tipos, desde la perspectiva de sus dimensiones, abarcando los diferentes niveles de stas. Con el anlisis multidimensional se da respuesta a las consultas complicadas de los usuarios, que reflejan los diversos componentes que tienen sus organizaciones. Estos componentes pueden ser de dos tipos: cuantitativos y cualitativos. A estos componentes tambin se les llama dimensiones, y a los valores de los componentes (o dimensiones) se les llama atributos. Adems, el detalle con el que se muestran los atributos puede variar, cada dimensin se puede descomponer en diferentes niveles de detalle, y stos dependen de las necesidades del usuario. Las dimensiones definen dominios como geografa, producto, tiempo, cliente,... Los miembros de una dimensin se agrupan de forma jerrquica (dimensin geogrfica: ciudad, provincia, autonoma, pas,...).

4.1.1

EL ESQUEMA MULTIDIMENSIONAL

La realizacin del anlisis multidimensional a partir de trozos de informacin no sera nada prctica, lo que se pretende es tener disponible toda la informacin formando un solo conjunto, al que llamaremos esquema multidimensional. Una de las caractersticas principales del esquema multidimensional es la agregabilidad, gracias a la cual se pueden presentar los valores de una determinada dimensin segn sus distintos niveles de detalle. Como es lgico para poder realizar agregacin es necesario tener datos en el nivel ms bajo de cada dimensin, y los niveles superiores se calcularn a partir de stos. Para un ptimo anlisis este esquema se soporta en las BBDD multidimensionales, stas almacenan los datos en estructuras llamadas hipercubos (ms de tres dimensiones). En la prctica estos hipercubos no son grandes matrices, sino que son matrices ms reducidas que aparecen como una sola matriz. Esto reduce el espacio de ndice requerido. El esquema multidimensional puede ser soportado encima de un SGBD relacional (ROLAP: OLAP sobre BD Relacinales). Para ello el esquema multidimensional deber ser transformado para poder implementarse sobre un SGBD relacional (que solo soporta tablas planas). Una de las formas de hacer esta transformacin es utilizar el esquema en estrella, que estudiaremos ms adelante.

4.1.2

CARACTERSTICAS DEL ANLISIS MULTIDIMENSIONAL Navegabilidad: Cuando se habla de navegar se refiere a que se puede pasar de un punto a otro del esquema multidimensional. Estos movimientos son: Perforacin (o drill-down): Consiste en variar el nivel de detalle de los datos, desde lo datos ms resumidos a los ms detallados. Se dice que drill-down es desagregar y Roll-up es agregar. Segmentacin (o slice and dice): Consiste en recortar un subconjunto de los datos movindose por los distintos datos de una misma dimensin o cambiando de dimensin. Es decir, es la capacidad de ver la base de datos desde diferentes puntos de vistas. El corte suele hacerse a lo largo del eje del tiempo para analizar tendencias. Se dice que slice es proyeccin y que dice es seleccin.

Visualizacin: La presentacin de los resultados se suele hacer en forma de cuadros o tablas de dos dimensiones, con el clculo de totales parciales y generales. Se suelen fijar un conjunto de valores de dimensiones y mostrar en la tabla de dos dimensiones los valores en funcin de esas dimensiones. Representacin grfica: Suele ser un grfico de dos dimensiones, donde los valores de las dimensiones fijadas aparecen como comentarios y las dimensiones variables son los ejes de coordenadas. Con este tipo de representaciones se suele perder una dimensin. Representacin mediante mapas: Muy utilizada para dimensiones geogrficas, donde se realizan perforaciones seleccionando la zona deseada. Clculos dinmicos.

4.2

MODELO DE DATOS MULTIDIMENSIONAL (MDM)

Se define un modelo de datos multidimensional como la disciplina especfica para modelizar datos que es una alternativa a la modelizacin E/R. Es un modelo de datos (esttico y dinmico) basado en estructuras multidimensionales. Un modelo multidimensional contiene la misma informacin que un modelo E/R pero agrupa la informacin en un formato simtrico cuyos objetivos seran: Que el usuario entienda mejor el modelo. Que el rendimiento y tiempo de respuesta de las consultas sea el ptimo.

Que los cambios en el modelo se hagan con menos impacto y mayor facilidad.

Veamos ahora los elementos que componen la visin esttica de un modelo de datos multidimensional: Esquema de hecho (esquema de cubo): Es el objeto a analizar. Ejemplos: empleados, ventas, stocks... Atributos de hecho o de medida: Atributos de tipo cuantitativo cuyos valores (cantidades) se obtienen generalmente por aplicacin de una funcin estadstica que resume un conjunto de valores en un nico valor. Ejemplos: n de empleados, cantidad vendida, precio medio,... Funciones resumen: Funciones de tipo estadstico que se aplican a los atributos de hecho. Ejemplos: frecuencia, suma, media, mximo, etc. Dimensiones: Cada uno de los ejes en un espacio multidimensional. Ejemplos: tiempo, espacio, productos, intervalos del n de empleados, departamentos, etc. Atributos de dimensin o de clasificacin: Atributos de tipo cualitativo (sus valores son modalidades) que suministran el contexto en el que se obtienen las medidas en un esquema de hecho. Ejemplos: das, semanas, ciudades, provincias, etc. Jerarquas: Varios atributos de dimensin unidos mediante una relacin de tipo jerrquico. Ejemplos: da -> semana -> mes -> ao. Series temporales: Una de las dimensiones ms habituales de cualquier BDM es el tiempo. Para guardar datos en funcin del tiempo, se utilizan las series temporales, que son tratadas como una dimensin ms.

Vamos a estudiar ahora con ms detalle dos de los elementos fundamentales en las BDM: las dimensiones y las jerarquas. Utilizaremos para ello una serie de ejemplos que nos van a ayudar a entender mejor estos dos elementos.

4.3

DIMENSIONES

4.3.1

EJEMPLO 1

Supongamos que queremos implementar una sencilla base de datos para almacenar la cantidad de dinero que se gasta en el pago de las pensiones atendiendo al tipo de pensin y a la comunidad autnoma en que se paga. En el caso de que hubiera dos tipos de pensiones, se podra establecer una BDM con una estructura similar a la de una hoja de clculo, empleando tantas filas como tipos de pensiones y tantas columnas como comunidades. El gasto correspondiente a cada comunidad y pensin se almacenara en la celdilla correspondiente, tal como se muestra a continuacin: C1 P1 P2 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 C16 C17

El equivalente relacional seria una tabla de 34 filas y 3 columnas: tipo de pensin, comunidad autnoma y gasto. En este ejemplo sencillo, el espacio de almacenamiento utilizado en ambos casos es el mismo, pero, qu ocurre con los tiempos de acceso a la informacin? Si se quiere acceder al gasto en un tipo de pensin y una comunidad determinados (una sola fila), el tiempo de acceso ser similar, siempre que la tabla relacional est ordenada o tenga definido un ndice por tipo de pensin y comunidad autnoma.

Si se quiere obtener el gasto en pensiones de tipo 1 (P1) para todas las comunidades, entonces el tiempo de respuesta de la BDM es mejor, ya que solo tiene que sumar una fila de la matriz (17 sumas). En cambio en la BDR se debe recorrer todos los registros de la tabla para localizar aquellos que cumplan la condicin definida (34 registros) o crear ms ndices.

4.3.2. EJEMPLO 2 Supongamos ahora, que tambin es necesario almacenar la forma de pago de las pensiones y que dicha forma de pago puede ser en efectivo, por taln o transferencia. La BDM tendra el aspecto siguiente:

Forma de pago

Comunidad Autnoma

. . .

Tipo de pensin En esta estructura se emplea cada una de las tres dimensiones del cubo para representar cada uno de los campos que se utilizaran en el modelo relacional. Las celdas resultantes se emplean para almacenar el gasto para cada tripleta (CA, TP, FP). El equivalente relacional sera una tabla con 102 filas y 4 columnas: tipo de pensin, comunidad autnoma, forma de pago y gasto. De nuevo, las consultas de agregados (totales) seran ms costosas en la BDR que en la BDM.

4.4

JERARQUAS

Otro aspecto fundamental de las BDM es la posibilidad de jerarquizar las dimensiones. Vamos a ver esto con otro ejemplo.

4.4.1

EJEMPLO 3

Supongamos que, adems de conocer el gasto por comunidades, se quiere saber tambin el gasto por localidades dentro de cada comunidad. La manera inmediata de representar esto consiste en aadir una nueva dimensin para crear un hipercubo de cuatro dimensiones. Sin embargo esta solucin no es eficiente, ya que para cada fila de cada localidad, solo una de las celdillas contendr valor. Dicha celdilla ser la correspondiente a la comunidad a la que pertenece la localidad. Con esta estructura se gasta mucho espacio de almacenamiento en celdillas que jams van a contener datos, por lo tanto hay que buscar otro mecanismo que lo evite. La solucin a este problema es crear una jerarqua de niveles en cada dimensin para representar los diversos grados de detalle. Si se dispone de este mecanismo, la solucin al caso de las localidades sera tan simple como jerarquizar la dimensin de las comunidades autnomas, estableciendo las localidades como escaln inferior en la jerarqua. Para ofrecer esta alternativa el gestor debe ser capaz, al operar con las celdillas, de reconocer si el valor almacenando corresponde a una comunidad o a una localidad, de forma que al hallar totales o realizar cualquier otro tipo de operacin no mezcle valores correspondientes a diferentes niveles jerrquicos.

Por lo tanto, una celda es una posicin formada por la interseccin de cada uno de los elementos de las dimensiones que forman el cubo. La celda puede contener cero, uno o varios datos (cantidades). Este concepto de jerarqua es extensible a ms de dos niveles, por lo que se puede afinar el grado de detalle obtenido al realizar las consultas.

4.5

BD MULTIDIMENSIONALES VERSUS BD RELACIONALES

Terminamos este apartado de BDM realizando una comparacin entre estas BD y las BDR que son ms conocidas. La utilizacin de BDM ofrece ventajas sobre las BDR siempre que se vaya a trabajar sobre datos agregados, totales, subtotales etc. Tambin son superiores a la hora de trabajar con series temporales, obtener vistas de unos datos en funcin de otros (vistas bidimensionales del hipercubo que forma la BDM) y manejar diversos grados de detalle. En resumen son unas bases de datos adecuadas para el estudio de alto nivel de los datos, al ofrecer una mayor flexibilidad y rapidez de acceso para el anlisis de los mismos. Por otra parte, si lo que se quiere es acceder a un dato individual bsico, la ventaja de las BDM desaparece a favor a favor de las BDR. Estas son capaces de recuperar un dato individual con la misma eficiencia que las multidimensionales, suelen ser capaces de almacenar mayor cantidad de informacin y adems, dada su utilizacin masiva en sistemas OLTP, estn optimizadas para la insercin de registros y el control concurrente de usuarios. La utilizacin de ambos tipos de bases de datos no es excluyente. De hecho es frecuente utilizar una BDR para almacenar los datos de nivel ms bajo de la jerarqua de una BDM, de forma que si se desea obtener un dato bsico, se excava a travs de la jerarqua multidimensional hasta acceder a la BDR.

5.

PROCESAMIENTO ANALTICO EN LNEA (OLAP)

Dado que el volumen de datos almacenados en las bases de datos suele ser elevado, hay que resumirlos de algn modo si se quiere que obtener informacin que puedan utilizar los usuarios. Las herramientas OLAP soportan el anlisis interactivo de la informacin de resumen.

5.1

DEFINICIN DE OLAP

El acrnimo OLAP significa Procesamiento Analtico en Lnea (On-Line Analytical Processing), y se utiliza para hacer referencia a sistemas y herramientas de minera de datos que usan tcnicas multidimensionales para la extraccin y el anlisis de los datos. Segn E. F. Codd, que fue quien acu el trmino, OLAP es: la sntesis, el anlisis y la consolidacin dinmica de grandes volmenes de datos multidimensionales. Segn otra definicin de OLAP: se trata de un trmino inventado para describir una aproximacin dimensional interactiva al soporte de toma de decisiones (anlisis desde la perspectiva de sus componentes o dimensiones, contemplando tambin los distintos niveles o jerarquas que stas poseen). Siempre que se habla de tecnologa OLAP el adjetivo ms utilizado es multidimensional, ya sea para referirse a los datos, a su estructura, a la base de datos que se emplea o a casi cualquier otro aspecto del OLAP. Esta caracterizacin llega hasta el punto de identificar el OLAP y las bases de datos multidimensionales como una misma cosa. Aunque indudablemente ambas tecnologas estn relacionadas, la utilizacin de OLAP no implica necesariamente la utilizacin de bases de datos multidimensionales. La pregunta que debemos responder es, qu requiere el usuario de OLAP? La respuesta es:

Conceptos familiares para el usuario final: Dimensiones, medidas y jerarquas Acceso inmediato a los datos. Informacin consistente. Navegacin y consulta sencillas. Capacidades de generacin de informes. Datos precalculados. Soporte de grandes volmenes de datos. Flexibilidad de manejo y presentacin. Potentes capacidades de anlisis: Agregaciones, comparaciones, ratios, correlaciones, anlisis de situaciones, contraste de hiptesis, descubrimiento de patrones y tendencias, previsiones, series temporales, etc.

5.2

CARACTERSTICAS DE LOS SISTEMAS OLAP

Las caractersticas bsicas de los sistemas OLAP son las siguientes: Ofrecen una visin multidimensional y jerarquizada de los datos. Son capaces de analizar tendencias a lo largo del tiempo. Pueden presentar vistas de un nmero reducido de dimensiones elegido por el usuario. Permiten ahondar en la jerarqua de los datos para acceder a los de ms bajo nivel. Son interactivos y soportan mltiples usuarios concurrentes.

Resulta ahora claro, vistas sus caractersticas, como los sistemas OLAP pueden beneficiarse de las funcionalidades de una BDM: La visin multidimensional y la jerarquizada van explcitas en la propia estructura de la base de datos. La herramienta OLAP, que posiblemente est integrada en la BDM, solo tiene que ocuparse del manejo del cubo hiperdimensional para extraer los datos conforme a los criterios establecidos por el usuario. El estudio de tendencias se puede realizar aprovechando las series temporales de la BDM o, si no se dispone de dicho tipo de datos, realizando las operaciones y conversiones necesarias para manejar el tiempo como una dimensin adicional de la base de datos. La presentacin de vistas se conoce en la jerga OLAP como slice and dice (cortar y trocear) y se podra traducir en algo as como segmentacin. Esta caracterstica de una herramienta OLAP consiste en la capacidad de extraer rodajas del hipercubo que forma la BDM. Estas rodajas se extraen dado un valor fijo para una o varias dimensiones y tomando el hipercubo resultante. La capacidad de perforar en los niveles de jerarqua se realiza, de nuevo, aprovechando la propia estructura de la BDM subyacente. En el caso de que se utilice una BDR como escaln inferior de la jerarqua, la herramienta OLAP debe ocuparse de que el acceso a dicho nivel sea transparente para el usuario. La interactividad y el soporte de mltiples usuarios simultneos son capacidades que dependen en gran medida de los tiempos de respuesta del gestor de base de datos empleado, por lo que se puede utilizar como criterio orientativo a la hora de elegir el producto que se va a adquirir para construir el sistema.

5.3

IMPLEMENTACIN DE SISTEMAS OLAP

Como ya hemos comentado, debido a su orientacin hacia el manejo de los datos organizados en dimensiones, el entorno natural de trabajo de los sistemas OLAP son las bases de datos multidimensionales. No obstante tambin

pueden trabajar sobre bases de datos relacionales, aunque en este caso sus prestaciones se ven disminuidas. Atendiendo a este criterio, los sistemas OLAP se pueden dividir en tres tipos principales, que estudiamos a continuacin.

5.3.1

MOLAP (Multidimensional-OLAP)

Los primeros sistemas OLAP utilizaban arrays de memoria multidimensionales para almacenar los cubos de datos y se denominan OLAP multidimensional (MOLAP). Por lo tanto, funcionan sobre bases de datos multidimensionales. Requieren un esfuerzo previo de modelizacin y construccin de la base de datos multidimensional y de otro continuo consistente en migrar los datos en formato relacional al nuevo formato multidimensional. A cambio ofrecen un rendimiento muy superior a la hora de realizar la extraccin y el anlisis de los datos, puesto que los datos a los que acceden estn organizados en dimensiones y jerarquas. Los datos se almacenan en un sistema de matrices (hipercubo) en donde cada eje es una dimensin.

5.3.2

ROLAP (Relational-OLAP)

Posteriormente, los servicios OLAP se integraron en los sistemas relacionales y los datos se almacenaron en las bases de datos relacinales. Estos sistemas se denominan sistemas OLAP relacionales (ROLAP). Estos sistemas permiten trabajar sobre las bases de datos corporativas ya establecidas, ahorrando as el trabajo de crear y mantener nuevas bases de datos multidimensionales. A cambio deben ocuparse de realizar la conversin entre la visin relacional de los datos mantenida por el SGDBR y el manejo multidimensional y jerrquico que debe ofrecer al usuario, lo cual acarrea un coste en tiempo y recursos de mquina. El almacenamiento se suele realizar en un esquema en estrella (no normalizado) o copo de nieve (normalizado), que vamos a estudiar posteriormente con detalle. Las tendencias actuales en estos sistemas ROLAP son: Desarrollo de tcnicas especficas para el almacenamiento (ndices join, bitmap,...) y optimizacin de consultas. Crear servidores SQL ampliado especializados en funcionar como Almacn de Datos.

A su vez, estas tendencias dan lugar a dos tipos de modelos ROLAP: SGBD especializados de SQL: Proporcionan un lenguaje de consulta avanzado y soporte para el proceso de consultas SQL sobre esquemas en estrella y copo de nieve en entornos de solo lectura. Servidores ROLAP: Servidores intermedios que se sitan entre el SGBDR y las herramientas cliente. Este midleware est especializado en el soporte de consultas OLAP multidimensionales que se optimizan para servidores relacionales especficos.

Respecto a la eleccin entre MOLAP y ROLAP, en la prctica resulta mucho ms habitual encontrar sistemas de almacn de datos, junto con sus correspondientes herramientas OLAP y de minera de datos, implementadas mediante bases de datos relacinales. Esto es debido a la mayor experiencia de que se dispone para trabajar sobre bases de datos relacionales, a la gran cantidad de productos ya disponibles en el mercado y a la confianza que las organizaciones tienen en este tipo de bases de datos.

5.3.3

HOLAP (Hydrid-OLAP)

Adems de los dos sistemas descritos, aparecen los sistemas hbridos, que almacenan algunos resmenes en la memoria y los datos bsicos y otros resmenes en las bases de datos relacionales, se denominan sistemas OLAP hbridos (HOLAP). Dicho de otra forma los sistemas HOLAP proporcionan anlisis multidimensional accediendo indistintamente a bases de datos multidimensionales o relacionales Muchos sistemas OLAP se implementan como sistemas cliente-servidor. El servidor contiene la base de datos relacional y los cubos de datos MOLAP. Los sistemas clientes obtienen vistas de los datos comunicndose con el servidor.

5.4

ROLAP: TIPOS DE DISEO

Nos detenemos ahora en los sistemas ROLAP, que a pesar de no ser los que mejor se adaptan a una herramienta OLAP, si son muy utilizados. Veamos los diferentes tipos de diseo que se deben realizar para que estos sistemas puedan dar una respuesta eficiente.

5.4.1

ESQUEMA EN ESTRELLA

Esquema relacional adaptado a la representacin de datos multidimensionales. Se basa en una serie de tablas que representan dimensiones unidas mediante claves ajenas, a una principal que acta como nexo llamada tabla de hechos y que almacena datos agregados y precalculados (tablas no normalizadas).

5.4.1.1 TABLA DE HECHOS El contenido de una tabla de hechos est formado por: Clave principal: Concatenacin de las claves de todas las tablas de dimensin asociadas a la tabla de hechos. Claves ajenas: Que referencian a las claves de las correspondientes dimensiones. Atributos de Hecho: atributos de tipo cuantitativo cuyos valores (cantidades) se obtienen generalmente por aplicacin de una funcin estadstica que resume un conjunto de valores en un nico valor. Ejemplos: n de empleados, cantidad vendida, precio medio, etc.

Por otro lado, las caractersticas principales de una tabla de hechos son: Filas con pocas columnas (pocos atributos). N filas: Desde millones a ms de miles de millones (tantas como celdas tenga el cubo). Acceso, en general, va dimensiones.

5.4.1.2 TABLAS DE DIMENSIN Las caractersticas de las tablas de dimensin son: Definen las dimensiones de negocio en trminos familiares para los usuarios. Filas con numerosas columnas de texto, altamente descriptivas. Normalmente menos de un milln de filas. Combinadas con las tablas de hecho mediante claves ajenas.

Altamente indexadas. No estn relacionadas entre s. Se utilizan como puntos de acceso a los datos detallados de la tabla de hechos. A veces se tienen que desnormalizar.

5.4.1.3 FIGURA DE TABLA DE HECHOS CON TABLA DE DIMENSIONES

Al igual que sucede al manejar un hipercubo multidimensional, las consultas tpicas en un esquema en estrella consisten en fijar un valor o un rango de ellos para las dimensiones y, a continuacin, obtener la informacin solicitada. La respuesta se encuentra realizando operaciones de unin natural (join) entre tablas de dimensiones y la tabla de hechos. Para optimizar las consultas, el gestor de bases de datos debe ser capaz de reconocer que est trabajando con un esquema en estrella y hacer en primer lugar los join entre las tablas de dimensiones y, con el resultado, hacer un nico join con la tabla de hechos, minimizando el nmero de accesos fsicos.

5.4.2

ESQUEMA EN COPO DE NIEVE

El esquema en copo de nieve es una variante del esquema en estrella que presenta las tablas de dimensin estructuradas a ms de un nivel (tablas normalizadas). Se utiliza cuando hay jerarquas en las dimensiones, lo que supone ms claves ajenas. Ejemplo:

5.4.3

CONSTELACIN DE ESTRELLAS

La constelacin de estrellas la forman varios esquemas en estrella y/o en copo de nieve que comparten dimensiones. Ejemplo:

5.4.4

NDICES BITMAP

Para poder conseguir una cierta eficiencia en los accesos, hay que considerar una serie de aspectos en el diseo fsico, tales como: Estructuras de ndices (mapas de bits, ndices de combinacin, ndices textuales). Vistas materializadas: Identificacin de las vistas a materializar. Explotacin de la vista materializada durante la consulta. Actualizacin de las vistas materializadas durante la carga y refresco. En este apartado vamos a estudiar cmo es la estructura de los ndices bitmap. Los ndices bitmap son un tipo especial de ndice que almacena la informacin en bits en vez de mltiplos de bit (byte, doble byte) y que sirve para acelerar el acceso a filas con atributos de baja cardinalidad. Se dice que un atributo es de baja cardinalidad si su dominio est formado por pocos elementos. Ejemplo: el atributo sexo (H o M). Se trata de guardar un mapa de bits para cada posible valor del atributo, por lo que, como se dijo anteriormente, no es eficiente usar estos ndices para valores de alta cardinalidad. Ejemplo: el ndice para sexo tendr dos bitmaps. Para responder a consultas que se realicen sobre esquemas relacionales con ndices bitmap, basta con hacer las operaciones lgicas apropiadas (AND, OR, NOT) sobre los bits de cada ndice implicado en la consulta, lo cual es una operacin muy rpida, mucho ms que la comparacin de cadenas o nmeros que implica la utilizacin de ndices de otro tipo. Este tipo de ndices son tiles para indexar las tablas de dimensiones en esquemas en estrella o en copo de nieve, ya que muchas de estas dimensiones suelen tener su clave principal formada por un atributo de baja cardinalidad. Ejemplo: cdigo de provincia, sexo, estado civil, etc.

5.5

ELECCIN DE UNA HERRAMIENTA OLAP

A la hora de elegir una herramienta OLAP hay que tener en cuenta, entre otros, los puntos siguientes: Si obliga a trabajar con una base de datos multidimensional (MOLAP), relacional (ROLAP) o si soporta ambas. En el caso de herramientas MOLAP es conveniente estudiar las capacidades de la BDM subyacente. Adems hay que fijarse en su capacidad de aceptar accesos concurrentes y la carga de usuarios que admite, ya que el objetivo del OLAP es permitir el anlisis interactivo. En el caso de herramientas ROLAP, la penalizacin en que se incurre al no utilizar una base de datos multidimensional, y las facilidades que ofrece la herramienta para ofrecer una vista multidimensional de los datos relaciones (optimizacin de accesos a esquemas en estrella, en copo de nieve e ndices bitmap). El lmite en cuanto al nmero de dimensiones y de celdillas que puede manejar, sea o no multidimensional la base de datos subyacente. Tambin la profundidad de los niveles de jerarquas y el manejo de series temporales. La capacidad de clculo y la facilidad para especificar qu mtodos y operaciones hay que aplicar a los datos. Tambin debe disponer de herramientas y presentacin de informes. El mantenimiento de las dimensiones y las jerarquas mediante herramientas automatizadas. Facilidad a la hora de modificar cualquiera de ambos elementos.

5.6

COMPARATIVA DE OLAP Y OTROS SISTEMAS

Terminamos el estudio de los sistemas OLAP haciendo una comparativa de los mismos frente a otros. Por un lado sistemas muy relacionados, como son los Sistemas de Soporte a las Decisiones y la propia Minera de Datos, y por otros sistemas antagnicos comos los sistemas OLTP.

5.6.1

MINERA DE DATOS FRENTE A OLAP Y DSS

Los sistemas de ayuda a la decisin (DSS) son herramientas sobre las que se apoyan los responsables de una empresa, directivos y gestores, en la toma de decisiones. Para ello, utilizan: Un Data Warehouse, en el que se almacena la informacin de inters para la empresa. Herramientas de anlisis multidimensional (OLAP).

Los DSS permiten al responsable de la toma de decisiones consultar y utilizar de manera rpida y econmica las enormes cantidades de datos operacionales y de mercado que se generan en una empresa. Gracias al anlisis OLAP, pueden verificarse hiptesis y resolverse consultas complejas. Adems, en el curso del anlisis, la interpretacin de los datos puede dar lugar a nuevas ideas y enfoques del problema, sugiriendo nuevas posibilidades de anlisis. Sin embargo, el anlisis OLAP depende de un usuario que plantee una consulta o hiptesis. Es el usuario el que lo dirige y, por tanto, el anlisis queda limitado por las ideas preconcebidas que aqul pueda tener. La minera de datos constituye un paso ms en el anlisis de los datos de la empresa para apoyar la toma de decisiones. No se trata de una tcnica que sustituya los DSS ni el anlisis OLAP, sino que los complementa, permitiendo realizar un anlisis ms avanzado de los datos y extraer ms informacin de ellos. Como ya se ha comentado anteriormente, utilizando minera de datos es el propio sistema el que descubre nuevas hiptesis y relaciones. De este modo, el conocimiento obtenido con estas tcnicas no queda limitado por la visin que el usuario tiene del problema.

Las diferencias entre minera de datos y OLAP radican esencialmente en que el enfoque desde el que se aborda el anlisis con cada una de ellas es completamente distinto. Fundamentalmente: El anlisis que realizan las herramientas OLAP es dirigido por el usuario, deductivo, parte de una hiptesis o de una pregunta del usuario y se analizan los datos para resolver esa consulta concreta. Por el contrario, la minera de datos permite razonar de forma inductiva a partir de los datos para llegar a una hiptesis general. Adems, las aplicaciones OLAP trabajan generalmente con datos agregados, para obtener una visin global del negocio. Por el contrario, la minera de datos trabaja con datos individuales, concretos, descubriendo las regularidades y patrones que presentan entre s y generalizando a partir de ellos.

Un ejemplo clarificar la diferencia entre ambas tcnicas es el siguiente: Una pregunta tpica de un sistema OLAP/DSS sera: El ao pasado, se compraron ms furgonetas en Catalua o en Madrid?. La respuesta del sistema sera del tipo En Catalua se compraron 12.000 furgonetas, mientras que, durante el mismo intervalo, en Madrid se compraron 10.000. Obviamente es una informacin interesante y til, pero restringida por las hiptesis realizadas a priori. En cambio, un problema tpico para resolver utilizando minera de datos sera, por ejemplo: Hallar un modelo que determine las caractersticas ms relevantes de las personas que compran furgonetas. A partir de los datos del pasado, el sistema de minera de datos proporcionara una respuesta del tipo: Depende de la poca del ao y la situacin geogrfica. En invierno, los habitantes de Madrid que pertenecen a un cierto grupo de edad y nivel de ingresos probablemente comprarn ms furgonetas que gente de las mismas caractersticas en Catalua. Como puede verse, se trata de problemas distintos, de modo que segn los objetivos perseguidos deber utilizarse una tcnica u otra. Adems, puesto que sus conclusiones son complementarias, en general ser conveniente combinar ambas para obtener los mejores resultados.

5.6.2

SISTEMAS OLTP VERSUS SISTEMAS OLAP

Como ya sabemos OLAP (On-Line Analytical Processing) se define como anlisis rpido de informacin multidimensional compartida. El trmino OLAP aparece en contraposicin al concepto tradicional OLTP (On-Line Transactional Processing), que designa el procesamiento operacional de los datos, orientado a conseguir la mxima eficacia y rapidez en las transacciones (actualizaciones) individuales de los datos, y no a su anlisis de forma agregada. Existen, por lo tanto, dos grupos de aplicaciones que se realizan en una empresa: Aplicaciones que ejecutan operaciones del da a da (compras, inventario, nminas,...). Son los Sistemas de Procesamiento de transacciones en lnea (OLTP). Aplicaciones que se encargan de analizar el negocio, interpretar lo que ha ocurrido y tomar decisiones (para mejorar los servicios al cliente, incrementar ventas,...). Son los Sistemas de Procesamiento analtico en lnea (OLAP).

Los dos son sistemas de procesamiento muy diferentes. Veamos las diferencias principales entre los dos sistemas: OLAP permite que una compaa decida qu debe hacer y OLTP ayuda a llevar a cabo la decisin. OLTP representa una imagen de los asuntos de la organizacin que se actualiza constantemente (con cada operacin realizada). Los sistemas OLAP son estticos, refrescndose peridicamente (cada semana, cada mes,...) a partir de las fuentes OLTP. El diseo de los sistemas OLTP elimina redundancias, y se piensa ms en la eficiencia (transacciones rpidas) que en el usuario (dificultad para navegar). Los sistemas OLAP almacenan datos redundantes para conseguir un acceso sencillo al usuario y buenos tiempos de respuesta.

OLTP proporciona capacidades muy limitadas para la toma de decisiones (los usuarios examinan la BD registro a registro). OLAP trabaja con un resumen de miles de registros condensados en una respuesta. Los sistemas transaccionales (u operacionales) automatizan el da a da del negocio, buscando la eficiencia. Los sistemas analticos se centran en la estrategia a largo plazo y estn dirigidos por el negocio. En cuanto a la implementacin de OLTP y OLAP: Surgen los sistemas EIS y DSS (basados en OLAP) para soportar la toma de decisiones. Presentan problemas para recuperar datos de las Bases de Datos Operacionales. No se puede implementar OLTP y OLAP en una sola BD. Actuando el SGBD como interfaz entre datos y usuarios. Se necesita una arquitectura dual de Base de Datos.

En el siguiente cuadro, se observa de forma resumida, las caractersticas de los sistemas OLTP y OLAP, quedando as ms claras sus diferencias. OLTP Administrativo Ejecucin del negocio Predeterminado Transaccin Lectura/Escritura Cientos Miles Entrada de datos OLAP Gestor o Directivo Anlisis del negocio Ad-hoc Consulta Principalmente lectura Millones Cientos Salida de informacin

Usuario tpico Usuario del sistema Interaccin de usuario Unidad de trabajo Caracterstica de trabajo Registros accedidos Nmero de usuarios Focos

6.

CONCLUSIN

Hemos comenzado este tema intentado dejar claro en qu consiste la minera de datos. Tomando una de sus definiciones, la minera de datos pretende obtener visiones en profundidad de los datos corporativos que no son fcilmente detectables. De hecho, ms que analizar los resultados de la actividad, permite modelizarla construyendo patrones o categoras que la identifiquen, respondiendo a las necesidades de informacin del tipo qu hay en los datos de inters? o qu podra ocurrir en un futuro?, en base al descubrimiento de tendencias o agrupaciones interesantes de datos. De hecho, las herramientas enmarcadas bajo la denominacin de Minera de Datos (MD), permiten no slo el anlisis de informacin que tradicionalmente ha venido siendo realizado por los Sistemas de Soporte a la Decisin (DSS), sino, y esto es lo realmente importante y diferencial, el planteamiento y descubrimiento automtico de hechos e hiptesis, ya sean patrones, reglas, grupos, funciones, mode