data mining

ASOCIACIÓNUNIVERSIDAD PRIVADA

SAN JUAN BAUTISTA

FACULTAD DE INGENIERÍA

ESCUELA PROFESIONAL DE INGENIERÍA DE COMPUTACIÓN Y SISTEMAS

“DATA MINING – MINERIA DE DATOS”

PROYECTO DE TITULACION

PRESENTADO POR:

Xxxxxxxxxxx

Xxxxxxxxxxx

xxxxxxxxxxxx

TITULO

PARA OPTAR EL TÍTULO PROFESIONAL DE

INGENIERÍA DE COMPUTACIÓN Y SISTEMAS

LIMA – PERÚ

2013

DEDICATORIA

Se lo dedicamos a nuestros padres

por el apoyo incondicionales a y

nuestros profesores por formanos

como profesionales

AGRADECIMIENTOS

2

En el camino recorrido hasta aquí tuve la oportunidad de conocer a muchas

personas que contribuyeron en mayor o menor medida a la realización de este

trabajo. Quiero agradecerles a todas ellas por el tiempo y dedicación prestados.

Prof. Zico Alexis

Dr.Miller Liendo, Profesor y autor de Datawearhouse por la información

proporcionada.

Jefe de Word Place Externo Leopoldo Rijavec por el apoyo solicitado.

3

INDICE

INTRODUCCIÓN.............................................................................................................................5

CAPITULO I - CONCEPTOS BÁSICOS...................................................................................7

1.2 Historia..............................................................................................................................7

1.3 Antecedentes y necesidades.........................................................................................8

1.4 Los Fundamentos del Data Mining................................................................................8

1.5 Principales características y objetivos de la Minería de Datos..................................9

1.6 Alcance de Data Mining................................................................................................12

1.7 Extracción de conocimiento en bases de datos........................................................13

1.8 Técnicas de Minería de Datos.....................................................................................14

CAPITULO II - ARQUITECTURA DATA MINING...................................................................17

2.1 Una arquitectura para Data Mining.............................................................................17

2.2 Fases de un Proyecto...................................................................................................18

2.3 Filtrado de datos............................................................................................................19

2.4 Selección de variables..................................................................................................19

2.5 Algoritmos de Extracción de Conocimiento...............................................................20

2.6 Interpretación y evaluación..........................................................................................21

CAPITULO III - Aplicaciones de Casos del Data Mining.......................................................22

4.1. Gobierno.........................................................................................................................22

4.2. Empresa..........................................................................................................................23

4.3. Universidad.....................................................................................................................25

4.4. Investigaciones Espaciales..........................................................................................26

4.5. Clubes Deportivos.........................................................................................................26

CAPITULO IV - SOFTWARE WEKA......................................................................................28

4.1. Software de minería de datos en Java.......................................................................28

4.2. WEKA Knowledge Explorer..........................................................................................30

4.3. El algoritmo J4.8............................................................................................................31

CONCLUSIÓN...............................................................................................................................33

BIBLIOGRAFÍA..............................................................................................................................34

GLOSARIO DE TÉRMINOS........................................................................................................35

4

INTRODUCCIÓN

El Data Mining surgió como una técnica novedosa a la situación en la cual se

contaban con grandes volúmenes de datos en los cuales no se aprovechaba toda

la información útil, ya que esta se encontraba oculta de alguna forma. El

descubrimiento de esta data útil se logra a través de procesos de redes

neuronales, árboles de decisión, modelos estadísticos y agrupamientos, lo cuales

permiten hallar patrones de conducta en los datos, y de esta forma realizar

predicciones para dar soporte a la toma de decisiones en el ámbito en el que fue

aplicado.

Es importante destacar que el uso de esta técnica no va dirigida a un público

específico, sino que cualquier persona con un buen dominio de las herramientas

de extracción puede ejercer el rol de minero, así mismo el entorno de la minería de

datos suele desarrollarse bajo una arquitectura cliente-servidor.

En la minería de datos se desarrollarán tópicos como, el proceso de extracción de

conocimiento, para luego dar pie al concepción del data mining seguidamente se

hondará en las principales características y objetivos del mismo, tomando en

cuenta el alcance que posee y la arquitectura en la cual se desarrolla.

5

De igual manera se deben resaltar las fases de un proyecto de data mining y las

aplicaciones que se le pueden dar a la técnica mencionada.

Los procesos de la minería de datos pueden agruparse en 4 pasos generales

independientemente de la técnica que se use, estos son: Filtrado de datos,

Selección de variables, Extracción de Conocimiento e Interpretación y evaluación.

Dentro de estas enormes masas de datos existe una gran cantidad de información

oculta, de gran importancia estratégica, a la que no se puede acceder por las

técnicas clásicas de recuperación de la información. El descubrimiento de esta

información oculta es posible gracias a la Minería de Datos (DataMining), que

entre otras sofisticadas técnicas aplica la inteligencia artificial para encontrar

patrones y relaciones dentro de los datos permitiendo la creación de modelos, es

decir, representaciones abstractas de la realidad, pero es el descubrimiento del

conocimiento (KDD, por sus siglas en inglés) que se encarga de la preparación de

los datos y la interpretación de los resultados obtenidos, los cuales dan un

significado a estos patrones encontrados.

Los pasos generales de un proceso de extracción de conocimiento se pueden

observar en la siguiente figura (Figura 1).

Figura 1

6

CAPITULO I - CONCEPTOS BÁSICOS

I.2 Historia

La idea de data mining no es nueva. Ya desde los años sesenta los

estadísticos manejaban términos como data fishing, data mining o data

archaeology con la idea de encontrar correlaciones sin una hipótesis previa

en bases de datos con ruido. A principios de los años ochenta, Rakesh

Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre

otros, empezaron a consolidar los términos de data mining y KDD. A finales

de los años ochenta sólo existían un par de empresas dedicadas a esta

tecnología; en 2002 existen más de 100 empresas en el mundo que ofrecen

alrededor de 300 soluciones. Las listas de discusión sobre este tema las

forman investigadores de más de ochenta países. Esta tecnología ha sido

un buen punto de encuentro entre personas pertenecientes al ámbito

académico y al de los negocios.

El data mining es una tecnología compuesta por etapas que integra varias

áreas y que no se debe confundir con un gran software. Reúne las ventajas

de varias áreas como la Estadística, la Inteligencia Artificial, la Computación

Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente

usando como materia prima las bases de datos.

7

Una definición tradicional es la siguiente: “Un proceso no trivial de

identificación válida, novedosa, potencialmente útil y entendible de patrones

comprensibles que se encuentran ocultos en los datos” (Fayyad y otros,

1996).

I.3 Antecedentes y necesidades

El éxito de una organización en un entorno globalizado depende en gran

medida del conocimiento de sus miembros y de sus habilidades para hacer

negocios. Sin embargo, las organizaciones no solo necesitan de

conocimiento, sino también necesitan tener la capacidad de actualizar

dinámicamente el conocimiento y ponerlo en práctica.

En esencia, deben ser capaces de resolver problemas, aprender de

experiencias propias y también de experiencias de otros, transfiriendo el

conocimiento y la información de forma rápida y eficiente a toda la

organización.

En nuestros días, la gran mayoría de las organizaciones tienen la capacidad

de generar grandes volúmenes de datos, esto de una forma rápida y

creciente como resultado de sus operaciones diarias, no obstante, pocas

son las organizaciones que producen información de verdadero valor.

Dentro de este contexto, surge la “urgente necesidad de contar con una

nueva generación de teorías y herramientas computacionales que ayuden

al ser humano a extraer información útil (conocimiento) de los crecientes

volúmenes de datos digitales”.

I.4 Los Fundamentos del Data Mining

La minería de datos o Data mining proporciona un nuevo sistema para el

manejo de grandes bases de datos, gracias a un campo situado entre la

estadística, la tecnología de bases de datos, los patrones de

reconocimiento, el aprendizaje de las máquinas, la visualización de datos y

los sistemas expertos. Las bases de datos se organizan de forma que

8

puedan ser fácilmente consultadas, actualizadas o utilizadas para extraer

información. Un manager de bases de datos permite realizar estas

funciones, con pequeñas bases pero sobre todo con enormes cantidades

de datos, difíciles de manejar con otros métodos. La minería de datos no

necesita ningún número determinado de variables ni estima que éstas se

comporten de una manera concreta mediante funciones de distribución. Así

mismo combina gran cantidad de técnicas y métodos, y aplica sus

algoritmos, directamente sobre los datos lo que aporta un manejo y

procesamiento de información más eficiente. Se aplican así algoritmos o

razonamientos que, originalmente no fueron diseñados para ese tipo de

datos aunque se tiende a modificar la aplicación de forma que la

terminología y el campo de trabajo se adecuen a la nueva aplicación.

Data Mining está listo para su aplicación en la comunidad de negocios

porque está soportado por tres tecnologías que ya están suficientemente

maduras:

Recolección masiva de datos.

Potentes computadoras con multiprocesadores.

Algoritmos de Data Mining.

I.5 Principales características y objetivos de la Minería de Datos

Explorar los datos que se encuentran en las profundidades de las

bases de datos, como los almacenes de datos, que algunas veces

contienen información almacenada durante varios años.

En algunos casos, los datos se consolidan en un almacén de datos y

en mercados de datos; en otros, se mantienen en servidores de

Internet e Intranet.

El entorno de la minería de datos suele tener una arquitectura cliente-

servidor.

9

Las herramientas de la minería de datos ayudan a extraer el mineral

de la información enterrado en archivos corporativos o en registros

públicos, archivados.

El minero es, muchas veces un usuario final con poca o ninguna

habilidad de programación, facultado por barrenadoras de datos y

otras poderosas herramientas indagatorias para efectuar preguntas

ad-hoc y obtener rápidamente respuestas.

Hurgar y sacudir a menudo implica el descubrimiento de resultados

valiosos e inesperados.

Las herramientas de la minería de datos se combinan fácilmente y

pueden analizarse y procesarse rápidamente.

Debido a la gran cantidad de datos, algunas veces resulta necesario

usar procesamiento en paralelo para la minería de datos.

La minería de datos produce cinco tipos de información:

o Asociaciones.

o Secuencias.

o Clasificaciones.

o Agrupamientos.

o Pronósticos.

Los mineros de datos usan varias herramientas y técnicas.

En la minería de datos, se coleccionan los datos y se espera que de ellos

emerjan hipótesis (al contrario de la dinámica del método científico). Se

busca que los datos describan o indiquen por qué son como son. Luego

entonces, se valida esa hipótesis inspirada por los datos en los datos

mismos, será numéricamente significativa, pero experimentalmente inválida.

10

De ahí que la minería de datos debe presentar un enfoque exploratorio, y no confirmador.

OBJETIVO SUPERVISADO NO SUPERVISADO

PREDICCION

Regresión logística No factible

Redes neuronales

Arboles de decisión

Razonamiento basado en la

memoria

Maquinas de soporte vectorial

CLASIFICACION

Arboles de decisión Clustering

Redes neuronales

Networks o mapas

autoorganizaciones

Análisis discriminante

Ensamblados

Clasificados

EXPLORACION

Arboles de decisión Clustering

Principales componentes

Link Analysis

Asociaciones

Secuencias

Analisis factorial

El proceso mediante el cual funciona la minería de datos puede ser

entendido como un conjunto de herramientas que se aplican es decir,

muestra, exploración, modificación, creación de modelos y asesoramiento.

Estos cinco escalones consisten en dibujar una muestra estadísticamente

significativa de los datos, aplicarle técnicas de exploración, estadísticas y de

visualización, maniobras de modificación o manipulación para seleccionar o

transformar las variables más significativas y predictivas, modelar estas

variables para la predicción de resultados y confirmar , por último, el ajuste

11

del modelo. El proceso se puede repetir las veces que sea necesario. El fin

último de la minería de datos es generalizar los resultados obtenidos.

Se detalla los procesos de la minería de datos

I.6 Alcance de Data Mining

El nombre de Data Mining deriva de las similitudes entre buscar valiosa

información de negocios en grandes bases de datos - por ej.: encontrar

información de la venta de un producto entre grandes montos de Gigabytes

almacenados - y minar una montaña para encontrar una veta de metales

valiosos. Ambos procesos requieren examinar una inmensa cantidad de

material, o investigar inteligentemente hasta encontrar exactamente donde

residen los valores.

Dadas bases de datos de suficiente tamaño y calidad, la tecnología de Data

Mining puede generar nuevas oportunidades de negocios al proveer estas

capacidades:

Predicción automatizada de tendencias y comportamientos. Data

Mining automatiza el proceso de encontrar información predecible en

12

grandes bases de datos. Preguntas que tradicionalmente requerían un

intenso análisis manual, ahora pueden ser contestadas directa y

rápidamente desde los datos. Un típico ejemplo de problema

predecible es el marketing apuntado a objetivos (targeted marketing).

Data Mining usa datos en mailing promocionales anteriores para

identificar posibles objetivos para maximizar los resultados de la

inversión en futuros mailing. Otros problemas predecibles incluyen

pronósticos de problemas financieros futuros y otras formas de

incumplimiento, e identificar segmentos de población que

probablemente respondan similarmente a eventos dados.

Descubrimiento automatizado de modelos previamente

desconocidos. Las herramientas de Data Mining barren las bases de

datos e identifican modelos previamente escondidos en un sólo paso.

Otros problemas de descubrimiento de modelos incluye detectar

transacciones fraudulentas de tarjetas de créditos e identificar datos

anormales que pueden representar errores de tipiado en la carga de

datos.

I.7 Extracción de conocimiento en bases de datos

Históricamente, a la noción de encontrar patrones útiles en los datos se le

ha dado una gran variedad de nombres, como minería de datos, extracción

de conocimiento, descubrimiento de información, recolección de

información, arqueología de datos, y procesamiento de patrones en datos.

El término minería de datos se ha usado con mayor frecuencia en las

comunidades de estadística, análisis de datos y sistemas de administración

de la información. Dicho término también ha ganado popularidad en el

campo de las bases de datos. Sin embargo, en estricto sentido, la minería

de datos y la extracción de conocimiento en bases de datos no son

conceptos equivalentes.

13

I.8 Técnicas de Minería de Datos

En los últimos años han existido muchos avances en las investigaciones y

desarrollos relacionados con la minería de datos, como resultado, se han

desarrollado diversas técnicas y sistemas relativos al data mining.

Diferentes esquemas de clasificación pueden ser usados para categorizar

métodos y sistemas de minado de datos, como el tipo de base de datos a

estudiar (relacional, orientada a objetos, multimedia, etc.), el tipo de

conocimiento que se quiere extraer (reglas de asociación, reglas de

clasificación, clustering, etc.), así como las técnicas que serán aplicadas en

el proceso (basadas en patrones, teoría estadística, teoría matemática,

enfoques integradores, etc.).

En la práctica, los métodos de data mining más utilizados caen dentro de la

categoría de tipo de conocimiento a extraer. Las técnicas de minado de

datos pertenecientes a esta categoría buscan hacer predicción y/o

descripción de un fenómeno determinado.

La predicción implica utilizar algunas variables o campos de una base de

datos para predecir valores desconocidos o futuros de otras variables de

interés, mientras que la descripción está enfocada a encontrar patrones

humano-interpretables que describen los datos. Aunque las fronteras entre

la predicción y la descripción no sean muy marcadas (parte de los modelos

predictivos pueden ser descriptivos, al grado de que estos sean

entendibles, y viceversa), la distinción es útil para entender la meta general

de la extracción de conocimiento. La importancia relativa de la predicción y

la descripción para aplicaciones particulares de minando datos puede variar

considerablemente. Las metas de la predicción y la descripción se pueden

lograr utilizando una variedad de métodos particulares de data mining.

1.8.1 Reglas de asociación

Mediante el minado de reglas de asociación se pueden encontrar

interesantes relaciones de asociación o correlación en los datos.

14

Dada la gran cantidad de datos que continuamente se recolectan y

almacenan, muchas industrias se han interesado por encontrar

reglas de asociación en sus bases de datos. El descubrimiento de

interesantes relaciones de asociación en grandes cantidades de

registros transaccionales, puede ayudar en diversos procesos de

toma de decisiones relacionados con el negocio, tales como el

diseño de catálogos, la venta cruzada, y el análisis loss-leader.

Una regla de asociación es un criterio que implica ciertas relaciones

de asociación entre distintos objetos de una base de datos, tales

como “ocurren juntos” o “uno implica al otro”.

1.8.2 Clasificación y predicción

La clasificación y la predicción son dos formas de análisis de datos

que pueden ser usadas para extraer modelos que describen

importantes clases de datos o predicen valores futuros.

En la clasificación de datos se desarrolla una descripción o modelo

para cada una de las clases presentes en la base de datos. Existen

muchos métodos de clasificación tales como los árboles de decisión,

los métodos estadísticos, las redes neuronales, y los conjuntos

difusos, entre otros.

La predicción puede ser vista como la construcción y uso de modelos

para evaluar las clases de una muestra sin clasificaciones, o para

evaluar el valor, o rango de valores, que un atributo debería de tener

para una muestra determinada.70 En el primer caso se dice que se

está haciendo una clasificación de los datos, mientras que en el

segundo, se dice que se está haciendo una predicción valores, en

otras palabras, la clasificación se refiere a poder predecir valores

discretos o nominales, mientras que la predicción, propiamente

dicha, se refiere al pronóstico de valores continuos.

15

1.8.3 Clustering

El Clustering identifica grupos de datos que son “similares”. La

similitud puede medirse mediante funciones de distancia

especificadas por los usuarios o por expertos.

CAPITULO II - ARQUITECTURA DATA MINING

2.1 Arquitectura para Data Mining

Para aplicar mejor estas técnicas avanzadas, éstas deben estar totalmente

integradas con el data warehouse así como con herramientas flexibles e

interactivas para el análisis de negocios. Varias herramientas de Data

Mining actualmente operan fuera del warehouse, requiriendo pasos extra

para extraer, importar y analizar los datos. Además, cuando nuevos

conceptos requieren implementación operacional, la integración con el

warehouse simplifica la aplicación de los resultados desde Data Mining.

16

El punto de inicio ideal es un data warehouse que contenga una

combinación de datos de seguimiento interno de todos los clientes junto con

datos externos de mercado acerca de la actividad de los competidores.

Información histórica sobre potenciales clientes también provee una

excelente base para prospecting. Este warehouse puede ser implementado

en una variedad de sistemas de bases relacionales y debe ser optimizado

para un acceso a los datos flexible y rápido.

Un server multidimensional OLAP permite que un modelo de negocios más

sofisticado pueda ser aplicado cuando se navega por el data warehouse.

Las estructuras multidimensionales permiten que el usuario analice los

datos de acuerdo a como quiera mirar el negocio resumido por línea de

producto, u otras perspectivas claves para su negocio.

El server de Data Mining debe estar integrado con el data warehouse y el

server OLAP para insertar el análisis de negocios directamente en esta

infraestructura. Un avanzado, metadata centrado en procesos define los

objetivos del Data Mining para resultados específicos tales como manejos

de campaña, prospecting, y optimización de promociones. La integración

con el data warehouse permite que decisiones operacionales sean

implementadas directamente y monitoreadas. A medida que el data

warehouse crece con nuevas decisiones y resultados, la organización

puede "minar" las mejores prácticas y aplicarlas en futuras decisiones.

Este diseño representa una transferencia fundamental desde los sistemas

de soporte de decisión convencionales. Más que simplemente proveer

datos a los usuarios finales a través de software de consultas y reportes, el

server de Análisis Avanzado aplica los modelos de negocios del usuario

directamente al warehouse y devuelve un análisis proactivo de la

información más relevante. Estos resultados mejoran los metadatos en el

server OLAP proveyendo un estrato de metadatos que representa una vista

fraccionada de los datos. Generadores de reportes, visualizadores y otras

17

herramientas de análisis pueden ser aplicadas para planificar futuras

acciones y confirmar el impacto de esos planes.

2.2 Fases de un Proyecto

Los pasos a seguir para la realización de un proyecto de minería de datos

son siempre los mismos, independientemente de la técnica específica de

extracción de conocimiento usada.

El proceso de minería de datos pasa por las siguientes fases:

Filtrado de datos.

Selección de Variables.

Extracción de Conocimiento.

Interpretación y Evaluación.

Figura 2

2.3 Filtrado de datos

El formato de los datos contenidos en la fuente de datos (base de datos,

Data Warehouse...) nunca es el idóneo, y la mayoría de las veces no es

posible ni siquiera utilizar ningún algoritmo de minería sobre los datos en

bruto.

Mediante el preprocesado, se filtran los datos (de forma que se eliminan

valores incorrectos, no válidos, desconocidos... según las necesidades y el

algoritmo a usar), se obtienen muestras de los mismos (en busca de una

18

mayor velocidad de respuesta del proceso), o se reducen el número de

valores posibles (mediante redondeo, clustering,etc).

2.4 Selección de variables

Aún después de haber sido preprocesados, en la mayoría de los casos se

tiene una cantidad muy grande de datos. La selección de características

reduce el tamaño de los datos eligiendo las variables más influyentes en el

problema, sin apenas sacrificar la calidad del modelo de conocimiento

obtenido del proceso de minería.

Los métodos para la selección de características son básicamente dos:

Aquellos basados en la elección de los mejores atributos del

problema,

Y aquellos que buscan variables independientes mediante tests de

sensibilidad, algoritmos de distancia o heurísticos.

2.5 Algoritmos de Extracción de Conocimiento

Mediante una técnica de minería de datos, se obtiene un modelo de

conocimiento, que representa patrones de comportamiento observados en

los valores de las variables del problema o relaciones de asociación entre

dichas variables. También pueden usarse varias técnicas a la vez para

generar distintos modelos, aunque generalmente cada técnica obliga a un

preprocesado diferente de los datos.

Las técnicas más representativas son:

Redes neuronales: Son un paradigma de aprendizaje y

procesamiento automático inspirado en la forma en que funciona el

sistema nervioso de los animales. Se trata de un sistema de

interconexión de neuronas en una red que colabora para producir un

estímulo de salida.

19

Algunos ejemplos de red neuronal son:

o El Perceptrón.

o El Perceptrón multicapa.

o Los Mapas Autoorganizados, también conocidos como redes

de Kohonen.

Árboles de decisión: Un árbol de decisión es un modelo de

predicción utilizado en el ámbito de la inteligencia artificial, dada una

base de datos se construyen estos diagramas de construcciones

lógicas, muy similares a los sistemas de predicción basados en reglas,

que sirven para representar y categorizar una serie de condiciones

que suceden de forma sucesiva, para la resolución de un problema.

Ejemplos:

o Algoritmo ID3.

o Algoritmo C4.5.

Modelos estadísticos: Es una expresión simbólica en forma de

igualdad o ecuación que se emplea en todos los diseños

experimentales y en la regresión para indicar los diferentes factores

que modifican la variable de respuesta.

Agrupamiento o Clustering: Es un procedimiento de agrupación de

una serie de vectores según criterios habitualmente de distancia; se

tratará de disponer los vectores de entrada de forma que estén más

cercanos aquellos que tengan características comunes.

Ejemplos:

o Algoritmo K-means.

o Algoritmo K-medoids.

20

2.6 Interpretación y evaluación

Una vez obtenido el modelo, se debe proceder a su validación,

comprobando que las conclusiones que arroja son válidas y suficientemente

satisfactorias. En el caso de haber obtenido varios modelos mediante el uso

de distintas técnicas, se deben comparar los modelos en busca de aquel

que se ajuste mejor al problema. Si ninguno de los modelos alcanza los

resultados esperados, debe alterarse alguno de los pasos anteriores para

generar nuevos modelos.

CAPITULO III - Aplicaciones de Casos del Data Mining

Cada año, en los diferentes congresos, simposios y talleres que se realizan en el

mundo se reúnen investigadores con aplicaciones muy diversas. Sobre todo en

los Estados Unidos, el data mining se ha ido incorporando a la vida de empresas,

gobiernos, universidades, hospitales y diversas organizaciones que están

interesadas en explorar sus bases de datos.

21

4.1. Gobierno

El FBI analizará las bases de datos comerciales para detectar terroristas.

A principios del mes de julio de 2002, el director del Federal Bureau of

Investigation (FBI), John Aschcroft, anunció que el Departamento de

Justicia comenzará a introducirse en la vasta cantidad de datos comerciales

referentes a los hábitos y preferencias de compra de los consumidores, con

el fin de descubrir potenciales terroristas antes de que ejecuten una acción.

Algunos expertos aseguran que, con esta información, el FBI unirá todas las

bases de datos probablemente mediante el número de la Seguridad Social

y permitirá saber si una persona fuma, qué talla y tipo de ropa usa, su

registro de arrestos, su salario, las revistas a las que está suscrito, su altura

y peso, sus contribuciones a la Iglesia, grupos políticos u organizaciones no

gubernamentales, sus enfermedades crónicas (como diabetes o asma), los

libros que lee, los productos de supermercado que compra, si tomó clases

de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversión

inicial ronda los setenta millones de dólares estadounidenses para

consolidar los almacenes de datos, desarrollar redes de seguridad para

compartir información e implementar nuevo software analítico y de

visualización.

4.2. Empresa

Detección de fraudes en las tarjetas de crédito.

En 2001, las instituciones financieras a escala mundial perdieron más de

2.000 millones de dólares estadounidenses en fraudes con tarjetas de

crédito y débito. El Falcon Fraud Manager es un sistema inteligente que

examina transacciones, propietarios de tarjetas y datos financieros para

detectar y mitigar fraudes. En un principio estaba pensado, en instituciones

financieras de Norteamérica, para detectar fraudes en tarjetas de crédito.

Sin embargo, actualmente se le han incorporado funcionalidades de análisis

22

en las tarjetas comerciales, de combustibles y de débito. El sistema Falcon

ha permitido ahorrar más de 600 millones de dólares estadounidenses cada

año y protege aproximadamente más de 450 millones de pagos con tarjeta

en todo el mundo -aproximadamente el 65% de todas las transacciones con

tarjeta de crédito.

Descubriendo el porqué de la deserción de clientes de una compañía operadora de telefonía móvil.

Este estudio fue desarrollado en una operadora española que básicamente

situó sus objetivos en dos puntos: el análisis del perfil de los clientes que se

dan de baja y la predicción del comportamiento de sus nuevos clientes. Se

analizaron los diferentes históricos de clientes que habían abandonado la

operadora (12,6%) y de clientes que continuaban con su servicio (87,4%).

También se analizaron las variables personales de cada cliente (estado

civil, edad, sexo, nacionalidad, etc.). De igual forma se estudiaron, para

cada cliente, la morosidad, la frecuencia y el horario de uso del servicio, los

descuentos y el porcentaje de llamadas locales, interprovinciales,

internacionales y gratuitas. Al contrario de lo que se podría pensar, los

clientes que abandonaban la operadora generaban ganancias para la

empresa; sin embargo, una de las conclusiones más importantes radicó en

el hecho de que los clientes que se daban de baja recibían pocas

promociones y registraban un mayor número de incidencias respecto a la

media. De esta forma se recomendó a la operadora hacer un estudio sobre

sus ofertas y analizar profundamente las incidencias recibidas por esos

clientes. Al descubrir el perfil que presentaban, la operadora tuvo que

diseñar un trato más personalizado para sus clientes actuales con esas

características. Para poder predecir el comportamiento de sus nuevos

clientes se diseñó un sistema de predicción basado en la cantidad de datos

que se podía obtener de los nuevos clientes comparados con el

comportamiento de clientes anteriores.

23

Hábitos de compra en supermercados.

Un estudio muy citado detectó que los viernes había una cantidad

inusualmente elevada de clientes que adquirían a la vez pañales y cerveza.

Se detectó que se debía a que dicho día solían acudir al supermercado

padres jóvenes cuya perspectiva para el fin de semana consistía en

quedarse en casa cuidando de su hijo y viendo la televisión con una

cerveza en la mano. El supermercado pudo incrementar sus ventas de

cerveza colocándolas próximas a los pañales para fomentar las ventas

compulsivas.

Prediciendo el tamaño de las audiencias televisivas.

La British Broadcasting Corporation (BBC) del Reino Unido emplea un

sistema para predecir el tamaño de las audiencias televisivas para un

programa propuesto, así como el tiempo óptimo de exhibición (Brachman y

otros, 1996). El sistema utiliza redes neuronales y árboles de decisión

aplicados a datos históricos de la cadena para determinar los criterios que

participan según el programa que hay que presentar. La versión final se

desempeña tan bien como un experto humano con la ventaja de que se

adapta más fácilmente a los cambios porque es constantemente re-

entrenada con datos actuales.

4.3. Universidad

Conociendo si los recién titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios.

Se hizo un estudio sobre los recién titulados de la carrera de Ingeniería en

Sistemas Computacionales del Instituto Tecnológico de Chihuahua II, en

Méjico (Rodas, 2001). Se quería observar si sus recién titulados se

insertaban en actividades profesionales relacionadas con sus estudios y, en

caso negativo, se buscaba saber el perfil que caracterizó a los exalumnos

durante su estancia en la universidad. El objetivo era saber si con los

planes de estudio de la universidad y el aprovechamiento del alumno se

24

hacía una buena inserción laboral o si existían otras variables que

participaban en el proceso. Dentro de la información considerada estaba el

sexo, la edad, la escuela de procedencia, el desempeño académico, la zona

económica donde tenía su vivienda y la actividad profesional, entre otras

variables. Mediante la aplicación de conjuntos aproximados se descubrió

que existían cuatro variables que determinaban la adecuada inserción

laboral, que son citadas de acuerdo con su importancia: zona económica

donde habitaba el estudiante, colegio de donde provenía, nota al ingresar y

promedio final al salir de la carrera. A partir de estos resultados, la

universidad tendrá que hacer un estudio socioeconómico sobre grupos de

alumnos que pertenecían a las clases económicas bajas para dar posibles

soluciones, debido a que tres de las cuatro variables no dependían de la

universidad.

4.4. Investigaciones Espaciales

Proyecto SKYCAT.

Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II)

coleccionó tres terabytes de imágenes que contenían aproximadamente dos

millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a

una resolución de 16 bits por píxel con 23.040 x 23.040 píxeles por imagen.

El objetivo era formar un catálogo de todos esos objetos. El sistema Sky

Image Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de

agrupación (clustering) y árboles de decisión para poder clasificar los

objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta

confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los

astrónomos a descubrir dieciséis nuevos quásars con corrimiento hacia el

rojo que los incluye entre los objetos más lejanos del universo y, por

consiguiente, más antiguos. Estos quásars son difíciles de encontrar y

permiten saber más acerca de los orígenes del universo.

25

4.5. Clubes Deportivos

Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores.

El Advanced Scout es un software que emplea técnicas de data mining y

que han desarrollado investigadores de IBM para detectar patrones

estadísticos y eventos raros. Tiene una interfaz gráfica muy amigable

orientada a un objetivo muy específico: analizar el juego de los equipos de

la National Basketball Association (NBA). El software utiliza todos los

registros guardados de cada evento en cada juego: pases, encestes,

rebotes y doble marcaje (double team) a un jugador por el equipo contrario,

entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no

detectan cuando observan el juego en vivo o en película.

Un resultado interesante fue uno hasta entonces no observado por los

entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador

puede generalmente dar la oportunidad a otro jugador de encestar más

fácilmente. Sin embargo, cuando los Bulls de Chicago jugaban contra los

Knicks, se encontró que el porcentaje de encestes después de que al centro

de los Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente

bajo, indicando que los Knicks no reaccionaban correctamente a los dobles

marcajes. Para saber el porqué, el cuerpo de entrenadores estudió

cuidadosamente todas las películas de juegos contra Chicago. Observaron

que los jugadores de Chicago rompían su doble marcaje muy rápido de tal

forma que podían tapar al encestador libre de los Knicks antes de

prepararse para efectuar su tiro. Con este conocimiento, los entrenadores

crearon estrategias alternativas para tratar con el doble marcaje.

26

CAPITULO IV - SOFTWARE WEKA

4.1. Software de minería de datos en Java

WEKA fue desarrollado en la Universidad de Waikato en Nueva Zelanda. El

sistema esta desarrollado en Java, un lenguaje de programación orientado

a objetos disponible para lamayoría de las plataformas de cómputo. WEKA

ha sido probado bajo sistemas operativos como Linux, Windows y

Macintosh. El lenguaje Java permite ofrecer una interfase uniforme a los

diferentes algoritmos de aprendizaje, todos ellos con métodos de

preproceso, postproceso y evaluación de resultados de los diferentes

esquemas de aprendizaje.

27

Gráfica 3.6 WEKA (Waikato Environment for Knowledge Analysis)

Hay diferentes niveles en los que WEKA puede ser utilizado. El primero, ofrece

Implementaciones de los algoritmos de aprendizaje pertenecientes al estado del

arte, los cuales pueden ser aplicados a conjuntos de datos mediante una línea de 28

comandos. También se incluyen una gran variedad de herramientas para

transformar datos, como los algoritmos de desratización. Asimismo se puede

preprocesar un conjunto de datos, alimentándolo dentro de un esquema de

aprendizaje, analizando el clasificador resultante y su desempeño, todo ello sin

escribir una sola línea de código.

Cabe señalar que el enfoque principal de WEKA está en los algoritmos de

clasificación y filtrado.

Sin embargo, también incluye implementaciones de algoritmos de reglas de

asociación y clustering.

4.2. WEKA Knowledge Explorer

Dentro del ambiente gráfico de WEKA se encuentra el módulo exploración de

datos el cual permite preprocesar, clasificar, asociar y visualizar datos de una

manera fácil e intuitiva.

WEKA cuenta con una gran variedad de algoritmos de clasificación entre los que

destacan los métodos bayesianos, las reglas de clasificación los métodos de

regresión (Regresión Lineal, Regresión Logística, etc.) y los árboles de decisión.

Gráfica 3.7 WEKA Knowledge Explorer

29

4.3. El algoritmo J4.8

El algoritmo J4.8 induce árboles de decisión. Es la implementación en WEKA del

algoritmo C4.5 revisión 8, la cual fue la última versión pública de esta familia de

algoritmos, posteriormente apareció la primera implementación comercial, es

decir, el algoritmo C5.0.

Dentro de las opciones que J4.8 soporta están:

• La poda de árboles

• La especificación de factores de confianza para la poda

• La especificación de un mínimo de instancias en las hojas

• La poda de árboles con error reducido

• La especificación del número de datos en podas con error reducido

• El uso de particiones binarias en atributos nominales

30

A continuación se presenta la salida de un árbol de decisión producido por el

algoritmo J4.8:

31

CONCLUSIÓN

El Data Mining es una técnica de extracción de información valiosa.

El Data Mining no se debe confundir con un software, aunque integre varias

áreas.

En el Data Mining se busca que de los datos emerjan hipótesis.

El Data Mining requiere tecnología adecuada y una buena organización de

los datos para garantizar su óptimo desempeño.

El usuario del Data Mining puede tener o no un alto conocimiento de

programación para aplicar esta técnica.

El Data Mining y los Almacenes de Datos están fuertemente relacionados,

en lo que arquitectura se refiere.

Según el objetivo del análisis de los datos, los algoritmos utilizados se

clasifican en supervisados y no supervisados.

El Data Mining puede ser aplicado en distintos entornos como: el gobierno,

la empresa, la universidad, los deportes, etc.

32

BIBLIOGRAFÍA

1. Vallejos, S. J. (2006). Minería de Datos. Obtenido de Universidad Nacional del

Nordeste:

http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/

Mineria_Datos_Vallejos.pdf

2. Saiz, M. D. Tesis Doctorial – Mineria de datos para el análisis de los

antecedentes familiares de la conducta suicida.

3. Pyle, Doriam (1999). Data preparation for Data Mining. Morgan Kaufmann.

4. Zeleznikow, J., 2005. Using Data Mining to Detect Criminal Networks.

URL:http://www.aic.gov.au/conferences/occasional/2005-04.zeleznikow.html.

Acceso mayo 2007.

5. Witten, I. H. y Frank, E. (2000). Data Mining: Practical machine learning tools

and techniques with java implementations. San Francisco: Morgan Kaufmann

Publishers.

6. Smith, K. A., Willis, R. J. y Brooks, M. (2000). An analysis of customer retention

and insurance claim patterns using data mining: a case study. Journal of the

OperationalResearch Society, 51 (5), 532-541.

33

http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vallejos.pdf

http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/Mineria_Datos_Vallejos.pdf

GLOSARIO DE TÉRMINOS

Algoritmos genéticos: Técnicas de optimización que usan procesos tales

como combinación genética, mutación y selección natural en un diseño

basado en los conceptos de evolución natural.

Árbol de decisión: Estructura en forma de árbol que representa un

conjunto de decisiones. Estas decisiones generan reglas para la

clasificación de un conjunto de datos. Ver CART y CHAID.

Base de datos multidimensional: Base de datos diseñada para

procesamiento analítico on-line (OLAP). Estructurada como un hipercubo

con un eje por dimensión.

Clasificación: Proceso de dividir un conjunto de datos en grupos

mutuamente excluyentes de tal manera que cada miembro de un grupo

esté lo "más cercano" posible a otro, y grupos diferentes estén lo "más

lejos" posible uno del otro, donde la distancia está medida con respecto a

variable(s) específica(s) las cuales se están tratando de predecir. Por

ejemplo, un problema típico de clasificación es el de dividir una base de

datos de compañías en grupos que son lo más homogéneos posibles con

respecto a variables como "posibilidades de crédito" con valores tales como

"Bueno" y "Malo".

Clustering (agrupamiento): Proceso de dividir un conjunto de datos en

grupos mutuamente excluyentes de tal manera que cada miembro de un

grupo esté lo "más cercano" posible a otro, y grupos diferentes estén lo

"más lejos" posible uno del otro, donde la distancia está medida con

respecto a todas las variables disponibles.

34

Data cleansing: Proceso de asegurar que todos los valores en un conjunto

de datos sean consistentes y correctamente registrados.

Data Mining: La extracción de información predecible escondida en

grandes bases de datos.

Data Warehouse: Sistema para el almacenamiento y distribución de

cantdades masivas de datos

Dimensión: En una base de datos relacional o plana, cada campo en un

registro representa una dimensión. En una base de datos multidimensional,

una dimensión es un conjunto de entidades similares; por ej.: una base de

datos multidimensional de ventas podría incluir las dimensiones Producto,

Tiempo y Ciudad.

Modelo analítico: Una estructura y proceso para analizar un conjunto de

datos. Por ejemplo, un árbol de decisión es un modelo para la clasificación

de un conjunto de datos

Modelo lineal: Un modelo analítico que asume relaciones lineales entre

una variable seleccionada (dependiente) y sus predictores (variables

independientes).

Modelo no lineal: Un modelo analítico que no asume una relación lineal en

los coeficientes de las variables que son estudiadas.

Modelo predictivo: Estructura y proceso para predecir valores de variables

especificadas en un conjunto de datos.

Navegación de datos: Proceso de visualizar diferentes dimensiones,

"fetas" y niveles de una base de datos multidimensional. Ver OLAP.

OLAP Procesamiento analítico on-line (On Line Analitic prossesing):

Se refiere a aplicaciones de bases de datos orientadas a array que permite

a los usuarios ver, navegar, manipular y analizar bases de datos

multidimensionales.

Procesamiento paralelo: Uso coordinado de múltiples procesadores para

realizar tareas computacionales. El procesamiento paralelo puede ocurrir en

una computadora con múltiples procesadores o en una red de estaciones

de trabajo o PCs.

35

data mining

Documents