data mining
DESCRIPTION
Data miningTRANSCRIPT
ASOCIACIÓNUNIVERSIDAD PRIVADA
SAN JUAN BAUTISTA
FACULTAD DE INGENIERÍA
ESCUELA PROFESIONAL DE INGENIERÍA DE COMPUTACIÓN Y SISTEMAS
“DATA MINING – MINERIA DE DATOS”
PROYECTO DE TITULACION
PRESENTADO POR:
Xxxxxxxxxxx
Xxxxxxxxxxx
xxxxxxxxxxxx
TITULO
PARA OPTAR EL TÍTULO PROFESIONAL DE
INGENIERÍA DE COMPUTACIÓN Y SISTEMAS
LIMA – PERÚ
2013
DEDICATORIA
Se lo dedicamos a nuestros padres
por el apoyo incondicionales a y
nuestros profesores por formanos
como profesionales
AGRADECIMIENTOS
2
En el camino recorrido hasta aquí tuve la oportunidad de conocer a muchas
personas que contribuyeron en mayor o menor medida a la realización de este
trabajo. Quiero agradecerles a todas ellas por el tiempo y dedicación prestados.
Prof. Zico Alexis
Dr.Miller Liendo, Profesor y autor de Datawearhouse por la información
proporcionada.
Jefe de Word Place Externo Leopoldo Rijavec por el apoyo solicitado.
3
INDICE
INTRODUCCIÓN.............................................................................................................................5
CAPITULO I - CONCEPTOS BÁSICOS...................................................................................7
1.2 Historia..............................................................................................................................7
1.3 Antecedentes y necesidades.........................................................................................8
1.4 Los Fundamentos del Data Mining................................................................................8
1.5 Principales características y objetivos de la Minería de Datos..................................9
1.6 Alcance de Data Mining................................................................................................12
1.7 Extracción de conocimiento en bases de datos........................................................13
1.8 Técnicas de Minería de Datos.....................................................................................14
CAPITULO II - ARQUITECTURA DATA MINING...................................................................17
2.1 Una arquitectura para Data Mining.............................................................................17
2.2 Fases de un Proyecto...................................................................................................18
2.3 Filtrado de datos............................................................................................................19
2.4 Selección de variables..................................................................................................19
2.5 Algoritmos de Extracción de Conocimiento...............................................................20
2.6 Interpretación y evaluación..........................................................................................21
CAPITULO III - Aplicaciones de Casos del Data Mining.......................................................22
4.1. Gobierno.........................................................................................................................22
4.2. Empresa..........................................................................................................................23
4.3. Universidad.....................................................................................................................25
4.4. Investigaciones Espaciales..........................................................................................26
4.5. Clubes Deportivos.........................................................................................................26
CAPITULO IV - SOFTWARE WEKA......................................................................................28
4.1. Software de minería de datos en Java.......................................................................28
4.2. WEKA Knowledge Explorer..........................................................................................30
4.3. El algoritmo J4.8............................................................................................................31
CONCLUSIÓN...............................................................................................................................33
BIBLIOGRAFÍA..............................................................................................................................34
GLOSARIO DE TÉRMINOS........................................................................................................35
4
INTRODUCCIÓN
El Data Mining surgió como una técnica novedosa a la situación en la cual se
contaban con grandes volúmenes de datos en los cuales no se aprovechaba toda
la información útil, ya que esta se encontraba oculta de alguna forma. El
descubrimiento de esta data útil se logra a través de procesos de redes
neuronales, árboles de decisión, modelos estadísticos y agrupamientos, lo cuales
permiten hallar patrones de conducta en los datos, y de esta forma realizar
predicciones para dar soporte a la toma de decisiones en el ámbito en el que fue
aplicado.
Es importante destacar que el uso de esta técnica no va dirigida a un público
específico, sino que cualquier persona con un buen dominio de las herramientas
de extracción puede ejercer el rol de minero, así mismo el entorno de la minería de
datos suele desarrollarse bajo una arquitectura cliente-servidor.
En la minería de datos se desarrollarán tópicos como, el proceso de extracción de
conocimiento, para luego dar pie al concepción del data mining seguidamente se
hondará en las principales características y objetivos del mismo, tomando en
cuenta el alcance que posee y la arquitectura en la cual se desarrolla.
5
De igual manera se deben resaltar las fases de un proyecto de data mining y las
aplicaciones que se le pueden dar a la técnica mencionada.
Los procesos de la minería de datos pueden agruparse en 4 pasos generales
independientemente de la técnica que se use, estos son: Filtrado de datos,
Selección de variables, Extracción de Conocimiento e Interpretación y evaluación.
Dentro de estas enormes masas de datos existe una gran cantidad de información
oculta, de gran importancia estratégica, a la que no se puede acceder por las
técnicas clásicas de recuperación de la información. El descubrimiento de esta
información oculta es posible gracias a la Minería de Datos (DataMining), que
entre otras sofisticadas técnicas aplica la inteligencia artificial para encontrar
patrones y relaciones dentro de los datos permitiendo la creación de modelos, es
decir, representaciones abstractas de la realidad, pero es el descubrimiento del
conocimiento (KDD, por sus siglas en inglés) que se encarga de la preparación de
los datos y la interpretación de los resultados obtenidos, los cuales dan un
significado a estos patrones encontrados.
Los pasos generales de un proceso de extracción de conocimiento se pueden
observar en la siguiente figura (Figura 1).
Figura 1
6
CAPITULO I - CONCEPTOS BÁSICOS
I.2 Historia
La idea de data mining no es nueva. Ya desde los años sesenta los
estadísticos manejaban términos como data fishing, data mining o data
archaeology con la idea de encontrar correlaciones sin una hipótesis previa
en bases de datos con ruido. A principios de los años ochenta, Rakesh
Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre
otros, empezaron a consolidar los términos de data mining y KDD. A finales
de los años ochenta sólo existían un par de empresas dedicadas a esta
tecnología; en 2002 existen más de 100 empresas en el mundo que ofrecen
alrededor de 300 soluciones. Las listas de discusión sobre este tema las
forman investigadores de más de ochenta países. Esta tecnología ha sido
un buen punto de encuentro entre personas pertenecientes al ámbito
académico y al de los negocios.
El data mining es una tecnología compuesta por etapas que integra varias
áreas y que no se debe confundir con un gran software. Reúne las ventajas
de varias áreas como la Estadística, la Inteligencia Artificial, la Computación
Gráfica, las Bases de Datos y el Procesamiento Masivo, principalmente
usando como materia prima las bases de datos.
7
Una definición tradicional es la siguiente: “Un proceso no trivial de
identificación válida, novedosa, potencialmente útil y entendible de patrones
comprensibles que se encuentran ocultos en los datos” (Fayyad y otros,
1996).
I.3 Antecedentes y necesidades
El éxito de una organización en un entorno globalizado depende en gran
medida del conocimiento de sus miembros y de sus habilidades para hacer
negocios. Sin embargo, las organizaciones no solo necesitan de
conocimiento, sino también necesitan tener la capacidad de actualizar
dinámicamente el conocimiento y ponerlo en práctica.
En esencia, deben ser capaces de resolver problemas, aprender de
experiencias propias y también de experiencias de otros, transfiriendo el
conocimiento y la información de forma rápida y eficiente a toda la
organización.
En nuestros días, la gran mayoría de las organizaciones tienen la capacidad
de generar grandes volúmenes de datos, esto de una forma rápida y
creciente como resultado de sus operaciones diarias, no obstante, pocas
son las organizaciones que producen información de verdadero valor.
Dentro de este contexto, surge la “urgente necesidad de contar con una
nueva generación de teorías y herramientas computacionales que ayuden
al ser humano a extraer información útil (conocimiento) de los crecientes
volúmenes de datos digitales”.
I.4 Los Fundamentos del Data Mining
La minería de datos o Data mining proporciona un nuevo sistema para el
manejo de grandes bases de datos, gracias a un campo situado entre la
estadística, la tecnología de bases de datos, los patrones de
reconocimiento, el aprendizaje de las máquinas, la visualización de datos y
los sistemas expertos. Las bases de datos se organizan de forma que
8
puedan ser fácilmente consultadas, actualizadas o utilizadas para extraer
información. Un manager de bases de datos permite realizar estas
funciones, con pequeñas bases pero sobre todo con enormes cantidades
de datos, difíciles de manejar con otros métodos. La minería de datos no
necesita ningún número determinado de variables ni estima que éstas se
comporten de una manera concreta mediante funciones de distribución. Así
mismo combina gran cantidad de técnicas y métodos, y aplica sus
algoritmos, directamente sobre los datos lo que aporta un manejo y
procesamiento de información más eficiente. Se aplican así algoritmos o
razonamientos que, originalmente no fueron diseñados para ese tipo de
datos aunque se tiende a modificar la aplicación de forma que la
terminología y el campo de trabajo se adecuen a la nueva aplicación.
Data Mining está listo para su aplicación en la comunidad de negocios
porque está soportado por tres tecnologías que ya están suficientemente
maduras:
Recolección masiva de datos.
Potentes computadoras con multiprocesadores.
Algoritmos de Data Mining.
I.5 Principales características y objetivos de la Minería de Datos
Explorar los datos que se encuentran en las profundidades de las
bases de datos, como los almacenes de datos, que algunas veces
contienen información almacenada durante varios años.
En algunos casos, los datos se consolidan en un almacén de datos y
en mercados de datos; en otros, se mantienen en servidores de
Internet e Intranet.
El entorno de la minería de datos suele tener una arquitectura cliente-
servidor.
9
Las herramientas de la minería de datos ayudan a extraer el mineral
de la información enterrado en archivos corporativos o en registros
públicos, archivados.
El minero es, muchas veces un usuario final con poca o ninguna
habilidad de programación, facultado por barrenadoras de datos y
otras poderosas herramientas indagatorias para efectuar preguntas
ad-hoc y obtener rápidamente respuestas.
Hurgar y sacudir a menudo implica el descubrimiento de resultados
valiosos e inesperados.
Las herramientas de la minería de datos se combinan fácilmente y
pueden analizarse y procesarse rápidamente.
Debido a la gran cantidad de datos, algunas veces resulta necesario
usar procesamiento en paralelo para la minería de datos.
La minería de datos produce cinco tipos de información:
o Asociaciones.
o Secuencias.
o Clasificaciones.
o Agrupamientos.
o Pronósticos.
Los mineros de datos usan varias herramientas y técnicas.
En la minería de datos, se coleccionan los datos y se espera que de ellos
emerjan hipótesis (al contrario de la dinámica del método científico). Se
busca que los datos describan o indiquen por qué son como son. Luego
entonces, se valida esa hipótesis inspirada por los datos en los datos
mismos, será numéricamente significativa, pero experimentalmente inválida.
10
De ahí que la minería de datos debe presentar un enfoque exploratorio, y no confirmador.
OBJETIVO SUPERVISADO NO SUPERVISADO
PREDICCION
Regresión logística No factible
Redes neuronales
Arboles de decisión
Razonamiento basado en la
memoria
Maquinas de soporte vectorial
CLASIFICACION
Arboles de decisión Clustering
Redes neuronales
Networks o mapas
autoorganizaciones
Análisis discriminante
Ensamblados
Clasificados
EXPLORACION
Arboles de decisión Clustering
Principales componentes
Link Analysis
Asociaciones
Secuencias
Analisis factorial
El proceso mediante el cual funciona la minería de datos puede ser
entendido como un conjunto de herramientas que se aplican es decir,
muestra, exploración, modificación, creación de modelos y asesoramiento.
Estos cinco escalones consisten en dibujar una muestra estadísticamente
significativa de los datos, aplicarle técnicas de exploración, estadísticas y de
visualización, maniobras de modificación o manipulación para seleccionar o
transformar las variables más significativas y predictivas, modelar estas
variables para la predicción de resultados y confirmar , por último, el ajuste
11
del modelo. El proceso se puede repetir las veces que sea necesario. El fin
último de la minería de datos es generalizar los resultados obtenidos.
Se detalla los procesos de la minería de datos
I.6 Alcance de Data Mining
El nombre de Data Mining deriva de las similitudes entre buscar valiosa
información de negocios en grandes bases de datos - por ej.: encontrar
información de la venta de un producto entre grandes montos de Gigabytes
almacenados - y minar una montaña para encontrar una veta de metales
valiosos. Ambos procesos requieren examinar una inmensa cantidad de
material, o investigar inteligentemente hasta encontrar exactamente donde
residen los valores.
Dadas bases de datos de suficiente tamaño y calidad, la tecnología de Data
Mining puede generar nuevas oportunidades de negocios al proveer estas
capacidades:
Predicción automatizada de tendencias y comportamientos. Data
Mining automatiza el proceso de encontrar información predecible en
12
grandes bases de datos. Preguntas que tradicionalmente requerían un
intenso análisis manual, ahora pueden ser contestadas directa y
rápidamente desde los datos. Un típico ejemplo de problema
predecible es el marketing apuntado a objetivos (targeted marketing).
Data Mining usa datos en mailing promocionales anteriores para
identificar posibles objetivos para maximizar los resultados de la
inversión en futuros mailing. Otros problemas predecibles incluyen
pronósticos de problemas financieros futuros y otras formas de
incumplimiento, e identificar segmentos de población que
probablemente respondan similarmente a eventos dados.
Descubrimiento automatizado de modelos previamente
desconocidos. Las herramientas de Data Mining barren las bases de
datos e identifican modelos previamente escondidos en un sólo paso.
Otros problemas de descubrimiento de modelos incluye detectar
transacciones fraudulentas de tarjetas de créditos e identificar datos
anormales que pueden representar errores de tipiado en la carga de
datos.
I.7 Extracción de conocimiento en bases de datos
Históricamente, a la noción de encontrar patrones útiles en los datos se le
ha dado una gran variedad de nombres, como minería de datos, extracción
de conocimiento, descubrimiento de información, recolección de
información, arqueología de datos, y procesamiento de patrones en datos.
El término minería de datos se ha usado con mayor frecuencia en las
comunidades de estadística, análisis de datos y sistemas de administración
de la información. Dicho término también ha ganado popularidad en el
campo de las bases de datos. Sin embargo, en estricto sentido, la minería
de datos y la extracción de conocimiento en bases de datos no son
conceptos equivalentes.
13
I.8 Técnicas de Minería de Datos
En los últimos años han existido muchos avances en las investigaciones y
desarrollos relacionados con la minería de datos, como resultado, se han
desarrollado diversas técnicas y sistemas relativos al data mining.
Diferentes esquemas de clasificación pueden ser usados para categorizar
métodos y sistemas de minado de datos, como el tipo de base de datos a
estudiar (relacional, orientada a objetos, multimedia, etc.), el tipo de
conocimiento que se quiere extraer (reglas de asociación, reglas de
clasificación, clustering, etc.), así como las técnicas que serán aplicadas en
el proceso (basadas en patrones, teoría estadística, teoría matemática,
enfoques integradores, etc.).
En la práctica, los métodos de data mining más utilizados caen dentro de la
categoría de tipo de conocimiento a extraer. Las técnicas de minado de
datos pertenecientes a esta categoría buscan hacer predicción y/o
descripción de un fenómeno determinado.
La predicción implica utilizar algunas variables o campos de una base de
datos para predecir valores desconocidos o futuros de otras variables de
interés, mientras que la descripción está enfocada a encontrar patrones
humano-interpretables que describen los datos. Aunque las fronteras entre
la predicción y la descripción no sean muy marcadas (parte de los modelos
predictivos pueden ser descriptivos, al grado de que estos sean
entendibles, y viceversa), la distinción es útil para entender la meta general
de la extracción de conocimiento. La importancia relativa de la predicción y
la descripción para aplicaciones particulares de minando datos puede variar
considerablemente. Las metas de la predicción y la descripción se pueden
lograr utilizando una variedad de métodos particulares de data mining.
1.8.1 Reglas de asociación
Mediante el minado de reglas de asociación se pueden encontrar
interesantes relaciones de asociación o correlación en los datos.
14
Dada la gran cantidad de datos que continuamente se recolectan y
almacenan, muchas industrias se han interesado por encontrar
reglas de asociación en sus bases de datos. El descubrimiento de
interesantes relaciones de asociación en grandes cantidades de
registros transaccionales, puede ayudar en diversos procesos de
toma de decisiones relacionados con el negocio, tales como el
diseño de catálogos, la venta cruzada, y el análisis loss-leader.
Una regla de asociación es un criterio que implica ciertas relaciones
de asociación entre distintos objetos de una base de datos, tales
como “ocurren juntos” o “uno implica al otro”.
1.8.2 Clasificación y predicción
La clasificación y la predicción son dos formas de análisis de datos
que pueden ser usadas para extraer modelos que describen
importantes clases de datos o predicen valores futuros.
En la clasificación de datos se desarrolla una descripción o modelo
para cada una de las clases presentes en la base de datos. Existen
muchos métodos de clasificación tales como los árboles de decisión,
los métodos estadísticos, las redes neuronales, y los conjuntos
difusos, entre otros.
La predicción puede ser vista como la construcción y uso de modelos
para evaluar las clases de una muestra sin clasificaciones, o para
evaluar el valor, o rango de valores, que un atributo debería de tener
para una muestra determinada.70 En el primer caso se dice que se
está haciendo una clasificación de los datos, mientras que en el
segundo, se dice que se está haciendo una predicción valores, en
otras palabras, la clasificación se refiere a poder predecir valores
discretos o nominales, mientras que la predicción, propiamente
dicha, se refiere al pronóstico de valores continuos.
15
1.8.3 Clustering
El Clustering identifica grupos de datos que son “similares”. La
similitud puede medirse mediante funciones de distancia
especificadas por los usuarios o por expertos.
CAPITULO II - ARQUITECTURA DATA MINING
2.1 Arquitectura para Data Mining
Para aplicar mejor estas técnicas avanzadas, éstas deben estar totalmente
integradas con el data warehouse así como con herramientas flexibles e
interactivas para el análisis de negocios. Varias herramientas de Data
Mining actualmente operan fuera del warehouse, requiriendo pasos extra
para extraer, importar y analizar los datos. Además, cuando nuevos
conceptos requieren implementación operacional, la integración con el
warehouse simplifica la aplicación de los resultados desde Data Mining.
16
El punto de inicio ideal es un data warehouse que contenga una
combinación de datos de seguimiento interno de todos los clientes junto con
datos externos de mercado acerca de la actividad de los competidores.
Información histórica sobre potenciales clientes también provee una
excelente base para prospecting. Este warehouse puede ser implementado
en una variedad de sistemas de bases relacionales y debe ser optimizado
para un acceso a los datos flexible y rápido.
Un server multidimensional OLAP permite que un modelo de negocios más
sofisticado pueda ser aplicado cuando se navega por el data warehouse.
Las estructuras multidimensionales permiten que el usuario analice los
datos de acuerdo a como quiera mirar el negocio resumido por línea de
producto, u otras perspectivas claves para su negocio.
El server de Data Mining debe estar integrado con el data warehouse y el
server OLAP para insertar el análisis de negocios directamente en esta
infraestructura. Un avanzado, metadata centrado en procesos define los
objetivos del Data Mining para resultados específicos tales como manejos
de campaña, prospecting, y optimización de promociones. La integración
con el data warehouse permite que decisiones operacionales sean
implementadas directamente y monitoreadas. A medida que el data
warehouse crece con nuevas decisiones y resultados, la organización
puede "minar" las mejores prácticas y aplicarlas en futuras decisiones.
Este diseño representa una transferencia fundamental desde los sistemas
de soporte de decisión convencionales. Más que simplemente proveer
datos a los usuarios finales a través de software de consultas y reportes, el
server de Análisis Avanzado aplica los modelos de negocios del usuario
directamente al warehouse y devuelve un análisis proactivo de la
información más relevante. Estos resultados mejoran los metadatos en el
server OLAP proveyendo un estrato de metadatos que representa una vista
fraccionada de los datos. Generadores de reportes, visualizadores y otras
17
herramientas de análisis pueden ser aplicadas para planificar futuras
acciones y confirmar el impacto de esos planes.
2.2 Fases de un Proyecto
Los pasos a seguir para la realización de un proyecto de minería de datos
son siempre los mismos, independientemente de la técnica específica de
extracción de conocimiento usada.
El proceso de minería de datos pasa por las siguientes fases:
Filtrado de datos.
Selección de Variables.
Extracción de Conocimiento.
Interpretación y Evaluación.
Figura 2
2.3 Filtrado de datos
El formato de los datos contenidos en la fuente de datos (base de datos,
Data Warehouse...) nunca es el idóneo, y la mayoría de las veces no es
posible ni siquiera utilizar ningún algoritmo de minería sobre los datos en
bruto.
Mediante el preprocesado, se filtran los datos (de forma que se eliminan
valores incorrectos, no válidos, desconocidos... según las necesidades y el
algoritmo a usar), se obtienen muestras de los mismos (en busca de una
18
mayor velocidad de respuesta del proceso), o se reducen el número de
valores posibles (mediante redondeo, clustering,etc).
2.4 Selección de variables
Aún después de haber sido preprocesados, en la mayoría de los casos se
tiene una cantidad muy grande de datos. La selección de características
reduce el tamaño de los datos eligiendo las variables más influyentes en el
problema, sin apenas sacrificar la calidad del modelo de conocimiento
obtenido del proceso de minería.
Los métodos para la selección de características son básicamente dos:
Aquellos basados en la elección de los mejores atributos del
problema,
Y aquellos que buscan variables independientes mediante tests de
sensibilidad, algoritmos de distancia o heurísticos.
2.5 Algoritmos de Extracción de Conocimiento
Mediante una técnica de minería de datos, se obtiene un modelo de
conocimiento, que representa patrones de comportamiento observados en
los valores de las variables del problema o relaciones de asociación entre
dichas variables. También pueden usarse varias técnicas a la vez para
generar distintos modelos, aunque generalmente cada técnica obliga a un
preprocesado diferente de los datos.
Las técnicas más representativas son:
Redes neuronales: Son un paradigma de aprendizaje y
procesamiento automático inspirado en la forma en que funciona el
sistema nervioso de los animales. Se trata de un sistema de
interconexión de neuronas en una red que colabora para producir un
estímulo de salida.
19
Algunos ejemplos de red neuronal son:
o El Perceptrón.
o El Perceptrón multicapa.
o Los Mapas Autoorganizados, también conocidos como redes
de Kohonen.
Árboles de decisión: Un árbol de decisión es un modelo de
predicción utilizado en el ámbito de la inteligencia artificial, dada una
base de datos se construyen estos diagramas de construcciones
lógicas, muy similares a los sistemas de predicción basados en reglas,
que sirven para representar y categorizar una serie de condiciones
que suceden de forma sucesiva, para la resolución de un problema.
Ejemplos:
o Algoritmo ID3.
o Algoritmo C4.5.
Modelos estadísticos: Es una expresión simbólica en forma de
igualdad o ecuación que se emplea en todos los diseños
experimentales y en la regresión para indicar los diferentes factores
que modifican la variable de respuesta.
Agrupamiento o Clustering: Es un procedimiento de agrupación de
una serie de vectores según criterios habitualmente de distancia; se
tratará de disponer los vectores de entrada de forma que estén más
cercanos aquellos que tengan características comunes.
Ejemplos:
o Algoritmo K-means.
o Algoritmo K-medoids.
20
2.6 Interpretación y evaluación
Una vez obtenido el modelo, se debe proceder a su validación,
comprobando que las conclusiones que arroja son válidas y suficientemente
satisfactorias. En el caso de haber obtenido varios modelos mediante el uso
de distintas técnicas, se deben comparar los modelos en busca de aquel
que se ajuste mejor al problema. Si ninguno de los modelos alcanza los
resultados esperados, debe alterarse alguno de los pasos anteriores para
generar nuevos modelos.
CAPITULO III - Aplicaciones de Casos del Data Mining
Cada año, en los diferentes congresos, simposios y talleres que se realizan en el
mundo se reúnen investigadores con aplicaciones muy diversas. Sobre todo en
los Estados Unidos, el data mining se ha ido incorporando a la vida de empresas,
gobiernos, universidades, hospitales y diversas organizaciones que están
interesadas en explorar sus bases de datos.
21
4.1. Gobierno
El FBI analizará las bases de datos comerciales para detectar terroristas.
A principios del mes de julio de 2002, el director del Federal Bureau of
Investigation (FBI), John Aschcroft, anunció que el Departamento de
Justicia comenzará a introducirse en la vasta cantidad de datos comerciales
referentes a los hábitos y preferencias de compra de los consumidores, con
el fin de descubrir potenciales terroristas antes de que ejecuten una acción.
Algunos expertos aseguran que, con esta información, el FBI unirá todas las
bases de datos probablemente mediante el número de la Seguridad Social
y permitirá saber si una persona fuma, qué talla y tipo de ropa usa, su
registro de arrestos, su salario, las revistas a las que está suscrito, su altura
y peso, sus contribuciones a la Iglesia, grupos políticos u organizaciones no
gubernamentales, sus enfermedades crónicas (como diabetes o asma), los
libros que lee, los productos de supermercado que compra, si tomó clases
de vuelo o si tiene cuentas de banco abiertas, entre otros. La inversión
inicial ronda los setenta millones de dólares estadounidenses para
consolidar los almacenes de datos, desarrollar redes de seguridad para
compartir información e implementar nuevo software analítico y de
visualización.
4.2. Empresa
Detección de fraudes en las tarjetas de crédito.
En 2001, las instituciones financieras a escala mundial perdieron más de
2.000 millones de dólares estadounidenses en fraudes con tarjetas de
crédito y débito. El Falcon Fraud Manager es un sistema inteligente que
examina transacciones, propietarios de tarjetas y datos financieros para
detectar y mitigar fraudes. En un principio estaba pensado, en instituciones
financieras de Norteamérica, para detectar fraudes en tarjetas de crédito.
Sin embargo, actualmente se le han incorporado funcionalidades de análisis
22
en las tarjetas comerciales, de combustibles y de débito. El sistema Falcon
ha permitido ahorrar más de 600 millones de dólares estadounidenses cada
año y protege aproximadamente más de 450 millones de pagos con tarjeta
en todo el mundo -aproximadamente el 65% de todas las transacciones con
tarjeta de crédito.
Descubriendo el porqué de la deserción de clientes de una compañía operadora de telefonía móvil.
Este estudio fue desarrollado en una operadora española que básicamente
situó sus objetivos en dos puntos: el análisis del perfil de los clientes que se
dan de baja y la predicción del comportamiento de sus nuevos clientes. Se
analizaron los diferentes históricos de clientes que habían abandonado la
operadora (12,6%) y de clientes que continuaban con su servicio (87,4%).
También se analizaron las variables personales de cada cliente (estado
civil, edad, sexo, nacionalidad, etc.). De igual forma se estudiaron, para
cada cliente, la morosidad, la frecuencia y el horario de uso del servicio, los
descuentos y el porcentaje de llamadas locales, interprovinciales,
internacionales y gratuitas. Al contrario de lo que se podría pensar, los
clientes que abandonaban la operadora generaban ganancias para la
empresa; sin embargo, una de las conclusiones más importantes radicó en
el hecho de que los clientes que se daban de baja recibían pocas
promociones y registraban un mayor número de incidencias respecto a la
media. De esta forma se recomendó a la operadora hacer un estudio sobre
sus ofertas y analizar profundamente las incidencias recibidas por esos
clientes. Al descubrir el perfil que presentaban, la operadora tuvo que
diseñar un trato más personalizado para sus clientes actuales con esas
características. Para poder predecir el comportamiento de sus nuevos
clientes se diseñó un sistema de predicción basado en la cantidad de datos
que se podía obtener de los nuevos clientes comparados con el
comportamiento de clientes anteriores.
23
Hábitos de compra en supermercados.
Un estudio muy citado detectó que los viernes había una cantidad
inusualmente elevada de clientes que adquirían a la vez pañales y cerveza.
Se detectó que se debía a que dicho día solían acudir al supermercado
padres jóvenes cuya perspectiva para el fin de semana consistía en
quedarse en casa cuidando de su hijo y viendo la televisión con una
cerveza en la mano. El supermercado pudo incrementar sus ventas de
cerveza colocándolas próximas a los pañales para fomentar las ventas
compulsivas.
Prediciendo el tamaño de las audiencias televisivas.
La British Broadcasting Corporation (BBC) del Reino Unido emplea un
sistema para predecir el tamaño de las audiencias televisivas para un
programa propuesto, así como el tiempo óptimo de exhibición (Brachman y
otros, 1996). El sistema utiliza redes neuronales y árboles de decisión
aplicados a datos históricos de la cadena para determinar los criterios que
participan según el programa que hay que presentar. La versión final se
desempeña tan bien como un experto humano con la ventaja de que se
adapta más fácilmente a los cambios porque es constantemente re-
entrenada con datos actuales.
4.3. Universidad
Conociendo si los recién titulados de una universidad llevan a cabo actividades profesionales relacionadas con sus estudios.
Se hizo un estudio sobre los recién titulados de la carrera de Ingeniería en
Sistemas Computacionales del Instituto Tecnológico de Chihuahua II, en
Méjico (Rodas, 2001). Se quería observar si sus recién titulados se
insertaban en actividades profesionales relacionadas con sus estudios y, en
caso negativo, se buscaba saber el perfil que caracterizó a los exalumnos
durante su estancia en la universidad. El objetivo era saber si con los
planes de estudio de la universidad y el aprovechamiento del alumno se
24
hacía una buena inserción laboral o si existían otras variables que
participaban en el proceso. Dentro de la información considerada estaba el
sexo, la edad, la escuela de procedencia, el desempeño académico, la zona
económica donde tenía su vivienda y la actividad profesional, entre otras
variables. Mediante la aplicación de conjuntos aproximados se descubrió
que existían cuatro variables que determinaban la adecuada inserción
laboral, que son citadas de acuerdo con su importancia: zona económica
donde habitaba el estudiante, colegio de donde provenía, nota al ingresar y
promedio final al salir de la carrera. A partir de estos resultados, la
universidad tendrá que hacer un estudio socioeconómico sobre grupos de
alumnos que pertenecían a las clases económicas bajas para dar posibles
soluciones, debido a que tres de las cuatro variables no dependían de la
universidad.
4.4. Investigaciones Espaciales
Proyecto SKYCAT.
Durante seis años, el Second Palomar Observatory Sky Survey (POSS-II)
coleccionó tres terabytes de imágenes que contenían aproximadamente dos
millones de objetos en el cielo. Tres mil fotografías fueron digitalizadas a
una resolución de 16 bits por píxel con 23.040 x 23.040 píxeles por imagen.
El objetivo era formar un catálogo de todos esos objetos. El sistema Sky
Image Cataloguing and Analysis Tool (SKYCAT) se basa en técnicas de
agrupación (clustering) y árboles de decisión para poder clasificar los
objetos en estrellas, planetas, sistemas, galaxias, etc. con una alta
confiabilidad (Fayyad y otros, 1996). Los resultados han ayudado a los
astrónomos a descubrir dieciséis nuevos quásars con corrimiento hacia el
rojo que los incluye entre los objetos más lejanos del universo y, por
consiguiente, más antiguos. Estos quásars son difíciles de encontrar y
permiten saber más acerca de los orígenes del universo.
25
4.5. Clubes Deportivos
Los equipos de la NBA utilizan aplicaciones inteligentes para apoyar a su cuerpo de entrenadores.
El Advanced Scout es un software que emplea técnicas de data mining y
que han desarrollado investigadores de IBM para detectar patrones
estadísticos y eventos raros. Tiene una interfaz gráfica muy amigable
orientada a un objetivo muy específico: analizar el juego de los equipos de
la National Basketball Association (NBA). El software utiliza todos los
registros guardados de cada evento en cada juego: pases, encestes,
rebotes y doble marcaje (double team) a un jugador por el equipo contrario,
entre otros. El objetivo es ayudar a los entrenadores a aislar eventos que no
detectan cuando observan el juego en vivo o en película.
Un resultado interesante fue uno hasta entonces no observado por los
entrenadores de los Knicks de Nueva York. El doble marcaje a un jugador
puede generalmente dar la oportunidad a otro jugador de encestar más
fácilmente. Sin embargo, cuando los Bulls de Chicago jugaban contra los
Knicks, se encontró que el porcentaje de encestes después de que al centro
de los Knicks, Patrick Ewing, le hicieran doble marcaje era extremadamente
bajo, indicando que los Knicks no reaccionaban correctamente a los dobles
marcajes. Para saber el porqué, el cuerpo de entrenadores estudió
cuidadosamente todas las películas de juegos contra Chicago. Observaron
que los jugadores de Chicago rompían su doble marcaje muy rápido de tal
forma que podían tapar al encestador libre de los Knicks antes de
prepararse para efectuar su tiro. Con este conocimiento, los entrenadores
crearon estrategias alternativas para tratar con el doble marcaje.
26
CAPITULO IV - SOFTWARE WEKA
4.1. Software de minería de datos en Java
WEKA fue desarrollado en la Universidad de Waikato en Nueva Zelanda. El
sistema esta desarrollado en Java, un lenguaje de programación orientado
a objetos disponible para lamayoría de las plataformas de cómputo. WEKA
ha sido probado bajo sistemas operativos como Linux, Windows y
Macintosh. El lenguaje Java permite ofrecer una interfase uniforme a los
diferentes algoritmos de aprendizaje, todos ellos con métodos de
preproceso, postproceso y evaluación de resultados de los diferentes
esquemas de aprendizaje.
27
Gráfica 3.6 WEKA (Waikato Environment for Knowledge Analysis)
Hay diferentes niveles en los que WEKA puede ser utilizado. El primero, ofrece
Implementaciones de los algoritmos de aprendizaje pertenecientes al estado del
arte, los cuales pueden ser aplicados a conjuntos de datos mediante una línea de 28
comandos. También se incluyen una gran variedad de herramientas para
transformar datos, como los algoritmos de desratización. Asimismo se puede
preprocesar un conjunto de datos, alimentándolo dentro de un esquema de
aprendizaje, analizando el clasificador resultante y su desempeño, todo ello sin
escribir una sola línea de código.
Cabe señalar que el enfoque principal de WEKA está en los algoritmos de
clasificación y filtrado.
Sin embargo, también incluye implementaciones de algoritmos de reglas de
asociación y clustering.
4.2. WEKA Knowledge Explorer
Dentro del ambiente gráfico de WEKA se encuentra el módulo exploración de
datos el cual permite preprocesar, clasificar, asociar y visualizar datos de una
manera fácil e intuitiva.
WEKA cuenta con una gran variedad de algoritmos de clasificación entre los que
destacan los métodos bayesianos, las reglas de clasificación los métodos de
regresión (Regresión Lineal, Regresión Logística, etc.) y los árboles de decisión.
Gráfica 3.7 WEKA Knowledge Explorer
29
4.3. El algoritmo J4.8
El algoritmo J4.8 induce árboles de decisión. Es la implementación en WEKA del
algoritmo C4.5 revisión 8, la cual fue la última versión pública de esta familia de
algoritmos, posteriormente apareció la primera implementación comercial, es
decir, el algoritmo C5.0.
Dentro de las opciones que J4.8 soporta están:
• La poda de árboles
• La especificación de factores de confianza para la poda
• La especificación de un mínimo de instancias en las hojas
• La poda de árboles con error reducido
• La especificación del número de datos en podas con error reducido
• El uso de particiones binarias en atributos nominales
30
A continuación se presenta la salida de un árbol de decisión producido por el
algoritmo J4.8:
31
CONCLUSIÓN
El Data Mining es una técnica de extracción de información valiosa.
El Data Mining no se debe confundir con un software, aunque integre varias
áreas.
En el Data Mining se busca que de los datos emerjan hipótesis.
El Data Mining requiere tecnología adecuada y una buena organización de
los datos para garantizar su óptimo desempeño.
El usuario del Data Mining puede tener o no un alto conocimiento de
programación para aplicar esta técnica.
El Data Mining y los Almacenes de Datos están fuertemente relacionados,
en lo que arquitectura se refiere.
Según el objetivo del análisis de los datos, los algoritmos utilizados se
clasifican en supervisados y no supervisados.
El Data Mining puede ser aplicado en distintos entornos como: el gobierno,
la empresa, la universidad, los deportes, etc.
32
BIBLIOGRAFÍA
1. Vallejos, S. J. (2006). Minería de Datos. Obtenido de Universidad Nacional del
Nordeste:
http://exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/
Mineria_Datos_Vallejos.pdf
2. Saiz, M. D. Tesis Doctorial – Mineria de datos para el análisis de los
antecedentes familiares de la conducta suicida.
3. Pyle, Doriam (1999). Data preparation for Data Mining. Morgan Kaufmann.
4. Zeleznikow, J., 2005. Using Data Mining to Detect Criminal Networks.
URL:http://www.aic.gov.au/conferences/occasional/2005-04.zeleznikow.html.
Acceso mayo 2007.
5. Witten, I. H. y Frank, E. (2000). Data Mining: Practical machine learning tools
and techniques with java implementations. San Francisco: Morgan Kaufmann
Publishers.
6. Smith, K. A., Willis, R. J. y Brooks, M. (2000). An analysis of customer retention
and insurance claim patterns using data mining: a case study. Journal of the
OperationalResearch Society, 51 (5), 532-541.
33
GLOSARIO DE TÉRMINOS
Algoritmos genéticos: Técnicas de optimización que usan procesos tales
como combinación genética, mutación y selección natural en un diseño
basado en los conceptos de evolución natural.
Árbol de decisión: Estructura en forma de árbol que representa un
conjunto de decisiones. Estas decisiones generan reglas para la
clasificación de un conjunto de datos. Ver CART y CHAID.
Base de datos multidimensional: Base de datos diseñada para
procesamiento analítico on-line (OLAP). Estructurada como un hipercubo
con un eje por dimensión.
Clasificación: Proceso de dividir un conjunto de datos en grupos
mutuamente excluyentes de tal manera que cada miembro de un grupo
esté lo "más cercano" posible a otro, y grupos diferentes estén lo "más
lejos" posible uno del otro, donde la distancia está medida con respecto a
variable(s) específica(s) las cuales se están tratando de predecir. Por
ejemplo, un problema típico de clasificación es el de dividir una base de
datos de compañías en grupos que son lo más homogéneos posibles con
respecto a variables como "posibilidades de crédito" con valores tales como
"Bueno" y "Malo".
Clustering (agrupamiento): Proceso de dividir un conjunto de datos en
grupos mutuamente excluyentes de tal manera que cada miembro de un
grupo esté lo "más cercano" posible a otro, y grupos diferentes estén lo
"más lejos" posible uno del otro, donde la distancia está medida con
respecto a todas las variables disponibles.
34
Data cleansing: Proceso de asegurar que todos los valores en un conjunto
de datos sean consistentes y correctamente registrados.
Data Mining: La extracción de información predecible escondida en
grandes bases de datos.
Data Warehouse: Sistema para el almacenamiento y distribución de
cantdades masivas de datos
Dimensión: En una base de datos relacional o plana, cada campo en un
registro representa una dimensión. En una base de datos multidimensional,
una dimensión es un conjunto de entidades similares; por ej.: una base de
datos multidimensional de ventas podría incluir las dimensiones Producto,
Tiempo y Ciudad.
Modelo analítico: Una estructura y proceso para analizar un conjunto de
datos. Por ejemplo, un árbol de decisión es un modelo para la clasificación
de un conjunto de datos
Modelo lineal: Un modelo analítico que asume relaciones lineales entre
una variable seleccionada (dependiente) y sus predictores (variables
independientes).
Modelo no lineal: Un modelo analítico que no asume una relación lineal en
los coeficientes de las variables que son estudiadas.
Modelo predictivo: Estructura y proceso para predecir valores de variables
especificadas en un conjunto de datos.
Navegación de datos: Proceso de visualizar diferentes dimensiones,
"fetas" y niveles de una base de datos multidimensional. Ver OLAP.
OLAP Procesamiento analítico on-line (On Line Analitic prossesing):
Se refiere a aplicaciones de bases de datos orientadas a array que permite
a los usuarios ver, navegar, manipular y analizar bases de datos
multidimensionales.
Procesamiento paralelo: Uso coordinado de múltiples procesadores para
realizar tareas computacionales. El procesamiento paralelo puede ocurrir en
una computadora con múltiples procesadores o en una red de estaciones
de trabajo o PCs.
35
36