TECNOLÓGICO NACIONAL DE MÉXICO
INSTITUTO TECNOLÓGICO DE CD. JUÁREZ
Anteproyecto para conocer la Minería de Datos
Nombre del alumno:
Mario Luis González Preciado
No. Control: 11110871
Carrera: Ingeniería Industrial
Asesor Interno: Jesús Manuel Pérez Muñiz
Cd. Juárez, Chihuahua México, Septiembre del 2016
i
ContenidoRESUMEN.......................................................................................................................................... iii
INTRODUCCION.................................................................................................................................1
1.2 Objetivo........................................................................................................................................3
1.3 Meta.............................................................................................................................................3
1.4 HIPOTESIS.....................................................................................................................................3
1.5 Justificación..................................................................................................................................4
FUNDAMENTOS.................................................................................................................................5
2.1 Marco teórico...........................................................................................................................5
2.2 Proceso....................................................................................................................................6
2.3 Protocolo de un proyecto de minería de datos........................................................................8
2.4 Técnicas de minería de datos...................................................................................................9
2.5 Ventajas y desventajas...........................................................................................................12
METODOLOGÍA................................................................................................................................13
3.1 Implementación.....................................................................................................................13
3.2 Metodología semma..............................................................................................................14
3.3 Metodología CRISP-DM..........................................................................................................16
3.4 Comparación de metodologías...............................................................................................18
Figura 1. Tabla de resultados encuesta........................................................................................21
Bibliografía:.....................................................................................................................................22
ii
RESUMEN
El datamining (minería de datos), es el conjunto de técnicas y tecnologías
que permiten explorar grandes bases de datos, de manera automática o
semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o
reglas que expliquen el comportamiento de los datos en un determinado contexto.
Básicamente, el datamining surge para intentar ayudar a comprender el
contenido de un repositorio de datos. Con este fin, hace uso de prácticas
estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la
Inteligencia Artificial y a las redes neuronales.
De forma general, los datos son la materia prima bruta. En el momento que
el usuario les atribuye algún significado especial pasan a convertirse en
información. Cuando los especialistas elaboran o encuentran un modelo, haciendo
que la interpretación que surge entre la información y ese modelo represente un
valor agregado, entonces nos referimos al conocimiento.
iii
INTRODUCCIONEn este capítulo se conocerá mejor la historia que rodea la minería de
datos, así como su evolución conforme pasa el tiempo, además se planteara su
uso, las posibles ventajas y desventajas que proporciona al momento de
implementarla.
1.1 Antecedentes de data mining
La idea de Minería de Datos no es nueva. Ya desde los años sesenta los
estadísticos manejaban términos como Data Fishing, Data Mining (DM) o Data
Archaeology con la idea de encontrar correlaciones sin una hipótesis previa
en bases de datos con ruido.
A principios de los años ochenta, Rakesh Agrawal, GioWiederhold, Robert
Blum y Gregory Piatetsky-Shapiro entre otros, empezaron a consolidar los
términos de Minería de Datos y KDD.
Esta tecnología ha sido un buen punto de encuentro entre personas
pertenecientes al ámbito académico y al de los negocios.
La evolución de sus herramientas en el transcurso del tiempo puede
dividirse en cuatro etapas principales:
Colección de Datos (1960).
Acceso de Datos (1980).
Almacén de Datos y Apoyo a las Decisiones (principios de la década de
1990).
Minería de Datos Inteligente.(-nales de la década de 1990).
La minería de datos o exploración de datos (es la etapa de análisis de
"Knowledge Discovery in Databases" o KDD) es un campo de la estadística y
1
las ciencias de la computación referido al proceso que intenta descubrir patrones
en grandes volúmenes de conjuntos de datos.1 Utiliza los métodos de
la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de
datos. El objetivo general del proceso de minería de datos consiste en extraer
información de un conjunto de datos y transformarla en una estructura
comprensible para su uso posterior. Además de la etapa de análisis en bruto, que
involucra aspectos de bases de datos y de gestión de datos, de procesamiento de
datos, del modelo y de las consideraciones de inferencia, de métricas de
Intereses, de consideraciones de la Teoría de la complejidad computacional, de
post-procesamiento de las estructuras descubiertas, de la visualización y de la
actualización en línea.
El término es una palabra de moda, y es frecuentemente mal utilizado para
referirse a cualquier forma de datos a gran escala o procesamiento de la
información (recolección, extracción, almacenamiento, análisis y estadísticas),
pero también se ha generalizado a cualquier tipo de sistema de apoyo informático
decisión, incluyendo la inteligencia artificial, aprendizaje automático y la
inteligencia empresarial. En el uso de la palabra, el término clave es el
descubrimiento, comúnmente se define como "la detección de algo nuevo". Incluso
el popular libro "La minería de datos: sistema de prácticas herramientas de
aprendizaje y técnicas con Java" (que cubre todo el material de aprendizaje
automático) originalmente iba a ser llamado simplemente "la máquina de
aprendizaje práctico", y el término "minería de datos" se añadió por razones de
marketing. A menudo, los términos más generales "(gran escala) el análisis de
datos", o "análisis" -. o cuando se refiere a los métodos actuales, la inteligencia
artificial y aprendizaje automático, son más apropiados.
La tarea de minería de datos real es el análisis automático o semi-
automático de grandes cantidades de datos para extraer patrones interesantes
hasta ahora desconocidos, como los grupos de registros de datos (análisis
clúster), registros poco usuales (la detección de anomalías) y dependencias
(minería por reglas de asociación). Esto generalmente implica el uso de técnicas
2
de bases de datos como los índices espaciales. Estos patrones pueden entonces
ser vistos como una especie de resumen de los datos de entrada, y pueden ser
utilizados en el análisis adicional o, por ejemplo, en la máquina de aprendizaje
y análisis predictivo. Por ejemplo, el paso de minería de datos podría identificar
varios grupos en los datos, que luego pueden ser utilizados para obtener
resultados más precisos de predicción por un sistema de soporte de decisiones. Ni
la recolección de datos, preparación de datos, ni la interpretación de los resultados
y la información son parte de la etapa de minería de datos, pero que pertenecen a
todo el proceso KDD como pasos adicionales.
Los términos relacionados con la obtención de datos, la pesca de datos y
espionaje de los datos se refieren a la utilización de métodos de minería de datos
a las partes de la muestra de un conjunto de datos de población más grandes
establecidas que son (o pueden ser) demasiado pequeñas para las inferencias
estadísticas fiables que se hizo acerca de la validez de cualquier patrón
descubierto. Estos métodos pueden, sin embargo, ser utilizados en la creación de
nuevas hipótesis que se prueban contra poblaciones de datos más grandes.
1.2 ObjetivoConocer de forma básica el uso o la utilización del Datamining dentro de las
empresas para mejorar procesos.
1.3 MetaLograr optimizar procesos dentro de la empresa aplicando el Datamining
para manejo de grandes volúmenes de información.
1.4 HIPOTESISLa minería de datos sirve para varias áreas, ¿Servirá la minería de datos
como herramienta para proyectos escolares?
1.5 JustificaciónLa justificación de la realización de dicho proyecto, es debido a la gran
notoriedad que está teniendo esta tecnología actualmente. Cualquier persona sin
o con conocimientos tecnológicos, se pregunta cómo se almacena toda la
3
información que se genera en el mundo: en Facebook, Twitter, Smartcities o como
Google es capaz de manejar todas las transacciones que se hacen a diario. Pero
no solo se queda aquí, ya que Datamining alcanza todos los ámbitos: bolsa,
climatología, astronomía, la cantidad de datos que se genera actualmente es
abrumadora y solo el hecho de saber cómo se consigue captar y analizar dicha
información me parece una justificación bastante razonable.
FUNDAMENTOS
2.1 Marco teórico
4
El datamining (minería de datos), es el conjunto de técnicas y tecnologías
que permiten explorar grandes bases de datos, de manera automática o
semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o
reglas que expliquen el comportamiento de los datos en un determinado contexto.
Básicamente, el datamining surge para intentar ayudar a comprender el
contenido de un repositorio de datos. Con este fin, hace uso de prácticas
estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la
Inteligencia Artificial y a las redes neuronales.
De forma general, los datos son la materia prima bruta. En el momento que
el usuario les atribuye algún significado especial pasan a convertirse en
información. Cuando los especialistas elaboran o encuentran un modelo, haciendo
que la interpretación que surge entre la información y ese modelo represente un
valor agregado, entonces nos referimos al conocimiento. Vea más diferencias
entre datos, información y conocimiento.
Los datos que vemos son sólo la punta del iceberg
Aunque en datamining cada caso concreto puede ser radicalmente distinto
al anterior, el proceso común a todos ellos se suele componer de cuatro etapas
principales:
* Determinación de los objetivos. Trata de la delimitación de los objetivos que el
cliente desea bajo la orientación del especialista en data mining.
* Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el
enriquecimiento, la reducción y la transformación de las bases de datos. Esta
etapa consume generalmente alrededor del setenta por ciento del tiempo total de
un proyecto de data mining.
* Determinación del modelo. Se comienza realizando unos análisis estadísticos de
los datos, y después se lleva a cabo una visualización gráfica de los mismos para
tener una primera aproximación. Según los objetivos planteados y la tarea que
5
debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes
áreas de la Inteligencia Artificial.
* Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y
los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica.
El cliente determina si son novedosos y si le aportan un nuevo conocimiento que
le permita considerar sus decisiones.
En resumen, el datamining se presenta como una tecnología emergente,
con varias ventajas: por un lado, resulta un buen punto de encuentro entre los
investigadores y las personas de negocios; por otro, ahorra grandes cantidades de
dinero a una empresa y abre nuevas oportunidades de negocios. Además, no hay
duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles
debido a que el producto final involucra "toma de decisiones".
2.2 Proceso
Un proceso típico de minería de datos consta de los siguientes pasos
generales:
Selección del conjunto de datos, tanto en lo que se refiere a las variables
objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables
independientes (las que sirven para hacer el cálculo o proceso), como
posiblemente al muestreo de los registros disponibles.
Análisis de las propiedades de los datos, en especial los histogramas,
diagramas de dispersión, presencia de valores atípicos y ausencia de datos
(valores nulos).
Transformación del conjunto de datos de entrada, se realizará de diversas
formas en función del análisis previo, con el objetivo de prepararlo para aplicar la
técnica de minería de datos que mejor se adapte a los datos y al problema, a este
paso también se le conoce como preprocesamiento de los datos.
6
Seleccionar y aplicar la técnica de minería de datos, se construye el modelo
predictivo, de clasificación o segmentación.
Extracción de conocimiento, mediante una técnica de minería de datos, se
obtiene un modelo de conocimiento, que representa patrones de comportamiento
observados en los valores de las variables del problema o relaciones de
asociación entre dichas variables. También pueden usarse varias técnicas a la vez
para generar distintos modelos, aunque generalmente cada técnica obliga a un
preprocesado diferente de los datos.
Interpretación y evaluación de datos, una vez obtenido el modelo, se debe
proceder a su validación comprobando que las conclusiones que arroja son
válidas y suficientemente satisfactorias. En el caso de haber obtenido varios
modelos mediante el uso de distintas técnicas, se deben comparar los modelos en
busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos
alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores
para generar nuevos modelos.
Si el modelo final no superara esta evaluación el proceso se podría repetir
desde el principio o, si el experto lo considera oportuno, a partir de cualquiera de
los pasos anteriores. Esta retroalimentación se podrá repetir cuantas veces se
considere necesario hasta obtener un modelo válido.
Una vez validado el modelo, si resulta ser aceptable (proporciona salidas
adecuadas y/o con márgenes de error admisibles) éste ya está listo para su
explotación. Los modelos obtenidos por técnicas de minería de datos se aplican
incorporándolos en los sistemas de análisis de información de las organizaciones,
e incluso, en los sistemas transaccionales. En este sentido cabe destacar los
esfuerzos del Data Mining Group, que está estandarizando el
lenguaje PMML (Predictive Model Markup Language), de manera que los modelos
de minería de datos sean interoperables en distintas plataformas, con
independencia del sistema con el que han sido construidos. Los principales
7
fabricantes de sistemas de bases de datos y programas de análisis de la
información hacen uso de este estándar.
Tradicionalmente, las técnicas de minería de datos se aplicaban sobre
información contenida en almacenes de datos. De hecho, muchas grandes
empresas e instituciones han creado y alimentan bases de datos especialmente
diseñadas para proyectos de minería de datos en las que centralizan información
potencialmente útil de todas sus áreas de negocio. No obstante, actualmente está
cobrando una importancia cada vez mayor la minería de datos desestructurados
como información contenida en ficheros de texto, en Internet, etc.
2.3 Protocolo de un proyecto de minería de datos
Un proyecto de minería de datos tiene varias fases necesarias que son,
esencialmente:
Comprensión: del negocio y del problema que se quiere resolver.
Determinación, obtención y limpieza: de los datos necesarios.
Creación de modelos matemáticos.
Validación, comunicación: de los resultados obtenidos.
Integración: si procede, de los resultados en un sistema transaccional o similar.
La relación entre todas estas fases sólo es lineal sobre el papel. En
realidad, es mucho más compleja y esconde toda una jerarquía de subfases. A
través de la experiencia acumulada en proyectos de minería de datos se han ido
desarrollando metodologías que permiten gestionar esta complejidad de una
manera más o menos uniforme.
2.4 Técnicas de minería de datos
Como ya se ha comentado, las técnicas de la minería de datos provienen
de la inteligencia artificial y de la estadística, dichas técnicas, no son más
que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de
datos para obtener unos resultados.
8
Las técnicas más representativas son:
Redes neuronales.- Son un paradigma de aprendizaje y procesamiento
automático inspirado en la forma en que funciona el sistema nervioso de los
animales. Se trata de un sistema de interconexión de neuronas en una red que
colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal
son:
El perceptrón.
El perceptrón multicapa.
Los mapas auto-organizados, también conocidos como redes de Kohonen.
Regresión lineal.- Es la más utilizada para formar relaciones entre datos.
Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan
relacionarse más de 2 variables.
Árboles de decisión.- Un árbol de decisión es un modelo de predicción
utilizado en el ámbito de la inteligencia artificial y el análisis predictivo, dada una
base de datos se construyen estos diagramas de construcciones lógicas, muy
similares a los sistemas de predicción basados en reglas, que sirven para
representar y categorizar una serie de condiciones que suceden de forma
sucesiva, para la resolución de un problema.
Algoritmo ID3.
Algoritmo C4.5.
Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o
ecuación que se emplea en todos los diseños experimentales y en la regresión
para indicar los diferentes factores que modifican la variable de respuesta.
Agrupamiento o Clustering.- Es un procedimiento de agrupación de una
serie de vectores según criterios habitualmente de distancia; se tratará de
disponer los vectores de entrada de forma que estén más cercanos aquellos que
tengan características comunes. Ejemplos:
9
Algoritmo K-means.
Algoritmo K-medoids.
Reglas de asociación.- Se utilizan para descubrir hechos que ocurren en
común dentro de un determinado conjunto de datos.
Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican
en supervisados y no supervisados (Weiss y Indurkhya, 1998):
Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto
de ellos) desconocido a priori, a partir de otros conocidos.
Algoritmos no supervisados (o del descubrimiento del conocimiento): se
descubren patrones y tendencias en los datos.
Algunas cosas que se puede hacer con el DM El usuario del DM usualmente
busca los siguientes cuatro tipos de relaciones:
(i) Clases: las observaciones se asignan a grupos predeterminados. El
proceso de clasi- ficación consiste en asignar un conjunto de datos a
grupos fijados de manera que se minimice la probabilidad de una
clasificación errónea. Por ejemplo, un problema típico de clasificación es el
de dividir una base de datos de bancos en grupos que sean lo más
homogéneos posibles con respecto a variables como posibilidades de
crédito en términos de valores tales como bueno o malo.
(ii) Clusters: se construyen grupos de observaciones similares según un
criterio prefijado. El proceso de clustering (agrupamiento) consiste en
subdividir un conjunto de datos en grupos mutuamente excluyentes de tal
manera que cada miembro de un grupo esté lo más cercano posible a otro
elemento, y grupos diferentes estén lo más lejos posible entre sí, de modo
que la distancia está medida respecto a todas las variables disponibles. Un
típico ejemplo de aplicación de clustering es la clasificación de segmentos
de mercado. Por ejemplo, una empresa quiere introducirse en el mercado
de bebidas alcohólicas, pero antes hace una encuesta de mercado para
averiguar si existen grupos de clientes con costumbres particulares en el
10
consumo de bebidas. La empresa quiere introducirse en el grupo (si existe)
que esté menos servido por la 2 competencia. En este ejemplo no existen
grupos de clientes predeterminados.
(iii) Asociaciones: las observaciones son usadas para identificar
asociaciones entre variables. La búsqueda de asociaciones es diferente a la
búsqueda de relaciones causales. Las relaciones causales son mucho más
difíciles de encontrar que las asociaciones, debido a la presencia de
variables no observadas. Las relaciones causales y asociaciones no son
equivalentes: si hay asociaciones no tiene por qué haber causalidad. (iv)
Patrones secuenciales: se trata de identificar patrones de comportamiento y
tendencias. Un ejemplo sería intensidades de expresión en microarrays que
permiten distinguir entre diferentes expresiones de genes para individuos
con cáncer o sin él.
Ejemplos de aplicación del Data Mining Algunas áreas de aplicación del DM son:
Toma de Decisiones.
Ejemplos: banca, finanzas, seguros, marketing, políticas sanitarias o
demográficas. Procesos Industriales.
Investigación Científica Ejemplos: medicina, epidemiología, bioinformática,
psicología. Soporte al Diseño de Bases de Datos. Mejora de Calidad de
Datos. Mejora en el área de empresas de Consulting.
2.5 Ventajas y desventajas
Ventajas
* Enormes bases de datos pueden ser analizadas.
* Enormes bases de datos pueden ser analizadas mediante la
tecnología del Data Mining. Estas Bases de datos pueden ser
enormes tanto en largo como en ancho. Por ejemplo, para cada
11
cliente se puede tener cientos de atributos que contienen información
detallada; y además tener miles de registros de clientes.
* El Data Mining descubre información que no se esperaba obtener.
* Como muchos modelos diferentes son validados, algunos resultados
inesperados tienden a aparecer. En muchos estudios, se ha
descubierto que combinaciones particulares de factores entregan
efectos inesperados que entregan valor a la compañía.(Pañales y
cerveza)
* Los Modelos Son Confiables
* El modelo es probado y comprobado usando técnicas estadísticas
antes de ser usado, luego las predicciones que se obtienen por el
modelo son válidas y confiables.
* Los modelos se construyen de manera rápida.
* La minería de datos permite construir y generar modelos en sólo uno
minutos u horas. El modelado se torna mucho más fácil puesto que
muchos algoritmos son probados y sólo el mejor modelo es
entregado al usuario.
Desventajas
* Dificultad de recopilación de los datos
* Dependiendo del tipo de datos que se quieran recopilar puede
conllevar mucho trabajo o la necesidad de tecnología de elevado
coste.
* El preprocesamiento de datos puede llevar demasiado tiempo
* No está asegurada la obtención de un modelo válido
METODOLOGÍA
3.1 Implementación
El gran desarrollo tecnológico de las computadoras en las últimas décadas
ha potenciado el almacenamiento de grandes cantidades de datos y ha permitido
12
el desarrollo de herramientas para su tratamiento, dando lugar a una nueva
disciplina conocida como “data mining”.
Se puede definir Data Mining como el conjunto de técnicas y herramientas
aplicadas al proceso no trivial de extraer y presentar conocimiento implícito,
previamente desconocido, potencialmente útil y humanamente comprensible, a
partir de grandes conjuntos de datos, con objeto de predecir de forma
automatizada tendencias y comportamientos y/o descubrir de forma automatizada
modelos previamente desconocidos [Piatetski-Shapiro 1991].
Los orígenes del Data Mining se pueden establecer a principios de la
década de 1980, cuando la administración de hacienda estadounidense desarrolló
un programa de investigación para detectar fraudes en la declaración y evasión de
impuestos, mediante lógica difusa, redes neuronales y técnicas de reconocimiento
de patrones. Sin embargo, la gran expansión del Data Mining no se produce hasta
la década de 1990 originada principalmente por tres factores:
Incremento de la potencia de los ordenadores ·
Incremento del ritmo de adquisición de datos. El crecimiento de la cantidad
de datos almacenados se ve favorecido no sólo por el abaratamiento de los discos
y sistemas de almacenamiento masivo, sino también por la automatización de
muchos trabajos y técnicas de recogida de datos. Aparición de nuevos métodos de
técnicas de aprendizaje y almacenamiento de datos.
Desafortunadamente esta expansión implica el desarrollo de proyectos
cada vez más grandes en un sector en el que difícilmente se pueden extraer
conclusiones a priori y en el que la selección de la mejor técnica no se puede
hacer en las primeras fases sino que se precisa un modelo evolutivo, similar al
modelo espiral del ciclo de vida de desarrollo software.
Por otra parte el hecho de que más del 75% del esfuerzo se produzca en
las primeras fases (en este caso en el pretratamiento de datos) provoca que este
13
tipo de proyectos sea en general subestimado en cuanto a coste y tiempo y que
las desviaciones producidas excedan con mucho el 90%.
Ante la necesidad existente en el mercado de una aproximación sistemática
para la realización de los proyectos de Data Mining, diversas empresas y
consultorías han especificado un proceso de modelado diseñado para guiar al
usuario a través de una sucesión de pasos que le dirijan a obtener buenos
resultados.
Así SAS propone la utilización de la metodología SEMMA (Sample, Explore,
Modify, Model, Assess). En 1999 un importante consorcio de empresas europeas,
NCR (Dinamarca), AG(Alemania), SPSS (Inglaterra) y OHRA (Holanda), unieron
sus recursos para el desarrollo de la metodología de libre distribución CRISP-DM
(CrossIndustry Standard Process for Data Mining). Esta metodología, junto con la
metodología SEMMA, son las dos principales metodologías utilizadas por los
analistas en los proyectos de Data Mining.
3.2 Metodología semma
SAS Institute desarrollador de esta metodología, la define como el proceso
de selección, exploración y modelado de grandes cantidades de datos para
descubrir patrones de negocio desconocidos.
El nombre de esta terminología es el acrónimo correspondiente a las cinco
fases básicas del proceso: muestreo, exploración, manipulación, modelado y
valoración.
El proceso se inicia con la extracción de la población muestral sobre la que
se va a aplicar el análisis. El objetivo de esta fase consiste en seleccionar una
muestra representativa del problema en estudio. La representatividad de la
muestra es indispensable ya que de no cumplirse invalida todo el modelo y los
resultados dejan de ser admisibles. La forma más común de obtener una muestra
es la selección al azar, es decir, cada uno de los individuos de una población tiene
14
la misma posibilidad de ser elegido. Este método de muestreo se denomina
muestreo aleatorio simple.
La metodología SEMMA establece que para cada muestra considerada
para el análisis del proceso se debe asociar el nivel de confianza de la muestra.
Una vez determinada una muestra o conjunto de muestras representativas
de la población en estudio, la metodología SEMMA indica que se debe proceder a
una exploración de la información disponible con el fin de simplificar en lo posible
el problema con el fin de optimizar la eficiencia del modelo. Para lograr este
objetivo se propone la utilización de herramientas de visualización o de técnicas
estadísticas que ayuden a poner de manifiesto relaciones entre variables. De esta
forma se pretende determinar cuáles son las variables explicativas que van a
servir como entradas al modelo.
La tercera fase de la metodología consiste en la manipulación de los datos,
en base a la exploración realizada, de forma que se definan y tengan el formato
adecuado los datos que serán introducidos en el modelo. Una vez que se han
definido las entradas del modelo, con el formato adecuado para la aplicación de la
técnica de modelado, se procede al análisis y modelado de los datos. El objetivo
de esta fase consiste en establecer una relación entre las variables explicativas y
las variables objeto del estudio, que posibiliten inferir el valor de las mismas con
un 260 nivel de confianza determinado. Las técnicas utilizadas para el modelado
de los datos incluyen métodos estadísticos tradicionales (tales como análisis
discriminante, métodos de agrupamiento, y análisis de regresión), así como
técnicas basadas en datos tales como redes neuronales, técnicas adaptativas,
lógica fuzzy, árboles de decisión, reglas de asociación y computación evolutiva.
Finalmente, la última fase del proceso consiste en la valoración de los
resultados mediante el análisis de bondad del modelo o modelos, contrastado con
otros métodos estadísticos o con nuevas poblaciones muéstrales.
3.3 Metodología CRISP-DM
15
La metodología CRISP-DM (Chapman, 1999) consta de cuatro niveles de
abstracción, organizados de forma jerárquica en tareas que van desde el nivel
más general hasta los casos más específicos.
A nivel más general, el proceso está organizado en seis fases (Figura 5),
estando cada fase a su vez estructurada en varias tareas generales de segundo
nivel. Las tareas generales se proyectan a tareas específicas, donde se describen
las acciones que deben ser desarrolladas para situaciones específicas. Así, si en
el segundo nivel se tiene la tarea general “limpieza de datos”, en el tercer nivel se
dicen las tareas que tienen que desarrollarse para un caso específico, como por
ejemplo, “limpieza de datos numéricos”, o “limpieza de datos categóricos”.
El cuarto nivel, recoge el conjunto de acciones, decisiones y resultados
sobre el proyecto de Data Mining específico.
La metodología CRISP-DM proporciona dos documentos distintos como
herramienta de ayuda en el desarrollo del proyecto de Data Mining: el modelo de
referencia y la guía del usuario.
El documento del modelo de referencia describe de forma general las fases,
tareas generales y salidas de un proyecto de Data Mining en general. La guía del
usuario proporciona información más detallada sobre la aplicación práctica del
modelo de referencia a proyectos de Data Mining específicos, proporcionando
consejos y listas de comprobación sobre las tareas correspondientes a cada fase.
La metodología CRISP-DM estructura el ciclo de vida de un proyecto de
Data Mining en seis fases, que interactúan entre ellas de forma iterativa durante el
desarrollo del proyecto.
La primera fase análisis del problema, incluye la comprensión de los
objetivos y requerimientos del proyecto desde una perspectiva empresarial, con el
fin de convertirlos en objetivos técnicos y en una planificación.
La segunda fase de análisis de datos comprende la recolección inicial de
datos, en orden a que sea posible establecer un primer contacto con el problema,
16
identificando la calidad de los datos y estableciendo las relaciones más evidentes
que permitan establecer las primeras hipótesis.
Una vez realizado el análisis de datos, la metodología establece que se
proceda a la preparación de los datos, de tal forma que puedan ser tratados por
las técnicas de modelado. La preparación de datos incluye las tareas generales de
selección de datos a los que se va a aplicar la técnica de modelado (variables y
muestras), limpieza de los datos, generación de variables adicionales, integración
de diferentes orígenes de datos y cambios de formato.
La fase de preparación de los datos, se encuentra muy relacionada con la
fase de modelado, puesto que en función de la técnica de modelado que vaya a
ser utilizada los datos necesitan ser procesados en diferentes formas. Por lo tanto
las fases de preparación y modelado interactúan de forma sistemática. En la fase
de modelado se seleccionan las técnicas de modelado más apropiadas para el
proyecto de Data Mining específico. La técnicas a utilizar en esta fase se
seleccionan en función de los siguientes criterios: ·
Ser apropiada al problema ·
Disponer de datos adecuados ·
Cumplir los requerimientos del problema ·
Tiempo necesario para obtener un modelo ·
Conocimiento de la técnica
Antes de proceder al modelado de los datos se debe de establecer un
diseño del método de evaluación de los modelos, que permita establecer el grado
de bondad de los modelos. Una vez realizadas estas tareas genéricas se procede
a la generación y evaluación del modelo. Los parámetros utilizados en la
generación del modelo dependen de las características de los datos.
En la fase de evaluación, se evalúa el modelo, no desde el punto de vista
de los datos, sino del cumplimiento de los criterios de éxito del problema. Se debe
17
revisar el proceso seguido, teniendo en cuenta los resultados obtenidos, para
poder repetir algún paso en el que, a la vista del desarrollo posterior del proceso,
se hayan podido cometer errores. Si el modelo generado es válido en función de
los criterios de éxito establecidos en la primera fase, se procede a la explotación
del modelo.
Normalmente los proyectos de Data Mining no terminan en la implantación
del modelo, sino que se deben documentar y presentar los resultados de manera
comprensible en orden a lograr un incremento del conocimiento. Además en la
fase de explotación se debe de asegurar el mantenimiento de la aplicación y la
posible difusión de los resultados [Fayyad, 1996].
3.4 Comparación de metodologías
Las metodologías SEMMA y CRISP-DM comparten la misma esencia,
estructurando el proyecto de Data Mining en fases que se encuentran
interrelacionadas entre sí, convirtiendo el proceso de Data Mining en un proceso
iterativo e interactivo.
La metodología SEMMA se centra más en las características técnicas del
desarrollo del proceso, mientras que la metodología CRISP-DM, mantiene una
perspectiva más amplia respecto a los objetivos empresariales del proyecto. Esta
diferencia se establece ya desde la primera fase del proyecto de Data Mining
donde la metodología SEMMA comienza realizando un muestreo de datos,
mientras que la metodología CRISP-DM comienza realizando un análisis del
problema empresarial para su transformación en un problema técnico.
Desde ese punto de vista más global se puede considerar que la
metodología CRISP-DM está más cercana al concepto real de proyecto, pudiendo
ser integrada con una Metodología de Gestión de Proyectos específica que
completaría las tareas administrativas y técnicas.
Otra diferencia significativa entre la metodología SEMMA y la metodología
CRISP-DM radica en su relación con herramientas comerciales. La metodología
18
SEMMA sólo es abierta en sus aspectos generales ya que está muy ligada a los
productos SAS donde se 264 encuentra implementada. Por su parte la
metodología CRISP-DM ha sido diseñada como una metodología neutra respecto
a la herramienta que se utilice para el desarrollo del proyecto de Data Mining
siendo su distribución libre y gratuita.
El método está basado en la utilización de técnicas de minería de datos (ver
Figura 1) y se compone de los pasos típicos de un proceso de extracción de
conocimiento.
- Recopilación de datos. En esta etapa se recoge toda la información
disponible de los estudiantes. Para ello primero se debe de seleccionar el conjunto
de factores que pueden afectar y después se deben de recoger a partir de las
diferentes fuentes de datos disponibles. Finalmente toda esta información se debe
integrar en un único conjunto de datos.
- Pre-procesado. En esta etapa se preparan los datos para poder aplicar,
posteriormente, las técnicas de minería de datos. Para ello, primero se realizan
tareas típicas de pre-procesado como: limpieza de datos, transformación de
variables y particionado de datos. Además se han aplicado otras técnicas como la
selección de atributos y el re-balanceado de datos para intentar solucionar los
problemas de la alta dimensionalidad y desbalanceo que presentan normalmente
este tipo de conjuntos de datos.
- Minería de datos. En esta etapa se aplican algoritmos de minería de datos para
predecir el fracaso escolar como si fuera un problema de clasificación. Para ello,
se propone utilizar algoritmos de clasificación basada en reglas y en árboles de
decisión debido a que son técnicas de “caja blanca” que generan modelos
altamente interpretables que permiten su utilización directa en procesos de toma
de decisiones. Además de la clasificación tradicional se propone utilizar también
clasificación basada en costos o penalizaciones para intentar corregir el problema
del desbalanceo de los datos. Finalmente, los distintos algoritmos utilizados deben
19
de ser evaluados y comparados para determinar cuáles obtienen los mejores
resultados de clasificación.
- Interpretación de los resultados. En esta última etapa, se analizan los modelos
que han obtenido los mejores resultados para utilizarlos en la detección del
fracaso escolar. Para ello, se analizan los factores que aparecen en las reglas y/o
árboles de decisión, los valores que presentan y como están relacionados con
otros factores.
FIGURA 1
Resultados
Según una encuesta rápida que se realizó a todos los estudiantes del I.T.C.J. acerca de que tan seguido utilizan bases de datos de la escuela o mediante internet para proyectos escolares en la figura 1 se muestran los datos:
20
Figura 1. Tabla de resultados de la encuesta
En la gráfica se puede ver como los datos muestran que en los meses de enero a mayo el uso de las bases de datos se alto y muestra una caída mes con mes, para el mes de junio está muy bajo, luego incrementa un poco, pero vuelve a caer en agosto, después, de agosto a diciembre se vuelve a incrementar.
Analizando los datos y haciendo algunas preguntas a los estudiantes resulto que muchos de los jóvenes del ITCJ están en semestres que van desde el 6to semestre hasta el 12vo semestre, y que muchos de ellos principalmente de 9no a 12vo semestre comenzaron a realizar sus RESIDENCIAS PROFESIONALES por lo que el uso de las bases de datos, la utilización de libros y de internet se hace más necesaria ya que muchos de ellos buscan libros en internet o información que necesitan conocer para hacer o mejorar su proyecto.
Muchos otros jóvenes respondieron que ellos utilizan las bases de datos y el internet para hacer proyectos escolares ya que están cursando materias en las que les encargan realizar proyectos como taller de investigación I y taller de investigación II, formulación y evaluación de proyectos entre otras materias de este tipo, por esta razón asisten al centro de información del ITCJ para buscar información que les pueda ser útil.
Bibliografía:https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos
21
http://www.scielo.org.ve/scielo.php?script=sci_arttext&pid=S1012-15872007000100008
http://rita.det.uvigo.es/201208/uploads/IEEE-RITA.2012.V7.N3.A1.pdf
22