Download - Weebly · Web viewLa idea de Minería de Datos no es nueva. Ya desde los años sesenta los estadísticos manejaban términos como Data Fishing, Data Mining (DM) o Data Archaeology

TECNOLÓGICO NACIONAL DE MÉXICO

INSTITUTO TECNOLÓGICO DE CD. JUÁREZ

Anteproyecto para conocer la Minería de Datos

Nombre del alumno:

Mario Luis González Preciado

No. Control: 11110871

Carrera: Ingeniería Industrial

Asesor Interno: Jesús Manuel Pérez Muñiz

Cd. Juárez, Chihuahua México, Septiembre del 2016

i

ContenidoRESUMEN.......................................................................................................................................... iii

INTRODUCCION.................................................................................................................................1

1.2 Objetivo........................................................................................................................................3

1.3 Meta.............................................................................................................................................3

1.4 HIPOTESIS.....................................................................................................................................3

1.5 Justificación..................................................................................................................................4

FUNDAMENTOS.................................................................................................................................5

2.1 Marco teórico...........................................................................................................................5

2.2 Proceso....................................................................................................................................6

2.3 Protocolo de un proyecto de minería de datos........................................................................8

2.4 Técnicas de minería de datos...................................................................................................9

2.5 Ventajas y desventajas...........................................................................................................12

METODOLOGÍA................................................................................................................................13

3.1 Implementación.....................................................................................................................13

3.2 Metodología semma..............................................................................................................14

3.3 Metodología CRISP-DM..........................................................................................................16

3.4 Comparación de metodologías...............................................................................................18

Figura 1. Tabla de resultados encuesta........................................................................................21

Bibliografía:.....................................................................................................................................22

ii

RESUMEN

El datamining (minería de datos), es el conjunto de técnicas y tecnologías

que permiten explorar grandes bases de datos, de manera automática o

semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o

reglas que expliquen el comportamiento de los datos en un determinado contexto.

Básicamente, el datamining surge para intentar ayudar a comprender el

contenido de un repositorio de datos. Con este fin, hace uso de prácticas

estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la

Inteligencia Artificial y a las redes neuronales.

De forma general, los datos son la materia prima bruta. En el momento que

el usuario les atribuye algún significado especial pasan a convertirse en

información. Cuando los especialistas elaboran o encuentran un modelo, haciendo

que la interpretación que surge entre la información y ese modelo represente un

valor agregado, entonces nos referimos al conocimiento.

iii

INTRODUCCIONEn este capítulo se conocerá mejor la historia que rodea la minería de

datos, así como su evolución conforme pasa el tiempo, además se planteara su

uso, las posibles ventajas y desventajas que proporciona al momento de

implementarla.

1.1 Antecedentes de data mining

La idea de Minería de Datos no es nueva. Ya desde los años sesenta los

estadísticos manejaban términos como Data Fishing, Data Mining (DM) o Data

Archaeology con la idea de encontrar correlaciones sin una hipótesis previa

en bases de datos con ruido.

A principios de los años ochenta, Rakesh Agrawal, GioWiederhold, Robert

Blum y Gregory Piatetsky-Shapiro entre otros, empezaron a consolidar los

términos de Minería de Datos y KDD.

Esta tecnología ha sido un buen punto de encuentro entre personas

pertenecientes al ámbito académico y al de los negocios.

La evolución de sus herramientas en el transcurso del tiempo puede

dividirse en cuatro etapas principales:

Colección de Datos (1960).

Acceso de Datos (1980).

Almacén de Datos y Apoyo a las Decisiones (principios de la década de

1990).

Minería de Datos Inteligente.(-nales de la década de 1990).

La minería de datos o exploración de datos (es la etapa de análisis de

"Knowledge Discovery in Databases" o KDD) es un campo de la estadística y

1

las ciencias de la computación referido al proceso que intenta descubrir patrones

en grandes volúmenes de conjuntos de datos.1 Utiliza los métodos de

la inteligencia artificial, aprendizaje automático, estadística y sistemas de bases de

datos. El objetivo general del proceso de minería de datos consiste en extraer

información de un conjunto de datos y transformarla en una estructura

comprensible para su uso posterior. Además de la etapa de análisis en bruto, que

involucra aspectos de bases de datos y de gestión de datos, de procesamiento de

datos, del modelo y de las consideraciones de inferencia, de métricas de

Intereses, de consideraciones de la Teoría de la complejidad computacional, de

post-procesamiento de las estructuras descubiertas, de la visualización y de la

actualización en línea.

El término es una palabra de moda, y es frecuentemente mal utilizado para

referirse a cualquier forma de datos a gran escala o procesamiento de la

información (recolección, extracción, almacenamiento, análisis y estadísticas),

pero también se ha generalizado a cualquier tipo de sistema de apoyo informático

decisión, incluyendo la inteligencia artificial, aprendizaje automático y la

inteligencia empresarial. En el uso de la palabra, el término clave es el

descubrimiento, comúnmente se define como "la detección de algo nuevo". Incluso

el popular libro "La minería de datos: sistema de prácticas herramientas de

aprendizaje y técnicas con Java" (que cubre todo el material de aprendizaje

automático) originalmente iba a ser llamado simplemente "la máquina de

aprendizaje práctico", y el término "minería de datos" se añadió por razones de

marketing. A menudo, los términos más generales "(gran escala) el análisis de

datos", o "análisis" -. o cuando se refiere a los métodos actuales, la inteligencia

artificial y aprendizaje automático, son más apropiados.

La tarea de minería de datos real es el análisis automático o semi-

automático de grandes cantidades de datos para extraer patrones interesantes

hasta ahora desconocidos, como los grupos de registros de datos (análisis

clúster), registros poco usuales (la detección de anomalías) y dependencias

(minería por reglas de asociación). Esto generalmente implica el uso de técnicas

2

https://es.wikipedia.org/wiki/Aprendizaje_autom%C3%A1tico

https://es.wikipedia.org/wiki/Inteligencia_artificial


https://es.wikipedia.org/wiki/Teor%C3%ADa_de_la_complejidad_computacional

https://es.wikipedia.org/wiki/Procesamiento_de_datos

https://es.wikipedia.org/wiki/Procesamiento_de_datos

https://es.wikipedia.org/wiki/Gesti%C3%B3n_de_datos

https://es.wikipedia.org/wiki/Bases_de_datos

https://es.wikipedia.org/wiki/Bases_de_datos

https://es.wikipedia.org/wiki/Estad%C3%ADstica

https://es.wikipedia.org/wiki/Aprendizaje_autom%C3%A1tico


https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos#cite_note-1

https://es.wikipedia.org/wiki/Ciencias_de_la_computaci%C3%B3n

de bases de datos como los índices espaciales. Estos patrones pueden entonces

ser vistos como una especie de resumen de los datos de entrada, y pueden ser

utilizados en el análisis adicional o, por ejemplo, en la máquina de aprendizaje

y análisis predictivo. Por ejemplo, el paso de minería de datos podría identificar

varios grupos en los datos, que luego pueden ser utilizados para obtener

resultados más precisos de predicción por un sistema de soporte de decisiones. Ni

la recolección de datos, preparación de datos, ni la interpretación de los resultados

y la información son parte de la etapa de minería de datos, pero que pertenecen a

todo el proceso KDD como pasos adicionales.

Los términos relacionados con la obtención de datos, la pesca de datos y

espionaje de los datos se refieren a la utilización de métodos de minería de datos

a las partes de la muestra de un conjunto de datos de población más grandes

establecidas que son (o pueden ser) demasiado pequeñas para las inferencias

estadísticas fiables que se hizo acerca de la validez de cualquier patrón

descubierto. Estos métodos pueden, sin embargo, ser utilizados en la creación de

nuevas hipótesis que se prueban contra poblaciones de datos más grandes.

1.2 ObjetivoConocer de forma básica el uso o la utilización del Datamining dentro de las

empresas para mejorar procesos.

1.3 MetaLograr optimizar procesos dentro de la empresa aplicando el Datamining

para manejo de grandes volúmenes de información.

1.4 HIPOTESISLa minería de datos sirve para varias áreas, ¿Servirá la minería de datos

como herramienta para proyectos escolares?

1.5 JustificaciónLa justificación de la realización de dicho proyecto, es debido a la gran

notoriedad que está teniendo esta tecnología actualmente. Cualquier persona sin

o con conocimientos tecnológicos, se pregunta cómo se almacena toda la

3

https://es.wikipedia.org/wiki/An%C3%A1lisis_predictivo

información que se genera en el mundo: en Facebook, Twitter, Smartcities o como

Google es capaz de manejar todas las transacciones que se hacen a diario. Pero

no solo se queda aquí, ya que Datamining alcanza todos los ámbitos: bolsa,

climatología, astronomía, la cantidad de datos que se genera actualmente es

abrumadora y solo el hecho de saber cómo se consigue captar y analizar dicha

información me parece una justificación bastante razonable.

FUNDAMENTOS

2.1 Marco teórico

4

El datamining (minería de datos), es el conjunto de técnicas y tecnologías

que permiten explorar grandes bases de datos, de manera automática o

semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o

reglas que expliquen el comportamiento de los datos en un determinado contexto.

Básicamente, el datamining surge para intentar ayudar a comprender el

contenido de un repositorio de datos. Con este fin, hace uso de prácticas

estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la

Inteligencia Artificial y a las redes neuronales.

De forma general, los datos son la materia prima bruta. En el momento que

el usuario les atribuye algún significado especial pasan a convertirse en

información. Cuando los especialistas elaboran o encuentran un modelo, haciendo

que la interpretación que surge entre la información y ese modelo represente un

valor agregado, entonces nos referimos al conocimiento. Vea más diferencias

entre datos, información y conocimiento.

Los datos que vemos son sólo la punta del iceberg

Aunque en datamining cada caso concreto puede ser radicalmente distinto

al anterior, el proceso común a todos ellos se suele componer de cuatro etapas

principales:

* Determinación de los objetivos. Trata de la delimitación de los objetivos que el

cliente desea bajo la orientación del especialista en data mining.

* Preprocesamiento de los datos. Se refiere a la selección, la limpieza, el

enriquecimiento, la reducción y la transformación de las bases de datos. Esta

etapa consume generalmente alrededor del setenta por ciento del tiempo total de

un proyecto de data mining.

* Determinación del modelo. Se comienza realizando unos análisis estadísticos de

los datos, y después se lleva a cabo una visualización gráfica de los mismos para

tener una primera aproximación. Según los objetivos planteados y la tarea que

5

debe llevarse a cabo, pueden utilizarse algoritmos desarrollados en diferentes

áreas de la Inteligencia Artificial.

* Análisis de los resultados. Verifica si los resultados obtenidos son coherentes y

los coteja con los obtenidos por los análisis estadísticos y de visualización gráfica.

El cliente determina si son novedosos y si le aportan un nuevo conocimiento que

le permita considerar sus decisiones.

En resumen, el datamining se presenta como una tecnología emergente,

con varias ventajas: por un lado, resulta un buen punto de encuentro entre los

investigadores y las personas de negocios; por otro, ahorra grandes cantidades de

dinero a una empresa y abre nuevas oportunidades de negocios. Además, no hay

duda de que trabajar con esta tecnología implica cuidar un sinnúmero de detalles

debido a que el producto final involucra "toma de decisiones".

2.2 Proceso

Un proceso típico de minería de datos consta de los siguientes pasos

generales:

Selección del conjunto de datos, tanto en lo que se refiere a las variables

objetivo (aquellas que se quiere predecir, calcular o inferir), como a las variables

independientes (las que sirven para hacer el cálculo o proceso), como

posiblemente al muestreo de los registros disponibles.

Análisis de las propiedades de los datos, en especial los histogramas,

diagramas de dispersión, presencia de valores atípicos y ausencia de datos

(valores nulos).

Transformación del conjunto de datos de entrada, se realizará de diversas

formas en función del análisis previo, con el objetivo de prepararlo para aplicar la

técnica de minería de datos que mejor se adapte a los datos y al problema, a este

paso también se le conoce como preprocesamiento de los datos.

6

https://es.wikipedia.org/wiki/Null

https://es.wikipedia.org/wiki/Valor_at%C3%ADpico

https://es.wikipedia.org/wiki/Dispersi%C3%B3n_(matem%C3%A1tica)

https://es.wikipedia.org/wiki/Histograma

https://es.wikipedia.org/wiki/Registro_(base_de_datos)

https://es.wikipedia.org/wiki/Muestreo_en_estad%C3%ADstica

https://es.wikipedia.org/wiki/Variable_dependiente

https://es.wikipedia.org/wiki/Variable_dependiente

Seleccionar y aplicar la técnica de minería de datos, se construye el modelo

predictivo, de clasificación o segmentación.

Extracción de conocimiento, mediante una técnica de minería de datos, se

obtiene un modelo de conocimiento, que representa patrones de comportamiento

observados en los valores de las variables del problema o relaciones de

asociación entre dichas variables. También pueden usarse varias técnicas a la vez

para generar distintos modelos, aunque generalmente cada técnica obliga a un

preprocesado diferente de los datos.

Interpretación y evaluación de datos, una vez obtenido el modelo, se debe

proceder a su validación comprobando que las conclusiones que arroja son

válidas y suficientemente satisfactorias. En el caso de haber obtenido varios

modelos mediante el uso de distintas técnicas, se deben comparar los modelos en

busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos

alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores

para generar nuevos modelos.

Si el modelo final no superara esta evaluación el proceso se podría repetir

desde el principio o, si el experto lo considera oportuno, a partir de cualquiera de

los pasos anteriores. Esta retroalimentación se podrá repetir cuantas veces se

considere necesario hasta obtener un modelo válido.

Una vez validado el modelo, si resulta ser aceptable (proporciona salidas

adecuadas y/o con márgenes de error admisibles) éste ya está listo para su

explotación. Los modelos obtenidos por técnicas de minería de datos se aplican

incorporándolos en los sistemas de análisis de información de las organizaciones,

e incluso, en los sistemas transaccionales. En este sentido cabe destacar los

esfuerzos del Data Mining Group, que está estandarizando el

lenguaje PMML (Predictive Model Markup Language), de manera que los modelos

de minería de datos sean interoperables en distintas plataformas, con

independencia del sistema con el que han sido construidos. Los principales

7

https://es.wikipedia.org/wiki/Plataforma_(inform%C3%A1tica)

https://es.wikipedia.org/wiki/Interoperabilidad

https://en.wikipedia.org/wiki/Predictive_Model_Markup_Language

http://www.dmg.org/

fabricantes de sistemas de bases de datos y programas de análisis de la

información hacen uso de este estándar.

Tradicionalmente, las técnicas de minería de datos se aplicaban sobre

información contenida en almacenes de datos. De hecho, muchas grandes

empresas e instituciones han creado y alimentan bases de datos especialmente

diseñadas para proyectos de minería de datos en las que centralizan información

potencialmente útil de todas sus áreas de negocio. No obstante, actualmente está

cobrando una importancia cada vez mayor la minería de datos desestructurados

como información contenida en ficheros de texto, en Internet, etc.

2.3 Protocolo de un proyecto de minería de datos

Un proyecto de minería de datos tiene varias fases necesarias que son,

esencialmente:

Comprensión: del negocio y del problema que se quiere resolver.

Determinación, obtención y limpieza: de los datos necesarios.

Creación de modelos matemáticos.

Validación, comunicación: de los resultados obtenidos.

Integración: si procede, de los resultados en un sistema transaccional o similar.

La relación entre todas estas fases sólo es lineal sobre el papel. En

realidad, es mucho más compleja y esconde toda una jerarquía de subfases. A

través de la experiencia acumulada en proyectos de minería de datos se han ido

desarrollando metodologías que permiten gestionar esta complejidad de una

manera más o menos uniforme.

2.4 Técnicas de minería de datos

Como ya se ha comentado, las técnicas de la minería de datos provienen

de la inteligencia artificial y de la estadística, dichas técnicas, no son más

que algoritmos, más o menos sofisticados que se aplican sobre un conjunto de

datos para obtener unos resultados.

8

https://es.wikipedia.org/wiki/Algoritmo

https://es.wikipedia.org/wiki/Estad%C3%ADstica


https://es.wikipedia.org/wiki/Almac%C3%A9n_de_datos

https://es.wikipedia.org/wiki/Norma_(tecnolog%C3%ADa)

Las técnicas más representativas son:

Redes neuronales.- Son un paradigma de aprendizaje y procesamiento

automático inspirado en la forma en que funciona el sistema nervioso de los

animales. Se trata de un sistema de interconexión de neuronas en una red que

colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal

son:

El perceptrón.

El perceptrón multicapa.

Los mapas auto-organizados, también conocidos como redes de Kohonen.

Regresión lineal.- Es la más utilizada para formar relaciones entre datos.

Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan

relacionarse más de 2 variables.

Árboles de decisión.- Un árbol de decisión es un modelo de predicción

utilizado en el ámbito de la inteligencia artificial y el análisis predictivo, dada una

base de datos se construyen estos diagramas de construcciones lógicas, muy

similares a los sistemas de predicción basados en reglas, que sirven para

representar y categorizar una serie de condiciones que suceden de forma

sucesiva, para la resolución de un problema.

Algoritmo ID3.

Algoritmo C4.5.

Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o

ecuación que se emplea en todos los diseños experimentales y en la regresión

para indicar los diferentes factores que modifican la variable de respuesta.

Agrupamiento o Clustering.- Es un procedimiento de agrupación de una

serie de vectores según criterios habitualmente de distancia; se tratará de

disponer los vectores de entrada de forma que estén más cercanos aquellos que

tengan características comunes. Ejemplos:

9

https://es.wikipedia.org/wiki/Algoritmo_de_agrupamiento

https://es.wikipedia.org/wiki/Modelo_estad%C3%ADstico

https://en.wikipedia.org/wiki/C4.5_algorithm

https://es.wikipedia.org/wiki/Algoritmo_ID3

https://es.wikipedia.org/wiki/An%C3%A1lisis_predictivo


https://es.wikipedia.org/wiki/%C3%81rbol_de_decisi%C3%B3n

https://es.wikipedia.org/wiki/Regresi%C3%B3n_lineal

https://es.wikipedia.org/wiki/Mapa_autoorganizado

https://es.wikipedia.org/wiki/Mapa_autoorganizado

https://es.wikipedia.org/wiki/Perceptr%C3%B3n_multicapa

https://es.wikipedia.org/wiki/Perceptr%C3%B3n

https://es.wikipedia.org/wiki/Red_neuronal_artificial

https://es.wikipedia.org/wiki/Neurona

https://es.wikipedia.org/wiki/Sistema_nervioso

https://es.wikipedia.org/wiki/Aprendizaje

https://es.wikipedia.org/wiki/Paradigma

https://es.wikipedia.org/wiki/Red_neuronal_artificial

Algoritmo K-means.

Algoritmo K-medoids.

Reglas de asociación.- Se utilizan para descubrir hechos que ocurren en

común dentro de un determinado conjunto de datos.

Según el objetivo del análisis de los datos, los algoritmos utilizados se clasifican

en supervisados y no supervisados (Weiss y Indurkhya, 1998):

Algoritmos supervisados (o predictivos): predicen un dato (o un conjunto

de ellos) desconocido a priori, a partir de otros conocidos.

Algoritmos no supervisados (o del descubrimiento del conocimiento): se

descubren patrones y tendencias en los datos.

Algunas cosas que se puede hacer con el DM El usuario del DM usualmente

busca los siguientes cuatro tipos de relaciones:

(i) Clases: las observaciones se asignan a grupos predeterminados. El

proceso de clasi- ficación consiste en asignar un conjunto de datos a

grupos fijados de manera que se minimice la probabilidad de una

clasificación errónea. Por ejemplo, un problema típico de clasificación es el

de dividir una base de datos de bancos en grupos que sean lo más

homogéneos posibles con respecto a variables como posibilidades de

crédito en términos de valores tales como bueno o malo.

(ii) Clusters: se construyen grupos de observaciones similares según un

criterio prefijado. El proceso de clustering (agrupamiento) consiste en

subdividir un conjunto de datos en grupos mutuamente excluyentes de tal

manera que cada miembro de un grupo esté lo más cercano posible a otro

elemento, y grupos diferentes estén lo más lejos posible entre sí, de modo

que la distancia está medida respecto a todas las variables disponibles. Un

típico ejemplo de aplicación de clustering es la clasificación de segmentos

de mercado. Por ejemplo, una empresa quiere introducirse en el mercado

de bebidas alcohólicas, pero antes hace una encuesta de mercado para

averiguar si existen grupos de clientes con costumbres particulares en el

10

https://es.wikipedia.org/wiki/Reglas_de_asociaci%C3%B3n

https://en.wikipedia.org/wiki/K-medoids

https://en.wikipedia.org/wiki/K-means_algorithm

consumo de bebidas. La empresa quiere introducirse en el grupo (si existe)

que esté menos servido por la 2 competencia. En este ejemplo no existen

grupos de clientes predeterminados.

(iii) Asociaciones: las observaciones son usadas para identificar

asociaciones entre variables. La búsqueda de asociaciones es diferente a la

búsqueda de relaciones causales. Las relaciones causales son mucho más

difíciles de encontrar que las asociaciones, debido a la presencia de

variables no observadas. Las relaciones causales y asociaciones no son

equivalentes: si hay asociaciones no tiene por qué haber causalidad. (iv)

Patrones secuenciales: se trata de identificar patrones de comportamiento y

tendencias. Un ejemplo sería intensidades de expresión en microarrays que

permiten distinguir entre diferentes expresiones de genes para individuos

con cáncer o sin él.

Ejemplos de aplicación del Data Mining Algunas áreas de aplicación del DM son:

Toma de Decisiones.

Ejemplos: banca, finanzas, seguros, marketing, políticas sanitarias o

demográficas. Procesos Industriales.

Investigación Científica Ejemplos: medicina, epidemiología, bioinformática,

psicología. Soporte al Diseño de Bases de Datos. Mejora de Calidad de

Datos. Mejora en el área de empresas de Consulting.

2.5 Ventajas y desventajas

Ventajas

* Enormes bases de datos pueden ser analizadas.

* Enormes bases de datos pueden ser analizadas mediante la

tecnología del Data Mining. Estas Bases de datos pueden ser

enormes tanto en largo como en ancho. Por ejemplo, para cada

11

cliente se puede tener cientos de atributos que contienen información

detallada; y además tener miles de registros de clientes.

* El Data Mining descubre información que no se esperaba obtener.

* Como muchos modelos diferentes son validados, algunos resultados

inesperados tienden a aparecer. En muchos estudios, se ha

descubierto que combinaciones particulares de factores entregan

efectos inesperados que entregan valor a la compañía.(Pañales y

cerveza)

* Los Modelos Son Confiables

* El modelo es probado y comprobado usando técnicas estadísticas

antes de ser usado, luego las predicciones que se obtienen por el

modelo son válidas y confiables.

* Los modelos se construyen de manera rápida.

* La minería de datos permite construir y generar modelos en sólo uno

minutos u horas. El modelado se torna mucho más fácil puesto que

muchos algoritmos son probados y sólo el mejor modelo es

entregado al usuario.

Desventajas

* Dificultad de recopilación de los datos

* Dependiendo del tipo de datos que se quieran recopilar puede

conllevar mucho trabajo o la necesidad de tecnología de elevado

coste.

* El preprocesamiento de datos puede llevar demasiado tiempo

* No está asegurada la obtención de un modelo válido

METODOLOGÍA

3.1 Implementación

El gran desarrollo tecnológico de las computadoras en las últimas décadas

ha potenciado el almacenamiento de grandes cantidades de datos y ha permitido

12

el desarrollo de herramientas para su tratamiento, dando lugar a una nueva

disciplina conocida como “data mining”.

Se puede definir Data Mining como el conjunto de técnicas y herramientas

aplicadas al proceso no trivial de extraer y presentar conocimiento implícito,

previamente desconocido, potencialmente útil y humanamente comprensible, a

partir de grandes conjuntos de datos, con objeto de predecir de forma

automatizada tendencias y comportamientos y/o descubrir de forma automatizada

modelos previamente desconocidos [Piatetski-Shapiro 1991].

Los orígenes del Data Mining se pueden establecer a principios de la

década de 1980, cuando la administración de hacienda estadounidense desarrolló

un programa de investigación para detectar fraudes en la declaración y evasión de

impuestos, mediante lógica difusa, redes neuronales y técnicas de reconocimiento

de patrones. Sin embargo, la gran expansión del Data Mining no se produce hasta

la década de 1990 originada principalmente por tres factores:

Incremento de la potencia de los ordenadores ·

Incremento del ritmo de adquisición de datos. El crecimiento de la cantidad

de datos almacenados se ve favorecido no sólo por el abaratamiento de los discos

y sistemas de almacenamiento masivo, sino también por la automatización de

muchos trabajos y técnicas de recogida de datos. Aparición de nuevos métodos de

técnicas de aprendizaje y almacenamiento de datos.

Desafortunadamente esta expansión implica el desarrollo de proyectos

cada vez más grandes en un sector en el que difícilmente se pueden extraer

conclusiones a priori y en el que la selección de la mejor técnica no se puede

hacer en las primeras fases sino que se precisa un modelo evolutivo, similar al

modelo espiral del ciclo de vida de desarrollo software.

Por otra parte el hecho de que más del 75% del esfuerzo se produzca en

las primeras fases (en este caso en el pretratamiento de datos) provoca que este

13

tipo de proyectos sea en general subestimado en cuanto a coste y tiempo y que

las desviaciones producidas excedan con mucho el 90%.

Ante la necesidad existente en el mercado de una aproximación sistemática

para la realización de los proyectos de Data Mining, diversas empresas y

consultorías han especificado un proceso de modelado diseñado para guiar al

usuario a través de una sucesión de pasos que le dirijan a obtener buenos

resultados.

Así SAS propone la utilización de la metodología SEMMA (Sample, Explore,

Modify, Model, Assess). En 1999 un importante consorcio de empresas europeas,

NCR (Dinamarca), AG(Alemania), SPSS (Inglaterra) y OHRA (Holanda), unieron

sus recursos para el desarrollo de la metodología de libre distribución CRISP-DM

(CrossIndustry Standard Process for Data Mining). Esta metodología, junto con la

metodología SEMMA, son las dos principales metodologías utilizadas por los

analistas en los proyectos de Data Mining.

3.2 Metodología semma

SAS Institute desarrollador de esta metodología, la define como el proceso

de selección, exploración y modelado de grandes cantidades de datos para

descubrir patrones de negocio desconocidos.

El nombre de esta terminología es el acrónimo correspondiente a las cinco

fases básicas del proceso: muestreo, exploración, manipulación, modelado y

valoración.

El proceso se inicia con la extracción de la población muestral sobre la que

se va a aplicar el análisis. El objetivo de esta fase consiste en seleccionar una

muestra representativa del problema en estudio. La representatividad de la

muestra es indispensable ya que de no cumplirse invalida todo el modelo y los

resultados dejan de ser admisibles. La forma más común de obtener una muestra

es la selección al azar, es decir, cada uno de los individuos de una población tiene

14

la misma posibilidad de ser elegido. Este método de muestreo se denomina

muestreo aleatorio simple.

La metodología SEMMA establece que para cada muestra considerada

para el análisis del proceso se debe asociar el nivel de confianza de la muestra.

Una vez determinada una muestra o conjunto de muestras representativas

de la población en estudio, la metodología SEMMA indica que se debe proceder a

una exploración de la información disponible con el fin de simplificar en lo posible

el problema con el fin de optimizar la eficiencia del modelo. Para lograr este

objetivo se propone la utilización de herramientas de visualización o de técnicas

estadísticas que ayuden a poner de manifiesto relaciones entre variables. De esta

forma se pretende determinar cuáles son las variables explicativas que van a

servir como entradas al modelo.

La tercera fase de la metodología consiste en la manipulación de los datos,

en base a la exploración realizada, de forma que se definan y tengan el formato

adecuado los datos que serán introducidos en el modelo. Una vez que se han

definido las entradas del modelo, con el formato adecuado para la aplicación de la

técnica de modelado, se procede al análisis y modelado de los datos. El objetivo

de esta fase consiste en establecer una relación entre las variables explicativas y

las variables objeto del estudio, que posibiliten inferir el valor de las mismas con

un 260 nivel de confianza determinado. Las técnicas utilizadas para el modelado

de los datos incluyen métodos estadísticos tradicionales (tales como análisis

discriminante, métodos de agrupamiento, y análisis de regresión), así como

técnicas basadas en datos tales como redes neuronales, técnicas adaptativas,

lógica fuzzy, árboles de decisión, reglas de asociación y computación evolutiva.

Finalmente, la última fase del proceso consiste en la valoración de los

resultados mediante el análisis de bondad del modelo o modelos, contrastado con

otros métodos estadísticos o con nuevas poblaciones muéstrales.

3.3 Metodología CRISP-DM

15

La metodología CRISP-DM (Chapman, 1999) consta de cuatro niveles de

abstracción, organizados de forma jerárquica en tareas que van desde el nivel

más general hasta los casos más específicos.

A nivel más general, el proceso está organizado en seis fases (Figura 5),

estando cada fase a su vez estructurada en varias tareas generales de segundo

nivel. Las tareas generales se proyectan a tareas específicas, donde se describen

las acciones que deben ser desarrolladas para situaciones específicas. Así, si en

el segundo nivel se tiene la tarea general “limpieza de datos”, en el tercer nivel se

dicen las tareas que tienen que desarrollarse para un caso específico, como por

ejemplo, “limpieza de datos numéricos”, o “limpieza de datos categóricos”.

El cuarto nivel, recoge el conjunto de acciones, decisiones y resultados

sobre el proyecto de Data Mining específico.

La metodología CRISP-DM proporciona dos documentos distintos como

herramienta de ayuda en el desarrollo del proyecto de Data Mining: el modelo de

referencia y la guía del usuario.

El documento del modelo de referencia describe de forma general las fases,

tareas generales y salidas de un proyecto de Data Mining en general. La guía del

usuario proporciona información más detallada sobre la aplicación práctica del

modelo de referencia a proyectos de Data Mining específicos, proporcionando

consejos y listas de comprobación sobre las tareas correspondientes a cada fase.

La metodología CRISP-DM estructura el ciclo de vida de un proyecto de

Data Mining en seis fases, que interactúan entre ellas de forma iterativa durante el

desarrollo del proyecto.

La primera fase análisis del problema, incluye la comprensión de los

objetivos y requerimientos del proyecto desde una perspectiva empresarial, con el

fin de convertirlos en objetivos técnicos y en una planificación.

La segunda fase de análisis de datos comprende la recolección inicial de

datos, en orden a que sea posible establecer un primer contacto con el problema,

16

identificando la calidad de los datos y estableciendo las relaciones más evidentes

que permitan establecer las primeras hipótesis.

Una vez realizado el análisis de datos, la metodología establece que se

proceda a la preparación de los datos, de tal forma que puedan ser tratados por

las técnicas de modelado. La preparación de datos incluye las tareas generales de

selección de datos a los que se va a aplicar la técnica de modelado (variables y

muestras), limpieza de los datos, generación de variables adicionales, integración

de diferentes orígenes de datos y cambios de formato.

La fase de preparación de los datos, se encuentra muy relacionada con la

fase de modelado, puesto que en función de la técnica de modelado que vaya a

ser utilizada los datos necesitan ser procesados en diferentes formas. Por lo tanto

las fases de preparación y modelado interactúan de forma sistemática. En la fase

de modelado se seleccionan las técnicas de modelado más apropiadas para el

proyecto de Data Mining específico. La técnicas a utilizar en esta fase se

seleccionan en función de los siguientes criterios: ·

Ser apropiada al problema ·

Disponer de datos adecuados ·

Cumplir los requerimientos del problema ·

Tiempo necesario para obtener un modelo ·

Conocimiento de la técnica

Antes de proceder al modelado de los datos se debe de establecer un

diseño del método de evaluación de los modelos, que permita establecer el grado

de bondad de los modelos. Una vez realizadas estas tareas genéricas se procede

a la generación y evaluación del modelo. Los parámetros utilizados en la

generación del modelo dependen de las características de los datos.

En la fase de evaluación, se evalúa el modelo, no desde el punto de vista

de los datos, sino del cumplimiento de los criterios de éxito del problema. Se debe

17

revisar el proceso seguido, teniendo en cuenta los resultados obtenidos, para

poder repetir algún paso en el que, a la vista del desarrollo posterior del proceso,

se hayan podido cometer errores. Si el modelo generado es válido en función de

los criterios de éxito establecidos en la primera fase, se procede a la explotación

del modelo.

Normalmente los proyectos de Data Mining no terminan en la implantación

del modelo, sino que se deben documentar y presentar los resultados de manera

comprensible en orden a lograr un incremento del conocimiento. Además en la

fase de explotación se debe de asegurar el mantenimiento de la aplicación y la

posible difusión de los resultados [Fayyad, 1996].

3.4 Comparación de metodologías

Las metodologías SEMMA y CRISP-DM comparten la misma esencia,

estructurando el proyecto de Data Mining en fases que se encuentran

interrelacionadas entre sí, convirtiendo el proceso de Data Mining en un proceso

iterativo e interactivo.

La metodología SEMMA se centra más en las características técnicas del

desarrollo del proceso, mientras que la metodología CRISP-DM, mantiene una

perspectiva más amplia respecto a los objetivos empresariales del proyecto. Esta

diferencia se establece ya desde la primera fase del proyecto de Data Mining

donde la metodología SEMMA comienza realizando un muestreo de datos,

mientras que la metodología CRISP-DM comienza realizando un análisis del

problema empresarial para su transformación en un problema técnico.

Desde ese punto de vista más global se puede considerar que la

metodología CRISP-DM está más cercana al concepto real de proyecto, pudiendo

ser integrada con una Metodología de Gestión de Proyectos específica que

completaría las tareas administrativas y técnicas.

Otra diferencia significativa entre la metodología SEMMA y la metodología

CRISP-DM radica en su relación con herramientas comerciales. La metodología

18

SEMMA sólo es abierta en sus aspectos generales ya que está muy ligada a los

productos SAS donde se 264 encuentra implementada. Por su parte la

metodología CRISP-DM ha sido diseñada como una metodología neutra respecto

a la herramienta que se utilice para el desarrollo del proyecto de Data Mining

siendo su distribución libre y gratuita.

El método está basado en la utilización de técnicas de minería de datos (ver

Figura 1) y se compone de los pasos típicos de un proceso de extracción de

conocimiento.

- Recopilación de datos. En esta etapa se recoge toda la información

disponible de los estudiantes. Para ello primero se debe de seleccionar el conjunto

de factores que pueden afectar y después se deben de recoger a partir de las

diferentes fuentes de datos disponibles. Finalmente toda esta información se debe

integrar en un único conjunto de datos.

- Pre-procesado. En esta etapa se preparan los datos para poder aplicar,

posteriormente, las técnicas de minería de datos. Para ello, primero se realizan

tareas típicas de pre-procesado como: limpieza de datos, transformación de

variables y particionado de datos. Además se han aplicado otras técnicas como la

selección de atributos y el re-balanceado de datos para intentar solucionar los

problemas de la alta dimensionalidad y desbalanceo que presentan normalmente

este tipo de conjuntos de datos.

- Minería de datos. En esta etapa se aplican algoritmos de minería de datos para

predecir el fracaso escolar como si fuera un problema de clasificación. Para ello,

se propone utilizar algoritmos de clasificación basada en reglas y en árboles de

decisión debido a que son técnicas de “caja blanca” que generan modelos

altamente interpretables que permiten su utilización directa en procesos de toma

de decisiones. Además de la clasificación tradicional se propone utilizar también

clasificación basada en costos o penalizaciones para intentar corregir el problema

del desbalanceo de los datos. Finalmente, los distintos algoritmos utilizados deben

19

de ser evaluados y comparados para determinar cuáles obtienen los mejores

resultados de clasificación.

- Interpretación de los resultados. En esta última etapa, se analizan los modelos

que han obtenido los mejores resultados para utilizarlos en la detección del

fracaso escolar. Para ello, se analizan los factores que aparecen en las reglas y/o

árboles de decisión, los valores que presentan y como están relacionados con

otros factores.

FIGURA 1

Resultados

Según una encuesta rápida que se realizó a todos los estudiantes del I.T.C.J. acerca de que tan seguido utilizan bases de datos de la escuela o mediante internet para proyectos escolares en la figura 1 se muestran los datos:

20

Figura 1. Tabla de resultados de la encuesta

En la gráfica se puede ver como los datos muestran que en los meses de enero a mayo el uso de las bases de datos se alto y muestra una caída mes con mes, para el mes de junio está muy bajo, luego incrementa un poco, pero vuelve a caer en agosto, después, de agosto a diciembre se vuelve a incrementar.

Analizando los datos y haciendo algunas preguntas a los estudiantes resulto que muchos de los jóvenes del ITCJ están en semestres que van desde el 6to semestre hasta el 12vo semestre, y que muchos de ellos principalmente de 9no a 12vo semestre comenzaron a realizar sus RESIDENCIAS PROFESIONALES por lo que el uso de las bases de datos, la utilización de libros y de internet se hace más necesaria ya que muchos de ellos buscan libros en internet o información que necesitan conocer para hacer o mejorar su proyecto.

Muchos otros jóvenes respondieron que ellos utilizan las bases de datos y el internet para hacer proyectos escolares ya que están cursando materias en las que les encargan realizar proyectos como taller de investigación I y taller de investigación II, formulación y evaluación de proyectos entre otras materias de este tipo, por esta razón asisten al centro de información del ITCJ para buscar información que les pueda ser útil.

Bibliografía:https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos

21

https://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos

http://www.scielo.org.ve/scielo.php?script=sci_arttext&pid=S1012-15872007000100008

http://rita.det.uvigo.es/201208/uploads/IEEE-RITA.2012.V7.N3.A1.pdf

22



Download - Weebly · Web viewLa idea de Minería de Datos no es nueva. Ya desde los años sesenta los estadísticos manejaban términos como Data Fishing, Data Mining (DM) o Data Archaeology

Top Related