Download - Modelo Mono
-
8/13/2019 Modelo Mono
1/129
UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN - TACNA
Facultad de Ingeniera
Escuela Acadmico Profesional de Ingeniera en Informtica y Sistemas
MI TITULI TITULO
EXAMEN PROFESIONAL
"APLICACIN DE MINERA DE DATOS PARA DETERMINAR
CLIENTES CON RIESGO CREDITICIO"
PRESENTADO POR:
Bach. Maritza del Pilar Serrano Cahuana
Para optar el Ttulo Profesional de:
INGENIERO EN INFORMTICA Y SISTEMAS
TACNA - PER
2013
-
8/13/2019 Modelo Mono
2/129
ii
UNIVERSIDAD NACIONAL JORGE BASADRE GROHMANN
FACULTAD DE INGENIERA
JURADO CALIFICADOR Y CALIFICACIN DEL EXAMEN ORAL DEEXAMEN PROFESIONAL
MONOGRAFA N ____ TITULO PROFESIONAL DE:Ingeniero en Informtica y Sistemas
La Secretara Acadmica Administrativa de la Facultad de Ingeniera, certifica que porResolucin de Facultad N ____-2006-FACI/UNJBG, fueron designados como juradospara Sustentacin Oral del Examen de Suficiencia Profesional del tema: APLICACINDE MINERA DE DATOS PARA DETERMINAR CLIENTES CON RIESGOCREDITICIO.
El mismo est conformado por:
Presidente : MSc. Edilberto Pablo Mamani LpezSecretario : MSc. Juan Ubaldo Jimenez Castilla
Vocal : Ing. Ivn Pino Telleria
Para calificar la sustentacin del tema de la monografa en acto pblico el da 16 deMarzo del 2006.
Presentada por la seorita Maritza del Pilar Serrano Cahuana de la Escuela AcadmicoProfesional de Ingeniera en Informtica y Sistemas.
El Jurado Calificador en forma secreta e individual emiti su calificativo sobre el temamonogrfico expuesto y procedi a obtener el promedio que arrojo el calificativoAPROBADO / REGULAR con la nota de ONCE (11).
Para ratificar lo detallado firman.
MSc. Edilberto Pablo Mamani LpezPresidente
MSc. Juan Ubaldo Jimenez CastillaSecretario
Ing. Ivn Pino TelleriaVocal
-
8/13/2019 Modelo Mono
3/129
iii
DEDICATORA
A mis Padres, quienes en todo momento han sido mi
fortaleza y apoyo, guiando mis pasos para salir adelante,
demostrndome que no hay nada que no se pueda conseguir
con esfuerzo y dedicacin.
A mi Hermano por su confianza y amor.
A mi Novio que desde el Cielo me ha impulsado a lo lograr
lo inimaginable.
A mi Universidad y Profesores.
Gracias por lo que hemos logrado.
Mas la senda de los justos es como la luz de la aurora, que
va en aumento hasta que el da es perfecto Proverbios
4:18
-
8/13/2019 Modelo Mono
4/129
iv
CONTENIDO
RESUMEN______________________________________________________ 1
I. INTRODUCCIN ______________________________________________ 1
II. OBJETIVOS __________________________________________________ 4
2.1. Objetivo General _________________________________________ 4
2.2. Objetivos Especficos _____________________________________ 4
III. DESARROLLO DEL TEMA ___________________________________ 6
3.1. Fundamento terico ______________________________________ 6
3.1.1. Qu es minera de datos? _________________________________ 6
3.1.2. Limitaciones de minera de datos __________________________ 10
3.1.3. Diferencias entre minera de datos y estadstica _______________ 11
3.1.4. Minera de datos y KDD _________________________________ 14
3.1.5. Metodologas de minera de datos__________________________ 17
3.1.6. Aplicaciones de la minera de datos ________________________ 27
3.1.7. Tcnicas de la minera de datos ___________________________ 28
3.1.8. Software para minera de datos ____________________________ 59
3.2. Caso prctico ___________________________________________ 62
3.2.1. Descripcin del problema ________________________________ 62
-
8/13/2019 Modelo Mono
5/129
v
3.2.2. Justificacin___________________________________________ 66
3.2.3. Alcances _____________________________________________ 67
3.2.4. Finalidad del proyecto ___________________________________ 67
3.2.5. Evaluacin de la situacin ________________________________ 68
3.2.6. Determinacin de criterios de xito ________________________ 71
3.2.7. Entendimiento de los datos _______________________________ 75
3.2.8. Generacin de modelos __________________________________ 79
3.2.9. Evaluacin de los resultados _____________________________ 102
IV. CONCLUSIONES __________________________________________ 107
V. RECOMENDACIONES ______________________________________ 109
VI. BIBLIOGRAFA ___________________________________________ 111
VII. ANEXOS _________________________________________________ 120
-
8/13/2019 Modelo Mono
6/129
vi
NDICE DE FGURAS
Figura N 01. Etapas del descubrimiento de conocimientos. ............................. 15
Figura N 02. Fases de la metodologa SEMMA. .............................................. 17
Figura N 03. Metodologa SEMMA. ................................................................ 20
Figura N 04. Fases de metodologa CRISP-DM. .............................................. 22
Figura N 05. Interrelacin entre las fases de las metodologas SEMMA y
CRISPDM. ........................................................................................................ 26
Figura N 06. Comparacin de clculo de distancias. ........................................ 35
Figura N 07. rbol de decisin. ....................................................................... 38
Figura N 08. rbol de ramificacin "Clima General". ..................................... 47
Figura N 09. rbol final. .................................................................................. 48
-
8/13/2019 Modelo Mono
7/129
vii
NDICE DE TABLAS
Tabla 1. Diferencia Minera de datos vs. Estadstica ......................................... 13
Tabla 3. Informacin de climas para ejemplo. ................................................... 42
Tabla 4. Tabla de probabilidades del ejemplo. .................................................. 52
Tabla 5. Software de minera y sus tcnicas. ..................................................... 62
Tabla 6. Objetivos Especficos vs. Criterios de xito ........................................ 72
Tabla 7. Actividades Plan de Proyecto (Continuacin) ..................................... 74
Tabla 8. Tabla de Atributos de Clientes. ........................................................... 77
Tabla 9. Evaluacin Algoritmo J48. ................................................................ 103
Tabla 10. Evaluacin del Algoritmo REPTree ................................................ 105
-
8/13/2019 Modelo Mono
8/129
1
RESUMEN
El presente trabajo enfatiza el uso de la tecnologaData Mining (extraccin de
informacin til o no evidente de grandes bases de datos)para el descubrimiento
del conocimiento y su uso predominante en el nivel empresarial, a fin de
contribuir en la toma de decisiones tcticas y estratgicas en una organizacin.
Se parte definiendo Qu es Data Mining?, objetivos y caractersticas, fases
para generar un proyecto, principales tcnicas que utiliza, y se termina indicando
sus principales mbitos de aplicacin.
Finalmente, se presenta el caso: Aplicacin de minera de datos para
determinar clientes con riesgo crediticio, que permite analizar informacin
relativa a clientes y su entorno, el mismo que se ha convertido en fuente de
prevencin de riesgos crediticios durante el otorgamiento de crditos.
-
8/13/2019 Modelo Mono
9/129
1
I. INTRODUCCIN
La Minera de Datos es una herramienta til y con creciente demanda en el
mercado y consiste esencialmente en el proceso de extraccin, transformacin y
anlisis de datos, con el fin de obtener conocimiento de los mismos.
En sus inicios la minera de datos solo era utilizada en empresas dedicadas al
anlisis de los datos con un campo de estudio muy especfico, sin embargo hoy en
da la penetracin en todos los mbitos comerciales es muy significativa. Da con
da ms empresas utilizan este proceso con el fin de conocer ms a sus clientes,
dar un mejor servicio, identificar las reas de oportunidad, todo con el fin de ser
ms competentes en el mercado.
El presente trabajo tiene como objetivo introducir y guiar al lector al estudio
de la minera de datos, mediante aplicaciones y ejemplos prcticos. Utilizando las
tcnicas ms conocidas y las diferentes soluciones respecto a software que ofrecen
las empresas lderes en este ramo.
-
8/13/2019 Modelo Mono
10/129
2
El capitulo dos se citan los objetivos planteados para el desarrollo de este
proyecto, tanto objetivo general como objetivos especficos.
En el captulo tres se refiere a la historia de la minera de datos, se citan
diferentes definiciones de la minera de datos. Se menciona la diferencia entre la
minera de datos y la estadstica, las etapas y proceso para el descubrimiento de
conocimiento a partir de un conjunto de datos, se citan las metodologas ms
usuales de la minera de datos: la metodologa SEMMA y CRISP-DM. Se
mencionan algunas tcnicas ms usuales de la minera de datos:
rboles de decisin.
Redes Neuronales.
Clustering o agrupamiento.
Series temporales.
Redes bayesianas.
As tambin, se citan algunos software que contienen utilidades para
preprocesamiento, clasificacin, agrupamiento, visualizacin, etctera; algunos de
estos de uso libre. Se detalla los ms usuales como: Data Engine, Enterprise
Miner, Clementine y Weka.
-
8/13/2019 Modelo Mono
11/129
3
Por ltimo, se define el problema para el caso asignado, se da a conocer los
antecedentes del mismo, se justifica la necesidad, se determina el alcance del
proyecto a desarrollar y se presenta un caso prctico de aplicacin de minera de
datos haciendo uso de la Herramienta Weka, que genera un modelo y lo prueba
clasificando los datos en un rbol de decisin, indicando el grado de certeza
obtenido, el cual nos permite la clasificacin de clientes con riesgo crediticio.
Finalmente, se da a conocer las conclusiones y recomendaciones a las cuales
se llega al trmino del desarrollo del presente tema.
-
8/13/2019 Modelo Mono
12/129
-
8/13/2019 Modelo Mono
13/129
5
Clasificar a una persona que solicita un crdito en cliente moroso o cliente
pagador.
Generacin de un rbol de decisin basado en un algoritmo clasificatorio.
-
8/13/2019 Modelo Mono
14/129
6
III. DESARROLLO DEL TEMA
3.1.Fundamento terico
3.1.1.Qu es minera de datos?
Existen varias definiciones de minera de datos, a continuacin se
mencionaran algunas:
Definicin 1. Minera de datos es el proceso por el cual generamos un
modelo, que sirva para la prediccin, este modelo se genera con base en
los datos que se encuentran en una base de datos aplicndoles algn
algoritmo que construya el modelo.
Definicin 2. La minera de datos es un proceso no trivial de
identificacin vlida, novedosa, potencialmente til y entendible de
patrones comprensibles que se encuentran ocultos en los datos (Vieria,
Ortiz, & Ramirez, 2009, p.11).
-
8/13/2019 Modelo Mono
15/129
-
8/13/2019 Modelo Mono
16/129
-
8/13/2019 Modelo Mono
17/129
9
Las agrupaciones (encontrar y documentar visualmente grupos de
hechos anteriormente desconocidos, como ubicacin geogrfica y las
preferencias de marca).
Los pronsticos (el descubrimiento de patrones a partir de los
cuales se hacen predicciones en relacin con las actividades futuras,
tales como, la prediccin de que las personas que pertenecen a un
club de atletismo tome clases de ejercicio).
Las principales caractersticas y objetivos de la minera de datos son:
Explorar los datos para encontrar informacin valiosa que est
oculta dentro de las grandes bases de datos.
El entorno de la minera de datos suele tener una arquitectura cliente
servidor, es decir la informacin se encuentra en un servidor con
accesos restringidos y las consultas se hacen por medio de otra
aplicacin independiente.
Las herramientas de minera de datos ayudan a explotar los datos con
los que se cuenta, para encontrar patrones, crear predicciones,
etctera. La informacin obtenida a travs de la minera de datos
ayuda a los usuarios a elegir cursos de accin y a definir estrategias
competitivas, porque conocen informacin qu slo ellos emplean.
-
8/13/2019 Modelo Mono
18/129
10
Explorar, a menudo implica el descubrimiento de resultados
valiosos e inesperados.
Debido a la gran cantidad de datos, algunas veces resulta necesario
usar procesamiento en paralelo para la minera de datos.
La minera de datos es un proceso que invierte la dinmica del
mtodo cientfico, el cual consiste en formular una hiptesis y luego se
disea el experimento para confirmarla o refutarla; y en minera de datos
primero se disea y realiza el experimento y finalmente se obtiene el
nuevo conocimiento.
3.1.2.Limitaciones de minera de datos
Las limitaciones de la minera de datos son los primeros datos o
datos puros, y no tanto la tecnologa o herramientas para el anlisis, es
decir depende mucho de la limpieza de los datos y de la definicin de
las variables, si los datos no estn correctos el modelo creado no
servir. Del mismo modo la validez de los patrones descubiertos
depende de cmo se apliquen al mundo real o a las circunstancias.
-
8/13/2019 Modelo Mono
19/129
11
3.1.3.Diferencias entre minera de datos y estadstica
La minera de datos como enfoque para el anlisis y descubrimiento
de la informacin o conocimiento a realizar en grandes bases de datos
combina tcnicas como: Estadstica (anlisis factorial, discriminante,
regresivo, de correlaciones), redes neuronales, sistemas expertos o
basados en el conocimiento, sistemas de reglas de induccin, lgica
difusa, algoritmos genticos, algoritmos matemticos (teora de
fractales y del caos, simulacin).
El uso de metodologas estadsticas y de minera de datos a veces
suelen confundirse entre ellas.
La minera de datos se presenta como una disciplina nueva, ligada a
la Inteligencia Artificial y diferenciada de la Estadstica. Por otro lado,
en el mundo estadstico ms acadmico, la minera de datos ha sido
considerada en su inicio como una moda ms, conocida desde haca
tiempo bajo el nombre de data fishing. sta conlleva la promesa de
exploracin y el encuentro de relaciones subyacentes en los datos, por
tanto se dice que la esencia de la minera de datos se encuentra en la
posibilidad del descubrimiento de informacin insospechada, pero
-
8/13/2019 Modelo Mono
20/129
12
sumamente valiosa, esto significa que la minera de datos es
exploratoria y las reas de la estadstica son confirmatorias (confirmar
hiptesis).
Con la estadstica se hacen manipulaciones de datos de manera
directa; en minera de datos no es as, se necesita una serie de algoritmos
numricos. Otra diferencia entre estadstica y minera de datos es que a la
minera no le concierne la seleccin de la informacin y en la estadstica
es cuestin fundamental el cmo seleccionar la muestra de la mejor
manera, de tal forma que sea representativa de la poblacin, la minera de
datos supone que los datos ya han sido recolectados y se aboca al
descubrimiento de informacin o patrones.
En la tabla 1 se muestran las caractersticas de la estadstica y la
minera de forma comparativa para visualizar las diferencias entre
ambas.
-
8/13/2019 Modelo Mono
21/129
13
Tabla 1. Diferencia Minera de datos vs. Estadstica
Minera de Datos Estadstica Clsica
Trabaja sobre grandes bases dedatos.
Trabaja sobre muestras definidas.
Los datos vienen dados, no procedende una experimentacin previa, son
oportunistas.
En muchas ocasiones los datosproceden de estudios prediseados.
Hay multitud de valores noinformados e inconsistentes.
Los datos estn depurados y nopresentan anomalas.
Las variables siguen distribuciones noinvestigadas en la estadstica. Las variables siguen distribucionesestudiadas (normales, binomiales).Para predecir un evento se disponende cientos de variables explicativas.
El nmero de variables explicativas esmuy bajo, no es necesaria una
seleccin previa.El objetivo es disponer de un modelo
que describa y prediga bien y consentido de negocio.
El objetivo es obtener un modelo conalto rigor estadstico (usando
contrastes de hiptesis, distribucionesestadsticas, etctera.).
Las hiptesis son establecidasdespus de tabular los datos y son
pragmticamente analizadas.
Establece hiptesis para serempricamente contrastadas.
Fuente: Elaboracin propia basada en revisin documental.
En conclusin en la estadstica se desarrolla una hiptesis y, a
continuacin se usan los datos para probar o refutar la hiptesis. La
eficacia de este enfoque se ve limitado por la creatividad del usuario a
desarrollar diversas hiptesis, as como la estructura del software que
sea utilizado.
En contraste, la minera de datos utiliza un enfoque de
descubrimiento, en los algoritmos que son usados para examinar varias
relaciones en bases de datos multidimensionales de manera simultnea,
identificar a aquellos que se presentan con frecuencia.
-
8/13/2019 Modelo Mono
22/129
14
3.1.4.Minera de datos y KDD
La minera de datos revela patrones o asociaciones que son
desconocidos para el usuario, por sta razn, entra o se asocia con el
contexto de Knowledge Discovery in Database (KDD) o
descubrimiento de conocimientos en las bases de datos. ste trmino
es originado de la Inteligencia Artificial (Al).
Qu es conocimiento? Desde el punto de vista de las
organizaciones, se define el conocimiento como aquella informacin
que permite generar acciones asociadas a satisfacer las demandas del
mercado, y apoyar las nuevas oportunidades a travs de la explotacin
de las competencias centrales de la organizacin. El conocimiento es
una combinacin de valores, informacin contextualizada y
experiencias que proporcionan un marco para evaluar e incorporar
nuevas experiencias e informacin. En las organizaciones, el
conocimiento reside en documentos y bases de datos y tambin en los
procesos, prcticas y normas corporativas.
-
8/13/2019 Modelo Mono
23/129
15
Figura N 01. Etapas del descubrimiento de conocimientos.
Ntese que el proceso de minera de datos es solo una etapa del proceso de extraccindel conocimiento a partir de datos (KDD).
Fuente: Elaboracin propia basada en revisin documental.
La figura 1 muestra las etapas del descubrimiento de conocimientos.
Segn Perz y Santn (2007, p. 4-5), el proceso de descubrimiento de
conocimiento en bases de datos involucra varios pasos:
a. Seleccin de datos. Es la primera etapa para extraer conocimiento,
se define la fuente de datos a analizar y esto depende del objetivo
del estudio, se parte de una pregunta o hiptesis. Los atributos o
campos seleccionados son significativos para el conocimiento que
se desea obtener, en cuanto al nmero de registros, a veces es
suficiente realizar el anlisis sobre un subconjunto o muestra.
b. Pre-procesar la informacin. sta etapa tiene por objetivo preparar
los datos para que sean sometidos a la etapa siguiente del proceso.
Dentro de las tcnicas para realizar el preprocesamiento cabe
mencionar: limpieza de datos, a fin de remover ruido e
inconsistencias ya que estos datos nos llevan a un modelo errneo;
Informacin
Datos
Modelo
Conocimiento
Seleccin Preprocesado
Transformacin
de Informacin
Minera de
DatosEvaluacin
-
8/13/2019 Modelo Mono
24/129
16
integracin de datos, para generar un nico almacn de datos
coherente en aquellos casos donde los datos provienen de diferentes
fuentes; transformaciones de datos, para normalizarlos; y
reduccin de datos, a fin de reducir el tamao de los datos, por
ejemplo, eliminando caractersticas redundantes.
c. Transformacin de la informacin. sta es la que insume mayor
tiempo, aproximadamente el 60% del esfuerzo total; ya que es
necesario tener el conocimiento del negocio, as como el objetivo
del proyecto o hacia donde se quiere llegar.
d. Patrones. Antes de comenzar con sta etapa, se define el tipo de
conocimiento que se desea obtener, a partir de ste se elige la
tcnica y finalmente el algoritmo. La minera tiene diferentes
objetivos como predictivo (estimacin de valores futuros o
desconocidos de variables de inters a partir de otras variables
independientes) o descriptivo (identificacin de patrones en los
datos que los explican o resumen).
e. Conocimiento. Una vez que se tenga el modelo de minera de datos,
se da un informe de los resultados obtenidos por medio de
presentaciones, reportes, cuadros comparativos, graficas, etctera.
Para evaluar si los resultados son los esperados.
-
8/13/2019 Modelo Mono
25/129
17
3.1.5.Metodologas de minera de datos
Dentro de las principales metodologas utilizadas por los analistas
en los proyectos de minera de datos se tiene:
A. Metodologa SEMMA
Segn Matignon (2005), SAS Institute desarrollador de sta
metodologa, la define como el proceso de seleccin, exploracin y
modelado de grandes cantidades de datos para descubrir patrones de
negocio desconocidos (p. 233). El nombre de sta metodologa
corresponde a sus letras inciales en ingls: Sample (Muestreo),
Explore (Exploracin), Modify (Manipulacin), Model (Modelado)
y Asses (Valoracin).
Figura N 02. Fases de la metodologa SEMMA.Fuente: Elaboracin propia basada en revisin documental.
Como se observa en la figura 2 el proceso se inicia con la
extraccin de la poblacin muestral sobre la que se va a aplicar el
Muestreo
(SAMPLE)
Exploracin
(EXPLORE)
Manipulacin
(MODIFY)
Modelado
(MODEL)
Valoracin
(ASSES)
-
8/13/2019 Modelo Mono
26/129
18
anlisis. El objetivo de sta fase consiste en seleccionar una muestra
representativa del problema en estudio.
La metodologa establece que para cada muestra considerada para
el anlisis del proceso asocia el nivel de confianza de la muestra. Una
vez determinada una muestra o conjunto de muestras representativas
de la poblacin en estudio, la metodologa indica que se procede a una
exploracin de la informacin disponible con el fin de simplificar el
problema y optimizar la eficiencia del modelo. Para lograr este
objetivo se propone la utilizacin de herramientas de visualizacin
de tcnicas estadsticas que ayuden a poner de manifiesto relaciones
entre variables.
La tercera fase de la metodologa consiste en la manipulacin
de los datos, con los resultados de la exploracin realizada, de
forma que se definan y tengan el formato adecuado de los datos que
sern introducidos en el modelo.
Una vez que se han definido las entradas del modelo, con el
formato adecuado para la aplicacin de la tcnica de modelado, se
procede al anlisis y modelado de los datos. El objetivo de sta fase
-
8/13/2019 Modelo Mono
27/129
19
consiste en establecer una relacin entre las variables explicativas y
las variables objetivo, que posibiliten inferir el valor de las mismas
con un nivel de confianza determinado.
Las tcnicas utilizadas para el modelado de los datos incluyen
mtodos estadsticos tradicionales (tales como anlisis
discriminante, mtodos de agrupamiento, y anlisis de regresin),
as como tcnicas basadas en datos tales como redes neuronales,
tcnicas adaptativas, lgica difusa, rboles de decisin, reglas de
asociacin y computacin evolutiva.
Finalmente, la ltima fase del proceso consiste en la valoracin
de los resultados mediante el anlisis de bondad del modelo o
modelos, contrastado con otros mtodos estadsticos o con nuevas
poblaciones mustrales. En la figura 3 se observa un esquema de la
dinmica general de la metodologa.
-
8/13/2019 Modelo Mono
28/129
20
Figura N 03. Metodologa SEMMA.
Fuente: Elaboracin propia basada en revisin documental.
En conclusin, la metodologa consiste en los siguientes pasos:
tomar los datos o una muestra en caso de que la cantidad de datos sea
muy grande, se exploran, modifican, modelan y se evalan en el
modelo o los modelos resultantes para elegir el ms adecuado.
B. Metodologa CRISP-DM
CRISP-DM es una organizacin europea creada por tres grandes
jugadores en proyectos de minera de datos que son SPSS, NCR y
-
8/13/2019 Modelo Mono
29/129
21
Daimler Chrysler. Lo que trata sta metodologa es desarrollar los
proyectos de minera de datos bajo un proceso estandarizado de
definicin y validacin de tal forma que se desarrollen proyectos
minimizando los costos que impliquen y con un alto impacto en el
negocio.
La metodologa CRISP-DM proporciona dos documentos
distintos como herramienta de ayuda en el desarrollo del proyecto
de minera de datos: el modelo de referencia y la gua del usuario.
El documento del modelo de referencia describe de forma
general las fases, tareas generales y salidas de un proyecto de
minera en general.
La gua del usuario proporciona informacin ms detallada
sobre la aplicacin prctica del modelo de referencia a proyectos de
minera de datos especficos, proporcionando consejos y listas de
comprobacin sobre las tareas correspondientes a cada fase.
Segn Gallardo (2000), la metodologa CRISP-DM estructura
el ciclo de vida de un proyecto de minera de datos en seis fases, que
-
8/13/2019 Modelo Mono
30/129
22
interactan entre ellas de forma iterativa durante el desarrollo del
proyecto (p. 4).
Figura N 04. Fases de metodologa CRISP-DM.
Fuente: Elaboracin propia basada en revisin documental.
En la figura 4, las flechas indican relaciones ms habituales entre
las fases, aunque podamos establecer relaciones entre cualquier fase.
El crculo exterior simboliza la naturaleza cclica del proceso de
modelado.
La primera fase anlisis del problema, incluye la comprensin
de los objetivos y requerimientos del proyecto desde una perspectiva
-
8/13/2019 Modelo Mono
31/129
23
empresarial, con el fin de convertirlos en objetivos tcnicos y en una
planificacin.
La segunda fase de anlisis de datos comprende la recoleccin
inicial de datos, en orden a que se establezca un primer contacto con
el problema, identificando la calidad de los datos y estableciendo las
relaciones ms evidentes que permitan establecer las primeras
hiptesis. Una vez realizado el anlisis de datos, la metodologa
establece que se proceda la preparacin de los datos, de tal forma que
sean tratados por las tcnicas de modelado. La preparacin de datos
incluye las tareas generales de seleccin de datos a los que se va a
aplicar la tcnica de modelado (variables y muestras), limpieza de los
datos, generacin de variables adicionales, integracin de diferentes
orgenes de datos y cambios de formato.
La fase de preparacin de los datos, se encuentra muy
relacionada con la fase de modelado. Independientemente de la
tcnica de modelado, los datos necesitan ser procesados en
diferentes formas. Por lo tanto las fases de preparacin y modelado
interactan de forma sistemtica.
-
8/13/2019 Modelo Mono
32/129
24
En la fase de modelado se seleccionan las tcnicas de modelado
ms apropiadas para el proyecto de minera de datos especfico.
En la fase de evaluacin se evala el modelo escogido, no desde
el punto de vista general, sino del cumplimiento de los objetivos del
negocio. Se revisa el proceso teniendo en cuenta los resultados
obtenidos, para repetir alguna fase en caso que se hayan cometido
errores. Si el modelo generado es vlido en funcin de los criterios
de xito establecidos en la primera fase y de la precisin del mismo,
se procede al despliegue de ste en caso se requiera.
La fase de explotacin es en la cual se muestra el resumen de
evaluacin de los resultados, las relaciones y patrones encontrados
para que stos sean utilizados en la traza de estrategias y toma de
decisiones.
C. Comparacin de Metodologas
Las metodologas SEMMA y CRISP-DM comparten la misma
esencia, estructurando el proyecto de minera de datos en fases que
-
8/13/2019 Modelo Mono
33/129
25
se encuentran interrelacionadas entre s, convirtiendo el proceso en
iterativo e interactivo.
La metodologa SEMMA se centra ms en las caractersticas
tcnicas del desarrollo del proceso, mientras que la metodologa
CRISP-DM, mantiene una perspectiva ms amplia respecto a los
objetivos empresariales del proyecto. sta diferencia se establece ya
desde la primera fase del proyecto de minera de datos donde la
metodologa SEMMA comienza realizando un muestreo de datos,
mientras que la metodologa CRISP-DM comienza realizando un
anlisis del problema empresarial para su transformacin en un
problema. Entonces la metodologa CRISP-DM est ms cercana al
concepto real de proyecto, integrada con una Metodologa de
Gestin de Proyectos especfica que completara las tareas
administrativas y tcnicas.
Otra diferencia significativa entre la metodologa SEMMA y la
metodologa CRISP-DM radica en su relacin con herramientas
comerciales. La metodologa SEMMA slo es abierta en sus
aspectos generales ya que est muy ligada a los productos SAS
donde se encuentra implementada. Por su parte la metodologa
-
8/13/2019 Modelo Mono
34/129
-
8/13/2019 Modelo Mono
35/129
27
3.1.6.Aplicaciones de la minera de datos
La minera de datos se utiliza para varios pronsticos tanto en el
sector pblico como privado, industrias como la banca, los seguros, la
medicina, para la reduccin de costos, mejorar la investigacin, y
aumentar las ventas (Ordoez, 2008, p. 11-15).
Por ejemplo, las industrias de seguros y banca, usan aplicaciones de
minera de datos para detectar el fraude y ayuda a la evaluacin del
riesgo (credit scoring). Utilizando los datos de clientes recabados a lo
largo de varios aos, las empresas desarrollan modelos que predicen si
un cliente tienen alto riesgo crediticio (por ejemplo hoy en da se cuenta
con el bur de crdito), o si un crdito es fraudulento y tiene que ser
investigado ms a fondo.
As tambin, la comunidad mdica a veces utiliza a la minera de
datos para ayudar a predecir la eficacia de un procedimiento o
medicamento. Las empresas farmacuticas usan la minera de datos de
compuestos qumicos y material gentico para ayudar a guiar la
investigacin en nuevos tratamientos para las enfermedades.
-
8/13/2019 Modelo Mono
36/129
28
3.1.7.Tcnicas de la minera de datos
Segn Moreno, Quintales, Garcia y Polo (2001, p. 2),la minera de
datos ha dado lugar a una paulatina sustitucin del anlisis de datos por
un enfoque de anlisis de datos. La principal diferencia entre ambos se
encuentra en que en el ltimo se descubre informacin sin necesidad de
formular previamente una hiptesis. La aplicacin automatizada de
algoritmos de minera de datos permite detectar fcilmente patrones en
los datos, razn por la cual esta tcnica es mucho ms eficiente que el
anlisis dirigido a la verificacin cuando se intenta explorar datos
procedentes de repositorios de gran tamao y complejidad elevada.
Segn Gutierrez (2010, p. 1), las tareas de la minera de datos se
clasifican en:
a. Predictivas: Estimacin de valores futuros o desconocidos de
variables de inters (variables objetivo) a partir de otras variables
independientes (predictivas). El objetivo de las tareas predictivas es
generar modelos que me permitan realizar predicciones para nuevos
ejemplos de datos. Por ejemplo el anlisis de ventas cruzadas, que
descubre qu objetos tienden a ser comprados juntos para crear
-
8/13/2019 Modelo Mono
37/129
-
8/13/2019 Modelo Mono
38/129
-
8/13/2019 Modelo Mono
39/129
-
8/13/2019 Modelo Mono
40/129
32
datos bien para anlisis muy en particular, por ejemplo, para el
descubrimiento de fraudes.
B. Agrupamiento (Clustering)
El anlisis de grupos (cluster) consiste en la divisin de los
datos en grupos de objetos similares. Cuando se representan la
informacin obtenida a travs de clusters se pierden algunos detalles
de los datos, pero a la vez se simplifica dicha informacin.
El agrupamiento de acuerdo a la similitud es una tcnica muy
poderosa, la clave para esto es trasladar alguna medida intuitiva de
similitud dentro de una medida cuantitativa.
El objetivo es agrupar elementos en grupos de manera que los
elementos dentro de un mismo grupo sean lo ms parecidos,
mientras que elementos de distintos grupos sean lo ms diferentes
(Vega, 2012, p. 2).
-
8/13/2019 Modelo Mono
41/129
33
La obtencin de dichos grupos depende del criterio o distancia
considerados. Por ejemplo, una baraja de cartas espaolas se podra
dividir de distintos modos:
En cuatro grupos (los cuatro palos).
En ocho grupos (los cuatro palos y segn sean figuras o
nmeros).
En dos grupos (figuras y nmeros).
El agrupamiento presenta las siguientes etapas del anlisis:
Eleccin de las variables: Los tipos de variables dependern del
planteamiento del problema, stas son: variables cualitativas,
ordinales (grado de estudio), nominales (grupo), variables
cuantitativas, variables discretas (nmero de alumnos), variables
continuas (estaturas).
Eleccin de la medida de asociacin o similitud: En realidad,
es bastante subjetivo el hecho de elegir una medida de similitud
ya que depende de las escalas de medida. Las observaciones se
agrupan segn la similitud expresada en trminos de una
distancia.
-
8/13/2019 Modelo Mono
42/129
-
8/13/2019 Modelo Mono
43/129
35
obtiene mediante la ecuacin 3 (Rodriguez, lvarez, &
Bravo, 2001, p. 47):
)()()(),( 1 yxDCovyxyxsMahalanobi (3)
Visualmente las distancias se observan en la figura 6.
Figura N 06. Comparacin de clculo de distancias.
Ntese que las lneas roja, azul y amarilla tienen la misma longitud(12 espacios). En la geometra Euclidiana, la lnea verde es el
nico camino ms corto.Fuente: Elaboracin propia basada en revisin documental.
Eleccin de las tcnicas de grupos: Existen diferentes tcnicas
de grupo, la seleccin depender del resultado que se espera.
Validacin de los resultados: Evaluar que tan bueno es el
ajuste, es decir si el nmero de agrupaciones es el adecuado as
como la contribucin de las variables al agrupamiento.
Distancia Mahalanobis
-
8/13/2019 Modelo Mono
44/129
-
8/13/2019 Modelo Mono
45/129
-
8/13/2019 Modelo Mono
46/129
-
8/13/2019 Modelo Mono
47/129
39
cambio, si su antigedad es igual o mayor a 18 meses entonces el
cliente es aceptado.
Segn Bravo & Ruilova (2008, p. 2), se tienen los siguientes
conceptos de la metodologa:
o Entropa: Es la medida de la incertidumbre que hay en un
sistema. Es decir, ante una determinada situacin, la
probabilidad de que ocurra cada uno de los posibles
resultados.
o Ganancia de informacin: Es la diferencia entre la entropa de
un nodo y la de uno de sus descendientes. Los atributos de
prueba son seleccionados en base a una heurstica o medida
estadstica.
Segn Bravo y Ruilova (2008, p. 1), entre los algoritmos o
tcnicas ms usuales se encuentra:
o CART. Se basa en el lema "divide y vencers", son mtodos que
construyen rboles binarios basados en el criterio de particin GINI
-
8/13/2019 Modelo Mono
48/129
40
y que sirven para clasificacin como para regresin. La poda se
basa en una estimacin de la complejidad del error.
El proceso general es:
Paso 1. El nodo raz es dividido en subgrupos (dos o ms)
determinados por la particin de una variable predictora
elegida, generando nodos hijos.
Paso 2. Los nodos hijos son divididos usando la particin de una
nueva variable. El proceso recursivo se repite para los nuevos
nodos hijos sucesivamente hasta que se cumpla alguna condicin
de parada.
Paso 3. Algunos de los nodos resultantes son terminales,
mientras que otros nodos continan dividindose hasta llegar a
un nodo terminal.
Paso 4. En cada rbol se cumple la propiedad de tener un
camino nico entre el nodo raz y cada uno de los dems nodos
del rbol.
o ID3. Propuesto por Quinlan en 1986, el ID3 es considerado el
rbol de decisin ms simple, realiza divisiones sobre los
-
8/13/2019 Modelo Mono
49/129
-
8/13/2019 Modelo Mono
50/129
42
Tabla 3. Informacin de climas para ejemplo.
Caso Clima_general Temperatura Humedad Viento Tipo_clase
1 Soleado Caliente Alta No N
2 Soleado Caliente Alta Si N
3 Nublado Caliente Alta No P
4 Lluvioso Templada Alta No P
5 Lluvioso Fra Normal No P
6 Lluvioso Fra Normal Si N
7 Nublado Fra Normal Si P
8 Soleado Templada Alta No N
9 Soleado Fra Normal No P
10 Lluvioso Templada Normal No P11 Soleado Templada Normal Si P
12 Nublado Templada Alta Si P
13 Nublado Caliente Normal No P
14 Lluvioso Templada Alta Si N
Fuente: Elaboracin propia.
Analizando la informacin se ve que se tiene 9 con clase P y 5
con clase N.
Paso 1. Se calcula la informacin requerida para la clasificacin
general con la ecuacin 4:
-
8/13/2019 Modelo Mono
51/129
-
8/13/2019 Modelo Mono
52/129
-
8/13/2019 Modelo Mono
53/129
45
Caliente p1= 2, n1= 2
I (p1, n1)= (2/4) * log2 (2/4) (2/4) * log2 (2/4) =1
Templada p2= 4 p1 = 4, n2= 2
I (p2, n2)= (4/6) * log2 (4/6) (2/6) * log2 (2/6) = 0,918
Fra p3= 3, n3=1
I (p3, n3) = (3/4) * log2 (3/4) (1/4) * log2 (1/4) = 0,811
Se calcula ahora la entropa del atributo temperatura.
E (Temperatura)= [4*I(p1, n1)+6*(p2,n2)+4*l(p3,n3)]/14
E (Temperatura)= [4 * (1)+ 6 * (0,918)+ 4 * (0,811)]/ 14 = 0,911
Paso 6. Se calcula la ganancia.
Ganancia (Temperatura) = 0,940E (Temperatura) = 0,029
Ganancia (Temperatura) = 0,940 -0,911=0,029
Paso 7. Ahora se contina con el atributo de humedad:
-
8/13/2019 Modelo Mono
54/129
46
Alta p1 = 3 , n1 = 4
I (p1, n1) = (3/7) * log2 (3/7) (4/7) * log2 (4/7) = 0,985
Normal p2= 6, n2=1
I (p2, n2) = (6/7) * log2 (6 /7) (1/7) * log2 (1/7) = 0,591
Paso 8. Se calcula su entropa.
E (Humedad)= [7*I(p1, n1) + 7*I(p2,n2)] /14
E (Humedad)= [7 * (0,985) + 7 * (0,591)] / 14 = 0,788
Paso 9. Y finalmente su ganancia.
Ganancia (Humedad) = 0,940E (Humedad) = 0,151
Ganancia (Humedad)= 0,940-0,788=0,151
Paso 10. Se hacen los clculos correspondientes para viento.
Si p 1 = 3 , n1 = 3
I (p1, n1) = (3/6) * log2 (3/6) (3/6) * log2 (3/6) = 0,1
No p2= 6, n2= 2
I (p2, n2) = (6/8) * log2(6/8) (2/8) * log2 (2/8) = 0,811
-
8/13/2019 Modelo Mono
55/129
-
8/13/2019 Modelo Mono
56/129
48
Paso 13. Este proceso se hace para cada nodo del rbol.
Obteniendo un rbol final, como se observa en la figura 9:
Figura N 09. rbol final.
Fuente: Elaboracin propia basada en revisin documental
o C4.5. Algoritmo que es la evolucin del ID3, presentado por
Quinlan en 1993. Usa como criterio de separacin el radio de
ganancia (gain ratio) o proporcin de ganancia. De esta manera se
consigue evitar que las variables con mayor nmero de posibles
valores salgan beneficiadas en la decisin. Permite trabajar con
valores continuos para los atributos, separando los posibles
resultados en dos ramas en funcin de un umbral. Los arboles son
menos frondosos porque cada hoja no cubre una clase en particular
sino una distribucin de clases (Piedra, 2005, p. 276).
-
8/13/2019 Modelo Mono
57/129
-
8/13/2019 Modelo Mono
58/129
50
El teorema de Bayes se presenta en la ecuacin 7 (Luceo &
Gonzalez, 2004, p. 62):
Entonces una red bayesiana es un grafo a cclico dirigido (GAD)
tal que los nodos representan las variables del problema X =
{X1,X2,..,Xn} y los arcos representan las dependencias
probabilsticas, esto se representa en la ecuacin 8.
P = {p(X1|pa(X1)),...p(Xn|pa(Xn))} (8)
Es un conjunto de n distribuciones de probabilidad
condicionada, una para cada variable, siendo pa(Xi) el conjunto de
padres del nodo en el grafo D. Donde adems el clculo de la
probabilidad conjunta del problema se obtiene mediante el producto
de los elementos representado en la ecuacin 9, tal que:
))(()(1
i
n
I
i XpaxpxP
(9)
P* ( Y) = P( Y | X) =(P(X|Y)P(Y) (7)
P(X)
-
8/13/2019 Modelo Mono
59/129
51
Con las redes bayesianas se hacen predicciones para problemas
multiclase, en los cuales hay varios resultados posibles. Por
ejemplo, se construye un modelo para averiguar si un cliente en una
organizacin o empresa ser fiel o cambiar de proveedores.
Como ejemplo de una red bayesiana se tiene que: A la salida de
un congreso de 50 personas de 3 universidades distintas (23,18, 9)
nos encontramos un profesor entonces se desea:
a. Probabilidad de que sea de la tercera universidad?
b. Y si es de Economa Cul sera?
Se cuenta con la siguiente informacin:
Congreso con 50 personas de 3 universidades (23,18, 9)
1a. 30% Ciencias, 40% de Ingenieras, 25% humanidades y
5% Economa.
2a.25% Ciencias, 35% Ingenieras, 30% Humanidades y
10% Economa.
3a. 20% Ciencias, 50% Ingenieras, 10% Humanidades y
20% Economa.
-
8/13/2019 Modelo Mono
60/129
52
Solucin:
c. Se calcula la prioridad a priori: P(x) =9/50 = 0,18 = 18%.
d. Se disea en la tabla 4: (x = universidad |y = especialidad)
Tabla 4. Tabla de probabilidades del ejemplo.
P(y|x) x^1 x^2 x^3
y^c 0,3 0,25 0,2
Y^i 0,4 0,35 0,5
Y^h 0,25 0,3 0,1
Y^e 0,05 0,1 0,2
Fuente: Elaboracin propia.
Aplicando Bayes, ecuacin 3, se tiene:
x
e
e
e
xyPxP
xyPxPyxPxP
)(*)(
)(*)()()(
3
33
33
(0,18*0,20)/(0,46*0,05+0,36*0,10+0,18*0,20) = 0,0379 = 37,9%
E. Redes neuronales
Una red neuronal es un sistema de procesadores paralelos
conectados entre s en forma de grafo dirigido. Esquemticamente
cada elemento de procesamiento (neuronas) de la red se representa
como un nodo. Estas conexiones establecen una estructura
-
8/13/2019 Modelo Mono
61/129
53
jerrquica que tratando de emular la fisiologa del cerebro busca
nuevos modelos de procesamiento para solucionar problemas
concretos del mundo real (Flrez & Frnandez, 2008, p. 17).
Lo importante en el desarrollo de la tcnica de las RNA o red
neuronal artificial es su til comportamiento al aprender, reconocer
y aplicar relaciones entre objetos y tramas de objetos propios del
mundo real.
Las entradas se representan por el vector de entrada x, y el
rendimiento mediante el vector de pesos w, entonces el valor de
salida es dado por aplicando la ecuacin 10:
y = f ( i w i x i ) = f ( w , x ) = f ( w T x ) ( 1 0 )
Donde f es la funcin de activacin. Cuando se tiene una red de
neuronas, las salidas de unas se conectan con las entradas de otras.
Si el peso entre dos neuronas es positivo, el efecto producido es de
excitacin y si fuera negativo entonces es de inhibicin.
-
8/13/2019 Modelo Mono
62/129
54
El potencial de las redes neuronales proviene de la capacidad por
proporcionar el empleo de muchas de stas unidades simples y
robustas al actuar en paralelo.
Segn Sanchz (2009, p. 285), las redes neuronales tienen dos
fases principales de operacin: aprendizaje o entrenamiento,
recuerdo o ejecucin o prueba.
Durante el entrenamiento se aplican "ejemplos", generalmente
un conjunto de datos conocidos que definen una solucin conocida,
que mediante una regla de aprendizaje modifican los diferentes
pesos de cada neurona en funcin de cmo difiera la respuesta de la
red de la solucin esperada. Los valores de estos pesos representan
el grado de conocimiento. El entrenamiento concluye cuando el
margen de error entre la salida de la red y la salida real es aceptable.
Despus, en la fase de ejecucin, se aplican nuevos datos con
solucin desconocida y se espera que la red est preparada para dar
una solucin verdadera con lo aprendido durante el entrenamiento.
Generalmente en esta fase cesa el aprendizaje, por lo que no se
modifican los pesos.
-
8/13/2019 Modelo Mono
63/129
-
8/13/2019 Modelo Mono
64/129
-
8/13/2019 Modelo Mono
65/129
-
8/13/2019 Modelo Mono
66/129
58
pronstico, se le asigna el mayor peso, y este peso disminuye en los
valores de datos ms antiguos.
o Suavizamiento exponencial: El suavizamiento exponencial
emplea un promedio ponderado de la serie de tiempo pasada como
pronstico; es un caso especial del mtodo de promedios mviles
ponderados en el cual slo se selecciona un peso o factor de
ponderacin: el de la observacin ms reciente.
o Mtodos de pronstico ARIMA (Au toregressive I ntegrated
Moving Average): usan patrones de datos, sin embargo a veces
no son tan fcilmente visibles en la serie de tiempo. El modelo
usa funciones de diferencias, auto correlacin y auto correlacin
parcial para ayudar a identificar un modelo aceptable. El Modelo
ARIMA se utiliza para modelar series de tiempo con o sin
componentes de tendencia o estacionalidad y proporcionar
pronsticos. El perfil de pronstico depende del modelo de
ajuste. Tiene la ventaja de ser ms flexible que los mtodos de
suavizamiento para el ajuste de los datos, sin embargo la
identificacin del modelo adecuado consume tiempo y no es tan
fcil automatizado.
-
8/13/2019 Modelo Mono
67/129
-
8/13/2019 Modelo Mono
68/129
60
bases de datos. Cuenta con una variedad de herramientas de anlisis,
herramientas de bodegas de datos y algoritmos mltiples de minera
de datos (Sarma, 2007, p. 1-2).
o DataEngine: Es una herramienta para el anlisis inteligente de
datos, es un producto de la empresa alemana MIT (Managment
Intelligenter Technologien GmbH), algunos de sus clientes son
BMW, Mercedes Benz o Deutsche Telecom. DataEngine funciona
mediante el uso de redes neuronales, lgica difusa y mtodos
estadsticos proporcionando las tcnicas ms avanzadas para el
anlisis de datos.
o Oracle Datamining:Es una herramienta de Oracle. Se accede a toda
la funcionalidad minera de datos a travs de la API Java que
incluye la base de datos, de manera que las aplicaciones puedan
sacar el mximo partido de las funciones disponibles. Al estar
integrado en la base de datos, Oracle Data Minig simplifica el
proceso de extraccin de conclusiones basadas en grandes
cantidades de datos, ya que se elimina la necesidad de movimientos
de datos para el proceso de anlisis. Pero es una desventaja cuando
se trabaja con otras bases como DB2, SQL Server.
Existen varias aplicaciones de uso libre, siendo las ms usadas:
-
8/13/2019 Modelo Mono
69/129
-
8/13/2019 Modelo Mono
70/129
62
En la tabla 5 se muestra la lista del software comercial de ms uso
con sus tecnicismos usuales para minera de datos.
Tabla 5. Software de minera y sus tcnicas.
Algoritmos/
Software
rboles
deDecisin EstadsticaBayes
Reglas deInduccin
Series
de
Tiempo
Descubrim.
secuencial
K Means
(K-medias) Reglas deAsociacinMapa de
Kohonen
Clementine X x x x x x
Enterprise
MinerX x x x x x
Intelligent X x x x x x
Fuente: Elaboracin propia basada en revisin documental.
3.2.Caso prctico
3.2.1.Descripcin del problema
A. Antecedentes
Tomar mejores decisiones de negocios rpidamente es la llave
para el xito en el mercado competitivo que se vive actualmente.
Comprendiendo esto, las empresas estn buscando mejorar sus
sistemas de toma de decisiones ya que pueden ser rebasados por el
-
8/13/2019 Modelo Mono
71/129
63
volumen y la complejidad de los datos disponibles provenientes de
sus sistemas de produccin y transaccionales. El permitir que todos
estos datos estn disponibles para toda la audiencia a lo largo de la
empresa es hoy por hoy uno de los retos ms significativos para los
profesionales involucrados en las tecnologas de informacin.
A lo largo del tiempo en el desarrollo de sistemas, se ha tratado
de dar solucin a esa necesidad intrnseca de la Alta Gerencia de
poseer la informacin de manera resumida o digerida, que le permita
en un vistazo corto y rpido, darse cuenta de todo lo que pasa en los
sistemas transaccionales de los niveles bajos de la empresa, sin
embargo, esto ya no es suficiente, ya que actualmente se requiere
conocer lo que sucede en todos y cada uno de los procesos tanto
crticos como triviales que se dan lugar en una empresa, ya que es el
conocimiento de stos lo que da una visin clara de lo que ocurre en
ella. Buscando la administracin de se conocimiento tan importante
en nuestros das, surge una de las opciones que se han
implementado para cubrir sta necesidad de las empresas, que es lo
que se conoce desde hace tiempo como Data Warehouse (DWH), el
cual, es el proceso de extraer datos de diferentes sistemas,
funciones, y lugares de la empresa, agregando, filtrando,
-
8/13/2019 Modelo Mono
72/129
64
resumiendo, estandarizando, transformando y clarificando los datos
extrados e integrarlos despus en una base consolidada.
Cada vez ms investigaciones dentro de la inteligencia artificial
estn enfocadas a la induccin de conocimiento en bases de datos.
Consecuencia de esta creciente necesidad ha aparecido un nuevo
campo de inters: la minera de datos (data mining), que incluye
nuevos mtodos matemticos, herramientas y tcnicas para el
anlisis inteligente de datos.
Con esto, cada vez podemos aprovechar ms la tecnologa
disponible para conocer mejor a los clientes a fin de discriminar los
buenos de los malos prospectos al otorgar un crdito. Una de las
necesidades ms importantes de las entidades financieras es contar
con criterios confiables para determinar a quin y de que monto
debe otorgarse un crdito; de ah la razn por la que es importante
tener un instrumento con el cual medir el riesgo que se corre al
otorgar un crdito y poder reducir lo ms posible este riesgo al
aceptar nuevos clientes.
-
8/13/2019 Modelo Mono
73/129
65
B. Formulacin del problema
La Caja Arequipa, es una Entidad Financiera, creada con el
objetivo estratgico de constituirse en un elemento fundamental de
descentralizacin financiera y democratizacin del crdito, su
cobertura no slo es a las micro empresas urbanas sino tambin
rurales, otorgando as crditos a ms de 10000 clientes en menos de
4 aos.
En la actualidad se encuentra inaugurando nuevas agencias en
diversas ciudades del Per, y si bien es cierto que se ha dado curso
de capacitacin intensiva a los nuevos ejecutivos de crditos, stos
no cuentan con la experiencia en el campo requerida por lo que
surge el temor de que se otorguen crditos de forma desmedida a
clientes con un perfil de riesgo muy alto.
Es por eso que se plantea la siguiente pregunta Cmo se puede
ayudar a los nuevos ejecutivos de crditos para minimizar el
otorgamiento de crditos a clientes con riesgo crediticio?
-
8/13/2019 Modelo Mono
74/129
66
Con el desarrollo de este proyecto se quiere evitar el riesgo
crediticio que es la posibilidad de que la entidad incurra en prdidas
y se disminuya el valor de sus activos, como consecuencia de que
sus deudores o contraparte fallen en el cumplimiento oportuno o
cumplan imperfectamente los trminos acordados en los contratos
de crdito
3.2.2.Justificacin
Algo peor que no tener informacin disponible, es tener mucha
informacin y no saber qu hacer con ella. La aplicacin de Data
mining es la solucin a ese problema, pues por medio de dicha
informacin podemos generar escenarios, pronsticos y reportes que
apoyen a la toma de decisiones de la Alta Gerencia, como ventaja
competitiva de una empresa.
La clave para Data mining es la informacin y uno de sus mayores
beneficios es la posibilidad de utilizarla en la toma de decisiones en las
distintas reas de la empresa, tales como, crditos, marketing, etc.
-
8/13/2019 Modelo Mono
75/129
-
8/13/2019 Modelo Mono
76/129
-
8/13/2019 Modelo Mono
77/129
-
8/13/2019 Modelo Mono
78/129
70
tanto solo habr restricciones de registros que no sean necesarios
para generar el anlisis, y se descartarn para una mejor compresin
de la informacin.
Es por eso que se desea aprovechar los datos almacenados en
cuatro aos para poder definir reglas de clasificacin y poder
predecir el riesgo que un potencial cliente puede tener.
E. Riesgos
El Riesgo siempre se encuentra presente en un proyecto, si bien
se ha tratado de eliminar a travs de un proceso de limpieza y
estandarizacin de la informacin, el principal riesgo para este
proyecto es que no se encuentren los resultados esperados al generar
un modelo de datos muy lejano de la realidad o incomprensible para
la mayora de colaboradores de la empresa y que por lo tanto no se
pueda lograr una buena interpretacin de los datos para la mejor
toma de decisiones.
-
8/13/2019 Modelo Mono
79/129
-
8/13/2019 Modelo Mono
80/129
72
Tabla 6. Objetivos Especficos vs. Criterios de xito
Objetivos Especficos Criterio de xito
Minimizar los porcentajes de
morosidad en los crditos que se
otorguen a clientes en las zonas
donde se inauguren nuevas agencias
Etiquetar a los clientes como
buenos o malos, permitir a los
ejecutivos evaluar con mayor
precisin la capacidad de pago
para el crdito solicitado.Ayudar a resaltar aquellas debilidades
u obstculos que ser necesario
corregir y vencer para alcanzar los
objetivos estratgicos, en el tiempo
propuesto y con los recursos
disponibles
Los resultados de calificacin de
clientes obtenidos, permitir a los
ejecutivos de crditos lograr
cumplir sus metas de
colocaciones.
Mantener un proceso continuo de
calificacin y recalificacin de las
operaciones crediticias.
La retroalimentacin para el
proceso de recalificacin ser en
base a como un clienteetiquetado a travs del tiempo en
el sistema financiero.
Clasificar a una persona que solicita
un crdito en cliente moroso o cliente
pagador.
El 100% de las personas
solicitantes de un crdito sean
etiquetadas como cliente moroso
o como cliente pagador despus
de la aplicacin del rbol de
decisin.
Generacin de un rbol de decisin
basado en un algoritmo clasificatorio.
Obtener un modelo predictivo con
una certeza mayor o igual al 70%.
Fuente: Elaboracin propia.
-
8/13/2019 Modelo Mono
81/129
73
B. Plan de Proyecto
En la tabla 7 se procede a detallar las actividades que se
desarrollaron como parte del presente proyecto.
Tabla 7. Actividades Plan de Proyecto
N Actividades Recursos
Entrada Producto Dependencia
1 Reunin con elGerente de TI y eladministrador dela BD.
- - -Objetivos delproyecto
-
2 Definicin de
requerimientos,restricciones yriesgos.
-Evaluacin de
la situacin
1
3 Definicin de losobjetivos DataMining concriterios de xito.
Objetivos delproyecto
-Listado deObjetivos y susrespectivoscriterios de xito
2
4 Reunin con eladministrador dela BD y el jefe decrditos.
Listado deObjetivos deData Mining
-Base de datosde los crditosotorgados
3
5 Estudio junto conel jefe de crditosde los atributos atomar en cuentaen un primermomento para lageneracin delmodelo.
-BD
-PC
-Excel
Base de datosde los crditosotorgados
-Atributos parala generacindel archivo arff
4
Fuente: Elaboracin propia.
-
8/13/2019 Modelo Mono
82/129
74
Tabla 7. Actividades Plan de Proyecto (Continuacin)
N Actividades Recursos Entrada Producto Dependencia
6 Preparacin de losdatos para lageneracin delarchivo arff.
-BD
-PC
-Excel
-Notepad++
-WEKA
-Atributosseleccionados
-Archivo .arff 5
7 Reunin paradeterminar quealgoritmos utilizar.
-PC
-archivoarff
-Atributosseleccionados
-Algoritmos parala generacindel rbol dedecisin
6
8 Reunin con jefede crditos paradeterminaratributos a utilizarpara la generacin
del modelo dedatos
-PC
-Excel
-Archivo .arff
-Algoritmos parageneracin derbol de
decisin
-Atributos msrelevantes
7
9 Generacin delrbol de decisin.
-PC
-Archivoarff
-Weka
-Algoritmosseleccionados
-Atributos
- rbol dedecisin.
-Evaluacinestadstica delmodelorealizada porWEKA
8
10 Estudio yvalidacin de la
evaluacinestadstica delmodelo realizadapor WEKA.
-PC
-Archivoarff
-Weka
- rbol dedecisin
-Evaluacinestadstica delmodelo segnWEKA
-Modelo dedatos validado
9
Fuente: Elaboracin propia.
-
8/13/2019 Modelo Mono
83/129
75
3.2.7.Entendimiento de los datos
A. Conocimiento
Para poder ayudar al nuevo personal de la institucin financiera,
se desea extraer el conocimiento a partir de los datos almacenados
en varias bases de datos, en s el conocimiento es el poder predecir
si una persona que solicita un crdito podr devolverlo o no.
B. Tarea
La tarea a realizar es la clasificacin de los clientes, es una
tarea de tipo predictiva ya que lo que se quiere es clasificar a un
cliente como un cliente de riesgo o un cliente buen pagador al que se
le puede otorgar crditos con seguridad de ser recuperados.
C. Tcnica
Para poder predecir si un cliente puede o no cancelar un crdito,
se debe generar un conjunto de reglas predictivas en forma de
rboles de decisin, se eligi esta tcnica porque lo que se quiere es
que el personal de la institucin y no solamente el departamento de
sistemas pueda comprender un modelo de datos sencillo.
-
8/13/2019 Modelo Mono
84/129
76
D. Algoritmo
Considerando la herramienta WEKA disponible y segn los
datos almacenados, hemos utilizado los algoritmos clasificadores
J48yREPtree, ya que estos utilizan un solo atributo de tipo discreto
que sirve para la prediccin que se le denomina variable objetivo.
E. Recoleccin Inicial de los Datos
Se obtuvieron un total de 15000 registros de los diferentes
crditos otorgados en los aos 2005, 2006, 2007 y 2008, en los
datos se les aplic el siguiente formato:
Para las fechas se aplic el formato: AAAA-mm-dd.
Para los valores numricos, se aplic el formato 9999,99 sin
utilizar comillas.
Para los valores de tipo string o discretos se revis que no
tuvieran espacios y si algn valor tena 2 o ms palabras se
unieron con un subguin, esto para simplificar el archivo arff ya
que si un valor es compuesto debe ir entre comillas.
-
8/13/2019 Modelo Mono
85/129
77
En la tabla 8 se describe los principales atributos utilizados de la
data de Clientes.
Tabla 8. Tabla de Atributos de Clientes.
Atributo Descripcin
CUENTA Nmero de pagar
CODIGO_CLIENTECdigo del cliente a quien se le otorg
el crdito
INGRESO_MENSUAL Ingreso bruto mensual del cliente
ACTIVIDAD_ECONOMICAActividad econmica en la que se
desempea el cliente
TIPO_CREDITOTipo de crdito otorgado (normal,
recurrente, paralelo, plus)
DESCRIPCION_CREDITOSi es agrcola, pyme, para consumo,
comercial, hipotecario.
ANALISTA Analista que otorg el crdito
FECHA_APROBACION Fecha de aprobacin del crdito
TASA_INTERES Tasa de inters mensual pactada
CAPITAL_PAGADO Capital cancelado por el cliente
CAPITALMonto total prestado al cliente (no
incluye intereses)
TOTAL_CANCELADO
Indica si se cancel el ntegro del
crdito (SI/NO)
La descripcin que corresponde a los atributos de esta tabla fue extrada desu diccionario de datos.Fuente: Base de Datos Caja Arequipa; Elaboracin propia.
Se elimin un 13% aproximadamente del total de los registros
obtenidos ya que tenan datos errneos o valores nulos.
-
8/13/2019 Modelo Mono
86/129
78
F. Criterios de Seleccin
Teniendo ya definido qu algoritmos se van a utilizar para la
generacin del modelo predictivo, se requiri la ayuda del jefe de
crditos de la institucin junto con l se definieron los atributos ms
relevantes.
La herramienta WEKA permite modificar y escoger los atributos
que el usuario considere conveniente, se gener el archivo
crditos.arff, de los datos a ser utilizados para la generacin del
modelo, se consideraron los siguientes atributos:
Total_cancelado (variable objetivo): Variable de tipo discreto,
describe si el crdito fue cancelado o no en su totalidad, los
valores que puede tomar es {SI, NO}.
Ingreso_mensual: Variable de tipo real, describe el ingreso
promedio mensual del cliente.
Actividad_economica: Variable de tipo discreto, describe la
actividad econmica a la que se dedica el cliente que solicit el
crdito, puede tomar los valores:
{ADMINISTRACION_PUBLICA, AGRICULTURA_GANADERIA,
ARTESANIA, COMERCIO, CONSTRUCCION, ENSENIANZA,
-
8/13/2019 Modelo Mono
87/129
79
HOGARES_PRIV_CON_SERV,
HOSPEDAJE_Y_ALIMENTACION, INDUSTRIA,
INMOBILIARIAS_EMP, INTERMEDIACION_FINANCIERA,
MINERIA, PESQUERIA, SERV_OTROS, SERV_SOC_Y_SALUD,
TRANSPORTE}.
Tipo_credito: Variable de tipo discreto, describe el tipo de
crdito que solicit el cliente, puede tomar los valores: {normal,
paralelo, plus, recurrente}.
Tasa_interes: Variable de tipo real, describe el porcentaje de
inters otorgado a un crdito en un mes.
Capital: Variable de tipo real, describe el monto que se prest al
cliente.
3.2.8.Generacin de modelos
Utilizando la herramienta WEKA Explorer aplicamos la validacin
simple y no la validacin cruzada porque disponemos de 15000
registros los cuales hemos considerado como un conjunto grande de
ejemplos.
-
8/13/2019 Modelo Mono
88/129
-
8/13/2019 Modelo Mono
89/129
81
| | | | | | | | TIPO_CREDITO = recurrente| | | | | | | | | CAPITAL 1350: SI (42,0/18,0)| | | | | | | TASA_INTERES > 1,6: NO (8,0)| | | | | TASA_INTERES > 1,65| | | | | | TASA_INTERES 2,9| | | | | | | TIPO_CREDITO = normal: NO (16,0/7,0)| | | | | | | TIPO_CREDITO = paralelo| | | | | | | | CAPITAL 2250| | | | | | | | | CAPITAL 3700: SI (3,0)| | | | | | | TIPO_CREDITO = plus: SI (0,0)| | | | | | | TIPO_CREDITO = recurrente: NO (38,0/16,0)| | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION: SI (0,0)| | | | ACTIVIDAD_ECONOMICA = ENSENIANZA| | | | | TIPO_CREDITO = normal: SI (1,0)| | | | | TIPO_CREDITO = paralelo: NO (2,0)| | | | | TIPO_CREDITO = plus: NO (0,0)| | | | | TIPO_CREDITO = recurrente| | | | | | INGRESO_MENSUAL 2362,5: NO (2,0)| | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV: SI (0,0)| | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION| | | | | INGRESO_MENSUAL 2520| | | | | | CAPITAL 2400| | | | | | | TIPO_CREDITO = normal| | | | | | | | TASA_INTERES 2,5: SI (15,0/5,0)| | | | | | | TIPO_CREDITO = paralelo| | | | | | | | TASA_INTERES 3,1: NO (2,0)| | | | | | | TIPO_CREDITO = plus: SI (0,0)| | | | | | | TIPO_CREDITO = recurrente| | | | | | | | CAPITAL 3550: NO (14,0/2,0)| | | | ACTIVIDAD_ECONOMICA = INDUSTRIA| | | | | CAPITAL 1507,3| | | | | | TIPO_CREDITO = normal
-
8/13/2019 Modelo Mono
90/129
82
| | | | | | | TASA_INTERES 2,2| | | | | | | | TASA_INTERES 2,9: NO (2,0)| | | | | | TIPO_CREDITO = paralelo| | | | | | | TASA_INTERES 2,2: NO (8,0/2,0)| | | | | | TIPO_CREDITO = plus: NO (0,0)| | | | | | TIPO_CREDITO = recurrente: NO (34,0/13,0)| | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP: SI (117,0/40,0)| | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA: SI (0,0)| | | | ACTIVIDAD_ECONOMICA = MINERIA: SI (2,0/1,0)| | | | ACTIVIDAD_ECONOMICA = PESQUERIA| | | | | TIPO_CREDITO = normal| | | | | | INGRESO_MENSUAL 2362,5: SI (6,0/1,0)| | | | | TIPO_CREDITO = paralelo: NO (3,0)| | | | | TIPO_CREDITO = plus: NO (0,0)| | | | | TIPO_CREDITO = recurrente: NO (4,0/1,0)| | | | ACTIVIDAD_ECONOMICA = SERV_OTROS| | | | | TASA_INTERES 2| | | | | | TASA_INTERES 3,2| | | | | | | CAPITAL 3650: NO (22,0/7,0)| | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD| | | | | TASA_INTERES 3: NO (19,0/8,0)
| | | | ACTIVIDAD_ECONOMICA = TRANSPORTE: NO (36,0/9,0)| | | INGRESO_MENSUAL > 5040: SI (862,0/209,0)
-
8/13/2019 Modelo Mono
91/129
83
| | CAPITAL > 4858,94| | | CAPITAL
-
8/13/2019 Modelo Mono
92/129
-
8/13/2019 Modelo Mono
93/129
85
AGRICULTURA_GANADERIA: SI (1,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA: SI (1,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO| | | | | | | | | | | INGRESO_MENSUAL 7770: SI (37,0/11,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION: NO (0,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA: NO (0,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV:NO (0,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA =HOSPEDAJE_Y_ALIMENTACION| | | | | | | | | | | INGRESO_MENSUAL 8610: SI (4,0/1,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA: SI (6,0/1,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP: SI(4,0/1,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA =INTERMEDIACION_FINANCIERA: NO (0,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = MINERIA: NO (1,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA: NO (4,0/1,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS| | | | | | | | | | | TASA_INTERES 1,9| | | | | | | | | | | | TASA_INTERES 1,95: SI (82,0/34,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD: NO
(0,0)| | | | | | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE: NO (0,0)| | | | | | | | | INGRESO_MENSUAL > 16275: SI (46,0/2,0)| | | | | | | | CAPITAL > 15900: NO (161,0/45,0)| | | | | TASA_INTERES > 2,25| | | | | | TASA_INTERES 2,7| | | | | | | TASA_INTERES 3,2
-
8/13/2019 Modelo Mono
94/129
86
| | | | | | | | INGRESO_MENSUAL 12075| | | | | | | | | INGRESO_MENSUAL 20475: SI (12,0)| | | | INGRESO_MENSUAL > 21630| | | | | TASA_INTERES 1,8: SI (175,0/28,0)| | | CAPITAL > 20600| | | | TASA_INTERES 2,8| | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA: SI (0,0)| | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA: SI (1,0)| | | | | ACTIVIDAD_ECONOMICA = ARTESANIA: SI (0,0)| | | | | ACTIVIDAD_ECONOMICA = COMERCIO: SI (81,0/32,0)
| | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION: SI (0,0)| | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA: NO (1,0)| | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV: SI (0,0)| | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION| | | | | | INGRESO_MENSUAL 32865: SI (2,0)| | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA: SI (4,0/2,0)| | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP: NO (2,0)| | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA: SI(0,0)| | | | | ACTIVIDAD_ECONOMICA = MINERIA: NO (1,0)| | | | | ACTIVIDAD_ECONOMICA = PESQUERIA: NO (3,0/1,0)| | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS
| | | | | | INGRESO_MENSUAL 38850: SI (3,0/1,0)
-
8/13/2019 Modelo Mono
95/129
87
| | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD: SI (0,0)| | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE: SI (0,0)| TASA_INTERES > 3,3| | INGRESO_MENSUAL 5145| | | CAPITAL 7400: SI (16,0/2,0)TASA_INTERES > 3,5| TASA_INTERES 3,7: SI (3519,0/847,0)Number of Leaves : 231Size of the tree : 361
Time taken to build model: 0,92 seconds
-
8/13/2019 Modelo Mono
96/129
88
ALGORITMO REPTREE=== Run information ===
Scheme: weka.classifiers.trees.REPTree -M 2 -V 0.0010 -N 3 -S 1 -L -1Relation: creditos-weka.filters.unsupervised.attribute.Remove-R1-6,8,11-15,17-21Instances: 13118
Attributes: 6INGRESO_MENSUALACTIVIDAD_ECONOMICATIPO_CREDITOTASA_INTERESCAPITALTOTAL_CANCELADO
Test mode: evaluate on training data
=== Classifier model (full training set) ===
REPTree============
TASA_INTERES < 3,55| TASA_INTERES < 3,4| | CAPITAL < 4879,47| | | INGRESO_MENSUAL < 4777,5| | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : SI (1/0)[1/0]| | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : SI (21/5)[15/6]| | | | ACTIVIDAD_ECONOMICA = ARTESANIA| | | | | CAPITAL < 2500 : SI (3/1) [2/0]| | | | | CAPITAL >= 2500 : NO (5/0) [0/0]| | | | ACTIVIDAD_ECONOMICA = COMERCIO| | | | | CAPITAL < 1645| | | | | | INGRESO_MENSUAL < 1627,5
| | | | | | | TIPO_CREDITO = normal| | | | | | | | CAPITAL < 1100 : SI (62/23) [28/15]| | | | | | | | CAPITAL >= 1100 : NO (34/12) [14/6]| | | | | | | TIPO_CREDITO = paralelo : SI (31/6) [18/7]| | | | | | | TIPO_CREDITO = plus : SI (0/0) [0/0]| | | | | | | TIPO_CREDITO = recurrente : SI (102/33) [53/21]| | | | | | INGRESO_MENSUAL >= 1627,5 : SI (176/33) [71/14]| | | | | CAPITAL >= 1645| | | | | | TASA_INTERES < 2,9| | | | | | | INGRESO_MENSUAL < 3158,51 : SI (353/138) [202/63]| | | | | | | INGRESO_MENSUAL >= 3158,51| | | | | | | | CAPITAL < 2400 : SI (21/0) [14/4]| | | | | | | | CAPITAL >= 2400
| | | | | | | | | CAPITAL < 3375 : SI (43/9) [16/6]| | | | | | | | | CAPITAL >= 3375
-
8/13/2019 Modelo Mono
97/129
89
| | | | | | | | | | TIPO_CREDITO = normal : NO (23/9) [17/6]| | | | | | | | | | TIPO_CREDITO = paralelo : SI (32/8) [14/5]| | | | | | | | | | TIPO_CREDITO = plus : SI (0/0) [0/0]| | | | | | | | | | TIPO_CREDITO = recurrente| | | | | | | | | | | TASA_INTERES < 2,1 : SI (12/3) [9/5]| | | | | | | | | | | TASA_INTERES >= 2,1| | | | | | | | | | | | INGRESO_MENSUAL < 4252,5 : SI (45/20) [21/5]| | | | | | | | | | | | INGRESO_MENSUAL >= 4252,5 : NO (8/3) [4/1]| | | | | | TASA_INTERES >= 2,9 : NO (31/10) [12/5]| | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : SI (0/0) [0/0]| | | | ACTIVIDAD_ECONOMICA = ENSENIANZA| | | | | INGRESO_MENSUAL < 2362,5 : SI (2/1) [1/0]| | | | | INGRESO_MENSUAL >= 2362,5 : NO (2/0) [2/1]| | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : SI (0/0) [0/0]| | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION| | | | | CAPITAL < 3950| | | | | | INGRESO_MENSUAL < 2572,5| | | | | | | TIPO_CREDITO = normal| | | | | | | | INGRESO_MENSUAL < 1155 : NO (8/1) [4/2]| | | | | | | | INGRESO_MENSUAL >= 1155| | | | | | | | | CAPITAL < 1350 : SI (3/0) [1/0]| | | | | | | | | CAPITAL >= 1350 : NO (17/7) [10/4]| | | | | | | TIPO_CREDITO = paralelo : NO (8/1) [2/0]| | | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0]| | | | | | | TIPO_CREDITO = recurrente : NO (39/18) [15/9]| | | | | | INGRESO_MENSUAL >= 2572,5| | | | | | | CAPITAL < 2450| | | | | | | | TIPO_CREDITO = normal : SI (6/0) [5/0]| | | | | | | | TIPO_CREDITO = paralelo| | | | | | | | | INGRESO_MENSUAL < 4147,5 : SI (10/1) [2/0]| | | | | | | | | INGRESO_MENSUAL >= 4147,5 : SI (3/2) [3/2]| | | | | | | | TIPO_CREDITO = plus : SI (0/0) [0/0]| | | | | | | | TIPO_CREDITO = recurrente : SI (8/2) [5/2]| | | | | | | CAPITAL >= 2450 : SI (55/22) [28/13]| | | | | CAPITAL >= 3950| | | | | | TIPO_CREDITO = normal : NO (2/0) [2/1]
| | | | | | TIPO_CREDITO = paralelo : SI (6/2) [1/0]| | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0]| | | | | | TIPO_CREDITO = recurrente : NO (12/1) [0/0]| | | | ACTIVIDAD_ECONOMICA = INDUSTRIA| | | | | TASA_INTERES < 2,05 : SI (4/0) [6/2]| | | | | TASA_INTERES >= 2,05| | | | | | TASA_INTERES < 2,23| | | | | | | TIPO_CREDITO = normal : NO (3/0) [1/0]| | | | | | | TIPO_CREDITO = paralelo : SI (2/1) [1/0]| | | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0]| | | | | | | TIPO_CREDITO = recurrente : NO (4/1) [3/1]| | | | | | TASA_INTERES >= 2,23 : SI (84/35) [48/22]| | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : SI (72/20) [44/19]
| | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : SI (0/0)[0/0]
-
8/13/2019 Modelo Mono
98/129
90
| | | | ACTIVIDAD_ECONOMICA = MINERIA : SI (0/0) [2/1]| | | | ACTIVIDAD_ECONOMICA = PESQUERIA| | | | | TIPO_CREDITO = normal : SI (5/0) [4/3]| | | | | TIPO_CREDITO = paralelo : NO (2/0) [1/0]| | | | | TIPO_CREDITO = plus : SI (0/0) [0/0]| | | | | TIPO_CREDITO = recurrente : NO (3/1) [1/0]| | | | ACTIVIDAD_ECONOMICA = SERV_OTROS| | | | | CAPITAL < 2875| | | | | | CAPITAL < 2550| | | | | | | INGRESO_MENSUAL < 4515| | | | | | | | TASA_INTERES < 2,03| | | | | | | | | TASA_INTERES < 1,95 : SI (56/16) [34/12]| | | | | | | | | TASA_INTERES >= 1,95| | | | | | | | | | INGRESO_MENSUAL < 3176,25| | | | | | | | | | | CAPITAL < 2050 : SI (55/24) [33/12]| | | | | | | | | | | CAPITAL >= 2050 : NO (14/5) [8/3]| | | | | | | | | | INGRESO_MENSUAL >= 3176,25 : SI (3/0) [0/0]| | | | | | | | TASA_INTERES >= 2,03 : SI (125/33) [67/12]| | | | | | | INGRESO_MENSUAL >= 4515 : NO (2/0) [2/0]| | | | | | CAPITAL >= 2550 : SI (8/0) [4/4]| | | | | CAPITAL >= 2875 : SI (189/89) [79/22]| | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD| | | | | TASA_INTERES < 2,05 : SI (10/0) [3/1]| | | | | TASA_INTERES >= 2,05| | | | | | CAPITAL < 2750 : SI (10/3) [3/1]| | | | | | CAPITAL >= 2750 : NO (9/3) [3/1]| | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : NO (20/5) [16/4]| | | INGRESO_MENSUAL >= 4777,5| | | | CAPITAL < 1865 : SI (145/18) [79/13]| | | | CAPITAL >= 1865| | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : SI (0/0)[0/0]| | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : SI (1/0)[2/1]| | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : SI (1/0) [0/0]| | | | | ACTIVIDAD_ECONOMICA = COMERCIO
| | | | | | TASA_INTERES < 1,25 : SI (14/0) [8/2]| | | | | | TASA_INTERES >= 1,25| | | | | | | TASA_INTERES < 1,8| | | | | | | | TASA_INTERES < 1,42 : SI (51/15) [15/6]| | | | | | | | TASA_INTERES >= 1,42 : NO (11/4) [5/2]| | | | | | | TASA_INTERES >= 1,8| | | | | | | | TIPO_CREDITO = normal : SI (27/2) [10/0]| | | | | | | | TIPO_CREDITO = paralelo : SI (97/23) [43/13]| | | | | | | | TIPO_CREDITO = plus : SI (0/0) [0/0]| | | | | | | | TIPO_CREDITO = recurrente| | | | | | | | | CAPITAL < 3400| | | | | | | | | | TASA_INTERES < 2,55 : SI (30/2) [18/1]| | | | | | | | | | TASA_INTERES >= 2,55
| | | | | | | | | | | INGRESO_MENSUAL < 5512,5| | | | | | | | | | | | CAPITAL < 2850 : SI (5/1) [0/0]
-
8/13/2019 Modelo Mono
99/129
-
8/13/2019 Modelo Mono
100/129
92
| | | | | | | | | | | TIPO_CREDITO = recurrente : SI (4/1) [1/0]| | | | | | | TASA_INTERES >= 1,73| | | | | | | | TASA_INTERES < 1,92| | | | | | | | | INGRESO_MENSUAL < 6615| | | | | | | | | | INGRESO_MENSUAL < 5827,5 : SI (90/26) [47/13]| | | | | | | | | | INGRESO_MENSUAL >= 5827,5| | | | | | | | | | | TIPO_CREDITO = normal : SI (18/3) [11/5]| | | | | | | | | | | TIPO_CREDITO = paralelo| | | | | | | | | | | | TASA_INTERES < 1,88| | | | | | | | | | | | | CAPITAL < 5800 : SI (7/1) [1/0]| | | | | | | | | | | | | CAPITAL >= 5800 : SI (3/2) [5/3]| | | | | | | | | | | | TASA_INTERES >= 1,88 : SI (27/2) [12/3]| | | | | | | | | | | TIPO_CREDITO = plus : SI (0/0) [0/0]| | | | | | | | | | | TIPO_CREDITO = recurrente : SI (35/9) [14/6]| | | | | | | | | INGRESO_MENSUAL >= 6615 : SI (11/0) [7/3]| | | | | | | | TASA_INTERES >= 1,92| | | | | | | | | INGRESO_MENSUAL < 6825| | | | | | | | | | TIPO_CREDITO = normal : SI (11/5) [9/4]| | | | | | | | | | TIPO_CREDITO = paralelo : NO (5/1) [0/0]| | | | | | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0]| | | | | | | | | | TIPO_CREDITO = recurrente : NO (25/10) [10/3]| | | | | | | | | INGRESO_MENSUAL >= 6825 : SI (26/4) [6/1]| | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : SI (1/1) [1/0]| | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : SI (3/1) [3/2]| | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : SI (0/0)[0/0]| | | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION| | | | | | | INGRESO_MENSUAL < 9712,5| | | | | | | | TASA_INTERES < 1,73 : NO (4/0) [2/0]| | | | | | | | TASA_INTERES >= 1,73| | | | | | | | | TIPO_CREDITO = normal : SI (8/4) [2/0]| | | | | | | | | TIPO_CREDITO = paralelo : NO (12/3) [4/1]| | | | | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0]| | | | | | | | | TIPO_CREDITO = recurrente : NO (16/7) [5/2]| | | | | | | INGRESO_MENSUAL >= 9712,5 : SI (4/0) [1/1]| | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA
| | | | | | | TASA_INTERES < 1,73 : NO (5/0) [2/1]| | | | | | | TASA_INTERES >= 1,73 : SI (30/15) [8/3]| | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : SI (16/8) [6/3]| | | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA : SI(0/0) [0/0]| | | | | | ACTIVIDAD_ECONOMICA = MINERIA : SI (2/1) [1/0]| | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : SI (4/1) [3/3]| | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS| | | | | | | TASA_INTERES < 2,03| | | | | | | | INGRESO_MENSUAL < 5512,5| | | | | | | | | TASA_INTERES < 1,78 : SI (2/0) [2/0]| | | | | | | | | TASA_INTERES >= 1,78| | | | | | | | | | TIPO_CREDITO = normal : NO (6/1) [8/3]
| | | | | | | | | | TIPO_CREDITO = paralelo : NO (2/0) [3/2]| | | | | | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0]
-
8/13/2019 Modelo Mono
101/129
93
| | | | | | | | | | TIPO_CREDITO = recurrente| | | | | | | | | | | INGRESO_MENSUAL < 5344,5| | | | | | | | | | | | TASA_INTERES < 1,98| | | | | | | | | | | | | TASA_INTERES < 1,92| | | | | | | | | | | | | | TASA_INTERES < 1,88 : SI (5/3) [4/3]| | | | | | | | | | | | | | TASA_INTERES >= 1,88 : SI (2/1) [1/0]| | | | | | | | | | | | | TASA_INTERES >= 1,92 : NO (21/8) [15/7]| | | | | | | | | | | | TASA_INTERES >= 1,98 : SI (2/1) [1/0]| | | | | | | | | | | INGRESO_MENSUAL >= 5344,5 : NO (4/1) [1/1]| | | | | | | | INGRESO_MENSUAL >= 5512,5 : SI (67/28) [28/13]| | | | | | | TASA_INTERES >= 2,03 : SI (18/1) [14/3]| | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : SI (2/1) [1/0]| | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : NO (0/0) [1/0]| | | | | CAPITAL >= 6050| | | | | | TASA_INTERES < 1,53| | | | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA : NO(0/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA : SI(2/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : NO (0/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO| | | | | | | | TASA_INTERES < 1,48| | | | | | | | | TASA_INTERES < 1,27| | | | | | | | | | INGRESO_MENSUAL < 50925 : NO (28/0) [20/1]| | | | | | | | | | INGRESO_MENSUAL >= 50925| | | | | | | | | | | CAPITAL < 13950 : NO (2/0) [1/0]| | | | | | | | | | | CAPITAL >= 13950 : SI (2/1) [1/0]| | | | | | | | | TASA_INTERES >= 1,27 : NO (21/7) [16/5]| | | | | | | | TASA_INTERES >= 1,48 : NO (20/0) [6/1]| | | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : NO (0/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : NO (0/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV : NO(0/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = HOSPEDAJE_Y_ALIMENTACION :NO (4/0) [1/0]| | | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA : NO (3/0) [2/1]
| | | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : NO (10/2)[4/0]| | | | | | | ACTIVIDAD_ECONOMICA = INTERMEDIACION_FINANCIERA :NO (0/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = MINERIA : NO (0/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : NO (0/0) [0/0]| | | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS : NO (11/0) [6/0]| | | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : NO (0/0)[0/0]| | | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : NO (0/0) [0/0]| | | | | | TASA_INTERES >= 1,53| | | | | | | INGRESO_MENSUAL < 23152,5| | | | | | | | TASA_INTERES < 1,88
| | | | | | | | | TASA_INTERES < 1,73| | | | | | | | | | ACTIVIDAD_ECONOMICA = ADMINISTRACION_PUBLICA
-
8/13/2019 Modelo Mono
102/129
94
: NO (0/0) [0/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = AGRICULTURA_GANADERIA: NO (4/0) [0/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : NO (0/0) [0/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO| | | | | | | | | | | TIPO_CREDITO = normal : SI (9/4) [2/1]| | | | | | | | | | | TIPO_CREDITO = paralelo : NO (16/1) [12/4]| | | | | | | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0]| | | | | | | | | | | TIPO_CREDITO = recurrente| | | | | | | | | | | | CAPITAL < 8500 : NO (2/0) [1/1]| | | | | | | | | | | | CAPITAL >= 8500| | | | | | | | | | | | | CAPITAL < 15750| | | | | | | | | | | | | | CAPITAL < 10500| | | | | | | | | | | | | | | INGRESO_MENSUAL < 14700 : SI (31/16) [16/10]| | | | | | | | | | | | | | | INGRESO_MENSUAL >= 14700 : SI (7/1) [3/0]| | | | | | | | | | | | | | CAPITAL >= 10500 : NO (72/30) [29/8]| | | | | | | | | | | | | CAPITAL >= 15750 : NO (2/0) [2/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : SI (2/1)[0/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : NO (1/0) [1/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = HOGARES_PRIV_CON_SERV :NO (0/0) [0/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA =HOSPEDAJE_Y_ALIMENTACION : NO (26/8) [9/3]| | | | | | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA| | | | | | | | | | | TIPO_CREDITO = normal : NO (2/0) [0/0]| | | | | | | | | | | TIPO_CREDITO = paralelo : NO (8/1) [0/0]| | | | | | | | | | | TIPO_CREDITO = plus : NO (0/0) [0/0]| | | | | | | | | | | TIPO_CREDITO = recurrente| | | | | | | | | | | | TASA_INTERES < 1,58 : NO (8/3) [5/0]| | | | | | | | | | | | TASA_INTERES >= 1,58 : SI (7/1) [1/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : NO(11/3) [6/2]| | | | | | | | | | ACTIVIDAD_ECONOMICA =INTERMEDIACION_FINANCIERA : NO (0/0) [0/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = MINERIA : SI (3/2) [3/2]
| | | | | | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : NO (1/0) [1/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS| | | | | | | | | | | CAPITAL < 9250 : SI (2/0) [1/0]| | | | | | | | | | | CAPITAL >= 9250 : NO (16/3) [5/1]| | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_SOC_Y_SALUD : NO(0/0) [0/0]| | | | | | | | | | ACTIVIDAD_ECONOMICA = TRANSPORTE : NO (0/0) [0/0]| | | | | | | | | TASA_INTERES >= 1,73| | | | | | | | | | INGRESO_MENSUAL < 6825 : SI (4/2) [1/0]| | | | | | | | | | INGRESO_MENSUAL >= 6825 : NO (61/1) [30/2]| | | | | | | | TASA_INTERES >= 1,88| | | | | | | | | CAPITAL < 15950| | | | | | | | | | INGRESO_MENSUAL < 16485
| | | | | | | | | | | ACTIVIDAD_ECONOMICA =ADMINISTRACION_PUBLICA : NO (0/0) [0/0]
-
8/13/2019 Modelo Mono
103/129
95
| | | | | | | | | | | ACTIVIDAD_ECONOMICA =AGRICULTURA_GANADERIA : SI (1/0) [0/0]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = ARTESANIA : SI (1/0) [0/0]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = COMERCIO| | | | | | | | | | | | INGRESO_MENSUAL < 15744,75| | | | | | | | | | | | | CAPITAL < 7400| | | | | | | | | | | | | | TASA_INTERES < 1,95 : SI (6/1) [3/1]| | | | | | | | | | | | | | TASA_INTERES >= 1,95 : NO (15/5) [4/0]| | | | | | | | | | | | | CAPITAL >= 7400 : SI (20/6) [7/2]| | | | | | | | | | | | INGRESO_MENSUAL >= 15744,75 : SI (3/0) [4/1]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = CONSTRUCCION : NO (0/0)[0/0]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = ENSENIANZA : NO (0/0)[0/0]| | | | | | | | | | | ACTIVIDAD_ECONOMICA =HOGARES_PRIV_CON_SERV : NO (0/0) [0/0]| | | | | | | | | | | ACTIVIDAD_ECONOMICA =HOSPEDAJE_Y_ALIMENTACION : NO (2/0) [4/3]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = INDUSTRIA : SI (2/0) [4/1]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = INMOBILIARIAS_EMP : SI(0/0) [4/1]| | | | | | | | | | | ACTIVIDAD_ECONOMICA =INTERMEDIACION_FINANCIERA : NO (0/0) [0/0]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = MINERIA : NO (0/0) [1/0]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = PESQUERIA : NO (2/1) [2/0]| | | | | | | | | | | ACTIVIDAD_ECONOMICA = SERV_OTROS| | | | | | | | | | | | CAPITAL < 12350| | | | | | | | | | | | | INGRESO_MENSUAL < 12279,75| | | | | | | | | | | | | | CAPITAL < 9350| | | | | | | | | | | | | | | INGRESO_MENSUAL < 10027,5| | | | | | | | | | | | | | | | INGRESO_MENSUAL < 6709,5 : NO (7/1) [4/1]| | | | | | | | | | | | | | | | INGRESO_MENSUAL >= 6709,5| | | | | | | | | | | | | | | | | CAPITAL < 6850 : SI (10/2) [6/1]| | | | | | | | | | | | | | | | | CAPITAL >= 6850| | | | | | | | | | | | | | | | | | INGRESO_MENSUAL < 7360,5: SI (24/12)[6/0]
| | | | | | | | | | | | | | | | | | INGRESO_MENSUAL >= 7360,5| | | | | | | | | | | | | | | | | | | INGRESO_MENSUAL < 8058,75 : NO (8/1)[14/6]| | | | | | | | | | | | | | | | | | | INGRESO_MENSUAL >= 8058,75| | | | | | | | | | | | | | | | | | | | CAPITAL < 7775 : SI (4/1) [1/0]| | | | | | | | | | | | | | | | | | | | CAPITAL >= 7775 : NO (30/12) [27/13]| | | | | | | | | | | | | | | INGRESO_MENSUAL >= 10027,5 : SI (11/1) [5/1]| | | | | | | | | | | | | | CAPITAL >= 9350 : NO (74/27) [50/18]| | | | | | | | | | | | | INGRESO_MENSUAL >= 12279,75 : SI (5