Download - Tutorial de Inducción al RapidMiner
Inducción al RapidMiner 5.1
KNOWLED AND SYSTEMS
Inducción
RapidMiner
YSTEMS PERU
Inducción al
RapidMiner 5.1
www.kasperu.com
2012
al
5.1
W W W . K A S P E R U . C O M
Inducción al RapidMiner 5.1 www.kasperu.com
Página 2
Tabla de contenido
1. RAPIDMINER. ......................................................................................................................................... 3
2. USO BÁSICO. ......................................................................................................................................... 4
2.1. PERSPECTIVAS ............................................................................................................................. 4
2.2. ASPECTOS PRELIMINARES. ....................................................................................................... 5
2.3. OBJETIVOS DEL MODELO ........................................................................................................... 6
2.4. DESARROLLO DEL MODELO ...................................................................................................... 6
A. DEFINICION DE PROCESOS. ...................................................................................................... 6
B. LECTURA DE DATOS. ................................................................................................................... 8
C. TRANSFORMACION DE DATOS. ........................................................................................... 10
D. EJECUCION DEL PROCESO. ................................................................................................. 12
E. MUESTREO ................................................................................................................................... 13
F. RANKING DE ATRIBUTOS .......................................................................................................... 14
G. MODELADO ............................................................................................................................... 16
H. CONSULTA DEL MODELO ...................................................................................................... 19
I. RENDIMIENTO DEL MODELO.................................................................................................... 21
J. MODELO NAIVE BAYES.............................................................................................................. 22
K. MODELO REDES NEURONALES .............................................................................................. 23
Inducción al RapidMiner 5.1 www.kasperu.com
1. RAPIDMINER.
El RapidMiner es un software desarrollado porRapid-I, empresa basada en Dortmund,Alemania que en los últimos años ha venidoteniendo un desarrollo vertiginoso.
El producto principal de Rapid-I, es la soluciónde análisis de los datos RapidMiner es el lídermundial de código abierto del sistema dedescubrimiento de conocimiento y minería dedatos. Está disponible como una aplicaciónstand-alone para el análisis de datos y comoun motor de minería de datos que pueden serintegrado en otros productos. Por ahora, milesde aplicaciones de RapidMiner en más de 30países dan a sus usuarios una ventajacompetitiva. Entre los usuarios son empresasde renombre como Ford, Honda, Nokia, Miele,Philips, IBM, HP, Cisco, Merrill Lynch, BNPParibas, Bank of America, Mobilkom Austria,Akzo Nobel, Aureus Pharma, PharmaDM,Cyprotex, Celera, Revere, LexisNexis, Mitre ymuchas empresas pequeñas y medianas sebenefician de el modelo de negocio de códigoabierto de Rapid-I1.
RapidMiner (anteriormente, YALE, Yet AnotherLearning Environment) es un programainformático desarrollado en Java para elanálisis y minería de datos. Permite eldesarrollo de procesos de análisis de datosmediante el encadenamiento de operadores através de un entorno gráfico. Se usa eninvestigación y en aplicaciones empresariales.
La versión inicial fue desarrollada por eldepartamento de inteligencia artificial de laUniversidad de Dortmund en 2001. Sedistribuye bajo licencia GPL y está hospedadoen SourceForge desde el 2004.
RapidMiner proporciona más de 500operadores orientados al análisis de datos,incluyendo los necesarios para realizaroperaciones de entrada y salida, pre-procesamiento de datos y visualización.También permite utilizar los algoritmosincluidos en Weka y en R.
1www.rapid-i.com
En una encuesta realizada por KDnuggets2 ,una página de minería de datos, RapidMinerocupó el segundo lugar en herramientas deanalítica y de minería de datos utilizadas paraproyectos reales en 2009, fue el primero en2010 y en el 2011.
Which data mining/analytic tools you used in thepast 12 months for a real project (not justevaluation) [1103 voters]
% users in 2011% users in 2010
RapidMiner(305)
27.7%37.8%
R (257) 23.3%29.8%
Excel (240) 21.8%24.3%
SAS (150) 13.6%12.1%
Your owncode (134)
12.1%18.4%
KNIME (134) 12.1%19.2%
Weka(Pentaho)(130)
11.8%14.4%
Salford (117) 10.6%1.6%
Statistica (94) 8.5%6.3%
IBM SPSSModeler (91)
8.3%7.3%
MATLAB (79) 7.2%9.2%
IBM SPSSStatistics (79)
7.2%7.9%
SASEnterpriseMiner (78)
7.1%5.5%
JMP (63) 5.7%
11 AntsAnalytics (62)
5.6%
Microsoft SQLServer (54)
4.9%6.9%
2www.kdnuggets.com/polls/index.html
Inducción al RapidMiner 5.1
Características Desarrollado en Java Multiplataforma Representación interna de los
análisis de datos en ficheros Permite el desarrollo de
través de un lenguaje de script Puede usarse de diversas maneras: A través de un GUI En línea de comandos En batch (lotes) Desde otros programas
llamadas a sus bibliotecas Extensible Incluye gráficos y herramientas
visualización de datos Dispone de un módulo de integración
R y con Weka
Programación basada enoperadores
Página 4
los procesos deXMLprogramas a
scriptmaneras:
a través de
herramientas de
integración con
controles u
2. USO BÁSICO.
2.1. PERSPECTIVAS
El rapidminer permiteperspectivas:
a. Perspectiva de DiseñoAmbiente para diseñarde datos.
En esta perspectiva esoperadores y con los repositorios.
Los operadores correspondende algoritmos estandarizadosencadenar tal y comoproyecto de minería de
Los repositoriosalmacenes de datos y
www.kasperu.com
PERSPECTIVAS
permite trabajar en tres
Diseñodiseñar el proceso de la minería
es posible trabajar con losrepositorios.
corresponden a un conjuntoestandarizados que se pueden
como un lego para armar unde datos.
corresponden a losy de proyectos.
Inducción al RapidMiner 5.1
b. Perspectiva de Resultados.Ambiente para ver los resultadosmodelado.
c. Perspectiva de Bienvenida.Pantalla inicial al entrar a la herramienta.
d. Mi primer modelo en rapidminer
Introducir en el desarrollomediante la herramienta de mineríaRapidMiner, haciendo uso de laCRISP.
Página 5
Resultados.resultados del
.herramienta.
rapidminer
de modelosminería de datos
la metodología
2.2. ASPECTOS PRELIMINAR
a) Identificar el directorio
b) Definir la ubicaciónprocesos
.. exercises\exercise
c) Identificar la fuentePara el desarrollousa los datos depositados
exercises\exercise
d) Identificar el tipoLos tipos de datosaceptados por elsiguientes.
Tipo de Datoattribute_valuenominalnumericintegerrealtextbinomialpolynomicfile_pathdate_timedatetime
www.kasperu.com
PRELIMINARES.
directorio de trabajo.
ubicación del repositorio de
exercise 01\repository
fuente de los datos.de este ejercicio se hace
depositados en:
exercise 01\data\SampleData.xls
de dato y de atributodatos y tipos de atributos
el Rapidminer son los
Tipo de Atributoattributelabelidweightbatchclusterpredicticoutliercostbase_value
Inducción al RapidMiner 5.1 www.kasperu.com
Página 6
2.3. OBJETIVOS DEL MODELO
Crear un modelo para calcular laprobabilidad de que un cliente de laempresa BikeBuyer compre uno de losproductos de la empresa, se proporcionalos siguientes datos:
Clave IDAtributos MaritalStatus, Gender,
YearlyIncome, Children,Education, Occupation,HomeOwner, Cars,CommuteDistance, Region, Age
Clase BikeBuyer
1. Efectuar las siguientes transformaciones dedatos: LogYearlyIncome = log(YearlyIncome) Discretizar YearlyIncome en 4 bins Transforme el tipo de dato Age de
integer a polynominal. Transforme el tipo de dato Cars de
nominal a numerical
2. Genere una muestra balanceada de datos(1000 de Yes y 1000 de No) observe que elbalanceo de datos se efectúa sobre laclase BikeBuyer.
3. Identificar los atributos con mayorrelevancia para el proceso de clasificación,mediante el cálculo de los pesos de cadaatributo. No aplique la normalización de lospesos. Elimine aquellos atributos cuyo nivelde relevancia es menor a un valor que seestablecerá por experimentación.
4. Aplique el algoritmo Decision Tree paradesarrollar un modelo predictivo queidentifique los atributos que mejor explicanla clase para los datos proporcionados.
5. Aplique modelo al 100 de los datosproporcionados y a la muestra deentrenamiento.
6. Calcule el desempeño del modelo (para el100% de los datos) mediante la aplicaciónde las siguientes medidas de evaluación:a. Matriz de confusión.
2.4. DESARROLLO DEL MODELO
Para desarrollar el modelo de predicción seejecutaran los siguientes pasos:
A. DEFINICION DE PROCESOS.
En RapidMiner los proyectos se trabajanmediante una definición de procesos, unadefinición de proceso es un conjunto deoperadores o módulos encadenados en unasecuencia. Una definición de procesos es unarchivo que se almacena en un repositorio.
Un repositorio, además de almacenar archivosde definición de procesos, puede almacenardatos pre-cargados en archivos de lecturarápida.
a) Crear el repositorio de procesos.
Seleccione new local repository
Definir el nombre del repositorio o alias[Exercise 01] y seleccione la ruta donde seubicará el repositorio.
Inducción al RapidMiner 5.1
.. exercises\exercise 01\repository
Presiones Finish
Confirme la creación del repositorio.
Por otro lado verifique que enencuentre el archivo:
Exercise 01.properties
b) Crear una nueva definición
Una definición de procesos esde operadores encadenadosdeterminado orden con la finalidaddatos desde diversas fuentes,transformación, crear modelos,modelos, optimizar modelosresultados.
Para crear una definición deel ícono New:
Esto genera automáticamenteperspectiva de diseño vacía.
Página 7
repository
repositorio.
en la carpeta se
definición de procesos
es un conjuntoencadenados en
finalidad de leerfuentes, aplicar
modelos, evaluarmodelos y grabar los
de procesos use
automáticamente una
www.kasperu.com
Inducción al RapidMiner 5.1 www.kasperu.com
Página 8
B. LECTURA DE DATOS.
a) Leer el archivo de datos desde unoperador.
Use el operador Read Excel para leer elarchivo de datos.
El operador Read Excel se diferencia deloperador Read Excel with Format, en queel primero permite la definición de cadaatributo por el usuario, en el caso delsegundo usa la definición proporcionadapor el Excel.
Lleve el ícono al panel Process yencadénelo de la siguiente forma.
Observe que no debe encadenar la entradafil
Verifique los parámetros del operador en elpanel Parameters
Use la opción Import ConfigurationWizard, para definir los atributos a leer, lostipos de datos y los tipos de atributos.
Seleccione el archivo de datos, desde lacarpetaexercises\exercise 01\data\SampleData.xls
Seleccione la hoja con la que trabajará yvisualice los datos:
Inducción al RapidMiner 5.1 www.kasperu.com
Página 9
Defina las anotaciones para los atributos,estos pueden ser de cuatro tipos:
- Es una fila de datosName Es la fila de nombresComment Es una fila de comentariosUnit Indica la unidad de los datos
Asigne [Name] a la primera fila y [–] alresto de filas de datos (sin los []).
Asigne el tipo de dato y el tipo de atributo acada atributo según la siguiente tabla:
Atributo Tipo deDato
Tipo deAtributo
ID integer idMaritalStatus binomial attributeGender binomial attributeYearlyIncome integer attributeChildren polynominal attributeEducation polynominal attributeOccupation polynominal attributeHomeOwner binomial attributeCars polynominal attributeCommuteDistance polynominal attributeRegion polynominal attributeAge integer attributeBikeBuyer binomial label
Presione Finish para terminar la configuraciónde la importación de datos.
b) Creación de una Meta Data.
La desventaja de los operadores Read esque requieren abrir y leer los datos desdeel archivo original de datos, una alternativaes leerlo una sola vez y almacenarlo en unformato que RapidMiner requiere para serprocesado, denominado MetaData.
Use la opción Import Excel Sheet paraimportar los datos de la hoja de Excel ygrabarlo como un repositorio de datos.
Inducción al RapidMiner 5.1
Esta opción genera una secuenciaventanas similares a la opciónConfiguration Wizard del operadorExcel.
La quinta venta permite almacenardatos en un repositorio activo.
Página 10
secuencia de cincoopción Importoperador Read
almacenar losactivo.
C. TRANSFORMACION
a) Crear un sub procesooperadores de preparación
Denomine alTransformation
Encadene los operadoresforma:
b) Aplique las siguientesa los datos.
LogYearlyIncome Discretizar YearlyIncome Transforme el
integer a polynominal. Transforme el
nominal a numerical
Para esto use los siguientes
1. Generate attributes2. Discretize by bins3. Numerical to polynominal4. Nominal to numerical
www.kasperu.com
TRANSFORMACION DE DATOS.
proceso para contener lospreparación de datos:
sub proceso Data
operadores de la siguiente
siguientes transformaciones
YearlyIncome = log(YearlyIncome)YearlyIncome en 4 bins
el tipo de dato Age depolynominal.
el tipo de dato Cars denumerical
siguientes operadores:
attributesbinspolynominal
numerical
Inducción al RapidMiner 5.1 www.kasperu.com
Página 11
Configure cada uno de los cuatrooperadores de transformación de datos,según las indicaciones anteriores.
1. Generate attributes
2. Discretize by bins
3. Numerical to polynominal
4. Nominal to numerical
Inducción al RapidMiner 5.1 www.kasperu.com
Página 12
D. EJECUCION DEL PROCESO.
Para ejecutar los operadores use el botónExecute
Observe que ahora se pasa a laperspectiva de resultados.
a) Analice los resultados obtenidos.
La herramienta proporciona cuatro (vistas):
1. Meta Data viewPresenta una vista de las propiedadesde los datos.
2. Data viewPresenta una vista de los datos.
3. Plot ViewProporciona una potente herramientapara el ploteo de datos.
4. AnnotationsProporciona una ambiente para escribircomentarios acerca del modelo.
Inducción al RapidMiner 5.1 www.kasperu.com
Página 13
E. MUESTREO
Objetivo. Generar una muestrabalanceada de datos (1000 de Yes y 1000de No) observe que el balanceo de datosse efectúa sobre la clase BikeBuyer.
Para el proceso de muestreo se aplicará eloperado Sample
Use los siguientes parámetros para eloperador:
Identifique los estados de la clase
Se observa que 1,000 registroscorresponden a Yes y 9,000 correspondena No.
Para obtener una muestra balanceada dedatos se puede extraer el 100% de los Yesy el 11.11% de los No, obteniéndose entotal 2,000 registros.
Los ratios se definen en la opción sampleratio per class.
Ejecute la definición del proceso paravisualizar los resultados.
Para los datos originales se dispone de10,000 registros.
Para los datos muestreados se dispone de1,999 registros.
El balanceo de los datos se puedeobservar en la opción Plot View.
Inducción al RapidMiner 5.1
Página 14
F. RANKING DE ATRIBUTOS
Objetivo. Identificarmayor relevanciaclasificación, mediantepesos de cadanormalización deaquellos atributoses menor a un valorexperimentación.
Para el procesodimensionalidad seoperadores que seproceso Weight.
a) Cálculo de los pesos
Los pesos seoperador Weight by
El operador permitecontribución del atributoclase, debe considerarsecálculo a priori, esconsiderando queen la clase, asumiendorelación entre losse calcula sin construirmodelo.
www.kasperu.com
ATRIBUTOS
Identificar los atributos conrelevancia para el proceso de
mediante el cálculo de losatributo. No aplique la
de los pesos. Eliminecuyo nivel de relevancia
valor que se establecerá por
proceso de reducción de lase aplicará un conjunto dese agruparan en el sub-
pesos de cada atributo
calcularán usando elby Information Gain
permite calcular el nivel deatributo para predecir la
considerarse que el peso es unes decir que se calculacada atributo por influye
asumiendo que no existeatributos y por otro lado
construir ni evaluar ningún
Inducción al RapidMiner 5.1 www.kasperu.com
Página 15
Los criterios usados son los siguientes:
Weight by Information GainWeight by Information Gain RatioWeight by RuleWeight by Value AverageWeight by DeviationWeight by CorrelationWeight by Chi Squared StatisticWeight by Gini IndexWeight by Tree ImportanceWeight by UncertaintyWeight by ReliefWeight by SVMWeight by PCAWeight by Component ModelWeight by User Specification
Para los 1,999 registros seleccionado ypara el operador de pesos Weight byInformation Gain se obtiene los siguientesresultados:
attibute weightAge 0.073CommuteDistance 0.014Education 0.010Children 0.009Region 0.007Occupation 0.007MaritalStatus 0.004HomeOwner 0.002Gender 0.002YearlyIncome 0.000Cars 0.000Log Yearly Income 0.000
b) Eliminación de los pesos menores
Use el operador Select by Weights paraseleccionar aquellos atributos con un nivelde relevancia mayor a un valor que seestablecerá por experimentación.
Observando los datos, ¿Qué valorconsidera apropiado para ubicar el puntode corte?
Asigne los siguientes parámetros aloperador (observe que los valores son
referenciales y estos deben ser obtenidospor experimentación.
Ejecute la definición de procesos paraobservar los resultados.
Atributos orginales
Atributos seleccionados
Inducción al RapidMiner 5.1 www.kasperu.com
Página 16
G. MODELADO
Objetivo. Aplicar el algoritmo DecisionTree para desarrollar un modelo predictivoque identifique los atributos que mejorexplican la clase para los datosproporcionados.
Para crear el modelo se puede hacer usode diferentes algoritmos, no se puedeafirmar que uno de ellos es mejor que losotros, la utilidad de los algoritmos dependede los datos proporcionados, de lastransformaciones aplicadas y del problemaa resolver.
a) Creación del árbol de decisión.
El árbol de decisión se crea usando eloperador Decision Tree basado en elalgoritmo Quinlan's C4.5 or CART.
b) Datos de entrenamiento.
Los datos para el entrenamiento del árbolprovienen del proceso de selección anteriory corresponden a:
c) Parámetros del modelo
Este operador entrena árboles de decisióna partir de datos nominales y numéricos.Cada vez que un nuevo nodo se crea en undeterminado momento, un atributo seescoge para maximizar el poder dediscriminación de ese nodo con respecto alas demás alternativas asignadas alsubárbol en particular.
Criterion: específica el criterio deselección de atributos y de divisionesnuméricas (ganancia de información,índice gini, precisión, proporción deganancia).
Minimal size for Split: tamaño mínimode divisiones que se pueden dar encada nodo.
Minimal leaf size: tamaño mínimo dela hoja.
Minimal gain: la ganancia mínima quedebe lograrse con el fin de producir unadivisión.
Maximal depth: La profundidadmáxima del árbol.
Confidence: El nivel de confianzautilizado para el cálculo del errorpesimista de la poda.
Number of prepruning: El número denodos alternativos probados cuando latécnica de la poda evitaría una división.
No prepruning: Las reglas de poda seaplican luego de cada iteración
Prenuning: Las reglas de poda basadaen el criterio correspondiente despuésde generar el árbol.
Determinar los parámetros óptimos de unmodelo es un arte y una ciencia, para
Inducción al RapidMiner 5.1 www.kasperu.com
Página 17
propósitos de este ejercicio se usaran lossiguientes valores.
Los parámetros óptimos en la práctica secalculan mediante un proceso deoptimización, proceso bastante costoso entiempo de computadora.
d) Árbol de decisión
Luego de correr el modelo se obtiene lossiguientes resultados.
Dado que árbol no se puede visualizarfácilmente se presenta las reglasidentificadas por el algoritmo.
CommuteDistance = 0-1 Miles| Education = Bachelors: Yes {Yes=142, No=86}| Education = Graduate Degree: Yes {Yes=111, No=73}| Education = High School: No {Yes=31, No=44}| Education = Partial College: Yes {Yes=100, No=62}| Education = Partial High School: No {Yes=10, No=37}
CommuteDistance = 1-2 Miles| Education = Bachelors: Yes {Yes=35, No=26}| Education = Graduate Degree: No {Yes=23, No=52}| Education = High School: Yes {Yes=44, No=29}| Education = Partial College: Yes {Yes=66, No=41}
Inducción al RapidMiner 5.1 www.kasperu.com
Página 18
| Education = Partial High School: No {Yes=10, No=30}
CommuteDistance = 10+ Miles| Region = Europe: No {Yes=10, No=40}| Region = North America: No {Yes=44, No=89}| Region = Pacific: Yes {Yes=49, No=48}
CommuteDistance = 2-5 Miles| Occupation = Clerical: No {Yes=11, No=14}| Occupation = Management: Yes {Yes=23, No=17}| Occupation = Manual: No {Yes=15, No=27}| Occupation = Professional: Yes {Yes=85, No=78}| Occupation = Skilled Manual: Yes {Yes=50, No=22}
CommuteDistance = 5-10 Miles: No {Yes=141, No=184}
Inducción al RapidMiner 5.1 www.kasperu.com
Página 19
En este árbol se puede identificar quealgunos atributos con alto peso no fuerenseleccionados por el árbol de decisión, tales el caso de Age y Children.
attibute weightAge 0.073CommuteDistance 0.014Education 0.010Children 0.009Region 0.007Occupation 0.007MaritalStatus 0.004HomeOwner 0.002Gender 0.002YearlyIncome 0.000Cars 0.000Log Yearly Income 0.000
H. CONSULTA DEL MODELO
Objetivo. Aplicar el modelo a la muestra deentrenamiento y al 100% de los datosproporcionados.
a) Consulta del modelo
Luego de crear el modelo es necesarioconsultarlo, para este propósito se usará eloperador Apply Model.
Este operador requiere dos entradas: El modelo generado por el árbol de
decisión. Los datos (sin label) a los que se les
asignará la predicción.
Los parámetros del modelo son lossiguientes: Application parameters: Los
parámetros del modelo para suaplicación (por lo general no esnecesario).
Create view: Indica que los modelosdeben crear una nueva vista paravisualizar los resultados sin cambiar losdatos.
Inducción al RapidMiner 5.1 www.kasperu.com
Página 20
Para propósitos de este ejercicio seconsultará el modelo con los datos deentrenamiento y con los datos originales.
Observe que el modelo se “transfiere”desde el operador Decisión Tree al primeroperador Apply Model y desde esteoperador al siguiente operador ApplyModel.
b) Resultados obtenidos.
Luego de ejecutar la definición del procesose obtiene los siguientes resultados:
Datos originales:
Datos de entrenamiento:
Observar que se han creado 3 atributosespeciales adicionales:
prediction respuesta del modeloconfidence_Yes Probabilidad de Yesconfidence_No Probabilidad de No
Estos atributos presentan los valores quese muestran en la siguiente tabla:
Observar que la suma de las confianzas es1.0 y que la predicción depende de laconfianza, la predicción corresponde a laconfianza que es > 0.5.
Inducción al RapidMiner 5.1 www.kasperu.com
Página 21
I. RENDIMIENTO DEL MODELO
Objetivo. Calcular el desempeño delmodelo (para el 100% de los datos)mediante la aplicación de las siguientesmedidas de evaluación:
a. Matriz de confusión.
El rendimiento del modelo se calcularáusando la matriz de confusión.
a) Calcular la medida de rendimiento.
La matriz de confusión se implementamediante el operador Performance.
En contraste con los otros métodos deevaluación de rendimiento, como porejemplo el rendimiento de clasificación,rendimiento de clasificación binomial o derendimiento de regresión, este operador sepuede utilizar para todo tipo de tareas deaprendizaje.Se determinará automáticamente el tipo detarea de aprendizaje y calcular los criteriosmás comunes para este tipo.
El operador requiere como entrada losdatos etiquetados con la predicción.
Cómo resultado se obtiene la medida deperformance y los datos etiquetados.
El operador tiene un solo parámetro quepor lo general no se usa, indica si el pesode ejemplo se debe utilizar para loscálculos de rendimiento.
b) Resultados obtenidos
Datos originalestrue Yes true No sum class
precision
pred. Yes 705 4,293 4,998 14.11%
pred. No 295 4,707 5,002 94.10%
sum 1,000 9,000
class recall 70.50% 52.30%
El %VP es del 70.50% y el %VN es del52.30%.
El %VPP es del 14.11% y del VPN es del94.10%
Datos de entrenamientotrue Yes true No sum class
precision
pred. Yes 705 482 1,187 59.39%
pred. No 295 517 812 63.67%
Sum 1,000 999
class recall 70.50% 51.75%
El %VP es del 70.50% y el %VN es del51.75%.
El %VPP es del 59.39% y del VPN es del63.67%
Observe que el %VP es similar en amboscasos, pero que el %VPP con los datosoriginales es menor que en el caso de losdatos de entrenamiento.
Inducción al RapidMiner 5.1 www.kasperu.com
Página 22
J. MODELO NAIVE BAYES
a) Modelo Naive Bayes.
El modelo naive bayes clasifica usando unadistribución normal estimada.
Considera que cada atributo influye demanera independiente en el resultado.
Tiene un único parámetro Laplacecorrection, se usa para reducir la influencia delcero en la probabilidad.
b) Modificación del Modelo.
Modifique la definición de procesos parareemplazar el operador Decision Tree porel operador Naive Bayes.
Por otro lado elimine los operadores dereducción de dimensionalidad dado quecuando se usa el operador Apply Modeleste requiere el los atributos de la consultacoincidan con los atributos del modelo.
El resto del modelo permanece igual.
c) Resultados obtenidos
Datos originalestrueYes
trueNo sum
classprecision
pred. Yes 660 3,376 4,036 16.35%
pred. No 340 5,624 5,964 94.30%
sum 1,000 9,000
class recall 66.00% 62.49%
El %VP es del 66.00% y el %VN es del62.49%.
El %VPP es del 16.35% y del VPN es del94.30%
Datos de entrenamientotrueYes
trueNo sum
classprecision
pred. Yes 660 363 1,023 64.52%
pred. No 340 636 976 65.16%
sum 1,000 999
class recall 66.00% 63.66%
El %VP es del 66.00% y el %VN es del63.66%.
El %VPP es del 64.52% y del VPN es del65.16%
Observe que el %VP es similar en amboscasos, pero que el %VPP con los datosoriginales es menor que en el caso de losdatos de entrenamiento.
Inducción al RapidMiner 5.1 www.kasperu.com
Página 23
K. MODELO REDES NEURONALES
a) Red Neuronal.
El modelo de redes neuronales es aplicablesolo para atributos numéricos, por lo quees necesario asegurar que todos los datossean numéricos (enteros o reales).
b) Parámetros de la Red Neuronal
hidden layers: Neuronas de las capasintermedias.
training cycles: Épocas default: 500 learning rate: Ratio de aprendizaje. momentum: momentum de decay: Indica si el ratio de aprendizaje
se reduce en el tiempo shuffle: Indica si la data de entrada es
reordenada antes del aprendizaje normalize: Indica si la data es
normalizada en el rango -1 a +1 error epsilon: Error de entrenamiento
mínimo para detener el entrenamiento.
Dejando por defecto los parámetros de lacapa intermedia se obtiene la siguientearquitectura, 12 neuronas en la capa deentrada, 9 neuronas en la capa intermediay 2 neuronas en la capa de salida.
c) Modelo de la Red Neuronal
Diseñe la siguiente definición de procesos,donde se incluye un operador queconvierte los valores nominales anuméricos.
Inducción al RapidMiner 5.1 www.kasperu.com
Página 24
d) Preparación de datos
Antes de proceder a trabajar con la redneuronal es necesario convertir todos losatributos categóricos a numéricos
Use el operador Nominal to Numericalpara convertir los valores categóricos envalores numéricos mediante elprocedimiento de numbering.
Asigne los siguientes parámetros aloperador:
d) Resultados obtenidos
Datos originalestrueYes
trueNo sum
classprecision
pred. Yes 794 3,743 4,537 17.50%
pred. No 206 5,257 5,463 96.23%
sum 1,000 9,000
class recall 79.40% 58.41%
El %VP es del 79.40.00% y el %VN es del58.41%.