minería de datos aplicada a cultivos de...
Post on 24-Sep-2018
222 Views
Preview:
TRANSCRIPT
Minería de datos aplicada a cultivos de maíz
Trabajo Profesional para obtener grado de Ingeniero en Informática
Autores
Damián Gambin 77691 Eduardo Pallotta 77527
Directores Dr. Ramón García Martínez
Lic. Darío Rodríguez
Radicación Laboratorio de Sistemas Inteligentes
Buenos Aires, Argentina
Octubre, 2009
Resumen
En este trabajo se proponen e implementan procesos de explotación de información
aplicados a la agronomía, dentro del área de Ecofisiología de Cultivos de Maíz; en el
marco de un proyecto de investigación sobre los atributos que debe cumplir una
planta de maíz para producir mayores rendimientos.
Abstract
In this paper we propose and implement data mining processes applied to agronomy,
within the area of Corn Crop Ecophysiology; as part of a research project on the
attributes that a corn plant must have in order to produce higher yields.
Minería de datos aplicada a cultivos de maíz - Índice
Índice
Resumen ...................................................................................................................................................2 Abstract ....................................................................................................................................................2 Índice........................................................................................................................................................3 1. Introducción..........................................................................................................................................5
1.1 Dominio .........................................................................................................................................5 1.2 Metodologías .................................................................................................................................5 1.3 Herramientas................................................................................................................................10 1.4 Contenido del trabajo...................................................................................................................11
2. Comprensión del negocio ...................................................................................................................12 2.1 Objetivos del negocio ..................................................................................................................12
2.1.1 Contexto...............................................................................................................................12 2.1.1.1 Organización ................................................................................................................12 2.1.1.2 Área del Problema........................................................................................................13 2.1.1.3 Solución actual .............................................................................................................13
2.1.2 Objetivo del negocio ............................................................................................................13 2.1.3 Criterio de éxito ...................................................................................................................13
2.2 Evaluación de la situación ...........................................................................................................13 2.2.1 Inventario de recursos ..........................................................................................................14
2.2.1.1 Recursos de software....................................................................................................14 2.2.1.2 Recursos de hardware...................................................................................................14 2.2.1.3 Fuentes de datos y conocimiento..................................................................................14 2.2.1.4 Recursos humanos........................................................................................................14
2.2.2 Requerimientos, suposiciones y restricciones......................................................................15 2.2.3 Terminología........................................................................................................................15
2.2.3.1 Terminología del negocio.............................................................................................15 2.2.3.2 Terminología de minería de datos ................................................................................16
2.3 Objetivos de minería de datos......................................................................................................17 2.3.1 Objetivos de minería de datos ..............................................................................................17 2.3.2 Criterio de éxito de minería de datos ...................................................................................17
2.4 Plan de proyecto ..........................................................................................................................18 2.5 Evaluación inicial de herramientas y técnicas .............................................................................20
2.5.1 Problemas.............................................................................................................................20 2.5.1.1 Clasificación.................................................................................................................20 2.5.1.2. Segmentación ..............................................................................................................20 2.5.1.3 Análisis de dependencias..............................................................................................21
2.5.2 Técnicas ...............................................................................................................................21 2.5.2.1 TDIDT - Top Down Induction Decision Trees ............................................................21 2.5.2.2 Redes Neuronales SOM ...............................................................................................22 2.5.2.3 Redes Bayesianas .........................................................................................................22
3 Comprensión de los datos....................................................................................................................23 3.1 Recolección inicial de datos ........................................................................................................23 3.2 Descripción de datos....................................................................................................................24
3.2.1 Atributos clase .....................................................................................................................26 3.2.1.1 Atributo Rendimiento...................................................................................................26 3.2.1.2 Atributo NGP ...............................................................................................................26 3.2.1.3 Atributo PG ..................................................................................................................27
3.3 Exploración de datos....................................................................................................................27 3.3.1 Análisis de clases .................................................................................................................27 3.3.2 Análisis de atributos.............................................................................................................29 3.3.3 Relaciones entre atributos y clases.......................................................................................33
3.4 Verificación de la calidad de los datos ........................................................................................34 4 Preparación de datos............................................................................................................................35
4.1 Selección de datos........................................................................................................................35 4.2 Limpieza de datos ........................................................................................................................36
4.2.1 Análisis de clases .................................................................................................................37
3
Minería de datos aplicada a cultivos de maíz - Índice
4.2.2 Análisis de atributos.............................................................................................................39 4.3 Construcción de datos..................................................................................................................43 4.4 Formateo de datos........................................................................................................................43
5 Modelado.............................................................................................................................................45 5.1 Selección de las técnicas de modelado ........................................................................................45
5.1.1 Técnicas de Modelado .........................................................................................................45 5.1.1.1 Redes bayesianas aplicadas a la ponderación de reglas de comportamiento................45 5.1.1.2 SOM y TDIDT aplicados al descubrimiento de reglas de pertenencia a grupos ..........46
5.1.2 Suposiciones del modelado..................................................................................................46 5.2 Diseño de la prueba .....................................................................................................................47
5.2.1 Validación cruzada...............................................................................................................47 5.2.2 Dejar-uno-afuera (Leave-one-out) .......................................................................................48
5.3 Construcción de los modelos .......................................................................................................48 5.3.1 Seteo de parámetros .............................................................................................................48 5.3.2 Modelos ...............................................................................................................................49
5.3.2.1 Ponderación de reglas del negocio - Rendimiento .......................................................49 5.3.2.2 Ponderación de reglas del negocio - NGP....................................................................60 5.3.2.3 Ponderación de reglas del negocio - PG.......................................................................71 5.3.2.4 Descubrimiento de reglas de pertenencia a grupos.......................................................82
5.4 Evaluación de los modelos ..........................................................................................................87 5.4.1 Descripción de los resultados de la herramienta ..................................................................87 5.4.2 Evaluación de los modelos...................................................................................................88
5.4.2.1 Clasificación de Rendimiento ......................................................................................88 5.4.2.2 Clasificación de NGP...................................................................................................89 5.4.2.3 Clasificación de PG......................................................................................................90 5.4.2.4 Clasificación de Pertenencia a Grupos .........................................................................91
6 Evaluación ...........................................................................................................................................93 6.1 Evaluación de los modelos......................................................................................................93
6.1.1 Ponderación de reglas del negocio – Rendimiento..........................................................93 6.1.2 Ponderación de reglas del negocio – NGP ......................................................................94 6.1.3 Ponderación de reglas del negocio – PG .........................................................................94 6.1.4 Descubrimiento de reglas de pertenencia a grupos .........................................................94
6.2 Valoración de los resultados por los expertos .........................................................................96 7 Conclusión...........................................................................................................................................98 8 Referencias ..........................................................................................................................................99
4
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
5
1. Introducción
En este capitulo se introduce al dominio, las metodologías adoptadas (sección 1.2), a
las herramientas utilizadas (sección 1.3) y a el contexto del trabajo (sección 1.4).
1.1 Dominio
El Área de Ecofisiología de Cultivos de Grano de la Facultad de Ciencias Agrarias de
la Universidad Nacional de Rosario se dedica a la investigación de las características
ecofisiológicas de las plantas de maíz, medidas durante el crecimiento, con el fin de
determinar las incidencias de las mismas en el rendimiento final del cultivo.
Las características ecofisiológicas de las plantas de maíz en estudio son diámetros de
tallo y espigas, altura y peso de la planta, tasa de crecimiento, todos ellas medidas en
las etapas de pre floración, post floración, llenado y madurez. En el capitulo 2 se
amplían los conceptos mencionados y en el capitulo 3 se enumeran y describen las
características consideradas en la investigación.
La finalidad del mencionado trabajo de investigación es encontrar un ideotipo de
planta que produzca los mayores rendimientos a través de sus componentes (número
de grano y peso individual de grano), con el objetivo futuro de determinar las bases
genéticas por un lado, y de mejorar la predicción de actuales modelos de simulación
de rendimiento de cultivos por otro. Para ello, el entendimiento de cómo se genera el
rendimiento es de vital importancia.
1.2 Metodologías
La Explotación de Información (DM, Data Mining) consiste en la extracción de
conocimiento no trivial que reside de manera implícita en los datos disponibles en
distintas fuentes de información [Schiefer et al., 2004]. Dicho conocimiento es
previamente desconocido y puede resultar útil para algún proceso [Stefanovic et al.,
2006]. Para un experto normalmente no son los datos en sí lo más relevante, sino el
conocimiento que se encierra en sus relaciones, fluctuaciones y dependencias.
Un proceso de información o un proceso de explotación de información [Curtis et al.,
1992], puede definirse como un conjunto de tareas relacionadas lógicamente, que se
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
ejecutan para lograr a partir de un conjunto de información con un grado de valor para
la organización, otro conjunto de información con un grado de valor mayor que el
inicial [Ferreira et al., 2005; Hann et al., 2007].
Cada proceso de explotación de información define un conjunto de información de
entrada, un conjunto de transformaciones y un conjunto de información de salida.
Un proyecto de Explotación de Información involucra, en general las siguientes fases
[Maimon y Rokach, 2005]: comprensión del negocio y del problema que se quiere
resolver, determinación, obtención y limpieza de los datos necesarios, creación de
modelos matemáticos, ejecución, validación de los algoritmos, comunicación de los
resultados obtenidos; e integración de los mismos, si procede, con los resultados en un
sistema transaccional o similar. La relación entre todas estas fases tiene una
complejidad que se traduce en una jerarquía de subfases.
Como consecuencia de la experiencia acumulada en proyectos de Explotación de
Información se han ido desarrollando metodologías que permiten gestionar esta
complejidad de una manera uniforme. La comunidad científica considera
metodologías probadas a CRISP-DM, SEMMA y P3TQ.
Si bien las tres metodologías identifican técnicas de explotación de información
utilizables, para el presente proyecto se ha escogido la metodología CRISP-DM
debido a que está diseñada como una metodología independiente de la herramienta
tecnológica a utilizar en la Explotación de Datos, haciéndola más flexible. Además, a
diferencia de SEMMA y P3TQ, identifica problemas de inteligencia de negocio
(conjunto de estrategias y herramientas enfocadas a la administración y creación de
conocimiento mediante el análisis de datos existentes en una organización) y hace una
caracterización parcialmente abstracta de los mismos. A su vez identifica las
relaciones entre las técnicas de explotación de información y las variables que
modelan los problemas de inteligencia de negocio esbozando parcialmente los
procesos a desarrollar.
La metodología CRISP-DM [Chapman et al., 1999] consta de cuatro niveles de
abstracción, organizados de forma jerárquica en tareas que van desde el nivel más
general hasta los casos más específicos.
6
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
A nivel más general, el proceso está organizado en seis fases, estando cada fase a su
vez estructurada en varias tareas generales de segundo nivel o subfases.
Las tareas generales se proyectan a tareas específicas, donde se describen las acciones
que deben ser desarrolladas para situaciones específicas. Así, si en el segundo nivel se
tiene la tarea general “limpieza de datos”, en el tercer nivel se dicen las tareas que
tienen que desarrollarse para un caso específico, como por ejemplo, “limpieza de
datos numéricos”, o “limpieza de datos categóricos”. El cuarto nivel, recoge el
conjunto de acciones, decisiones y resultados sobre el proyecto de Explotación de
Información específico.
La metodología CRISP-DM proporciona dos documentos distintos como herramienta
de ayuda en el desarrollo del proyecto de Explotación de Información: el modelo de
referencia y la guía del usuario.
El documento del modelo de referencia describe de forma general las fases, tareas
generales y salidas de un proyecto de Explotación de Información en general. La guía
del usuario proporciona información más detallada sobre la aplicación práctica del
modelo de referencia a proyectos de Explotación de Datos específicos,
proporcionando consejos y listas de comprobación sobre las tareas correspondientes a
cada fase.
La metodología CRISP-DM estructura el ciclo de vida de un proyecto de Explotación
de Información en seis fases, que interactúan entre ellas de forma iterativa durante el
desarrollo del proyecto (figura 1.1).
7
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
Comprensión del Negocio
Comprensión de los Datos
Preparación de los Datos
Datos Implementación Altura
Modelado
Evaluación
Figura 1.2 Fases de la metodología CRISP-DM
Las flechas indican las relaciones más habituales entre las fases, aunque se pueden
establecer relaciones entre fases cualesquiera. El círculo exterior simboliza la
naturaleza cíclica del proceso de modelado. En la figura 1.2, se detallan las fases que
componen a la metodología CRISP-DM.
Figura 1.2 Fases componentes de la metodología CRISP-DM
La primera fase de análisis del problema, incluye la comprensión de los objetivos y
requerimientos del proyecto desde una perspectiva empresarial, con el fin de
convertirlos en objetivos técnicos y en una planificación.
La segunda fase de análisis de datos comprende la recolección inicial de datos, en
orden a que sea posible establecer un primer contacto con el problema, identificando
la calidad de los datos y estableciendo las relaciones más evidentes que permitan
establecer las primeras hipótesis.
Comprensión del Comprensión de Preparación de Modelado Evaluación Implementación negocio los datos los datos
8
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
Una vez realizado el análisis de datos, la metodología establece que se proceda a la
preparación de los datos, de tal forma que puedan ser tratados por las técnicas de
modelado.
La preparación de datos incluye las tareas generales de selección de datos a los que se
va a aplicar la técnica de modelado (variables y muestras), limpieza de los datos,
generación de variables adicionales, integración de diferentes orígenes de datos y
cambios de formato.
La fase de preparación de los datos, se encuentra muy relacionada con la fase de
modelado, puesto que en función de la técnica de modelado que vaya a ser utilizada
los datos necesitan ser procesados en diferentes formas. Por lo tanto las fases de
preparación y modelado interactúan de forma sistemática.
En la fase de modelado se seleccionan las técnicas de modelado más apropiadas para
el proyecto de Explotación de Información específico. Las técnicas a utilizar en esta
fase se seleccionan en función de los siguientes criterios: ser apropiada al problema,
disponer de datos adecuados, cumplir los requerimientos del problema, tiempo
necesario para obtener un modelo y conocimiento de la técnica.
Antes de proceder al modelado de los datos se debe de establecer un diseño del
método de evaluación de los modelos, que permita establecer el grado de bondad de
los modelos.
Una vez realizadas estas tareas genéricas se procede a la generación y evaluación del
modelo. Los parámetros utilizados en la generación del modelo dependen de las
características de los datos. En la fase de evaluación, se evalúa el modelo, no desde el
punto de vista de los datos, sino desde el cumplimiento de los criterios de éxito del
problema. Se debe revisar el proceso seguido, teniendo en cuenta los resultados
obtenidos, para poder repetir algún paso en el que, a la vista del desarrollo posterior
del proceso, se hayan podido cometer errores. Si el modelo generado es válido en
función de los criterios de éxito establecidos en la primera fase, se procede a la
aplicación del modelo.
9
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
1.3 Herramientas
A continuación se presentan 2 de las herramientas libres mas utilizadas como software
de minería de datos.
Weka es una extensa colección de algoritmos de Máquinas de conocimiento
desarrollados por la Universidad de Waikato (Nueva Zelanda) implementados en Java
[1, 2], útiles para ser aplicados sobre datos mediante las interfaces que ofrece o para
embeberlos dentro de cualquier aplicación. Además Weka contiene las herramientas
necesarias para realizar transformaciones sobre los datos, tareas de clasificación,
regresión, clustering, asociación y visualización. Weka está diseñado como una
herramienta orientada a la extensibilidad por lo que añadir nuevas funcionalidades es
una tarea sencilla.
Tanagra es un software libre de minería de datos para propósitos académicos y de
investigación. Propone varios métodos de minería de datos a partir de análisis
exploratorio de datos, aprendizaje estadístico, aprendizaje automático y base de datos.
Provee varios paradigmas de aprendizaje supervisado, agrupamiento, análisis
factorial, reglas de asociación, etc.
Para el presente proyecto se ha seleccionado Tanagra como herramienta de minería de
datos debido a:
Tanagra es fácil e intuitivo de utilizar.. Weka es una herramienta con una
usabilidad bastante pobre, difícil de comprender y manejar.
Tanagra presenta una extensa documentación y tutoriales, mientras que Weka
casi no posee documentación orientada al usuario.
La principal ventaja de Tanagra con respecto a Weka reside en la habilidad de
encadenar fácilmente operaciones sobre datos generados por otros métodos,
por ejemplo, aplicar la generación de reglas de clasificación a los datos
obtenidos de un agrupamiento (clustering), concepto fundamental para
modelar procesos basados en tecnologías de sistemas inteligentes combinados,
como se muestran en la sección 5.1.
10
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
1.4 Contenido del trabajo
El trabajo se estructura en siete capítulos: “Introducción”, “Comprensión del
negocio”, “Comprensión de los datos”, “Preparación de los datos”, “Modelado”,
“Evaluación”, “Conclusión” y “Referencias”.
En el capítulo “Introducción” se introduce al dominio, las metodologías adoptadas, a
las herramientas utilizadas y al contexto del trabajo.
En el capítulo “Comprensión del negocio” se presentan los objetivos del negocio,
evaluación de la situación, objetivos de minería de datos, plan de proyecto y la
evaluación inicial de herramientas y técnicas.
En el capítulo “Comprensión de los datos” se detalla la recolección inicial de datos,
descripción de datos, exploración de datos y verificación de la calidad de los datos.
El capítulo “Preparación de los datos” describe la selección de datos, limpieza de
datos, construcción de datos y formateo de datos.
En el capítulo “Modelado” se presenta la selección de técnicas de modelado, diseño
de la prueba, construcción de los modelos y la evaluación de los modelos.
El capitulo “Evaluación” describe la evaluación de los modelos y valoración de los
resultados por los expertos.
En el capítulo “Conclusión” se detallan los aportes y la conclusión final del trabajo.
En el capítulo “Referencias” se listan todas las publicaciones consultadas para el
desarrollo de este trabajo.
11
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
12
2. Comprensión del negocio
Esta fase se centra en comprender los objetivos y los requerimientos del proyecto
desde una perspectiva del negocio, y luego en convertir este conocimiento en la
definición de un problema de minería de datos y en un plan preliminar designado para
alcanzar los objetivos.
Se presentan los objetivos del negocio (sección 2.1), evaluación de la situación
(sección 2.2), objetivos de minería de datos (sección 2.3), plan de proyecto (sección
2.4) y la evaluación inicial de herramientas y técnicas (sección 2.5).
2.1 Objetivos del negocio
Se presenta la descripción del contexto (sección 2.1.1), objetivos del negocio (sección
2.1.2) y criterio de éxito (sección 2.1.3).
2.1.1 Contexto
Actualmente la Facultad de Ciencias Agrarias de la Universidad Nacional de Rosario
esta realizando un trabajo de investigación sobre los atributos que debe cumplir una
planta de maíz para producir mayores rendimientos, a través de sus componentes
(número de granos y peso individual del grano).
El objetivo de la investigación es encontrar un ideotipo de planta que produzca altos
rendimientos.
2.1.1.1 Organización
El área involucrada en este proyecto es la de Ecofisiología de Cultivos de Grano, su
organización esta conformada como se indica en la tabla 2.1.
Nombre Rol Responsabilidad
Dr. Lucas Borrás Investigador adjunto Supervisor
Dra. Brenda Gambin Investigador asistente Análisis e interpretación de
datos
Ing. Alan Severini Becario de maestría del INTA
Pergamino Toma de datos a campo
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
Tabla 2.1 Organización del área
2.1.1.2 Área del Problema
El Área de Ecofisiología de Cultivos de Grano se dedica a la investigación de las
características ecofisiológicas de las plantas de maíz, medidas durante el crecimiento,
con el fin de determinar las incidencias de las mismas en el rendimiento final del
cultivo.
La minería de datos debe ser promovida en esta actividad ya que permitiría el
descubrimiento de patrones que pueden ser de interés para el área.
2.1.1.3 Solución actual
La lectura superficial de los datos y estadística básica provista por la aplicación
Microsoft Excel y Statistix 7 son las herramientas utilizadas para determinar los
planes de acción de la investigación.
Una de las principales desventajas de estas herramientas es que pueden no extraer
conocimiento no trivial que resida de manera implícita en los datos disponibles.
2.1.2 Objetivo del negocio
Enriquecer la investigación aportando información implícita sobre las relaciones entre
características ecofisiológicas de una planta y su rendimiento, a través de sus
componentes (número de granos y peso individual del grano).
2.1.3 Criterio de éxito
El proyecto será considerará exitoso si se descubren relaciones desconocidas hasta el
momento entre las características ecofisiológicas de una planta y su rendimiento, que
resulten de interés para el área.
El criterio de éxito será evaluado por los investigadores de la organización.
2.2 Evaluación de la situación
En esta sección se describe el inventario de recursos (sección 2.2.1), requerimientos,
suposiciones y restricciones (sección 2.2.2) y la terminología (sección 2.2.3).
13
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
2.2.1 Inventario de recursos
Los recursos son presentados en cuatro categorías, recursos de software (sección
2.2.1.1), recursos de hardware (sección 2.2.1.2), fuentes de datos y conocimientos
(sección 2.2.1.3) y recursos humanos (sección 2.2.1.4).
2.2.1.1 Recursos de software
Los recursos de software involucrados en el proyecto se enumeran en la tabla 2.2.
Descripción Software
Servidor de base de datos MySQL Server 5.1
Cliente de base de datos MySQL Query Browser 5.0
Planilla de calculo Microsoft Excel 2003
Software de Minería de Datos Tanagra 1.4
Tabla 2.2 Recursos de software
2.2.1.2 Recursos de hardware
Los recursos de hardware involucrados en el proyecto se enumeran en la tabla 2.3.
Descripción Hardware
Equipamiento para servidor de base de
datos y entrenamiento de los modelos AMD Athlon™ 64 3200+, 1GB de RAM
Tabla 2.3 Recursos de hardware
2.2.1.3 Fuentes de datos y conocimiento
Las fuentes de datos y conocimientos involucrados en el proyecto se enumeran en la
tabla 2.4.
Descripción Fuente
Datos obtenidos de mediciones realizadas
sobre cada planta durante el transcurso de
su crecimiento
Planilla Microsoft Excel
Tabla 2.4 Fuentes de datos y conocimiento
2.2.1.4 Recursos humanos
Los recursos humanos involucrados en el proyecto se enumeran en la tabla 2.5.
14
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
Recurso Comentarios
Analistas en minería de datos
Se requieren 2 analistas en minería de
datos para llevar a cabo el modelado e
implementación de la solución
Expertos
Se requiere disponibilidad de los
profesionales que actualmente se
desempeñan en el Área de Ecofisiología
de Cultivos de Grano llevando a cabo la
investigación, para ser consultados en las
siguientes etapas del proyecto
Tabla 2.5 Recursos humanos
2.2.2 Requerimientos, suposiciones y restricciones
Los resultados obtenidos deben ser presentados en un formato comprensible para ser
interpretados por profesionales sin conocimientos técnicos ni de las técnicas de
minería de datos.
Se supone que el conjunto de datos recolectados para la investigación es suficiente y
representativo a los fines de la investigación y que los mismos se encuentran
disponibles al personal involucrado en el proyecto, incluyendo a los analistas en
minería de datos.
Los investigadores deben disponer de los resultados obtenidos del análisis de este
proyecto durante la etapa de planeamiento de la investigación, con el fin de ser
utilizados para definir los lineamientos de la misma.
2.2.3 Terminología
Se presenta la terminología del negocio (sección 2.3.2.1) y la terminología de minería
de datos (sección 2.3.2.2).
2.2.3.1 Terminología del negocio
En la tabla 2.6 se detalla la terminología del negocio.
15
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
Término Descripción
Espiga Estructura reproductiva femenina (llamado
comúnmente choclo)
Floración
Momento en el que el 50% de las plantas se
encuentran en el estado de antesis (comienzo de
la liberación de polen)
Llenado Período de crecimiento de los granos luego de
su fecundación
Madurez Fin del ciclo del cultivo (momento en el cual se
define el rendimiento final del mismo)
NGP Numero de granos por planta
PG Peso individual del grano
TCP Tasa de crecimiento de la planta (incremento de
peso seco de planta en el tiempo)
Tiempo térmico
Unidad de tiempo utilizada en fisiología de
cultivos para independizarse del efecto de la
temperatura sobre el desarrollo del mismo
Tabla 2.6 Terminología del negocio
2.2.3.2 Terminología de minería de datos
En la tabla 2.7 se detalla la terminología de minería de datos.
Término Descripción
Árbol de decisión
Estructura en forma de árbol que representa un
conjunto de decisiones. Estas decisiones
generan reglas para la clasificación de un
conjunto de datos
Clasificación
Proceso que asume que hay un conjunto de
objetos (caracterizados por algunos atributos)
en los cuales hay diferentes clases. El rótulo de
la clase es de valor discreto y se conoce en
cada objeto
Confianza
Para los que el antecedente de la regla es
verdadero, porcentaje de registros para los que
el consecuente también es verdadero
Tabla 2.7a Terminología de minería de datos
16
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
Término Descripción
Segmentación
Tiene por objetivo la separación de los datos en
subgrupos o clases interesantes. Todos los
elementos del subgrupo deben tener
características comunes
Soporte
.
Porcentaje de datos de entrenamiento para los
cuales el antecedente de la regla es verdadero.
Si para una observación el antecedente de la
regla es verdadero, decimos que la regla aplica
para esa observación. Mide cuán aplicable es la
regla
Tabla 2.7b Terminología de minería de datos
2.3 Objetivos de minería de datos
En esta sección se enuncian los objetivos de minería de datos propiamente dichos
(sección 2.3.1), así como también el criterio de éxito de minería de datos (sección
2.3.2).
2.3.1 Objetivos de minería de datos
Aplicar procesos de explotación de información para obtener cuales son las
características ecofisiológicas con mayor incidencia en el rendimiento y sus
componentes (número de granos y peso individual del grano) mediante el
descubrimiento de patrones de comportamiento.
2.3.2 Criterio de éxito de minería de datos
Encontrar patrones con un cierto nivel de exactitud que resulten de interés para los
investigadores (expertos).
17
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
2.4 Plan de proyecto
Las tareas del plan de proyecto se detallan en la tabla 2.8.
Tabla 2.8 Plan de proyecto
Etapa # Tarea Duración
(sem) Recursos Entradas Salidas Dependencias
1 Recolección inicial de los datos
1 Analista Planilla Excel
Reporte de recolección inicial de datos
2 Describir los datos
2 Experto. Analista
Reporte de recolección inicial de datos
Reporte de descripción de datos
1
3 Explorar los datos
2 Analista
Base de datos. Reporte de descripción de datos
Reporte de exploración de datos
2
Compresión de los datos
4 Verificar la calidad de los datos
2 Experto. Analista
Base de datos. Reporte de exploración de datos
Reporte de la calidad de datos
3
5 Seleccionar datos
3 Analista Base de datos
Razones de inclusión/exclusión
4
6 Limpiar datos 2 Analista Base de datos
Reporte de limpieza de datos
5
7 Construir datos
1 Experto. Analista
Base de datos
Reporte de construcción de datos
6
Preparación de datos
8 Formatear datos
1 Analista Base de datos
Reporte de formateo de datos
Set de datos. Descripción del set de datos
7
9 Seleccionar técnica de modelado
4 Analista
Set de datos. Descripción del set de datos
Técnica de modelado. Suposiciones del modelado
8
10 Generar diseño de prueba
2 Analista
Set de datos. Técnica de modelado. Suposiciones del modelado
Diseño de prueba 9
11 Construir modelos
3 Analista Set de datos
Seteo de parámetros. Modelos. Descripción de los modelos
9
Modelado
12 Evaluar modelos
3 Analista
Modelos. Descripción de los modelos
Evaluación de los modelos
10, 11
Evaluación
13 Evaluar resultados
4 Analista. Experto
Modelos
Evaluación de los resultados de minería de datos con respecto al criterio de éxito del negocio
12
18
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
19
Figura 2.1 Diagrama de Gantt
En la figura 2.1 se muestran las tareas del plan del proyecto en función del tiempo.
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
20
2.5 Evaluación inicial de herramientas y técnicas
Del objetivo del negocio [Britos, 2008],
2.5.1 Problemas
De la sección anterior se identifican
2.5.
La clasificación asum
atributos
y se conoce en cada objeto. El objetivo
(clas
anteriorm
2.5.
Tiene por objetivo la separación de los da
Todos los elem
las hipótesis de los subgrupos es relevante para los cuestionam
Se requiere identificar cuales son los factores con mayor incidencia (o
frecuencia de ocurrencia) sobre un determinado resultado de un problema.
Se requiere identificar cuales son las condiciones para obtener determinados
resultados en el dominio del problema.
Se requiere identificar cuales son las condiciones con mayor incidencia (o
frecuencia de ocurrencia) sobre la obtención de un determinado resultado en el
dominio del problema, sean éstas las que en mayor medida inciden sobre un
comportamiento o las que mejor definen la pertenencia a un grupo.
los siguientes problemas [Britos, 2008]:
Clasificación.
Segmentación.
Análisis de dependencias.
1.1 Clasificación
e que hay un conjunto de objetos (caracterizados por algunos
) en los cuales hay diferentes clases. El rótulo de la clase es de valor discreto
es lograr modelos de clasificación
ificadores) los cuales determinen correctamente la clase ante objetos no previstos
ente [Chapman et al., 1999].
1.2. Segmentación
tos en subgrupos o clases interesantes.
entos del subgrupo deben tener características comunes. El análisis de
ientos bases del
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
negocio sobre la base de la salida de la descripción de los datos y la sumarización
[Chapman et al., 1999].
2.5.1.3 Análisis de dependencias
El análisis de dependencias consiste en encontrar modelos que describan
dependencias o asociaciones significativas entre los datos. Las dependencias pueden
ser usadas como valores de predicción de un dato, teniendo información de los otros
datos. A través de las dependencias puede usarse un modelo predictivo. Las
asociaciones son una clase especial de dependencias, las asociaciones describen
afinidad entre los ítems. El análisis de dependencias tiene relaciones con la
clasificación y la predicción, donde las dependencias están implícitamente usadas
para la formulación de modelos predictivos [Chapman et al., 1999].
2.5.2 Técnicas
Las técnicas asociadas a los problemas mencionados en la sección anterior son las
siguientes [Britos, 2008]:
TDIDT.
Redes Neuronales SOM.
Redes bayesianas.
2.5.2.1 TDIDT - Top Down Induction Decision Trees
Estos algoritmos (TDIDT - Top Down Induction Decision Trees) pertenecen a los
métodos inductivos del Aprendizaje Automático que aprenden a partir de ejemplos
preclasificados [Quinlan, 1986]. A esta familia pertenecen los algoritmos: ID3, C4.5 y
C5. Estos algoritmos generan árboles y reglas de decisión a partir de ejemplos
preclasificados. Para construir los árboles se utiliza el método de aprendizaje
automático basado en la estrategia propuesta por Hunt en [Hunt et al., 1966], que
particiona el conjunto de ejemplos en subconjuntos a medida que avanza. Trabajar
sobre cada subconjunto es más sencillo que trabajar sobre el total de los datos.
21
Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio
2.5.2.2 Redes Neuronales SOM
Los mapas auto organizados o SOM (Self-Organizing Map), también llamados redes
de Kohonen [1995] son un tipo de red neuronal no supervisada competitiva, con
capacidad para formar mapas de características bidimensionales a partir del principio
de formación de mapas topológicos. Se orientan a descubrir la estructura subyacente
de los datos ingresados a partir de establecer características comunes entre los
vectores de información de entrada a la red. A lo largo del entrenamiento de la red;
los vectores de datos son introducidos en cada neurona y se comparan con el vector de
peso característico de la misma. La neurona que presenta menor diferencia entre su
vector de peso y el vector de datos es la neurona ganadora (o BMU) y ella y sus
vecinas verán modificados sus vectores de pesos.
2.5.2.3 Redes Bayesianas
Las redes bayesianas o probabilísticas se fundamentan en la teoría de la probabilidad
y combinan la potencia del teorema de Bayes con la expresividad semántica de los
grafos dirigidos; las mismas permiten representar un modelo causal por medio de una
representación gráfica de las independencias / dependencias entre las variables que
forman parte del dominio de aplicación [Pearl, 1988; Lauría y Duchéis, 2006]. Se
puede interpretar a una red bayesiana de dos formas: (a) distribución de probabilidad
que representa la distribución de la probabilidad conjunta de las variables
representadas en la red, ó (b) base de reglas en la que cada arco representa un
conjunto de reglas que asocian a las variables involucradas y están cuantificadas por
las probabilidades respectivas.
22
Minería de datos aplicada a cultivos de maíz - 3. Compresión de los datos
23
3 Comprensión de los datos
Esta fase comienza con una colección inicial de datos y procede con actividades para
familiarizarse con los mismos, identificar problemas de calidad y detectar
subconjuntos interesantes para formar hipótesis de información oculta.
En este capitulo se detalla la recolección inicial de datos (sección 3.1), descripción de
datos (sección 3.2), exploración de datos (sección 3.3) y verificación de la calidad de
los datos (sección 3.4).
3.1 Recolección inicial de datos
La fuente de información consiste de un archivo Excel con datos obtenidos de
mediciones realizadas sobre cada planta durante el transcurso de su crecimiento.
De la información provista, los atributos mencionados en la tabla 3.1, fueron
calificados como relevantes para satisfacer el objetivo:
Atributo
Diámetro Tallo Pre Floración
Altura Planta Pre Floración
Peso Planta Pre Floración
Diámetro Tallo Post Floración
Altura Planta Post Floración
Diam Espiga 1
Diam Espiga 2
Diam Espiga 3
Diam Espiga 4
Diam Espiga 5
Diam Espiga 6
Diam Espiga 7
Peso Planta Post Floración
Peso Planta Madurez
TCP Flor
Tabla 3.1a Atributos
Minería de datos aplicada a cultivos de maíz - 3. Compresión de los datos
Atributo
TCP Llenado
NGP
PG
Rendimiento
Genotipo
Tabla 3.1b Atributos
Los datos suministrados en la planilla Excel fueron exportados a una base de datos
relacional con el fin de facilitar las consultas necesarias en las siguientes fases del
proyecto.
3.2 Descripción de datos
De la planilla provista, se cuenta con 2444 de registros y 20 atributos.
Los atributos de la tabla 3.2 denotan las características del cultivo a ser tomadas en
cuenta para el análisis. Los mismos fueron identificados por el experto.
Nombre Descripción Dominio Rango
Diámetro Tallo Pre
Floración
Diámetro del tallo de la planta 15
días previos a la floración Numérico
9.9 – 38.34
[mm]
Altura Planta Pre
Floración
Altura de la planta 15 días
previos a la floración Numérico 15 – 93 [cm]
Peso Planta Pre
Floración
Peso de la planta 15 días previos
a la floración Numérico 5.38 – 118 [g]
Diámetro Tallo Post
Floración
Diámetro del tallo de la planta 15
días posteriores a la floración Numérico
10.73 – 36.23
[mm]
Altura Planta Post
Floración
Altura de la planta 15 días
posteriores a la floración Numérico 16 – 227 [cm]
Diam Espiga 1 Diámetro espiga 1 Numérico 0 – 54.34
[mm]
Diam Espiga 2 Diámetro espiga 2 Numérico 0 – 49.52
[mm]
Diam Espiga 3 Diámetro espiga 3 Numérico 0 – 42.39
[mm]
Tabla 3.2a Descripción de atributos
24
Minería de datos aplicada a cultivos de maíz - 3. Compresión de los datos
Nombre Descripción Dominio Rango
Diam Espiga 4 Diámetro espiga 4 Numérico 0 – 35.7
[mm]
Diam Espiga 5 Diámetro espiga 5 Numérico 0 – 32.68
[mm]
Diam Espiga 6 Diámetro espiga 6 Numérico 0 – 32.18
[mm]
Diam Espiga 7 Diámetro espiga 7 Numérico 0 – 14.57
[mm]
Peso Planta Post
Floración
Peso de la planta 15 días
posteriores a la floración Numérico
5.07 – 369.36
[g]
Peso Planta Madurez Peso de la planta en madurez
fisiológica Numérico
31.15 –
535.56 [g]
TCP Flor Tasa de crecimiento de la planta
alrededor de floración Numérico
-94.5 –
609.54
TCP Llenado Tasa de crecimiento de la planta
durante el llenado Numérico
-160.4 –
451.95
NGP Numero de granos por planta Numérico
PG Peso de grano Numérico [mg]
Rendimiento NGP x PG Numérico [g]
Tabla 3.2b Descripción de atributos
Adicionalmente se cuenta con el atributo Genotipo (tabla 3.3) que, por definición del
experto, no debe ser considerado por las herramientas a utilizar ya que el
experimento consta de analizar únicamente las características de las plantas durante su
crecimiento. Sin embargo puede servir como dato adicional durante la etapa de
interpretación de los resultados.
Genotipo Variedad de la semilla {1 , 10}
Tabla 3.3 Descripción de atributo Genotipo
Los atributos Diam Espiga 1, 2, 3, 4, 5, 6 y 7 tomaran un valor distinto de cero
siempre y cuando exista la espiga correspondiente, es decir, si una planta tiene solo
una espiga, el resto de los atributos Diam Espiga tendrán un valor igual a cero.
25
Minería de datos aplicada a cultivos de maíz - 3. Compresión de los datos
3.2.1 Atributos clase
Para llevar a cabo un análisis adecuado, el experto definió los siguientes atributos
clase a ser tratados en forma independiente:
3.2.1.1 Atributo Rendimiento
El atributo Rendimiento pertenece al dominio de los números continuos. El mismo fue
discretizado en las categorías mencionadas en la tabla 3.4 en función de los rangos
definidos por el experto.
Categoría Desde Hasta
A 0 53
B 53 106
C 106 159
D 159 212
E 212 265
F 265 318
G 318 ---
Tabla 3.4 Discretización del atributo Rendimiento
3.2.1.2 Atributo NGP
El atributo NGP pertenece al dominio de los números enteros. El mismo fue
clasificado en las categorías mencionadas en la tabla 3.5 en función de los rangos
definidos por el experto.
Categoría Desde Hasta
A 0 302
B 302 602
C 602 902
D 902 1202
E 1202 1502
F 1502 ---
Tabla 3.5 Discretización del atributo NGP
26
Minería de datos aplicada a cultivos de maíz - 3. Compresión de los datos
3.2.1.3 Atributo PG
El atributo PG pertenece al dominio de los números continuos. El mismo fue
discretizado en las categorías mencionadas en la tabla 3.6 en función de los rangos
definidos por el experto.
Categoría Desde Hasta
A 0 84
B 84 134
C 134 184
D 184 234
E 234 284
F 284 334
G 334 ---
Tabla 3.6 Discretización del atributo PG
3.3 Exploración de datos
Para esta sección se realizaron consultas y análisis estadísticos simples con el objetivo
de descubrir particularidades a ser tratadas en las secciones o fases siguientes.
3.3.1 Análisis de clases
En las figuras 3.1, 3.2 y 3.3 se analiza la distribución de los valores en las clases
Rendimiento, NGP y PG respectivamente, definidas en la sección 3.2.1.
27
Minería de datos aplicada a cultivos de maíz - 3. Compresión de los datos
Figura 3.1 Distribución de la clase Rendimiento
A
44%
B
38%
E
1%
F
1%D
5% G
0%C
11%
Sin Valor
4%
A
16%
D
4%
E
1%
C
11%
F
0%
B
64%
Figura 3.2 Distribución de la clase NGP
28
Minería de datos aplicada a cultivos de maíz - 3. Compresión de los datos
G
1%
B
34%
F
6%
C
26%
E
10%
D
13%
A
2%
Sin Valor
8%
Figura 3.3 Distribución de la clase PG
En las clases Rendimiento y NGP se observa que la mayoría de los registros están
distribuidos en rangos de valores bajos (A y B) mientras que en la clase PG la
distribución es más pareja.
Además se observa que hay registros que no tienen valor asignado para las clases
NGP y PG.
3.3.2 Análisis de atributos
Las figuras 3.4, 3.5 ilustran casos en los que aparecen valores muy alejados de la
media de la población:
29
Minería de datos aplicada a cultivos de maíz - 3. Compresión de los datos
Diámetro Tallo Pre Floración
90
80
70
60
50
40
30
20
10
0
0 500 1000 1500 2000 2500 3000
Figura 3.4 Distribución para el atributo Diámetro Tallo Pre Floración
Peso Planta Pre Floración
500
450
400
350
300
250
200
150
100
50
0
0 500 1000 1500 2000 2500 3000
Figura 3.5 Distribución para el atributo Peso Planta Pre Floración
30
Minería de datos aplicada a cultivos de maíz - 3. Compresión de los datos
Los atributos Diámetro Tallo Pre Floración y Peso Planta Pre Floración muestran
registros cuyo valor dista significativamente del resto de la población.
En las figuras 3.6, 3.7, 3.8 y 3.9 se ilustran casos en los que ciertos registros adoptan
valores absurdos para algunos atributos, por ejemplo pesos, alturas y diámetros
menores o iguales a cero:
0
50
100
150
200
250
0 500 1000 1500 2000 2500 3000
Figura 3.6 Distribución para el atributo Altura Planta Post Floración
31
Minería de datos aplicada a cultivos de maíz - 3. Compresión de los datos
Diámetro Tallo Post Floración
35
25
30
15
20
10
5
0
40
0 500 1000 1500 2000 2500 3000
Figura 3.7 Distribución para el atributo Diámetro Tallo Post Floración
Peso Planta Post Floración
500
400
300
200
100
0
0 500 1000 1500 2000 2500 3000 -100
-200
-300
Figura 3.8 Distribución para el atributo Peso Planta Post Floración
32
Minería de datos aplicada a cultivos de maíz - 3. Compresión de los datos
Peso Planta Madurez
600
500
400
300
200
100
0
0 500 1000 1500 2000 2500 3000
Figura 3.9 Distribución para el atributo Peso Planta Madurez
3.3.3 Relaciones entre atributos y clases
Analizando las relaciones entre atributos y clases se encontró que hay una tendencia
creciente de las clases (NGP, PG y Rendimiento) a medida que aumenta el valor del
atributo Peso Planta Madurez, ver figura 3.10.
33
Minería de datos aplicada a cultivos de maíz - 3. Compresión de los datos
1800
1600
1400
1200
1000 NGP
PG
Rendimiento 800
600
400
200 261 284 307
247 338 388 154 159 164 171 177 183 190 197 206 214 224 234132 138 143 148
Figura 3.10 Relación entre las clases y el atributo Peso Planta Madurez
3.4 Verificación de la calidad de los datos
En la tabla 3.6 se enumeran los atributos y la cantidad de registros con valores
faltantes respectivamente:
Atributo Cantidad de registros con valores
faltantes
Peso Planta Madurez 76
TCP Floración 352
TCP Llenado 67
NGP 97
PG 188
Tabla 3.6 Atributos con valores faltantes
Adicionalmente se analizaron los valores absurdos (0 o negativos) para los atributos
mencionados en la sección 3.3.2. Ver tabla 3.7.
Atributo Comentario
Altura Planta Post Floración 34 registros en cero
Diámetro Tallo Post Floración 34 registros en cero
Peso Planta Post Floración 23 registros con valores negativos
Tabla 3.7 Atributos con valores absurdos
0 31.2 72.2 89.6 100 108 115 127
12
34
Minería de datos aplicada a cultivos de maíz - 4. Preparación de datos
35
4 Preparación de datos
Esta fase cubre todas las actividades para construir el set final de datos (que
alimentarán las herramientas de modelado) a partir de los datos iniciales. Las tareas de
la preparación de datos se pueden ejecutar muchas veces y sin un orden
preestablecido. Las tareas incluyen selección de tabla, registro y atributo, así como tan
bien, transformación y limpieza de datos para las herramientas de modelado.
Este capitulo presenta la selección de datos (sección 4.1), limpieza de datos (sección
4.2), construcción de datos (sección 4.3) y formateo de datos (sección 4.4).
4.1 Selección de datos
Los datos seleccionados para el análisis son los mencionados en la sección 3.2: Los
atributos se detallan en la tabla 4.1 y las clases en la tabla 4.2.
Atributo
Diámetro Tallo Pre Floración
Altura Planta Pre Floración
Peso Planta Pre Floración
Diámetro Tallo Post Floración
Altura Planta Post Floración
Diam Espiga 1
Diam Espiga 2
Diam Espiga 3
Diam Espiga 4
Diam Espiga 5
Diam Espiga 6
Diam Espiga 7
Peso Planta Post Floración
Peso Planta Madurez
TCP Flor
TCP Llenado
Tabla 4.1 Atributos
Minería de datos aplicada a cultivos de maíz - 4. Preparación de datos
Clases
NGP
PG
Rendimiento
Tabla 4.2 Clases
4.2 Limpieza de datos
En función de lo analizado en la sección 3.4, por recomendación del experto, se
eliminan los registros mencionados en la tabla 3.6, ya que el hecho de tener atributos
con valores faltantes da en indicio que los registros en cuestión fueron excluidos de la
investigación por razones externas (por ejemplo, planta enferma):
Eliminación de registros con atributo Peso Planta Madurez faltante: 76
registros eliminados.
Eliminación de registros con atributo TCP Floración faltante: 342 registros
eliminados.
Eliminación de registros con atributo TCP Llenado faltante: 5 registros
eliminados.
Eliminación de registros con atributo NGP faltante: 30 registros eliminados.
Eliminación de registros con atributo PG faltante: 89 registros eliminados.
Lo que da un total de 542 registros eliminados.
Cabe destacar que los registros con valores absurdos mencionados en la tabla 3.7,
desaparecieron al eliminar los registros con valores faltantes.
El nuevo conjunto de datos ahora consta de 1902 registros de los 2444 mencionados
en la sección 3.2.
Se realiza nuevamente el análisis efectuado en la sección 3.3 pero en esta oportunidad
con el conjunto de datos limpios:
36
Minería de datos aplicada a cultivos de maíz - 4. Preparación de datos
4.2.1 Análisis de clases
En las figuras 4.1, 4.2 y 4.3 se analiza nuevamente la distribución de los valores en las
clases:
12%
C 0%
G5%
D 1%
F1%
E
38%
B
43%
A
Figura 4.1 Distribución de la clase Rendimiento
37
Minería de datos aplicada a cultivos de maíz - 4. Preparación de datos
Figura 4.2 Distribución de la clase NGP
A
19%
B
64%
E
1%F
0%D
4%
C
12%
C
25%
G
1%
D
13%
F
6%
E
12% B
40%
A
3%
Figura 4.3 Distribución de la clase PG
Se observa que, luego de la limpieza, no ha hay registros sin valor asignado para las
clases NGP y PG.
38
Minería de datos aplicada a cultivos de maíz - 4. Preparación de datos
4.2.2 Análisis de atributos
Las figuras 4.4 y 4.5 ilustran los casos en los que aparecían en la sección 3.3 con
valores muy alejados de la media de la población:
Diámetro Tallo Pre Floración
45
40
35
30
25
20
15
10
5
0
0 500 1000 1500 2000
Figura 4.4 Distribución para el atributo Diámetro Tallo Pre Floración
39
Minería de datos aplicada a cultivos de maíz - 4. Preparación de datos
Peso Planta Pre Floración
140
120
100
80
60
40
20
0
0 500 1000 1500 2000
Figura 5.5 Distribución para el atributo Peso Planta Pre Floración
Se observa que, luego de la limpieza, ya no se presentan registros cuyo valor diste
significativamente del resto de la población.
En las figuras 4.6, 4.7, 4.8 y 4.9 se ilustran casos en los que en la sección 3.3 ciertos
registros adoptan valores absurdos:
40
Minería de datos aplicada a cultivos de maíz - 4. Preparación de datos
Altura Planta Post Floración
250
200
150
100
50
0
0 500 1000 1500 2000
Figura 4.6 Distribución para el atributo Altura Planta Post Floración
Diámetro Tallo Post Floración
40
35
30
25
20
15
10
5
0
0 500 1000 1500 2000
Figura 4.7 Distribución para el atributo Diámetro Tallo Post Floración
41
Minería de datos aplicada a cultivos de maíz - 4. Preparación de datos
Peso Planta Post Floración
400
350
300
250
200
150
100
50
0
0 500 1000 1500 2000
Figura 4.8 Distribución para el atributo Peso Planta Post Floración
Peso Planta Madurez
600
500
400
300
200
100
0
0 500 1000 1500 2000
Figura 4.9 Distribución para el atributo Peso Planta Madurez
42
Minería de datos aplicada a cultivos de maíz - 4. Preparación de datos
Se observa que, luego de la limpieza, ya no se presentan registros con valores
absurdos.
4.3 Construcción de datos
Por solicitud del experto, para el análisis de la clase PG se reemplazan los atributos
TCP Floración y TCP Llenado por dos atributos equivalentes pero expresados en
unidades por grano, por lo tanto se crean los siguientes atributos derivados que se
observan en la tabla 4.3.
Nombre Descripción Dominio Rango
TCP Flor (xG) TCP Flor/NGP Numérico -1.03 – 75.47
TCP Llenado (xG) TCP Llenado/NGP Numérico -5.4 – 18.77
Tabla 4.3 Atributos derivados
4.4 Formateo de datos
Como se detallo en la sección 3.2, los atributos a ser tomados en cuenta para el
análisis pertenecen al dominio de los números continuos pero, dependiendo del la
técnica seleccionada, puede ser necesario discretizar mencionados atributos debido a
precondiciones de los modelos:
TDIDT: Admite atributos tanto continuos como discretos.
Redes neuronales SOM: Admite solamente atributos continuos.
Redes bayesianas: Admite solamente atributos discretos.
Las clases ya fueron discretizadas por el experto en la sección 3.2.1. El resto de los
atributos, en función de lo acordado también con el experto, se discretizarán en cinco
intervalos equidistantes. Ver tabla 4.4.
43
Minería de datos aplicada a cultivos de maíz - 4. Preparación de datos
Nombre Intervalo
1
Intervalo
2
Intervalo
3
Intervalo
4
Intervalo
5
Diámetro Tallo Pre
Floración < 16 16 - 21 21 – 27 27 - 33 > 33
Altura Planta Pre
Floración < 31 31 - 46 46 – 62 62 - 77 > 77
Peso Planta Pre
Floración < 28 28 - 51 51 – 73 73 - 96 > 96
Diámetro Tallo
Post Floración < 7 7 - 14 14 – 22 22 - 29 > 29
Altura Planta Post
Floración < 45 45 - 91 91 – 136 136 - 182 > 182
Diam Espiga 1 < 11 11 - 22 22 – 33 33 - 43 > 43
Diam Espiga 2 < 10 10 -20 20 – 30 30 - 40 > 40
Diam Espiga 3 < 8 8 - 17 17 – 25 25 - 34 > 34
Diam Espiga 4 < 7 4 - 14 14 – 21 21-28 >28
Diam Espiga 5 < 7 7 - 13 13 – 20 20 - 27 > 27
Peso Planta Post
Floración < 68 68 - 143 149 – 219 219 - 294 > 294
Peso Planta
Madurez < 132 132 - 233 233 -334 334 - 435 > 435
TCP Flor < 46 46 - 187 187 – 328 328 - 469 > 469
TCP Llenado < -38 -38 - 84 84 – 207 207 - 329 > 329
Tabla 4.4 Discretización de atributos
44
Minería de datos aplicada a cultivos de maíz - 5. Modelado
45
5 Modelado
En esta fase, son seleccionadas y aplicadas varias técnicas de modelado, y sus
parámetros calibrados a los valores óptimos. Típicamente existen varias técnicas para
un mismo tipo de problema de minería de datos. Algunas técnicas tienen
requerimientos específicos en la forma de los datos. Por lo tanto, es necesario,
frecuentemente, retroceder a la fase de preparación de datos.
Este capitulo presenta la selección de técnicas de modelado (sección 5.1), diseño de la
prueba (sección 5.2), construcción de los modelos (sección 5.3) y evaluación de los
modelos (sección 5.4).
5.1 Selección de las técnicas de modelado
Se presentan las técnicas de modelado (sección 5.1.1) y las suposiciones del modelado
(sección 5.1.2).
5.1.1 Técnicas de Modelado
No se propone una técnica para cada problema, sino que una combinación de las
mismas para estudiar cada problema [Britos, 2008]:
Técnica 1: Redes Bayesianas Aplicadas a la Ponderación de Reglas de
Comportamiento.
Técnica 2: SOM y TDIDT aplicados al descubrimiento de Reglas de Pertenencia a
Grupos.
5.1.1.1 Redes bayesianas aplicadas a la ponderación de reglas de comportamiento
Se propone la utilización de algoritmos de inducción TDIDT [Britos et al., 2008b]
para descubrir las reglas de comportamiento de cada atributo clase y posteriormente
se utilizan redes bayesianas para descubrir cual de los atributos establecidos como
antecedente de las reglas tiene mayor incidencia sobre el atributo establecido como
consecuente. Ver figura 5.1.
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.1 Redes bayesianas aplicadas a la ponderación de reglas de comportamiento
5.1.1.2 SOM y TDIDT aplicados al descubrimiento de reglas de pertenencia a grupos
Para el descubrimiento de reglas de pertenencia a grupos se propone, para el hallazgo
de los mismos, la utilización de mapas auto-organizados (SOM) y, una vez
identificados los grupos, la utilización de algoritmos de inducción (TDIDT) con el
objeto de establecer las reglas de pertenencia a cada uno [Britos et al., 2005; Cogliati
et al., 2006a; Britos et al., 2008a]. Ver figura 5.2.
Seleccionar Atributo
Aplicar Algoritmo
TDIDT
Reglas
Aplicar Algoritmo de
Redes Bayesianas
Reglas Ponderadas
Grupos
Aplicar Algoritmo
TDIDT
Reglas de Grupos
Aplicar Algoritmo SOM
Figura 5.2 SOM y TDIDT aplicados al descubrimiento de reglas de pertenencia a grupos
5.1.2 Suposiciones del modelado
No hay registros con valores faltantes. Todos lo registros tienen sus datos
cargados.
No se presentan registros cuyo valor diste significativamente del resto de la
población.
No existen atributos con valores fuera de rango (absurdos).
46
Minería de datos aplicada a cultivos de maíz - 5. Modelado
5.2 Diseño de la prueba
Se utilizará el método de dejar uno afuera (leave one out) siendo que es el mas
apropiado para pequeños conjuntos de datos porque, en cierta medida, evalúa todas
las posibilidades [García Martínez et al., 2003]
5.2.1 Validación cruzada
En la validación cruzada [García Martínez et al., 2003], se determina con anterioridad
una cierta cantidad de pliegos o particiones de los datos. Supongamos que utilizamos
tres, es decir, los datos se dividen al azar en tres particiones de aproximadamente la
misma cantidad, y cada una a su turno se utiliza para prueba mientras las otras dos se
utilizan para entrenamiento. Por lo tanto utilizamos un tercio para prueba dos tercios
para entrenamiento, y repetimos el procedimiento tres veces. Las tres proporciones de
error obtenidas se promedian para llegar a una proporción de error general. Este
procedimiento conocido como validación cruzada de tres pliegues (threefold cross-
validation), puede trabajar con datos estratificados, en cuyo caso seria validación
cruzada de tres pliegues estratificada.
Podemos generalizar el método para llegar a una validación cruzada de n pliegues,
estratificada o no. El caso mas utilizado para predecir la proporción de error de una
técnica de aprendizaje es utiliza una validación cruzada de diez pliegues. Además las
pruebas han demostrado que el uso de la estratificación mejora los resultados
levemente [Witten y Frank, 2000]. Utilizar una validación cruzada de diez pliegues
puede no ser suficiente para obtener un buen estimador de la proporción de error.
Distintas validaciones cruzadas de diez pliegues dan distintos resultados dado que la
división de pliegues se realiza al azar. La estratificación reduce la variación entre los
resultados pero no la elimina.
Si se quiere obtener una estimación de la proporción de error muy precisa,
generalmente, se repite la validación cruzada de diez pliegues diez veces y se
promedian los resultados. Esto implica invocar al algoritmo de aprendizaje cien veces
con conjuntos de datos del tamaño del 90% del conjunto original. Obtener una buena
medida de la performance es un método que consume grandes recursos
computacionales.
47
Minería de datos aplicada a cultivos de maíz - 5. Modelado
5.2.2 Dejar-uno-afuera (Leave-one-out)
La validación cruzada de diez pliegues [García Martínez et al., 2003] es una manera
normalmente utilizada para estimar la proporción de error, pero no es la única.
Existen otras técnicas bastante populares como la de dejar-uno-afuera. Esta técnica es
simplemente una validación cruzada de n pliegues donde n es el numero de instancias
del conjunto de datos. Por turnos cada una de las instancias se deja afuera y se entrena
el clasificador con el resto de las instancias. Se lo evalúa según el resultado de la
clasificación de la instancia que había quedado afuera. Los resultados de las n
evaluaciones luego se promedian para determinar la proporción de error.
Este procedimiento es atractivo por dos razones [Witten y Frank, 2000]. Primero, se
utiliza la mayor cantidad de ejemplos posibles para el entrenamiento, lo cual se
presupone incrementa la posibilidad de que el clasificador sea correcto. Segundo, el
procedimiento es determinístico: no se parten datos al azar. Además, no tiene sentido
repetir el procedimiento diez ni cien veces, ya que siempre se observará el mismo
resultado. Debe tenerse en cuenta que dado el alto costo computacional de aplicar este
método, no es factible utilizarlo para grandes conjuntos de datos. Sin embargo, este
método es el mejor para pequeños conjuntos de datos porque, en cierta medida, evalúa
todas las posibilidades.
5.3 Construcción de los modelos
Se presenta el seteo de parámetros de los modelos (sección 5.3.1) y el resultado de la
ejecución de los modelos (sección 5.3.2).
5.3.1 Seteo de parámetros
En la tabla 5.1 se describen los valores de los parámetros de los modelos.
48
Minería de datos aplicada a cultivos de maíz - 5. Modelado
C4.5
Min Size of Leaves 20
Confidence Level 0.7
Kohonem SOM
Row Size 3
Col Size 3
Distance Normalization Variance
Seed Random Generator Standard
Naive Bayes
Use laplacian prob estimate Yes
Lambda 1
Tabla 5.1 Seteo de parámetros
5.3.2 Modelos
Se presentan los resultados de la generación de reglas de clasificación y la
ponderación de las mismas para las clases Rendimiento (sección 5.3.2.1), NGP
(sección 5.3.2.2) y PG (sección 5.3.2.3). Y el descubrimiento de reglas de pertenencia
a grupos (sección 5.3.2.4).
5.3.2.1 Ponderación de reglas del negocio - Rendimiento
En esta sección se presentan los resultados de la generación de reglas de clasificación,
luego de aplicar el algoritmo TDIDT,(sección 5.3.2.1.1) y la ponderación de las
mismas, utilizando redes bayesianas, (sección 5.3.2.1.2) para la clase Rendimiento.
5.3.2.1.1 TDIDT
En la tabla 5.2 se detallan las reglas de clasificación originadas al aplicar el algoritmo
TDIDT a la clase Rendimiento.
49
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Regla Condición
Ren
dim
ien
to
Con
fian
za
Sop
orte
A1
If
And
And
And
And
And
Altura Planta Post Floración >= 181.0
Diámetro Tallo Pre Floración >= 22.8
Altura Planta Pre Floración >= 54.5
Diámetro Tallo Post Floración >= 20.1
Diam Espiga 1< 32.6
139.2 <= Peso Planta Madurez < 234.9
A 80% 20
A2
If
And
And
And
And
Diámetro Tallo Post Floración < 18.8
Peso Planta Post Floración >= 87.0
Altura Planta Post Floración >= 164.5
Diam Espiga 3 < 22.6
102.7 <= Peso Planta Madurez < 139.2
A 80% 57
A3
If
And
And
And
Altura Planta Post Floración < 164.5
Diámetro Tallo Post Floración < 22.0
Diam Espiga 3 < 22.6
102.7 <= Peso Planta Madurez < 139.2
A 79% 122
A4
If
And
And
And
18.8 <= Diam Espiga 2 < 28.7
TCP Llenado >= 127.1
Diam Espiga 1 >= 32.6
139.2 <= Peso Planta Madurez < 234.9
A 63% 49
A5
If
And
And
And
Altura Planta Pre Floración < 54.5
Diámetro Tallo Post Floración >= 20.1
Diam Espiga 1< 32.6
139.2 <= Peso Planta Madurez < 234.9
A 87% 178
A6
If
And
And
Diámetro Tallo Post Floración >= 22.0
Diam Espiga 3 < 22.6
102.7 <= Peso Planta Madurez < 139.2
A 97% 126
A7 If
And
Diam Espiga 3 < 22.6
Peso Planta Madurez < 102.7 A 99% 236
B1 If
And
Diam Espiga 3 >= 22.6
Peso Planta Madurez < 139.2 B 77% 22
Tabla 5.2a Reglas para la clase Rendimiento
50
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Regla Condición
Ren
dim
ien
to
Con
fian
za
Sop
orte
B2
If
And
And
And
And
Diámetro Tallo Pre Floración < 22.8
Altura Planta Pre Floración >= 54.5
Diámetro Tallo Post Floración >= 20.1
Diam Espiga 1< 32.6
139.2 <= Peso Planta Madurez < 234.9
B 66% 27
B3
If
And
And
And
Diam Espiga 2 < 18.8
TCP Llenado >= 127.1
Diam Espiga 1 >= 32.6
139.2 =< Peso Planta Madurez < 234.9
B 75% 32
B4
If
And
And
And
And
And
Diámetro Tallo Pre Floración < 22.6
Altura Planta Pre Floración < 60.5
Diámetro Tallo Post Floración >= 19.7
TCP Llenado < 127.1
Diam Espiga 1 >= 32.6
139.2 <= Peso Planta Madurez < 189.4
B 88% 25
B5
If
And
And
And
And
And
Diámetro Tallo Pre Floración >= 22.6
Altura Planta Pre Floración < 60.5
Diámetro Tallo Post Floración >= 19.705
TCP Llenado < 127.1
Diam Espiga 1 >= 32.6
170.1 <= Peso Planta Madurez < 189.4
B 66% 27
B6
If
And
And
And
And
Altura Planta Pre Floración >= 60.5
Diámetro Tallo Post Floración >= 19.7
TCP Llenado < 127.1
Diam Espiga 1 >= 32.6
139.2 <= Peso Planta Madurez < 189.4
B 92% 75
B7
If
And
And
And
Diámetro Tallo Post Floración < 19.705
TCP Llenado < 127.1
Diam Espiga 1 >= 32.6
139.2 <= Peso Planta Madurez<189.4
B 98% 90
Tabla 5.2b Reglas para la clase Rendimiento
51
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Regla Condición
Ren
dim
ien
to
Con
fian
za
Sop
orte
B8
If
And
And
TCP Llenado<127.1
Diam Espiga 1 >= 32.6
189.4 <= Peso Planta Madurez < 234.9
B 84% 173
B9
If
And
And
Diam Espiga 2 < 28.8
Altura Planta Post Floración < 201.0
234.9 <= Peso Planta Madurez < 263.7
B 70% 58
B10
If
And
And
Diámetro Tallo Post Floración < 20.1
Diam Espiga 1 < 32.6
139.2 <= Peso Planta Madurez < 234.9
B 79% 86
C1 If
And
Altura Planta Post Floración >= 201.0
234.9 <= Peso Planta Madurez < 317.6 C 66% 33
C2
If
And
And
Diam Espiga 2 < 35.1
Diámetro Tallo Post Floración >= 26.2
317.6 <= Peso Planta Madurez < 383.8
C 80% 20
C3
If
And
And
And
Peso Planta Pre Floración < 46.2
Diam Espiga 2 >= 28.8
Altura Planta Post Floración < 201.0
234.9 <= Peso Planta Madurez < 263.7
C 80% 20
C4
If
And
And
Diámetro Tallo Pre Floración < 25.0
Altura Planta Post Floración < 201.0
263.7 <= Peso Planta Madurez < 317.6
C 84% 26
C5
If
And
And
And
TCP Llenado < 237.0
Diámetro Tallo Pre Floración >= 25.0
Altura Planta Post Floración < 201.0
263.7 <= Peso Planta Madurez < 317.6
C 75% 61
D1 If
And
Diámetro Tallo Post Floración < 26.2
317.6 <= Peso Planta Madurez < 383.8 D 79% 43
Tabla 5.2c Reglas para la clase Rendimiento
52
Minería de datos aplicada a cultivos de maíz - 5. Modelado
5.3.2.1.2 Redes bayesianas
En las figuras 5.3, 5.4, 5.5, 5.6, 5.7, 5.8 y 5.9 se detalla la ponderación de los atributos
para las reglas obtenidas en la sección 5.3.2.1.1.
Figura 5.3 Rendimiento clase A
53
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.4 Rendimiento clase B
54
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.5 Rendimiento clase C
55
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.6 Rendimiento clase D
56
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.7 Rendimiento clase E
57
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.8 Rendimiento clase F
58
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.9 Rendimiento clase G
59
Minería de datos aplicada a cultivos de maíz - 5. Modelado
5.3.2.2 Ponderación de reglas del negocio - NGP
En esta sección se presentan los resultados de la generación de reglas de clasificación,
luego de aplicar el algoritmo TDIDT,(sección 5.3.2.2.1) y la ponderación de las
mismas, utilizando redes bayesianas, (sección 5.3.2.2.2) para la clase NGP.
5.3.2.2.1 TDIDT
En la tabla 5.3 se detallan las reglas de clasificación originadas al aplicar el algoritmo
TDIDT a la clase NGP.
Regla Condición
NG
P
Con
fian
za
Sop
orte
A1
If
And
And
And
And
And
And
Diam Espiga 2 < 14.3
TCP Flor < 243.2
Diam Espiga 1 < 29.7
80.4 <= Peso Planta Madurez < 245.5
110.1 <= Peso Planta Post Floración < 197.1
Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.9
A 89% 35
A2
If
And
And
And
And
And
And
TCP Flor < 158.4
Peso Planta Post Floración < 110.1
Diam Espiga 2 < 14.3
Diam Espiga 1 < 29.7
80.4 <= Peso Planta Madurez < 245.5
Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.9
A 68% 56
A3
If
And
And
And
And
And
Diam Espiga 1 >= 38.3
Altura Planta Pre Floración < 36.5
80.4 <= Peso Planta Madurez < 245.5
Peso Planta Post Floración < 197.1
Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.9
A 92% 24
Tabla 4.3a Reglas para la clase NGP
60
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Regla Condición
NG
P
Con
fian
za
Sop
orte
A4
If
And
And
And
And
And
And
Altura Planta Post Floración >= 176.5
Altura Planta Pre Floración >= 36.5
Diam Espiga 1 >= 29.7
80.4 <= Peso Planta Madurez < 245.5
Peso Planta Post Floración < 197.1
13.3 <= Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.9
A 67% 21
A5
If
And
And
And
And
Diam Espiga 2 < 20.0
Peso Planta Madurez < 80.4
Peso Planta Post Floración < 197.1
Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.9
A 95% 82
B1
If
And
And
And
Peso Planta Madurez < 231.9
Peso Planta Post Floración >= 197.1
Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.9
B 94% 33
B2
If
And
And
And
And
And
Diámetro Tallo Post Floración >= 28.5
Diam Espiga 2 < 30.8
231.9 <= Peso Planta Madurez < 366.9
Peso Planta Post Floración >= 197.1
Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.9
B 100% 21
B3
If
And
And
And
And
TCP Flor >= 243.2
Diam Espiga 1 < 29.7
80.4 <= Peso Planta Madurez < 245.5
Peso Planta Post Floración < 197.1
Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.9
B 81% 31
Tabla 4.3b Reglas para la clase NGP
61
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Regla Condición
NG
P
Con
fian
za
Sop
orte
B4
If
And
And
And
And
And
And
Peso Planta Post Floración < 110.1
Diam Espiga 2 < 14.3
158.4 <= TCP Flor < 243.2
Diam Espiga 1 < 29.7
80.4 <= Peso Planta Madurez < 245.5
Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.9
B 75% 32
B5
If
And
And
And
And
And
29.75 <= Diam Espiga 1 < 38.3
Altura Planta Pre Floración < 36.5
167.1 <= Peso Planta Madurez < 245.5
Peso Planta Post Floración < 197.1
Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.9
B 100% 26
B6
If
And
And
And
And
And
And
Diam Espiga 2 >= 15.7
80.4 <= Peso Planta Madurez < 167.1
29.7 <= Diam Espiga 1 < 38.3
Altura Planta Pre Floración < 36.5
Peso Planta Post Floración < 197.1
Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.9
B 89% 36
B7
If
And
And
And
And
And
And
Diam Espiga 2 >= 14.3
TCP Flor < 243.2
24.7 <= Diam Espiga 1 < 29.7
80.4 <= Peso Planta Madurez < 245.5
Peso Planta Post Floración < 197.1
Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.9
B 71% 207
Tabla 4.3c Reglas para la clase NGP
62
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Regla Condición
NG
P
Con
fian
za
Sop
orte
B8
If
And
And
And
And
And
And
Altura Planta Post Floración < 176.5
Altura Planta Pre Floración >= 36.5
Diam Espiga 1 >= 29.7
80.4 <= Peso Planta Madurez < 245.5
Peso Planta Post Floración < 197.1
13.3 <= Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.9
B 77% 83
B9
If
And
And
And
And
And
Diam Espiga 3 < 13.3
Altura Planta Pre Floración >= 36.5
Diam Espiga 1 >= 29.7
80.4 <= Peso Planta Madurez < 245.5
Peso Planta Post Floración < 197.1
Diam Espiga 5 < 9.9
B 90% 706
B10 If
And
Diámetro Tallo Pre Floración >= 24.2
Peso Planta Madurez >= 288.0
Peso Planta Post Floración < 197.1
Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.9
B 77% 44
B11
If
And
And
And
245.5 <= Peso Planta Madurez < 288.0
Peso Planta Post Floración < 197.1
Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.
B 88% 90
C1
If
And
And
And
And
Diámetro Tallo Pre Floración >= 27.6
Peso Planta Madurez >= 366.9
Peso Planta Post Floración >= 197.1
Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.9
C 89% 27
Tabla 4.3d Reglas para la clase NGP
63
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Regla Condición
NG
P
Con
fian
za
Sop
orte
C2
If
And
And
And
And
Diámetro Tallo Pre Floración < 24.2
Peso Planta Madurez >= 288.0
Peso Planta Post Floración < 197.1
Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.9
C 68% 22
C3
If
And
And
And
And
Diam Espiga 2 >= 30.8
231.9 <= Peso Planta Madurez < 366.9
Peso Planta Post Floración >= 197.1
Diam Espiga 3 < 23.3
Diam Espiga 5 < 9.9
C 73% 71
D1 If
And
Diam Espiga 3 >= 30.9
Diam Espiga 5 < 9.9 D 67% 21
Tabla 4.3e Reglas para la clase NGP
5.3.2.2.2 Redes bayesianas
En las figuras 5.10, 5.11, 5.12, 5.13, 5.14 y 5.15 se detalla la ponderación de los
atributos para las reglas obtenidas en la sección 5.3.2.2.1.
64
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.10 NGP clase A
65
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.11 NGP clase B
66
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.12 NGP clase C
67
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.13 NGP clase D
68
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.14 NGP clase E
69
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.15 NGP clase F
70
Minería de datos aplicada a cultivos de maíz - 5. Modelado
5.3.2.3 Ponderación de reglas del negocio - PG
En esta sección se presentan los resultados de la generación de reglas de clasificación,
luego de aplicar el algoritmo TDIDT,(sección 5.3.2.3.1) y la ponderación de las
mismas, utilizando redes bayesianas, (sección 5.3.2.3.2) para la clase PG.
5.3.2.3.1 TDIDT
En la tabla 5.4 se detallan las reglas de clasificación originadas al aplicar el algoritmo
TDIDT a la clase PG.
Regla Condición
PG
Con
fian
za
Sop
orte
A1
If
And
And
And
TCP Llenado (xG) < 0.08
TCP Flor (xG) < 0.2
Altura Planta Post Floración < 161.5
Diam Espiga 1 < 35.9
A 72% 29
B1
If
And
And
And
Diámetro Tallo Post Floración < 26.5
Altura Planta Post Floración < 157.5
TCP Llenado (xG) < 0.2
Diam Espiga 1 >= 35.9
B 69% 51
B2
If
And
And
And
And
And
Altura Planta Pre Floración >= 60.5
Peso Planta Madurez >= 148.1
TCP Flor (xG) >= 0.2
TCP Llenado (xG) < 0.6
Altura Planta Post Floración < 161.5
Diam Espiga 1 < 35.95
B 92% 25
B3
If
And
And
And
And
Diam Espiga 2 >= 20.9
TCP Llenado (xG) >= 0.2
TCP Flor (xG) < 1.0
Altura Planta Post Floración >= 161.5
Diam Espiga 1 < 35.9
B 69% 51
Tabla 5.4a Reglas para la clase PG
71
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Regla Condición
PG
Con
fian
za
Sop
orte
B4
If
And
And
And
TCP Flor (xG) < 0.2
0.08 <= TCP Llenado (xG) < 0.6082
Altura Planta Post Floración < 161.5
Diam Espiga 1 < 35.9
B 83% 76
B5
If
And
And
And
And
And
TCP Flor (xG) < 0.4
Altura Planta Pre Floración >= 46.5
Peso Planta Madurez < 153.2
TCP Llenado (xG) < 0.2
Altura Planta Post Floración >= 161.5
Diam Espiga 1 < 35.9
B 83% 41
B6
If
And
And
And
And
Peso Planta Madurez < 148.1
TCP Flor (xG) >= 0.2
TCP Llenado (xG) < 0.6
Altura Planta Post Floración < 161.5
Diam Espiga 1 < 35.9
B 91% 375
B7
If
And
And
And
And
And
And
Diámetro Tallo Post Floración >= 26.7
Altura Planta Pre Floración < 60.5
Peso Planta Madurez >= 148.1
TCP Flor xG >= 0.2
TCP Llenado xG < 0.6
Altura Planta Post Floración < 161.5
Diam Espiga 1 < 35.9
B 89% 37
B8
If
And
And
And
And
And
And
And
Peso Planta Post Floración >= 137.7
TCP Flor xG >= 0.4
Diámetro Tallo Post Floración < 26.7
Altura Planta Pre Floración < 60.5
Peso Planta Madurez >= 148.1
TCP Llenado xG < 0.6
Altura Planta Post Floración < 161.5
Diam Espiga 1 < 35.9
B 78% 49
Tabla 5.4b Reglas para la clase PG
72
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Regla Condición
PG
Con
fian
za
Sop
orte
C1
If
And
And
And
And
Peso Planta Madurez >= 176. 0
TCP Flor (xG) < 0.6
Altura Planta Post Floración >= 157.5
TCP Llenado (xG) < 0.2
Diam Espiga 1 >= 35.9
C 77% 94
C2
If
And
And
And
And
Peso Planta Madurez >= 153.2
TCP Llenado (xG) < 0.2
TCP Flor (xG) < 1.0
Altura Planta Post Floración >= 161.5
Diam Espiga 1 < 35.9
C 84% 120
C3
If
And
And
And
And
And
Altura Planta Pre Floración < 46.5
131.2 <= Peso Planta Madurez < 153.2
TCP Llenado (xG) < 0.2
TCP Flor (xG) < 1.0
Altura Planta Post Floración >= 161.5
Diam Espiga 1 < 35.9
C 95% 21
C4
If
And
And
And
And
And
Peso Planta Madurez < 212.
Diam Espiga 1 > =39.7
TCP Flor xG < 0.8
TCP Llenado xG < 0.1
Diámetro Tallo Post Floración >= 21.6
Altura Planta Post Floración >= 157.5
C 92% 25
C5
If
And
And
And
And
And
And
And
And
Diam Espiga 2 < 22.0
Peso Planta Post Floración < 137.7
TCP Flor xG >= 0.4
Diámetro Tallo Post Floración < 26.7
Altura Planta Pre Floración < 60.5
Peso Planta Madurez >= 148.1
TCP Llenado xG < 0.6
Altura Planta Post Floración<161.5
Diam Espiga 1 < 35.9
C 77% 26
Tabla 5.4c Reglas para la clase PG
73
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Regla Condición
PG
Con
fian
za
Sop
orte
D1
If
And
And
And
Peso Planta Post Floración < 125.4
0.3116 <= TCP Flor (xG) < 0.6
TCP Llenado (xG) >= 0.2
Diam Espiga 1 >= 35.9
D 67% 27
D2
If
And
And
And
And
Diam Espiga 1 >= 46.4
Diámetro Tallo Post Floración >= 22.5
Peso Planta Post Floración >= 125.4
0.3 <= TCP Flor (xG) < 0.6
TCP Llenado (xG) >= 0.2
D 68% 31
E1
If
And
And
And
And
TCP Llenado (xG) >= 0.4
41.8050 < =Diam Espiga 1 < 46.4
Diámetro Tallo Post Floración >= 22.5
Peso Planta Post Floración >= 125.4
0.3<=TCP Flor (xG) < 0.6
E 72% 57
F1
If
And
And
TCP Flor (xG) < 0.3
TCP Llenado (xG) >= 0.2
Diam Espiga 1 >= 35.9
F 72% 46
Tabla 5.4d Reglas para la clase PG
5.3.2.3.2 Redes bayesianas
En las figuras 5.16, 5.17, 5.18, 5.19, 5.20, 5.21 y 5.22 se detalla la ponderación de los
atributos para las reglas obtenidas en la sección 5.3.2.3.1.
74
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.16 PG clase A
75
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.17 PG clase B
76
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.18 PG clase C
77
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.19 PG clase D
78
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.20 PG clase D
79
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.21 PG clase F
80
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Figura 5.22 PG clase G
81
Minería de datos aplicada a cultivos de maíz - 5. Modelado
5.3.2.4 Descubrimiento de reglas de pertenencia a grupos
En esta sección se presentan los resultados de la aplicación de SOM para
descubrimiento de grupos (sección 5.3.2.4.1) y el descubrimiento de las reglas de
pertenencia a grupos (sección 5.3.2.4.2).
5.3.2.4.1 Mapas auto organizados (SOM) aplicados al descubrimiento de grupos
Se utilizará Mapas Auto Organizados de Kohonen (SOM) para el descubrimiento de
grupos sobre los datos que no disponen de ningún criterio de agrupamiento “a priori”.
El resultado de la aplicación de SOM genera la distribución de los distintos registros
en 8 grupos, detallados en la tabla 5.5.
1 2 3
1 13 423 577
2 54 337 0
3 161 218 119
Tabla 5.5 Distribución de registros en grupos
Por ejemplo el grupo 3.1 contiene 161 registros.
82
Minería de datos aplicada a cultivos de maíz - 5. Modelado
5.3.2.4.2 TDIDT
En la tabla 5.5 se detallan las reglas de pertenencia a grupos originadas al aplicar el
algoritmo TDIDT.
Regla Condición
Gru
po
Con
fian
za
Sop
orte
1 If
And
Diam Espiga 5 >= 16.3
Diam Espiga 4 >= 13.5 1.1 52 25
2
If
And
And
And
And
And
Diámetro Tallo Pre Floración >= 20.6
Peso Planta Post Floración < 132.6
Peso Planta Pre Floración < 25.1
Diámetro Tallo Post Floración < 21.8
Peso Planta Madurez < 234.4
Diam Espiga 4 < 13.5
1.2 56.67% 30
3
If
And
And
And
And
And
And
Peso Planta Post Floración >= 142.1
Rendimiento < 50.9
Peso Planta Post Floración < 164.6
Altura Planta Pre Floración >= 51.5
Diámetro Tallo Post Floración >= 21.8
Peso Planta Madurez < 234.4
Diam Espiga 4 < 13.5
1.2 80% 25
4
If
And
And
And
Altura Planta Pre Floración < 51.5
Diámetro Tallo Post Floración >= 21.8
Peso Planta Madurez < 234.4
Diam Espiga 4 < 13.5
1.2 91.73% 375
5
If
And
And
And
And
Peso Planta Post Floración >= 132.6
Peso Planta Pre Floración < 25.1
Diámetro Tallo Post Floración < 21.8
Peso Planta Madurez < 234.4
Diam Espiga 4 < 13.5
1.3 69.44% 36
Tabla 5.6a Reglas de pertenencia a grupos
83
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Regla Condición
Gru
po
Con
fian
za
Sop
orte
6
If
And
And
And
And
And
And
And
Diam Espiga 1 >= 33.8
Diam Espiga 2 < 18.6
Peso Planta Pre Floración < 36.1
TCP Llenado < 54.5
Peso Planta Pre Floración >= 25.1
Diámetro Tallo Post Floración < 21.8
Peso Planta Madurez < 234.4
Diam Espiga 4 < 13.5
1.3 69.70% 33
7
If
And
And
And
And
And
Rendimiento >= 50.9
Peso Planta Post Floración < 164.6
Altura Planta Pre Floración >= 51.5
Diámetro Tallo Post Floración >= 21.8
Peso Planta Madurez < 234.4
Diam Espiga 4 < 13.5
1.3 71.43% 77
8
If
And
And
And
And
And
And
Peso Planta Post Floración < 142.1
Rendimiento < 50.9
Peso Planta Post Floración < 164.6
Altura Planta Pre Floración >= 51.5
Diámetro Tallo Post Floración >= 21.8
Peso Planta Madurez < 234.4
Diam Espiga 4 < 13.5
1.3 77.27% 22
9
If
And
And
And
And
And
And
Diam Espiga 2 >= 18.6
Peso Planta Pre Floración < 36.1
TCP Llenado < 54.5
Peso Planta Pre Floración >= 25.1
Diámetro Tallo Post Floración < 21.8
Peso Planta Madurez < 234.4
Diam Espiga 4 < 13.5
1 3 84.78% 46
Tabla 5.6b Reglas de pertenencia a grupos
84
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Regla Condición
Gru
po
Con
fian
za
Sop
orte
10
If
And
And
And
And
TCP Llenado >= 54.5
Peso Planta Pre Floración >= 25.1
Diámetro Tallo Post Floración < 21.8
Peso Planta Madurez < 234.4
Diam Espiga 4 < 13.5
1.3 91.21% 307
11
If
And
And
And
And
And
Peso Planta Pre Floración >= 36.1
TCP Llenado < 54.5
Peso Planta Pre Floración >= 25.1
Diámetro Tallo Post Floración < 21.8
Peso Planta Madurez < 234.4
Diam Espiga 4 < 13.5
1.3 96.15% 78
12
If
And
And
And
And
Diámetro Tallo Post Floración < 20.5
PG < 192.8
Peso Planta Post Floración < 209.5
Peso Planta Madurez >= 234.4
Diam Espiga 4 < 13.5
1.3 100.00% 20
13 If
And
Diam Espiga 5 < 16.3
Diam Espiga 4 >= 13.5 2.1 84.31% 51
14
If
And
And
And
And
And
And
And
Diam Espiga 1 < 33.8
Diam Espiga 2 < 18.6
Peso Planta Pre Floración < 36.1
TCP Llenado < 54.5
Peso Planta Pre Floración >= 25.1
Diámetro Tallo Post Floración < 21.8
Peso Planta Madurez < 234.4
Diam Espiga 4 < 13.5
2.2 91.25% 80
Tabla 5.6c Reglas de pertenencia a grupos
85
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Regla Condición
Gru
po
Con
fian
za
Sop
orte
15
If
And
And
And
And
And
Diámetro Tallo Pre Floración < 20.6
Peso Planta Post Floración < 132.6
Peso Planta Pre Floración < 25.1
Diámetro Tallo Post Floración < 21.8
Peso Planta Madurez < 234.4
Diam Espiga 4 < 13.5
2.2 92.51% 227
16
If
And
And
And
Rendimiento < 134.4
Peso Planta Post Floración >= 209.5
Peso Planta Madurez >= 234.4
Diam Espiga 4 < 13.5
3.1 81.82% 55
17
If
And
And
And
And
Peso Planta Post Floración >= 164.6
Altura Planta Pre Floración >= 51.5
Diámetro Tallo Post Floración >= 21.8
Peso Planta Madurez < 234.4
Diam Espiga 4 < 13.5
3.1 91.14% 79
18
If
And
And
And
And
Diámetro Tallo Post Floración >= 20.5
PG < 192.8
Peso Planta Post Floración < 209.5
Peso Planta Madurez >= 234.4
Diam Espiga 4 < 13.5
3.2 33.33% 21
19
If
And
And
And
PG >= 192.8
Peso Planta Post Floración < 209.5
Peso Planta Madurez >= 234.4
Diam Espiga 4 < 13.5
3.2 86.07% 201
20
If
And
And
And
Rendimiento >= 134.4
Peso Planta Post Floración >= 209.5
Peso Planta Madurez >= 234.4
Diam Espiga 4 < 13.5
3.3 86.84% 114
Tabla 5.6d Reglas de pertenencia a grupos
86
Minería de datos aplicada a cultivos de maíz - 5. Modelado
5.4 Evaluación de los modelos
Como se expreso en la sección 4.2 en se utilizará la técnica Leave-One-Out para
evaluar los modelos. En al siguiente subsección se detalla una guía de cómo
interpretar los resultados arrojados por la herramienta utilizada.
5.4.1 Descripción de los resultados de la herramienta
Con el objetivo de facilitar la interpretación de los resultados arrojados por la
herramienta, se ejemplificaran los mismos suponiendo que los datos están divididos
en dos clases, A y B.
La tabla 5.7 nos muestra la matriz de confusión y un detalle del significado de cada
celda.
A B Sum
A
Cantidad de registros que
se clasificaron como “A” y
son de la clase “A”
Cantidad de registros que se
clasificaron como “A” pero
son de la clase “B”
Cantidad Total de
Registros de Clase “A”
B
Cantidad de registros que
se clasificaron como “B”
pero son de la clase “A”
Cantidad de registros que se
clasificaron como “B” y
son de la clase “B”
Cantidad Total de
Registros de Clase “B”
Sum Cantidad total de registros
clasificados como “A”
Cantidad total de registros
clasificados como “A”
Cantidad Total de
Registros
Tabla 5.7 Matriz de Confusión
A partir de la matriz de confusión (tabla 5.7) se calculan los valores de la tabla de
predicción de valores (tabla 5.8) haciendo referencia a las celdas de dicha matriz
como fila:colunma, por ejemplo A:Sum indica la Cantidad Total de Registros de
Clase “A”. La tabla de predicción de valores (tabla 5.8) nos indica cuan efectivo es el
algoritmo para predecir una clase en particular.
87
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Valor Eficacia 1 – Precisión
A A:A / A:Sum 1 – ( A:A / Sum:A )
B B:B / B:Sum 1 – ( B:B / Sum:B )
Tabla 5.8 Predicción de valores
Es la tasa de error total es calculada también a partir de los valores de la matriz de
confusión (tabla 5.7) como se describe a continuación:
Tasa de error = 1 – (A:A + B:B)/Sum:Sum
5.4.2 Evaluación de los modelos
En esta sección se presentan los resultados arrojados por la herramienta para la
evaluación de clasificación de Rendimiento (sección 5.4.2.1), Clasificación de NGP
(sección 5.4.2.2), Clasificación de PG (sección 5.4.2.3) y Clasificación de Pertenencia
a Grupos (sección 5.4.2.4).
5.4.2.1 Clasificación de Rendimiento
En esta sección se presentan los resultados arrojados por la herramienta para el
modelo ejecutado para obtener las reglas de clasificación del Rendimiento (sección
5.3.2.1).
La tasa de error total calculada a partir de la matriz de confusión (tabla 5.9) es
24.92%, y la tabla de predicción de valores se describe en la tabla 5.10.
A B C D E F G Sum
A 687 117 0 0 0 0 0 804
B 136 552 34 0 0 0 0 722
C 6 94 105 23 0 1 0 229
D 0 5 24 71 0 1 0 101
E 0 0 0 14 0 10 0 24
F 0 0 0 3 0 13 0 16
G 0 0 0 1 0 5 0 6
Sum 829 768 163 112 0 30 0 1902
Tabla 5.9 Matriz de confusión – clasificación Rendimiento
88
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Valor Eficacia 1 – Precisión
A 85.45% 17.13%
B 76.45% 28.13%
C 45.85% 35.58%
D 70.30% 36.61%
E 0.00% 100.00%
F 81.25% 56.67%
G 0.00% 100.00%
Tabla 5.10 Predicción de valores – clasificación Rendimiento
Según indica la tabla de predicción de valores (tabla 5.10), la eficacia del método para
determinar las clases es aceptable en todos los casos a excepción de las clases E y G
para las cuales es nula, pero cabe aclarar que en la sección 5.3.2.1.1 no se han
considerado reglas para determinar dichas clases debido a su baja confianza.
La tasa total de error del (24.92%) es aceptable, y habiendo hecho la salvedad sobre
las eficacia de las clases E y G, se puede afirmar que el método es satisfactorio.
5.4.2.2 Clasificación de NGP
En esta sección se presentan los resultados arrojados por la herramienta para el
modelo ejecutado para obtener las reglas de clasificación del NGP (sección 5.3.2.2).
La tasa de error total calculada a partir de la matriz de confusión (tabla 5.11) es
21.56%, y la tabla de predicción de valores se describe en la tabla 5.12.
A B C D E F Sum
A 179 177 1 0 0 0 357
B 55 1130 45 4 0 0 1234
C 2 58 139 25 0 0 224
D 0 4 25 44 0 0 73
E 0 0 1 12 0 0 13
F 0 0 0 1 0 0 1
Sum 236 1369 211 86 0 0 1902
Tabla 5.11 Matriz de confusión – clasificación NGP
89
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Valor Eficacia 1 – Precisión
A 50.14% 24.15%
B 91.57% 17.46%
C 62.05% 34.12%
D 60.27% 48.84%
E 0.00% 100.00%
F 0.00% 100.00%
Tabla 5.12 Predicción de valores – clasificación NGP
Según indica la tabla de predicción de valores (tabla 5.12), la eficacia del método para
determinar las clases es aceptable en todos los casos a excepción de las clases E y F
para las cuales es nula, pero en la sección 5.3.2.2.1 no se han considerado reglas para
determinar dichas clases debido a su baja confianza.
La tasa total de error del 21.56% es aceptable, con lo cual se puede afirmar que el
método es satisfactorio.
5.4.2.3 Clasificación de PG
En esta sección se presentan los resultados arrojados por la herramienta para el
modelo ejecutado para obtener las reglas de clasificación del PG (sección 5.3.2.3).
La tasa de error total calculada a partir de la matriz de confusión (tabla 5.13) es
24.82%, y la tabla de predicción de valores se describe en la tabla 5.14.
A B C D E F G Sum
A 37 15 0 1 1 0 0 54
B 15 675 51 22 13 2 0 778
C 0 75 350 23 15 4 0 467
D 0 15 30 163 40 6 0 254
E 0 10 18 45 135 12 0 220
F 0 4 13 5 23 70 0 115
G 0 0 0 3 4 7 0 14
Sum 52 794 462 262 231 101 0 1902
Tabla 5.13 Matriz de confusión – clasificación PG
90
Minería de datos aplicada a cultivos de maíz - 5. Modelado
Valor Eficacia 1 – Precisión
A 68.52% 28.85%
B 86.76% 14.99%
C 74.95% 24.24%
D 64.17% 37.79%
E 61.36% 41.56%
F 60.87% 30.69%
G 0.00% 100.00%
Tabla 5.14 Predicción de valores – clasificación PG
Según indica la tabla de predicción de valores (tabla 5.14), la eficacia del método para
determinar las clases es aceptable en todos los casos a excepción de la clases G para
la cuales es nula, pero en la sección 5.3.2.3.1 no se han considerado reglas para
determinar dicha clase debido a su baja confianza.
La tasa total de error del 24.82%, es aceptable, con lo cual se puede afirmar que el
método es satisfactorio.
5.4.2.4 Clasificación de Pertenencia a Grupos
En esta sección se presentan los resultados arrojados por la herramienta para el
modelo ejecutado para obtener las reglas de clasificación de pertenencia a grupos
(sección 5.3.2.4).
La tasa de error total calculada a partir de la matriz de confusión (tabla 5.15) es
20.77%, y la tabla de predicción de valores se describe en la tabla 5.16.
91
Minería de datos aplicada a cultivos de maíz - 5. Modelado
1-1 1-2 1-3 2-1 2-2 2-3 3-1 3-2 3-3 Sum
1-1 176 6 13 6 4 4 5 4 1 219
1-2 1 184 8 2 5 5 2 5 3 215
1-3 7 8 158 1 1 9 3 7 5 199
2-1 6 14 6 176 3 10 5 5 10 235
2-2 3 2 4 6 161 11 4 6 4 201
2-3 11 7 7 3 4 185 8 5 5 235
3-1 10 4 5 5 6 6 156 6 13 211
3-2 5 4 4 6 5 6 9 159 3 201
3-3 2 6 5 4 3 3 8 3 152 186
Sum 221 235 210 209 192 239 200 200 196 1902
Tabla 5.15 Matriz de confusión – clasificación de pertenencia a grupos
Valor Eficacia 1 – Precisión
1-1 80.37% 20.36%
1-2 85.58% 21.70%
1-3 79.40% 24.76%
2-1 74.89% 15.79%
2-2 80.10% 16.15%
2-3 78.72% 22.59%
3-1 73.93% 22.00%
3-2 79.10% 20.50%
3-3 81.72% 22.45%
Tabla 5.16 Predicción de valores – clasificación pertenencia a grupos
Según indica la tabla de predicción de valores (tabla 5.16), la eficacia del método para
determinar las clases es muy buena en todos los casos y la tasa total de error del
20.77% es aceptable, con lo cual se puede afirmar que el método es satisfactorio.
92
Minería de datos aplicada a cultivos de maíz - 6. Evaluación
93
6 Evaluación
A esta altura del proyecto se ha se han construido los modelos que parecen ser de alta
calidad desde una perspectiva del análisis de datos. Ahora es importante evaluar a
fondo el modelo y revisar los pasos ejecutados para construir el modelo con el fin
segurar que este alcanza los objetivos del negocio.
Este capitulo presenta la evaluación de los modelos (sección 6.1) y valoración de los
resultados por los expertos (sección 6.2).
6.1 Evaluación de los modelos
A continuación se detallará la evaluación del experto sobre los resultados de cada uno
de los modelos desarrollados en la sección 5.1.
6.1.1 Ponderación de reglas del negocio – Rendimiento
El peso de planta a madurez es una clara característica que explica el rendimiento en
todas las reglas. A mayor peso planta a madurez, mayor rendimiento.
Existen otras variables (altura de planta, diámetro de tallo, diámetro de espiga) que
pueden influir en el rendimiento. El peso planta a madurez es acorde al rendimiento,
pero no se cumple en todos los casos, lo que demuestra que esta variable no siempre
explica el rendimiento final. En dichos casos entran en juego otras variables que
ayudan a entender el por que del valor del rendimiento, como diámetro de espiga o
altura de planta. Por ejemplo, puede existir una planta grande, un alto valor de peso a
madurez, pero si dicho peso se encuentra mal repartido entre las diferentes partes de
la planta el rendimiento puede ser bajo. Si mucho de lo que pesa la planta se debe al
tallo, una planta alta, es probable que el peso de la espiga sea bajo, se refleja en el
diámetro, e indica que la planta no destina apropiadamente sus recursos y por lo tanto
el rendimiento será bajo.
Un detalle que se puede apreciar en las reglas es que no hay una relación directa entre
el número de espigas y el rendimiento final. Una gran cantidad de espigas (choclos)
no implican un alto rendimiento (porque más espigas indican más lugares donde
puede haber granos es común pensar que mas choclos implican mas rendimiento).
Minería de datos aplicada a cultivos de maíz - 6. Evaluación
6.1.2 Ponderación de reglas del negocio – NGP
A diferencia de las reglas de rendimiento se ve que la característica que más explica el
número de granos es el peso de planta en post-floración y/o la TCP en floración, cosa
que está perfecto porque es durante este período que queda determinado el número de
granos. Se pueden observar también ciertos detalles, como que mayor cantidad de de
espigas no implica mayor número de granos, y que, como se ve en la última regla, lo
que importa es el tamaño (medido como diámetro) de las primeras espigas.
6.1.3 Ponderación de reglas del negocio – PG
El peso del grano esta relacionado con la TCP en Floración por grano y la TCP en
llenado por grano.
La TCP por grano funciona como un estimador de la disponibilidad de comida que
hay para el crecimiento de los granos. Si la disponibilidad es baja entonces es
esperable que el PG no sea bueno.
6.1.4 Descubrimiento de reglas de pertenencia a grupos
Observando las reglas más significativas de cada grupo, se llega a la siguiente
conclusión:
El Grupo 1.1 incluye plantas con 5 espigas o mas y la quinta espiga con un
diámetro mayor al promedio. (Plantas con muchas espigas)
El Grupo 1.2 incluye plantas con hasta 4 espigas, un Peso Planta Madurez
menor al promedio, un Diámetro Tallo Post Floración mayor al promedio y
una Altura Planta Pre Floración menor al promedio. (Plantas livianas, tallos
grandes y baja altura).
El Grupo 1.3 incluye plantas con hasta 4 espigas, un Peso Planta Madurez
menor al promedio, un Diámetro Tallo Post Floración menor al promedio y un
Peso Planta Pre Floración mayor al promedio. (Plantas livianas, tallos chicos,
mas pesadas en la floración).
El Grupo 2.1 incluye plantas con al menos 4 espigas. En caso de existir una
5ta, con diámetro menor al promedio. (Plantas con muchas espigas).
94
Minería de datos aplicada a cultivos de maíz - 6. Evaluación
El Grupo 2.2 incluye plantas con hasta 4 espigas, un Peso Planta Madurez
menor al promedio, un Diámetro Tallo Post Floración menor al promedio y un
Peso Planta Pre Floración menor al promedio. (Plantas livianas, tallos chicos,
mas livianas en la floración).
El Grupo 3.1 incluye plantas con hasta 4 espigas, un Peso Planta Madurez
menor al promedio, un Diámetro Tallo Post Floración mayor al promedio y
una Altura Planta Pre Floración mayor al promedio. (Plantas livianas, tallos
grandes y mayor altura).
El Grupo 3.2 incluye planta con hasta 4 espigas, un Peso Planta Madurez
mayor al promedio y un Peso Planta Post Floración menor al promedio.
(Plantas pesadas que crecieron mucho desde la floración a la madurez).
El Grupo 3.3 incluye plantas con hasta 4 espigas, un Peso Planta Madurez
mayor al promedio y un Peso Planta Post Floración mayor al promedio.
(Plantas pesadas que no crecieron mucho desde la floración a la madurez).
El Grupo 1.3 incluye plantas con hasta 4 espigas, un Peso Planta Madurez
menor al promedio, un Diámetro Tallo Post Floración menor al promedio y un
Peso Planta Pre Floración mayor al promedio. (Plantas livianas, tallos chicos,
mas pesadas en la floración).
El Grupo 2.2 incluye plantas con hasta 4 espigas, un Peso Planta Madurez
menor al promedio, un Diámetro Tallo Post Floración menor al promedio y un
Peso Planta Pre Floración menor al promedio. (Plantas livianas, tallos chicos,
mas livianas en la floración).
95
Minería de datos aplicada a cultivos de maíz - 6. Evaluación
6.2 Valoración de los resultados por los expertos
Considero apropiado mencionar que más allá del aporte específico a este conjunto de
datos, el análisis aplicado resultó a mí entender novedoso y potencialmente útil para
aplicar en cualquier rama de la agronomía, desde estudios más detallados a nivel de
planta individual (como el realizado aquí) hasta estudios a nivel de cultivo y
ambientes.
Específicamente, el análisis realizado sobre este conjunto de datos permitió confirmar
la existencia de ciertos atributos que guardan relación con el rendimiento final, como
el peso de planta a madurez. También permitió confirmar que otros atributos que se
esperaría guarden relación directa con el rendimiento no lo tengan. Por ejemplo, no
siempre el número de espigas (número de estructuras reproductivas donde se fijan los
granos, principal componente del rendimiento) implica mayor rendimiento, y que en
general es más importante cuánto crezcan (estimado aquí como su diámetro) las
primeras espigas. Otro atributo que se sabe no necesariamente guarda relación con el
rendimiento es la altura de planta. Los resultados de este análisis confirman que una
planta más alta no necesariamente tiene más rendimiento, ya que lo importante es
cómo el crecimiento de esa planta es particionado entre las distintas partes de la
planta.
Un aporte importante al análisis de datos fue la separación entre componentes del
rendimiento, es decir, evaluar reglas para número de granos y para peso de grano en
lugar de reglas para rendimiento. Este análisis resultó interesante ya que, como se
indica en el resumen de las reglas, los atributos de mayor peso fueron diferentes de
acuerdo al componente (número o peso).
En la actualidad nuestro grupo de trabajo está estudiando atributos detrás de la
determinación del número de granos y el peso de grano individual, con el objetivo
futuro de determinar las bases genéticas por un lado, y de mejorar la predicción de
actuales modelos de simulación de rendimiento de cultivos por otro. Para ello, el
entendimiento de cómo se genera el rendimiento es de vital importancia. El análisis
realizado aquí nos remarca sobre la importancia de ampliar y estudiar con mayor
detalle algunos atributos. Para el caso del número de granos, es claro que debemos
estudiar el crecimiento de las plantas y de las espigas alrededor de floración.
96
Minería de datos aplicada a cultivos de maíz - 6. Evaluación
Actualmente estamos aplicando modelos que nos permiten predecir el crecimiento de
las espigas con mayor detalle. Asimismo, también estamos considerando la
posibilidad de que haya diferencias en la cantidad de granos fijados por unidad de
crecimiento de las espigas, atributo que puede explicar variabilidad en el número de
granos para igual crecimiento de espiga. Con respecto al peso del grano, es claro que
debemos focalizar en el crecimiento de las plantas por grano fijado alrededor de
floración, como un estimador de la cantidad de “comida” disponible para el
crecimiento de los mismos. El análisis aquí realizado, sin embargo, también nos
advirtió de que existen casos en que el crecimiento por planta por grano fijado durante
el llenado efectivo también es importante para la definición del peso. Es por ello que
este atributo (generalmente poco considerado como importante) debe ser también
medido para mejorar nuestro entendimiento sobre la definición de este componente.
97
Minería de datos aplicada a cultivos de maíz - 7. Conclusión
98
7 Conclusión
La metodología CRISP-DM seleccionada para llevar a cabo este proyecto ha
resultado de gran utilidad en diferentes aspectos. La etapa inicial de compresión del
negocio permite relacionar el objetivo del negocio con el objetivo de minería de datos.
La sección de comprensión de datos ayuda a introducir conceptos del negocio y que
los analistas estén familiarizados con los mismos, lo que permite en etapas avanzadas
tomar decisiones mas acertadas de acuerdo al contexto. Y finalmente en la epata de
preparación de los datos fue útil para producir un conjunto de datos consistentes y
evitar arrastrar errores en el modelado. Fue de utilidad para determinar la viabilidad
del proyecto en etapas tempranas.
Los procesos seleccionados en la etapa de modelado resultaron ser efectivos ya que
permitieron identificar cuales son las características que tienen incidencia o no sobre
el rendimiento final de un cultivo (y sus componentes, PG y NGP), según lo
manifestado por el experto en su conclusión (6.2), cumpliendo de esta forma con los
objetivos del negocio planteados al inicio del proyecto (2.1.2).
Si bien el proyecto fue exitoso, se estima que un set de datos más completo, con
clases mejor distribuidas o ciertas clases mejor representadas (según lo expresado en
la sección 3.3) hubiese reforzado o aportado algún nuevo patrón de comportamiento.
Se considera apropiado mencionar que debió hacerse especial hincapié en la
preparación de los resultados arrojados por los modelos para presentarse al experto, es
decir, transcripción coloquial de los mismos y reuniones entre analistas y experto. De
esta forma se facilitó al experto la interpretación ya que éste, como la mayoría, no se
encuentra familiarizado con las técnicas de minería de datos.
Cabe destacar, según lo expresado por el experto en su conclusión (6.2), que mas allá
del aporte especifico al proyecto en cuestión, la aplicación de técnicas de aprendizaje
automático resultó ser novedoso para el área involucrada y potencialmente aplicable
en cualquier otra rama de la agronomía.
8 Referencias
Publicaciones consultadas para el desarrollo del trabajo.
Britos, P. (2008). Procesos de Explotación de Información basados en Sistemas
Inteligentes. Tesis presentada para obtener el grado de Doctor en
Ciencias Informáticas.
Britos, P., Abasolo, M., García-Martínez, R. y Perales, F. (2005). Identification of
MPEG-4 Patterns in Human Faces Using Data Mining Techniques.
Proceedings 13th International Conference in Central Europe on
Computer Graphics, Visualization and Computer Vision'2005. Páginas
9-10.
Britos, P., Grosser, H., Rodríguez, D., García-Martínez, R. (2008a). Detecting
Unusual Changes of Users Consumption. In Artificial Intelligence in
Theory and Practice II, ed. M. Bramer, (Boston: Springer), 276: 297-
306.
Britos, P., Jiménez Rey, E., García-Martínez, E. (2008b). Work in Progress:
Programming Misunderstandings Discovering Process Based On
Intelligent Data Mining Tools. Proceedings 38th ASEE/IEEE Frontiers
in Education Conference, en prensa.
Chapman, P., Clinton, J., Keber, R., Khabaza, T., Reinartz, T., Shearer, C., Wirth, R.
(1999). CRISP-DM 1.0 Step by step BIguide. Edited by SPSS.
Cogliati, M., Britos, P., García-Martínez, R. (2006a). Patterns in Temporal Series of
Meteorological Variables Using SOM & TDIDT. In IFIP International
Federation for Information Processing, Volume 217, Artificial
Intelligence in Theory and Practice, ed. M. Bramer, (Boston: Springer),
Pág. 305-314.
Curtis, B., Kellner, M., Over, J. (1992). Process Modelling. Communications of the
ACM, 35(9): 75-90.
99
Ferreira, J., Takai, O., Pu, C. (2005). Integration of Business Processes with
Autonomous Information Systems: A Case Study in Government
Services. Proceedings Seventh IEEE International Conference on E-
Commerce Technology. Pág. 471-474.
García Martínez, R., Servente, M. y Pasquini, D. (2003). Sistemas Inteligentes.
Editorial Nueva Librería. Buenos Aires, Pag. 56 - 61.
Hann, I., Hui, K., Lee, S., Png, I. (2007). Analyzing Online Information Privacy
Concerns: An Information Processing Theory Approach. Proceedings
40th Annual Hawaii International Conference on System Sciences.
Pág. 210-219.
Hunt, E., Marin, J., Stone, P. (1966). Experiments in Induction. Academic Press.
Kohonen, T. (1995). Self-Organizing Maps. Springer Verlag Publishers.
Lauría, E., Duchéis, P. (2006). A Bayesian Belief Network for IT Implementation
Decision Support. Decision Support Systems, 42: 1573-1588.
Maimon, O., Rokach, L. (2005). The Data Mining and Knowledge Discovery
Handbook. Springer Science + Business Media Publishers.
Pearl, J. (1988). Probabilistic Reasoning in Intelligent Systems: Networks of Plausible
Inference. Morgan Kaufmann.
Schiefer, J., Jeng, J., Kapoor, S., Chowdhary, P. (2004). Process Information Factory:
A Data Management Approach for Enhancing Business Process
Intelligence. Proceedings 2004 IEEE International Conference on E-
Commerce Technology. Pág. 162-169.
Stefanovic, N., Majstorovic. V.,, Stefanovic, D. (2006). Supply Chain Business
Intelligence Model. Proceedings 13th International Conference on Life
Cycle Engineering. Pág. 613-618.
Quinlan, J. (1986). Induction of decision trees. Machine Learning, 1(1): 81-106
100
top related