minería de datos aplicada a cultivos de...

Minería de datos aplicada a cultivos de maíz

Trabajo Profesional para obtener grado de Ingeniero en Informática

Autores

Damián Gambin 77691 Eduardo Pallotta 77527

Directores Dr. Ramón García Martínez

Lic. Darío Rodríguez

Radicación Laboratorio de Sistemas Inteligentes

Buenos Aires, Argentina

Octubre, 2009

Resumen

En este trabajo se proponen e implementan procesos de explotación de información

aplicados a la agronomía, dentro del área de Ecofisiología de Cultivos de Maíz; en el

marco de un proyecto de investigación sobre los atributos que debe cumplir una

planta de maíz para producir mayores rendimientos.

Abstract

In this paper we propose and implement data mining processes applied to agronomy,

within the area of Corn Crop Ecophysiology; as part of a research project on the

attributes that a corn plant must have in order to produce higher yields.

Minería de datos aplicada a cultivos de maíz - Índice

Índice

Resumen ...................................................................................................................................................2 Abstract ....................................................................................................................................................2 Índice........................................................................................................................................................3 1. Introducción..........................................................................................................................................5

1.1 Dominio .........................................................................................................................................5 1.2 Metodologías .................................................................................................................................5 1.3 Herramientas................................................................................................................................10 1.4 Contenido del trabajo...................................................................................................................11

2. Comprensión del negocio ...................................................................................................................12 2.1 Objetivos del negocio ..................................................................................................................12

2.1.1 Contexto...............................................................................................................................12 2.1.1.1 Organización ................................................................................................................12 2.1.1.2 Área del Problema........................................................................................................13 2.1.1.3 Solución actual .............................................................................................................13

2.1.2 Objetivo del negocio ............................................................................................................13 2.1.3 Criterio de éxito ...................................................................................................................13

2.2 Evaluación de la situación ...........................................................................................................13 2.2.1 Inventario de recursos ..........................................................................................................14

2.2.1.1 Recursos de software....................................................................................................14 2.2.1.2 Recursos de hardware...................................................................................................14 2.2.1.3 Fuentes de datos y conocimiento..................................................................................14 2.2.1.4 Recursos humanos........................................................................................................14

2.2.2 Requerimientos, suposiciones y restricciones......................................................................15 2.2.3 Terminología........................................................................................................................15

2.2.3.1 Terminología del negocio.............................................................................................15 2.2.3.2 Terminología de minería de datos ................................................................................16

2.3 Objetivos de minería de datos......................................................................................................17 2.3.1 Objetivos de minería de datos ..............................................................................................17 2.3.2 Criterio de éxito de minería de datos ...................................................................................17

2.4 Plan de proyecto ..........................................................................................................................18 2.5 Evaluación inicial de herramientas y técnicas .............................................................................20

2.5.1 Problemas.............................................................................................................................20 2.5.1.1 Clasificación.................................................................................................................20 2.5.1.2. Segmentación ..............................................................................................................20 2.5.1.3 Análisis de dependencias..............................................................................................21

2.5.2 Técnicas ...............................................................................................................................21 2.5.2.1 TDIDT - Top Down Induction Decision Trees ............................................................21 2.5.2.2 Redes Neuronales SOM ...............................................................................................22 2.5.2.3 Redes Bayesianas .........................................................................................................22

3 Comprensión de los datos....................................................................................................................23 3.1 Recolección inicial de datos ........................................................................................................23 3.2 Descripción de datos....................................................................................................................24

3.2.1 Atributos clase .....................................................................................................................26 3.2.1.1 Atributo Rendimiento...................................................................................................26 3.2.1.2 Atributo NGP ...............................................................................................................26 3.2.1.3 Atributo PG ..................................................................................................................27

3.3 Exploración de datos....................................................................................................................27 3.3.1 Análisis de clases .................................................................................................................27 3.3.2 Análisis de atributos.............................................................................................................29 3.3.3 Relaciones entre atributos y clases.......................................................................................33

3.4 Verificación de la calidad de los datos ........................................................................................34 4 Preparación de datos............................................................................................................................35

4.1 Selección de datos........................................................................................................................35 4.2 Limpieza de datos ........................................................................................................................36

4.2.1 Análisis de clases .................................................................................................................37

Minería de datos aplicada a cultivos de maíz - Índice

4.2.2 Análisis de atributos.............................................................................................................39 4.3 Construcción de datos..................................................................................................................43 4.4 Formateo de datos........................................................................................................................43

5 Modelado.............................................................................................................................................45 5.1 Selección de las técnicas de modelado ........................................................................................45

5.1.1 Técnicas de Modelado .........................................................................................................45 5.1.1.1 Redes bayesianas aplicadas a la ponderación de reglas de comportamiento................45 5.1.1.2 SOM y TDIDT aplicados al descubrimiento de reglas de pertenencia a grupos ..........46

5.1.2 Suposiciones del modelado..................................................................................................46 5.2 Diseño de la prueba .....................................................................................................................47

5.2.1 Validación cruzada...............................................................................................................47 5.2.2 Dejar-uno-afuera (Leave-one-out) .......................................................................................48

5.3 Construcción de los modelos .......................................................................................................48 5.3.1 Seteo de parámetros .............................................................................................................48 5.3.2 Modelos ...............................................................................................................................49

5.3.2.1 Ponderación de reglas del negocio - Rendimiento .......................................................49 5.3.2.2 Ponderación de reglas del negocio - NGP....................................................................60 5.3.2.3 Ponderación de reglas del negocio - PG.......................................................................71 5.3.2.4 Descubrimiento de reglas de pertenencia a grupos.......................................................82

5.4 Evaluación de los modelos ..........................................................................................................87 5.4.1 Descripción de los resultados de la herramienta ..................................................................87 5.4.2 Evaluación de los modelos...................................................................................................88

5.4.2.1 Clasificación de Rendimiento ......................................................................................88 5.4.2.2 Clasificación de NGP...................................................................................................89 5.4.2.3 Clasificación de PG......................................................................................................90 5.4.2.4 Clasificación de Pertenencia a Grupos .........................................................................91

6 Evaluación ...........................................................................................................................................93 6.1 Evaluación de los modelos......................................................................................................93

6.1.1 Ponderación de reglas del negocio – Rendimiento..........................................................93 6.1.2 Ponderación de reglas del negocio – NGP ......................................................................94 6.1.3 Ponderación de reglas del negocio – PG .........................................................................94 6.1.4 Descubrimiento de reglas de pertenencia a grupos .........................................................94

6.2 Valoración de los resultados por los expertos .........................................................................96 7 Conclusión...........................................................................................................................................98 8 Referencias ..........................................................................................................................................99

Minería de datos aplicada a cultivos de maíz - 2. Compresión del negocio

1. Introducción

En este capitulo se introduce al dominio, las metodologías adoptadas (sección 1.2), a

las herramientas utilizadas (sección 1.3) y a el contexto del trabajo (sección 1.4).

1.1 Dominio

El Área de Ecofisiología de Cultivos de Grano de la Facultad de Ciencias Agrarias de

la Universidad Nacional de Rosario se dedica a la investigación de las características

ecofisiológicas de las plantas de maíz, medidas durante el crecimiento, con el fin de

determinar las incidencias de las mismas en el rendimiento final del cultivo.

Las características ecofisiológicas de las plantas de maíz en estudio son diámetros de

tallo y espigas, altura y peso de la planta, tasa de crecimiento, todos ellas medidas en

las etapas de pre floración, post floración, llenado y madurez. En el capitulo 2 se

amplían los conceptos mencionados y en el capitulo 3 se enumeran y describen las

características consideradas en la investigación.

La finalidad del mencionado trabajo de investigación es encontrar un ideotipo de

planta que produzca los mayores rendimientos a través de sus componentes (número

de grano y peso individual de grano), con el objetivo futuro de determinar las bases

genéticas por un lado, y de mejorar la predicción de actuales modelos de simulación

de rendimiento de cultivos por otro. Para ello, el entendimiento de cómo se genera el

rendimiento es de vital importancia.

1.2 Metodologías

La Explotación de Información (DM, Data Mining) consiste en la extracción de

conocimiento no trivial que reside de manera implícita en los datos disponibles en

distintas fuentes de información [Schiefer et al., 2004]. Dicho conocimiento es

previamente desconocido y puede resultar útil para algún proceso [Stefanovic et al.,

2006]. Para un experto normalmente no son los datos en sí lo más relevante, sino el

conocimiento que se encierra en sus relaciones, fluctuaciones y dependencias.

Un proceso de información o un proceso de explotación de información [Curtis et al.,

1992], puede definirse como un conjunto de tareas relacionadas lógicamente, que se

ejecutan para lograr a partir de un conjunto de información con un grado de valor para

la organización, otro conjunto de información con un grado de valor mayor que el

inicial [Ferreira et al., 2005; Hann et al., 2007].

Cada proceso de explotación de información define un conjunto de información de

entrada, un conjunto de transformaciones y un conjunto de información de salida.

Un proyecto de Explotación de Información involucra, en general las siguientes fases

[Maimon y Rokach, 2005]: comprensión del negocio y del problema que se quiere

resolver, determinación, obtención y limpieza de los datos necesarios, creación de

modelos matemáticos, ejecución, validación de los algoritmos, comunicación de los

resultados obtenidos; e integración de los mismos, si procede, con los resultados en un

sistema transaccional o similar. La relación entre todas estas fases tiene una

complejidad que se traduce en una jerarquía de subfases.

Como consecuencia de la experiencia acumulada en proyectos de Explotación de

Información se han ido desarrollando metodologías que permiten gestionar esta

complejidad de una manera uniforme. La comunidad científica considera

metodologías probadas a CRISP-DM, SEMMA y P3TQ.

Si bien las tres metodologías identifican técnicas de explotación de información

utilizables, para el presente proyecto se ha escogido la metodología CRISP-DM

debido a que está diseñada como una metodología independiente de la herramienta

tecnológica a utilizar en la Explotación de Datos, haciéndola más flexible. Además, a

diferencia de SEMMA y P3TQ, identifica problemas de inteligencia de negocio

(conjunto de estrategias y herramientas enfocadas a la administración y creación de

conocimiento mediante el análisis de datos existentes en una organización) y hace una

caracterización parcialmente abstracta de los mismos. A su vez identifica las

relaciones entre las técnicas de explotación de información y las variables que

modelan los problemas de inteligencia de negocio esbozando parcialmente los

procesos a desarrollar.

La metodología CRISP-DM [Chapman et al., 1999] consta de cuatro niveles de

abstracción, organizados de forma jerárquica en tareas que van desde el nivel más

general hasta los casos más específicos.

A nivel más general, el proceso está organizado en seis fases, estando cada fase a su

vez estructurada en varias tareas generales de segundo nivel o subfases.

Las tareas generales se proyectan a tareas específicas, donde se describen las acciones

que deben ser desarrolladas para situaciones específicas. Así, si en el segundo nivel se

tiene la tarea general “limpieza de datos”, en el tercer nivel se dicen las tareas que

tienen que desarrollarse para un caso específico, como por ejemplo, “limpieza de

datos numéricos”, o “limpieza de datos categóricos”. El cuarto nivel, recoge el

conjunto de acciones, decisiones y resultados sobre el proyecto de Explotación de

Información específico.

La metodología CRISP-DM proporciona dos documentos distintos como herramienta

de ayuda en el desarrollo del proyecto de Explotación de Información: el modelo de

referencia y la guía del usuario.

El documento del modelo de referencia describe de forma general las fases, tareas

generales y salidas de un proyecto de Explotación de Información en general. La guía

del usuario proporciona información más detallada sobre la aplicación práctica del

modelo de referencia a proyectos de Explotación de Datos específicos,

proporcionando consejos y listas de comprobación sobre las tareas correspondientes a

cada fase.

La metodología CRISP-DM estructura el ciclo de vida de un proyecto de Explotación

de Información en seis fases, que interactúan entre ellas de forma iterativa durante el

desarrollo del proyecto (figura 1.1).

Comprensión del Negocio

Comprensión de los Datos

Preparación de los Datos

Datos Implementación Altura

Modelado

Evaluación

Figura 1.2 Fases de la metodología CRISP-DM

Las flechas indican las relaciones más habituales entre las fases, aunque se pueden

establecer relaciones entre fases cualesquiera. El círculo exterior simboliza la

naturaleza cíclica del proceso de modelado. En la figura 1.2, se detallan las fases que

componen a la metodología CRISP-DM.

Figura 1.2 Fases componentes de la metodología CRISP-DM

La primera fase de análisis del problema, incluye la comprensión de los objetivos y

requerimientos del proyecto desde una perspectiva empresarial, con el fin de

convertirlos en objetivos técnicos y en una planificación.

La segunda fase de análisis de datos comprende la recolección inicial de datos, en

orden a que sea posible establecer un primer contacto con el problema, identificando

la calidad de los datos y estableciendo las relaciones más evidentes que permitan

establecer las primeras hipótesis.

Comprensión del Comprensión de Preparación de Modelado Evaluación Implementación negocio los datos los datos

Una vez realizado el análisis de datos, la metodología establece que se proceda a la

preparación de los datos, de tal forma que puedan ser tratados por las técnicas de

modelado.

La preparación de datos incluye las tareas generales de selección de datos a los que se

va a aplicar la técnica de modelado (variables y muestras), limpieza de los datos,

generación de variables adicionales, integración de diferentes orígenes de datos y

cambios de formato.

La fase de preparación de los datos, se encuentra muy relacionada con la fase de

modelado, puesto que en función de la técnica de modelado que vaya a ser utilizada

los datos necesitan ser procesados en diferentes formas. Por lo tanto las fases de

preparación y modelado interactúan de forma sistemática.

En la fase de modelado se seleccionan las técnicas de modelado más apropiadas para

el proyecto de Explotación de Información específico. Las técnicas a utilizar en esta

fase se seleccionan en función de los siguientes criterios: ser apropiada al problema,

disponer de datos adecuados, cumplir los requerimientos del problema, tiempo

necesario para obtener un modelo y conocimiento de la técnica.

Antes de proceder al modelado de los datos se debe de establecer un diseño del

método de evaluación de los modelos, que permita establecer el grado de bondad de

los modelos.

Una vez realizadas estas tareas genéricas se procede a la generación y evaluación del

modelo. Los parámetros utilizados en la generación del modelo dependen de las

características de los datos. En la fase de evaluación, se evalúa el modelo, no desde el

punto de vista de los datos, sino desde el cumplimiento de los criterios de éxito del

problema. Se debe revisar el proceso seguido, teniendo en cuenta los resultados

obtenidos, para poder repetir algún paso en el que, a la vista del desarrollo posterior

del proceso, se hayan podido cometer errores. Si el modelo generado es válido en

función de los criterios de éxito establecidos en la primera fase, se procede a la

aplicación del modelo.

1.3 Herramientas

A continuación se presentan 2 de las herramientas libres mas utilizadas como software

de minería de datos.

Weka es una extensa colección de algoritmos de Máquinas de conocimiento

desarrollados por la Universidad de Waikato (Nueva Zelanda) implementados en Java

[1, 2], útiles para ser aplicados sobre datos mediante las interfaces que ofrece o para

embeberlos dentro de cualquier aplicación. Además Weka contiene las herramientas

necesarias para realizar transformaciones sobre los datos, tareas de clasificación,

regresión, clustering, asociación y visualización. Weka está diseñado como una

herramienta orientada a la extensibilidad por lo que añadir nuevas funcionalidades es

una tarea sencilla.

Tanagra es un software libre de minería de datos para propósitos académicos y de

investigación. Propone varios métodos de minería de datos a partir de análisis

exploratorio de datos, aprendizaje estadístico, aprendizaje automático y base de datos.

Provee varios paradigmas de aprendizaje supervisado, agrupamiento, análisis

factorial, reglas de asociación, etc.

Para el presente proyecto se ha seleccionado Tanagra como herramienta de minería de

datos debido a:

Tanagra es fácil e intuitivo de utilizar.. Weka es una herramienta con una

usabilidad bastante pobre, difícil de comprender y manejar.

Tanagra presenta una extensa documentación y tutoriales, mientras que Weka

casi no posee documentación orientada al usuario.

La principal ventaja de Tanagra con respecto a Weka reside en la habilidad de

encadenar fácilmente operaciones sobre datos generados por otros métodos,

por ejemplo, aplicar la generación de reglas de clasificación a los datos

obtenidos de un agrupamiento (clustering), concepto fundamental para

modelar procesos basados en tecnologías de sistemas inteligentes combinados,

como se muestran en la sección 5.1.

1.4 Contenido del trabajo

El trabajo se estructura en siete capítulos: “Introducción”, “Comprensión del

negocio”, “Comprensión de los datos”, “Preparación de los datos”, “Modelado”,

“Evaluación”, “Conclusión” y “Referencias”.

En el capítulo “Introducción” se introduce al dominio, las metodologías adoptadas, a

las herramientas utilizadas y al contexto del trabajo.

En el capítulo “Comprensión del negocio” se presentan los objetivos del negocio,

evaluación de la situación, objetivos de minería de datos, plan de proyecto y la

evaluación inicial de herramientas y técnicas.

En el capítulo “Comprensión de los datos” se detalla la recolección inicial de datos,

descripción de datos, exploración de datos y verificación de la calidad de los datos.

El capítulo “Preparación de los datos” describe la selección de datos, limpieza de

datos, construcción de datos y formateo de datos.

En el capítulo “Modelado” se presenta la selección de técnicas de modelado, diseño

de la prueba, construcción de los modelos y la evaluación de los modelos.

El capitulo “Evaluación” describe la evaluación de los modelos y valoración de los

resultados por los expertos.

En el capítulo “Conclusión” se detallan los aportes y la conclusión final del trabajo.

En el capítulo “Referencias” se listan todas las publicaciones consultadas para el

desarrollo de este trabajo.

2. Comprensión del negocio

Esta fase se centra en comprender los objetivos y los requerimientos del proyecto

desde una perspectiva del negocio, y luego en convertir este conocimiento en la

definición de un problema de minería de datos y en un plan preliminar designado para

alcanzar los objetivos.

Se presentan los objetivos del negocio (sección 2.1), evaluación de la situación

(sección 2.2), objetivos de minería de datos (sección 2.3), plan de proyecto (sección

2.4) y la evaluación inicial de herramientas y técnicas (sección 2.5).

2.1 Objetivos del negocio

Se presenta la descripción del contexto (sección 2.1.1), objetivos del negocio (sección

2.1.2) y criterio de éxito (sección 2.1.3).

2.1.1 Contexto

Actualmente la Facultad de Ciencias Agrarias de la Universidad Nacional de Rosario

esta realizando un trabajo de investigación sobre los atributos que debe cumplir una

planta de maíz para producir mayores rendimientos, a través de sus componentes

(número de granos y peso individual del grano).

El objetivo de la investigación es encontrar un ideotipo de planta que produzca altos

rendimientos.

2.1.1.1 Organización

El área involucrada en este proyecto es la de Ecofisiología de Cultivos de Grano, su

organización esta conformada como se indica en la tabla 2.1.

Nombre Rol Responsabilidad

Dr. Lucas Borrás Investigador adjunto Supervisor

Dra. Brenda Gambin Investigador asistente Análisis e interpretación de

Ing. Alan Severini Becario de maestría del INTA

Pergamino Toma de datos a campo

Tabla 2.1 Organización del área

2.1.1.2 Área del Problema

El Área de Ecofisiología de Cultivos de Grano se dedica a la investigación de las

características ecofisiológicas de las plantas de maíz, medidas durante el crecimiento,

con el fin de determinar las incidencias de las mismas en el rendimiento final del

cultivo.

La minería de datos debe ser promovida en esta actividad ya que permitiría el

descubrimiento de patrones que pueden ser de interés para el área.

2.1.1.3 Solución actual

La lectura superficial de los datos y estadística básica provista por la aplicación

Microsoft Excel y Statistix 7 son las herramientas utilizadas para determinar los

planes de acción de la investigación.

Una de las principales desventajas de estas herramientas es que pueden no extraer

conocimiento no trivial que resida de manera implícita en los datos disponibles.

2.1.2 Objetivo del negocio

Enriquecer la investigación aportando información implícita sobre las relaciones entre

características ecofisiológicas de una planta y su rendimiento, a través de sus

componentes (número de granos y peso individual del grano).

2.1.3 Criterio de éxito

El proyecto será considerará exitoso si se descubren relaciones desconocidas hasta el

momento entre las características ecofisiológicas de una planta y su rendimiento, que

resulten de interés para el área.

El criterio de éxito será evaluado por los investigadores de la organización.

2.2 Evaluación de la situación

En esta sección se describe el inventario de recursos (sección 2.2.1), requerimientos,

suposiciones y restricciones (sección 2.2.2) y la terminología (sección 2.2.3).

2.2.1 Inventario de recursos

Los recursos son presentados en cuatro categorías, recursos de software (sección

2.2.1.1), recursos de hardware (sección 2.2.1.2), fuentes de datos y conocimientos

(sección 2.2.1.3) y recursos humanos (sección 2.2.1.4).

2.2.1.1 Recursos de software

Los recursos de software involucrados en el proyecto se enumeran en la tabla 2.2.

Descripción Software

Servidor de base de datos MySQL Server 5.1

Cliente de base de datos MySQL Query Browser 5.0

Planilla de calculo Microsoft Excel 2003

Software de Minería de Datos Tanagra 1.4

Tabla 2.2 Recursos de software

2.2.1.2 Recursos de hardware

Los recursos de hardware involucrados en el proyecto se enumeran en la tabla 2.3.

Descripción Hardware

Equipamiento para servidor de base de

datos y entrenamiento de los modelos AMD Athlon™ 64 3200+, 1GB de RAM

Tabla 2.3 Recursos de hardware

2.2.1.3 Fuentes de datos y conocimiento

Las fuentes de datos y conocimientos involucrados en el proyecto se enumeran en la

tabla 2.4.

Descripción Fuente

Datos obtenidos de mediciones realizadas

sobre cada planta durante el transcurso de

su crecimiento

Planilla Microsoft Excel

Tabla 2.4 Fuentes de datos y conocimiento

2.2.1.4 Recursos humanos

Los recursos humanos involucrados en el proyecto se enumeran en la tabla 2.5.

Recurso Comentarios

Analistas en minería de datos

Se requieren 2 analistas en minería de

datos para llevar a cabo el modelado e

implementación de la solución

Expertos

Se requiere disponibilidad de los

profesionales que actualmente se

desempeñan en el Área de Ecofisiología

de Cultivos de Grano llevando a cabo la

investigación, para ser consultados en las

siguientes etapas del proyecto

Tabla 2.5 Recursos humanos

2.2.2 Requerimientos, suposiciones y restricciones

Los resultados obtenidos deben ser presentados en un formato comprensible para ser

interpretados por profesionales sin conocimientos técnicos ni de las técnicas de

minería de datos.

Se supone que el conjunto de datos recolectados para la investigación es suficiente y

representativo a los fines de la investigación y que los mismos se encuentran

disponibles al personal involucrado en el proyecto, incluyendo a los analistas en

minería de datos.

Los investigadores deben disponer de los resultados obtenidos del análisis de este

proyecto durante la etapa de planeamiento de la investigación, con el fin de ser

utilizados para definir los lineamientos de la misma.

2.2.3 Terminología

Se presenta la terminología del negocio (sección 2.3.2.1) y la terminología de minería

de datos (sección 2.3.2.2).

2.2.3.1 Terminología del negocio

En la tabla 2.6 se detalla la terminología del negocio.

Término Descripción

Espiga Estructura reproductiva femenina (llamado

comúnmente choclo)

Floración

Momento en el que el 50% de las plantas se

encuentran en el estado de antesis (comienzo de

la liberación de polen)

Llenado Período de crecimiento de los granos luego de

su fecundación

Madurez Fin del ciclo del cultivo (momento en el cual se

define el rendimiento final del mismo)

NGP Numero de granos por planta

PG Peso individual del grano

TCP Tasa de crecimiento de la planta (incremento de

peso seco de planta en el tiempo)

Tiempo térmico

Unidad de tiempo utilizada en fisiología de

cultivos para independizarse del efecto de la

temperatura sobre el desarrollo del mismo

Tabla 2.6 Terminología del negocio

2.2.3.2 Terminología de minería de datos

En la tabla 2.7 se detalla la terminología de minería de datos.

Árbol de decisión

Estructura en forma de árbol que representa un

conjunto de decisiones. Estas decisiones

generan reglas para la clasificación de un

conjunto de datos

Clasificación

Proceso que asume que hay un conjunto de

objetos (caracterizados por algunos atributos)

en los cuales hay diferentes clases. El rótulo de

la clase es de valor discreto y se conoce en

cada objeto

Confianza

Para los que el antecedente de la regla es

verdadero, porcentaje de registros para los que

el consecuente también es verdadero

Tabla 2.7a Terminología de minería de datos

Segmentación

Tiene por objetivo la separación de los datos en

subgrupos o clases interesantes. Todos los

elementos del subgrupo deben tener

características comunes

Soporte

Porcentaje de datos de entrenamiento para los

cuales el antecedente de la regla es verdadero.

Si para una observación el antecedente de la

regla es verdadero, decimos que la regla aplica

para esa observación. Mide cuán aplicable es la

Tabla 2.7b Terminología de minería de datos

2.3 Objetivos de minería de datos

En esta sección se enuncian los objetivos de minería de datos propiamente dichos

(sección 2.3.1), así como también el criterio de éxito de minería de datos (sección

2.3.2).

2.3.1 Objetivos de minería de datos

Aplicar procesos de explotación de información para obtener cuales son las

características ecofisiológicas con mayor incidencia en el rendimiento y sus

componentes (número de granos y peso individual del grano) mediante el

descubrimiento de patrones de comportamiento.

2.3.2 Criterio de éxito de minería de datos

Encontrar patrones con un cierto nivel de exactitud que resulten de interés para los

investigadores (expertos).

2.4 Plan de proyecto

Las tareas del plan de proyecto se detallan en la tabla 2.8.

Tabla 2.8 Plan de proyecto

Etapa # Tarea Duración

(sem) Recursos Entradas Salidas Dependencias

1 Recolección inicial de los datos

1 Analista Planilla Excel

Reporte de recolección inicial de datos

2 Describir los datos

2 Experto. Analista

Reporte de recolección inicial de datos

Reporte de descripción de datos

3 Explorar los datos

2 Analista

Base de datos. Reporte de descripción de datos

Reporte de exploración de datos

Compresión de los datos

4 Verificar la calidad de los datos

2 Experto. Analista

Base de datos. Reporte de exploración de datos

Reporte de la calidad de datos

5 Seleccionar datos

3 Analista Base de datos

Razones de inclusión/exclusión

6 Limpiar datos 2 Analista Base de datos

Reporte de limpieza de datos

7 Construir datos

1 Experto. Analista

Base de datos

Reporte de construcción de datos

Preparación de datos

8 Formatear datos

1 Analista Base de datos

Reporte de formateo de datos

Set de datos. Descripción del set de datos

9 Seleccionar técnica de modelado

4 Analista

Set de datos. Descripción del set de datos

Técnica de modelado. Suposiciones del modelado

10 Generar diseño de prueba

2 Analista

Set de datos. Técnica de modelado. Suposiciones del modelado

Diseño de prueba 9

11 Construir modelos

3 Analista Set de datos

Seteo de parámetros. Modelos. Descripción de los modelos

Modelado

12 Evaluar modelos

3 Analista

Modelos. Descripción de los modelos

Evaluación de los modelos

10, 11

Evaluación

13 Evaluar resultados

4 Analista. Experto

Modelos

Evaluación de los resultados de minería de datos con respecto al criterio de éxito del negocio

Figura 2.1 Diagrama de Gantt

En la figura 2.1 se muestran las tareas del plan del proyecto en función del tiempo.

2.5 Evaluación inicial de herramientas y técnicas

Del objetivo del negocio [Britos, 2008],

2.5.1 Problemas

De la sección anterior se identifican

La clasificación asum

atributos

y se conoce en cada objeto. El objetivo

anteriorm

Tiene por objetivo la separación de los da

Todos los elem

las hipótesis de los subgrupos es relevante para los cuestionam

Se requiere identificar cuales son los factores con mayor incidencia (o

frecuencia de ocurrencia) sobre un determinado resultado de un problema.

Se requiere identificar cuales son las condiciones para obtener determinados

resultados en el dominio del problema.

Se requiere identificar cuales son las condiciones con mayor incidencia (o

frecuencia de ocurrencia) sobre la obtención de un determinado resultado en el

dominio del problema, sean éstas las que en mayor medida inciden sobre un

comportamiento o las que mejor definen la pertenencia a un grupo.

los siguientes problemas [Britos, 2008]:

Clasificación.

Segmentación.

Análisis de dependencias.

1.1 Clasificación

e que hay un conjunto de objetos (caracterizados por algunos

) en los cuales hay diferentes clases. El rótulo de la clase es de valor discreto

es lograr modelos de clasificación

ificadores) los cuales determinen correctamente la clase ante objetos no previstos

ente [Chapman et al., 1999].

1.2. Segmentación

tos en subgrupos o clases interesantes.

entos del subgrupo deben tener características comunes. El análisis de

ientos bases del

negocio sobre la base de la salida de la descripción de los datos y la sumarización

[Chapman et al., 1999].

2.5.1.3 Análisis de dependencias

El análisis de dependencias consiste en encontrar modelos que describan

dependencias o asociaciones significativas entre los datos. Las dependencias pueden

ser usadas como valores de predicción de un dato, teniendo información de los otros

datos. A través de las dependencias puede usarse un modelo predictivo. Las

asociaciones son una clase especial de dependencias, las asociaciones describen

afinidad entre los ítems. El análisis de dependencias tiene relaciones con la

clasificación y la predicción, donde las dependencias están implícitamente usadas

para la formulación de modelos predictivos [Chapman et al., 1999].

2.5.2 Técnicas

Las técnicas asociadas a los problemas mencionados en la sección anterior son las

siguientes [Britos, 2008]:

TDIDT.

Redes Neuronales SOM.

Redes bayesianas.

2.5.2.1 TDIDT - Top Down Induction Decision Trees

Estos algoritmos (TDIDT - Top Down Induction Decision Trees) pertenecen a los

métodos inductivos del Aprendizaje Automático que aprenden a partir de ejemplos

preclasificados [Quinlan, 1986]. A esta familia pertenecen los algoritmos: ID3, C4.5 y

C5. Estos algoritmos generan árboles y reglas de decisión a partir de ejemplos

preclasificados. Para construir los árboles se utiliza el método de aprendizaje

automático basado en la estrategia propuesta por Hunt en [Hunt et al., 1966], que

particiona el conjunto de ejemplos en subconjuntos a medida que avanza. Trabajar

sobre cada subconjunto es más sencillo que trabajar sobre el total de los datos.

2.5.2.2 Redes Neuronales SOM

Los mapas auto organizados o SOM (Self-Organizing Map), también llamados redes

de Kohonen [1995] son un tipo de red neuronal no supervisada competitiva, con

capacidad para formar mapas de características bidimensionales a partir del principio

de formación de mapas topológicos. Se orientan a descubrir la estructura subyacente

de los datos ingresados a partir de establecer características comunes entre los

vectores de información de entrada a la red. A lo largo del entrenamiento de la red;

los vectores de datos son introducidos en cada neurona y se comparan con el vector de

peso característico de la misma. La neurona que presenta menor diferencia entre su

vector de peso y el vector de datos es la neurona ganadora (o BMU) y ella y sus

vecinas verán modificados sus vectores de pesos.

2.5.2.3 Redes Bayesianas

Las redes bayesianas o probabilísticas se fundamentan en la teoría de la probabilidad

y combinan la potencia del teorema de Bayes con la expresividad semántica de los

grafos dirigidos; las mismas permiten representar un modelo causal por medio de una

representación gráfica de las independencias / dependencias entre las variables que

forman parte del dominio de aplicación [Pearl, 1988; Lauría y Duchéis, 2006]. Se

puede interpretar a una red bayesiana de dos formas: (a) distribución de probabilidad

que representa la distribución de la probabilidad conjunta de las variables

representadas en la red, ó (b) base de reglas en la que cada arco representa un

conjunto de reglas que asocian a las variables involucradas y están cuantificadas por

las probabilidades respectivas.

Minería de datos aplicada a cultivos de maíz - 3. Compresión de los datos

3 Comprensión de los datos

Esta fase comienza con una colección inicial de datos y procede con actividades para

familiarizarse con los mismos, identificar problemas de calidad y detectar

subconjuntos interesantes para formar hipótesis de información oculta.

En este capitulo se detalla la recolección inicial de datos (sección 3.1), descripción de

datos (sección 3.2), exploración de datos (sección 3.3) y verificación de la calidad de

los datos (sección 3.4).

3.1 Recolección inicial de datos

La fuente de información consiste de un archivo Excel con datos obtenidos de

mediciones realizadas sobre cada planta durante el transcurso de su crecimiento.

De la información provista, los atributos mencionados en la tabla 3.1, fueron

calificados como relevantes para satisfacer el objetivo:

Atributo

Diámetro Tallo Pre Floración

Altura Planta Pre Floración

Peso Planta Pre Floración

Diámetro Tallo Post Floración

Altura Planta Post Floración

Diam Espiga 1

Diam Espiga 2

Diam Espiga 3

Diam Espiga 4

Diam Espiga 5

Diam Espiga 6

Diam Espiga 7

Peso Planta Post Floración

Peso Planta Madurez

TCP Flor

Tabla 3.1a Atributos

Atributo

TCP Llenado

Rendimiento

Genotipo

Tabla 3.1b Atributos

Los datos suministrados en la planilla Excel fueron exportados a una base de datos

relacional con el fin de facilitar las consultas necesarias en las siguientes fases del

proyecto.

3.2 Descripción de datos

De la planilla provista, se cuenta con 2444 de registros y 20 atributos.

Los atributos de la tabla 3.2 denotan las características del cultivo a ser tomadas en

cuenta para el análisis. Los mismos fueron identificados por el experto.

Nombre Descripción Dominio Rango

Diámetro Tallo Pre

Floración

Diámetro del tallo de la planta 15

días previos a la floración Numérico

9.9 – 38.34

Altura Planta Pre

Floración

Altura de la planta 15 días

previos a la floración Numérico 15 – 93 [cm]

Peso Planta Pre

Floración

Peso de la planta 15 días previos

a la floración Numérico 5.38 – 118 [g]

Diámetro Tallo Post

Floración

Diámetro del tallo de la planta 15

días posteriores a la floración Numérico

10.73 – 36.23

Altura Planta Post

Floración

Altura de la planta 15 días

posteriores a la floración Numérico 16 – 227 [cm]

Diam Espiga 1 Diámetro espiga 1 Numérico 0 – 54.34

Tabla 3.2a Descripción de atributos

Peso Planta Post

Floración

Peso de la planta 15 días

posteriores a la floración Numérico

5.07 – 369.36

Peso Planta Madurez Peso de la planta en madurez

fisiológica Numérico

31.15 –

535.56 [g]

TCP Flor Tasa de crecimiento de la planta

alrededor de floración Numérico

-94.5 –

609.54

TCP Llenado Tasa de crecimiento de la planta

durante el llenado Numérico

-160.4 –

451.95

NGP Numero de granos por planta Numérico

PG Peso de grano Numérico [mg]

Rendimiento NGP x PG Numérico [g]

Tabla 3.2b Descripción de atributos

Adicionalmente se cuenta con el atributo Genotipo (tabla 3.3) que, por definición del

experto, no debe ser considerado por las herramientas a utilizar ya que el

experimento consta de analizar únicamente las características de las plantas durante su

crecimiento. Sin embargo puede servir como dato adicional durante la etapa de

interpretación de los resultados.

Genotipo Variedad de la semilla {1 , 10}

Tabla 3.3 Descripción de atributo Genotipo

Los atributos Diam Espiga 1, 2, 3, 4, 5, 6 y 7 tomaran un valor distinto de cero

siempre y cuando exista la espiga correspondiente, es decir, si una planta tiene solo

una espiga, el resto de los atributos Diam Espiga tendrán un valor igual a cero.

3.2.1 Atributos clase

Para llevar a cabo un análisis adecuado, el experto definió los siguientes atributos

clase a ser tratados en forma independiente:

3.2.1.1 Atributo Rendimiento

El atributo Rendimiento pertenece al dominio de los números continuos. El mismo fue

discretizado en las categorías mencionadas en la tabla 3.4 en función de los rangos

definidos por el experto.

Categoría Desde Hasta

A 0 53

B 53 106

C 106 159

D 159 212

E 212 265

F 265 318

G 318 ---

Tabla 3.4 Discretización del atributo Rendimiento

3.2.1.2 Atributo NGP

El atributo NGP pertenece al dominio de los números enteros. El mismo fue

clasificado en las categorías mencionadas en la tabla 3.5 en función de los rangos

A 0 302

B 302 602

C 602 902

D 902 1202

E 1202 1502

F 1502 ---

Tabla 3.5 Discretización del atributo NGP

3.2.1.3 Atributo PG

El atributo PG pertenece al dominio de los números continuos. El mismo fue

discretizado en las categorías mencionadas en la tabla 3.6 en función de los rangos

A 0 84

B 84 134

C 134 184

D 184 234

E 234 284

F 284 334

G 334 ---

Tabla 3.6 Discretización del atributo PG

3.3 Exploración de datos

Para esta sección se realizaron consultas y análisis estadísticos simples con el objetivo

de descubrir particularidades a ser tratadas en las secciones o fases siguientes.

3.3.1 Análisis de clases

En las figuras 3.1, 3.2 y 3.3 se analiza la distribución de los valores en las clases

Rendimiento, NGP y PG respectivamente, definidas en la sección 3.2.1.

Figura 3.1 Distribución de la clase Rendimiento

Sin Valor

Figura 3.2 Distribución de la clase NGP

Sin Valor

Figura 3.3 Distribución de la clase PG

En las clases Rendimiento y NGP se observa que la mayoría de los registros están

distribuidos en rangos de valores bajos (A y B) mientras que en la clase PG la

distribución es más pareja.

Además se observa que hay registros que no tienen valor asignado para las clases

NGP y PG.

3.3.2 Análisis de atributos

Las figuras 3.4, 3.5 ilustran casos en los que aparecen valores muy alejados de la

media de la población:

0 500 1000 1500 2000 2500 3000

Figura 3.4 Distribución para el atributo Diámetro Tallo Pre Floración

0 500 1000 1500 2000 2500 3000

Figura 3.5 Distribución para el atributo Peso Planta Pre Floración

Los atributos Diámetro Tallo Pre Floración y Peso Planta Pre Floración muestran

registros cuyo valor dista significativamente del resto de la población.

En las figuras 3.6, 3.7, 3.8 y 3.9 se ilustran casos en los que ciertos registros adoptan

valores absurdos para algunos atributos, por ejemplo pesos, alturas y diámetros

menores o iguales a cero:

0 500 1000 1500 2000 2500 3000

Figura 3.6 Distribución para el atributo Altura Planta Post Floración

0 500 1000 1500 2000 2500 3000

Figura 3.7 Distribución para el atributo Diámetro Tallo Post Floración

0 500 1000 1500 2000 2500 3000 -100

Figura 3.8 Distribución para el atributo Peso Planta Post Floración

Peso Planta Madurez

0 500 1000 1500 2000 2500 3000

Figura 3.9 Distribución para el atributo Peso Planta Madurez

3.3.3 Relaciones entre atributos y clases

Analizando las relaciones entre atributos y clases se encontró que hay una tendencia

creciente de las clases (NGP, PG y Rendimiento) a medida que aumenta el valor del

atributo Peso Planta Madurez, ver figura 3.10.

1000 NGP

Rendimiento 800

200 261 284 307

247 338 388 154 159 164 171 177 183 190 197 206 214 224 234132 138 143 148

Figura 3.10 Relación entre las clases y el atributo Peso Planta Madurez

3.4 Verificación de la calidad de los datos

En la tabla 3.6 se enumeran los atributos y la cantidad de registros con valores

faltantes respectivamente:

Atributo Cantidad de registros con valores

faltantes

Peso Planta Madurez 76

TCP Floración 352

TCP Llenado 67

NGP 97

PG 188

Tabla 3.6 Atributos con valores faltantes

Adicionalmente se analizaron los valores absurdos (0 o negativos) para los atributos

mencionados en la sección 3.3.2. Ver tabla 3.7.

Atributo Comentario

Altura Planta Post Floración 34 registros en cero

Diámetro Tallo Post Floración 34 registros en cero

Peso Planta Post Floración 23 registros con valores negativos

Tabla 3.7 Atributos con valores absurdos

0 31.2 72.2 89.6 100 108 115 127

Minería de datos aplicada a cultivos de maíz - 4. Preparación de datos

4 Preparación de datos

Esta fase cubre todas las actividades para construir el set final de datos (que

alimentarán las herramientas de modelado) a partir de los datos iniciales. Las tareas de

la preparación de datos se pueden ejecutar muchas veces y sin un orden

preestablecido. Las tareas incluyen selección de tabla, registro y atributo, así como tan

bien, transformación y limpieza de datos para las herramientas de modelado.

Este capitulo presenta la selección de datos (sección 4.1), limpieza de datos (sección

4.2), construcción de datos (sección 4.3) y formateo de datos (sección 4.4).

4.1 Selección de datos

Los datos seleccionados para el análisis son los mencionados en la sección 3.2: Los

atributos se detallan en la tabla 4.1 y las clases en la tabla 4.2.

Atributo

Altura Planta Pre Floración

Diam Espiga 1

Diam Espiga 2

Diam Espiga 3

Diam Espiga 4

Diam Espiga 5

Diam Espiga 6

Diam Espiga 7

Peso Planta Madurez

TCP Flor

TCP Llenado

Tabla 4.1 Atributos

Clases

Rendimiento

Tabla 4.2 Clases

4.2 Limpieza de datos

En función de lo analizado en la sección 3.4, por recomendación del experto, se

eliminan los registros mencionados en la tabla 3.6, ya que el hecho de tener atributos

con valores faltantes da en indicio que los registros en cuestión fueron excluidos de la

investigación por razones externas (por ejemplo, planta enferma):

Eliminación de registros con atributo Peso Planta Madurez faltante: 76

registros eliminados.

Eliminación de registros con atributo TCP Floración faltante: 342 registros

eliminados.

Eliminación de registros con atributo TCP Llenado faltante: 5 registros

eliminados.

Eliminación de registros con atributo NGP faltante: 30 registros eliminados.

Eliminación de registros con atributo PG faltante: 89 registros eliminados.

Lo que da un total de 542 registros eliminados.

Cabe destacar que los registros con valores absurdos mencionados en la tabla 3.7,

desaparecieron al eliminar los registros con valores faltantes.

El nuevo conjunto de datos ahora consta de 1902 registros de los 2444 mencionados

en la sección 3.2.

Se realiza nuevamente el análisis efectuado en la sección 3.3 pero en esta oportunidad

con el conjunto de datos limpios:

4.2.1 Análisis de clases

En las figuras 4.1, 4.2 y 4.3 se analiza nuevamente la distribución de los valores en las

clases:

Figura 4.1 Distribución de la clase Rendimiento

Figura 4.2 Distribución de la clase NGP

Figura 4.3 Distribución de la clase PG

Se observa que, luego de la limpieza, no ha hay registros sin valor asignado para las

clases NGP y PG.

4.2.2 Análisis de atributos

Las figuras 4.4 y 4.5 ilustran los casos en los que aparecían en la sección 3.3 con

valores muy alejados de la media de la población:

0 500 1000 1500 2000

Figura 4.4 Distribución para el atributo Diámetro Tallo Pre Floración

0 500 1000 1500 2000

Figura 5.5 Distribución para el atributo Peso Planta Pre Floración

Se observa que, luego de la limpieza, ya no se presentan registros cuyo valor diste

significativamente del resto de la población.

En las figuras 4.6, 4.7, 4.8 y 4.9 se ilustran casos en los que en la sección 3.3 ciertos

registros adoptan valores absurdos:

0 500 1000 1500 2000

Figura 4.6 Distribución para el atributo Altura Planta Post Floración

0 500 1000 1500 2000

Figura 4.7 Distribución para el atributo Diámetro Tallo Post Floración

0 500 1000 1500 2000

Figura 4.8 Distribución para el atributo Peso Planta Post Floración

Peso Planta Madurez

0 500 1000 1500 2000

Figura 4.9 Distribución para el atributo Peso Planta Madurez

Se observa que, luego de la limpieza, ya no se presentan registros con valores

absurdos.

4.3 Construcción de datos

Por solicitud del experto, para el análisis de la clase PG se reemplazan los atributos

TCP Floración y TCP Llenado por dos atributos equivalentes pero expresados en

unidades por grano, por lo tanto se crean los siguientes atributos derivados que se

observan en la tabla 4.3.

TCP Flor (xG) TCP Flor/NGP Numérico -1.03 – 75.47

TCP Llenado (xG) TCP Llenado/NGP Numérico -5.4 – 18.77

Tabla 4.3 Atributos derivados

4.4 Formateo de datos

Como se detallo en la sección 3.2, los atributos a ser tomados en cuenta para el

análisis pertenecen al dominio de los números continuos pero, dependiendo del la

técnica seleccionada, puede ser necesario discretizar mencionados atributos debido a

precondiciones de los modelos:

TDIDT: Admite atributos tanto continuos como discretos.

Redes neuronales SOM: Admite solamente atributos continuos.

Redes bayesianas: Admite solamente atributos discretos.

Las clases ya fueron discretizadas por el experto en la sección 3.2.1. El resto de los

atributos, en función de lo acordado también con el experto, se discretizarán en cinco

intervalos equidistantes. Ver tabla 4.4.

Nombre Intervalo

Intervalo

Diámetro Tallo Pre

Floración < 16 16 - 21 21 – 27 27 - 33 > 33

Altura Planta Pre

Floración < 31 31 - 46 46 – 62 62 - 77 > 77

Peso Planta Pre

Floración < 28 28 - 51 51 – 73 73 - 96 > 96

Diámetro Tallo

Post Floración < 7 7 - 14 14 – 22 22 - 29 > 29

Altura Planta Post

Floración < 45 45 - 91 91 – 136 136 - 182 > 182

Diam Espiga 1 < 11 11 - 22 22 – 33 33 - 43 > 43

Diam Espiga 2 < 10 10 -20 20 – 30 30 - 40 > 40

Diam Espiga 3 < 8 8 - 17 17 – 25 25 - 34 > 34

Diam Espiga 4 < 7 4 - 14 14 – 21 21-28 >28

Diam Espiga 5 < 7 7 - 13 13 – 20 20 - 27 > 27

Peso Planta Post

Floración < 68 68 - 143 149 – 219 219 - 294 > 294

Peso Planta

Madurez < 132 132 - 233 233 -334 334 - 435 > 435

TCP Flor < 46 46 - 187 187 – 328 328 - 469 > 469

TCP Llenado < -38 -38 - 84 84 – 207 207 - 329 > 329

Tabla 4.4 Discretización de atributos

Minería de datos aplicada a cultivos de maíz - 5. Modelado

5 Modelado

En esta fase, son seleccionadas y aplicadas varias técnicas de modelado, y sus

parámetros calibrados a los valores óptimos. Típicamente existen varias técnicas para

un mismo tipo de problema de minería de datos. Algunas técnicas tienen

requerimientos específicos en la forma de los datos. Por lo tanto, es necesario,

frecuentemente, retroceder a la fase de preparación de datos.

Este capitulo presenta la selección de técnicas de modelado (sección 5.1), diseño de la

prueba (sección 5.2), construcción de los modelos (sección 5.3) y evaluación de los

modelos (sección 5.4).

5.1 Selección de las técnicas de modelado

Se presentan las técnicas de modelado (sección 5.1.1) y las suposiciones del modelado

(sección 5.1.2).

5.1.1 Técnicas de Modelado

No se propone una técnica para cada problema, sino que una combinación de las

mismas para estudiar cada problema [Britos, 2008]:

Técnica 1: Redes Bayesianas Aplicadas a la Ponderación de Reglas de

Comportamiento.

Técnica 2: SOM y TDIDT aplicados al descubrimiento de Reglas de Pertenencia a

Grupos.

5.1.1.1 Redes bayesianas aplicadas a la ponderación de reglas de comportamiento

Se propone la utilización de algoritmos de inducción TDIDT [Britos et al., 2008b]

para descubrir las reglas de comportamiento de cada atributo clase y posteriormente

se utilizan redes bayesianas para descubrir cual de los atributos establecidos como

antecedente de las reglas tiene mayor incidencia sobre el atributo establecido como

consecuente. Ver figura 5.1.

Figura 5.1 Redes bayesianas aplicadas a la ponderación de reglas de comportamiento

5.1.1.2 SOM y TDIDT aplicados al descubrimiento de reglas de pertenencia a grupos

Para el descubrimiento de reglas de pertenencia a grupos se propone, para el hallazgo

de los mismos, la utilización de mapas auto-organizados (SOM) y, una vez

identificados los grupos, la utilización de algoritmos de inducción (TDIDT) con el

objeto de establecer las reglas de pertenencia a cada uno [Britos et al., 2005; Cogliati

et al., 2006a; Britos et al., 2008a]. Ver figura 5.2.

Seleccionar Atributo

Aplicar Algoritmo

Reglas

Aplicar Algoritmo de

Redes Bayesianas

Reglas Ponderadas

Grupos

Aplicar Algoritmo

Reglas de Grupos

Aplicar Algoritmo SOM

Figura 5.2 SOM y TDIDT aplicados al descubrimiento de reglas de pertenencia a grupos

5.1.2 Suposiciones del modelado

No hay registros con valores faltantes. Todos lo registros tienen sus datos

cargados.

No se presentan registros cuyo valor diste significativamente del resto de la

población.

No existen atributos con valores fuera de rango (absurdos).

5.2 Diseño de la prueba

Se utilizará el método de dejar uno afuera (leave one out) siendo que es el mas

apropiado para pequeños conjuntos de datos porque, en cierta medida, evalúa todas

las posibilidades [García Martínez et al., 2003]

5.2.1 Validación cruzada

En la validación cruzada [García Martínez et al., 2003], se determina con anterioridad

una cierta cantidad de pliegos o particiones de los datos. Supongamos que utilizamos

tres, es decir, los datos se dividen al azar en tres particiones de aproximadamente la

misma cantidad, y cada una a su turno se utiliza para prueba mientras las otras dos se

utilizan para entrenamiento. Por lo tanto utilizamos un tercio para prueba dos tercios

para entrenamiento, y repetimos el procedimiento tres veces. Las tres proporciones de

error obtenidas se promedian para llegar a una proporción de error general. Este

procedimiento conocido como validación cruzada de tres pliegues (threefold cross-

validation), puede trabajar con datos estratificados, en cuyo caso seria validación

cruzada de tres pliegues estratificada.

Podemos generalizar el método para llegar a una validación cruzada de n pliegues,

estratificada o no. El caso mas utilizado para predecir la proporción de error de una

técnica de aprendizaje es utiliza una validación cruzada de diez pliegues. Además las

pruebas han demostrado que el uso de la estratificación mejora los resultados

levemente [Witten y Frank, 2000]. Utilizar una validación cruzada de diez pliegues

puede no ser suficiente para obtener un buen estimador de la proporción de error.

Distintas validaciones cruzadas de diez pliegues dan distintos resultados dado que la

división de pliegues se realiza al azar. La estratificación reduce la variación entre los

resultados pero no la elimina.

Si se quiere obtener una estimación de la proporción de error muy precisa,

generalmente, se repite la validación cruzada de diez pliegues diez veces y se

promedian los resultados. Esto implica invocar al algoritmo de aprendizaje cien veces

con conjuntos de datos del tamaño del 90% del conjunto original. Obtener una buena

medida de la performance es un método que consume grandes recursos

computacionales.

5.2.2 Dejar-uno-afuera (Leave-one-out)

La validación cruzada de diez pliegues [García Martínez et al., 2003] es una manera

normalmente utilizada para estimar la proporción de error, pero no es la única.

Existen otras técnicas bastante populares como la de dejar-uno-afuera. Esta técnica es

simplemente una validación cruzada de n pliegues donde n es el numero de instancias

del conjunto de datos. Por turnos cada una de las instancias se deja afuera y se entrena

el clasificador con el resto de las instancias. Se lo evalúa según el resultado de la

clasificación de la instancia que había quedado afuera. Los resultados de las n

evaluaciones luego se promedian para determinar la proporción de error.

Este procedimiento es atractivo por dos razones [Witten y Frank, 2000]. Primero, se

utiliza la mayor cantidad de ejemplos posibles para el entrenamiento, lo cual se

presupone incrementa la posibilidad de que el clasificador sea correcto. Segundo, el

procedimiento es determinístico: no se parten datos al azar. Además, no tiene sentido

repetir el procedimiento diez ni cien veces, ya que siempre se observará el mismo

resultado. Debe tenerse en cuenta que dado el alto costo computacional de aplicar este

método, no es factible utilizarlo para grandes conjuntos de datos. Sin embargo, este

método es el mejor para pequeños conjuntos de datos porque, en cierta medida, evalúa

todas las posibilidades.

5.3 Construcción de los modelos

Se presenta el seteo de parámetros de los modelos (sección 5.3.1) y el resultado de la

ejecución de los modelos (sección 5.3.2).

5.3.1 Seteo de parámetros

En la tabla 5.1 se describen los valores de los parámetros de los modelos.

Min Size of Leaves 20

Confidence Level 0.7

Kohonem SOM

Row Size 3

Col Size 3

Distance Normalization Variance

Seed Random Generator Standard

Naive Bayes

Use laplacian prob estimate Yes

Lambda 1

Tabla 5.1 Seteo de parámetros

5.3.2 Modelos

Se presentan los resultados de la generación de reglas de clasificación y la

ponderación de las mismas para las clases Rendimiento (sección 5.3.2.1), NGP

(sección 5.3.2.2) y PG (sección 5.3.2.3). Y el descubrimiento de reglas de pertenencia

a grupos (sección 5.3.2.4).

5.3.2.1 Ponderación de reglas del negocio - Rendimiento

En esta sección se presentan los resultados de la generación de reglas de clasificación,

luego de aplicar el algoritmo TDIDT,(sección 5.3.2.1.1) y la ponderación de las

mismas, utilizando redes bayesianas, (sección 5.3.2.1.2) para la clase Rendimiento.

5.3.2.1.1 TDIDT

En la tabla 5.2 se detallan las reglas de clasificación originadas al aplicar el algoritmo

TDIDT a la clase Rendimiento.

Regla Condición

Altura Planta Post Floración >= 181.0

Diámetro Tallo Pre Floración >= 22.8

Altura Planta Pre Floración >= 54.5

Diámetro Tallo Post Floración >= 20.1

Diam Espiga 1< 32.6

139.2 <= Peso Planta Madurez < 234.9

A 80% 20

Diámetro Tallo Post Floración < 18.8

Peso Planta Post Floración >= 87.0

Diam Espiga 3 < 22.6

A 80% 57

Altura Planta Post Floración < 164.5

A 79% 122

18.8 <= Diam Espiga 2 < 28.7

TCP Llenado >= 127.1

Diam Espiga 1 >= 32.6

A 63% 49

Altura Planta Pre Floración < 54.5

Diam Espiga 1< 32.6

A 87% 178

A 97% 126

Peso Planta Madurez < 102.7 A 99% 236

Peso Planta Madurez < 139.2 B 77% 22

Tabla 5.2a Reglas para la clase Rendimiento

Regla Condición

Diámetro Tallo Pre Floración < 22.8

Diam Espiga 1< 32.6

B 66% 27

TCP Llenado >= 127.1

139.2 =< Peso Planta Madurez < 234.9

B 75% 32

TCP Llenado < 127.1

B 88% 25

TCP Llenado < 127.1

B 66% 27

TCP Llenado < 127.1

B 92% 75

TCP Llenado < 127.1

139.2 <= Peso Planta Madurez<189.4

B 98% 90

Tabla 5.2b Reglas para la clase Rendimiento

Regla Condición

TCP Llenado<127.1

B 84% 173

B 70% 58

B 79% 86

234.9 <= Peso Planta Madurez < 317.6 C 66% 33

C 80% 20

Peso Planta Pre Floración < 46.2

C 80% 20

C 84% 26

TCP Llenado < 237.0

C 75% 61

317.6 <= Peso Planta Madurez < 383.8 D 79% 43

Tabla 5.2c Reglas para la clase Rendimiento

5.3.2.1.2 Redes bayesianas

En las figuras 5.3, 5.4, 5.5, 5.6, 5.7, 5.8 y 5.9 se detalla la ponderación de los atributos

para las reglas obtenidas en la sección 5.3.2.1.1.

Figura 5.3 Rendimiento clase A

Figura 5.4 Rendimiento clase B

Figura 5.5 Rendimiento clase C

Figura 5.6 Rendimiento clase D

Figura 5.7 Rendimiento clase E

Figura 5.8 Rendimiento clase F

Figura 5.9 Rendimiento clase G

5.3.2.2 Ponderación de reglas del negocio - NGP

mismas, utilizando redes bayesianas, (sección 5.3.2.2.2) para la clase NGP.

5.3.2.2.1 TDIDT

TDIDT a la clase NGP.

Regla Condición

TCP Flor < 243.2

110.1 <= Peso Planta Post Floración < 197.1

Diam Espiga 5 < 9.9

A 89% 35

TCP Flor < 158.4

Peso Planta Post Floración < 110.1

Diam Espiga 5 < 9.9

A 68% 56

Diam Espiga 5 < 9.9

A 92% 24

Tabla 4.3a Reglas para la clase NGP

Regla Condición

13.3 <= Diam Espiga 3 < 23.3

Diam Espiga 5 < 9.9

A 67% 21

Peso Planta Madurez < 80.4

Diam Espiga 5 < 9.9

A 95% 82

Diam Espiga 5 < 9.9

B 94% 33

Diam Espiga 5 < 9.9

B 100% 21

TCP Flor >= 243.2

Diam Espiga 5 < 9.9

B 81% 31

Tabla 4.3b Reglas para la clase NGP

Regla Condición

158.4 <= TCP Flor < 243.2

Diam Espiga 5 < 9.9

B 75% 32

29.75 <= Diam Espiga 1 < 38.3

Diam Espiga 5 < 9.9

B 100% 26

29.7 <= Diam Espiga 1 < 38.3

Diam Espiga 5 < 9.9

B 89% 36

TCP Flor < 243.2

24.7 <= Diam Espiga 1 < 29.7

Diam Espiga 5 < 9.9

B 71% 207

Tabla 4.3c Reglas para la clase NGP

Regla Condición

13.3 <= Diam Espiga 3 < 23.3

Diam Espiga 5 < 9.9

B 77% 83

Diam Espiga 5 < 9.9

B 90% 706

B10 If

Peso Planta Madurez >= 288.0

Diam Espiga 5 < 9.9

B 77% 44

Diam Espiga 5 < 9.

B 88% 90

Diam Espiga 5 < 9.9

C 89% 27

Tabla 4.3d Reglas para la clase NGP

Regla Condición

Diam Espiga 5 < 9.9

C 68% 22

Diam Espiga 5 < 9.9

C 73% 71

Diam Espiga 5 < 9.9 D 67% 21

Tabla 4.3e Reglas para la clase NGP

En las figuras 5.10, 5.11, 5.12, 5.13, 5.14 y 5.15 se detalla la ponderación de los

atributos para las reglas obtenidas en la sección 5.3.2.2.1.

Figura 5.10 NGP clase A

Figura 5.11 NGP clase B

Figura 5.12 NGP clase C

Figura 5.13 NGP clase D

Figura 5.14 NGP clase E

Figura 5.15 NGP clase F

5.3.2.3 Ponderación de reglas del negocio - PG

mismas, utilizando redes bayesianas, (sección 5.3.2.3.2) para la clase PG.

5.3.2.3.1 TDIDT

TDIDT a la clase PG.

Regla Condición

TCP Llenado (xG) < 0.08

TCP Flor (xG) < 0.2

A 72% 29

B 69% 51

TCP Flor (xG) >= 0.2

B 92% 25

TCP Llenado (xG) >= 0.2

TCP Flor (xG) < 1.0

B 69% 51

Tabla 5.4a Reglas para la clase PG

Regla Condición

TCP Flor (xG) < 0.2

0.08 <= TCP Llenado (xG) < 0.6082

B 83% 76

TCP Flor (xG) < 0.4

B 83% 41

TCP Flor (xG) >= 0.2

B 91% 375

TCP Flor xG >= 0.2

TCP Llenado xG < 0.6

B 89% 37

TCP Flor xG >= 0.4

B 78% 49

Tabla 5.4b Reglas para la clase PG

Regla Condición

Peso Planta Madurez >= 176. 0

TCP Flor (xG) < 0.6

C 77% 94

TCP Flor (xG) < 1.0

C 84% 120

TCP Flor (xG) < 1.0

C 95% 21

Peso Planta Madurez < 212.

Diam Espiga 1 > =39.7

TCP Flor xG < 0.8

C 92% 25

TCP Flor xG >= 0.4

Altura Planta Post Floración<161.5

C 77% 26

Tabla 5.4c Reglas para la clase PG

Regla Condición

0.3116 <= TCP Flor (xG) < 0.6

D 67% 27

0.3 <= TCP Flor (xG) < 0.6

D 68% 31

41.8050 < =Diam Espiga 1 < 46.4

0.3<=TCP Flor (xG) < 0.6

E 72% 57

TCP Flor (xG) < 0.3

F 72% 46

Tabla 5.4d Reglas para la clase PG

En las figuras 5.16, 5.17, 5.18, 5.19, 5.20, 5.21 y 5.22 se detalla la ponderación de los

atributos para las reglas obtenidas en la sección 5.3.2.3.1.

Figura 5.16 PG clase A

Figura 5.17 PG clase B

Figura 5.18 PG clase C

Figura 5.19 PG clase D

Figura 5.20 PG clase D

Figura 5.21 PG clase F

Figura 5.22 PG clase G

5.3.2.4 Descubrimiento de reglas de pertenencia a grupos

En esta sección se presentan los resultados de la aplicación de SOM para

descubrimiento de grupos (sección 5.3.2.4.1) y el descubrimiento de las reglas de

pertenencia a grupos (sección 5.3.2.4.2).

5.3.2.4.1 Mapas auto organizados (SOM) aplicados al descubrimiento de grupos

Se utilizará Mapas Auto Organizados de Kohonen (SOM) para el descubrimiento de

grupos sobre los datos que no disponen de ningún criterio de agrupamiento “a priori”.

El resultado de la aplicación de SOM genera la distribución de los distintos registros

en 8 grupos, detallados en la tabla 5.5.

1 13 423 577

2 54 337 0

3 161 218 119

Tabla 5.5 Distribución de registros en grupos

Por ejemplo el grupo 3.1 contiene 161 registros.

5.3.2.4.2 TDIDT

En la tabla 5.5 se detallan las reglas de pertenencia a grupos originadas al aplicar el

algoritmo TDIDT.

Regla Condición

Diam Espiga 4 >= 13.5 1.1 52 25

1.2 56.67% 30

Rendimiento < 50.9

1.2 80% 25

1.2 91.73% 375

1.3 69.44% 36

Tabla 5.6a Reglas de pertenencia a grupos

Regla Condición

TCP Llenado < 54.5

Peso Planta Pre Floración >= 25.1

1.3 69.70% 33

Rendimiento >= 50.9

1.3 71.43% 77

Rendimiento < 50.9

1.3 77.27% 22

TCP Llenado < 54.5

1 3 84.78% 46

Tabla 5.6b Reglas de pertenencia a grupos

Regla Condición

TCP Llenado >= 54.5

1.3 91.21% 307

TCP Llenado < 54.5

1.3 96.15% 78

PG < 192.8

1.3 100.00% 20

Diam Espiga 4 >= 13.5 2.1 84.31% 51

TCP Llenado < 54.5

2.2 91.25% 80

Tabla 5.6c Reglas de pertenencia a grupos

Regla Condición

2.2 92.51% 227

Rendimiento < 134.4

3.1 81.82% 55

3.1 91.14% 79

PG < 192.8

3.2 33.33% 21

PG >= 192.8

3.2 86.07% 201

Rendimiento >= 134.4

3.3 86.84% 114

Tabla 5.6d Reglas de pertenencia a grupos

5.4 Evaluación de los modelos

Como se expreso en la sección 4.2 en se utilizará la técnica Leave-One-Out para

evaluar los modelos. En al siguiente subsección se detalla una guía de cómo

interpretar los resultados arrojados por la herramienta utilizada.

5.4.1 Descripción de los resultados de la herramienta

Con el objetivo de facilitar la interpretación de los resultados arrojados por la

herramienta, se ejemplificaran los mismos suponiendo que los datos están divididos

en dos clases, A y B.

La tabla 5.7 nos muestra la matriz de confusión y un detalle del significado de cada

celda.

A B Sum

Cantidad de registros que

se clasificaron como “A” y

son de la clase “A”

Cantidad de registros que se

clasificaron como “A” pero

son de la clase “B”

Cantidad Total de

Registros de Clase “A”

Cantidad de registros que

se clasificaron como “B”

pero son de la clase “A”

Cantidad de registros que se

clasificaron como “B” y

son de la clase “B”

Cantidad Total de

Registros de Clase “B”

Sum Cantidad total de registros

clasificados como “A”

Cantidad total de registros

clasificados como “A”

Cantidad Total de

Registros

Tabla 5.7 Matriz de Confusión

A partir de la matriz de confusión (tabla 5.7) se calculan los valores de la tabla de

predicción de valores (tabla 5.8) haciendo referencia a las celdas de dicha matriz

como fila:colunma, por ejemplo A:Sum indica la Cantidad Total de Registros de

Clase “A”. La tabla de predicción de valores (tabla 5.8) nos indica cuan efectivo es el

algoritmo para predecir una clase en particular.

Valor Eficacia 1 – Precisión

A A:A / A:Sum 1 – ( A:A / Sum:A )

B B:B / B:Sum 1 – ( B:B / Sum:B )

Tabla 5.8 Predicción de valores

Es la tasa de error total es calculada también a partir de los valores de la matriz de

confusión (tabla 5.7) como se describe a continuación:

Tasa de error = 1 – (A:A + B:B)/Sum:Sum

5.4.2 Evaluación de los modelos

En esta sección se presentan los resultados arrojados por la herramienta para la

evaluación de clasificación de Rendimiento (sección 5.4.2.1), Clasificación de NGP

(sección 5.4.2.2), Clasificación de PG (sección 5.4.2.3) y Clasificación de Pertenencia

a Grupos (sección 5.4.2.4).

5.4.2.1 Clasificación de Rendimiento

En esta sección se presentan los resultados arrojados por la herramienta para el

modelo ejecutado para obtener las reglas de clasificación del Rendimiento (sección

5.3.2.1).

La tasa de error total calculada a partir de la matriz de confusión (tabla 5.9) es

24.92%, y la tabla de predicción de valores se describe en la tabla 5.10.

A B C D E F G Sum

A 687 117 0 0 0 0 0 804

B 136 552 34 0 0 0 0 722

C 6 94 105 23 0 1 0 229

D 0 5 24 71 0 1 0 101

E 0 0 0 14 0 10 0 24

F 0 0 0 3 0 13 0 16

G 0 0 0 1 0 5 0 6

Sum 829 768 163 112 0 30 0 1902

Tabla 5.9 Matriz de confusión – clasificación Rendimiento

A 85.45% 17.13%

B 76.45% 28.13%

C 45.85% 35.58%

D 70.30% 36.61%

E 0.00% 100.00%

F 81.25% 56.67%

G 0.00% 100.00%

Tabla 5.10 Predicción de valores – clasificación Rendimiento

Según indica la tabla de predicción de valores (tabla 5.10), la eficacia del método para

determinar las clases es aceptable en todos los casos a excepción de las clases E y G

para las cuales es nula, pero cabe aclarar que en la sección 5.3.2.1.1 no se han

considerado reglas para determinar dichas clases debido a su baja confianza.

La tasa total de error del (24.92%) es aceptable, y habiendo hecho la salvedad sobre

las eficacia de las clases E y G, se puede afirmar que el método es satisfactorio.

5.4.2.2 Clasificación de NGP

modelo ejecutado para obtener las reglas de clasificación del NGP (sección 5.3.2.2).

A B C D E F Sum

A 179 177 1 0 0 0 357

B 55 1130 45 4 0 0 1234

C 2 58 139 25 0 0 224

D 0 4 25 44 0 0 73

E 0 0 1 12 0 0 13

F 0 0 0 1 0 0 1

Sum 236 1369 211 86 0 0 1902

Tabla 5.11 Matriz de confusión – clasificación NGP

A 50.14% 24.15%

B 91.57% 17.46%

C 62.05% 34.12%

D 60.27% 48.84%

E 0.00% 100.00%

F 0.00% 100.00%

Tabla 5.12 Predicción de valores – clasificación NGP

determinar las clases es aceptable en todos los casos a excepción de las clases E y F

para las cuales es nula, pero en la sección 5.3.2.2.1 no se han considerado reglas para

determinar dichas clases debido a su baja confianza.

La tasa total de error del 21.56% es aceptable, con lo cual se puede afirmar que el

método es satisfactorio.

5.4.2.3 Clasificación de PG

modelo ejecutado para obtener las reglas de clasificación del PG (sección 5.3.2.3).

A B C D E F G Sum

A 37 15 0 1 1 0 0 54

B 15 675 51 22 13 2 0 778

C 0 75 350 23 15 4 0 467

D 0 15 30 163 40 6 0 254

E 0 10 18 45 135 12 0 220

F 0 4 13 5 23 70 0 115

G 0 0 0 3 4 7 0 14

Sum 52 794 462 262 231 101 0 1902

Tabla 5.13 Matriz de confusión – clasificación PG

A 68.52% 28.85%

B 86.76% 14.99%

C 74.95% 24.24%

D 64.17% 37.79%

E 61.36% 41.56%

F 60.87% 30.69%

G 0.00% 100.00%

Tabla 5.14 Predicción de valores – clasificación PG

determinar las clases es aceptable en todos los casos a excepción de la clases G para

la cuales es nula, pero en la sección 5.3.2.3.1 no se han considerado reglas para

determinar dicha clase debido a su baja confianza.

La tasa total de error del 24.82%, es aceptable, con lo cual se puede afirmar que el

método es satisfactorio.

5.4.2.4 Clasificación de Pertenencia a Grupos

modelo ejecutado para obtener las reglas de clasificación de pertenencia a grupos

(sección 5.3.2.4).

1-1 1-2 1-3 2-1 2-2 2-3 3-1 3-2 3-3 Sum

1-1 176 6 13 6 4 4 5 4 1 219

1-2 1 184 8 2 5 5 2 5 3 215

1-3 7 8 158 1 1 9 3 7 5 199

2-1 6 14 6 176 3 10 5 5 10 235

2-2 3 2 4 6 161 11 4 6 4 201

2-3 11 7 7 3 4 185 8 5 5 235

3-1 10 4 5 5 6 6 156 6 13 211

3-2 5 4 4 6 5 6 9 159 3 201

3-3 2 6 5 4 3 3 8 3 152 186

Sum 221 235 210 209 192 239 200 200 196 1902

Tabla 5.15 Matriz de confusión – clasificación de pertenencia a grupos

1-1 80.37% 20.36%

1-2 85.58% 21.70%

1-3 79.40% 24.76%

2-1 74.89% 15.79%

2-2 80.10% 16.15%

2-3 78.72% 22.59%

3-1 73.93% 22.00%

3-2 79.10% 20.50%

3-3 81.72% 22.45%

Tabla 5.16 Predicción de valores – clasificación pertenencia a grupos

determinar las clases es muy buena en todos los casos y la tasa total de error del

20.77% es aceptable, con lo cual se puede afirmar que el método es satisfactorio.

Minería de datos aplicada a cultivos de maíz - 6. Evaluación

6 Evaluación

A esta altura del proyecto se ha se han construido los modelos que parecen ser de alta

calidad desde una perspectiva del análisis de datos. Ahora es importante evaluar a

fondo el modelo y revisar los pasos ejecutados para construir el modelo con el fin

segurar que este alcanza los objetivos del negocio.

Este capitulo presenta la evaluación de los modelos (sección 6.1) y valoración de los

resultados por los expertos (sección 6.2).

6.1 Evaluación de los modelos

A continuación se detallará la evaluación del experto sobre los resultados de cada uno

de los modelos desarrollados en la sección 5.1.

6.1.1 Ponderación de reglas del negocio – Rendimiento

El peso de planta a madurez es una clara característica que explica el rendimiento en

todas las reglas. A mayor peso planta a madurez, mayor rendimiento.

Existen otras variables (altura de planta, diámetro de tallo, diámetro de espiga) que

pueden influir en el rendimiento. El peso planta a madurez es acorde al rendimiento,

pero no se cumple en todos los casos, lo que demuestra que esta variable no siempre

explica el rendimiento final. En dichos casos entran en juego otras variables que

ayudan a entender el por que del valor del rendimiento, como diámetro de espiga o

altura de planta. Por ejemplo, puede existir una planta grande, un alto valor de peso a

madurez, pero si dicho peso se encuentra mal repartido entre las diferentes partes de

la planta el rendimiento puede ser bajo. Si mucho de lo que pesa la planta se debe al

tallo, una planta alta, es probable que el peso de la espiga sea bajo, se refleja en el

diámetro, e indica que la planta no destina apropiadamente sus recursos y por lo tanto

el rendimiento será bajo.

Un detalle que se puede apreciar en las reglas es que no hay una relación directa entre

el número de espigas y el rendimiento final. Una gran cantidad de espigas (choclos)

no implican un alto rendimiento (porque más espigas indican más lugares donde

puede haber granos es común pensar que mas choclos implican mas rendimiento).

6.1.2 Ponderación de reglas del negocio – NGP

A diferencia de las reglas de rendimiento se ve que la característica que más explica el

número de granos es el peso de planta en post-floración y/o la TCP en floración, cosa

que está perfecto porque es durante este período que queda determinado el número de

granos. Se pueden observar también ciertos detalles, como que mayor cantidad de de

espigas no implica mayor número de granos, y que, como se ve en la última regla, lo

que importa es el tamaño (medido como diámetro) de las primeras espigas.

6.1.3 Ponderación de reglas del negocio – PG

El peso del grano esta relacionado con la TCP en Floración por grano y la TCP en

llenado por grano.

La TCP por grano funciona como un estimador de la disponibilidad de comida que

hay para el crecimiento de los granos. Si la disponibilidad es baja entonces es

esperable que el PG no sea bueno.

6.1.4 Descubrimiento de reglas de pertenencia a grupos

Observando las reglas más significativas de cada grupo, se llega a la siguiente

conclusión:

El Grupo 1.1 incluye plantas con 5 espigas o mas y la quinta espiga con un

diámetro mayor al promedio. (Plantas con muchas espigas)

El Grupo 1.2 incluye plantas con hasta 4 espigas, un Peso Planta Madurez

menor al promedio, un Diámetro Tallo Post Floración mayor al promedio y

una Altura Planta Pre Floración menor al promedio. (Plantas livianas, tallos

grandes y baja altura).

menor al promedio, un Diámetro Tallo Post Floración menor al promedio y un

Peso Planta Pre Floración mayor al promedio. (Plantas livianas, tallos chicos,

mas pesadas en la floración).

El Grupo 2.1 incluye plantas con al menos 4 espigas. En caso de existir una

5ta, con diámetro menor al promedio. (Plantas con muchas espigas).

Peso Planta Pre Floración menor al promedio. (Plantas livianas, tallos chicos,

mas livianas en la floración).

menor al promedio, un Diámetro Tallo Post Floración mayor al promedio y

una Altura Planta Pre Floración mayor al promedio. (Plantas livianas, tallos

grandes y mayor altura).

El Grupo 3.2 incluye planta con hasta 4 espigas, un Peso Planta Madurez

mayor al promedio y un Peso Planta Post Floración menor al promedio.

(Plantas pesadas que crecieron mucho desde la floración a la madurez).

mayor al promedio y un Peso Planta Post Floración mayor al promedio.

(Plantas pesadas que no crecieron mucho desde la floración a la madurez).

Peso Planta Pre Floración mayor al promedio. (Plantas livianas, tallos chicos,

mas pesadas en la floración).

Peso Planta Pre Floración menor al promedio. (Plantas livianas, tallos chicos,

mas livianas en la floración).

6.2 Valoración de los resultados por los expertos

Considero apropiado mencionar que más allá del aporte específico a este conjunto de

datos, el análisis aplicado resultó a mí entender novedoso y potencialmente útil para

aplicar en cualquier rama de la agronomía, desde estudios más detallados a nivel de

planta individual (como el realizado aquí) hasta estudios a nivel de cultivo y

ambientes.

Específicamente, el análisis realizado sobre este conjunto de datos permitió confirmar

la existencia de ciertos atributos que guardan relación con el rendimiento final, como

el peso de planta a madurez. También permitió confirmar que otros atributos que se

esperaría guarden relación directa con el rendimiento no lo tengan. Por ejemplo, no

siempre el número de espigas (número de estructuras reproductivas donde se fijan los

granos, principal componente del rendimiento) implica mayor rendimiento, y que en

general es más importante cuánto crezcan (estimado aquí como su diámetro) las

primeras espigas. Otro atributo que se sabe no necesariamente guarda relación con el

rendimiento es la altura de planta. Los resultados de este análisis confirman que una

planta más alta no necesariamente tiene más rendimiento, ya que lo importante es

cómo el crecimiento de esa planta es particionado entre las distintas partes de la

planta.

Un aporte importante al análisis de datos fue la separación entre componentes del

rendimiento, es decir, evaluar reglas para número de granos y para peso de grano en

lugar de reglas para rendimiento. Este análisis resultó interesante ya que, como se

indica en el resumen de las reglas, los atributos de mayor peso fueron diferentes de

acuerdo al componente (número o peso).

En la actualidad nuestro grupo de trabajo está estudiando atributos detrás de la

determinación del número de granos y el peso de grano individual, con el objetivo

futuro de determinar las bases genéticas por un lado, y de mejorar la predicción de

actuales modelos de simulación de rendimiento de cultivos por otro. Para ello, el

entendimiento de cómo se genera el rendimiento es de vital importancia. El análisis

realizado aquí nos remarca sobre la importancia de ampliar y estudiar con mayor

detalle algunos atributos. Para el caso del número de granos, es claro que debemos

estudiar el crecimiento de las plantas y de las espigas alrededor de floración.

Actualmente estamos aplicando modelos que nos permiten predecir el crecimiento de

las espigas con mayor detalle. Asimismo, también estamos considerando la

posibilidad de que haya diferencias en la cantidad de granos fijados por unidad de

crecimiento de las espigas, atributo que puede explicar variabilidad en el número de

granos para igual crecimiento de espiga. Con respecto al peso del grano, es claro que

debemos focalizar en el crecimiento de las plantas por grano fijado alrededor de

floración, como un estimador de la cantidad de “comida” disponible para el

crecimiento de los mismos. El análisis aquí realizado, sin embargo, también nos

advirtió de que existen casos en que el crecimiento por planta por grano fijado durante

el llenado efectivo también es importante para la definición del peso. Es por ello que

este atributo (generalmente poco considerado como importante) debe ser también

medido para mejorar nuestro entendimiento sobre la definición de este componente.

Minería de datos aplicada a cultivos de maíz - 7. Conclusión

7 Conclusión

La metodología CRISP-DM seleccionada para llevar a cabo este proyecto ha

resultado de gran utilidad en diferentes aspectos. La etapa inicial de compresión del

negocio permite relacionar el objetivo del negocio con el objetivo de minería de datos.

La sección de comprensión de datos ayuda a introducir conceptos del negocio y que

los analistas estén familiarizados con los mismos, lo que permite en etapas avanzadas

tomar decisiones mas acertadas de acuerdo al contexto. Y finalmente en la epata de

preparación de los datos fue útil para producir un conjunto de datos consistentes y

evitar arrastrar errores en el modelado. Fue de utilidad para determinar la viabilidad

del proyecto en etapas tempranas.

Los procesos seleccionados en la etapa de modelado resultaron ser efectivos ya que

permitieron identificar cuales son las características que tienen incidencia o no sobre

el rendimiento final de un cultivo (y sus componentes, PG y NGP), según lo

manifestado por el experto en su conclusión (6.2), cumpliendo de esta forma con los

objetivos del negocio planteados al inicio del proyecto (2.1.2).

Si bien el proyecto fue exitoso, se estima que un set de datos más completo, con

clases mejor distribuidas o ciertas clases mejor representadas (según lo expresado en

la sección 3.3) hubiese reforzado o aportado algún nuevo patrón de comportamiento.

Se considera apropiado mencionar que debió hacerse especial hincapié en la

preparación de los resultados arrojados por los modelos para presentarse al experto, es

decir, transcripción coloquial de los mismos y reuniones entre analistas y experto. De

esta forma se facilitó al experto la interpretación ya que éste, como la mayoría, no se

encuentra familiarizado con las técnicas de minería de datos.

Cabe destacar, según lo expresado por el experto en su conclusión (6.2), que mas allá

del aporte especifico al proyecto en cuestión, la aplicación de técnicas de aprendizaje

automático resultó ser novedoso para el área involucrada y potencialmente aplicable

en cualquier otra rama de la agronomía.

8 Referencias

Publicaciones consultadas para el desarrollo del trabajo.

Britos, P. (2008). Procesos de Explotación de Información basados en Sistemas

Inteligentes. Tesis presentada para obtener el grado de Doctor en

Ciencias Informáticas.

Britos, P., Abasolo, M., García-Martínez, R. y Perales, F. (2005). Identification of

MPEG-4 Patterns in Human Faces Using Data Mining Techniques.

Proceedings 13th International Conference in Central Europe on

Computer Graphics, Visualization and Computer Vision'2005. Páginas

Britos, P., Grosser, H., Rodríguez, D., García-Martínez, R. (2008a). Detecting

Unusual Changes of Users Consumption. In Artificial Intelligence in

Theory and Practice II, ed. M. Bramer, (Boston: Springer), 276: 297-

Britos, P., Jiménez Rey, E., García-Martínez, E. (2008b). Work in Progress:

Programming Misunderstandings Discovering Process Based On

Intelligent Data Mining Tools. Proceedings 38th ASEE/IEEE Frontiers

in Education Conference, en prensa.

Chapman, P., Clinton, J., Keber, R., Khabaza, T., Reinartz, T., Shearer, C., Wirth, R.

(1999). CRISP-DM 1.0 Step by step BIguide. Edited by SPSS.

Cogliati, M., Britos, P., García-Martínez, R. (2006a). Patterns in Temporal Series of

Meteorological Variables Using SOM & TDIDT. In IFIP International

Federation for Information Processing, Volume 217, Artificial

Intelligence in Theory and Practice, ed. M. Bramer, (Boston: Springer),

Pág. 305-314.

Curtis, B., Kellner, M., Over, J. (1992). Process Modelling. Communications of the

ACM, 35(9): 75-90.

Ferreira, J., Takai, O., Pu, C. (2005). Integration of Business Processes with

Autonomous Information Systems: A Case Study in Government

Services. Proceedings Seventh IEEE International Conference on E-

Commerce Technology. Pág. 471-474.

García Martínez, R., Servente, M. y Pasquini, D. (2003). Sistemas Inteligentes.

Editorial Nueva Librería. Buenos Aires, Pag. 56 - 61.

Hann, I., Hui, K., Lee, S., Png, I. (2007). Analyzing Online Information Privacy

Concerns: An Information Processing Theory Approach. Proceedings

40th Annual Hawaii International Conference on System Sciences.

Pág. 210-219.

Hunt, E., Marin, J., Stone, P. (1966). Experiments in Induction. Academic Press.

Kohonen, T. (1995). Self-Organizing Maps. Springer Verlag Publishers.

Lauría, E., Duchéis, P. (2006). A Bayesian Belief Network for IT Implementation

Decision Support. Decision Support Systems, 42: 1573-1588.

Maimon, O., Rokach, L. (2005). The Data Mining and Knowledge Discovery

Handbook. Springer Science + Business Media Publishers.

Pearl, J. (1988). Probabilistic Reasoning in Intelligent Systems: Networks of Plausible

Inference. Morgan Kaufmann.

Schiefer, J., Jeng, J., Kapoor, S., Chowdhary, P. (2004). Process Information Factory:

A Data Management Approach for Enhancing Business Process

Intelligence. Proceedings 2004 IEEE International Conference on E-

Commerce Technology. Pág. 162-169.

Stefanovic, N., Majstorovic. V.,, Stefanovic, D. (2006). Supply Chain Business

Intelligence Model. Proceedings 13th International Conference on Life

Cycle Engineering. Pág. 613-618.

Quinlan, J. (1986). Induction of decision trees. Machine Learning, 1(1): 81-106

minería de datos aplicada a cultivos de...

Documents

los cultivos celulares: una herramienta clave · los...

big data, minería avanzada: minería semántica, minería...

cultivos energeticos marta garrido guitian - cultivos...

cultivos microbianos

cultivos vegetales

cultivos productivos

11º congreso uruguayo de oncología - flasca.com...

cultivos industriales

los cultivos

tributaciÓn minera pequeña minería y minería artesanal

sÍntesis econÓmica de arequipa diciembre …€¦ · por...

cultivos urbanos

introducción a la introducción a la minería de minería...

cultivos celulares

distribuciÓn y manejo de cultivos en espaÑa...tierras de...

cultivos i

mini cucine - gtiles · 2017-09-18 · la minicocina...

cultivos asociados

departamento de minería ismmm facultad: geología -...

sea chile · pesca y acuicultura inmobiliarios pesca y...