integración de algoritmos de inducción y agrupamiento. estudio del comportamiento

INTEGRACIN DE ALGORITMOS DE INDUCCIN

Y AGRUPAMIENTO.

ESTUDIO DEL COMPORTAMIENTO.

TESIS DE GRADO EN INGENIERA EN INFORMTICA

Laboratorio de Sistemas Inteligentes

Facultad de Ingeniera

Universidad de Buenos Aires

Tesista: Sr. Ariel Yosef KOGAN ZAHAVI Directores: Prof. Dr. Ramn GARCA MARTNEZ Prof. M. Ing. Paola BRITOS Prof. M. Ing. Claudio RANCN

Mayo 2007

INTEGRACIN DE ALGORITMOS DE INDUCCIN

Y AGRUPAMIENTO.

ESTUDIO DEL COMPORTAMIENTO.

TESIS DE GRADO EN INGENIERA EN INFORMTICA

Laboratorio de Sistemas Inteligentes

Facultad de Ingeniera

Universidad de Buenos Aires

Sr. Ariel Yosef Kogan Zahavi Prof. Dr. Ramn Garca Martnez Tesista Director

Prof. M. Ing. Paola Britos Prof. M. Ing. Claudio Rancn Co-Directora Co-Director

Mayo 2007

Agradecimientos

Al Dr. Garca Martnez por darme la posibilidad de finalizar mi carrera de grado gozando de aprender y ayudarme a desafiar mi intelecto de forma permanente. Por haber aportado a mi formacin sin limitarse a lo acadmico. Por su gran dedicacin plasmada, entre otras cosas, en la enorme cantidad de horas de su tiempo dedicadas a mi tesis.

A la M. Ing. Britos por su continua orientacin y por hacer tan ameno nuestro trabajo. Al M. Ing. Rancn por su dedicacin y paciencia en ayudarme a no dejar ningn detalle sin atender.

A mi hermano Jonathan por su forma de ser vertiginosa, por nunca permitir que un da sea igual (de tranquilo) al anterior, logrando as mantenerme conectado con lo verdaderamente importante. Por traer la alegra a la casa y por su gran sinceridad cuando tiene algo que ensearme.

A mis padres, por haberme transmitido el valor sin igual de la educacin. Por su apoyo permanente. Por haber dedicado todos sus esfuerzos a brindarme las condiciones para formarme sin otra preocupacin que la de estudiar.

A mi padre por sus pragmticos consejos y su enseanza mediante el ejemplo. Y a mi madre quien con esta tesis finaliza la carrera conmigo, despus de haber vivido como propio cada momento de estudio y festejado (ms que yo) la aprobacin de cada examen.

Resumen

En esta tesis se estudia cmo se comporta la integracin de los algoritmos de agrupamiento e induccin al ir variando sus parmetros en condiciones de laboratorio. Adicionalmente se intentar medir la calidad de las reglas obtenidas y la degradacin de dicha calidad como consecuencia de la variacin de los parmetros controlados en los experimentos.

Abstract

This thesis studies the behavior of the integration of induction and clustering algorithms varying its parameters under laboratory conditions. The quality of the obtained rules will try to be measured as a consequence of the variation of the parameters being controlled on the experiments.

Integracin de Algoritmos de Induccin y Agrupamiento. Estudio del Comportamiento.

ndice Ariel Kogan i

ndice

1 Introduccin .............................................................................................................. 1

2 Estado del Arte .......................................................................................................... 4

2.1 Self Organizing Maps (SOM) ............................................................................... 4

2.1.1 Algoritmo del SOM ...................................................................................... 4

2.1.2 Aplicaciones ............................................................................................... 12

2.2 rboles de decisin TDIDT ............................................................................. 12

2.2.1 Caractersticas de los rboles de decisin ................................................. 12

2.2.2 Construccin de los rboles de decisin ................................................... 12

2.2.3 Descripcin general de los algoritmos ...................................................... 16

2.2.4 Presentacin de los resultados .................................................................. 23

3 Descripcin del Problema ........................................................................................ 24

4 Solucin Propuesta .................................................................................................. 25

4.1 Identificacin de los parmetros del problema ................................................ 25

4.2 Definiciones ...................................................................................................... 26

4.2.1 Cubrimiento de una regla sobre otra ........................................................ 26

4.2.2 Cubrimiento de una regla original por reglas descubiertas ...................... 28

4.2.3 Concentracin de las reglas que indican la pertenencia a cada clase ...... 29

4.3 Mtodo de generacin de casos de experimentacin ..................................... 30

4.3.1 Descripcin del mtodo ............................................................................. 30

4.3.2 Ejemplo de generacin de un caso de experimentacin .......................... 32

4.4 Descripcin del Banco de Pruebas .................................................................... 35

4.4.1 Funcionalidades ......................................................................................... 35

4.4.2 Dinmica del Banco de Pruebas ................................................................ 37

5 Experimentacin ...................................................................................................... 39

5.1 Definicin de Variables ..................................................................................... 39

5.2 Delimitacin del Universo de Estudio ............................................................... 40

5.3 Dominio Patrn ................................................................................................. 42

5.4 Formato de los Resultados ............................................................................... 42

5.5 Estrategia de Rastrillaje .................................................................................... 44

5.5.1 Requerimientos ......................................................................................... 44

5.5.2 Solucin Adoptada ..................................................................................... 44


ii Ariel Kogan ndice

5.5.3 Seleccin de los pares de variables independientes a ser estudiados ...... 45

5.5.4 Diccionario de Parmetros Segn Enfoque ............................................... 46

5.6 Anlisis de los Experimentos ............................................................................ 47

5.6.1 Variacin del nmero de clases que rigen el dominio para distinta cantidad de atributos que tienen los ejemplos ....................................................... 47

5.6.2 Variacin del nmero de clases que rigen el dominio para distinta cantidad de valores que puede tomar cada atributo .............................................. 49

5.6.3 Variacin del nmero de clases que rigen el dominio para distinta cantidad de reglas que indican la pertenencia a cada clase ................................... 51

5.6.4 Variacin del nmero de reglas que indican la pertenencia a cada clase para distinta cantidad de atributos que tienen los ejemplos ........................ 53

5.6.5 Variacin del nmero de reglas que indican la pertenencia a cada clase para distinta cantidad de clases que rigen el dominio ................................... 55

5.6.6 Variacin del nmero de posibles valores que puede tomar cada atributo para distinta cantidad de atributos que conforman los ejemplos ............ 57

5.6.7 Variacin del nmero de posibles valores que puede tomar cada atributo para distinta cantidad de reglas que indican la pertenencia a cada clase ................................................................................................................... 59

5.6.8 Variacin del nmero de atributos que conforman los ejemplos para distinta cantidad de posibles valores que puede tomar cada uno ................. 61

5.6.9 Variacin del nmero de atributos que conforman los ejemplos para distinta cantidad de clases que rigen el dominio ............................................ 63

5.6.10 Variacin del nmero de atributos que conforman los ejemplos para distinta cantidad de reglas que indican la pertenencia a cada clase .............. 65

5.6.11 Estudio de dominios variando la especificidad del cubrimiento de cada regla sobre sus ejemplos asociados, para distinta cantidad de estos ............ 67

5.6.12 Estudio de dominios variando la especificidad del cubrimiento de cada regla sobre sus ejemplos asociados, para distinta concentracin de las reglas que indican la pertenencia a cada clase ....................................................... 69

5.6.13 Estudio de dominios variando la concentracin de las reglas que indican la pertenencia a cada clase, para distinta cantidad de ejemplos que dan soporte a cada regla ......................................................................................... 71

5.6.14 Estudio de dominios variando la concentracin de las reglas que indican la pertenencia a cada clase, para distinta especificidad del cubrimiento de cada regla sobre sus ejemplos asociados ...................................... 73

5.6.15 Estudio de dominios variando el nmero de ejemplos que dan soporte a cada regla, para distinta especificidad del cubrimiento de cada regla sobre sus ejemplos asociados ........................................................................ 75

5.6.16 Estudio de dominios variando el nmero de ejemplos que dan soporte a cada regla, para distinta concentracin de las reglas que indican la pertenencia a cada clase ......................................................................................... 77


ndice Ariel Kogan iii

5.7 Unificacin de los resultados experimentales .................................................. 79

5.7.1 Enfoque orientado al dominio ................................................................... 79

5.7.2 Enfoque orientado a los ejemplos ............................................................. 82

6 Conclusiones ............................................................................................................ 84

6.1 Aportes .............................................................................................................. 84

6.2 Futuras lneas de trabajo .................................................................................. 85

6.2.1 Anlisis de los resultados obtenidos mediante la aplicacin de minera de datos ...................................................................................................... 85

6.2.2 Inclusin de los parmetros de la red SOM como variables del experimento ............................................................................................................ 86

6.2.3 Otras lneas de trabajo .............................................................................. 87

7 Referencias .............................................................................................................. 88

A Metodologa ............................................................................................................ 92

A.1 Requerimientos ................................................................................................. 92

A.2 Anlisis .............................................................................................................. 92

A.2.1 Diagrama de Clases .................................................................................... 92

A.2.2 Casos de Uso .............................................................................................. 94

A.2.3 Diagrama de transicin de estados ........................................................... 96

A.3 Diseo ............................................................................................................... 97

A.3.1 Ejecucin de experiencias ......................................................................... 98

A.3.2 Graficacin de resultados .......................................................................... 99

A.3.3 Unificacin de los resultados obtenidos para su anlisis en conjunto ..... 99

A.4 Codificacin ....................................................................................................... 99

A.5 Implementacin .............................................................................................. 100

A.5.1 Procesos y Pantallas ................................................................................ 100

A.6 Pruebas ........................................................................................................... 102

A.6.1 Plan de pruebas ....................................................................................... 102

A.6.2 Documento de diseo de la prueba ........................................................ 102

A.6.3 Especificacin de los casos de prueba ..................................................... 103

A.6.4 Especificacin del procedimiento de prueba .......................................... 105

A.6.5 Informe de los casos de prueba ejecutados ............................................ 106

A.6.6 Informe de la prueba ............................................................................... 107

A.7 Gestin de configuracin ................................................................................ 107

A.7.1 Identificacin de la configuracin ........................................................... 107

A.7.2 Control de configuracin ......................................................................... 108

A.7.3 Generacin de informes de estado ......................................................... 109


iv Ariel Kogan ndice

B Manual de Usuario ................................................................................................ 113

B.1 Introduccin .................................................................................................... 113

B.1.1 Descripcin de los componentes............................................................. 113

B.1.2 Plataforma y lenguaje .............................................................................. 113

B.1.3 Libreras utilizadas ................................................................................... 114

B.1.4 Presentacin del producto ...................................................................... 114

B.2 Requerimientos ............................................................................................... 115

B.2.1 Mquina virtual Java ................................................................................ 115

B.2.2 PostgreSQL ............................................................................................... 115

B.2.3 JFreeChart ................................................................................................ 116

B.3 Configuracin del entorno .............................................................................. 116

B.3.1 Classpath .................................................................................................. 116

B.3.2 Creacin del esquema de base de datos ................................................. 118

B.4 Utilizacin del banco de pruebas .................................................................... 118

B.4.1 Procedimientos comunes a todas las operaciones ................................. 118

B.4.2 Ejecucin de experiencias ....................................................................... 122

B.4.3 Unificacin de datos ................................................................................ 125

B.4.4 Graficacin ............................................................................................... 126


ndice de tablas Ariel Kogan v

ndice de tablas Tabla 4.1: Parmetros identificados del problema ........................................................ 26

Tabla 5.1: Definicin de variabilidad o no de cada uno de los parmetros ................... 40

Tabla 5.2: Rango de variacin de las variables ............................................................... 41

Tabla 5.3: Rango de variacin de las variables involucradas en la figura 5.1 ................ 43

Tabla 5.4: Origen de pertenencia de las variables ......................................................... 45

Tabla 5.5: Combinacin de variables de los experimentos a realizar ............................ 46

Tabla 5.6: Diccionario de parmetros segn el enfoque ............................................... 47


vi Ariel Kogan ndice de Figuras

ndice de Figuras Figura 2.1: Estructuras de los mapas ................................................................................. 5

Figura 2.2: Vecindario de una neurona ............................................................................. 6

Figura 2.3: Funciones de vecindario .................................................................................. 9

Figura 2.4: Tasas de aprendizaje ..................................................................................... 10

Figura 2.5: U-Matrix ......................................................................................................... 11

Figura 4.1: Definicin grfica de una clase que rige el dominio...................................... 29

Figura 4.2: Atributos de un ejemplo del dominio ........................................................... 33

Figura 4.3: Valores posibles que pueden tomar los atributos de un ejemplo ................ 33

Figura 4.4: Definicin grfica de una clase que rige el dominio...................................... 34

Figura 4.5: Definicin grfica de reglas que indican la pertenencia a una clase ............. 34

Figura 4.6: Experimento en 3 pasos ................................................................................ 37

Figura 5.1: Ejemplo de una de las grficas como resultado de un experimento.

Estudio de dominios variando la cantidad de reglas que indican la

pertenencia a cada clase, para distinta cantidad de atributos que tienen las

reglas. ...................................................................................................................... 43

Figura A.1: Diagrama de clases fundamentales del banco de pruebas ........................... 93

Figura A.2: Diagrama de casos de uso de alto nivel de abstraccin ............................... 94

Figura A.3: Diagrama de casos de uso de ejecucin de experiencias ............................. 95

Figura A.4: Diagrama de casos de uso de iteraciones ..................................................... 96

Figura A.5: Diagrama de transicin de estados de ejecucin de experiencias ............... 97


ndice de Grficas Ariel Kogan vii

ndice de Grficas Grfica 5.1: Estudio de dominios variando la cantidad de clases que los rigen,

para distinta cantidad de atributos que tienen los ejemplos ................................. 48

Grfica 5.2: Estudio de dominios variando la cantidad de clases que los rigen,

para distinta cantidad de valores posibles que pueden tomar cada atributo ........ 50

Grfica 5.3: Estudio de dominios variando la cantidad de clases que los rigen,

para distinta cantidad de reglas que indican la pertenencia a cada clase .............. 52

Grfica 5.4: Estudio de dominios variando la cantidad de reglas que indican la

pertenencia a cada clase, para distinta cantidad de atributos que conforman

los ejemplos ............................................................................................................. 54

Grfica 5.5: Estudio de dominios variando la cantidad de reglas que indican la

pertenencia a cada clase, para distinta cantidad de clases que rigen los

dominios .................................................................................................................. 56

Grfica 5.6: Estudio de dominios variando la cantidad de valores posibles que

puede tomar cada uno de los atributos que tienen las reglas, para distinta

cantidad de atributos que tienen las reglas ............................................................ 58

Grfica 5.7: Estudio de dominios variando la cantidad de valores posibles que

puede tomar cada uno de los atributos que conforman las reglas, para

distinta cantidad de reglas que indican la pertenencia a cada clase ...................... 60

Grfica 5.8: Estudio de dominios variando la cantidad de atributos que

conforman los ejemplos, para distinta cantidad de valores posibles que

pueden tomar cada uno de estos atributos ............................................................ 62

Grfica 5.9: Estudio de dominios variando la cantidad de atributos que tienen las

reglas, para distinta cantidad clases que rigen los dominios .................................. 64

Grfica 5.10: Estudio de dominios variando la cantidad de atributos que tienen

las reglas, para distinta cantidad de reglas que indican la pertenencia a cada

clase ......................................................................................................................... 66

Grfica 5.11: Estudio de dominios variando la especificidad del cubrimiento de

cada regla sobre sus ejemplos asociados, para distinta cantidad de estos ............ 68


viii Ariel Kogan ndice de Grficas

Grfica 5.12: Estudio de dominios variando la especificidad del cubrimiento de

cada regla sobre sus ejemplos asociados, para distinta concentracin de

reglas que indican la pertenencia a cada clase ....................................................... 70

Grfica 5.13: Estudio de dominios variando la concentracin de las reglas que

indican la pertenencia a cada clase, para distinta cantidad de ejemplos que

dan soporte a cada regla ......................................................................................... 72

Grfica 5.14: Estudio de dominios variando la concentracin de las reglas que

indican la pertenencia a cada clase, para distinta especificidad del

cubrimiento de cada regla sobre sus ejemplos asociados ...................................... 74

Grfica 5.15: Estudio de dominios variando el nmero de ejemplos que dan

soporte a cada regla, para distinta especificidad del cubrimiento de cada

regla sobre sus ejemplos asociados ........................................................................ 76

Grfica 5.16: Estudio de dominios variando el nmero de ejemplos que dan

soporte a cada regla, para distinta concentracin de las reglas que indican la

pertenencia a cada clase ......................................................................................... 78


Introduccin Ariel Kogan 1

1 Introduccin

Se denomina Minera de Datos al conjunto de tcnicas y herramientas aplicadas al proceso no trivial de extraer y presentar conocimiento implcito, previamente desconocido, potencialmente til y humanamente comprensible, a partir de grandes conjuntos de datos, con objeto de predecir de forma automatizada tendencias y comportamientos y describir de forma automatizada modelos previamente desconocidos [Piatetski-Shapiro et al., 1991; Chen et al., 1996; Mannila, 1997; Britos et al., 2005].

El caso particular de la Minera de Datos Inteligente [Evangelos & Han, 1996; Michalski et al., 1998] consiste en la aplicacin de mtodos de aprendizaje automtico [Michalski et al., 1983; Holsheimer & Siebes, 1991] para descubrir y enumerar patrones presentes en los datos o mejorar procesos predictivos [Felgaer et al., 2006].

Un procedimiento recurrente a la hora de realizar minera de datos inteligente consiste en tomar el conjunto de datos a estudiar, aplicar un algoritmo de clustering [Kaski, 1997, Hall y Colmes, 2003] para separarlo en distintos grupos (clases) y sobre cada uno de estos grupos intentar generar reglas que caractericen su conformacin, tambin utilizando un determinado algoritmo a tales efectos [Grosser et al., 2005; Cogliati et al., 2006].

Una de las opciones para llevar adelante el proceso de clustering es dada por el uso de los mapas auto-organizados [Kohonen, 1982, Kohonen, 1990, Kohonen, 1995, Kohonen et al., 1996], los cuales son un algoritmo de redes neuronales que ha sido utilizado para una gran variedad de aplicaciones, principalmente para problemas de ingeniera, pero tambin para anlisis de datos.

En cuanto a la induccin de reglas, dada la caracterizacin de las entidades que se utilizan comnmente con la minera de datos, fuertemente basada en los valores de sus atributos y no en las relaciones establecidas entre estos, se suelen emplear mtodos atribucionales. Uno de los ms claros y difundidos son los rboles de decisin o clasificacin [Michalski et al., 1998; Grossman et al., 1999] en los cuales se cuenta con nodos que modelizan cada atributo, ramas que se originan en estos nodos, una por cada valor que el atributo puede tomar, y finalmente las hojas que corresponden a las clases individuales. Recorriendo un rbol desde su nodo padre hasta las distintas hojas, se pueden generar de forma muy simple las reglas a las cuales la clasificacin responde. Una de las herramientas aplicadas al mencionado proceso es la familia de algoritmos TDIDT [Quinlan, 1986; Servente y Garca-Martnez, 2002]. Sin embargo, estos pasos se realizan nicamente bajo la presuncin de obtener un resultado representativo del conjunto de datos sobre el que se trabaja.

En este contexto, en esta tesis se estudia cmo se comporta la integracin de los algoritmos de induccin y agrupamiento al ir variando sus parmetros en condiciones de laboratorio. Adicionalmente se intentar medir la calidad de las reglas


2 Ariel Kogan Introduccin

obtenidas y la degradacin de dicha calidad como consecuencia de la variacin de los parmetros controlados en los experimentos.

En el captulo del Estado del Arte se presenta el contexto terico para el estudio de la integracin de agrupamiento por SOM e induccin de reglas por TDIDT como mtodo de descubrimiento de conocimiento. Se describen los mapas auto-organizados SOM, el algoritmo que los gobierna y las aplicaciones de esta red neuronal. Se presentan los rboles de decisin TDIDT, sus caractersticas, el mtodo para la construccin de estos, se hace una descripcin general de sus algoritmos y se expone la forma en la que se muestran los resultados obtenidos.

En el captulo de la Descripcin del Problema se presenta el problema a resolver, se fundamenta el porqu de su eleccin y se seala su importancia en el contexto de estudio.

En el captulo de la Solucin Propuesta se describe la respuesta al problema planteado. Se identifican los parmetros del problema, se plantean definiciones necesarias como el cubrimiento de una regla sobre otra, el cubrimiento de una regla original por reglas descubiertas y el concepto de concentracin de reglas que indican la pertenencia a una clase. Se aborda el mtodo de generacin de casos de experimentacin describindolo y dando un ejemplo para su mejor comprensin. Finalmente, se realiza una descripcin del Banco de Pruebas, abordando sus funcionalidades y describiendo su dinmica de funcionamiento.

En el captulo de Experimentacin se exponen los resultados obtenidos de los experimentos realizados. Se han definido los parmetros a variar, delimitado el universo de estudio, determinado un dominio patrn y establecido el formato de los resultados a obtener. Se ha definido una estrategia de aspectacin de valores de variables en base a requerimientos sobre sta, habindose adoptado una solucin en particular. Para esta solucin, se han determinado los pares de variables a estudiar y se ha confeccionado un diccionario de variables dependientes e independientes segn el enfoque adoptado para una comprensin ms clara. Se han analizado e interpretado los experimentos y se han sistematizado las proposiciones experimentales formuladas, tanto para el enfoque orientado al dominio como para el enfoque orientado a los ejemplos.

En las Conclusiones se resumen los aportes formulados en la tesis y se

presentan futuras lneas de trabajo proponiendo minera de datos para el anlisis de los resultados, incluir la variacin de los parmetros de la red SOM en futuros estudios y lneas complementarias.

En el anexo A se describe la metodologa empleada para la construccin del

banco de pruebas. Se enumeran los requerimientos, se hace el anlisis del sistema mediante diagramas de clase, determinacin de casos de uso, y diagramas de transicin de estados. Se realiza el diseo de la aplicacin para sus componentes de ejecucin de experiencias, graficacin de resultados y unificacin de los resultados obtenidos para su anlisis en conjunto. Se aborda la codificacin de la solucin y su


Introduccin Ariel Kogan 3

implementacin describiendo sus procesos y pantallas. Finalmente, se cubre la etapa de pruebas estableciendo un plan de pruebas, documentando el diseo de cada prueba, especificando los casos de prueba, los procedimientos, se confecciona un informe de los casos de prueba ejecutados, as como un informe de la prueba. Se determina la gestin de configuracin en cuanto a su identificacin, control y generacin de informes de estado.

En el anexo B se transcribe el manual de usuario del banco de pruebas. Se

introduce el banco de pruebas describiendo sus componentes, la plataforma y el lenguaje para los cuales est desarrollado, las libreras utilizadas y se presenta el producto. Se enumeran los requerimientos previos para poner en funcionamiento el producto, se detalla el procedimiento para configurar el entorno de trabajo mediante el establecimiento del classpath apropiado y la creacin del esquema necesario para la base de datos. Finalmente, se describe la forma de utilizar el banco de pruebas, tanto para los procedimientos comunes a todas las operaciones, como para la ejecucin de experiencias, unificacin de datos y graficacin de resultados.


4 Ariel Kogan Estado del Arte

2 Estado del Arte

En este captulo se presenta el contexto terico para el estudio de la integracin de agrupamiento por SOM e induccin de reglas por TDIDT como mtodo de descubrimiento de conocimiento. Se describen los mapas auto-organizados SOM (seccin 2.1), el algoritmo que los gobierna (seccin 2.1.1) y las aplicaciones de esta red neuronal (seccin 2.1.2). Se presentan los rboles de decisin TDIDT (seccin 2.2), sus caractersticas (seccin 2.2.1), el mtodo para la construccin de estos (2.2.2), se hace una descripcin general de sus algoritmos (seccin 2.2.3) y se expone la forma en la que se muestran los resultados obtenidos (seccin 2.2.4).

2.1 Self Organizing Maps (SOM) Existen evidencias que demuestran que en el cerebro hay neuronas que se organizan en muchas zonas, de forma que las informaciones captadas del entorno a travs de los rganos sensoriales se representan internamente en forma de mapas bidimensionales [Beveridge, 1996]. Por ejemplo, en el sistema visual se han detectado mapas del espacio visual en zonas del crtex (capa externa del cerebro); tambin en el sistema auditivo se detecta una organizacin segn la frecuencia a la que cada neurona alcanza mayor respuesta [Hilera Gonzlez & Martnez Hernando, 2000].

Aunque en gran medida esta organizacin neuronal est predeterminada genticamente, es probable que parte de ella se origine mediante el aprendizaje. Esto sugiere, por tanto, que el cerebro podra poseer capacidad inherente de formar mapas topolgicos de las informaciones recibidas del exterior.

A partir de estas ideas, Teuvo Kohonen present en 1982 [Kohonen, 1982] un sistema con un comportamiento semejante; se trata de un modelo de red neuronal con capacidad para formar mapas de caractersticas de manera similar a como ocurre en el cerebro. El objetivo de Kohonen era demostrar que un estmulo externo (informacin de entrada) por s solo, suponiendo una estructura propia y una descripcin funcional del comportamiento de la red, era suficiente para forzar la formacin de mapas. Estudiaremos, entonces, este modelo llamado Self Organizing Maps (SOM) que se basa en el principio de formacin de mapas topolgicos para establecer caractersticas comunes entre las informaciones (vectores) de entrada a la red. Este modelo es uno de los ms populares que se utilizan en redes neuronales artificiales y pertenece a la categora de redes con aprendizaje competitivo.

2.1.1 Algoritmo del SOM

El algoritmo de aprendizaje del SOM est basado en el aprendizaje no supervisado y competitivo, lo cual quiere decir que no se necesita intervencin humana durante el mismo y que se necesita saber muy poco sobre las caractersticas


Estado del Arte Ariel Kogan 5

de la informacin de entrada. Podramos, por ejemplo, usar un SOM para clasificar datos sin saber a qu clase pertenecen los mismos [Hollmen, 1996]. El mismo provee un mapa topolgico de datos que se representan en varias dimensiones utilizando unidades de mapa (las neuronas) simplificando el problema [Kohonen, 1995]. Las neuronas usualmente forman un mapa bidimensional por lo que el mapeo de un problema ocurre con muchas dimensiones en el espacio a un plano [Hollmen, 1996]. La propiedad de preservar la topologa significa que el mapeo preserva las distancias relativas entre puntos [Kohonen, 1982]. Los puntos que estn cerca unos de los otros en el espacio original de entrada son mapeados a neuronas cercanas en el SOM; por lo tanto, el SOM sirve como herramienta de anlisis de clases de datos de muchas dimensiones [Vesanto & Alhoniemi, 2000]; adems tiene la capacidad de generalizar [Essenreiter, Karrenbach & Treitel, 1999], lo que implica que la red puede reconocer o caracterizar entradas que nunca antes ha encontrado; una nueva entrada es asimilada por la neurona a la cual queda mapeada.

El SOM es un vector bidimensional de neuronas:

= 1, ,

Una neurona es un vector llamado patrn representado de la siguiente forma:

= 1, ,

La neurona tiene las mismas dimensiones que los vectores de entrada (datos de entrada), es decir que es n-dimensional. Las neuronas estn conectadas a las neuronas adyacentes por una relacin de vecinos. Esta dicta la topologa, o la estructura, del mapa; usualmente, las neuronas estn conectadas unas con otras en una topologa hexagonal o rectangular. En la figura 2.1 podemos observar (a) una estructura rectangular y (b) una estructura hexagonal.

Figura 2.1: Estructuras de los mapas



Se puede definir una distancia entre las neuronas de acuerdo a su relacin de topologa; las mismas pueden ser vecinas inmediatas (las neuronas adyacentes) que pertenecen al vecindario de la neurona . La funcin de vecindario es una funcin decreciente en el tiempo: = .

Figura 2.2: Vecindario de una neurona

En la figura 2.2 podemos observar vecindarios de distintos tamaos. En el

hexgono ms pequeo se encuentran todas las neuronas vecinas que pertenecen al vecindario ms pequeo de la neurona ubicada en el centro.

En el algoritmo bsico del SOM, las relaciones topolgicas y el nmero de neuronas son fijos desde el comienzo; este nmero de neuronas determina la escala o la granularidad del modelo resultante. La seleccin de la granularidad afecta la certeza y la capacidad de generalizar del modelo. Debe tenerse en cuenta que la granularidad y la generalizacin son objetivos contradictorios [Hollmen, 1996]. Mejorando el primero, se pierde en el segundo, y viceversa. Esto se debe a que si aumentamos el primero se obtendrn muchos ms grupos para poder clasificar los datos de entrada, evitando que se pueda generalizar el espacio en clases ms abarcativas. De manera inversa, si se generaliza demasiado se puede perder informacin que caracterice a un grupo especfico que quede incluido en otro por la falta de granularidad. 2.1.1.1 Pre-procesamiento de los datos

Los datos que alimentan al SOM incluyen toda la informacin que toma la red. Si se le presenta informacin errnea, el resultado es errneo o de mala calidad. Entonces, el SOM, tanto como los otros modelos de redes neuronales, deben eliminar la informacin basura para que no ingrese al sistema. Por lo cual se debe trabajar con un subconjunto de los datos; estos deben ser relevantes para el modelo a analizar. Tambin se deben eliminar los errores en los datos; si los mismos se obtienen a travs de una consulta a una base de datos, el resultado puede incluir datos errneos debido a la falta de integridad de la base; entonces estos deben ser filtrados usando conocimientos previos del dominio del problema y el sentido comn.



Comnmente los componentes de los datos de entrada se normalizan para tener una escala de 0 a 1. Esto asegura que por cada componente, la diferencia entre dos muestras contribuye un valor igual a la distancia medida calculada entre una muestra de entrada y un patrn. Es decir que los datos deben previamente codificarse (normalizarse). De lo contrario no ser posible usar la distancia como una medida de similitud. Esta medida debe ser cuantificable por lo que la codificacin debe ser armnica con la medida de similitud utilizada. La medida mayormente utilizada es la distancia Eucldea. Los datos simblicos no pueden ser procesados por un SOM como tales, por lo que deben ser transformados a una codificacin adecuada. 2.1.1.2 Inicializacin

Existen varios tipos de inicializaciones para los valores de las neuronas (patrones): entre ellos se pueden nombrar la inicializacin al azar y la inicializacin utilizando usando las primeras muestras. En la inicializacin al azar se asignan valores aleatorios a los patrones; se utiliza cuando se sabe muy poco o nada sobre los datos de entrada en el momento de comenzar el entrenamiento. La inicializacin utilizando las primeras muestras utiliza los primeros datos de entrada asignndolos a los patrones; tiene la ventaja que automticamente se ubican en la parte correspondiente del espacio de entrada. 2.1.1.3 Entrenamiento

El entrenamiento es un proceso iterativo a travs del tiempo. Requiere un esfuerzo computacional importante, y por lo tanto, consume mucho tiempo. Este consiste de muestras del conjunto de datos de entrada que van ingresando a la red para que la misma las aprenda. El aprendizaje consiste en elegir una neurona ganadora por medio de una medida de similitud y actualizar los valores de los patrones en el vecindario del ganador; este proceso se repite varias veces para poder ir refinando (acotando) el error y acercar las neuronas a una representacin ms adecuada de los datos de entrada.

En un paso del entrenamiento, un vector muestra se toma de los datos de entrada; este vector es presentado a todas las neuronas en la red y se calcula la medida de similitud entre la muestra ingresada y todos los patrones. La unidad ms parecida o Best Matching Unit (BMU) se elige como el prototipo con la mayor similitud con la muestra de entrada; esta similitud usualmente se define con una medida de distancia vectorial. Por ejemplo, en el caso de la distancia Eucldea la BMU es la neurona ms cercana a la muestra presentada en el espacio representado por todos los datos de entrada. La norma Eucldea de un vector x se define como:

= 2

=1



donde: : corresponde al valor de la componente del vector . : corresponde a la dimensin del vector .

Por lo tanto, la distancia Eucldea en trminos de la diferencia de la norma Eucldea entre dos vectores se define como:

, = donde: : corresponde al vector . : corresponde al vector .

La BMU, usualmente denotada con , es el patrn que ms se parece al vector de entrada . Se define formalmente como la neurona para la cual

= min

donde: : corresponde al vector de entrada . : corresponde al vector que representa la BMU. : corresponde a la neurona . : corresponde al vector que representa la neurona .

Luego de encontrar la BMU, se actualizan todas las neuronas del SOM. Durante el procedimiento de actualizacin, la BMU se actualiza para acercarse an ms al vector de entrada. Los vecinos topolgicos de la BMU tambin se actualizan de manera similar utilizando una tasa de aprendizaje de menor valor. Este procedimiento acerca a la BMU y a sus vecinos topolgicos hacia la muestra ingresada. El esfuerzo computacional consiste en encontrar una BMU entre todas las neuronas y actualizar cada uno de los patrones en el vecindario de la unidad ganadora. Si el vecindario es grande, entonces ms patrones debern ser actualizados; este es el caso que se presenta en el comienzo del entrenamiento, donde se recomienda utilizar vecindarios grandes. En el caso de redes con muchas neuronas, gran parte del tiempo se utiliza buscando a la ganadora. Obviamente que dependiendo del diseo del software utilizado y el hardware estas consideraciones sern ms o menos significativas.

A travs del procedimiento de actualizacin descripto, la red forma una red elstica que durante el aprendizaje cae en una nube formada por los datos de entrada. Los patrones tienden a posicionarse all donde los datos son densos, mientras que se tiende a tener pocos patrones donde los datos de entrada estn ms dispersos. Por lo



tanto, la red tiende a aproximar la funcin de densidad de probabilidad de los datos de entrada [Kohonen, 1995].

La regla de actualizacin del SOM para una unidad , es la siguiente:

+ 1 = + dnde: : representa un estado en el tiempo.

Por lo tanto, y como se mencion anteriormente, este es un proceso de entrenamiento a travs del tiempo. El vector de entrada es tomado en instante para ser procesado, es una funcin de vecindario alrededor de la unidad ganadora decreciente en el tiempo.

La funcin de vecindario que incluye la tasa de aprendizaje determina la forma en que sern actualizadas las neuronas vecinas. La misma se puede escribir como:

=

2

2 2 en el caso de una funcin de vecindario Gaussiana alrededor de la neurona .

Se pueden utilizar otras funciones de vecindario como las funciones que se presentan en la figura 2.3. La nica restriccin es que sean decrecientes alrededor de la neurona . Por lo tanto, tambin podran ser constantes alrededor de la neurona ganadora.

Figura 2.3: Funciones de vecindario

En la figura 2.3 se pueden observar dos funciones de vecindario: (a) funcin Gaussiana, (b) funcin constante.



La tasa de aprendizaje utilizada en la funcin vecindario es una funcin

decreciente en el tiempo. Dos formas comnmente usadas son la funcin lineal y la inversamente proporcional al tiempo .

Figura 2.4: Tasas de aprendizaje

En la figura 2.4 se pueden observar tipos de tasas de aprendizaje: (a) la funcin

lineal decrece a cero linealmente durante el aprendizaje, (b) la funcin inversamente proporcional decrece rpidamente desde su valor inicial.

Los valores de la tasa de aprendizaje se definen de la siguiente manera:

= 0 1 , para el caso de la funcin inversa y = 0 + , para el caso de la funcin lineal donde se puede definir como

100 y corresponde a la cantidad total de vectores muestra utilizados en el

entrenamiento.

Se debe determinar el valor inicial de , que define el valor inicial de la tasa de aprendizaje. Usualmente, cuando se utiliza una funcin inversa el valor inicial puede ser mayor que en el caso lineal. El aprendizaje se realiza usualmente en dos fases:

- En la primera vuelta se utilizan valores relativamente altos de (desde 0,3 a 0,99).

- En la segunda vuelta se utilizan valores ms pequeos. Esto corresponde a adaptaciones que se van haciendo hasta que la red funciona correctamente [Kohonen, 1995].

La eleccin de los valores iniciales de y la forma en que estos van variando

pueden modificar sensiblemente los resultados obtenidos.



2.1.1.4 Visualizacin

El SOM es una aproximacin de la funcin de densidad de probabilidad de los datos de entrada [Kohonen, 1995] y puede representarse de una manera visual.

La representacin U-Matrix (unified distance matrix) del SOM visualiza la distancia entre neuronas adyacentes [Kohonen, 1995]. La misma se calcula y se presenta con diferentes colores entre los nodos adyacentes. Un color oscuro entre neuronas corresponde a una distancia grande que representa un espacio importante entre los valores de los patrones en el espacio de entrada. Un color claro, en cambio, significa que los patrones estn cerca unos de otros. Las reas claras pueden pensarse como clases y las oscuras como separadores. Esta puede ser una representacin muy til de los datos de entrada sin tener informacin a priori sobre las clases.

Figura 2.5: U-Matrix

En la figura 2.5 podemos observar las neuronas indicadas por un punto negro. La representacin revela que existe una clase separada en la esquina superior derecha de la red. Las clases estn separadas por una zona negra. Este resultado se logra con aprendizaje no supervisado, es decir, sin intervencin humana. Ensear a un SOM y representarla con la U-Matrix ofrece una forma rpida de analizar la distribucin de los datos.

2.1.1.5 Validacin

Se pueden crear la cantidad de modelos que se quiera, pero antes de utilizar alguno de ellos, deben ser validados. La validacin significa que el modelo debe ser probado para asegurar que devuelve valores razonables y certeros. La misma debe realizarse usando un conjunto independiente de datos; este es similar al utilizado para el entrenamiento pero no parte de l; puede verse a este conjunto de prueba como un caso representativo del caso general.



2.1.2 Aplicaciones

Se ha demostrado que los SOM son muy tiles en aplicaciones tcnicas. En la industria, se ha utilizado, por ejemplo, en monitoreo de procesos y mquinas [Alander & Frisk, 1991; Cumming, 1993; Alhoniemi, 1995], identificacin de fallas [Vapola, Simula & Kohonen, 1994] y control de robots [Ritter, Martinetz & Schulten, 1992].

La capacidad de dividir el espacio en clases y patrones representativos lo hace muy poderoso tambin para la clasificacin y segmentacin de los datos.

2.2 rboles de decisin TDIDT

La familia de los Top Down Induction of Decision Trees (TDIDT) pertenece a los mtodos inductivos del aprendizaje automtico que aprenden a partir de ejemplos preclasificados; en minera de datos, sta se utiliza para modelar las clasificaciones en los datos mediante rboles de decisin.

2.2.1 Caractersticas de los rboles de decisin

Los rboles de decisin representan una estructura de datos que organiza eficazmente los descriptores; dichos rboles son construidos de forma tal que en cada nodo se realiza una prueba sobre el valor de los descriptores y de acuerdo con la respuesta se va descendiendo en las ramas, hasta llegar al final del camino donde se encuentra el valor del clasificador. Se puede analizar un rbol de decisin como una caja negra en funcin de cuyos parmetros (descriptores) se obtiene un cierto valor del clasificador, tambin puede analizarse como una disyuncin de conjunciones, donde cada camino desde la raz hasta las hojas representa una conjuncin, y todos los caminos son alternativos, es decir, son disyunciones.

2.2.2 Construccin de los rboles de decisin

Los rboles TDIDT, a los cuales pertenecen los generados por el ID3 y por el C4.5, se construyen a partir del mtodo de Hunt [Hunt et al., 1966]. El esqueleto de este mtodo para construir un rbol de decisin a partir de un conjunto de datos de entrenamiento se detalla a continuacin; sean las clases 1, 2, , , existen tres posibilidades:

1. contiene uno o ms casos, todos pertenecientes a una nica clase :

El rbol de decisin para es una hoja identificando la clase .



2. no contiene ningn caso:

El rbol de decisin es una hoja, pero la clase asociada debe ser determinada por informacin que no pertenece a . Por ejemplo, una hoja puede escogerse de acuerdo a conocimientos de base del dominio, como ser la clase mayoritaria.

3. contiene casos pertenecientes a varias clases: En este caso, la idea es refinar en subconjuntos de casos que tiendan, o parezcan tender hacia una coleccin de casos pertenecientes a una nica clase. Se elige una prueba basada en una nica variable, que tiene uno o ms resultados, mutuamente excluyentes 1, 2, , , se particiona en los subconjuntos 1, 2, , donde contiene todos los casos de que tienen el resultado para la prueba elegida. El rbol de decisin para consiste en un nodo de decisin identificando la prueba, con una rama para cada resultado posible. El mecanismo de construccin del rbol se aplica recursivamente a cada subconjunto de datos de entrenamiento, para que la i-sima rama lleve al rbol de decisin construido por el subconjunto de datos de entrenamiento.

2.2.2.1 Clculo de la ganancia de informacin

En los casos en los que el conjunto contiene ejemplos pertenecientes a distintas clases, se realiza una prueba sobre las distintas variables y se realiza una particin segn la mejor variable. Para encontrar la mejor variable, se utiliza la teora de la informacin, que sostiene que la informacin se maximiza cuando la entropa se minimiza, la entropa determina la azarosidad o desestructuracin de un conjunto, si se supone que se tienen ejemplos positivos y negativos, la entropa del subconjunto , puede calcularse como:

= + log

+

donde

+ es la probabilidad de que un ejemplo tomado al azar de sea positivo. Esta probabilidad puede calcularse como:

+ =

+

+ +

siendo

+ la cantidad de ejemplos positivos de y la cantidad de ejemplos

negativos.

La probabilidad se calcula en forma anloga a

+, reemplazando la cantidad de ejemplos positivos por la cantidad de ejemplos negativos, y viceversa.

Generalizando la expresin anterior para cualquier tipo de ejemplos, obtenemos la frmula general de la entropa:



H Si = log

=1

En todos los clculos relacionados con la entropa, definimos 0 log 0 = 0.

Si la variable divide el conjunto en los subconjuntos 1, 2, , , entonces

la entropa total del sistema de subconjuntos ser:

H Si , =

=1

donde es la entropa del subconjunto y es la probabilidad de que un ejemplo pertenezca a ; puede calcularse utilizando los tamaos relativos de los subconjuntos, como:

=

La ganancia en informacin puede calcularse como la disminucin en entropa.

Es decir:

, = , donde es el valor de la entropa a priori, antes de realizar la subdivisin, y , es el valor de la entropa del sistema de subconjuntos generados por la particin segn . 2.2.2.2 Poda de los rboles generados

Existen varias razones para la poda de los rboles generados por los mtodos de TDIDT [Michalski et al., 1998], entre ellas podemos nombrar la sobre-generalizacin, la evaluacin de variables poco importantes o significativas, y el gran tamao del rbol obtenido. En el primer caso, un rbol puede haber sido construido a partir de ejemplos con ruido, con lo cual algunas ramas del rbol pueden ser engaosas; en cuanto a la evaluacin de variables no relevantes, stas deben podarse ya que slo agregan niveles en el rbol y no contribuyen a la ganancia de informacin. Por ltimo, si el rbol obtenido es demasiado profundo o demasiado frondoso, se dificulta la interpretacin por parte del usuario, con lo cual hubiera sido lo mismo utilizar un mtodo de caja negra.

Existen dos enfoques para podar los rboles: la pre-poda (preprunning) y la post-poda (postprunning). En el primer caso se detiene el crecimiento del rbol cuando la ganancia de informacin producida al dividir un conjunto no supera un umbral determinado, en la post-poda se podan algunas ramas una vez que se ha terminado de construir el rbol. El primer enfoque, tiene la ventaja de que no se pierde tiempo en



construir una estructura que luego ser simplificada en el rbol final; el mtodo tpico en estos casos es buscar la mejor manera de partir el subconjunto y evaluar la particin desde el punto de vista estadstico mediante la teora de la ganancia de informacin, reduccin de errores, etc., si esta evaluacin es menor que un lmite predeterminado, la divisin se descarta y el rbol para el subconjunto es simplemente la hoja ms apropiada; sin embargo, este tipo de mtodo tiene la contra de que no es fcil detener un particionamiento en el momento adecuado, un lmite muy alto puede terminar con la particin antes de que los beneficios de particiones subsiguientes parezcan evidentes, mientras que un lmite demasiado bajo resulta en una simplificacin demasiado leve. El segundo enfoque utilizado por el ID3 y el C4.5, procede a la simplificacin una vez construido el rbol segn los criterios propios de cada uno de los algoritmos. 2.2.2.3 El Principio de longitud de descripcin mnima (MDL)

El principio de longitud de descripcin mnima (MDL) [Joachims et al., 1995; Mitchell, 2000; Quinlan, 1993c; Quinlan, 1995; Quinlan & Cameron-Jones, 1995] sostiene que la mejor teora para un conjunto de datos es aquella que minimiza el tamao de la teora y la cantidad de informacin necesaria para especificar las excepciones, desde el punto de vista del aprendizaje automtico esto significa que dado un conjunto de instancias, un sistema de aprendizaje infiere una teora a partir de ellas; supngase una analoga con el campo de las comunicaciones: la teora con las excepciones debe ser transmitida por un canal perfecto. El MDL sostiene que la mejor generalizacin es aquella que requiere la menor cantidad de bits para transmitir la generalizacin junto con los ejemplos a partir de la cual fue generada. Esto evita las teoras que satisfacen los datos al extremo sobre-ajuste, ya que los ejemplos se transmiten tambin, y las teoras demasiado extensas sern penalizadas. Por otro lado, tambin se puede transmitir la teora nula que no ayuda en lo ms mnimo al transmitir los ejemplos. Entonces, pueden transmitirse tanto las teoras simples como aquellas muy complejas y el MDL provee una forma de medir la performance de los algoritmos basndose en los datos de entrenamiento nicamente. Esta parece ser la solucin ideal al problema de medir la performance.

Veamos cmo se aplica el principio MDL. Supongamos que un sistema de aprendizaje genera una teora , basada en un conjunto de entrenamiento , y requiere una cierta cantidad de bits para codificar la teora. Dada la teora, el

conjunto de entrenamiento puede codificarse en una cantidad de bits.

est dada por la funcin de ganancia de informacin sumando todos los miembros del conjunto de entrenamiento. La longitud de descripcin total de la teora es +

. El principio MDL recomienda la teora que minimiza esta suma.

Hay que recordar que los algoritmos de la familia TDIDT realizan una bsqueda

en el espacio de hiptesis posibles, constituido por todos los rboles de decisin posibles. Su sesgo inductivo, siguiendo el principio de la Afeitadora de Occam, es una preferencia sobre los rboles pequeos frente a los rboles ms profundos y frondosos.



2.2.3 Descripcin general de los algoritmos

El algoritmo principal de los sistemas de la familia TDIDT, a la cual pertenecen el ID3 y su descendiente el C4.5, es el proceso de generacin de un rbol de decisin inicial a partir de un conjunto de datos de entrenamiento. La idea original est basada en un trabajo de Hoveland y Hunt de los aos 50, culminado en el libro Experiments in Induction [Hunt et al., 1966] que describe varios experimentos con varias implementaciones de sistemas de aprendizaje de conceptos (Concept Learning Systems CLS). 2.2.3.1 Divisin de los datos

El mtodo divide y reinars realiza en cada paso una particin de los datos del nodo segn una prueba realizada sobre la mejor variable. Cualquier prueba que divida a en una manera no trivial, tal que al menos dos subconjuntos distintos no estn vacos, eventualmente resultar en una particin de subconjuntos de una nica clase, an cuando la mayora de los subconjuntos contengan un solo ejemplo. Sin embargo, el proceso de construccin del rbol no apunta meramente a encontrar cualquier particin de este tipo, sino a encontrar un rbol que revele una estructura del dominio y, por lo tanto, tenga poder predictivo. Para ello, se necesita un nmero importante de casos en cada hoja o, dicho de otra manera, la particin debe tener la menor cantidad de clases posibles. En el caso ideal, se busca elegir en cada paso la prueba que genere el rbol ms pequeo; es decir, se busca un rbol de decisin compacto que sea consistente con los datos de entrenamiento. Para ello se pueden explorar todos los rboles posibles y elegir el ms simple, pero desafortunadamente un nmero exponencial de rboles debera ser analizado. El problema de encontrar el rbol de decisin ms pequeo consistente con un conjunto de entrenamiento es de complejidad NP-completa.

La mayora de los mtodos de construccin de rboles de decisin, incluyendo el C4.5 y el ID3, no permiten volver a estados anteriores, es decir, son algoritmos golosos sin vuelta atrs. Una vez que se ha escogido una prueba para particionar el conjunto actual, tpicamente basndose en la maximizacin de alguna medida local de progreso, la particin se concreta y las consecuencias de una eleccin alternativa no se exploran. Por este motivo, la eleccin debe ser bien realizada. 2.2.3.1.1 Eleccin del criterio de divisin:

Para realizar la divisin de los datos en cada paso, Quinlan propone la utilizacin de los mtodos de la teora de la informacin. En un principio, el ID3 utilizaba la ganancia como criterio de divisin, sin embargo a partir de numerosas pruebas se descubri que este criterio no era efectivo en todos los casos y se obtenan mejores resultados si se normalizaba el criterio en cada paso, por lo tanto, comenz a



utilizarse la proporcin de ganancia de informacin, con mayor xito; a continuacin se presentan ambos criterios. 2.2.3.1.1.1 Criterio de ganancia:

La definicin de ganancia se presenta de la siguiente forma. Supongamos que tenemos una prueba posible con resultados que particionan al conjunto de entrenamiento en los subconjuntos 1, 2, , . Si la prueba se realiza sin explorar las divisiones subsiguientes de los subconjuntos , la nica informacin disponible para evaluar la particin es la distribucin de clases en y sus subconjuntos.

Consideremos una medida similar luego de que ha sido particionado de acuerdo a los resultados de la prueba . La informacin esperada (entropa) puede determinarse como la suma ponderada de los subconjuntos, de la siguiente manera:

, =

=1

La cantidad , = , mide la informacin ganada al partir

de acuerdo a la prueba . El criterio de ganancia, entonces, selecciona la prueba que maximice la ganancia de informacin, es decir, antes de particionar los datos en cada nodo, se calcula la ganancia que resultara de particionar el conjunto de datos segn cada una de las variables posibles y se realiza la particin que resulta en la mayor ganancia. 2.2.3.1.1.2 Criterio de proporcin de ganancia:

El criterio de ganancia tiene un defecto muy serio, y es que presenta una tendencia muy fuerte a favorecer las pruebas con muchos resultados. Analicemos una prueba sobre una variable que sea la clave primaria de un conjunto de datos, en la cual obtendremos un nico subconjunto para cada caso y para cada subconjunto tendremos , = 0, entonces la ganancia de informacin ser mxima. Desde el punto de vista de la prediccin, este tipo de divisin no es til.

Esta tendencia inherente al criterio de ganancia puede corregirse mediante una suerte de normalizacin, en la cual se ajusta la ganancia aparente atribuible a pruebas con muchos resultados. Consideremos el contenido de informacin de un mensaje correspondiente a los resultados de las pruebas. Por analoga a la definicin de la tenemos:

_ =

log2

=1



Esto representa la informacin potencial generada al dividir en subconjuntos, mientras que la ganancia de informacin mide la informacin relevante a una clasificacin que nace de la misma divisin. Entonces:

__ = ,

_

expresa la proporcin til de informacin generada en la particin. Si la particin es casi trivial, la informacin de la divisin ser pequea y esta proporcin se volver inestable. Para evitar este fenmeno, el criterio de proporcin de ganancia selecciona una prueba que maximice la expresin anterior, sujeta a la restriccin de que la informacin de la divisin sea grande, al menos tan grande como la ganancia promedio sobre todas las pruebas realizadas. 2.2.3.2 Construccin de rboles 2.2.3.2.1 ID3

El algoritmo ID3, diseado en 1993 por J. Ross Quinlan [Quinlan, 1993a, Quinlan, 1993b], toma objetos de una clase conocida y los describe en trminos de una coleccin fija de propiedades o de variables, produciendo un rbol de decisin sobre estas variables que clasifica correctamente todos los objetos [Quinlan, 1993b]. Hay ciertas cualidades que diferencian a este algoritmo de otros sistemas generales de inferencia. La primera se basa en la forma en que el esfuerzo requerido para realizar una tarea de induccin crece con la dificultad de la tarea. El ID3 fue diseado especficamente para trabajar con masas de objetos, y el tiempo requerido para procesar los datos crece slo linealmente con la dificultad, como producto de:

La cantidad de objetos presentados como ejemplos.

La cantidad de variables dadas para describir estos objetos.

La complejidad del concepto a ser desarrollado (medido por la cantidad de nodos en el rbol de decisin).

Esta linealidad se consigue a costa del poder descriptivo ya que los conceptos

desarrollados por el ID3 slo toman la forma de rboles de decisin basados en las variables dadas, y este lenguaje es mucho ms restrictivo que la lgica de primer orden o la lgica multivaluada, en la cual otros sistemas expresan sus conceptos [Quinlan, 1993b].

El ID3 fue presentado como descendiente del CLS creado por Hunt y, como contrapartida de su antecesor, es un mecanismo mucho ms simple para el descubrimiento de una coleccin de objetos pertenecientes a dos o ms clases. Cada objeto debe estar descripto en trminos de un conjunto fijo de variables, cada una de las cuales cuenta con su conjunto de posibles valores. Por ejemplo, la variable humedad puede tener los valores {alta, baja}, y la variable clima, {soleado, nublado, lluvioso}.



Una regla de clasificacin en la forma de un rbol de decisin puede construirse

para cualquier conjunto de variables de esta forma [Quinlan, 1993b]:

Si est vaco, entonces se lo asocia arbitrariamente a cualquiera de las clases. Si contiene los representantes de varias clases, se selecciona una variable y se

particiona en conjuntos disjuntos 1, 2, , , donde contiene aquellos miembros de que tienen el valor para la variable seleccionada. Cada uno de estos subconjuntos se maneja con la misma estrategia.

El resultado es un rbol en el cual cada hoja contiene un nombre de clase y

cada nodo interior especifica una variable para ser testeada con una rama correspondiente al valor de la variable. 2.2.3.2.1.1 Descripcin del ID3

El objetivo del ID3 es crear una descripcin eficiente de un conjunto de datos mediante la utilizacin de un rbol de decisin. Dados datos consistentes, es decir, sin contradiccin entre ellos, el rbol resultante describir el conjunto de entrada a la perfeccin. Adems, el rbol puede ser utilizado para predecir los valores de nuevos datos, asumiendo siempre que el conjunto de datos sobre el cual se trabaja es representativo de la totalidad de los datos. Dados:

Un conjunto de datos.

Un conjunto de descriptores de cada dato.

Un clasificador/conjunto de clasificadores para cada objeto.

Se desea obtener un rbol de decisin simple basndose en la entropa, donde los nodos pueden ser:

Nodos intermedios: en donde se encuentran los descriptores escogidos segn el criterio de entropa, que determinan cul rama es la que debe tomarse.

Hojas: estos nodos determinan el valor del clasificador.

Este procedimiento de formacin de reglas funcionar siempre, dado que no existen dos objetos pertenecientes a distintas clases pero con idntico valor para cada uno de sus variables; si este caso llegara a presentarse, las variables son inadecuadas para el proceso de clasificacin.

Hay dos conceptos importantes a tener en cuenta en el algoritmo ID3 [Blurock, 1996]: la entropa y el rbol de decisin. La entropa se utiliza para encontrar el parmetro ms significativo en la caracterizacin de un clasificador. El rbol de decisin es un medio eficiente e intuitivo para organizar los descriptores que pueden ser utilizados con funciones predictivas.



2.2.3.2.1.2 Algoritmo ID3

A continuacin se presenta el algoritmo del mtodo ID3 para la construccin de rboles de decisin en funcin de un conjunto de datos previamente clasificados. Funcin ID3

(R: conjunto de atributos no clasificadores, C: atributo clasificador, S: conjunto de entrenamiento) devuelve un rbol de decisin;

Comienzo

Si S est vaco, Devolver un nico nodo con Valor Falla;

Si todos los registros de S tienen el mismo valor para el atributo clasificador, Devolver un nico nodo con dicho valor;

Si R est vaco, entonces Devolver un nico nodo con el valor ms frecuente del atributo clasificador en los registros de S [Nota: habr errores, es decir, registros que no estarn bien clasificados en este caso];

Si R no est vaco, entonces D atributo con mayor Ganancia(D,S) entre los atributos de R; Sean {dj| j=1,2, .., m} los valores del atributo D; Sean {Sj| j=1,2, .., m} los subconjuntos de S correspondientes a los valores de dj respectivamente; Devolver un rbol con la raz nombrada como D y con los arcos nombrados d1, d2,.., dm que van respectivamente a los rboles ID3(R-{D}, C, S1), ID3(R-{D}, C, S2), .., ID3(R-{D}, C, Sm);

Fin 2.2.3.2.1.3 Poda de los rboles de decisin

La poda de los rboles de decisin se realiza con el objetivo de que stos sean ms comprensibles, lo cual implica que tengan menos niveles y/o sean menos frondosos. La poda aplicada en el ID3 se realiza una vez que el rbol ha sido generado y es un mecanismo bastante simple: si de un nodo nacen muchas ramas, las cuales terminan todas en la misma clase, entonces se reemplaza dicho nodo por una hoja con la clase comn, en caso contrario, se analizan todos los nodos hijos. 2.2.3.2.1.4 Limitaciones al ID3

El ID3 puede aplicarse a cualquier conjunto de datos, siempre y cuando las variables sean discretas. Este sistema no cuenta con la facilidad de trabajar con variables continuas ya que analiza la entropa sobre cada uno de los valores de una variable, por lo tanto, tomara cada valor de una variable continua individualmente en el clculo de la entropa, lo cual no es til en muchos de los dominios. Cuando se trabaja con variables continuas, generalmente se piensa en rangos de valores y no en valores particulares.

Existen varias maneras de solucionar este problema del ID3, como la agrupacin de valores presentada en [Gallion et al., 1993] o la discretizacin de los



mismos explicada en [Blurock, 1996; Quinlan, 1993c]. El C4.5 resolvi el problema de los atributos continuos mediante la discretizacin. 2.2.3.2.2 C4.5

El C4.5 se basa en el ID3, por lo tanto, la estructura principal de ambos mtodos es la misma. El C4.5 construye un rbol de decisin mediante el algoritmo divide y reinars y evala la informacin en cada caso utilizando los criterios de entropa y ganancia o proporcin de ganancia, segn sea el caso. A continuacin, se explicarn las caractersticas particulares de este mtodo que lo diferencian de su antecesor. 2.2.3.2.2.1 Algoritmo C4.5

El algoritmo del mtodo C4.5 para la construccin de rboles de decisin es a grandes rasgos muy similar al del ID3. Vara en la manera en que realiza las pruebas sobre las variables, tal como se detalla en las secciones siguientes. Funcin C4.5

(R: conjunto de atributos no clasificadores, C: atributo clasificador, S: conjunto de entrenamiento) devuelve un rbol de decisin;

Comienzo

Si S est vaco, Devolver un nico nodo con Valor Falla;

Si todos los registros de S tienen el mismo valor para el atributo clasificador, Devolver un nico nodo con dicho valor;

Si R est vaco, entonces Devolver un nico nodo con el valor ms frecuente del atributo clasificador en los registros de S [Nota: habr errores, es decir, registros que no estarn bien clasificados en este caso];

Si R no est vaco, entonces D atributo con mayor Proporcin de Ganancia(D,S) entre los atributos de R; Sean {dj| j=1,2, .., m} los valores del atributo D; Sean {Sj| j=1,2, .., m} los subconjuntos de S correspondientes a los valores de dj respectivamente; Devolver un rbol con la raz nombrada como D y con los arcos nombrados d1, d2,.., dm que van respectivamente a los rboles C4.5(R-{D}, C, S1), C4.5(R-{D}, C, S2), .., C4.5(R-{D}, C, Sm);

Fin 2.2.3.2.2.2 Caractersticas particulares del C4.5

En cada nodo, el sistema debe decidir cul prueba escoge para dividir los datos. Los tres tipos de pruebas posibles propuestas por el C4.5 son [Quinlan, 1993c]:

1. La prueba estndar para las variables discretas, con un resultado y una rama para cada valor posible de la variable.



2. Una prueba ms compleja, basada en una variable discreta, en donde los valores posibles son asignados a un nmero variable de grupos con un resultado posible para cada grupo, en lugar de para cada valor.

3. Si una variable tiene valores numricos continuos, se realiza una prueba binaria con resultados y > , para lo cual debe determinarse el valor lmite .

Todas estas pruebas se evalan de la misma manera, mirando el resultado de la

proporcin de ganancia, o alternativamente, el de la ganancia resultante de la divisin que producen. Ha sido til agregar una restriccin adicional: para cualquier divisin, al menos dos de los subconjuntos deben contener un nmero razonable de casos. Esta restriccin, que evita las subdivisiones casi triviales, es tenida en cuenta solamente cuando el conjunto es pequeo. 2.2.3.2.2.3 Poda de los rboles de decisin

El mtodo recursivo de particionamiento para construir los rboles de decisin descriptos anteriormente, subdividir el conjunto de entrenamiento hasta que la particin contenga casos de una nica clase, o hasta que la prueba no ofrezca mejora alguna. Esto da como resultado, generalmente, un rbol muy complejo que sobre-ajusta los datos al inferir una estructura mayor que la requerida por los casos de entrenamiento [Mitchell, 2000; Quinlan, 1995]. Adems, el rbol inicial generalmente es extremadamente complejo y tiene una proporcin de errores superior a la de un rbol ms simple. Mientras que el aumento en complejidad se comprende a simple vista, la mayor proporcin de errores puede ser ms difcil de visualizar.

Para entender este problema, supongamos que tenemos un conjunto de datos con dos clases, donde una proporcin 0,5 de los casos pertenecen a la clase mayoritaria. Si un clasificador asigna todos los casos con valores indeterminados a la clase mayoritaria, la proporcin esperada de error es claramente 1 . Si, en cambio, el clasificador asigna un caso a la clase mayoritaria con probabilidad y a la otra clase con probabilidad 1 , su proporcin esperada de error es la suma de:

La probabilidad de que un caso perteneciente a la clase mayoritaria sea asignado a la otra clase, 1 .

La probabilidad de que un caso perteneciente a la otra clase sea asignado a la clase mayoritaria, 1 .

que da como resultado 2 1 . Como es al menos 0,5, esto es generalmente superior a 1 , entonces el segundo clasificador tendr una mayor proporcin de errores. Un rbol de decisin complejo tiene una gran similitud con este segundo tipo de clasificador. Los casos no se relacionan a una clase, entonces, el rbol manda cada caso al azar a alguna de las hojas.

Un rbol de decisin no se simplifica borrando todo el rbol a favor de una rama, sino que se eliminan las partes del rbol que no contribuyen a la exactitud de la



clasificacin para los nuevos casos, produciendo un rbol menos complejo, y por lo tanto, ms comprensible.

2.2.4 Presentacin de los resultados

Tanto el ID3 como el C4.5 generan un clasificador de la forma de un rbol de decisin, cuya estructura es [Quinlan 1993c]:

Una hoja, indicando una clase, o

Un nodo de decisin que especifica alguna prueba a ser realizada sobre un nico atributo, con una rama y subrbol para cada valor posible de la prueba.

El rbol de decisin generado por el C4.5 cuenta con varias caractersticas

particulares, entre ellas cada hoja tiene asociados dos nmeros, que indican el nmero de casos de entrenamientos cubiertos por cada hoja y la cantidad de ellos clasificados errneamente por la hoja; es en cierta manera, un estimador del xito del rbol sobre los casos de entrenamiento. El ID3, en cambio, no clasifica errneamente a los datos de entrenamiento, con lo cual no son necesarios este tipo de indicadores; es por ello que este algoritmo, a diferencia del C4.5, corre el riesgo de caer en sobre-ajuste.


24 Ariel Kogan Descripcin del Problema

3 Descripcin del Problema

En este captulo se presenta el problema a resolver, se fundamenta el porqu de su eleccin y se seala su importancia en el contexto de estudio.

La integracin de agrupamiento e induccin como tcnica de descubrimiento de conocimiento utilizada frecuentemente en trabajos de campo [Grosser et al., 2005; Britos et al., 2006; Cogliati et al., 2006; Ferrero et al., 2006; Salgueiro et al., 2006], no cuenta con estudios sobre resultados o lineamientos ni mtricas que permitan optimizar su desempeo.

Por otra parte, dicha integracin forma parte de estudios ms abarcativos

[Rancn et al., 2007] que tienden a la integracin entre sistemas basados en conocimiento y sistemas de descubrimiento de conocimiento. El mejoramiento de una base de conocimiento mediante la incorporacin de piezas de conocimiento descubiertas de forma automtica, puede conducir a la degradacin de la base de conocimiento original. Es por eso que resulta necesario explorar la degradacin de la calidad del proceso de descubrimiento de conocimiento mediante el uso de la integracin de agrupamiento e induccin.

La no existencia de conceptualizacin de dominios que permita el estudio

sistemtico de estos, es una limitacin que debera ser tenida en cuenta al realizar cualquier estudio.

La ausencia de un sistema que permita la experimentacin controlada en un

ambiente de laboratorio, presenta el desafo de proveer una solucin para llevar adelante una experimentacin sistemtica con el objetivo de adquirir resultados para el anlisis del problema a resolver.

En este contexto, puede plantearse el estudio del comportamiento de la integracin de los algoritmos de agrupamiento por SOM e induccin por TDIDT como mecanismo de descubrimiento de conocimiento.


Solucin Propuesta Ariel Kogan 25

4 Solucin Propuesta

En este captulo se describe la respuesta al problema planteado. Se identifican los parmetros del problema (seccin 4.1), se plantean definiciones necesarias (seccin 4.2) como el cubrimiento de una regla sobre otra (seccin 4.2.1), el cubrimiento de una regla original por reglas descubiertas (seccin 4.2.2) y el concepto de concentracin de reglas que indican la pertenencia a una clase (seccin 4.2.3). Se aborda el mtodo de generacin de casos de experimentacin (seccin 4.3) describindolo (seccin 4.3.1) y dando un ejemplo para su mejor comprensin (seccin 4.3.2). Finalmente, se realiza una descripcin del Banco de Pruebas (seccin 4.4), abordando sus funcionalidades (seccin 4.4.1) y describiendo su dinmica de funcionamiento (seccin 4.4.2).

4.1 Identificacin de los parmetros del problema

No existe una conceptualizacin de dominios que permita el estudio sistemtico de estos en trminos de los parmetros que los rigen [Perez-Rey et al., 2004; Chen et al., 2005; Pandey y Mishra, 2005; Gupta et al., 2006; Song et al., 2006]. Es as como en esta seccin se identifican los parmetros de este problema y se propone un mtodo para la generacin de dominios de manera controlada, de forma tal de emular dominios posibles para la aplicacin de descubrimiento de conocimiento. Estos dominios deben ser generados en base a parmetros conocidos por el experimentador y permitir su variacin con el objetivo de llevar adelante experimentos sobre dominios cualitativamente diferentes.

Los parmetros del problema que han sido identificados se muestran en la tabla 4.1:

Descripcin del Parmetro Nemotcnico

Cantidad de atributos de cada ejemplo. attributesNumber

Cantidad de posibles valores que puede tomar cada atributo.

attPossibleValues

Cantidad de clases que rigen los ejemplos. classPossibleValues

Cantidad de reglas que indican la pertenencia a cada clase.

rulesPerClass

Cantidad de atributos sobre los cuales las reglas imponen condiciones.

attUsedInRule

Cantidad de ejemplos de cada regla. instancesByRule


26 Ariel Kogan Solucin Propuesta

Porcentaje de la cantidad de valores posibles que puede tomar cada atributo, mediante el cual -para los atributos sobre los que se imponen condiciones- se generar un subconjunto de los valores posibles para cada atributo, de forma tal de establecer un subespacio correspondiente a una clase.

classAttPossibleValuesPercentage

Indicacin de si los ejemplos se encuentran distribuidos aleatoriamente antes de ser procesadas por la combinacin de SOM y TDIDT o no.

mix

Indicacin de si se permite una concepcin no estricta del cubrimiento de una regla o no.

allowMultipleCoverage

Porcentaje de desviacin en la cantidad de instancias cubiertas, para considerar que la regla ha sido cubierta.

allowedCoverageDesviation

Cantidad de veces que se somete a la SOM el conjunto de datos, para entrenarla.

somTrainingIterationsMultiplier

Ancho del mapa SOM, cantidad de neuronas en horizontal

somMapWidth

Alto del mapa SOM, cantidad de neuronas en vertical

somMapHeight

Tabla 4.1: Parmetros identificados del problema

4.2 Definiciones

Para la mejor comprensin de cierta terminologa utilizada en el presente trabajo, es til realizar algunas definiciones.

4.2.1 Cubrimiento de una regla sobre otra

Para el presente trabajo, se ha definido un criterio para determinar si una regla es cubrimiento de otra. El mismo consiste en:



Criterio de cubrimiento de una regla sobre otra

Comparando cada uno de los atributos de las reglas entre s, se debe cumplir para todos los atributos que si la regla a cubrir impone condiciones y la regla que cubre tambin lo hace, las condiciones deben ser las mismas.

Considrese un caso en el que se tienen las siguientes 2 reglas:

Regla que cubre:

1 2 3 = 5 =

Regla a cubrir:

1 = 3 = 5 6

De acuerdo al criterio expuesto, la primera s cubre a la segunda: La regla que

cubre no impone condiciones sobre el 2 atributo, mientras que la regla a cubrir s lo hace. Esto no es un problema ya que la regla a cubrir es ms especfica que la regla que cubre. En el caso del 4 atributo, ambas reglas imponen condiciones y stas son las mismas. En el caso del 6 atributo, la regla que cubre impone condiciones, pero la regla a cubrir no. Esto quiere decir que segn la regla a cubrir, el valor del 6 atributo de sus ejemplos no est condicionado, mientras que para la regla que cubre s lo est.

Supngase la siguiente situacin. Sean:

Regla que cubre:

* * * 7 * 5

Regla a cubrir:

* 3 * 7 * *

Y considrese el siguiente ejemplo:

1 3 2 7 3 4

Este ejemplo cumple con la regla a cubrir, pero no con la regla que cubre, ya

que el valor del 6 atributo no es 5. Sin embargo, como se dijo, bajo el criterio definido para el presente trabajo, la primera regla s cubre a la segunda.

El motivo por el cual el criterio utilizado para el presente trabajo hace esta concesin se debe a que, de acuerdo a lo observado de forma experimental, la determinacin al azar de los valores de los atributos libres, puede arrojar ejemplos en los cuales varias veces se repite el mismo valor. Es decir que para la original:


28 Ariel Kogan Solucin Propuesta

Supuesta regla original

Se pueden generar ejemplos como:

Supuesto ejemplo 1 Supuesto ejemplo 2 Supuesto ejemplo 3

Y tras el proceso de educcin de conocimiento, obtener una regla:

Supuesta regla descubierta

La regla descubierta no impone condiciones sobre el 2 atributo porque quizs

hacindolo sobre el 4 ya logr determinar un grupo de ejemplos. Sin embargo, la coincidencia que el 6 atributo de los ejemplos haya tomado el mismo valor para todos ellos, bien pudo haber provocado que la regla descubierta imponga condiciones sobre este atributo ya que no hay manera de controlar dicha coincidencia y diferenciarla de un patrn intencionado.

Se observ que si no se realizaba esta concesin al criterio de cubrimiento de una regla sobre otra, el anlisis de la cantidad de reglas cubiertas de forma correcta no resultaba preciso.

4.2.2 Cubrimiento de una regla original por reglas descubiertas Experimentalmente se observ que las reglas descubiertas no necesariamente imponan condiciones sobre los mismos atributos que las reglas originales. Sin embargo, era posible notar que -a pesar de imponer condiciones sobre otros atributos- las reglas eran cubrimiento del mismo conjunto de ejemplos. Es as como no se pudo utilizar como criterio de cubrimiento entre reglas, el hecho que impongan las condiciones sobre los mismos atributos. El proceso utilizado fue el siguiente:

1. Para cada una de las reglas originales, se toma del conjunto de reglas descubiertas aquellas que la cubren.

2. Se suma la cantidad de ejemplos que responden al conjunto de reglas descubiertas determinado en el paso 2.

* 3 * 7 * *

6 3 4 7 1 5

4 3 1 7 3 5

2 3 5 7 8 5

* * * 7 * 5



3. Si la suma de ejemplos computada en el paso 2 est comprendida entre la cantidad de ejemplos que se sabe se generaron para la regla original y esta cantidad sumada a una desviacin, se considera que la regla original ha sido correctamente cubierta.

La condicin del paso 3 responde a los siguientes criterios:

Para considerar que una regla original ha sido correctamente cubierta, las reglas descubiertas que la cubren deben cubrir al menos la misma cantidad de ejemplos que la regla original.

Debido a que las reglas descubiertas no necesariamente imponen condiciones sobre los mismos atributos que la regla original, es posible que cubran ciertos ejemplos que no eran cubrimiento de la regla original. Sin embargo, es posible aceptar una cierta desviacin en el cubrimiento. Esta desviacin puede ser modelada como un cierto porcentaje de la cantidad de ejemplos que cubra la regla original. Este porcentaje corresponde al parmetro allowedCoverageDesviation.

4.2.3 Concentracin de las reglas que indican la pertenencia a cada clase

Para la definicin de la concentracin de las reglas que indican la pertenencia a

cada clase, es til hacer uso de la figura 4.1, la cual define grficamente una clase que rige el dominio.

A6A5A4A3A2A1

v8

v7

v6

v5

v4

v3

v2

v1

v8

v7

v6

v5

v4

v3

v2

v1

v8

v7

v6

integración de algoritmos de inducción y agrupamiento. estudio del comportamiento

Documents