universidad politecnica de madrid´ - archivo...

168
UNIVERSIDAD POLIT ´ ECNICA DE MADRID ESCUELA T ´ ECNICA SUPERIOR DE INGENIEROS DE TELECOMUNICACI ´ ON UN MODELO NEURONAL BASADO EN LA METAPLASTICIDAD PARA LA CLASIFICACI ´ ON DE OBJETOS EN SE ˜ NALES 1-D Y 2-D. TESIS DOCTORAL Alexis Enrique Marcano Cede˜ no Lic. en Inform´ atica 2010

Upload: phunghuong

Post on 26-Sep-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

UNIVERSIDAD POLITECNICA DE MADRID

ESCUELA TECNICA SUPERIOR

DE INGENIEROS DE TELECOMUNICACION

UN MODELO NEURONAL BASADO EN LA

METAPLASTICIDAD PARA LA CLASIFICACION DE

OBJETOS EN SENALES 1-D Y 2-D.

TESIS DOCTORAL

Alexis Enrique Marcano CedenoLic. en Informatica

2010

Page 2: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Universidad Politecnica de Madrid

Escuela Tecnica Superior de Ingenieros de Telecomunicacion

Departamento de Senales, Sistemas y Radiocomunicaciones

UN MODELO NEURONAL BASADO EN LA

METAPLASTICIDAD PARA LA CLASIFICACION DE

OBJETOS EN SENALES 1-D Y 2-D.

TESIS DOCTORAL

Autor:

Alexis Enrique Marcano Cedeno

Lic. en Informatica

Director:

Diego Andina de la Fuente

Dr. Ingeniero del Dpto. de Senales, Sistemas y Radiocomunicaciones

Universidad Politecnica de Madrid

2010

Page 3: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

TESIS DOCTORAL

UN MODELO NEURONAL BASADO EN LA METAPLASTICIDAD

PARA LA CLASIFICACION DE OBJETOS EN SENALES 1-D Y 2-D.

AUTOR: Alexis Enrique Marcano Cedeno

DIRECTOR: Diego Andina de la Fuente

PRESIDENTE:

SECRETARIO:

VOCAL:

VOCAL:

VOCAL:

SUPLENTE:

SUPLENTE:

Realizado el acto de defensa y lectura de Tesis el dıa de de 2010.

En la E.T.S. de Ingenieros de Telecomunicacion.

Calificacion:

EL PRESIDENTE LOS VOCALES

EL SECRETARIO

Page 4: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

A Camila por el tiempo robado.....

Page 5: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

((Aquella teorıa que no encuentre apli-

cacion practica en la vida, es una

acrobacia del pensamiento)).

Swami Vivekananda

Page 6: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Dedicatoria

Dedicada muy especialmente:

A mis padres Anıbal y Luisa de Marcano (†) por haberme dado la vida, por

guiarme y darme su apoyo en todo momento.

A Carol por su paciencia, confianza, apoyo y por haberme dado el impulso nece-

sario para alcanzar esta meta.

A mis hermanos Crispina, Jose y Luisa Celeste por todo su apoyo, confianza y

aliento desde la planificacion, inicio y finalizacion de mis estudios doctorales.

A mis sobrinos Franchiny, Cristian, Cris Jose, Franco y Frank Ali por haberme

dado la oportunidad de compartir sus vivencias, experiencias y sobre todo por

haberme dado muchas alegrıas y satisfacciones.

A mis amigos, companeros y profesores de la Universidad Pedagogica Experi-

mental Libertador (UPEL), Elsa Rivas, Abdel Puerta, Victor Reyes por su apoyo

incondicional en esta etapa.

i

Page 7: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Agradecimientos

La realizacion y culminacion de esta tesis no hubiera sido posible sin la colabo-

racion de muchas personas que, de un modo u otro me han aportado sus conocimien-

tos y brindado su apoyo.

En primer lugar quiero dar mi agradecimiento a mi tutor y director de tesis Dr.

Diego Andina de la Fuente, quien desde el primer momento me dio todo su apoyo,

amistad y me guio durante esta investigacion ası como tambien supo canalizar todas

mis esfuerzos para finalizar con exito esta etapa de mi vida. Debo agradecer, ademas,

su paciente revision del texto presentado.

Este trabajo ha sido enriquecido y fortalecido por las sugerencias, aportaciones,

crıticas y recomendaciones en los aspectos teoricos y practicos por los profesores

Joaquın Torres, Ernesto Castaneda, Jose Luis Tapia, Juan Grau, Antonio Fumero,

Carlos Gonzalez.

Lupita, Joel, Aleskandar, Benjamın, Fulgencio mis companeros de laboratorio de

GASC, por sus sugerencias, criticas, aportaciones y recomendacion durante todos

mis estudios doctorales y muy especialmente por haber hecho mis estancia mas

sencilla y placentera.

De manera muy especial a Miguelito por todas sus aportaciones, sugerencias,

recomendaciones y por su companıa durante esta fase del doctorado.

Este trabajo hubiera sido casi imposible de terminar sin la valiosa colaboracion y

aportacion del Fondo Nacional de Ciencia, Tecnologıa e Innovacion de la Republica

Bolivariana de Venezuela.

ii

Page 8: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Resumen

El Algoritmo de Retropropagacion (Algoritmo Backpropagation, ABP), es uno

de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Neuronales Artificiales, RNAs. El ABP ha sido empleado con exito en problemas de

clasificacion de patrones en areas como: Medicina, Bioinformatica, Telecomunica-

ciones, Banca, Predicciones Climatologicas, etc. Sin embargo el ABP tiene algunas

limitaciones que le impiden alcanzar un nivel optimo de eficiencia (problemas de

lentitud, convergencia y de exactitud en la clasificacion). Estos problemas han dado

lugar a un gran numero investigaciones para mejorar al mencionado algoritmo. Pero

a pesar de todas las modificaciones y mejoras propuestas para el ABP, todavıa no

existe una solucion optima, que se pueda aplicar a todos los problemas.

En esta Tesis Doctoral se propone una alternativa para mejorar algunas de las

deficiencias del ABP. El algoritmo propuesto, es una aplicacion de un modelo neu-

ronal basado en la propiedad biologica de la Metaplasticidad. La Metaplasticidad

es un concepto biologico ampliamente conocido y usado en muchos campos rela-

cionados con la Biologıa, Neuro-Biologıa, Psicologıa, Neurologıa y Neuro-Fisiologıa

entre otros. La Metaplasticidad esta relacionada con los procesos de la memoria y

del aprendizaje.

Una de las ventajas del algoritmo propuesto de la Metaplasticidad Artificial

(Artificial Metaplasticity, AMP) es que, se puede implementar en cualquier RNA,

en esta tesis, se implemento por primera vez para diversas aplicaciones multidisci-

plinarias en un Perceptron Multicapa (Multilayer Perceptron, MLP). De todos los

modelos AMP probados en la literatura, el modelo mas eficiente (en funcion del

tiempo de aprendizaje y rendimiento) es el enfoque que conecta la metaplasticidad

con la Teorıa de la informacion de Shannon, que establece que los patrones menos

frecuentes tienen mas informacion que los patrones mas frecuentes. Este modelo de-

iii

Page 9: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

fine la metaplasticidad artificial como un procedimiento de aprendizaje que produce

una mayor modificacion en los pesos sinapticos de los patrones menos frecuentes que

de los patrones mas frecuentes, como una forma de extraer mas informacion de los

primeros que de los ultimos.

El modelo de la Metaplasticidad Artificial en un Percentron Multicapa (Arti-

ficial Metaplasticity on Percentron Multilayer, AMMLP) se aplicado en la fase de

entrenamiento de las RNAs. Durante esta fase, el algoritmo AMMLP a dado mas

relevancia a los patrones menos frecuentes y se ha restado importancia a los mas

frecuentes, asegurando ası un entrenamiento mas eficaz, mientras se mantiene el

rendimiento del MLP.

El algoritmo propuesto AMMLP se ha aplicado a diferentes problemas relaciona-

dos con la clasificacion de patrones en distintas areas (Medica, Finanzas e Industri-

ales), demostrando en todos los casos ser superior en terminos de exactitud en la

clasificacion, velocidad de convergencia, fiabilidad y bajo coste computacional a los

algoritmos propuestos recientemente por otros investigadores y que han sido com-

parados en esta tesis.

iv

Page 10: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Abstract

The Backpropagation Algorithm, BPA, is one of the most known and used al-

gorithms to training the Artificial Neuronal Networks, ANNs. The BPA has been

success used in problems of patterns classification in areas such as: Medicine, Bioin-

formatic, Telecommunications, Banking, Climatological Predictions, etc. However

the BPA has some limitations that prevent to reach an optimal efficiency level

(slowness problems, convergence and classification accuracy). These problems have

provoked a big number researches to improve the BPA. However, in general none

of the modifications have been capable of delivering satisfactory performance for all

problems.

In this doctoral Thesis is proposed an alternative to improve some of the BPA

deficiencies. The suggested algorithm, is a neuronal model based on the biological

property of the Metaplasticity. The Metaplasticity is a biological concept widely

known in the fields of biology, medical computer science, neuroscience, physiology,

neurology and others. The Metaplasticity is related to the processes of memory and

of the learning.

The main advantage of the suggested Artificial Metaplasticity algorithm, AMP, is

that, it is able implementing in any ANNs, in this thesis, algorithm was implemented

in a Multilayer Perceptron, MLP. The most efficient AMP model (as a function of

learning time and performance) is the approach that connects metaplasticity and

Shannon’s information theory, which establishes that less frequent patterns carry

more information than frequent patterns. This model defines artificial metaplas-

ticity as a learning procedure that produces greater modifications in the synaptic

weights with less frequent patterns than frequent patterns, as a way of extracting

more information from the former than from the latter.

v

Page 11: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

The Artificial Metaplasticity on Multilayer Percentron, (AMMLP) model was

applied in the ANNs training phase. During the training phase, the AMMLP algo-

rithm assigns higher values for updating the weights in the less frequent activations

than in the more frequent ones. AMMLP achieves a more efficient training and im-

proves MLP performance.

The suggested AMMLP algorithm was applied to different related problems to

the pattern classification in different areas (Medical, Finance and Industrialists).

The AMMLP demonstrated in all cases be superior in terms of classification accu-

racy, speed, reliability and low computational cost than others algorithms recently

suggested by other researchers and applied a this areas.

vi

Page 12: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Indice

1. Introduccion 1

1.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2. Antecedentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.3. Motivacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.4. Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.4.1. Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.4.2. Objetivos Especıficos . . . . . . . . . . . . . . . . . . . . . . . 14

1.5. Estructura de la Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2. Redes Neuronales Artificiales 17

2.1. Neuronas Biologicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.2. Redes Neuronales Artificiales . . . . . . . . . . . . . . . . . . . . . . 20

2.2.1. Definicion de Red Neuronal . . . . . . . . . . . . . . . . . . . 20

2.2.2. La Neurona Artificial . . . . . . . . . . . . . . . . . . . . . . 21

2.2.3. Aprendizaje de las Redes Neuronales Artificiales . . . . . . . 24

2.2.4. Arquitectura de las Redes Neuronales Artificiales . . . . . . . 27

3. El Perceptron 34

3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.2. El Perceptron Monocapa . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.2.1. Dinamica del Perceptron . . . . . . . . . . . . . . . . . . . . . 35

3.2.2. Aprendizaje del Perceptron . . . . . . . . . . . . . . . . . . . 39

3.2.3. Limitaciones del Perceptron Monocapa . . . . . . . . . . . . . 43

vii

Page 13: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.3. El Perceptron Multicapa . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.4. El Algoritmo de Retropropagacion . . . . . . . . . . . . . . . . . . . 48

3.4.1. Metodo del Gradiente . . . . . . . . . . . . . . . . . . . . . . 49

4. La Metaplasticidad 57

4.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.2. Resena Historica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.3. Plasticidad Sinaptica . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.3.1. Potenciacion y Depresion a largo plazo . . . . . . . . . . . . . 59

4.3.1.1. Potenciacion a Largo Plazo, PLP . . . . . . . . . . . 59

4.3.1.2. Depresion a Largo Plazo, DLP . . . . . . . . . . . . 61

4.4. Plasticidad Intrınseca . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.5. Metaplasticidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5. Metaplasticidad Artificial 65

5.1. La Metaplasticidad y la Teorıa de la Informacion de Shannon . . . . 65

5.2. Algoritmo de Backpropagation y AMP . . . . . . . . . . . . . . . . . 66

5.3. Implementacion de la Metaplasticidad Artificial en el Entrenamiento

de un MLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5.4. Algoritmo AMMLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5.5. Seleccion de la estructura de Red de un AMMLP . . . . . . . . . . . 71

6. Experimentos y Resultados 74

6.1. Experimento 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

6.1.1. Base de Datos de Cancer de Mama de Wisconsin . . . . . . . 74

6.1.2. Seleccion de la Estructura de Red . . . . . . . . . . . . . . . 76

6.1.3. Evaluacion del Metodo . . . . . . . . . . . . . . . . . . . . . . 77

6.1.3.1. Exactitud de los resultados . . . . . . . . . . . . . . 77

6.1.3.2. Resultados de la curva ROC . . . . . . . . . . . . . 80

6.1.3.3. Comparacion con el Estado-del-Arte . . . . . . . . . 83

6.1.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

viii

Page 14: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.2. Experimento 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

6.2.1. Base de Datos de Aprobacion de Credito de Australia . . . . 86

6.2.2. Seleccion de la Estructura de Red . . . . . . . . . . . . . . . 87

6.2.3. Evaluacion del Metodo . . . . . . . . . . . . . . . . . . . . . . 88

6.2.3.1. Exactitud de los resultados . . . . . . . . . . . . . . 89

6.2.3.2. Comparacion con el Estado-del-Arte . . . . . . . . . 91

6.2.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

6.3. Experimento 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

6.3.1. Base de datos de Nudos . . . . . . . . . . . . . . . . . . . . . 94

6.3.1.1. Extraccion de Caracterısticas . . . . . . . . . . . . . 94

6.3.1.2. Seleccion de Caracterısticas . . . . . . . . . . . . . . 96

6.3.2. Seleccion de la Estructura de Red . . . . . . . . . . . . . . . 96

6.3.3. Evaluacion del Metodo . . . . . . . . . . . . . . . . . . . . . . 97

6.3.3.1. Comparacion con el Estado-del-Arte . . . . . . . . . 99

6.3.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

6.4. Experimento 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

6.4.1. Bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 100

6.4.2. Seleccion de la Estructura de Red . . . . . . . . . . . . . . . 101

6.4.3. Evaluacion del Metodo . . . . . . . . . . . . . . . . . . . . . . 102

6.4.3.1. Comparacion con el Estado-del-Arte . . . . . . . . . 104

6.4.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

6.5. Experimento 5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

6.5.1. Bases de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 107

6.5.2. Seleccion de Caracterısticas . . . . . . . . . . . . . . . . . . . 108

6.5.2.1. Seleccion Secuencial Adelante . . . . . . . . . . . . . 108

6.5.2.2. Red Neuronal de Alimentacion Adelante . . . . . . 108

6.5.2.3. Implementacion del SFS-FFNN . . . . . . . . . . . 109

6.5.3. Seleccion de la Estructura de Red . . . . . . . . . . . . . . . 111

6.5.4. Evaluacion del Metodo . . . . . . . . . . . . . . . . . . . . . . 112

6.5.4.1. Comparacion con el Estado-del-Arte . . . . . . . . . 113

ix

Page 15: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.5.5. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

7. Conclusiones 115

8. Contribuciones y Lıneas Futuras de Investigacion 117

8.1. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

8.2. Lıneas Futuras de Investigacion . . . . . . . . . . . . . . . . . . . . . 119

I APENDICES 121

8.3. Publicaciones que sustentan la Tesis . . . . . . . . . . . . . . . . . . 122

8.3.1. Publicaciones en Revistas (JCR) . . . . . . . . . . . . . . . . 122

8.3.2. Publicaciones en Congresos . . . . . . . . . . . . . . . . . . . 122

8.4. Otras Publicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

x

Page 16: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Indice de Figuras

2.1. Estructura basica de una neurona biologica. . . . . . . . . . . . . . 18

2.2. Representacion de una neurona artificial tipo McCulloch-Pitts. . . . 21

2.3. a) Muestra un ejemplo de una red Feed-forward, en esta red la infor-

macion siempre se mueve en una direccion, nunca va hacia atras. (b)

En las redes recurrentes, la informacion puede fluir en dos direcciones

y los nodos de entrada se pueden comunicar con los nodos de salida. 29

2.4. Arquitectura de un Perceptron Multicapa. . . . . . . . . . . . . . . 30

2.5. Arquitectura de un mapa autoorganizado. . . . . . . . . . . . . . . 31

2.6. Arquitectura de una red de funcion de base radial. . . . . . . . . . . 32

2.7. Taxonomıa Basica de las RNA . . . . . . . . . . . . . . . . . . . . . 33

3.1. Esquema de un perceptron monocapa. . . . . . . . . . . . . . . . . . 35

3.2. Funcion logica AND. . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.3. Funcion logica OR. . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.4. Perceptron monocapa con N neuronas. . . . . . . . . . . . . . . . . . 38

3.5. Funcion logica XOR. . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.6. Distintas formas de las regiones generadas por un perceptron multicapa. 47

xi

Page 17: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

4.1. Proceso de induccion a la Potenciacion a Largo Plazo, PLP: a) Nor-

malmente el canal NMDA esta bloqueado por una molecula de Mag-

nesio (Mg2+). b) La activacion repetida del receptor AMPA permite

la entrada de sodio (Na+) a la neurona lo que produce una despolar-

izacion de la misma y expulsa el Magnesio del canal NMDA y permite

la entrada de iones de calcio Ca2+. c) el incremento del iones de cal-

cio produce la activacion de las proteınas cimasas lo que hace mas

sensible a la neurona a nuevos estımulos, lo cual facilita la PLP. . . . 60

4.2. Proceso de induccion a la Depresion a Largo Plazo, DLP: a) La DPL

se produce con cuando se activan los receptores NMDA y el ingreso

del calcio (Ca2+) a la neurona postsinaptica es un pocas cantidades.

b) La DLP tambien puede originarse despues de de un periodo de

PLP cuando haya una disminucion en los niveles de calcio. La DPL

ayuda a mantener el equilibrio de las neuronas, es decir, que actua

como un proceso homeostatico. . . . . . . . . . . . . . . . . . . . . . 61

4.3. Los cambios en la fuerza sinaptica debido a la actividad postsinaptica

de las neuronas biologicas. Si la actividad postsinaptica es alta, la

curva se desplazara hacia la derecha, lo que reforzara la LTP. En la

grafica se muestra una familia de curvas en las que cada curva indica

la variacion de los pesos, ∆ω, con respecto a la activacion de las

neuronas. Para valores altos de los pesos, ω, la curva se alargara mas

a la derecha. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4.4. La metaplasticidad consiste en el cambio del umbral de PLP en fun-

cion del peso inicial de la sinapsis. Estas dos imagenes muestran grafi-

camente esta idea. Para valores superiores del peso inicial la curva

sinaptica es alargada de manera que el valor umbral PLP correspon-

de a los valores mas altos de la actividad postsinaptica. . . . . . . . 64

6.1. Muestra la curva ROC de los clasificadores, donde se puede apreciar

claramente y una vez mas la superioridad del AMMLP sobre el BP

estandar, en este caso en particular. (a) Muestra la curva ROC y la

AUC de 0.989 del AMMLP. (b) Muestra la curva ROC y la AUC de

0.928 del BP. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.2. Tipos de nudos usados en esta investigacion: a) Nudo de Borde. b)

Nudo Encerrado. c) Nudo de Hoja. . . . . . . . . . . . . . . . . . . . 93

xii

Page 18: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.3. Distribucion de lo patrones usados en la etapa de entrenamiento. . . 98

6.4. Distribucion de la clasificacion de los patrones obtenida en la fase de

prueba . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

6.5. Evolucion del error en la clasificacion usando SFS-FFNN para cada

base de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

xiii

Page 19: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Indice de Tablas

1.1. Algoritmos propuestos para mejorar el ABP entre los anos 1990-2000. 11

1.2. Algoritmos propuestos para mejorar el ABP entre los anos 2001-2010. 12

2.1. Funciones de activacion. . . . . . . . . . . . . . . . . . . . . . . . . . 23

6.1. Descripcion de los atributos del cancer de mama de la base de datos

de Wisconsin. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

6.2. Resultados obtenidos para AMMLP, con diferentes estructuras de red

y diferentes parametros de metaplasticidad. . . . . . . . . . . . . . . 76

6.3. Parametros de red aplicados a la WBCD. . . . . . . . . . . . . . . . 77

6.4. Matriz de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

6.5. Matriz de confusion de la mejor clasificacion obtenida por los clasifi-

cadores en una simulacion. . . . . . . . . . . . . . . . . . . . . . . . . 79

6.6. Exactitud obtenida en la mejor simulacion para cada clasificador para

la clasificacion del cancer de mama. . . . . . . . . . . . . . . . . . . . 80

6.7. Promedio de exactitud de la clasificacion del cancer de mama obtenido

por cada clasificador en 100 simulaciones. . . . . . . . . . . . . . . . 80

6.8. Exactitud de la clasificacion obtenida por el metodo propuesto AMMLP

y por otros clasificadores consultados en la literatura. . . . . . . . . 84

6.9. Descripcion de los atributos de la base de datos Aprobacion de Credito

de Australia. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

6.10. Resultados obtenidos por el AMMLP al aplicarlo a la base de datos

ACAS, usando diferentes estructuras de red y diferentes parametros

de metaplasticidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

6.11. Parametros de red aplicados a la ACAS. . . . . . . . . . . . . . . . . 88

xiv

Page 20: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.12. Matrices de confusion de la mejor clasificacion obtenida por los clasi-

ficadores en una simulacion usando la base de datos ACAS. . . . . . 90

6.13. Exactitud de la clasificacion obtenida por los clasificadores en la mejor

simulacion. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

6.14. Promedio en la exactitud de la clasificacion obtenida en 50 simula-

ciones para cada clasificador. . . . . . . . . . . . . . . . . . . . . . . 90

6.15. Exactitud de la clasificacion usando la base de datos Aprobacion de

Credito Australiana obtenida por el metodo propuesto AMMLP y por

otros clasificadores consultados en la literatura. . . . . . . . . . . . . 92

6.16. Distribucion de las muestras utilizadas en este estudio por clases. . 94

6.17. Resultados obtenidos por el AMMLP, con diferentes estructuras de

red y diferentes parametros de metaplasticidad usados con base de

datos de nudos en la madera. . . . . . . . . . . . . . . . . . . . . . . 97

6.18. Matrices de confusion del mejor resultado obtenido por cada clasifi-

cador en una simulacion clasificando los nudos en la madera. . . . . 97

6.19. Promedio de exactitud de la clasificacion de nudos en la madera

obtenida por los clasificadores en 50 simulaciones. . . . . . . . . . . . 99

6.20. Distribucion de las bases de datos consideradas en este estudio. . . . 101

6.21. Distribucion de los patrones usados para el entrenamiento y prueba

de las redes usando diferentes bases de datos. . . . . . . . . . . . . . 101

6.22. Resultados obtenidos por el AMMLP, con diferentes estructuras de

red y diferentes parametros de metaplasticidad para la base de datos

Iris. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

6.23. Resultados obtenidos por el AMMLP, con diferentes estructuras de

red y diferentes parametros de metaplasticidad para la base de datos

del Vino. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

6.24. Resultados obtenidos por el AMMLP, con diferentes estructuras de

red y diferentes parametros de metaplasticidad para la base de datos

Ionosfera. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

6.25. El mejor resultado obtenido por el BP estandar, para cada base de

datos usada en este estudio. . . . . . . . . . . . . . . . . . . . . . . . 103

6.26. Comparacion de los resultados obtenidos por el AMMLP y el BP

estandar para cada base de datos. . . . . . . . . . . . . . . . . . . . . 103

xv

Page 21: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.27. Promedio de exactitud obtenido en la clasificacion del AMMLP y del

BP estandar en 100 simulaciones. . . . . . . . . . . . . . . . . . . . . 103

6.28. Comparacion en la exactitud de la clasificacion obtenida por el meto-

do propuesto AMMLP y por otros metodos usando las mismas bases

de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

6.29. Caracterısticas de las bases de datos consideradas en este estudio. . . 108

6.30. Resultado de la seleccion de caracterısticas despues de aplicar el meto-

do propuesto SFS-FFNN. . . . . . . . . . . . . . . . . . . . . . . . . 111

6.31. Numero de patrones utilizando para el entrenamiento y prueba para

cada base de datos usada en este estudio. . . . . . . . . . . . . . . . 111

6.32. Diferentes estructuras de redes neuronales aplicados para cada base

de datos en este estudio. . . . . . . . . . . . . . . . . . . . . . . . . . 111

6.33. Diferentes parametros de red y de metaplasticidad aplicados para

cada base de datos en este estudio. . . . . . . . . . . . . . . . . . . . 112

6.34. La mejor estructura de red y parametros de metaplasticidad para

cada base de datos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

6.35. Los mejores resultados obtenidos en una simulacion por el AMMLP

y el BP estandar con las caracterısticas seleccionadas de cada base de

datos por el metodo SFS-FFNN. . . . . . . . . . . . . . . . . . . . . 113

6.36. Promedio obtenido en 100 simulaciones por el AMMLP y el BP

estandar usando las caracterısticas seleccionadas de cada base de

datos por el metodo SFS-FFNN. . . . . . . . . . . . . . . . . . . . . 113

6.37. Reduccion de la dimensionalidad de las bases de datos y la exactitud

en la clasificacion del AMMLP y de otros algoritmo propuesto usando

las mismas bases de datos . . . . . . . . . . . . . . . . . . . . . . . . 114

xvi

Page 22: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Lista de Abreviaturas

AMMLP Artificial Metaplasticity in a Perceptron Multilayer.

AMP Artificial Metaplasticity.

AMPA Alpha-Amino-3-hydroxy-5-Methyl-4-isoxazolePropionic Acid receptor.

ANMBP Algorithm Neighborhood Modified Backpropagation.

ANN Artificial Neural Network.

AUC Area Under the Curve.

BP Backpropagation.

BPAVSAF Backpropagation Algorithm with Varying Slope of Activation Function.

BPDC Backpropagation-Decorrelation.

BPVS Backpropagation with Variable Stepsize.

BPWE Backpropagation by Weight Extrapolation.

BST Backpropagation with Selective Training.

CBP Constructive Backpropagation.

CC Cascade-Correlation.

CG Conjugate Gradient.

DDB Dynamic of Decision Boundaries.

DS Dynamic Self-adaptation.

DV Descent Vector.

ELEANNE Efficient Learning Algorithms for Neural Networks.

EmBP Backpropagation Emocional.

ES Expert Systems.

ESP Error Saturation Prevention.

FFNN Feed-forward Neural Network.

FGBP Fuzzy General Backpropagation.

F-PM First-Principle Model.

GA Genetic Algorithm.

HFS High-Frequency Stimulation.

xvii

Page 23: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

IBLN Incremental Backpropagation Learning Network.

IIALR Individual Inference Adjusting Learning Rate Technique.

ISAs Matrix Instruction Set Architectures.

LCFNN Local Coupled Feedforward Neural Network.

LFS Low Frequency Stimulation.

LPEBP Learning Phase Evaluation Backpropagation Neural Network.

LR Learning Rate.

LS-PEN Least Squares and Penalty.

LTD Long-Term Depression.

LTP Long-Term Potentiation.

LUT Look-up Table.

MBP Matrix BackPropagation.

MF Momentum Factor.

MLEANN Meta-Learning Evolutionary Artificial Neural Network.

MLP Perceptron Multilayer.

MSE Mean Squared Error.

NMDA N-Metil-D-Aspartato.

PDF Probability Density Function.

PF Proportional Factor.

PUNNs Product Unit Neural Networks with Exponential Weights.

RBFN Radial Basis Function Networks.

RBPA Robust BP Algorithm.

ROC Receiver Operating Characteristic.

SCBP Split-Complex Backpropagation.

SD Steepest Descent.

SVD Singular Value Decomposition.

TAO-RBLA TAO-Robust Backpropagation Learning Algorithm.

Three-Term

BPA

Three-Term BP Algorithm.

TS Tabu Search.

Z-EDM Error Density at the Origin.

xviii

Page 24: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Capıtulo 1

Introduccion

1.1. Introduccion

Las Redes Neuronales Artificiales, RNAs(Artificial Neural Networks, ANNs)

estan inspiradas en las redes neuronales biologicas del cerebro humano. La RNAs

estan constituidas por elementos que se comportan de forma similar a la neurona

biologica en sus funciones mas comunes. Estos elementos estan organizados de una

forma parecida a la que presenta el cerebro humano.

Las RNA al margen de “parecerse” al cerebro presentan una serie de carac-

terısticas propias del cerebro. Por ejemplo las RNA aprenden de la experiencia,

generalizan de ejemplos previos a ejemplos nuevos y abstraen las caracterısticas

principales de una serie de datos.

Muchos algoritmos o metodos de aprendizaje disenados para RNAs, se basan

en la minimizacion del error de la funcion objetivo. Durante el aprendizaje, los

valores de los pesos son actualizados siguiendo una estrategia que tiende a reducir al

mınimo el error final del funcionamiento de la red, entre esos algoritmos uno de los

mas usados es el Algoritmo de Retropropagacion (Algoritmo de Backpropagation,

ABP), sin embargo, el mencionado algoritmo tiene algunas limitaciones que le

impiden alcanzar un nivel optimo de eficiencia. El aprendizaje tarda con frecuencia

un largo tiempo en converger y puede quedar facilmente atrapado en mınimos

locales sin lograr alcanzar el mınimo global [1, 2, 3]. Para resolver algunos de

los inconvenientes antes mencionados del ABP muchos investigadores desarrollan

continuamente modificaciones o variantes de este algoritmo. Una buena parte

de estas modificaciones tratan de resolver el problema de su lenta convergencia,

1

Page 25: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

1.1 Introduccion

mientras que otras se centran en conseguir una mejor generalizacion del mencionado

algoritmo. Sin embargo, en general ninguna de las modificaciones es capaz de

ofrecer un rendimiento satisfactorio para todos los problemas. La gran mayorıa de

estas modificaciones por lo general implican mas calculos y mas procesamiento por

iteracion ası como tambien requieren de la eleccion a priori de algunos parametros

adicionales [3]. Por estos motivos la busqueda de un enfoque para acelerar el proceso

de convergencia y/o para la mejora del rendimiento general del entrenamiento del

ABP continua siendo el centro de investigacion para muchos investigadores.

En esta tesis, propone y se desarrolla un modelo neuronal basado en la

propiedad biologica de la Metaplasticidad con la finalidad de mejorar los prob-

lemas de lentitud, convergencia y exactitud del ABP. La Metaplasticidad es un

concepto biologico ampliamente conocido en areas como: Biologıa, Fisiologıa,

Ciencia Medica, Neurologıa, Neurociencia y Psicologıa entre otros, y es motivo de

continuas investigaciones [4, 5, 6, 7, 8]. Una de las ventajas del modelo propuesto

de la Metaplasticidad Artificial (Artificial Metpalasticity, AMP) es que, se puede

implementar en cualquier RNAs, en esta tesis, se implementara en un Perceptron

Multicapa (Multilayers Perceptron, MLP). El modelo propuesto para este estudio a

partir de ahora se llamara Metaplasticidad Artificial en un Percentron Multicapa,

(Artificial Metaplasticity Multilayer on Perceptron, AMMLP).

El modelado de la AMP se realizara en la fase de entrenamiento de las RNAs.

De todos los modelos AMP probados en la literatura hasta ahora, el mas eficiente

desde el punto de vista del aprendizaje y el rendimiento es el que conecta la Meta-

plasticidad con la teorıa de la informacion de Shannon, es decir, que durante la

fase de entrenamiento, el algoritmo AMMLP dara mas relevancia a los patrones

menos frecuentes y sustraera importancia a los patrones mas frecuentes, aseguran-

do ası un entrenamiento mas eficaz, mientras se mantiene el rendimiento del MLP.

Recientemente, investigadores como Ropero-Pelaez [9], Andina y Marcano-Cedeno

[10, 11, 12] han introducido y modelado la propiedad biologica de la Metaplasticidad

en el campo de las RNA, obteniendo excelentes resultados.

2

Page 26: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

1.2 Antecedentes

1.2. Antecedentes

Como se comento anteriormente el Algoritmo de Retropropagacion (Algoritmo

de Backpropagation, ABP), para el entrenamiento de las Redes Neuronales Arti-

ficiales, RNAs, ha sido usado con exito en problemas reales para la clasificacion

de patrones en Medicina, Bioinformatica, Telecomunicaciones, Banca, Predicciones

Climatologicas, entre otros [10, 13, 14, 15]. Sin embargo a pesar del exito obtenido

este algoritmo tiene algunas dificultades. Debido a estas dificultades el algoritmo de

retropropagacion ha sido uno de los algoritmos que mas modificaciones ha sufrido

desde su creacion. Para esta investigacion se ha tenido que hacer una seleccion de

los algoritmos propuestos para mejorar al ABP del ano 1990-2010.

En 1990, Leonard & Kramer, desarrollaron un metodo basado en el Gradiente

Conjugado (Conjugate Gradient, CG), dicho metodo es una combinacion de lotes de

ejemplos y de busqueda lineal con el gradiente descendiente en la direccion conjuga-

da. Leonard & Kramer demostraron que el metodo del gradiente conjugado puede

ser visto con un ABP por lotes con ajuste dinamico de la tasa de aprendizaje y del

momento [16].

En 1991, Lee & Weidman, propusieron que para mejorar el entrenamiento de

las RNAs, necesariamente se debıa hacer uso de los Sistemas Expertos (Expert

Systems, ES). Lee & Weidman concluyeron que el uso de un sistema experto para

supervisar el entrenamiento es mucho mas eficiente que realizar un entrenamiento

de las RNAs per se [17]. Kim & Ra, formularon un algoritmo llamado Dynamic of

Decision Boundaries, DDB, para elegir los valores iniciales de los pesos, los cuales

son obtenidos de la regla del delta generalizada, con lo cual se mejora la estabilidad y

la velocidad del proceso de aprendizaje mediante la eliminacion de los efectos retraso

y convergencia del ABP [18].

En 1992, Scalero & Tepedelenlioglu, desarrollaron un algoritmo para mejorar el

ABP basado en la minimizacion del Error Cuadratico Medio, ECM (Mean Squared

Error, MSE) entre la salida deseada y la salida real con respecto a la suma de las

salidas (insumos para las no linealidades). Esto contrasta con el ABP estandar que

minimiza el error cuadratico medio con respecto a los pesos [19]. Karayiannis &

3

Page 27: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

1.2 Antecedentes

Venetsanopoulos, propusieron un criterio generalizado para el entrenamiento de las

Redes Neuronales Progresivas (Feed-forward Neuronal Network, FFNN) mono capa

y de multiples capas, basado en la regla del delta. Estos algoritmos fueron llamados

Efficient Learning Algorithms for Neural Networks, ELEANNE [20].

En 1993, Anand et al., analizaron el problema de la lenta convergencia del

ABP para problemas de dos clases con conjuntos de entrenamientos desbalanceados.

Anand et al., propusieron un algoritmo llamado Descent Vector, DV, que calcula un

vector de descenso, que apunta en una direccion de declive para ambas clases. Por lo

tanto, los errores de red, tanto para las clases dominantes y subordinadas disminuyen

por el movimiento de los pesos en la direccion del vector descendiente [21].

En 1994, Riedmiller et al., hizo una revision general de varios

algoritmos propuestos para mejorar el ABP. Todos los enfoques descritos en

ese artıculo hacen uso de alguna manera de la derivada de primer orden parcial

de cada uno de peso con respecto al error general de la red [22]. Chen & Jain,

propusieron un algoritmo llamado Robust BP Algorithm, RBPA. El RBBPA es

resistente a los efectos de ruido y es capaz de rechazar el grueso de los errores du-

rante el proceso de aproximacion. Segun Riedmiller et al., el mencionado algoritmo

presenta 3 claras ventajas sobre el ABP estandar: a) El RBBPA se aproxima a

una correlacion subyacente en vez de interpolar las muestras de entrenamiento, b)

es robusto frente a errores graves, c) la tasa de convergencia es mejorada ya que

suprime la influencia de las muestras incorrectas [23].

En 1995, Alpsan et al., hicieron un estudio comparativo de diferentes metodos

propuestos para mejorar el ABP aplicados a problemas medicos reales, basado en

metodos heurısticos y de optimizacion. Alpsan et al., concluyeron que ABP estandar

puede ser suficientemente rapido o puede tener una buena generalizacion dependien-

do del tipo de problema. En el caso particular de los problemas medicos se requiere

por su naturaleza, de una alta generalizacion con una tolerancia de error mınima,

para que el sistema sea lo mas confiable posible [24].

En 1996, Solomon & Van-Hemmen, propusieron un nuevo algoritmo genetico,

4

Page 28: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

1.2 Antecedentes

basado en la Auto-Adaptacion Dinamica (Dynamic Self-Adaptation, DS) para mejo-

rar y acelerar el aprendizaje del ABP. El algoritmo DS, toma el valor de la Tasa de

Aprendizaje (Learning Rate, LR) del paso previo, lo aumenta y disminuye ligera-

mente, evalua la funcion de coste para los nuevos valores de la tasa de aprendizaje,

y se elige el valor mas bajo para la funcion de coste [25]. Fu et al., presentaron un

nuevo metodo de aprendizaje incremental para reconocimientos de patrones, llama-

do Incremental Backpropagation Learning Network, IBPLN. El IBPLN emplea una

modificacion limitada de los pesos y una adaptacion estructural de las reglas de

aprendizaje, y aplica el conocimiento inicial para limitar el proceso de aprendizaje

[26].

En 1997, Magoulas et al., desarrollaron un metodo llamado Backpropagation

with Variable Stepsize, BPVS. El metodo BPVS se basa en una modificacion de-

terminista del Descenso mas Rapido (steepest descent, SD) que permite un tamano

de paso variable, como consecuencia de la minimizacion de la funcion objetivo y de

la observacion de la trayectoria en el espacio de pesos. Magoulas et al., obtuvieron

buenos resultados en diferentes tipos de problemas [27]. Yam et al., formularon un

enfoque novedoso basado en el metodo de Mınimos Cuadrados (Least Squares, LS)

para calcular los pesos iniciales optimos de las RNAs. Una vez determinados los

pesos iniciales optimos, el error inicial es sustancialmente menor y por lo tanto el

numero de iteraciones necesarias para alcanzar el criterio de error establecido se

reduce [28].

En 1998, Sexton et al., demostraron que las limitaciones impuestas por algunos

investigadores en el espacio de busqueda o la reestructuracion de la arquitectura

de las RNAs, son innecesarias sı se utiliza una arquitectura inicial suficientemente

compleja y un adecuado algoritmo de busqueda global. Sexton et al., utilizaron el Al-

goritmo Genetico (Genetic Algorithm, GA), a fin de lograr una mejor generalizacion

del ABP [29]. El mismo ano Sexton et al., presentaron otro algoritmo, y al igual que

en el artıculo anterior insisten en que los algoritmos basados en busqueda global son

los mejores para la optimizacion de las RNA. En esta oportunidad aplicaron una

version extendida del algoritmo Tabu Search, TS, como una posible alternativa a la

problematica del ABP [30].

5

Page 29: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

1.2 Antecedentes

En 1999, Kamarthi y Pittne, propusieron una mejora del ABP para entrenamien-

to de las redes feed-forward. Este nuevo metodo es conocido como Backpropaga-

tion by weight extrapolation, BPWE. El BPWE esta basado en el concepto de la

extrapolacion de pesos calculados por la red. Extrapolando los pesos, es posible

economizar en el numero de epocas requeridas para el aprendizaje del BP antes de

alcanzar un vector de peso aceptable [31]. Lehtokangas presento un metodo llamado

Constructive Backpropagation, CBP, este algoritmo esta inspirado en el aprendizaje

de Correlacion en Cascada (CC). El algoritmo CBP comienza con una red pequena

y luego se van agregando unidades ocultas y pesos hasta encontrar una solucion

satisfactoria [32]. Cho y Chow, formularon un algoritmo de aprendizaje global hıbri-

do, rapido y robusto, basado en el metodo de mınimos cuadrados y en el metodo de

busqueda con penalizacion (Least Squares and Penalty, LS-PEN). El metodo LS se

emplea para determinar los pesos conectados entre la capa de salida y la capa oculta.

El metodo de optimizacion conocido como penalizacion es utilizado para evaluar los

pesos de entre la capa oculta y la capa de entrada [33]. Ampazisa et al., propusieron

un modelo dinamico del sistema, que permite acelerar el aprendizaje, reduciendo al

mınimo el tiempo de entrenamiento gastado en la vecindad de los mınimos tempo-

rales. Para ello utilizaron metodos de optimizacion con restricciones que logran la

minimizacion simultanea de la funcion de coste y la maximizacion de lo valores mas

grandes de la matriz jacobiana, de tal manera que evita que la red pueda quedar en

un mınimo temporal y por lo tanto, el tiempo total de entrenamiento es reducido

significativamente [34].

En 2000, Yam & Chow, desarrollaron un algoritmo para determinar los pesos

iniciales optimos de las redes feedforward basado en la desigualdad de Cauchy y

un metodo algebraico lineal. En el caso de que el sistema este sobredeterminado,

usando la factorizacion QR se obtiene una solucion que es la mejor aproximacion en

el sentido de los mınimos cuadrados. En el caso de un sistema indeterminado. la fac-

torizacion QR calcula la solucion de norma mınima. Segun los autores este metodo

garantiza que los resultados de las neuronas se encuentran en la region activa y au-

menta la velocidad de convergencia [35]. Chaudhuri & Bhattacharya, propusieron un

metodo para acelerar la velocidad de convergencia del BPA, basado en una seleccion

inteligente de las muestras de entrenamiento. Este metodo de aceleracion no implica

ninguna modificacion del algoritmo de BP original. El mencionado metodo funciona

bien en los casos complicados, donde las clases no son facilmente separables, es decir

6

Page 30: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

1.2 Antecedentes

que, si las clases se superponen una con otra, un conjunto de entrenamiento formado

acorde con el metodo propuesto puede mejorar el rendimiento considerablemente de

un MLP [3].

En 2001, Lee et al., propusieron un metodo alternativo al gradiente descendiente

llamado Error Saturation Prevention, ESP, para prevenir el Error de Saturacion

(ES) en los nodos de la capa de salida, tambien aplicaron este metodo a los nodos

de las capas ocultas para ajustar los terminos de aprendizaje. El ESP, mejora la

eficiencia del aprendizaje y ademas mantiene el significado semantico de la funcion

de MSE utilizada para justificar la evaluacion de criterio de error [36].

En 2002, Mandische, propuso un metodo aprendizaje evolutivo a traves de Es-

trategias de Evolucion (Evolution Strategies, ES) como una alternativa a las tecni-

cas basadas en el gradiente para el entrenamiento de las RNA. Una ventaja de este

algoritmo sobre gradiente es que puede ser utilizado en redes con funciones de ac-

tivacion diferenciable [37]. Hoo et al., propusieron utilizar la informacion obtenida

del First-Principle Model, F-PM, para dar un sentido de “direccion” a la estimacion

del modelo de la RNA. Esto se logra mediante la modificacion de la funcion objetivo

a fin de incluir un termino adicional que es la diferencia entre la derivada de los

resultados, estimado por la red neuronal, y la de las salidas del modelo de primer

principio durante la fase de entrenamiento [38].

En 2003, Eom et al., propusieron metodo llamado Fuzzy General Backpropaga-

tion, FGBP, para mejorar el el rendimiento del ABP mediante un sistema de logica

difusa que de manera automatica ajusta el parametro de ganancia de la funcion de

activacion, basado en un conjunto de reglas heurısticas del dominio del problema

determinado a traves del estudio de una simulacion preliminar [39]. Zweiri et al.,

a los parametros tradicionales de la tasa de aprendizaje y al factor de momentum

anadieron un nuevo parametro, llamado Factor Proporcional (Proportional Factor,

PF). A este algoritmo con tres parametros lo llamaron algoritmo de BP de tres

terminos (three-term BP algorithm). El mencionado algoritmo es mas robusto a la

eleccion de pesos iniciales, especialmente cuando se seleccionan los valores relativa-

mente altos para los parametros de aprendizaje, ademas este algoritmo es aplicable

a cualquier red con diferentes funciones de activacion [40].

7

Page 31: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

1.2 Antecedentes

En 2004, Abraham, formulo un algoritmo basado en los Algoritmos Evolutivos,

llamado Meta-Learning Evolutionary Artificial Neural Network, MLEANN, para la

optimizacion adaptativa de las RNA, donde la arquitectura, la funcion de activacion,

los pesos de las conexiones, el algoritmo de aprendizaje y sus parametros se adaptan

de acuerdo con el problema [41]. Wang et al., propusieron un algoritmo en que cada

patron de entrenamiento tiene sus propias funciones de activacion de las neuronas

en la capa oculta. Las funciones de activacion se ajustan por la adaptacion de los

parametros de ganancia durante el proceso de aprendizaje. Estos ajustes se hacen

con el fin de evitar que la red quede atrapada en un mınimo local causado por la

saturacion de las neuronas en la capa oculta. [42]. Mohammad y Pavesie, formularon

una mejora del ABP tradicional llamado Backpropagation with selective training,

BST y lo aplicaron al entrenamiento de una Red de Funcion de Base Radial (Radial

Basis Function Networks, RBFN) mejorando el rendimiento de la red RBF sustan-

cialmente, en terminos de velocidad de convergencia y el error de reconocimiento.

Ademas el BST resuelve tres problemas del ABP: el sobreentrenamiento, la con-

vergencia lenta al final del entrenamiento, y la incapacidad de aprender con un

porcentaje pequeno de patrones [43].

En 2005, Pernıa-Espinoza et al., propusieron un algoritmo para mejorar el entre-

namiento del ABP llamado TAO-Robust Backpropagation Learning Algorithm. El

mencionado algoritmo utiliza un estimador de escala, que es variable y depende de

una funcion Huber de los errores obtenidos en cada epoca. Ademas, con este enfoque

se consigue dos propiedades importantes: la robustez frente a valores extremos de

la data con un punto de ruptura elevada y una alta eficiencia en el modelo normal

[44].

En 2006, Steil, propuso un algoritmo llamado Backpropagation-Decorrelation,

BPDC, para probar y supervisar la estabilidad para grandes redes donde solo la

capa de salida es adaptada. El BPDC combina tres principios basicos: (i) un paso de

retropropagacion de los errores, (ii) el uso de la memoria temporal en la dinamica

se adapta basada en decorrelacion de las activaciones, and (iii) el empleo de una

reserva de neuronas interior que son no adaptativas para reducir la complejidad

[45]. Behera et al., formularon dos nuevos algoritmos de aprendizaje LF I y LF II

para la actualizacion de los pesos de las redes feedforward basados en la funcion

8

Page 32: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

1.2 Antecedentes

de Lyapunov. La contribucion clave de esa investigacion fue mostrar el paralelismo

existente entre los algoritmos propuestos LF I y II y ABP. Se demuestra que los

algoritmos propuestos tienen la misma estructura que el ABP con la diferencia de

que la tasa de aprendizaje en el ABP es fijo y en los algoritmos se sustituye por una

tasa de aprendizaje adaptativo. [46].

En 2007, Wang et al., propusieron un modelo interactivo para mejorar el

rendimiento del aprendizaje de ABP. El modelo combina con exito una nueva tecnica

de ajustar la tasa de aprendizaje llamada Individual Inference Adjusting Learning

Rate technique, IIALR y una nueva manera de actualizar la frecuencia de los pesos,

llamada The Batch mode of weight updating frequency, BOWUF[47].

En 2008, Khashman, presento una modificacion del algoritmo de aprendizaje del

BP, llamado Backpropagation Emocional, EmBP. El algoritmo EmBP, esta basado

en dos emociones que el autor considera que pueden afectar al aprendizaje, como lo es

la ansiedad y la confianza. Cuando se aprende una nueva tarea, el nivel de ansiedad es

alto al principio y el nivel de confianza es baja. Despues de un tiempo, la practica y la

retroalimentacion positiva, el nivel de ansiedad disminuye mientras aumenta el nivel

de confianza. Por lo tanto el EmBP tiene “pesos emocionales” que son actualizando

usando los dos parametros emocionales mencionados anteriormente [48]. Yang et al.,

propusieron que el rango de los valores iniciales de los pesos cuando se entrena un

algoritmo de BP con Division-Compleja (Split-Complex Backpropagation, SCBP)

deberıa ser mayor que el de las cantidades de ajuste. Aplicando este criterio se puede

reducir el desajuste de los pesos y de las bıas durante el entrenamiento, ademas

evita la dependencia del rendimiento del SCBP relacionada con los pesos iniciales

[49]. Zhang et al., para mejorar la eficiencia de las tradicionales redes feed-forward

propusieron un algoritmo llamado Product Unit Neural Networks with Exponential

Weights, PUNNs [50]. Silva et al., formularon una nueva funcion de error EExp ,

inspirada en el Error Density at the Origin, Z-EDM, que es capaz de simular el

comportamiento de otras funciones de error por el ajuste de un solo parametro con

valores reales [51]. Soliman & Mohamed, propusieron una version modificada de

BP sobre la base de la multiplicacion de matrices para el procesamiento parallelo.

Para ello implementaron la Matrix BackPropagation, MBP usando un conjunto de

arquitecturas de instrucciones de matriz (matrix Instruction Set Architectures, ISAs)

9

Page 33: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

1.2 Antecedentes

escalar y un conjunto de arquitecturas de instrucciones de matriz vectorial [52].

En 2009, Cheng & Park, desarrollaron un algoritmo para mejorar el rendimien-

to del ABP, llamado Learning Phase Evaluation Backpropagation neural network,

LPEBP. El LPEBP divide el proceso de entrenamiento en muchas fases de apren-

dizaje y evalua los efectos despues de cada fase de aprendizaje. Ademas aplicaron

la tecnica de Descomposicion del Valor Singular (Singular Value Decomposition,

SVD) para reducir la dimension y las construccion semantica de los terminos [53].

Kathirvalavakumar & Jeyaseeli, presentaron un algoritmo de entrenamiento (Algo-

rithm Neighborhood Modified Backpropagation, ANMBP) para RNAs con una capa

oculta, basado en la vecindad de la estructura de la red, para sustituir los paramet-

ros de aprendizaje fijos con parametros de aprendizaje adaptativo. El ANMBP es

eficiente en terminos del error de entrenamiento, de la memoria y en el tiempo de

entrenamiento [54]. Bai et al., formularon un algoritmo para mejorar el ABP, lla-

mado BP algorithm with varying slope of activation function, BPAVSAF, basado

en la variacion de la pendiente de la funcion de activacion con diferentes tasas de

aprendizaje. Los resultados obtenidos demuestran que el ABP clasico puede obtener

un buen rendimiento tanto en la fase de entrenamiento como en la de test con solo

el ajuste de dos diferentes tasa de aprendizaje y un parametro de la pendiente de la

funcion de activacion de la salida [55].

Finalmente en 2010, Sun, formulo un algoritmo llamado Local Coupled Feed-

forward Neural Network, LCFNN, donde a cada nodo oculto se asigna una direccion

en el espacio de entrada, y cada entrada activa solo los nodos cercanos a el. Ademas

la dimensionalidad de busqueda en el espacio durante el entrenamiento del LCFNN

no aumenta con el incremento del tamano de la red y el coste de calculo de cada

muestra de aprendizaje en el entrenamiento y en el proceso de trabajo del LCFNN

no aumenta con el incremento del tamano de la red [56].

Para resumir, en la Tabla 1.1 se presentan todos los algoritmos propuestos para

mejorar el ABP, con sus autores, el ano y el nombre de la publicacion en el perıodo

1990-2000. En la tabla 1.2. se presenta la misma informacion, pero del perıodo

2001-2010.

10

Page 34: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

1.2 Antecedentes

Autor(s), Ano Metodo Publicacion

Leonard & Kramer, 1990 CG Computers & Chemical Engineering.

Lee & Weidman, 1991 SE Expert Systems with Applications.

Kim & Ra, 1991 DDB IEEE, IJCNN-91.

Scalero & Tepedelenlioglu, 1992 FBPA Signal Processing, IEEE Transactions on.

Karayiannis & Venetsanopoulos, 1992 ELEANNE Circuits and Systems II: Analog and Digital

Signal Processing, IEEE Transactions on.

Anand et al., 1993 VD Signal Processing, IEEE Transactions on.

Riedmiller et al., 1994 Review Computer Standards & Interfaces.

Alpsan et al., 1995 Diferentes Tecnicas Neural Networks.

Solomon & van-Hemmen, 1996 DS Neural Networks.

Fu et al., 1996 IBPLN Signal Processing, IEEE Transactions on.

Magoulas et al., 1997 BPVS Neural Networks.

Yam et al., 1997 LS Neurocomputing.

Sexton et al., 1998 GA Decision Support Systems.

Sexton et al., 1998 TS European Journal of Operational Research.

Kamarthi & Pittne, 1999 BPWE Neural Networks.

Lehtokangas, 1999 CBP Neural Networks.

Cho & Chow, 1999 LS-PEN Neurocomputing.

Ampazisa et al., 1999 Sistema dinamico Neural Networks.

Yam & Chow, 2000 Cauchy’s - LA method Neurocomputing.

Chaudhuri & Bhattacharya, 2000 STS Neurocomputing.

Tabla 1.1: Algoritmos propuestos para mejorar el ABP entre los anos 1990-2000.

11

Page 35: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

1.2 Antecedentes

Autor(s), Ano Metodo Publicacion

Lee et al., 2001 ESP Neurocomputing.

Mandische, 2002 ES Neurocomputing.

Hoo et al., 2002 F-PM Journal of Process Control.

Eom et al., 2003 FGBP Neurocomputing.

Zweiri et al., 2003 PF Neurocomputing.

Abraham, 2004 MLEANN Neurocomputing.

Wang et al., 2004 IAF Neurocomputing.

Mohammad & Pavesie, 2004 BST Neurocomputing.

Pernıa-Espinoza et al., 2005 TAO-RBLA Neural Networks.

Steil, 2006 BPDC Neurocomputing.

Behera et al., 2006 LF I-II Signal Processing, IEEE Transactions on.

Wang et al., 2007 IIALR-BOWUF Automation in Construction.

Khashman, 2008 EmBP Signal Processing, IEEE Transactions on.

Yang et al., 2008 SCBP Signal Processing, IEEE Transactions on.

Zhang et al., 2008 PUNNs Neurocomputing.

Silva et al., 2008 Z-EDM Neural Networks.

Soliman & Mohamed, 2008 MBP Journal of Parallel and Distributed Computing.

Cheng & Park, 2009 LPEBP Expert Systems with Applications.

Kathirvalavakumar & Jeyaseeli, 2009 ANMBP Neurocomputing.

Bai et al., 2009 BPAVSAF Chaos, Solitons & Fractals.

Sun, 2010 LCFNN Neural Networks.

Tabla 1.2: Algoritmos propuestos para mejorar el ABP entre los anos 2001-2010.

12

Page 36: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

1.3 Motivacion

1.3. Motivacion

La principal motivacion de esta investigacion es mejorar los problemas de lenti-

tud, convergencia y de exactitud en la clasificacion del Algoritmo de Retropropa-

gacion (Algoritmo de Backpropagation, ABP). Los inconvenientes del mencionado

algoritmo han dado lugar a un gran numero de investigaciones tratando de super-

ar estos problemas. Las investigaciones realizadas hasta los momentos se podrıan

organizar en dos categorıas.

La primera categorıa incluye el desarrollo de tecnicas heurısticas, basadas en

el estudio de las propiedades de rendimiento distintivas del ABP en general.

Estas tecnicas heurısticas incluyen ideas tales como la variacion de la tasa

de aprendizaje, usando momentum, el ajuste de la ganancia de la funcion de

activacion, y la optimizacion de la topologıa de la red neuronal.

La otra categorıa de investigacion ha usado, aplicado y desarrollado algoritmos

de optimizacion cada vez mas sofisticados, basados en tecnicas estandar de

optimizacion numerica para mejorar el aprendizaje del ABP.

Sin embargo, a pesar de todas las modificaciones y mejoras propuestas para

el ABP, todavıa no existe una solucion optima, que se pueda aplicar a todos los

problemas. En esta Tesis Doctoral se propone una alternativa para mejorar algunas

de estas deficiencias.

El algoritmo propuesto, esta basado en la Metaplasticidad Artificial y es aplica-

do a un Perceptron Multicapa (AMMLP). Estamos conciente de que el algoritmo

propuesto AMMLP, no resolvera por completo las limitaciones antes mencionadas

del ABP, pero si estamos convencidos de que sera un alternativa muy interesante,

facil de implementar y de aplicar, que reducira el tiempo de computo y el numero de

iteraciones durante la fase de entrenamiento, con lo que conseguira un entrenamiento

mucho mas eficiente y con muy alto nivel de exactitud en la clasificacion.

La segunda motivacion es aplicar y verificar la utilidad practica del algoritmo

propuesto de la Metaplasticidad Artificial en un Perceptron Multicapas (AMMLP).

En este sentido el AMMLP se utilizara para la clasificacion de objetos en senales en

1-D y 2-D y para ello se usara bases de datos estandar de diferentes ambitos que

permitan comprobar el rendimiento, la rapidez de convergencia y la exactitud del

algoritmo propuesto.

13

Page 37: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

1.4 Objetivos

1.4. Objetivos

1.4.1. Objetivo General

Aplicar y optimizar el algoritmo basado en la Metaplasticidad Artificial en un

Perceptron Multicapa (AMMLP) para la clasificacion de objetos en senales 1-D y 2-

D. Mejorar la lentitud y convergencia del Algoritmo de Retropropagacion, y ademas

obtener un alto nivel de exactitud en la clasificacion.

1.4.2. Objetivos Especıficos

Seguidamente se indican los objetivos especıficos que se formularon para esta

investigacion y que sustentan esta tesis.

1. Definir la metaplasticidad biologica. Relacionar la metaplasticidad con la plas-

ticidad, la plasticidad intrınseca, la memoria y el aprendizaje.

2. Explicar e implementar el modelo neuronal basado de la Metaplasticidad Ar-

tificial en un Perceptron Multicapas (AMMLP).

3. Optimizar en la medida de lo posible los parametros relacionados el modelo de

la Metaplasticidad Artificial propuesto, con la finalidad de hacer mas eficiente

el mencionado algoritmo.

4. Aplicar la Metaplasticidad Artificial a diferentes problemas de alto impacto

relacionados con la clasificacion de patrones, para comprobar el rendimiento y

la exactitud en la clasificacion del algoritmo AMMLP.

5. Comparar las prestaciones del modelo neuronal basado en la Metaplasticidad

para la clasificacion de objetos en senales 1-D y 2-D con el Algoritmo de

Retropropagacion tradicional y con otros algoritmos aplicados recientemente

a los mismos problemas.

14

Page 38: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

1.5 Estructura de la Tesis

1.5. Estructura de la Tesis

Se ofrece a continuacion un pequeno resumen de lo que se discutira en cada

uno de los 8 capıtulos, incluido este que conforman este trabajo. Los primeros 4

capıtulos tienen caracter teorico e informativo y los restantes presentan un enfoque

practico del metodo propuesto.

En el presente Capıtulo 1, se hace una pequena introduccion del tema a

tratar, se presentan los objetivos que se consideraron para la elaboracion de

la presente investigacion, ası como se justifica la idoneidad de este estudio,

ademas se muestra el estado del arte de esta investigacion.

En el Capıtulo 2 se presenta una introduccion general a las Redes Neuronales

Biologicas y Artificiales, se definen ambas redes, se mencionan las diferentes

tipos de redes neuronales artificiales, los aprendizajes y las arquitecturas bajo

las cuales funcionan las mencionadas redes.

En el Capıtulo 3 se describira en detalle el Perceptron Monocapa y

Multicapa, debido a que el modelo propuesto de la Metaplasticidad Artificial

se implementara en un Perceptron Multicapa. De tal manera que veremos sus

caracterısticas, limitaciones y el algoritmo tıpico usado para entrenar a este

tipo de red (Algoritmo de Retropropagacion).

En el Capıtulo 4 se explicara la propiedad biologica de la Metaplas-

ticidad, conceptos, funciones, mecanismos que la generan. Tambien se

definiran y explicaran otras propiedades biologicas que estan relacionadas

con la Metaplasticidad, como por ejemplo la Plasticidad y la Plasticidad

Intrınseca que permitira entender mejor la Metaplasticidad biologica y

ademas facilitara comprender el modelo neuronal basado en la Metaplasti-

cidad Artificial en un Perceptron Multicapa (AMMLP) propuesto es esta tesis.

15

Page 39: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

1.5 Estructura de la Tesis

Los capıtulos anteriores son basicamente la formalizacion de conceptos e ideas

que permitiran comprender los siguientes capıtulos. Los capıtulos que se describen

a continuacion constituyen el aporte original de esta tesis:

En el Capıtulo 5 se presenta el modelo propuesto de la Metaplasticidad

Artificial, se muestra la relacion existente entre la metaplasticidad artificial y

la teorıa de la informacion de Shannon, se plantea la sustentacion matematica

del modelo, se implementa el modelo AMMLP, se describe el algoritmo

AMMLP, ası como tambien se presenta la seleccion de la mejor estructura de

red neuronal para el modelo propuesto.

En el Capıtulo 6 se presentan los experimentos y los resultados obtenidos

utilizando el AMMLP descrito en el capıtulo anterior. El AMMLP se ha

aplicado a cinco diferentes problemas de alto impacto en areas como la

Medica, Finanzas e Industrial y que estan relacionados con la clasificacion de

patrones.

En el Capıtulo 7 se presentan las principales conclusiones originadas de los

aportes realizados y de los resultados experimentales obtenidos, y una breve

discusion de los mismos

En el Capıtulo 8 se presentan las contribuciones originales de esta tesis,

ası como tambien se presenta una lista detallada de las lıneas futuras de

investigacion que se derivan a partir de los trabajos que se han desarrollando

y descrito en esta tesis.

16

Page 40: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Capıtulo 2

Redes Neuronales Artificiales

El cerebro es un procesador de informacion con unas caracterısticas muy

notables: es capaz de procesar a gran velocidad grandes cantidades de informacion

procedentes de los sentidos, combinarla o compararla con la informacion almacenada

y dar respuestas adecuadas incluso en situaciones nuevas. Dentro de todas las

capacidades del cerebro humano la mas impresionante de todas ellas es su capacidad

de aprender a representar la informacion necesaria para desarrollar el resto de sus

actividades propias sin instrucciones explıcitas para ello.

Aunque todavıa se ignora mucho sobre la forma en que el cerebro aprende a

procesar la informacion, se han desarrollado modelos que tratan de imitar este

proceso. Estos modelos reciben el nombre de Redes Neuronales Artificiales, RNA

(Artificial Neural Network, ANN). En la siguiente subseccion (2.0.1) se hablara de

las neuronas biologicas y luego, en forma amplia y detallada de las RNA (subseccion

2.0.2).

2.1. Neuronas Biologicas

Como la neurona biologica, es la celula basica del sistema nervioso, se

analizara brevemente su funcionamiento para comprender el de las neuronas ar-

tificiales y la analogıa entre las RNAs y redes biologicas.

17

Page 41: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

2.1 Neuronas Biologicas

El cerebro humano continuamente recibe senales de entrada de muchas fuentes

y las procesa a manera de crear una apropiada respuesta de salida. Nuestros

cerebros cuentan con millones de neuronas que se interconectan para elaborar

“Redes Neuronales”. Estas redes ejecutan los millones de instrucciones necesarias

para mantener una vida normal.

La investigacion detallada de la estructura interna de las celulas nerviosas,

especialmente despues de la invencion del microscopio electronico, ha revelado que

todas las neuronas estan constituidas por las mismas partes basicas, independiente-

mente de su tamano y forma. Estas neuronas tienen tres componentes principales,

las dendritas, el cuerpo de la celula o soma, y el axon, en la Figura 2.1 se puede

apreciar la estructura basica de una neurona biologica.

Nucleo

Cuerpo celularo soma

Axon

Terminaldel Axon

Dendrita

Sinapsis

Figura 2.1: Estructura basica de una neurona biologica.

Las dendritas forman una estructura de filamentos muy fina que rodea el cuerpo

de la neurona. El axon es un tubo largo y delgado que se ramifica en su extremo

en pequenos bulbos finales que casi tocan las dendritas de las celulas vecinas. Del

extremo del axon nacen otras ramificaciones, mediante las cuales la neurona se

comunica con otras neuronas, produciendose la sinapsis. Las neuronas, a traves de

sus dendritas y axon, reciben senales electricas, pequenos impulsos provenientes de

otras neuronas o de ellas mismas si son neuronas externas. Esta integra de alguna

18

Page 42: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

2.1 Neuronas Biologicas

forma todas las senales que le llegan, y puede excitarse, provocando un impulso que

le sera transmitido a otras neuronas, o inhibirse, lo que atenuara el impulso recibido

o simplemente lo anulara. La neurona recibe entonces a cada instante senales tanto

inhibidoras como excitadoras, provenientes de todas sus sinapsis. La integracion

de los efectos excitadores con los inhibidores (podrıa entenderse como la suma de

sus entradas) determina si la neurona sera o no estimulada, es decir, si emitira un

impulso, o un tren de ellos, a que velocidad, o si no lo emitira.

El aprendizaje se basa en las relaciones entre millones de neuronas del cerebro.

Una vez que van conociendo hechos, las neuronas van relacionandose entre sı a

traves de sus sinapsis, haciendose estas inhibidoras o excitadoras de acuerdo con

el estımulo determinado, y produciendo entonces respuestas frente a determinados

hechos o situaciones. Van “conociendo” hechos porque, ante una determinada

situacion, son ciertas neuronas externas las que reciben el primer estımulo, las que

de acuerdo con la fuerza y localizacion de este, se activaran o no, comenzando

una larga cadena absolutamente relacionada entre millones de neuronas, las que

llegaran al cerebro para producir una determinada respuesta. Si las neuronas

externas que recibieron el primer estımulo son otras, su contacto con la segunda

“capa” de neuronas sera diferente a la respuesta anterior, o bien si la intensidad de

la excitacion fue distinta, produciran diferentes reacciones.

Algunas de las estructuras neuronales son determinadas en el nacimiento, otra

parte es desarrollada a traves del aprendizaje, proceso en que nuevas conexiones

neuronales son realizadas y otras se pierden por completo.

Esto quiere decir que, las estructuras neuronales van cambiando durante toda

la vida, estos cambios consisten en el refuerzo o debilitamiento de las uniones

sinapticas. De la sinapsis, de sus procesos, funcionamiento, de su relacion con el

aprendizaje y de su vinculacion con la Metaplasticidad se hablara con detenimiento

en el Capıtulo 4 de esta tesis.

19

Page 43: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

2.2 Redes Neuronales Artificiales

2.2. Redes Neuronales Artificiales

2.2.1. Definicion de Red Neuronal

Darpa, define una red neuronal como un sistema compuesto de muchos elementos

simples de procesamiento los cuales operan en paralelo y cuya funcion es determinada

por la estructura de la red, el peso de las conexiones; realizandose el procesamiento

en cada uno de los nodos o elementos de computo [57].

Segun Haykin, una red neuronal es un procesador paralelo masivamente dis-

tribuido que tiene una facilidad natural para el almacenamiento de conocimiento

obtenido de la experiencia para luego hacerlo utilizable. Se parece al cerebro en dos

aspectos [2]:

1. El conocimiento es obtenido por la red a traves de un proceso de aprendizaje.

2. Las conexiones interneuronales conocidas como pesos sinapticos son utilizadas

para almacenar dicho conocimiento.

Kohonen, las define como redes de elementos simples (usualmente adaptativos)

masivamente interconectados en paralelo y con organizacion jerarquica, las cuales

intentan interactuar con los objetos del mundo real del mismo modo que lo hace el

sistema nervioso biologico [58].

En sıntesis se puede considerar que una Red Neuronal Artificial es un sistema de

procesamiento de informacion que tiene ciertas caracterısticas de comportamiento

en comun con las redes neuronales biologicas. Las redes neuronales artificiales han

sido desarrolladas como generalizaciones de modelos matematicos del conocimiento

humano o de la biologıa neuronal, con base en los siguientes aspectos:

1. El procesamiento de informacion se realiza en muchos elementos simples lla-

mados neuronas.

2. Las senales son pasadas entre neuronas a traves de enlaces de conexion.

3. Cada enlace de conexion tiene un peso asociado, el cual, en una red neuronal

tıpica, multiplica la senal transmitida.

20

Page 44: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

2.2 Redes Neuronales Artificiales

4. Cada neurona aplica una funcion de activacion (usualmente no lineal) a las

entradas de la red (suma de las senales de entrada pesadas) para determinar

su senal de salida.

Las RNAs han sido aplicadas en un gran numero de problemas reales de com-

plejidad considerable. Su mas importante ventaja es la de resolver problemas que

son muy complejos para tecnologıas convencionales, problemas que no tienen una

solucion determinıstica o para los cuales una solucion de este tipo es muy complicado

encontrarla. En general, por ser una abstraccion del cerebro biologico, las RNAs son

buenas para resolver aquellos problemas que las personas solucionan adecuadamente,

pero que los computadores no. Estos problemas, entre otros, incluyen reconocimien-

to de patrones y problemas de pronostico (los cuales requieren el reconocimiento de

una tendencia en unos datos).

2.2.2. La Neurona Artificial

Basandose en la descripcion que la neurociencia hace del funcionamiento de las

neuronas biologicas, se pasa a intentar simular el comportamiento de esta unidad

basica de proceso de informacion. Ası tenemos que las unidades basicas de las

RNA son las neuronas artificiales. Aunque hay varios tipos de neuronas diferentes,

la mas comun es la de tipo McCulloch-Pitts. En la Figura 2.2 puede verse una

representacion de la misma.

NEURONA i

axón f ( )

cuerpo celular

Salida

sinapsis

W i1

W ij

W i2

W in

dendritas umbral

Entradas

X j

X n

X 1

X 2 y

i

-1

y = f ( W X - ) ij i i

i

i

Figura 2.2: Representacion de una neurona artificial tipo McCulloch-Pitts.

21

Page 45: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

2.2 Redes Neuronales Artificiales

Una neurona artificial es un procesador elemental, en el sentido de que procesa

un vector x(x1, x2, ...xN ), (x ∈ Rn) de entradas y produce un respuesta o salida

unica. Los elementos clave de una neurona artificial los podemos ver en la figura

anterior y son los siguientes:

Las entradas que reciben los datos de otras neuronas. En una neurona biologica

corresponderıan a las dendritas. Aquı las senales electricas se convierten en

valores numericos (las componentes del vector x).

Los pesos sinapticos wij ∈ R. Al igual que en una neurona biologica se es-

tablecen sinapsis entre las dendritas de una neurona y el axon de otra, en una

neurona artificial a las entradas que vienen de otras neuronas se les asigna

un peso, un factor de importancia. Este peso, que es un numero, se modifica

durante el entrenamiento de la red neuronal, y es aquı por, tanto, donde se

almacena la informacion que hara que la red sirva para un proposito u otro.

Una regla de propagacion. Con esas entradas y los pesos sinapticos, se suele

hacer algun tipo de operacion para obtener el valor del potencial postsinaptico

(valor que es funcion de las entradas y los pesos y que es el que se utiliza en

ultimo termino para realizar el procesamiento). Una de las operaciones mas

comunes es sumar las entradas, pero teniendo en cuenta la importancia de

cada una (el peso sinaptico asociado a cada entrada). Es lo que se llama suma

ponderada, aunque otras operaciones tambien son posibles.

hi = (t) =∑

j

wijxj (2.1)

donde xj es el valor de la j-enesima entrada (input), wij son los pesos

asignados a la conexion de las neuronas, j e i y hi es la salida de la neurona i.

Una funcion de activacion. El valor obtenido con la regla de propagacion, se fil-

tra a traves de una funcion conocida como funcion de activacion y es la que nos

da la salida de la neurona. Segun para lo que se desee entrenar la red neuronal,

se suele escoger una funcion de activacion u otra en ciertas neuronas de la

red. En la Tabla 1.1 se muestran las funciones de activacion mas usuales [2, 59].

22

Page 46: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

2.2 Redes Neuronales Artificiales

Funcion Rango Grafica

Identidady = x [−∞,+∞]

x

f(x)

Escalony = sig(x) −1,+1

y = H(x) −0,+1

x

f(x)

Lineal a Tramosy =

−1 si x > −lx si l ≤ x ≤ −l+1 si x > +l

[−1,+1]x

f(x)

+1 -1

Sigmoideay = 1

1+e−x [0,+1]

y = tgh (x) [−1,+1]

x

f(x)

Gaussianay = Ae−Bx

2[0,+1]

x

f(x)

Sinusoidaly = Asen(ωx+ ϕ) [−1,+1]

x

f(x)

Tabla 2.1: Funciones de activacion.

En muchas ocasiones la razon para la aplicacion de una funcion de activacion

distinta de la identidad surge de la necesidad de que las neuronas produzcan una

salida acotada. Esto desde un punto de vista de similitud con el sistema biologico,

no es tan descabellado, ya que las respuestas de las neuronas biologicas estan

acotadas en amplitud. Ademas cada neurona tiene asociado un numero denominado

bias o umbral, que puede verse como un numero que indica a partir de que valor del

potencial postsinaptico la neurona produce una salida significativa. Este termino

θ ∈ R es anadido a la suma ponderada que posteriormente se transforma en la

23

Page 47: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

2.2 Redes Neuronales Artificiales

funcion de activacion, es decir, se interpreta como una entrada mas de la neurona.

y = f

(

N−1∑

i=0

wixi − θ

)

= f

(

N∑

i=0

)

wixi (2.2)

donde y es la salida de la red, f es la funcion de activacion, N, es el numero de

componentes del vector de entrada, wi, es el peso (weights) de la conexion entre la

i-esima entrada y la neurona, xi, es el valor de la i-esima entrada (input), y θ, es el

valor umbral (threshold).

La caracterıstica mas importante de las redes neuronales artificiales, es la

capacidad que tienen estas unidades de procesamiento simple para aprender y

retener la informacion de su entorno. El aprendizaje en las RNA se discute en la

proxima subseccion (2.0.3.).

2.2.3. Aprendizaje de las Redes Neuronales Artificiales

La propiedad mas importante del sistema nervioso es su capacidad de aprender

de su entorno y mejorar ası su rendimiento. En el contexto de aprendizaje en redes

neuronales artificiales, el aprendizaje puede definirse como: “Un proceso mediante

el cual los parametros libres de una red neuronal se han adaptado a traves de

un proceso de simulacion al medio ambiente en el que se inserta la red” [60]. Del

mismo modo, una RNA tambien posee esta importante funcion. Con la ayuda de

un procedimiento de aprendizaje, la RNA puede extraer y almacenar la informacion

de los datos puestos a disposicion de la red. La informacion extraıda se almacena

en la red a traves de los pesos de conexion, y puede ser recuperado para su uso futuro.

Una regla de aprendizaje define exactamente como los pesos de la red deben

ser ajustados (actualizados) entre los sucesivos ciclos (epocas) de entrenamiento

de acuerdo con el entorno en que se encuentra la red. El aprendizaje de las RNAs

puede ser supervisado o no supervisado.

El aprendizaje en las RNAs con un profesor (Aprendizaje Supervisado), o

sin un profesor (Aprendizaje no Supervisado). En el aprendizaje supervisado a

24

Page 48: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

2.2 Redes Neuronales Artificiales

la red se presentan un conjunto de ejemplos de patrones de entrada junto a los

patrones de salida deseados (targets) para cada patron de entrada. Basado en la

salida para un ejemplo dado, el profesor especificara una salida deseada que se

espera que la red produzca. La diferencia entre la salida real y la salida deseada se

llama senal de error (error signal). El objetivo del procedimiento de entrenamiento

es modificar los parametros de red de tal forma que la red produzca una salida

que sea lo mas cercana posible a la salida deseada, reduciendo ası el error. La

modificacion esta basada tanto en la senal de entrada como en la senal de error [2, 61].

Para el aprendizaje no supervisado, los ejemplos presentados no estan eti-

quetados y el aprendizaje se realiza sin ninguna supervision externa, es decir, no

se le indica a la red que resultados debe dar, sino que se le deja seguir alguna

regla de auto-organizacion. Hay dos modalidades en esta forma de aprendizaje,

el Aprendizaje Auto-organizado (Self-organising Learning) y el Aprendizaje por

Refuerzo (Reinforcement Learning).

En el Aprendizaje Auto-organizado los parametros de la red sufren un cambio

de acuerdo con sus normas de aprendizaje sin ningun tipo de supervision.

Las modificaciones de los parametros de red se llevan a cabo de tal manera

que la red detecta automaticamente por sı misma cualquier patron posible-

mente existente, como regularidades, que le permitan luego separarlos por

propiedades, etc.

Mientras que en el Aprendizaje de Refuerzo, a pesar de estar dentro de la

categorıa de aprendizaje no supervisado, puede ser considerado como un caso

especial de aprendizaje supervisado por el uso de un crıtico para controlar el

aprendizaje, es decir, en este caso existe un supervisor que se limita a indicar

si la salida ofrecida por la red es correcta o incorrecta, pero no indica que

respuesta debe dar la red [62].

Los aprendizajes supervisados y no supervisados se conocen como paradigmas

de aprendizaje. En ambos modelos las modificaciones a los parametros de red se

realizan a traves de normas de aprendizaje e indican como se modifican los pesos

de las conexiones en funcion de los datos usados en la entrada, es decir, dependen

25

Page 49: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

2.2 Redes Neuronales Artificiales

del historial de aprendizaje de la red. Existen cinco reglas o normas basicas de

aprendizaje mencionados en la literatura. Estos aprendizajes son: Aprendizaje de

Correccion de Errores, Aprendizaje basado en Memoria, Aprendizaje de Hebb,

Aprendizaje Competitivo y el Aprendizaje de Boltman [2, 63]. A continuacion se

explicara en que consiste cada uno de estos aprendizajes.

Aprendizaje de Correccion del Error (Error-correction Learning, ECL),

como su nombre indica, trata de corregir un error de estimacion. Para una

muestra de entrenamiento particular, se considera la diferencia entre la salida

real de la red y una salida deseada como el error. Por ejemplo, entre los

algoritmos de aprendizaje supervisado, la regla delta generalizada, modifica

los pesos realizando en cada ciclo de aprendizaje un incremento de los pesos

proporcional a la tasa de variacion del error respecto al peso, en sentido

negativo.

∇wij = ηyi (yj − yi) = wij (t+ 1) − wij t = 0, 1.....n (2.3)

Aprendizaje basado en Memoria (Memory-based Learning), las funciones

almacenan toda la experiencias pasadas o las muestras de entrenamiento (xi,

di) de forma explıcita en una memoria de gran tamano. Aquı las muestras

de entrada-salida (xi, di) estan clasificadas correctamente. La clasificacion de

una muestra invisible se realiza mediante la recuperacion y el analisis de una

muestra de entrenamiento de la memoria almacenada que cae en la vecindad

logica de esta muestra nueva [2].

Aprendizaje de Hebb (Hebbian learning, HL), la regla de aprendizaje de Hebb

fue propuesta en un contexto neuro-biologico. Esta regla, que fue llamada

ası en honor de Hebb, es la mas antigua y mas popular entre las cinco reglas

de aprendizaje. La regla de aprendizaje de Hebb se introdujo para explicar

el aprendizaje en redes neuronales biologicas, la cual indica que una conexion

particular, se fortalecera si las neuronas en ambos extremos estan activas de

forma simultanea y persistente [64]. En terminos matematicos, la hipotesis de

26

Page 50: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

2.2 Redes Neuronales Artificiales

Hebb se puede describir en la ecuacion (2.4):

dwji (n) = ηyi (n)xi (n) (2.4)

donde dwji (n) es el cambio en la fuerza de la conexion de la neurona i a j ;

yi (n) es la salida de la neurona j y la xi (n) es una entrada. η ∈ R, es el factor

de aprendizaje y n ∈ N , especifica alguna fase del proceso de aprendizaje.

Aprendizaje Competitivo (Competitive Learning), las neuronas de salida

compiten entre sı para convertirse en activas. Winner-Take-All es un ejemplo

de este tipo de aprendizaje. En general, esta regla de aprendizaje se utiliza

para el aprendizaje de las propiedades estadısticas de las entradas [2, 62, 65].

Aprendizaje de Boltman (Boltzmann Learning, BL), es un proceso estocastico

basado en la mecanica estadıstica. Una red neuronal con el aprendizaje de

Boltzmann se conoce a menudo como una maquina de Boltzmann. En general,

se trata de una red recurrente y las neuronas funcionan como nodos binarios

ya sea por estar en un estado activado o desactivado. Una funcion de energıa

acompana a la maquina que puede medir la energıa contenida por la red. Una

neurona es seleccionada al azar y su estado se invierte durante el proceso de

aprendizaje. Esto se continua hasta que se alcanza un estado de equilibrio

[2, 65].

Como hemos visto, indistintamente del tipo de aprendizaje usado, una carac-

terıstica esencial de la red es la regla de aprendizaje usada, que indica como se

modifican los pesos de las conexiones en funcion de los datos utilizados en la entra-

da, es decir, de la historia de aprendizaje de la red.

2.2.4. Arquitectura de las Redes Neuronales Artificiales

La arquitectura o topologıa de una RNA hace referencia a la forma como los

nodos son fısicamente dispuestos en la red. Los nodos forman capas o grupos de

nodos que comparten una entrada comun y alimentan su salida a nodos comunes

[2, 59]. La estructura de la red desempena un papel importante en el procesamiento

27

Page 51: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

2.2 Redes Neuronales Artificiales

de la informacion, ya que esta estrechamente relacionada con el algoritmo de

aprendizaje utilizado para formar a la red.

En general, en una RNA, las neuronas se colocan en capas. Una red puede tener

mas de una capa de neuronas, ademas de la capa de entrada. La capa de entrada

es simplemente un conjunto de nodos de no-procesamiento, los nodos de entradas

alimentan a la red. Las neuronas de cada capa se conectan a las neuronas de otras

capas a traves de un conjunto de conexiones (conexiones sinapticas). Aunque no se

muestra en la Figura 2.1, las neuronas de una capa tambien se pueden conectar a

otras capas a traves de conexiones laterales.

La informacion se propaga en un unico sentido, desde una neurona presinaptica

(neurona origen) a una neurona postsinaptica (neurona destino). Puede darse el

caso en que la salida de un nodo de proceso o neurona se convierta en la entrada de

ese mismo nodo de proceso, en este caso en particular y dependiendo de la direccion

del flujo de la informacion, la red se conoce como una red neuronal progresiva (Feed-

forward Neuronal Network, FFNN). Cada conexion o vınculo se caracteriza por un

valor de peso (lo que significa que las conexiones tienen asociado un numero real, que

indica la importancia de esa conexion con respecto al resto de las conexiones), que se

conoce como, la fuerza de conexion (connection strength). Si dicho peso es positivo

la conexion se dice que es excitadora, mientras que si es negativa se dice que es

inhibidora. Estas conexiones son las vıas de la informacion dentro de la red [2, 3, 59].

Lo usual es que las neuronas se agrupen en capas de manera que una RNA

esta formada por varias capas de neuronas. Aunque todas las capas son conjuntos

de neuronas, segun la funcion que desempenan, suelen recibir un nombre especifico.

Las mas comunes son las siguientes:

Capa de entrada (Input Layer, IL): las neuronas de la capa de entrada, reciben

los datos que se proporcionan a la RNA para que los procese.

Capas ocultas (Hidden Layer, HL): estas capas introducen grados de libertad

adicionales en la RNA. El numero de ellas puede depender del tipo de red que

estemos considerando. Este tipo de capas realiza gran parte del procesamiento.

28

Page 52: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

2.2 Redes Neuronales Artificiales

Capa de salida (Output Layer, OL): esta capa proporciona la respuesta de la

red neuronal. Normalmente tambien realiza parte del procesamiento.

Segun su arquitectura podemos clasificar las RNA en dos posibilidades

distintas:

1. Redes Progresivas (Feed-forward Network): como se comento anterior-

mente, en este tipo de red, la informacion se mueve en una sola direccion,

hacia adelante, de los nodos de entrada, a traves de los nodos ocultos (si

procede) a los nodos de salida. No hay ciclos o bucles en la red. En la

Figura 2.3(a), se puede observar un ejemplo de este tipo de redes.

2. Redes Recurrentes (Recurrent Network): son redes donde la informacion

puede ser transmitida en ambas direcciones, es decir, se permiten las

conexiones entre los nodos de las capas superiores con nodos de las capas

inferiores. Tambien llamadas redes realimentadas. Un ejemplo de esta

red se muestra en la Figura 2.3(b).

Capa Entrada

Capa Oculta

Capa Salida

(a)

Capa Entrada

Capa Oculta

Capa Salida

(b)

Figura 2.3: a) Muestra un ejemplo de una red Feed-forward, en esta red la informacionsiempre se mueve en una direccion, nunca va hacia atras. (b) En las redes recurrentes, lainformacion puede fluir en dos direcciones y los nodos de entrada se pueden comunicar conlos nodos de salida.

29

Page 53: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

2.2 Redes Neuronales Artificiales

Los tres tipos de arquitectura mas utilizados son el Perceptron Multicapa (Mul-

tilayer Perceptron, MLP), las redes Autoorganizadas (Self-Organizing Maps, SOM)

y las redes de Funcion de Base Radial (Radial Basis function Networks)[2, 59].

Veremos ahora una breve descripcion de ellas (el Perceptron Multicapa sera tratado

mas ampliamente en la Capıtulo 3 de esta investigacion, ya que es el tipo de

arquitectura usada en esta tesis).

Perceptron Multicapa: Este es uno de los tipos de redes mas comunes. Se

basa en otra red mas simple llamada Perceptron Monocapa o simple pero en

este el numero de capas ocultas puede ser mayor o igual que una. Es una

red unidireccional (Feed-forward). La arquitectura tıpica de esta red se puede

observar en la Figura 2.4.

Objeto Capa de

Entrada

Capa

Oculta

Capa de

Salida

w ji ji

j w kj

'

x i

y j z

k t

k

'

Figura 2.4: Arquitectura de un Perceptron Multicapa.

Las neuronas de la capa oculta usan como regla de propagacion la suma

ponderada de las entradas con los pesos sinapticos wij y sobre esa suma

ponderada se aplica una funcion de transferencia de tipo sigmoidal, que es

acotada en respuesta.

El aprendizaje que se suele usar en este tipo de redes recibe el nombre

de retropropagacion del error (Backpropagation Error, BPE). Como funcion

de coste global, se usa el error cuadratico medio. Sobre esta funcion de coste

global se aplica algun procedimiento de minimizacion. En el caso del MLP se

hace mediante un descenso por gradiente.

30

Page 54: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

2.2 Redes Neuronales Artificiales

Redes Autoorganizadas: En este tipo de redes el entrenamiento o aprendizaje

es diferente al de las redes con entrenamiento supervisado. A la red no se le

suministra junto con los patrones de entrenamiento, una salida deseada. Lo

que hara la red es encontrar regularidades o clases en los datos de entrada, y

modificar sus pesos para ser capaz de reconocer estas regularidades o clases.

Uno de los tipos de redes que pertenece a esta familia y que se ha usado

bastante son los mapas autoorganizadas (Self-Organizing Maps, SOM). La

arquitectura tıpica de este tipo de mapas se muestra en la Figura 2.5.

Sinapsis

Neuronas (i,j)

(i,j)

w ijk

x t

Mapa salida

Capa sensorial entradas

Figura 2.5: Arquitectura de un mapa autoorganizado.

Como se puede apreciar es una red de tipo unidireccional. La red se

organiza en dos capas, siendo la primera capa la formada por las neuronas

de entrada. La segunda capa consiste en una matriz de neuronas de dos

dimensiones. Como se necesitan dos ındices para etiquetar cada neurona,

los pesos sinapticos asociados a cada neurona tendran tres ındices (i, j, k)

donde (i, j) indican la posicion de la neurona en la capa y k, la componente o

conexion con cierta neurona de entrada.

31

Page 55: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

2.2 Redes Neuronales Artificiales

En cuanto al entrenamiento, este es un ejemplo de red que utiliza un

aprendizaje de tipo no supervisado. Ademas, cada neurona utiliza como regla

de propagacion una distancia de su vector de pesos sinapticos al patron de

entrada. Un algoritmo de aprendizaje muy usado con este tipo de redes es el

algoritmo de Kohonen.

Redes de Funcion de Base Radial: Este tipo de redes se caracteriza por tener

un aprendizaje o entrenamiento hıbrido. La arquitectura de estas redes se

caracteriza por la presencia de tres capas: una de entrada, una unica capa

oculta y una capa de salida.

z k

y j

x i

c ji j

w ji k

'

Figura 2.6: Arquitectura de una red de funcion de base radial.

Aunque la arquitectura pueda recordar a la de un MLP, la diferencia

fundamental esta en que las neuronas de la capa oculta en vez de calcular una

suma ponderada de las entradas y aplicar una sigmoidal, calculan la distancia

euclıdea entre el vector de pesos sinapticos (que recibe el nombre en este tipo

de redes de centro o centroide) y la entrada (de manera casi analoga a como

se hacıa con los mapas SOM) y sobre esa distancia se aplica una funcion de

tipo radial con forma gaussiana.

Para el aprendizaje de la capa oculta, hay varios metodos, siendo uno

de los mas conocidos el algoritmo denominado k-medias (k-means) que es un

algoritmo no supervisado de clustering. K es el numero de grupos que se desea

encontrar, y se corresponde con el numero de neuronas de la capa oculta, que

32

Page 56: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

2.2 Redes Neuronales Artificiales

es un parametro que hay que decidir de antemano.

Andina-Pham en el libro “Computational Intelligence for Engineering and

Manufacturing” [59], presentan una taxonomıa basica de las RNA, que resumen

todo lo planteado y expuesto acerca de las RNA en este capıtulo, en la Figura 2.7,

se presenta dicha taxonomıa.

Entradas

Continuas

Entradas

Binarias

Redes

Neuronales

Artificiales

Aprendizaje

No

Supervisado

Aprendizaje

Supervisado

Autoorganizadas

(SOM)

Perceptrón

Multicapa

(MLP)

Perceptrón

Carperter

Hamming

Holpfield

Aprendizaje

Supervisado

Aprendizaje

No

Supervisado

Figura 2.7: Taxonomıa Basica de las RNA

33

Page 57: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Capıtulo 3

El Perceptron

3.1. Introduccion

La primera red neuronal conocida, fue desarrollada en 1943 por Warren

McCulloch y Walter Pitts [66]. McCulloch-Pitts con su comprension del aprendizaje

tambien anticiparon ideas conexionistas. McCulloch-Pitts dieron mas importancia

al aprendizaje que a factores innatos, consideraron que nuestro cerebro comienza

con redes aleatorias, que los estımulos provocan conexiones de una determinada

manera y que los estımulos posteriores, si son fuertes y constantes, llevarıan a la red

a manifestar una configuracion determinada. Esta configuracion determinarıa que

la respuesta de la red fuese distinta ante nuevos estımulos. En definitiva, sus ideas

fueron importantes al tratar al cerebro como un organismo computacional. La red

de McCulloch-Pitts consistıa en una suma de las senales de entrada, multiplicadas

por unos valores de pesos escogidos aleatoriamente. La entrada es comparada con

un patron preestablecido para determinar la salida de la red. Si en la comparacion,

la suma de las entradas multiplicadas por los pesos es mayor o igual que el patron

preestablecido la salida de la red es uno (1), en caso contrario la salida es cero (0)

[66]. Al inicio del desarrollo de los sistemas de inteligencia artificial, se encontro gran

similitud entre su comportamiento y el de los sistemas biologicos y en principio se

creyo que este modelo podıa computar cualquier funcion aritmetica o logica.

34

Page 58: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.2 El Perceptron Monocapa

3.2. El Perceptron Monocapa

En 1958 el psicologo Frank Rosenblatt escribio The Perceptron, a Probabilistc

Model for Information Storage and Organization in the Brain [67]. Su intencion era

ilustrar algunas propiedades fundamentales de los sistemas inteligentes en general,

sin entrar en mayores detalles con respecto a condiciones especıficas y desconocidas

para organismos biologicos concretos. Rosenblatt creıa que la conectividad existente

en las redes biologicas tiene un elevado porcentaje de aleatoriedad, por lo que

se oponıa al analisis de McCulloch-Pitts en el cual se empleaba logica simbolica

para analizar estructuras bastante idealizadas y defendio metodos probabilısticos.

Rosenblatt opinaba que la herramienta de analisis mas apropiada era la teorıa

de probabilidades, y esto lo llevo a una teorıa de separabilidad estadıstica que

utilizaba para caracterizar las propiedades mas visibles de estas redes de inter-

conexion ligeramente aleatorias. En esta obra llamo “perceptrones” a unas redes

McCulloch-Pitts capaces de modificar los pesos de sus conexiones, si las respuestas

de la red no eran las correctas, y demostro que estas redes se podıan entrenar para

clasificar ciertos patrones en iguales o distintos, por tanto que eran capaces del

reconocimiento de formas sencillas.

El perceptron esta constituido por un conjunto de sensores que reciben los pa-

trones de entrada a reconocer o clasificar y una neurona de salida que se ocupa de

clasificar a los patrones de entrada en dos clases, segun que la salida de la mis-

ma sea 1 (activada) o 0 (desactivada). El esquema de un perceptron monocapa es

presentado en la Figura 3.1

Entradas

x 1

x 2

x 3

y Salidas

Figura 3.1: Esquema de un perceptron monocapa.

3.2.1. Dinamica del Perceptron

Supongamos que tenemos una funcion f de Rn en −1, 1, que aplica un patron

de entrada x = (x1, x2, ....., xn)T , en la salida deseada z ∈ −1, 1, es decir, f(x) = z.

35

Page 59: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.2 El Perceptron Monocapa

La informacion de que disponemos sobre dicha funcion viene dada por p pares de

patrones de entrenamiento:

x1, z1 , x2, z2 , ...., xp, zp

donde xi ∈ Rn y f (xi) = zi ∈ −1, 1, i = 1, 2, ...., p. Dicha funcion re-

aliza una particion en el espacio Rn de patrones de entrada. Por una parte

estarıan los patrones con salida +1 y por otra parte los patrones con salida -1.

Por lo tanto, diremos que la funcion f clasifica a los patrones de entrada en dos

clases. Ejemplos de funciones f de este tipo son la funcion logica OR o la funcion par.

Ahora vamos a construir un dispositivo sencillo que realice dicha funcion a partir

de un conjunto conocido de patrones (relaciones) de entrenamiento. Para ello vamos

a utilizar una unidad de proceso bipolar que es una funcion matematica definida por

la siguiente expresion (estamos definiendo la funcion de activacion de la neurona,

podrıa ser cualquier otra funcion mas compleja):

f (xi, x2, ....xn) =

1 → w1x1 + ...+ wnxn ≥ θ

o→ w1x1 + ...+ wnxn ≥ θ(3.1)

Donde los parametros w1, w2, ...., wn, se llaman pesos sinapticos con los cuales se

ponderan los valores de entrada x1, x2, ...., xn, o argumentos de la funcion; la suma

ponderada se llama potencial sinaptico y el parametro θ se llama umbral o sesgo.

Analogamente, se define una unidad de proceso binaria como una funcion

matematica con dominio en el conjunto n-dimensional 0, 1n y rango el conjun-

to 0, 1, definida por

y = f (xi, x2, ....xn) =

1 → w1x1 + ...+ wnxn ≥ θ

o→ w1x1 + ...+ wnxn ≥ θ(3.2)

Cuando la salida de la unidad de proceso es igual a 1 se dice que dicha unidad

esta activada o encendida y presenta el estado 1, mientras que si su salida es igual

a 0 se dice que esta desactivada o apagada, presentando el estado 0.

36

Page 60: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.2 El Perceptron Monocapa

El perceptron monocapa es por lo tanto equivalente a una funcion de

discriminacion lineal, donde los pesos determinan la pendiente de una recta y el

umbral determina la posicion de esta recta respecto al origen de coordenadas. Ası va-

mos a representar la separacion de regiones para dos funciones sencillas como son

AND y OR. Tenemos cuatro posibles entradas 0, 0,0, 1,1, 0,1, 1. Tenemos

las siguientes regiones:

Para la funcion AND, tenemos que para cada par de vectores le corresponden

las salidas siguientes:

Vectores Salidas

0, 0 0

0, 1 0

1, 0 0

1, 1 1

Como se puede apreciar en la Figura 3.2, la recta generada permite distribuir

correctamente los valores de salida, luego la red podrıa computar la funcion

logica AND.

1 x

(1,0) (0,0) 0

(1,1) (0,1)

2 x

+ w 2

w 1

0

0 0

Figura 3.2: Funcion logica AND.

En la funcion OR tenemos las siguientes salidas para los mismos vectores.

Vectores Salidas

0, 0 0

0, 1 1

1, 0 1

1, 1 1

37

Page 61: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.2 El Perceptron Monocapa

Como en el caso anterior, la recta tambien distribuye correctamente los valores

de salida (ver Figura 3.3) , por ello la red podrıa computar la funcion logica

OR.

1 x

(1,0) (0,0) 0

(1,1) (0,1)

2 x

+ w 2

w 1

1

1 1

Figura 3.3: Funcion logica OR.

En general, sı en una misma capa tenemos N neuronas artificiales con M entradas

comunes, la salida consistira en un vector de N componentes, cada una de ellas

correspondiente a una de las neuronas de la red. De esta forma podrıamos distinguir

2N regiones. Estas regiones estarıan separadas en un espacio multidimensional por

un hiperplano [61]. En la Figura 3.4, puede apreciarse un ejemplo de un perceptron

monocapa con N neuronas de salidas.

Perceptrones

simples

Salidas

y

x 1

x 2

x 3

x 4

x 5

1

y 2

y 3

Entradas

Figura 3.4: Perceptron monocapa con N neuronas.

38

Page 62: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.2 El Perceptron Monocapa

3.2.2. Aprendizaje del Perceptron

Para la determinacion de los pesos sinapticos y del umbral se sigue un proceso

adaptativo que consiste en comenzar con unos valores iniciales aleatorios e ir

modificandolos iterativamente cuando la salida de la unidad no coincide con la

salida deseada. Esto se realiza mediante metodos convergentes de aproximaciones

sucesivas. La regla que se sigue para modificar los pesos sinapticos se conoce con el

nombre de regla de aprendizaje del Perceptron simple y consiste en la presentacion

de un patron de entrenamiento a la red y calculo de los nuevos valores de pesos

y umbrales para cada nodo de la red anadiendo un termino de correccion. La

expresion tanto para los pesos como para el umbral (que se trata como un peso

mas) es la siguiente:

wi (t+ 1) = wi (t) + ∆wi (t)

θ (t+ 1) = θ (t) + ∆wi (t)(3.3)

Determinemos ahora el valor de los incrementos en cada paso del proceso. En su

configuracion inicial a los pesos de las conexiones se les dan valores arbitrarios, por

lo que ante la presencia de estımulos la red genera respuestas arbitrarias, respuestas

que no coinciden con las deseadas. Se considera que la red ha conseguido aprender

cuando los pesos se han ajustado de tal modo que la respuesta que emite es la

deseada.

El procedimiento propuesto por Rosenblatt para este entrenamiento era sencillo:

se le presenta a la red un patron cuya senal se transmite hasta la capa de salida,

provocando la activacion de alguna de sus unidades; si se activan las unidades

de respuesta correcta, no se hace ningun ajuste de sus pesos; si la respuesta es

incorrecta se procede de la manera siguiente: si la unidad debıa estar activada y

no lo esta, aumentar todos los pesos de sus conexiones; si la unidad debıa estar

desactivada y esta activada, disminuir los pesos de sus conexiones. Se repite este

procedimiento con todos los patrones deseados de estımulo-respuesta. Rosenblatt

creyo que era posible hacer que los pesos convergieran en un conjunto de valores,

a partir de los cuales le es posible a la red computar cada uno de los patrones de

entrada para producir los correspondientes patrones de salida.

39

Page 63: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.2 El Perceptron Monocapa

Este procedimiento de forma numerica se resume en la convergencia de una

matriz de pesos W(t) que varıa en cada iteracion, a un valor W para el cual el

vector de entrada X produzca como respuesta el vector de salida Y correcto. De

[68], se definen los siguientes elementos para el algoritmo:

N: numero de neuronas artificiales del perceptron monocapa.

M: numero de datos de entrada al perceptron.

i: variable utilizada para numerar las entradas.

j: variable utilizada para numerar las neuronas.

T: iteracion temporal para la cual la matriz de pesos ha alcanzado el valor

deseado.

t: variable utilizada para numerar la iteracion en curso, t = 0, 1, 2, ..., T .

X(t): vector de entrada al perceptron para la iteracion t. Consiste en la

componente de entrada del patron de entrenamiento utilizado.

X (t) = (xo (t) , x1 (t) , ....xi (t) , ...., xM−1 (t))T (3.4)

Y(t): vector de salida ideal que se corresponde con X(t), es decir la salida

deseada del patron de entrenamiento utilizado.

Y (t) = (yo (t) , y1 (t) , ....yi (t) , ...., yN−1 (t))T (3.5)

W(t): matriz de pesos de la red para la iteracion en curso. Esta matriz

tiene dimensiones MxN y los valores de sus componentes son aquellos que

modificamos a lo largo del entrenamiento hasta llegar al valor deseado de la

matriz W en la iteracion T.

40

Page 64: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.2 El Perceptron Monocapa

W (t) =

w00 (t) . . . . . . w0N−1 (t)

. . . . . . . . . . . .

. . . . . . . . . . . .

wM−10 (t) . . . . . . wM−1N−1 (t)

(3.6)

θ: es el umbral u offset correspondiente a la neurona artificial j.

Y (t): vector disponible a la salida del perceptron para la iteracion t. En las

sucesivas iteraciones, mediante la modificacion de los pesos, el objetivo es que

esta salida se asemeje lo mas posible a la ideal.

Y (t) = (y0 (t) , y1 (t) , ....yj (t) , ...., yN−1 (t))T (3.7)

η: ganancia de la red o coeficiente de aprendizaje. Es un valor positivo menor

que 1, de su valor dependera la velocidad de aprendizaje de la red y tambien

la capacidad de convergencia del algoritmo de aprendizaje.

Una vez que hemos definido los elementos que entran a formar parte del percep-

tron monocapa pasamos a estudiar los pasos que hay que dar para su entrenamiento:

1. Inicializamos de forma aleatoria los valores correspondientes a los pesos y a

los umbrales (wij (0) y θ (0)). Es recomendable que estos valores aleatorios

sean pequenos.

2. Tomamos un par de patrones de entrenamiento (X(t), Y (t)) y presentamos la

entrada al perceptron. Ası obtenemos la salida del mismo Y (t) de la siguiente

forma:

41

Page 65: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.2 El Perceptron Monocapa

Y (t) (y0 (t) , y1 (t) , ...., yj (t) , ...., yN−1 (t))T

yj (t) = f

(

M−1∑

i=0wij (t)xi (t) − θ

)

f (x) = sign (x)

(3.8)

3. A partir de la salida obtenida podemos calcular la matriz de pesos para

la siguiente iteracion. El procedimiento tanto para los pesos como para los

valores de los umbrales es el siguiente:

wij (t+ 1) = wij (t) + η (yj (t) − yj (t))xi (t)

θij (t+ 1) = θij (t) + η (yj (t) − yj (t))xi (t)(3.9)

4. Como se puede deducir de las ecuaciones anteriores en el caso de que la salida

que nos proporciona la red coincida con la salida correspondiente al par de

entrenamiento utilizado, los pesos y los umbrales permanecen sin variar su

valor. En este caso consideramos que la matriz de pesos W(t) ha alcanzado el

valor de convergencia W en la iteracion T.

5. En el caso de no haber alcanzado la convergencia hacemos t = t+1 y volvemos

al paso 2, presentandole un nuevo patron de entrenamiento a la red.

Este funcionamiento describe el proceso por el cual los valores de los pesos

W(t) se adaptan hasta conseguir el valor de convergencia deseado W, de

igual forma con los valores de los umbrales. Este modo de funcionamiento se

denomina modo de entrenamiento.

En contraposicion, una vez entrenada la red se utiliza en el modo de fun-

cionamiento directo en el cual le presentamos a la red solo patrones de entrada

y obtenemos una salida de la misma.

La velocidad de convergencia de los pesos y umbrales esta determinada

principalmente por el valor del factor de ganancia de la red o coeficiente de

42

Page 66: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.2 El Perceptron Monocapa

aprendizaje η. Como se comento tiene un valor positivo e inferior a 1, de

este modo si el valor del coeficiente es cercano a 0 los valores de los pesos

no se modificaran sustancialmente de una iteracion a otra y el entrenamiento

sera lento, aunque podemos asegurar que los pesos y los umbrales convergeran

al valor deseado. Si el valor es cercano a 1 entonces el entrenamiento sera mas

rapido pero es posible que los resultados no converjan y la red sea inestable.

El valor adecuado en cada caso dependera de la aplicacion concreta de la

red y de los pares de entrenamiento que se le presenten para conseguir un

equilibrio entre la velocidad del entrenamiento y la fiabilidad de la red.

3.2.3. Limitaciones del Perceptron Monocapa

En 1969 Marvin Minsky y Seymour Papert escribieron Perceptrons: An Intro-

duction to Computational Geometry [69]. En esta obra analizaron las capacidades

y limitaciones del Perceptron, y demostraron que hay cierta clase de problemas que

el Perceptron y cualquier modelo simple de dos capas no pueden resolver.

Los perceptrones monocapa solo pueden distinguir tramas o patrones lineal-

mente separables, y dado que hay muchos e importantes problemas que no son

linealmente separables, Minsky y Papert concluyeron que los perceptrones son poco

adecuados como clasificadores de patrones.

Los autores senalados concluyeron esto a partir del analisis de uno de los

los mas conocidos y sencillos problemas que la red no puede resolver: el relativo

al problema XOR o disyuncion exclusiva. Dado que el perceptron es capaz de

asociar patrones de entrada con patrones de salida y que las tablas de verdad son

tambien correspondencias entre pares de valores, parece que podemos utilizar los

perceptrones para decidir los valores de verdad correspondientes a las entradas a

la red. Si ahora representamos en el plano las vectores de entrada y los valores de

verdad correspondiente a la funcion XOR, se tienen los resultados que se pueden

observar en la Figura 3.5.

43

Page 67: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.3 El Perceptron Multicapa

1 x

(1,0) (0,0) 0

(1,1) (0,1)

2 x

1

1 1

Figura 3.5: Funcion logica XOR.

Se observa facilmente que con una sola lınea es imposible separar los puntos 1

y 1 de los puntos 0 y 0 ; no hay forma de disponer la lınea de modo que separe los

conjuntos de puntos citados. Esto es precisamente lo que se quiere indicar cuando

se dice que este problema no es linealmente separable. Si tuviesemos dos lıneas

entonces serıa posible descomponer el espacio en tres regiones, en dos de las cuales

se encontrarıan los puntos 0 y en la otra los puntos 1.

Los perceptrones de dos capas no pueden dar lugar mas que a una lınea, pero

podemos conseguir dos lıneas si entre la capa de entrada y la de salida situamos

una capa intermedia con dos neuronas, cada una de las cuales nos permitira obtener

una lınea. En la epoca de Rosenblatt no se disponıa de un algoritmo de aprendizaje

adecuado para redes con capas ocultas y hubo que esperar a los anos ochenta

para su perfecto desarrollo (la regla delta generalizada) y, por lo tanto, para la

superacion del problema de la separabilidad lineal.

El perceptron monocapa presenta una serie de limitaciones. Debido a que la

funcion escalon es de tipo lineal solo le permite resolver problemas linealmente

separables como se comento anteriormente. Ademas al tener una solo neurona no

puede realizar varias separaciones lineales. Por estas dos razones en 1960

aparecio la red Perceptron Multicapa (MLP) que subsana los problemas mencionados

anteriormente, en la siguiente subseccion (3.3) se explicara con detalles el MLP.

3.3. El Perceptron Multicapa

El Perceptron Multicapa, MLP (Perceptron Multilayer, MLP), surge como una

necesidad de solventar las limitaciones del Perceptron monocapa (tambien llamado

44

Page 68: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.3 El Perceptron Multicapa

perceptron simple), sobre todo en cuanto a separabilidad de funciones no lineales. El

MLP esta formado por multiples capas, esto le permite resolver problemas que no

son linealmente separables. La arquitectura del MLP surge en una combinacion de

esfuerzos de diversos autores Werbos [70], Parker [71], Rumelhart [1] entre otros por

corregir las limitaciones que las redes iniciales, Adaline y Perceptron presentaban.

Este hecho significativo no hubiera servido de nada sin el cambio de la funcion

de activacion de las neuronas artificiales pasando de una funcion diferenciable como

era la activacion logıstica a una funcion diferenciable y no lineal como lo es la

sigmoidal.

Un MLP es una red con alimentacion hacia delante, compuesta de una o varias

capas (que se conocen como capa oculta) de neuronas entre la entrada y la salida

de la misma, esta red permite establecer regiones de decision mucho mas complejas

que las de dos semiplanos, como lo hace el perceptron monocapa [2, 59, 72]. Cada

una de estas capas esta formada por un conjunto de neuronas artificiales que

reciben su vector de entrada de las neuronas situadas en la capa inmediatamente

anterior y su vector de salida se convierte en la entrada de las neuronas de la capa

inmediatamente posterior. Dependiendo del criterio utilizado podemos considerar

la existencia de una primera capa de neuronas cuya funcion consistirıa exclusiva-

mente en repartir las senales de entrada a las neuronas de la siguiente capa y no

realizarıan ningun tipo de proceso sobre estas senales de entrada. El otro criterio

consiste en considerar directamente las N0 componentes del vector de entrada como

la entrada de las N1 neuronas de la primera capa que sı realizan un proceso de senal.

Las capas se actualizan a partir de los insumos y terminan con las salidas.

Cada neurona calcula una suma ponderada de las senales de entrada, para dar una

entrada de red, y pasa este valor a traves de su funcion de activacion sigmoidal

para obtener el valor de activacion de la neurona. Los perceptrones multicapa

se han aplicado con exito en muchos problemas. Sin embargo, a diferencia del

percentron de una capa, no se ha demostrado la convergencia de sus algoritmos de

entrenamiento.

Las posibilidades de los perceptrones multicapa radican en las no linealidades

que se utilizan en los nodos, pues de otro modo sus posibilidades serıan las mismas

45

Page 69: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.3 El Perceptron Multicapa

que en el perceptron de una capa. Se utilizara la notacion matricial para comprender

mejor las ventajas que tiene este tipo de estructura para trabajar con problemas

no linealmente separables. Para simplificar los calculos supongamos que estamos

trabajando un perceptron de dos capas con neuronas artificiales cuyos umbrales de

decision tienen valor 0 y cuyas funciones de activacion son lineales. En este caso, las

salidas de la primera capa (capa oculta), se pueden expresar de la siguiente manera:

Y 1 = W (1)T

X (3.10)

y las salidas de la segunda capa (capa de salida)

Y = W (2)T

Y (3.11)

Si expresamos la salida en funcion de las entrada obtendremos lo siguiente:

Y = W (2)t

Y 1 = W (2)t(

W (1)t

X)

=(

W (2)t

W (1)t)

X = W tTotX (3.12)

Esta funcion se podrıa haber realizado con un perceptron con una capa y

una matriz de peso fuera WTotT = W (1)T

W (0)T

. Por lo tanto tenemos que un

perceptron multicapa, cuyas funciones de activacion de las neuronas sean lineales,

es equivalente a un perceptron monocapa, con una funcion de activacion lineal,

y no se mejorarıan las prestaciones de la estructura al anadir nuevas capas, ya

que siempre se podrıa encontrar un perceptron de una capa equivalente al nuevo

multicapa. De tal manera que un perceptron multicapa de este estilo no podrıa

resolver el problema de la clasificacion de patrones segun regiones no linealmente

separables.

La solucion a este problema consiste en introducir no linealidades en las

funciones de activacion. El perceptron basico solo puede establecer dos regiones

separadas por una frontera lineal en el espacio de entrada de los patrones, un

perceptron con dos capas, puede formar cualquier region convexa en este espacio.

Las regiones convexas se forman mediante la interseccion entre las regiones formadas

por cada neurona de la segunda capa, cada uno de estos elementos se comporta

como un Perceptron simple, activandose su salida para los patrones de un lado del

hiperplano [72]. Si el valor de los pesos de las conexiones entre las neuronas de la

46

Page 70: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.3 El Perceptron Multicapa

segunda capa y una neurona del nivel de salida son todos iguales a 1, y la funcion de

salida de activacion es adecuada, la salida de la red se activara solo si las salidas de

todos los nodos de la segunda capa estan activos, esto equivale a ejecutar la funcion

logica AND en el nodo de salida, resultando una region de decision interseccion de

todos los semiplanos formados en el nivel anterior. La region de decision resultante

de la interseccion sera una region convexa con un numero de lados a lo sumo igual

al numero de neuronas de la segunda capa.

Si anadimos una tercera capa, la primera de ellas serıa la encargada de separar

los hiperplanos y a partir de ese punto las otras podrıan implementar diversas

funciones logicas, siendo capaces de formar regiones complejas, convexas o no. En

la Figura 3.6, pueden observarse distintas formas de las regiones generadas por un

perceptron multicapa con diferentes numero de capas [61].

1 Capas

2 Capas

3 Capas

Medio planolimitado porun hiperplano

Regionescerradas

oConvexas

Complejidadarbitraria

limitada por elnúmero deneuronas

B

A

A

B

B

A

A

B

B

A

A

B

B A

AB

B A

AB

Estructura Regiones deDecisión

Problemas dela XOR

Clases conRegionesMezcladas

Formas deRegiones más

Generales

B

Figura 3.6: Distintas formas de las regiones generadas por un perceptron multicapa.

47

Page 71: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.4 El Algoritmo de Retropropagacion

Entonces tenemos que con perceptrones multicapa, no se necesitan mas de tres

capas para crear la regiones de decision que necesitemos. Esto da cierta vision para

seleccionar el numero de nodos a usar en un perceptron de tres capas. En numero de

nodos en la segunda capa ha de ser mayor que uno, como se menciono anteriormente,

cuando las regiones de decision estan desconectadas o mezcladas y no puedan

separarse mediante un area convexa. En el peor de los casos, el numero de nodos

requerido en la segunda capa ha de ser igual o mayor que el numero de regiones

inconexas en las distribuciones de entrada. Usualmente, el numero de nodos que

forman la primera capa ha de ser suficiente para proveer tres o mas lados para cada

area convexa generada por los nodos de la segunda capa. En general, suele haber

por lo menos tres nodos en al primera capa por cada uno de la segunda [61].

Para perceptrones en los cuales las no linealidades no son del tipo limitador

duro, el comportamiento de la red es algo mas complejo, con regiones de decision

tıpicamente delimitadas por regiones menos abruptas que los fragmentos de lınea

recta [70]. Sin embargo, estas redes pueden ser entrenadas con el Algoritmo de

Retropropagacion (Algoritmo de Backpropagation, ABP). Para este tipo de MLP

se ha demostrado que una capa oculta de unidades sigmoidales es suficiente para

establecer cualquier clasificacion [73].

3.4. El Algoritmo de Retropropagacion

El Algoritmo de retropropagacion (Algoritmo Backpropagation, ABP), es uno

de los algoritmos mas usados con el Perceptron Multicapa. EL ABP tuvo su base

en el algoritmo de la regla delta [74] y fue extendido por Rumbelhart, Hinton

y Williams en 1986 [1], basandose en el trabajo propuesto por P. Werbos [75].

Rumbelhart, Hinton y Williams en 1986 [1] formalizaron un metodo para que una

red neuronal aprendiera la asociacion que existe entre los patrones de entrada y las

clases correspondientes, utilizando varios niveles de neuronas.

El funcionamiento del ABP consiste en el aprendizaje de un conjunto predefinido

de pares de entradas-salidas dados como ejemplo: primero se aplica un patron

de entrada como estımulo para la primera capa de las neuronas de la red, se va

propagando a traves de todas las capas superiores hasta generar una salida, se

compara el resultado en las neuronas de salida con la salida que se desea obtener y se

48

Page 72: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.4 El Algoritmo de Retropropagacion

calcula un valor de error para cada neurona de salida. A continuacion, estos errores

se transmiten hacia atras, partiendo de la capa de salida hacia todas las neuronas de

la capa intermedia que contribuyen directamente a la salida. Este proceso se repite,

capa por capa, hasta que todas las neuronas de la red hayan recibido un error

que describa su aportacion relativa al error total. Basandose en el valor del error

recibido, se reajustan los pesos de conexion de cada neurona, de manera que en la

siguiente vez que se presente el mismo patron, la salida este mas cercana a la deseada.

La importancia del ABP consiste en su capacidad de autoadaptar los pesos de

las neuronas de las capas intermedias para aprender la relacion que existe entre

un conjunto de patrones de entrada y sus salidas correspondientes. Es importante

la capacidad de generalizacion, es decir, la facilidad de dar salidas satisfactorias

a entradas que el sistema no ha visto nunca en su fase de entrenamiento. La

red debe encontrar una representacion interna que le permita generar las sali-

das deseadas cuando se le dan entradas de entrenamiento, y que pueda aplicar,

ademas, a entradas no presentadas durante la etapa de aprendizaje para clasificarlas.

El ABP usa la tecnica de busqueda del gradiente para minimizar la funcion de

coste igual a la diferencia cuadratica media entre la salida deseada y la real. Vemos

con mas detalle que significa esto.

3.4.1. Metodo del Gradiente

Mediante el metodo de la retropropagacion se pretende entrenar la red de

manera satisfactoria. Este entrenamiento consiste en obtener los valores de los

elementos de la matriz de pesos de la red y tambien los valores de los umbrales

para cada una de las neuronas artificiales. Se considera que el entrenamiento se ha

completado cuando se han conseguido unos valores de wij correspondientes a W, es

decir que al presentar a la red una entrada X(t) la salida que obtengamos sea Y(t),

o sea, la salida deseada correspondiente al par de entrenamiento.

Para conseguir estos valores no se tienen formulas analıticas, sino que se recurre

a la utilizacion de metodos de aproximaciones sucesivas. En las sucesivas iteraciones

se pretende que el error de la red cada vez sea menor hasta alcanzar un objetivo

predeterminado. Al tratarse de un entrenamiento supervisado en el cual se conoce

el par de senales de entrada y salida correspondiente al patron de entrenamiento,

49

Page 73: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.4 El Algoritmo de Retropropagacion

el error que cometa la red esta en funcion de los pesos y de los umbrales de

las neuronas. Esta funcion que notaremos como ε(W ) y denominamos funcion

objetivo (tambien se conoce como funcion de energıa, de coste o criterio) sera la

que tengamos que minimizar para considerar que la red esta entrenada.

Ası en el entrenamiento de perceptrones multicapa existen varios metodos para

minimizar esta funcion objetivo, en el caso de esta investigacion en concreto se

utilizara el metodo del gradiente, inicializando la red con unos valores de los pesos y

de los umbrales aleatorios y pequenos, en cada iteracion e la red se modifica el valor

de los mismos segun la siguiente ecuacion:

wlij (t+ 1) = wlij (t) − η∇lij (t) (3.13)

Los elementos de la ecuacion son los siguientes:

l: se refiere al ındice de la capa donde se encuentra la neurona artificial. l=0...L,

con l=1 la primera capa oculta y l=L la capa de salida.

t: corresponde al contador de las iteraciones del entrenamiento.

η: factor de aprendizaje de la red, entre 0 y 1.

∇: gradiente de la funcion objetivo a minimizar ε(W ). Se define como:

∇lij =

∂ε (W )

∂wlij(3.14)

La expresion del gradiente de la ecuacion 3.14 puede desarrollarse segun la regla

de la cadena de la siguiente forma:

∂ε (W )

∂wlij=∂ε (W )

∂y(l)j

.∂y

(l)j

∂w(l)ij

∂y(l)j

∂wlij=∂f lj

(

W lj Y

(l−1))

∂(

W(l)j Y (l−1)

) .∂(

W(l)j Y (l−1)

)

∂w(l)ij

50

Page 74: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.4 El Algoritmo de Retropropagacion

∂(

W(l)j Y (l−1)

)

∂w(l)ij

= y(l−1)i

∂f(l)j

(

W(l)j Y (l−1)

)

∂(

W(l)j Y (l−1)

) = f(l)

i

∇(l)ij =

∂ε (W )

∂y(l)j

.y(l−1)i .f

(l)′

j (3.15)

donde

W lj : es el vector fila de pesos de las conexiones correspondientes a la neurona

j de la capa l.

Y (l−1): es el vector columna de las entradas correspondientes a la capa l.

f(l)j : es la funcion de activacion del nodo j de la capa l. En la red concreta con

la que vamos a trabajar, la funcion de activacion es la misma para todos los

nodos.

Ası pues podemos pasar a definir el error para cada uno de los nodos. Llamamos

termino de error o termino delta a:

δ(l)j =

∂ε (w)

∂y(l)j

.f(l)

j =∂ε (w)

∂w(l)ij

.1

y(l−1)i

Ası podemos reescribir el gradiente de la funcion objetivo como:

∇(l)ij = −δ(l)j .y

(l−1)i (3.16)

Aplicando la regla de la cadena, al gradiente en funcion de los terminos de error

de las capas anteriores (de esta forma podemos propagar la correccion de los pesos

en funcion del error a la salida de la red).

∂y(l)j =

Nl+1−1∑

n=0

∂ε (W )

∂y(l+1).∂y

(l+1)n

∂y(l)j

51

Page 75: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.4 El Algoritmo de Retropropagacion

∂y(l+1)n

∂y(l)j

=∂f

(l+1)n

(

W(l+1)n Y (l)

)

∂(

W(l+1)n Y (l)

) .∂(

W(l+1)n Y (l)

)

∂y(l)j

∂(

W(l+1)n Y (l)

)

∂y(l)j

= w(l+1)jn

∂f(l+1)n

(

W(l+1)n Y (l)

)

∂(

W(l+1)n Y (l)

) = f (l+1)′

n

∂ε (W )

∂y(l)j

=

Nl+1−1∑

n=0

∂ε (W )

∂y(l+1).w

(l+1)jn .f (l+1)

n (3.17)

Finalmente obtenemos una expresion del gradiente en funcion del termino de

error y los pesos de la capa anterior. La expresion es la siguiente:

∂ε (W )

∂y(l)j

=

N(l+1)−1∑

n=0

δ(l+1)n .w

(l+1)jn (3.18)

Podemos expresar la variacion de los pesos de las conexiones en el tiempo como:

w(l)ij

w(L)ij (t) + ηy

(L−1)i (t) δ

(L)j (t)∗

w(l)ij (t) + ηy

(l−1)i (t) δ

(l)j (t)∗∗

(3.19)

*l = L; 0 ≤ j ≤ NL−1; 0 ≤ j ≤ NL − 1

**l = L− 1, L− 2, ...., 1; 0 ≤ i ≤ Nl−1; 0 ≤ j ≤ Nl − 1

El termino de error que aparece en esta expresion se calcula:

∂(l)j (t) = f

(l)′

j

N(l+1)−1∑

n=0

δ(l+1)n (t) .w

(l+1)jn (t) (3.20)

Es importante destacar que los pesos de la capa, l , solo pueden calcularse

cuando se conoce la expresion de los valores correspondientes a la capa siguiente

l+1, esto no es ası para la ultima capa ya que para la salida obtenemos el error

directamente al comparar la salida ideal y la salida de la red. Por esta razon a la

hora de calcular los nuevos valores para los pesos hemos de hacerlo desde la salida

a la entrada de la red. El nombre de retropropagacion hace alusion a la manera

52

Page 76: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.4 El Algoritmo de Retropropagacion

en que se utilizan los terminos de la ecuacion (3.22) para ajustar los pesos de las

sucesivas capas, propagandolos hacia atras, desde los nodos de salidas a los de

entrada.

δ(l+1)n (3.21)

Vamos a definir el algoritmo para un perceptron multicapa con L capas y N1,....,

NL neuronas artificiales en cada capa. Como queremos que nuestro perceptron sea

capaz de resolver problemas con regiones no separables linealmente, es necesario que

la funcion de activacion de los nodos sea no lineal, para efectos de esta investigacion

utilizaremos un limitador sigmoidal con la siguiente expresion:

f (x) = 11+e−x

f ′ (x) = f (x) (1 − f (x))(3.22)

Los pasos a seguir para la actualizacion de los pesos para conseguir que la salida

ideal y la salida real de la red converjan a un mismo valor son los siguientes:

1. Inicializamos los valores de los pesos y los umbrales de la red a valores aleatorios

pequenos.

2. Se presenta un vector de entrada X(t) correspondiente a un par de entre-

namiento de la red, a la salida de la red tenemos el vector Y(t) del par.

Tenemos un conjunto de patrones de entrenamiento, este conjunto puede ser

suficientemente amplio para que no se repita ningun par a lo largo de todo

el entrenamiento, o bien podemos utilizar conjuntos mas reducidos repitien-

do los pares que le presentamos a la red (en este caso corremos el riesgo de

sobreentrenar la red para estos patrones y perder generalidad).

3. Calcula la salida de la red segun las siguientes expresiones:

Para una capa l cualquiera, la salida es:

y(l)j = f

N(l−1)−1∑

i=0

w(l)ij (t)y

(l−1)i (t) − θ

(l)j

; 0 ≤ j ≤ Nl − 1; 0 ≤ l ≤ L (3.23)

53

Page 77: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.4 El Algoritmo de Retropropagacion

donde

y(0)j = xi

y(L)i = yiθ

(l)i

(3.24)

4. Calcular el termino de error a la salida y a partir de el las modificaciones de

los pesos de las capas anteriores:

δ(L)j =

∂ε (W )

∂y(L)j

f(L)

j (3.25)

se calculan los nuevos pesos para la capa de salida, segun la ecuacion (3.20)

de la siguiente manera:

w(L)j (t+ 1) = w

(L)ij (t) + ηδ

(L)j (t) y

(L−1)i ;

0 ≤ i ≤ NL−1 − 1; 0 ≤ j ≤ NL − 1(3.26)

Calculamos los terminos de error para el resto de las capas, de la manera

siguiente:

∂(l)j (t) = f

(l)′

j (t)

N(l+1)−1∑

n=0

δ(l+1)n (t) .w

(l+1)jn (t) (3.27)

y la modificacion de los pesos se obtendra ası:

w(l)ij (t+ 1) = w

(l)ij (t) + ηy

(l−1)j (t) δ

(l)j (t) (3.28)

5. En el caso de haber llegado al objetivo del entrenamiento en este punto

finaliza el algoritmo, sin embargo si no fuera ası debemos pasar a la iteracion

siguiente t = t+ 1 y volver al paso 2.

Para el entrenamiento de la red debemos tener en cuenta el valor del coeficiente

de aprendizaje que hayamos elegido para nuestra red. Si este valor es cercano a 0 la

red entrena mas lentamente pero podemos asegurar la convergencia del algoritmo,

54

Page 78: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.4 El Algoritmo de Retropropagacion

pero si el valor del coeficiente es cercano a 1 la red entrenara mas rapidamente pero

no podemos asegurar la estabilidad del resultado. Ası pues para poder asegurar que

el algoritmo converja el valor del coeficiente de aprendizaje η debe estar comprendido

entre dos valores:

0 ≺ η ≺ 1

E[

|X|2] =

11P

P

i

x2ij

(3.29)

donde

Siendo p = 0, 1, ....P : el contador de patrones de entrenamiento.

xij : el valor de entrada i de la capa l proveniente de la capa j de la capa l-1

Para acelerar la convergencia del algoritmo es conveniente suavizar la pendiente

de los cambios en los pesos. Para ello a la hora de calcular el cambio de un peso

podemos considerar el cambio experimentado por el mismo en la iteracion anterior.

Esto se consigue utilizando un termino conocido como momento α [76], reescribiendo

la ecuacion (3.27) de la siguiente manera:

w(l)ij (t+ 1) = w

(l)ij (t) + ηy

(l−1)i (t) δ

(l)j (t) + α

[

w(l)ij (t) − w

(l)ij (t− 1)

]

; 0 ≺ α ≺ 1

(3.30)

El ABP es el mas utilizado para el entrenamiento de MLP, sin embargo en casos

concretos pueden darse situaciones que hagan que el algoritmo pierda efectividad o

incluso llegue a no converger. Los problemas de este algoritmo normalmente estan

relacionados con una inicializacion inadecuada de los pesos, o una eleccion incorrecta

del parametros llamado momento. Podemos enumerar los problemas principales de

este algoritmo:

La lınea de maxima pendiente no es siempre la ruta mas directa hacia el

mınimo de la funcion error.

Puede converger a un mınimo local.

55

Page 79: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

3.4 El Algoritmo de Retropropagacion

Si la pendiente es escasa, el entrenamiento es muy lento.

Si la pendiente es nula, el algoritmo se detiene.

Para resolver algunos de estos inconvenientes el ABP muchos investigadores de-

sarrollan continuamente correcciones o variaciones de este algoritmo. Una buena

parte de estas modificaciones tratan de resolver el problema de su lenta conver-

gencia, mientras que otras se centran en conseguir una mejor generalizacion del

mencionado algoritmo. el Capıtulo 5 presentara la mejora realizada al ABP basada

en la propiedad biologica de la Metaplasticidad.

56

Page 80: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Capıtulo 4

La Metaplasticidad

4.1. Introduccion

La Metaplasticidad es un concepto biologico ampliamente conocido y usado

en areas del conocimiento como la Biologıa, Neuro-Biologıa, Informatica Medica,

Psicologıa, Neurologıa y Neuro-Fisiologıa entre otras [4, 5, 6, 7, 8].

La metaplasticidad esta relacionada con los procesos de la memoria y del apren-

dizaje, algunos investigadores como Abraham [77], aseguran que la Metaplasticidad

es “El elemento clave en la memoria y el aprendizaje.”

Siendo la metaplasticidad la base de esta investigacion, en este capıtulo se

hablara de los procesos biologicos que hacen posible que la metaplasticidad se

genere, tambien se hablara de los conceptos y propiedades relacionadas con ella,

ası como de la relacion que tiene con el aprendizaje y con los cambios que produce

en las estructuras neuronales. Ademas sentaremos las bases de la Metaplasticidad

Artificial que sera detallada ampliamente en el capıtulo 5.

4.2. Resena Historica

El cientıfico espanol Santiago Ramon y Cajal en 1894, describio por primera

vez los diferentes tipos de neuronas [78]. Al mismo tiempo planteo que el sistema

nervioso estarıa constituido por neuronas individuales, las que se comunicarıan

57

Page 81: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

4.3 Plasticidad Sinaptica

entre sı a traves de contactos funcionales llamados sinapsis (teorıa de la neurona).

La hipotesis de Cajal se oponıa a la de otros cientıficos de su epoca que concebıan

al sistema nervioso como una amplia red de fibras nerviosas conectadas entre

sı formando una red continua (en analogıa con los vasos sanguıneos). Ramon y

Cajal senalo que la ocurrencia de cambios sostenidos en las sinapsis (plasticidad

sinaptica) esta relacionada con el aprendizaje. Al mismo tiempo que el aprendizaje

puede producir cambios en la comunicacion entre las neuronas y que estos cambios

podrıan ser los mecanismos esenciales de la memoria [78]. En 1948 Konorski,

sugirio que la activacion coincidencial de dos o mas neuronas al mismo tiempo

obliga a que las conexiones potenciales se transformen en conexiones excitatorias

reales. Ademas describio este proceso como que: “Los cambios en la plasticidad de

las neuronas podrıan estar relacionados con la formacion y multiplicacion de nuevas

uniones sinapticas entre los terminales del axon de una neurona y el soma de la

otra neurona”, es decir, hablo de los cambios plasticos persistentes en la memoria

[79]. Hebb en 1949, postulo que, en la fase de aprendizaje, las conexiones sinapticas

se fortalecen, debido a la actividad correlacionada de las neuronas presinapticas y

las neuronas postsinapticas [64].

Para una correcta comprension de los mecanismos que produce la metaplastici-

dad, vamos a comenzar con una introduccion a la plasticidad sinaptica.

4.3. Plasticidad Sinaptica

La eficacia de la transmision sinaptica es variable y cambia con la experiencia.

Esta capacidad de las sinapsis para modular su eficacia, es conocida como plasticidad

sinaptica, y abarca un gran numero de fenomenos celulares que modifican la funcion

sinaptica. Una amplia variedad de cambios pueden ocurrir antes en la sinapsis para

alterar las propiedades de la liberacion del transmisor y/o postsinapticamente para

modificar la capacidad de respuesta a la liberacion del transmisor. Estos cambios

se producen con frecuencia de forma dependiente y puede resultar en una mayor

eficacia, denominada Potenciacion a Largo Plazo, PLP (Long-term Potentiation,

LTP), o en una reduccion de la eficacia sinaptica, llamada Depresion a Largo Plazo,

DLP (Long-term Depression, LTD). Ademas, estos cambios en la eficacia sinaptica

puede ser acompanados y apoyados por cambios morfologicos, como la densidad

extrasinaptica y la cobertura sinaptica [80, 81].

58

Page 82: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

4.3 Plasticidad Sinaptica

Tanto la Potenciacion como la Depresion a largo plazo son diferentes tipos

de plasticidad sinaptica y se pueden distinguir sobre la base de sus propiedades

temporales (en la subsecciones 4.3.1 y 4.3.2 hablaremos ampliamente de estos dos

tipos de plasticidad sinaptica).

Los cambios a largo plazo (Plasticidad a largo plazo) en las propiedades de

transmision de las sinapsis son importantes para el aprendizaje y la memoria,

mientras que los cambios a corto plazo permiten al sistema nervioso procesar

e integrar temporalmente la informacion, ya sea ampliando o disminuyendo la

capacidad de transmision de los circuitos sinapticos [80, 81].

4.3.1. Potenciacion y Depresion a largo plazo

La comunicacion neuronal y su modulacion afectan a las funciones fisiologicas

basicas y a las funciones psicologicas superiores como el aprendizaje y la memoria.

Esto es debido a que las sinapsis entre la neuronas pueden modificar continuamente

su estructura y su dinamica para adaptarse a las necesidades del ambiente. la sinapsis

no es un proceso rıgido, sino que puede variar a causa de la actividad del organismo.

En muchas sinapsis, una actividad repetitiva puede conducir no solo a una alteracion

de corto plazo, sino tambien a modificaciones que pueden durar horas o dıas, e incluso

volverse permanentes. Los fenomenos asociados a estos cambios son conocidos como

PLP y LTD. Podemos decir que la potenciacion implica un incremento de la eficacia

sinaptica (fortalecimiento o “enhancement”), mientras que la depresion implica una

disminucion (debilitamiento) [82].

4.3.1.1. Potenciacion a Largo Plazo, PLP

La PLP, fue descrita por primera vez al inicio de la decada de los 70, cuando

Bliss y Lomo la observaron en las sinapsis glutamaergica dentro de la formacion del

hipocampo [83]. Esta estructura, localizada en en lobulo temporal, consiste en dos

secciones conocidas como hipocampo y giro dentado. Bliss y Lomo demostraron que

la estimulacion de alta frecuencia en celulas del giro dentado produce un incremento

de sus potenciales de accion excitadores, y que esta se prolonga incluso durante dıas.

59

Page 83: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

4.3 Plasticidad Sinaptica

Cabe destacar que la PLP ha sido registrada en otras regiones, como por ejemplo en

las zonas neocorticales. A continuacion explicaremos brevemente como se produce

en las neuronas la PLP.

En hipocampo cuando las neuronas estan en estado de reposo, el canal del re-

ceptor NMDA (N-Metil-D-Aspartato) se encuentra bloqueado por iones de magnesio

(Mg2+), cuando la neurona postsinaptica recibe un estımulo prolongado e intenso el

canal del receptor AMPA se abre y se une al glutamato (neurotransmisor excitador),

lo que permite la entrada de sodio (Na+) a la neurona, esto produce la despolar-

izacion (cambio en el potencial) de la neurona postsinaptica. Esta despolarizacion

expulsa el magnesio del canal NMDA y permite la entrada de calcio Ca2+ hacia el

interior de la neurona postsinaptica. La entrada de calcio a la neurona provoca la

activacion de ciertas proteınas cinasas, con lo cual la neurona postsinaptica se hace

mas sensible a nuevos estımulos y facilita la PLP.

Glutamato

Presinapsis

Postsinapsis

Ca2+

Mg2+

AltaFrecuencia

Ca2+

PLP

2+Na

AMPA

NMDA

AMPA

Figura 4.1: Proceso de induccion a la Potenciacion a Largo Plazo, PLP: a) Normalmenteel canal NMDA esta bloqueado por una molecula de Magnesio (Mg2+). b) La activacionrepetida del receptor AMPA permite la entrada de sodio (Na+) a la neurona lo que produceuna despolarizacion de la misma y expulsa el Magnesio del canal NMDA y permite la entradade iones de calcio Ca2+. c) el incremento del iones de calcio produce la activacion de lasproteınas cimasas lo que hace mas sensible a la neurona a nuevos estımulos, lo cual facilitala PLP.

60

Page 84: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

4.3 Plasticidad Sinaptica

4.3.1.2. Depresion a Largo Plazo, DLP

La DLP es una disminucion duradera en la eficacia sinaptica que sigue a algunos

tipos de estimulacion en el hipocampo, es decir, produce una reduccion de la

sensibilidad de la neurona postsinaptica [86, 87, 88].

El DLP se produce de la siguiente manera, en el hipocampo, las sinapsis de baja

frecuencia de estimulacion inducen el DLP, el cual es crıticamente dependiente de

la activacion de los receptores NMDA y de un incremento mas pequeno de calcio

(Ca2+) en la neurona postsinaptica. Si la sinapsis ya ha sido objeto de un PLP, el

umbral de NMDA se eleva, aumentando la probabilidad de que un flujo de calcio

disminuya e induzca a un DLP. Esta retroalimentacion negativa mantiene la plastici-

dad sinaptica del sistema. Lo que determina que se produzca una PLP o una DPL es

la cantidad de calcio en la celula postsinaptica: pequenos aumentos de calcio desen-

cadenan depresion, mientras que los grandes incrementos conducen a potenciacion.

La PLP. La DPL ayuda a mantener el equilibrio de las neuronas, es decir, que actua

como un proceso homeostatico.

Mg2+

NMDAGlutamato

AMPA

Postsinapsis

BajaFrecuencia

2+Ca DLP

2+Ca

2+Na

Presinapsis

AMPA

Figura 4.2: Proceso de induccion a la Depresion a Largo Plazo, DLP: a) La DPL se producecon cuando se activan los receptores NMDA y el ingreso del calcio (Ca2+) a la neuronapostsinaptica es un pocas cantidades. b) La DLP tambien puede originarse despues de deun periodo de PLP cuando haya una disminucion en los niveles de calcio. La DPL ayuda amantener el equilibrio de las neuronas, es decir, que actua como un proceso homeostatico.

61

Page 85: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

4.4 Plasticidad Intrınseca

4.4. Plasticidad Intrınseca

La plasticidad intrınseca es la modificacion persistente de las propiedades

intrınsecas de la neurona por la actividad electrica neuronal o sinaptica. Esta regu-

lada por los cambios en el nivel de expresion o de las propiedades biofısicas de los

canales ionicos en la membrana, y puede afectar a diversos procesos tales como la

integracion sinaptica, la propagacion de la senal subliminal y la metaplasticidad

entre otras.

Es importante senalar que la plasticidad intrınseca es totalmente diferente a

la plasticidad sinaptica, ya que la plasticidad sinaptica que implica cambios en la

sinapsis entre dos neuronas mientras que la plasticidad intrınseca se refiere a los

cambios en las propiedades electricas de una sola neurona.

La plasticidad intrınseca es un mecanismo homeostatico que ajusta la fuerza

sinaptica y los cambios en la inhibicion, lo implica que una neurona puede operar

en su rango optimo de normalizacion general y promover la estabilidad del sistema,

es decir, que la funcion de la plasticidad intrınseca es impedir que las neuronas se

inhiban o que se saturen totalmente. Como se comento inicialmente la plasticidad

intrınseca afecta o ayuda a la metaplasticidad a mantener la estabilidad del sistema.

4.5. Metaplasticidad

El concepto de la Metaplasticidad biologica fue definida en 1996 por Abraham

W.C. [4]. El prefijo “meta” viene del griego y significa “mas alla” o “por encima”, y

la palabra “Plasticidad”, esta relacionada con la capacidad que tienen las neuronas

de regenerar las sinapsis o con el establecimientos de nuevas sinapsis. Abraham

definio la metaplasticidad como la induccion de los cambios sinapticos en funcion

de la actividad sinaptica previa, es decir que, la metaplasticidad depende en buena

medida del historial de activacion de las sinapsis [4].

El concepto de metaplasticidad en neurociencia y otros ambitos se usa para

indicar un mayor nivel de plasticidad, expresado como un cambio o transformacion

en la forma en que la eficiencia sinaptica es modificada. La Metaplasticidad es

62

Page 86: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

4.5 Metaplasticidad

definida, como la induccion de los cambios sinapticos, que dependen de la actividad

sinaptica previa. La Metaplasticidad se debe, al menos en parte, a las variaciones en

el nivel de la despolarizacion postsinaptica que inducen cambios sinapticos. Estas

variaciones facilitan la potenciacion sinaptica e inhiben la depresion sinaptica en

las sinapsis depresivas (y viceversa en las sinapsis potenciadas). La direccion y el

grado de la alteracion sinaptica son dependiente de la despolarizacion postsinaptica

que ocurre durante la activacion sinaptica. La potenciacion a largo plazo (PLP) se

genera despues de altos niveles de despolarizacion postsinaptica, mientras que la

depresion a largo plazo (DLP) se produce por una baja despolarizacion.

La induccion de los cambios sinapticos dependiente de los niveles de actividad

neuronal se explica en la Figura 4.3 [59]. La metaplasticidad consiste en el cambio

del umbral de PLP en funcion del peso inicial de la sinapsis con respecto al nivel de

actividad y que implica un cambio en el umbral del PLP y DLP [101]. En las figuras

4.3 y 4.4 se ilustra graficamente esta idea. Entendiendo la metaplasticidad se puede

comprender como se regula la modificacion de las sinapsis y como la informacion es

almacenada en el cerebro [77].

w

w1

w3

w1w2

w2

w3 > >

Cam

bio

en

la f

uerz

a

Sin

áp

tica

Actividad Postsináptica

DLP PLP

Figura 4.3: Los cambios en la fuerza sinaptica debido a la actividad postsinaptica de lasneuronas biologicas. Si la actividad postsinaptica es alta, la curva se desplazara hacia laderecha, lo que reforzara la LTP. En la grafica se muestra una familia de curvas en las quecada curva indica la variacion de los pesos, ∆ω, con respecto a la activacion de las neuronas.Para valores altos de los pesos, ω, la curva se alargara mas a la derecha.

63

Page 87: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

4.5 Metaplasticidad

Ca

mb

io e

n l

a f

ue

rza

sin

áp

tic

a

w

Potenciación

Depresión

oltage)

w

Umbral PLP

Actividad Postsináptica (V

w

Metaplasticidad = PLPVariación del umbral

Ca

mb

io e

n l

a f

ue

rza

sin

áp

tic

a

Potenciación

Depresión

Peso inicial

Peso inicial

Actividad Postsináptica (Voltage)

Figura 4.4: La metaplasticidad consiste en el cambio del umbral de PLP en funcion delpeso inicial de la sinapsis. Estas dos imagenes muestran graficamente esta idea. Para valoressuperiores del peso inicial la curva sinaptica es alargada de manera que el valor umbral PLPcorresponde a los valores mas altos de la actividad postsinaptica.

64

Page 88: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Capıtulo 5

Metaplasticidad Artificial

Recientemente, investigadores como Ropero-Pelaez [9], Andina y Marcano-

Cedeno [10, 11, 12] han introducido y modelado la propiedad biologica de la

Metaplasticidad en el campo de las Redes Neuronales Artificiales (RNA), obtenien-

do excelentes resultados.

En este capıtulo se aplicara el concepto de la Metaplasticidad a las RNAs

ası como tambien se sentara la base matematica que sustenta esta teorıa y la

relacion que guarda la Metaplasticidad con la Teorıa de la Informacion de Shannon.

5.1. La Metaplasticidad y la Teorıa de la Informacion

de Shannon

En el campo de las RNA, Hebb postulo en 1949 que, en la fase de aprendizaje,

las conexiones sinapticas de las neuronas biologicas se fortalecen debido a la

correlacion de la actividad presinaptica y postsinaptica de las neuronas [64].

La plasticidad sinaptica de redes neuronales biologicas se ha modelado en

muchas RNA como un cambio en los valores de los pesos (fuerzas sinapticas) de las

conexiones de las neuronas artificiales o nodos. Los pesos son los parametros que

desempenan el rol mas importante en el aprendizaje y rendimiento de las RNA.

Recientes avances en neurociencias muestran que este paradigma clasico puede

65

Page 89: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

5.2 Algoritmo de Backpropagation y AMP

ser mejorado. Por ejemplo, las propiedades biologicas descubiertas relacionadas

con los pesos sinapticos biologicos, como la normalizacion sinaptica y la metaplas-

ticidad son cruciales para el desarrollo de las arquitecturas de las nuevas redes

neuronales. Otros mecanismos biologicos peculiares como la sincronizacion entre

las neuronas, permiten la identificacion de la neurona con la maxima activacion, y

el comportamiento dual (alta / baja frecuencia) de algunas neuronas biologicas se

puede utilizar para mejorar el rendimiento de las redes neuronales artificiales [89, 90].

Es logico entonces pensar en que, si modelamos estas nuevas y conocidas

propiedades biologicas de las neuronas, como la metaplasticidad podrıamos

mejorar el aprendizaje y el rendimiento de las RNA, sabiendo de antemano

que esta propiedad esta muy relacionada con el aprendizaje. Bajo este esquema

modelara y se probara el modelo de la Metaplasticidad Artificial (AMP).

En 2007, Kinto et al. [104], aplico la plasticidad sinaptica y la plasticidad

intrınseca a una RNA para identificar la direccion del movimiento de un objeto.

Monteiro et al. [105], modelo con exito una RNA para simular la enfermedad de

Alzheimer, basada en la plasticidad intrınseca (la plasticidad intrınseca esta rela-

cionada directamente con la metaplasticidad) . En su trabajo Monteiro reforzo la

hipotesis de que la alteracion de la regulacion de calcio esta relacionado con la

enfermedad de Alzheimer. De todos los modelos AMP probados hasta ahora, el mas

eficiente desde el punto de vista de aprendizaje y de rendimiento es el que conecta

la Metaplasticidad con la teorıa de la informacion de Shannon [10], que establece

que los patrones menos frecuentes tienen mas informacion que los patrones mas

frecuentes [106].

5.2. Algoritmo de Backpropagation y AMP

La estrategia de cualquier procedimiento de aprendizaje de una RNA, es

minimizar un error esperado, EM , es definido por la siguiente expresion:

EM = ε E (x) (5.1)

66

Page 90: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

5.2 Algoritmo de Backpropagation y AMP

Donde X es la variable aleatoria de los vectores de entrenamiento de entrada a

la red x = (x1, x2, ...., xn), (x ∈ Rn), donde Rn es el espacio n-dimensional y E (x)

es la funcion de error, que define el error entre la entrada y la salida de la red. Los

pesos se actualizan en cada iteracion siguiendo la estrategia de converger en un

error mınimo. Para introducir el AMP, se puede realizar la siguiente manipulacion:

EM =

Rn

E (x)fX (x) dx =

Rn

e (x) (5.2)

EM =

Rn

e (x)

f∗X (x)f∗X (x) dx = ε∗

e (x)

f∗X (x)

(5.3)

y calcular EM a traves del estimador siguiente:

EM =1

M

M∑

k=1

e (x∗k)

f∗X(

x∗k) (5.4)

donde x∗k, k = 1, 2, .....,M , son vectores de muestras independientes cuya Fun-

cion de Densidad de Probabilidad (probability density function, pdf ) es f∗X (x)

puede ser elegida arbitrariamente, sı f∗X (x) 6= 0, siempre que sea e (x) 6= 0,∀x ∈ Rn.

Observe que de la ecuacion (5.4) f∗X (x) es ideal dada por:

(f∗X (x))opt =1

EMe (x) (5.5)

En la practica es imposible conocer f∗X (x)opt, pero se puede utilizar una funcion

suboptima. Todo lo que se tiene que encontrar es una funcion cuyo efecto en la Eq.

(5.4) sea la mejora de la convergencia en el entrenamiento [10]. Cuanto mas cerca

del optimo, mejores seran los resultados que se obtengan.

La Eq. (5.4) expresa que la estimacion del error E(x) se puede ponderar por una

funcion adecuada sin afectar al objetivo final, que es minimizar el error de cada clase.

67

Page 91: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

5.3 Implementacion de la Metaplasticidad Artificial en el Entrenamiento de

un MLP

5.3. Implementacion de la Metaplasticidad Artificial en

el Entrenamiento de un MLP

En el caso de un MLP entrenado con un ABP, se ha demostrado que la salida

de cada clase es la estimacion inherente MLP de la probabilidad a posteriori de

la clase [10]. Esto permite una implementacion directa de la metaplasticidad. En

un MLP se aplica a la clasificacion de L clases Hl, l = 0, 1, ...., L − 1, basado en el

Teorema de Bayes se tiene que [10]:

yl = P (Hl/x) (5.6)

= fx(x/H).P (Hl)fX(x)

Se puede asumir sinceramente que f∗X (x) = fX (x) en Eq. (5.4), que para cada

clase l se hace

EMl=

1

Ml

Ml∑

k=1

E (xk) fX (xk/Hl)

fX (xk)

(5.7)

∼= 1Ml

E (xk)y

P (HL)

y se implementa la Eq. (5.4) mediante la inclusion de la funcion de suboptima

f∗x en la ecuacion de error del ABP:

∂ε(W )

∂w(S)i

= ∂

∂w(S)i

(

12

(y−y(S))2

f∗X

(x)

)

=1

f∗X (x)

∂ε (W )

∂w(S)i

(5.8)

δ(S)j =

(

y − y(S)j

)

.f′(S)j

f∗X

(x)

donde s es el contador de capas, s=1, 2, .., S,. j e i son los nodos y los contadores

de entrada, respectivamente, y propaga el error a las otras capas como es costumbre

68

Page 92: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

5.3 Implementacion de la Metaplasticidad Artificial en el Entrenamiento de

un MLP

[10]. En el algoritmo general, la AMP se incluye en el algoritmo de entrenamiento,

afectando a los pesos en cada paso de iteracion mediante la funcion de peso siguiente:

w∗ (x) =1

f∗ (x)=

ylP (Hl)

=fX (x/Hl)

fX (x)(5.9)

En la Eq. (5.7) se obtiene la ventaja de la inherente estimacion de la probabi-

lidad a posteriori para cada clase de entrada de las salidas del MLP, por tanto la

distribucion estadıstica de los patrones de entrenamiento se usan para cuantificar la

frecuencia de un patron. Sin embargo, muchas de las funciones suboptimas puede

dar buenos resultados, tambien se puede probar una premisa de aproximacion

tıpica, que supone que las entradas de la red poseen una distribucion Gaussiana,

se propone la siguiente funcion para actualizar los pesos, la cual es conocida como

Funcion de Pesos [10].

w∗

X (x) =A

(2π)N .eB

N∑

i=1X2

i

(5.10)

donde N es el numero de componentes del vector de entrada X que alimenta

la primera capa oculta (para la segunda capa oculta, X es sustituido por el

vector de salida de la primera capa oculta, y ası sucesivamente) y A,B son

parametros que seran estimados empıricamente (A,B ∈ R+). En este punto

es importante recordar que se ha supuesto que las probabilidades a posteriori

seran bien estimadas por AMMLP. Sı esto diverge de la realidad, en las primeras

iteraciones, el entrenamiento puede incluso no converger. Esto es muy importante

al inicio del entrenamiento, donde las salidas de la redes todavıa no tienen una

estimacion estadıstica valida de la RNA. Ası, aunque la aproximacion dada por

la Eq. (5.9) se vuelve mas precisa mientras el aprendizaje avanza, la asuncion

hecha en la Eq. (5.10) es recomendable para iteraciones del entrenamiento donde se

asume que la Eq. (5.9) no es valida y que puede producir problemas de convergencia.

69

Page 93: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

5.4 Algoritmo AMMLP

5.4. Algoritmo AMMLP

En esta subseccion se muestra claramente como se aplica el algoritmo AMP

durante el entrenamiento de un MLP con BP, ası como tambien se mostrara las

condiciones bajo las cuales el algoritmo finalizara el entrenamiento de la red.

1. Estructura de la red usada en los experimentos:

a) Numero de neuronas de entrada igual al numero de atributos de la base

de datos.

b) Numero de capas ocultas: 1.

c) Numero de neuronas de la capa oculta: 8 (puede variar dependiendo del

experimento, de la base de datos y de las simulaciones previas, ver sub-

seccion 5.5).

d) Numero de neuronas de salida: 1 (puede variar dependiendo del numero

de clases de la base de datos usada).

e) Tasa de Aprendizaje: η =1.

f ) Funcion de Activacion: Sigmoidal con valores entre [0,1].

2. Todos los pesos de la matriz de peso W se inicializan aleatoriamente, en el

rango [-.06,0.6] (se ha comprobado empıricamente que es optimo trabajar con

una distribucion uniforme en ese rango a la hora de generar los valores iniciales

de los pesos y umbrales)

3. Fase de entrenamiento

a) AMP es el modelado por la aplicacion de la Funcion de Pesos de la

Eq. (10) para la actualizacion de los pesos del BP durante la fase de

aprendizaje:

ω(l)ij (t+ 1) = ω

(l)ij (t) + η.δ

(l)j .y

(l−1)i (5.11)

δ(L) =(

y − y(L))

.y(L).(

1 − y(L))

/f∗X (x) (5.12)

70

Page 94: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

5.5 Seleccion de la estructura de Red de un AMMLP

donde ω(l)ij son los pesos de las neuronas artificiales j en la capa l durante

la iteracion t, siendo y(l−1)i las salidas de las neuronas i de la capa previa

(xi para la primera capa oculta), y δ(l) el termino de error habitual

retropropagado en BP, para el caso de la funcion de activacion sigmoidal

y capa de salida L, siguiendo la Eq. (5.12 ), donde y es la salida deseada.

b) Condiciones de las pruebas de entrenamiento

1) Sı el numero de epocas = 2000

finaliza entrenamiento

2) Sı el Error Cuadratico Medio (MSE) = 0.01

finaliza entrenamiento

5.5. Seleccion de la estructura de Red de un AMMLP

Para determinar la estructura de la red y los parametros de la metaplasticidad

en esta investigacion, se partira de parametros y estructuras de red usados en

investigaciones recientes [10, 11],[12]. Para elegir una mejor estructura de red y los

parametros de metaplasticidad, se aplicaran dos criterios diferentes:

1. Parametros de la metaplasticidad : se fijara un numero de neuronas en la capa

oculta suficientemente alto como para suponer que la RNA logre realizar la

clasificacion, variarıan los parametros de la metaplasticidad comenzando por

A y finalizando con B, hasta conseguir el valor de (MSE ≈ 0, 01) en el mınimo

numero de iteraciones.

2. Numero de neuronas en las capas ocultas: se variara el numero de neuronas

en las capas ocultas hasta alcanzar un error cuadratico medio (MSE) de

aproximadamente 0,01 (los parametros de metaplasticidad se mantienen fijos)

con el menor numero de neuronas sin degradar el rendimiento final.

71

Page 95: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

5.5 Seleccion de la estructura de Red de un AMMLP

Todos los experimentos realizados en esta investigacion se implementaron de la

siguiente manera:

El clasificador AMMLP propuesto fue implementado en MATLAB

r(MATLAB version 7.4, R2007a) en una ordenador Pentium IV de

3,4 GHz con 2 GB de RAM. Este algoritmo se aplicara a diferentes bases

de datos la base de datos muy conocidas en el area de clasificacion de patrones.

La funcion de activacion que se usara es una sigmoidal con un rango de

(0,1) y sera la misma funcion de activacion para todas las neuronas. Para

evaluar comparativamente el desempeno de los clasificadores, todos ellos seran

entrenados con el mismo conjuntos de datos, dependiendo de la base de datos.

En todos los casos el conjunto de datos fue dividido en dos partes:

Conjunto de Entrenamiento: estara conformado dependiendo del caso

por el 60 % o 70 % de los datos de cada base de datos.

Conjunto de Test: estara conformado dependiendo del caso por el 40 %

o 30 % de los datos de cada base de datos.

Conjunto de Validacion: estara conformado con el 10 % de los datos de

cada base de datos.

En esta investigacion se realizaron en cada caso dos experimentos diferentes;

uno de los experimentos fue desarrollado para obtener el mejor resultado de

exactitud en la clasificacion para cada base de datos usada. Para el segundo

caso, se generaron 100 AMMLPs (en algunos casos se generaron 50 AMMLPs)

con diferentes pesos iniciales, cuyos valores eran aleatorios con distribucion

normal (media 0 y varianza 1). En cada experimento se entreno 100 redes con

el fin de lograr un resultado medio que no dependa del valor inicial aleatorio

de los pesos de la RNA.

72

Page 96: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

5.5 Seleccion de la estructura de Red de un AMMLP

Se aplicaron dos criterios para detener en entrenamiento de la RNA:

1. En entrenamiento se detiene cuando la RNA alcance un error de 0.01

(con este error el AMMLP logra una excelente generalizacion de los

diferentes problemas, aunque no converga a 0.)

2. En el segundo caso el entrenamiento se detiene cuando alcanza 2.000

epocas.

En el capıtulo 6 se presentaran los experimentos y los resultados obtenidos en

esta investigacion basados en los criterios que se mencionaron anteriormente.

73

Page 97: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Capıtulo 6

Experimentos y Resultados

6.1. Experimento 1

Uno de los objetivos de esta investigacion es clasificar las senales 1-D y 2-D

con un alto nivel de exactitud en la clasificacion de patrones aplicando el mode-

lo propuesto de la Metaplasticidad Artificial en un Perceptron Multicapa (AMMLP).

Uno de los grandes problemas que enfrenta la sociedad actual, las administra-

ciones y la comunidad medica a nivel mundial, es la clasificacion correcta de los

patrones de cancer de mama en sus primeras etapa. La exactitud del diagnostico de

esta enfermedad (al igual que en todos los temas medico) es de vital importancia

para los medicos, paciente y familiares.

Estando conciente de esta problematica, el algoritmo AMMLP sera probado con

la conocida Base de Datos de Cancer de Mama de Wisconsin (WBCD) [108].

6.1.1. Base de Datos de Cancer de Mama de Wisconsin

El cancer de mama se ha convertido en una de las principales causas de

mortalidad en todo el mundo y la investigacion sobre su diagnostico y tratamiento

se ha convertido en una cuestion importante para la comunidad cientıfica. La

etiologıa (causa) del cancer de mama sigue siendo poco clara y no ha aparecido

ninguna causa unica dominante [110, 111]. La prevencion sigue siendo un misterio

y la unica manera de ayudar a los pacientes sobrevivir es la deteccion temprana. Si

74

Page 98: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.1 Experimento 1

las celulas cancerosas se detectan antes de propagarse a otros organos, la tasa de

supervivencia para los pacientes es mas del 97 % [112].

El cancer de mama es un tumor maligno que se desarrolla a partir de celulas

de la mama. Aunque los cientıficos saben que algunos de los factores de riesgo

(el envejecimiento, los factores geneticos, antecedentes familiares, los perıodos

menstruales, no tener hijos, la obesidad) aumentan la probabilidad de que una

mujer pueda desarrollar cancer de mama, aun no saben que causa la mayorıa de los

canceres de mama o exactamente como algunos de estos factores de riesgo hacen

que las celulas se vuelvan cancerosas. Se estan realizando investigaciones para

aprender mas y los cientıficos estan haciendo grandes progresos en la comprension

de como ciertos cambios en el ADN pueden causar que las celulas normales se

vuelvan cancerosas [109].

La base de datos de cancer de mama de Wisconsin (WBCD), consta de 699

muestras. Cada registro de la base de datos tiene 9 atributos. Los 9 atributos son

detallados en la Tabla 6.1. Las muestras tienen valores comprendidos entre 1 y 10,

siendo el valor de 1 el mas cercano a Benigno y 10 el valor mas cercano a Maligno.

Cada muestra esta asociada a una clase que puede ser Benigno o Maligno. La

base de datos contiene 16 casos con valores en los atributos que faltan, para esta

investigacion se trabajo con las 683 muestras restantes, Por lo tanto, las clases tiene

la siguiente distribucion: 444 (65,0 %) benignas y 239 (35,0 %) malignas.

Numero Descripcion Valores Media Desviacion

Atributo Atributo Atributos Estandar

1 Clump thickness 1-10 4.44 2.82

2 Uniformity of cell size 1-10 3.15 3.07

3 Uniformity of cell shape 1-10 3.22 2.99

4 Marginal adhesion 1-10 2.83 2.86

5 Single epithelial cell size 1-10 2.23 2.22

6 Bare nuclei 1-10 3.54 3.64

7 Bland chromatin 1-10 3.45 2.45

8 Normal nucleoli 1-10 2.87 3.05

9 Mitoses 1-10 1.60 1.73

Tabla 6.1: Descripcion de los atributos del cancer de mama de la base de datos de Wisconsin.

75

Page 99: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.1 Experimento 1

6.1.2. Seleccion de la Estructura de Red

Como se comento en la Subseccion 5.5 del Capıtulo 5 para determinar mejor

estructura de la red y los parametros de la metaplasticidad que se usaran en esta

investigacion, se partira de parametros de metaplasticidad y estructuras de red

usados en investigaciones recientes [10, 11],[12]. De no obtener buenos resultados

en la exactitud en la clasificacion y rapidez en el entrenamiento de la red neuronal

entonces se procedera a variar los parametros de red y de la metaplasticidad

(usando los criterios del capıtulo antes mencionado).

El primer experimento se realizo con la finalidad de seleccionar la mejor

estructura de red y parametros de metaplasticidad a utilizar en con la WBCD. En

la Tabla 6.2 se muestran los resultados obtenidos para diferentes estructuras de red

y diferentes parametros de metaplasticidad.

Estructura Parametros Error Nro. Nro. Tiempo Exactitud de

de Red Metaplasticidad MSE Epocas PUE1 de la Clasificacion ( %)

I HL O A B Entrena2 Entrena2 Prueba

9 8 1 39 0.5 0.01 2000 265 77.5132 seg. 99.75 99.63

9 8 1 41 0.25 0.01 2000 282 88.7929 seg. 98.89 98.71

9 7 1 39 0.25 0.01 2000 336 75.2212 seg. 99.11 98.71

Tabla 6.2: Resultados obtenidos para AMMLP, con diferentes estructuras de red y diferentesparametros de metaplasticidad.

Para esta investigacion, la funcion de activacion fue una sigmoidal con un rango

de (0,1) y sera el misma para todas las neuronas. Para evaluar comparativamente el

rendimiento de los clasificadores, estos fueron entrenados, con el 60 % de los datos,

es decir, 410 muestras, de las cuales 144 eran malignos y 266 benignos. El conjunto

de prueba estuvo conformado con el restante 40 % de los datos, 233 muestras, 95

malignos y benignos 178.

En la tabla 6.3 se muestra la estructura de red, los parametros de meta-

plasticidad, las epocas, MSE y el numero de patrones que se utilizaron para el

entrenamiento y prueba de los clasificadores usados.

1PUE: Patrones usados en el entrenamiento2Entrena: Entrenamiento

76

Page 100: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.1 Experimento 1

Clasificadores Estructura Error Nro. Parametros Numero de

Neuronales de Red MSE Epocas Metaplasticidad Patrones

I HL O A B Entrena2 Prueba

AMMLP 9 8 1 0.01 2000 39 0.5 410 273

BPNNs 9 8 1 0.01 2000 NA3 NA3 410 273

Tabla 6.3: Parametros de red aplicados a la WBCD.

Para este caso se desarrollaron dos experimentos: uno para obtener el mejor

resultado de exactitud en la clasificacion en una simulacion y el otro para obtener

el promedio de 100 simulaciones. Para el segundo caso, se generaron 100 AMMLP

con pesos iniciales diferentes y cuyos valores eran aleatorios con distribucion normal

(media 0 y varianza 1). En cada experimento 100 redes fueron entrenadas para

obtener un promedio que sea independiente del valor aleatorio inicial de los pesos

de la RNA. Se aplicaron dos criterios diferentes para detener el entrenamiento de

la red: en un caso el entrenamiento fue detenido cuando el error alcanzo el valor de

0.01 y en el otro caso el entrenamiento se detenıa cuando la red alcanzaba las 2.000

epocas.

6.1.3. Evaluacion del Metodo

En esta seccion se presentaran los resultados obtenidos por el metodo propuesto

AMMLP y por el Algoritmo de Retropropagacion estandar, ademas se hace una

comparacion entre ambos clasificadores.

Para medir el rendimiento de los clasificadores se llevaron a cabo dos evalua-

ciones: la primera determina mediante el analisis de la especificidad y sensibilidad,

y de la matriz de confusion la exactitud en la clasificacion de los algoritmos. La

segunda muestra de manera visual mediante en analisis de la curva ROC y del

area bajo la curva (AUC) la exactitud en la clasificacion de los clasificadores. A

continuacion se explicaran ambos metodos.

6.1.3.1. Exactitud de los resultados

Exactitud en la clasificacion se sido obtenida mediante la siguiente ecuacion:

2Entrena: Entrenamiento3NA: No aplica

77

Page 101: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.1 Experimento 1

Exactitud =V P + V N

TP + TN + FP + FN(6.1)

donde VP, VN, FP y FN denotan verdaderos positivos, verdaderos negativos,

falsos positivos y falsos negativos, respectivamente.

Verdadero Positivo (VP): se detecta una entrada como un paciente con cancer

de mama, diagnosticado por los medicos expertos.

Verdadero Negativos (VN): se detecta una entrada como normal y se etiqueta

como una persona sana por los medicos expertos.

Falsos Positivos (FP): se detecta una entrada como un paciente con cancer de

mama, aunque es etiquetado como una persona sana por los medicos expertos.

Falsos Negativos (FN): se detecta una entrada como normal, aunque diagnos-

ticado por los medicos expertos con cancer de mama.

Sensibilidad y Especificidad: para el analisis de Sensibilidad y Especificidad,

utilizamos las siguientes expresiones.

Sensibilidad =V P

V P + FN(%) (6.2)

Especificidad =V N

FP + V N(%) (6.3)

Matriz de confusion: contiene informacion sobre las clasificaciones actuales

y las que predice un clasificador. El comportamiento de los clasificadores

comunmente se evalua utilizando los datos de esta matriz. En la Tabla 6.4 se

muestra la matriz de confusion para un clasificador de dos clases.

78

Page 102: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.1 Experimento 1

Representation of Confusion Matrix

ActualPrediccion

Positivo Negativo

Positivo a b

Negativo c d

Tabla 6.4: Matriz de confusion

donde:

a: es el numero de predicciones correctas cuando una instancia es positiva.

b: es el numero de predicciones incorrectas cuando una instancia es negativo.

c: es el numero de predicciones incorrectas cuando una instancia es positiva.

d : es el numero de predicciones correctas cuando una instancia es negativa.

La Tabla 6.5 muestra la mejor clasificacion obtenida por los clasificadores en

una simulacion, el resultado es presentado en una matriz de confusion.

Clasificadores Resultado Deseado

Resultados de

la Salida

Neuronales Benigno Maligno

Registros Benignos 178 1AMMLPsRegistros Malignos 0 95

Registros Benignos 175 3BPNNsRegistros Malignos 5 90

Tabla 6.5: Matriz de confusion de la mejor clasificacion obtenida por los clasificadores enuna simulacion.

Como se puede observar, AMMLP es superior al Algoritmo Retropropagacion

estandar en todos los casos.

En la Tabla 6.6 se presenta el resultado de la mejor simulacion obtenida por

cada clasificador en terminos de especificidad, sensibilidad ası como el total de la

exactitud de la clasificacion del cancer de mama. El promedio obtenido en 100

simulaciones para cada clasificador se muestra en la Tabla 6.7.

79

Page 103: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.1 Experimento 1

ClasificadoresExactitud de la Clasificacion ( %)

NeuronalesEspecificidad Sensibilidad

Total Exactitud de

la Clasificacion

AMMLPs 100 99.43 99.63

BPNNs 94.73 98.31 97.06

Tabla 6.6: Exactitud obtenida en la mejor simulacion para cada clasificador para la clasifi-cacion del cancer de mama.

ClasificadoresExactitud de la Clasificacion ( %)

NeuronalesEspecificidad Sensibilidad

Total Exactitud de

la Clasificacion

AMMLPs 100 ± 0.6 99.43 ± 0.3 99.58 ± 0.3

BPNNs 94.46 ± 0.9 98.57 ± 0.4 97.79 ± .04

Tabla 6.7: Promedio de exactitud de la clasificacion del cancer de mama obtenido por cadaclasificador en 100 simulaciones.

6.1.3.2. Resultados de la curva ROC

Curva de la Caracterıstica Operativa del Receptor (Receiver Operating Char-

acteristic, ROC):

La curva caracterıstica operativa del receptor (ROC) es una medida en dos

dimensiones que se utiliza ampliamente en la investigacion biomedica para

evaluar los resultados de las pruebas diagnosticas [113, 114, 115]. Una curva

ROC es un grafico de la sensibilidad vs la (1-especificidad), que representa,

la fraccion verdaderos positivos vs la fraccion de falsos positivos, calculada a

partir de la aplicacion de una serie de umbrales para la salida del sistema. En

la curva ROC los falsos positivos (1-especificidad) estan representados en el

eje x y los verdaderos positivos (sensibilidad) en el eje y. Una manera facil y

sencilla de generar una curva ROC es reunido todas las probabilidades de la

clasificacion obtenidas en las diversas pruebas, junto con las etiquetas reales

correspondientes a cada clase para generar una clasificacion de la base de

datos a partir de estos nuevo resultados. [115].

Si la curva ROC se eleva rapidamente hacia la esquina superior derecha de

la grafica, o si el valor del area bajo la curva es grande, se puede decir que

la prueba tiene un buen desempeno. Si la grafica es cercana a 1,0 indica que

la prueba es confiable, mientras que sı la grafica es cercana a 0,5 indica que

80

Page 104: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.1 Experimento 1

la prueba no es fiable. En este caso se utilizo la curva ROC para mostrar la

superioridad del AMMPL sobre el BP estandar. En la Figura 6.1 se presenta

la curva ROC tanto para el modelo propuesto AMML como para el BP

estandar.

El Area Bajo la Curva ROC (AUC):

Otro metodo que se utiliza para medir el desempeno de los clasificadores es

calcular el area bajo la curva ROC (Area Under the Curve, AUC). Una AUC

es una medida de exactitud de las pruebas obtenidas en la clasificacion. Para

comparar dos clasificadores se debe reducir la representacion del rendimiento

bajo el espacio ROC a un unico valor, el valor AUC [114]. El metodo mas facil

de obtener el area bajo la curva ROC, es calcular una porcion del area de la

unidad cuadrada. En consecuencia, el valor de AUC siempre debe satisfacer

la siguiente desigualdades:

0 ≤ AUC ≤ 1

Esta claro que una AUC cercana a 1 (area de la unidad cuadrada) indica

que la prueba de diagnostico es muy fiable [113]. Las AUC se puede calcular

mediante la integracion del area bajo la curva ROC (sumando las areas de los

trapecios) o por el metodo de prueba estadıstica de Mann-Whitney-Wilcoxon

[116, 117, 118]. En este estudio, los valores del AUC se obtuvieron por la regla

del trapecio. Es decir, si se corta el area en segmentos verticales, cada segmen-

to sera un trapecio, sumando todos las areas de los segmentos se obtendra el

AUC. Los resultados obtenidos al calcular la AUC en este caso fueron los

siguientes: 0,989 para el AMMLP y de 0,928 para BP respectivamente. Los

resultados indican una vez mas la superioridad de AMMLP sobre el BP, en

este caso en particular.

81

Page 105: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.1 Experimento 1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

AMMLP ROC

1 − Specificity

Se

nsitiv

ity

AUC= 0989

(a)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

BP ROC

1− Specificity

Se

nsitiv

ity

AUC = 0.928

(b)

Figura 6.1: Muestra la curva ROC de los clasificadores, donde se puede apreciar claramentey una vez mas la superioridad del AMMLP sobre el BP estandar, en este caso en particular.(a) Muestra la curva ROC y la AUC de 0.989 del AMMLP. (b) Muestra la curva ROC y laAUC de 0.928 del BP.

82

Page 106: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.1 Experimento 1

6.1.3.3. Comparacion con el Estado-del-Arte

Los resultados obtenidos por el AMMLP se compararon con los resultados

de otros algoritmos de dos maneras: Primero se compararon estos resultados con

algoritmos propuestos recientemente aplicados a la base de datos de WBCD. En

segundo lugar, los resultados se comparo tambien con otros buenos algoritmos que

han sido desarrollados por otros investigadores y que han utilizando la misma base

de datos.

Los resultados del AMMLP fueron comparados con algoritmos propuestos

recientemente aplicados a la base de datos WBCD, Conforti & Guido en

[120] generaron una funcion optima del nucleo, mediante la formulacion

y resolucion de un modelo de programacion semi-definido (Semi-defined

Programming, SDP), obteniendo una exactitud en la clasificacion de 96,79 %.

El algoritmo SDP es ineficiente cuando el conjunto de entrenamiento es muy

grande, en estos casos el SDP requiere de mucho de tiempo de entrenamiento

y de un alto coste computacional. Peng et al., [119] presentaron una tecnica

de seleccion de caracterısticas para disminuir la alta dimensionalidad en la

clasificacion de datos biomedicos. La tecnica esta basada en la integracion

de filtros y metodos de envoltura dentro de un procedimiento de busqueda

secuencial que mejora el rendimiento de clasificacion de las caracterısticas.

La tecnica propuesta fue implementada en dos pasos: 1) anadieron un paso

de pre-seleccion para mejorar la efectividad en la busqueda del subconjunto

de caracterısticas obtenido un mejor rendimiento en la clasificacion y 2)

utilizaron las curvas ROC para representar el rendimiento de la clasificacion

de las caracterısticas individuales y del subconjunto de caracterısticas. Peng

et al., obtuvieron a valor de 0.997 en el area bajo la curva ROC. En [121]

Akay presento un modelo basado en una Maquina vector soporte (SVM,

Maquine Support Vector), usando una busqueda en rejilla (Grid Search)

para optimizar los parametros del modelo y las caracterısticas de entrada

fueron seleccionadas aplicando el calculo estadıstico llamado de F-score (que

es una medida de la exactitud de una prueba). Akay alcanzo una exactitud

en la clasificacion de 99,519 %. Ubeyli [122] en su investigacion utilizo cinco

clasificadores (SVM, red neuronal probabilıstica, red neuronal recurrente,

red combinada y un perceptron multicapa). Ubeyli reporto una exactitud de

99.54 %.

83

Page 107: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.1 Experimento 1

Es importante destacar, que los autores de estos estudios no indican si los

resultados obtenidos son el mejor resultado de la mejor simulacion o si es resultado

el promedio de varias simulaciones. El metodo propuesto AMMLP obtiene un

99,63 % de exactitud en la clasificacion en la mejor simulacion y un promedio de

99,58 % en 100 simulaciones.

Los resultados obtenidos en la clasificacion por el AMMLP fueron compara-

dos tambien con los mejores resultados obtenidos por otros investigadores que

utilizaron la misma base de datos en sus estudios. En la Tabla 6.8 se presenta

los nombres de los investigadores, los algoritmos usados en sus estudios y la

exactitud en la clasificacion obtenida.

Autor(s) (Ano) Metodo Exactitud de la Clasificacion (%)

Quinlan, 1996 [123] C4.5 94.74

Hamiton et al., 1996 [124] RAIC 95.00

Ster and Dobnikar, 1996 [125] LDA 96.80

Nauck and Kruse, 1999 [126] NEFCLASS 95.06

Pena-Reyes and Sipper, 1999 [127] Fuzzy-GA1 97.36

Setiono, 2000 [128] Neuro-rule 2a 98.10

Albrecht at el., 2002 [129] LSA machine 98.80

Abonyi and Szeifert, 2003 [130] SFC 95.57

Ubeyli, 2007 [122] SVM 99.54

Polat and Gunes, 2007 [131] LS-SVM 98.53

Guijarro et al., 2007 [132] LLS 96.00

Akay, 2009 [121] SVM-CFS 99.51

Karabatak and Cevdet, 2009 [133] AR + NN 97.40

Peng et al., 2010 [119] CFW 0.9974

Conforti and Guido, 2010 [120] SVM-SDP 96.79

En este estudio (2010) AMMLP 99.635

En este estudio (2010) AMMLP 99.586

Tabla 6.8: Exactitud de la clasificacion obtenida por el metodo propuesto AMMLP y porotros clasificadores consultados en la literatura.

4Resultado obtenido en el AUC de ROC.5El mejor resultado obtenido en una simulacion.6Average obtenido en 100 simulaciones.

84

Page 108: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.1 Experimento 1

6.1.4. Conclusiones

En este estudio, se aplico el algoritmo AMMLP relevante y crıtico problema de la

clasificacion del cancer de mama. Para medir el rendimiento del algoritmo propuesto

AMMLP se uso la conocida base de datos de Wisconsin cancer de mama (WBCD). El

AMMLP obtuvo mejores resultados que el Algoritmo de Retropropagacion estandar

y tambien que otros los algoritmos de ultima generacion aplicados a la misma base

de datos. Los resultados indican que el algoritmo AMMLP puede ser usado para

la clasificacion del cancer de mama ya que mejora el rendimiento actual de los

clasificadores y puede ser utilizado como una segunda opinion de los medicos al

tomar sus decisiones de diagnostico final.

85

Page 109: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.2 Experimento 2

6.2. Experimento 2

En los actuales momentos de crisis economica los problemas relacionados con la

banca y las finanzas, son objeto de estudios y de interes para muchos investigadores,

especialmente los relacionados con la aprobacion de creditos [15].

En los ultimos veinte anos se ha experimentado un rapido crecimiento tanto

de la disponibilidad como en el uso del credito de consumo. Hasta hace poco, las

decisiones relacionadas con los prestamos de credito se basaba principalmente en

las percepciones individuales y la capacidad humana para evaluar el riesgo de pago.

La creciente demanda de credito ha conducido al uso de un metodo estadıstico,

conocido como Puntuacion del credito, (Credit Scoring), para decidir si se debe

conceder o no el credito a un solicitante en concreto. El metodo de puntuacion de

credito fue introduciendo en la decada de 1950. El metodo de puntuacion de credito

es muy utilizado para los prestamos de consumo, y cada vez es mas utilizado para

prestamos comerciales [134].

El puntaje de credito es una tarea de clasificacion binaria basica en finanzas. Una

ventaja de la puntuacion de credito, es la reduccion de los costes de analisis de credi-

to, lo que permite tomar decisiones mas rapidas de credito, tener mayor control de

las cuentas existentes, y reducir posibles riesgos de impagos y de morosidad [15, 135].

Por este motivo se aplicara el AMMLP para apoyar las decisiones de los analistas

de riesgo bancario en el momento de otorgar o no el credito. Para ello se usara la

conocida base de datos Aprobacion de Credito de Australia [108] (Australian Credit

Approval datasets, ACAS), la cual es muy usada en los problemas de puntuacion de

credito.

6.2.1. Base de Datos de Aprobacion de Credito de Australia

Para este estudio se selecciono una base de datos real, la base de datos de

Aprobacion de Credito Australiana (ACAS). La ACAS contiene 690 casos, divididos

en dos clases, 307 solicitantes “aceptados” y 383 solicitantes “rechazados”. Cada

solicitante contiene 15 caracterısticas, incluyendo 6 nominales, 8 atributos numericos

y la ultima que es la etiqueta de cada clase (aceptados o rechazados). Este conjunto

de datos es interesante porque hay una buena mezcla de atributos: continuos y

86

Page 110: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.2 Experimento 2

nominales, nominales con valores pequenos y nominales con valores grandes (ver

Tabla 6.9). Otra caracterıstica importante de esta base de datos, es que faltan

pocos valores.

Para proteger la confidencialidad de estos datos, los nombres de los atributos y

sus valores se han cambiado a datos simbolicos. El conjunto de datos contiene una

mezcla de atributos, donde seis atributos son continuos y ocho son de categorıas

variables.

Base de Total Caracterısticas Caracterısticas Total Numero

Datos Instancias Nominal Numericas Caracterısticas de Clases

Australia 307/383 6 8 14 2

Tabla 6.9: Descripcion de los atributos de la base de datos Aprobacion de Credito de Aus-tralia.

6.2.2. Seleccion de la Estructura de Red

La seccion de la estructura de red se realizo como se indico en la Subseccion

5.5 del Capıtulo 5. El primer experimento se realizo con la finalidad de seleccionar

la mejor estructura de red y parametros de metaplasticidad a utilizar la base de

datos ACAS. En la Tabla 6.10 se muestran los resultados obtenidos para diferentes

estructuras de red y diferentes parametros de metaplasticidad.

Estructura Parametros Error Nro. Nro. Tiempo Exactitud de

de Red Metaplasticidad MSE Epocas PUE1 de la Clasificacion (%)

I HL O A B Entrena2 Entrena2 Prueba

9 8 1 38 0.5 0.01 2000 210 63.9815 seg. 97.78 98.07

9 8 1 39 0.5 0.01 2000 253 71.2589 seg. 94.56 93.71

9 6 1 37 0.5 0.01 2000 319 90.3624 seg. 93.89 94.20

Tabla 6.10: Resultados obtenidos por el AMMLP al aplicarlo a la base de datos ACAS,usando diferentes estructuras de red y diferentes parametros de metaplasticidad.

Para este caso, la funcion de activacion fue tipo sigmoidal con un rango de

(0,1) y sera el misma para todas las neuronas. Para evaluar comparativamente

el rendimiento de los clasificadores, todos los clasificadores que se presentan es

este caso fueron entrenados, con el 70 % de los datos, es decir, 483 muestras, de

las cuales 215 eran registros aceptados y 268 registros rechazados. El conjunto de

87

Page 111: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.2 Experimento 2

prueba estaba conformado con el restante 30 % de los datos, 207 muestras, dividido

de la siguiente manera 92 eran registros aceptados y 115 rechazados.

En la tabla 6.11 se muestra la estructura de red, los parametros de meta-

plasticidad, las epocas, MSE y el numero de patrones que se utilizaron para el

entrenamiento y prueba de los clasificadores usados.

Clasificadores Estructura Error Nro. Parametros Numeros de

Neuronales de Red MSE Epocas Metaplasticidad Patrones

I HL O A B Entrena2 Prueba

AMMLP 9 8 1 0.01 2000 38 0.5 483 207

BPNNs 9 8 1 0.01 2000 NA3 NA3 483 207

Tabla 6.11: Parametros de red aplicados a la ACAS.

Una vez conseguida la mejor estructura de red para esta base de datos se

procedio a realizar dos experimentos: uno para obtener la mejor exactitud en la

clasificacion para cada clasificador en una simulacion y el otro para obtener el

promedio de 50 simulaciones. Para el segundo caso, 50 AMMLP se generaron con

pesos iniciales diferentes y cuyos valores eran aleatorios con distribucion normal

(media 0 y varianza 1). En cada experimento 50 redes fueron entrenadas para

alcanzar un promedio que sea independiente del valor aleatorio inicial de los pesos

de la RNA. Dos diferentes criterios fueron aplicados para detener el entrenamiento

de la red: en un caso el entrenamiento fue detenido cuando el error alcanzo el valor

de 0.01 (el error se reduce, pero no puede converger a 0 ), y en el otro caso el

entrenamiento se detenıa cuando la red alcanzaba las 2.000 epocas.

6.2.3. Evaluacion del Metodo

En esta seccion se presentan los experimentos realizados para medir el com-

portamiento del metodo propuesto AMMLP usando la base de datos ACAS. Los

resultados obtenidos por el AMMLP fueron comparados con el Algoritmo de

Retropropagacion estandar.

2Entrena: Entrenamiento3NA: No aplica

88

Page 112: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.2 Experimento 2

6.2.3.1. Exactitud de los resultados

Exactitud general: es la medida mas comun de evaluacion de los clasificadores.

Exactitud =V P + V N

TP + TN + FP + FN(6.4)

donde VP, VN, FP y FN denotan verdaderos positivos, verdaderos negativos,

falsos positivos y falsos negativos, respectivamente.

Verdadero Positivo (VP): es un registro de credito correctamente aceptado .

Verdadero Negativos (VN): es un registro de credito correctamente rechazada.

Falsos Positivos (FP): es un registro de credito rechazado clasificado como

aceptado.

Falsos Negativos (FN): es un registro de credito aceptado clasificado como

rechazado.

Aprobacion de credito, AC: es una funcion de los ejemplos clasificados correcta-

mente (verdaderos positivos) y los ejemplos mal clasificados (falsos positivos).

AC =V P

V P + FP(6.5)

Negacion de credito. NC: es una funcion de positivo verdaderos y negativos

falsos.

NC =FP

V P + FP(6.6)

89

Page 113: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.2 Experimento 2

Matriz de confusion: al igual que en el Experimento 1, se usara la matriz de

confusion para representar el rendimiento de los clasificadores.

La tabla 6.12 muestra el mejor resultado de la clasificacion obtenida por cada

uno los clasificadores en una matriz de confusion.

Clasificadores Resultado Deseado

Resultados de

la Salida

Neuronales Aceptado Rechazado

Aceptados 92 0AMMLPsRechazados 4 111

Aceptados 76 16BPNNsRechazados 12 103

Tabla 6.12: Matrices de confusion de la mejor clasificacion obtenida por los clasificadores enuna simulacion usando la base de datos ACAS.

En la tabla 6.13 se presenta el mejor resultado obtenido pro cada clasificador

usando la base de datos ACAS. El promedio obtenido por los clasificadores en 50

simulaciones de muestra en la tabla 6.14.

ClasificadoresExactitud de la Clasificacion ( %)

Neuronales Aprobacion de

Credito

Negacion de

Credito

Total Exactitud de la

Clasificacion

AMMLPs 100 96.52 98.07

BPNNs 82.63 89.56 86.47

Tabla 6.13: Exactitud de la clasificacion obtenida por los clasificadores en la mejor simu-lacion.

ClasificadoresExactitud de la Clasificacion ( %)

NeuronalesAprobacion de

Credito

Negacion de

Credito

Total Exactitud de la

Clasificacion

AMMLPs 90.41 ± 2.9 95.08 ± 2.1 92.86 ± 1.6

BPNNs 82.67 ± 3.6 90.43 ± 3.9 84.98 ± 2.3

Tabla 6.14: Promedio en la exactitud de la clasificacion obtenida en 50 simulaciones paracada clasificador.

Como se puede observar, AMMLP es superior al Algoritmo de Retropropagacion

estandar en todos los casos.

90

Page 114: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.2 Experimento 2

6.2.3.2. Comparacion con el Estado-del-Arte

Los resultados obtenidos con el AMMLP se comparo con los resultados de otros

algoritmos de dos maneras: Primero se comparo estos resultados con algoritmos

propuestos recientemente aplicados a la base de datos de ACAS. En segundo lugar,

los resultados se compararon tambien con otros buenos algoritmos que han sido

desarrollados por otros investigadores y que han utilizando la misma base de datos.

Los resultados obtenidos por el AMMLP fueron comparados con diferentes

algoritmos propuestos recientemente por otros investigadores. En 2008 Peng et

al., [136] obtuvieron una exactitud de 86,36 %, Tsai & Wu [137] alcanzaron un

87.25 % de exactitud en la clasificacion. En 2009 Khasman [15] presento una

exactitud de 89,28 %, en [138] Nanni & Lumini obtuvieron un 87.05 % de

exactitud, Xu et al., [139] informaron de una exactitud de 89.28 %, Luo et al.,

[140] alcanzaron un 86.52 % de exactitud, mientras que Tsai [141] obtuvo un

89.93 % , Ping presento un 87.52 % [142]. En 2010 Chen & Li obtuvieron una

exactitud de 88.52 % [143].

En este estudio el mejor resultado obtenido en una simulacion fue de 98.07 % de

exactitud y se obtuvo un average de 92.86 % en 50 simulaciones.

Los resultados obtenidos en la clasificacion por el AMMLP fueron comparados

tambien con los mejores resultados obtenidos por otros investigadores que

utilizaron la misma base de datos en sus estudios. En la Tabla 6.15 se presenta

los nombres de los investigadores, los algoritmos usados en sus estudios y la

exactitud en la clasificacion obtenida.

91

Page 115: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.2 Experimento 2

Autor(s) (Ano) Metodo Exactitud de la

Clasificacion (%)

West, 2.000 [144] MEO 87.14

Ong et al., 2005 [145] GP 88.27

Huang et al., 2006 [146] 2SGP 89.17

Martens et al., 2007 [147] SVM 85.70

Hoffman et al., 2007 [148] Bayes 86.70

Huang et al., 2007 [149] GA-SVM 86.90

Peng et al., 2008 [136] MCQP 86.36

Tsai and Wu, 2008 [137] Multiples Clasificadores 87.25

Khasman, 2009 [15] LS3 89.28

Nanni and Lumini, 2009 [138] LMNC 87.05

Xu et al., 2009 [139] HARA 89.28

Luo et al., 2009 [140] CLC 86.52

Tsai, 2009 [141] MLP 89.93

Ping, 2009 [142] SVM-Hıbrido 87.52

Chen and Li, 2010 [143] LDA + SVM 88.52

En este estudio AMMLP 98.074

En este estudio AMMLP 92.865

Tabla 6.15: Exactitud de la clasificacion usando la base de datos Aprobacion de Credito Aus-traliana obtenida por el metodo propuesto AMMLP y por otros clasificadores consultadosen la literatura.

6.2.4. Conclusiones

La puntuacion de credito se ha convertido en una tarea muy importante para los

bancos, especialmente en los ultimos anos con el aumento de las situaciones impago

y de morosidad. Mientras los bancos requiere de tecnicas cada vez mas sofisticadas

para basar sus decisiones de prestamos de credito, cada vez mas investigadores estan

buscando mejores estrategias para mejorar los modelos de puntuacion de credito. En

esta investigacion se presento un modelo de evaluacion del riesgo de credito utilizando

el algoritmo AMMLP, para mejorar las decisiones en el momento de otorgar o no

el credito. El metodo propuesto fue aplicado a la la base de datos Aprobacion de

Credito Australiana (ACAS). Los resultados obtenidos demuestran la superioridad

del AMMLP con respecto al Algoritmo de Retropropagacion estandar y con respecto

a otros algoritmos desarrollados por diferentes investigadores y aplicados a la misma

base de datos. Por lo tanto, se puede concluir que el algoritmo propuesto AMMLP se

deberıa considerar para tomar como una segunda opcion para apoyar las decisiones

de prestamo de credito.

4El mejor resultado obtenido en una simulacion.5Average obtenido en 50 simulaciones.

92

Page 116: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.3 Experimento 3

6.3. Experimento 3

El valor de una pieza de madera esta directamente relacionado con la calidad de

la misma. La calidad de la madera se determina teniendo en cuenta el numero de

defectos y su distribucion. Los nudos (knots) son los defectos mas comunes encon-

trados durante la inspeccion de la madera [150, 151]. Estos defectos se clasifican en

7 clases: Seco (Dry, DR), Encerrado (Encased, EN), Resonante (Sound, SO), Hoja

(Leaf, LE), Borde (Edge, ED), Cuerno (Horn, HO), y Muerto (Decayed, DE) [152].

En esta investigacion solo se consideraron tres nudos, ED, EN y LE. En la Figura

6.2 muestra algunos ejemplos de estos tipos de nudos.

(a)

(c)

(b)

Figura 6.2: Tipos de nudos usados en esta investigacion: a) Nudo de Borde. b) NudoEncerrado. c) Nudo de Hoja.

El algoritmo propuesto AMMLP en este caso se aplico para clasificar los

diferentes tipos de nudos de la madera, para ello se uso la base de datos de

la Universidad de Oulu de Finlandia. Los resultados obtenidos por el AMMLP

se compararon con el Algoritmo de Retropropagacion estandar y con recientes

algoritmos aplicados a la misma base de datos.

93

Page 117: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.3 Experimento 3

6.3.1. Base de datos de Nudos

La base de datos de nudos en la madera de la Universidad de Oulu de Finlandia

[153], esta constituida por 438 imagenes de 2 cm x 2 cm de 7 diferentes tipos

de nudos distribuidos de la siguiente manera: Seco: 69 imagenes, Encerrado: 29,

resonante: 179, Hoja: 47, Borde: 65, Cuerno: 35 y Muerto: 14. Para este estudio

se seleccionaron 100 imagenes de manera aleatoria, correspondientes a tres clases

de nudos, Encerrado, Borde y Hoja. De las cuales 52 imagenes se utilizaron para

entrenar la red y las 48 imagenes restante se utilizaron para probar la red. Cada

registro de la base de datos tiene dos atributos. En la Tabla 6.16, se muestra la

distribucion por clases de las muestras seleccionadas.

Tipo de Numero de Muestras

Nudo Entrena Prueba Total

Encerrada 10 8 18

Borde 22 21 43

Hoja 20 19 39

Total 52 48 100

Tabla 6.16: Distribucion de las muestras utilizadas en este estudio por clases.

6.3.1.1. Extraccion de Caracterısticas

Como la base de datos de nudos, esta formada por imagenes, la extraccion de

caracterıstica es de vital importancia para este estudio. Las caracterısticas pueden

obtenerse a partir de las caracterısticas del nudo tales como: el tamano, forma,

densidad, y la suavidad de las fronteras, etc. Cuando el espacio de caracterıstica

es muy grande y complicado como en este caso, utilizar un numero excesivo de

caracterısticas puede degradar el funcionamiento del algoritmo y aumentar la com-

plejidad del clasificador. Algunas caracterısticas redundantes deben ser removidas

para mejorar el rendimiento del clasificador. De acuerdo con las caracterısticas

seleccionadas, el espacio de caracterıstica puede dividirse en tres sub-espacios:

caracterıstica de intensidad, caracterısticas geometricas y caracterısticas de textura

[154].

En este estudio se utilizaron las caracterısticas de textura extraıdas de las

imagenes de los nudo con un banco de filtros de Gabor. Los filtros de Gabor son

sensibles a la frecuencia y a la orientacion. Este tipo de filtros son filtros paso banda

94

Page 118: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.3 Experimento 3

selectivos en 2D (dos dimensiones) respecto a la frecuencia y a la orientacion. Ellos

operan directamente sobre la imagen en el dominio espacial. Tıpicamente, una

imagen es filtrada con un conjunto de filtros de Gabor de diferentes orientaciones y

frecuencias espaciales que cubren adecuadamente el dominio de la frecuencia espa-

cial y las caracterısticas se obtiene a partir del campo de vectores de caracterısticas

que se seguira utilizando para el analisis, la clasificacion o segmentacion [150, 151].

Los filtros de Gabor son una familia o un banco de filtros donde cada filtro es

dilatado, trasladado y rotado con respecto a los otros filtros, la definicion matematica

es:

ψf,θ(x, y) = exp

(

i(fxx+ fyy) −f2(x2 + y2)

2σ2

)

(6.7)

donde

fx = f cos θ

fy = f sin θ

i =√−1

(6.8)

x y y son las coordenadas en pıxeles de la imagen. f es la frecuencia central del

paso banda, θ es la orientacion del filtro y σ es el ancho de banda. Para este estudio

σ = 1,5π, f es definido por

fk =π√2k

k = 0, 1, . . . , 5 (6.9)

y θ por

θt =πt

8t = 1, . . . , 6 (6.10)

La convolucion de la imagen I(x, y), (x, y) ∈ Ω (Ω es el conjunto de puntos

de la imagen) con la funcion de Gabor de 2D ψ(x, y), (x, y) ∈ Ω, corresponde a la

transformada de Gabor de una imagen. Para este estudio, se utilizo unicamente in-

formacion de la magnitud del filtro. Todas las imagenes de los nudos se normalizaron

a tamano 32 × 32 pıxeles y se utilizo su escala de grises. Un conjunto de 36 bancos

filtros de Gabor utilizo, con 6 frecuencias y 6 orientaciones. La imagen del nodo

se convoluciona con este conjunto de banco de filtros y se obtienen 36 imagenes

filtradas. De cada imagen filtrada se obtuvo informacion diferente que corresponde

95

Page 119: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.3 Experimento 3

a la frecuencia y la orientacion de cada filtro. Cada imagen de salida se concate-

na por filas para construir un vector de caracterısticas, Yψ(f,θ)de dimension 1024×36.

6.3.1.2. Seleccion de Caracterısticas

La seleccion de caracterısticas es el proceso de disminuir el numero de car-

acterısticas de una base de datos, manteniendo o mejorando la exactitud en la

clasificacion. La seleccion caracterısticas ayuda a eliminar informacion redundante

de la data, mejorar la generalizacion y reducir el coste computacional del clasificador

[11]. En este estudio la seleccion de caracterısticas fue realizada empıricamente,

solamente teniendo en cuenta las caracterısticas de los valores de la media (µ) y

desviacion estandar (σ) de las imagenes generadas por los filtros de Gabor. El

vector de caracterıstica se define de la siguiente manera:

Y = [µψ(f,θ), σψ(f,θ)

]T (6.11)

donde µψ(f,θ), σψ(f,θ)

, son los valores de desviacion estandar y la media de las

imagenes, los filtros de Gabor.

6.3.2. Seleccion de la Estructura de Red

La seccion de la estructura de red se realizo igual que en los experimentos

anteriores. De tal manera que los primeros experimentos se realizan con la finalidad

de seleccionar la mejor estructura de red y parametros de metaplasticidad a utilizar

en este caso. En la Tabla 6.17 se muestran los resultados obtenidos para diferentes

estructuras de red y diferentes parametros de metaplasticidad.

2Entrena: Entrenamiento

96

Page 120: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.3 Experimento 3

Estructura Parametros Error Nro. Tiempo Exactitud de

de Red Metaplasticidad MSE Epocas de la Clasificacion (%)

I HL O A B Entrena2 Entrena2 Prueba

2 8 3 37.5 0.5 0.01 2000 6.9219 seg. 100 91.16

2 7 3 37.5 0.5 0.01 2000 5.4465 seg. 100 93.55

2 6 3 37.5 0.5 0.01 2000 106.0134 seg. 100 94.16

2 5 3 37.5 0.5 0.01 2000 26.9824 seg. 100 95.71

2 4 3 37.5 0.5 0.01 2000 26.1765 seg. 100 97.91

Tabla 6.17: Resultados obtenidos por el AMMLP, con diferentes estructuras de red y dife-rentes parametros de metaplasticidad usados con base de datos de nudos en la madera.

6.3.3. Evaluacion del Metodo

En esta seccion se presentan los resultados experimentales obtenido por el

metodo propuesto AMMLP usando la base de datos de nudos en la madera y

tambien se comparan los resultados obtenidos por el AMMLP y el Algoritmo de

Retropropagacion estandar.

Los resultados de la mejor simulacion obtenida por cada clasificadores se pre-

sentan en una matriz de confusion. En la tabla 6.18 se presentan dichos resultados.

Clasificadores Defectos Encased Edge Leaf Nro. Muestras Error

Encased 7 0 1 8 1

AMMLPNs Edge 0 21 0 21 0

Leaf 0 0 19 19 0

Total error 1 1

Encased 5 0 3 8 3

BPNNs Edge 0 21 0 21 0

Leaf 0 0 19 19 0

Total error 3 3

Tabla 6.18: Matrices de confusion del mejor resultado obtenido por cada clasificador en unasimulacion clasificando los nudos en la madera.

97

Page 121: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.3 Experimento 3

En la Figura 6.3, se presenta la distribucion de los patrones de cada clase usados

durante la fase de entrenamiento, donde los ejes se corresponde al vector de carac-

terısticas.

5 10 15 20 25 30 355

10

15

20

25

30

EN

ED

LE

Media ( )µ

De

sv

iac

ión

Es

tán

da

r (

Figura 6.3: Distribucion de lo patrones usados en la etapa de entrenamiento.

La Figura 6.4 muestra la distribucion de los patrones de prueba clasificados

correctamente e incorrectamente por el AMMLP y Algoritmo de Retropropagacion

estandar.

5 10 15 20 25 30 355

10

15

20

25

30

35

EN

ED

LE

Patrón malclassificadorpor el AMMLP

Patrón malclassificadorpor el BP

Media ( )µMedia ( )µ

)D

esvia

ció

n E

stá

nd

ar

Figura 6.4: Distribucion de la clasificacion de los patrones obtenida en la fase de prueba

98

Page 122: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.3 Experimento 3

6.3.3.1. Comparacion con el Estado-del-Arte

Los resultados obtenidos por el AMMLP en este estudio se comparo con otro

resultado obtenido por otros investigadores que han utilizando la misma base de

datos. Chacon & Graciela obtuvieron un 91,17 % de exactitud aplicando una SONN

difusa (usando 9 caracterısticas para cada clase)[151]. Con la finalidad de garantizar

la fiabilidad que los resultados obtenidos 50 AMMLP se generaron con pesos iniciales

diferentes y cuyos valores eran aleatorios con distribucion normal (media 0 y varianza

1). Las 50 redes fueron entrenadas para alcanzar un promedio que sea independiente

del valor aleatorio inicial de los pesos de la RNA. En la tabla 6.19 se presentan

los resultados obtenidos por el AMMLP y por el Algoritmo de Retropropagacion

estandar.

ClasificadoresExactitud de la Clasificacion ( %)

NeuronalesEntrena Prueba

AMMLPs 100 97.45 ± 0.4

BPNNs 100 91.60 ± 3.9

Tabla 6.19: Promedio de exactitud de la clasificacion de nudos en la madera obtenida porlos clasificadores en 50 simulaciones.

6.3.4. Conclusiones

En este estudio se aplico el algoritmo propuesto AMMLP para la clasificacion

de nudos en la madera. El vector de caracterısticas usado por los clasificadores se

obtuvo con los filtros de Gabor. Los resultados obtenidos por el AMMLP fueron

comparado con el Retropropagacion estandar. El AMMLP demostro un excelente

rendimiento tanto en la fase de entrenamiento con el la fase de pruebas usando solo 2

caracterısticas. Este resultado obtenido por el AMMLP fue tambien comparado con

trabajos recientes y demostro ser mejor. El AMMLP demostro ser una interesante

combinacion de velocidad, fiabilidad, simplicidad y de bajo coste computacional.

Por lo tanto se considera que el AMMLP puede ser una alternativa interesante en

la industria de la madera.

99

Page 123: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.4 Experimento 4

6.4. Experimento 4

La clasificacion correcta de patrones es un problema muy importante en apli-

caciones del mundo real tales como en: la Cibernetica, Inteligencia Computacional

(IC), Industria Medica, Aeroespacial, Telecomunicaciones, entre otras, son algunos

de los ejemplos de la amplia, variada y relevantes industrias que se benefician de la

aplicacion de los algoritmos de CI.

Por este motivo en este estudio se aplico el algoritmo propuesto AMMLP a tres

bases de datos muy conocidas y usadas en problemas de clasificacion de patrones

tales como: Iris, Vino e Ionosfera.

6.4.1. Bases de datos

En este caso se utilizaron tres diferentes bases de datos para validar el metodo

propuesto AMMLP. Estas bases de datos, abarcan ejemplos de datos de baja,

mediana y grande dimensiones. A continuacion se describen las mencionadas bases

de datos.

Iris: se ha utilizado ampliamente para evaluar diversos algoritmos de agru-

pamiento y de clasificacion. La base de datos consta de 3 clases de 50 registros

cada una, por lo tanto la base de datos contiene 150 registros en total donde

cada clase se refiere a un tipo de planta Iris (Iris Setosa , Iris Virginica e Iris

Versicolor). Cada registro en la base de datos cuenta con 4 atributos (lon-

gitud sepalos, longitud ancho, sepalo, longitud petalo y ancho de petalos) [108].

Vino: esta base de datos consta de 178 registros, con 13 atributos (alcohol,

acido malico, cenizas, alcalinidad de las cenizas, magnesio, fenoles totales,

flavonoides, fenoles nonflavanoid, proanthocyanins, la intensidad del color,

tono, OD280/OD315 de vinos diluidos y praline). Los atributos son el resul-

tado de un analisis quımico de vinos elaborados en la misma region en Italia,

pero provienen de tres diferentes variedades. La base de datos consta de 3

clases divididos de la siguiente manera: Clase 1 (59 instancias), clase 2 (71

instancias), y clase 3 (48 instancias) [108].

100

Page 124: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.4 Experimento 4

Ionosfera: esta base de datos esta formada por 351 casos, los cuales se dividen

en dos clases de “buenos” y “malos”. El conjunto de datos contiene 225 mues-

tras que pertencen a la clase “buenos” lo cual equivale a un (64,1 %) y tiene 126

que pertenecen a la clase “malos” lo que representa un (35,9 %). Cada registro

de la base de datos tiene 34 atributos. Para esta investigacion solo se uti-

lizaran 33 atributo, ya que uno de los atributos solo contiene valores cero [108].

En la Tabla 6.20 se resume las caracterısticas de las bases de datos usadas en

este estudio.

Base de Numero Caracterısticas Total

Datos de Clases Numericas Instancias

Iris 3 4 150

Wine 3 13 178

Ionosfera 2 33 351

Tabla 6.20: Distribucion de las bases de datos consideradas en este estudio.

6.4.2. Seleccion de la Estructura de Red

Lo primero que se realizo para verificar el rendimiento del algoritmo propuesto

AMMLP fue buscar la mejor estructura de red para cada base de datos y eso se

hizo siguiendo el procedimiento aplicado anteriormente en los experimentos. Para

este estudio las bases de datos fueron divididas de la siguiente manera: se utilizo el

60 % de los datos de cada base de datos para entrenar las redes y el 40 % restante

se uso para probar el rendimiento de las redes. En la Tabla 6.21, se muestra la

distribucion por clases de las muestras seleccionadas.

Bases de Numero Numero de Muestras Total

Datos de Clases Entrena PruebaInstancias

Iris 3 90 60 150

Wine 3 107 71 178

Ionosfera 2 211 140 351

Tabla 6.21: Distribucion de los patrones usados para el entrenamiento y prueba de las redesusando diferentes bases de datos.

101

Page 125: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.4 Experimento 4

En las Tablas 6.22, 6.23 y 6.24, se muestran los resultados obtenidos para

diferentes estructuras de red y parametros de metaplasticidad.

Estructura Parametros Error Nro. Nro. Tiempo Exactitud de

de Red Metaplasticidad MSE Epocas PUE1 de la Clasificacion ( %)

I HL O A B Entrena2 Entrena2 Prueba

4 8 3 39 0.5 0.01 2000 6480 4.6363 seg. 100 98.33

4 7 3 38 0.5 0.01 2000 9990 6.5080 seg. 100 98.33

4 6 3 37 0.5 0.01 2000 16200 9.9630 seg. 100 98.33

Tabla 6.22: Resultados obtenidos por el AMMLP, con diferentes estructuras de red y dife-rentes parametros de metaplasticidad para la base de datos Iris.

2

Estructura Parametros Error Nro. Nro. Tiempo Exactitud de

de Red Metaplasticidad MSE Epocas PUE1 de la Clasificacion ( %)

I HL O A B Entrena2 Entrena2 Prueba

13 7 3 39 0.5 0.01 2000 2247 1.1239 seg. 100 97.18

13 8 3 39 0.5 0.01 2000 2033 1.2108 seg. 100 94.36

13 9 3 38 0.5 0.01 2000 1926 1.9207 seg. 100 94.36

Tabla 6.23: Resultados obtenidos por el AMMLP, con diferentes estructuras de red y dife-rentes parametros de metaplasticidad para la base de datos del Vino.

Estructura Parametros Error Nro. Nro. Tiempo Exactitud de

de Red Metaplasticidad MSE Epocas PUE1 de la Clasificacion ( %)

I HL O A B Entrena2 Entrena2 Prueba

33 7 1 37 0.20 0.01 2000 16247 5.9843 seg. 99.52 97.85

33 7 1 37 0.5 0.01 2000 21100 7.6972 seg. 99.52 95.71

33 7 1 36 0.5 0.01 2000 192221 14.6274 seg. 99.05 95.71

Tabla 6.24: Resultados obtenidos por el AMMLP, con diferentes estructuras de red y dife-rentes parametros de metaplasticidad para la base de datos Ionosfera.

6.4.3. Evaluacion del Metodo

En esta seccion se evaluo el rendimiento del metodo propuesto AMMLP para

cada una de las bases de datos antes mencionadas. Los resultados obtenidos por el

AMMLP fueron comparados con los obtenidos por el Retropropagacion estandar.

1PUE: Patrones usados en el entrenamiento2Entrena: Entrenamiento

102

Page 126: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.4 Experimento 4

En la Tabla 6.26 se presenta el mejor resultado obtenido por el BPNNs para cada

base de datos, mientras que en la Tabla 6.27 se resumen el mejor resultado obtenido

por los clasificadores AMMLP y el Algoritmo de Retropropagacion estandar en las

bases de datos usadas en este estudio.

BPNNs

Bases Estructura Error Nro. Nro. Tiempo Exactitud de

de de Red MSE Epocas PUE1 de la Clasificacion ( %)

datos I HL O Entrena2 Entrena2 Prueba

Iris 4 8 3 0.01 2000 59130 42.2678 seg. 99.88 96.66

Wine 13 7 3 0.01 2000 15729 8.1865 seg. 100 96.42

Ionosfera 33 7 1 0.01 2000 206147 79.7714 seg. 99.05 93.57

Tabla 6.25: El mejor resultado obtenido por el BP estandar, para cada base de datos usadaen este estudio.

Bases Exactitud de la Clasificacion ( %)

de AMMLPs BPNNs

Datos Entrena Prueba Entrena Prueba

Iris 100 98.33 98.88 96.66

Wine 100 97.18 100 96.42

Ionosfera 99.52 97.85 99.05 93.57

Tabla 6.26: Comparacion de los resultados obtenidos por el AMMLP y el BP estandar paracada base de datos.

A continuacion en la Tabla 6.28 se muestran el promedio en la exactitud de la

clasificacion obtenida por el AMMLP y BP estandar en 100 simulaciones.

Bases Exactitud de la Clasificacion ( %)

de AMMLPs BPNNs

Datos Entrena Prueba Entrena Prueba

Iris 100 ± 0.0 98.33 ± 1.7 97.77± 1.1 96.66 ± 1.7

Wine 97.56 ± 1.2 95.88 ± 1.9 94.39 ± 2.5 94.33 ± 1.4

Ionosfera 96.44 ± 0.6 95.17 ± 1.2 94.31 ± 1.6 93.84 ± 1.2

Tabla 6.27: Promedio de exactitud obtenido en la clasificacion del AMMLP y del BP estandaren 100 simulaciones.

1PUE: Patrones usados en el entrenamiento2Entrena: Entrenamiento

103

Page 127: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.4 Experimento 4

6.4.3.1. Comparacion con el Estado-del-Arte

Con el proposito de verificar el rendimiento del metodo propuesto AMMLP, los

resultados obtenidos se compararon con otros obtenidos por investigadores que han

utilizando la mismas bases de datos y que han aplicado diferentes algoritmos es sus

estudios. En la Tabla 6.29 se indican los nombres de estos investigadores, ano de

publicacion y los algoritmos utilizados en sus estudios.

Exactitud de la

Clasificacion ( %)Autor(s), Ano MetodoIris Wine Ionosfera

Brunzella and Eriksson, 2000 [155] MLT 98.00 99.40 82.90

Berzal et al., 2003 [156] TDIDT 95.33 94.97 88.60

Lee and Yoon, 2005 [157] Ellipsoids NA 98.90 90.60

Altincay, 2007 [158] LMPens 94.93 92.50 87.49

Cai et al., 2007 [159] RFRC 83.10 93.00 60.40

Qin Y. and Zhang, 2008 [160] EL 94.10 98.80 98.30

Evsukoff et al., 2009, [161] FSM-WM 96.00 96.07 87.14

Park and Choi, 2009 [162] CA-PCA 95.47 97.54 90.17

Chandra B. and Varghese, 2009 [163] G-FDT 98.00 88.89 89.71

Ouyanga et al., 2009 [164] PLDA 97.46 97.19 87.11

Vallejo et al., 2010 [165] ISR 95.33 96.07 91.17

Al-Batah et al., 2010, [166] HMLP 99.62 99.94 96.37

Jin et al., 2010, [167] LOGM 94.00 97.75 88.89

Zhao et al., 2010, [168] ESBER96.20

91.00∗97.27

92.92∗88.38

84.67∗

Zhanget al., 2010, [169] PMOCCA 98.67 98.31 93.73

En este estudio AMMLP98.33

98.33

97.36

95.88

97.85

95.17

Tabla 6.28: Comparacion en la exactitud de la clasificacion obtenida por el metodo propuestoAMMLP y por otros metodos usando las mismas bases de datos.

6.4.4. Conclusiones

El objetivo de esta investigacion era aplicar el metodo propuesto AMMLP a

tres diferentes bases de datos (Iris, Wine, Ionosfera) muy conocidas y utilizadas en

problemas de clasificacion de patrones. con la finalidad de medir el rendimiento de

este en cada caso. Los resultados obtenidos por el AMMLP fueron comparado con los

obtenidos por el BP estandar. El AMMLP demostro ser superior al BP estandar en

todos los casos. Los resultados obtenidos por el AMMLP tambien fueron comparados

otros algoritmos aplicados recientemente a las mismas bases de datos, en todos los

caso excepto en uno el AMMLP fue superior a los algoritmos comparados. De los

104

Page 128: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.4 Experimento 4

resultados experimentales obtenidos se puede decir que, el AMMLP es un algoritmo

fiable, eficiente, que reduce el coste computacional y proporciona una alta exactitud

en la clasificacion.

105

Page 129: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.5 Experimento 5

6.5. Experimento 5

Este experimento se realizo con la finalidad de aplicar una tecnica de seleccion

de caracterısticas para reducir la dimensionalidad de las bases de datos y luego

clasificar las caracterısticas seleccionadas con el metodo propuesto del AMMLP,

para de esta manera verificar una vez mas el rendimiento del AMMLP.

El analisis y la clasificacion de patrones con un gran numero de variables

por lo general exige una gran cantidad de memoria y el coste de computacional.

En muchos casos, cuando los datos de entrada son demasiado grandes para ser

procesados por un algoritmo, se sospecha que puede haber datos redundantes (gran

cantidad de datos, pero poca informacion). El objetivo principal de la seleccion

caracterısticas es encontrar un subconjunto optimo de un conjunto completo de

caracterısticas, es decir, el objetivo es obtener un subconjunto de las caracterısticas

mas representativas y que proporcionen suficiente informacion con el fin de igualar

o mejorar la exactitud de los clasificadores [170].

El procedimiento para la seleccion de caracterısticas es una operacion que esta

basada en dos aspectos fundamentales: un criterio de seleccion y un procedimiento

de busqueda. La seleccion de caracterısticas basada en los procedimientos de busque-

da se pueden clasificar en tres categorıas: exponencial, secuencial y estocasticos [171].

En este estudio se uso un metodo de seleccion de caracterısticas llamado

SFS-FFNN. Este metodo esta basado en la seleccion secuencial adelante (Sequential

Forward Selection, SFS) y en una red neuronal de alimentacion adelante (Feed

Forward Neural Network, FFNN) para estimar el error de prediccion como criterio

de seleccion. Los algoritmos de busqueda secuenciales son estrategias que reducen

el numero de caracterısticas aplicando una busqueda local.

El metodo de SFS empieza con un conjunto de caracterısticas y de una manera

secuencial va adicionando parametros, y ası continua hasta que el criterio de

seleccion haya alcanzado un mınimo o todos los parametros sean anadidos al

modelo.

Para probar la efectividad del metodo SFS-FFNN, se aplico el AMMLP y

106

Page 130: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.5 Experimento 5

el Algoritmo de Retropropagacion estandar para clasificar las caracterısticas

seleccionadas y se comparo los resultados obtenidos. En este estudio se trabajo con

tres bases de datos muy conocidas usadas en la seleccion de caracterısticas.

6.5.1. Bases de datos

En este trabajo, las bases de datos Iris, Vino y Cancer de mama de Wisconsin

(WBCD) fueron usadas para validar el metodo SFS-FFNN. Estas bases de datos

tiene bajas, medias y altas dimensionalidad.

1. Iris (n4 = 150, f5 = 4, c6 = 3), se ha utilizado ampliamente para evaluar

problemas de agrupamientos y de clasificacion. La base de datos Iris consta de

tres diferentes especies de flor de iris: Iris setosa, Iris virginica e Iris versicolor.

Cada especie tiene 50 muestras con cuatro caracterısticas (longitud sepalo,

sepalo ancho, largo petalo, petalo y anchura).

2. Base de datos de Vino (n4 = 178, f5 = 13, c6 = 3), esta compuesta por

178 objetos caracterizados por 13 elementos (alcohol, acido malico, cenizas,

alcalinidad de las cenizas, magnesio, fenoles totales, flavonoides, fenoles no

flavonoides, proanthocyanins, color intensidad, tono, OD280/OD315 de vinos

diluidos y praline) que son los resultados de un analisis quımico de vinos

elaborada en la misma region en Italia, pero provienen de tres diferentes

variedades. Esta base de datos esta dividida de la siguiente manera: Clase 1

(59 objetos), clase 2 (71 objetos), y la clase 3 (48 objetos).

3. Base de datos cancer de mama de Wisconsin (WBCD) (n4 = 683, f5 = 9, c6

= 2) consta de 683 objetos caracterizados por 9 caracterısticas: espesor de

grumos, uniformidad del tamano de la celda, uniformidad de la forma de celda,

adhesion periferica, tamano de la celula epitelial simple, nucleos desnudos,

cromatina suave, nucleolos Normales y mitosis. Tiene dos categorıas: Maligno

(444 objetos) y benigno (239 objetos).

4Numero de datos5Numero de atributos6Numero de clases

107

Page 131: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.5 Experimento 5

Todos las bases de datos estan disponibles en [108]. Tabla 6.29 se resumen las

caracterısticas de estos conjuntos de datos.

Bases No. de No. de No. de

de datos clases Caracterısticas Patrones

Iris 3 4 150

Wine 3 13 178

WBCD 2 9 683

Tabla 6.29: Caracterısticas de las bases de datos consideradas en este estudio.

6.5.2. Seleccion de Caracterısticas

6.5.2.1. Seleccion Secuencial Adelante

El algoritmo de seleccion secuencial adelante (Sequential Forward Selection,

SFS) es un procedimiento de busqueda de abajo-arriba, el cual que comienza con un

conjunto de caracterısticas vacıo que gradualmente va agregando las caracterısticas

seleccionadas por alguna funcion de evaluacion. En cada iteracion, una carac-

terıstica que debe incluirse en el conjunto de caracterısticas, dicha caracterıstica se

seleccionara de entre las caracterısticas que queden a disposicion del conjunto y que

no se ha agregado. El SFS es ampliamente utilizado por su simplicidad y velocidad.

Una descripcion mas detallada del SFS, ası como algunas variantes de este metodo

se puede encontrar en [172, 173, 174]

6.5.2.2. Red Neuronal de Alimentacion Adelante

En este estudio se uso una red neuronal de alimentacion adelante (Feed Forward

Neural Network, FFNN) multicapa para realizar el criterio de seleccion de carac-

terısticas basado en el errores de clasificacion. La medida del error de clasificacion

es usualmente el error cuadratico medio de la clasificacion, que desde el punto de

vista del reconocimiento de patrones, se define como:

ε =1

M

M∑

i=1

(y(i) − y(i))2 (6.12)

donde i es el vector enesimo a ser clasificado, y es la salida real del clasificador,

y es la salida deseada, y M es el numero total de muestras de entrenamiento.

108

Page 132: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.5 Experimento 5

6.5.2.3. Implementacion del SFS-FFNN

Despues de aplicar el metodo SFS FFNN, las caracterısticas seleccionadas para

cada base de datos fueron las siguientes:

1. Base de datos Iris: se seleccionaron solo 3 caracterısticas, las cuales son:

Ancho del petalo - 4

Ancho sepalo - 2

Longitud del petalo - 3

2. Base de datos de Vino: las caracterısticas seleccionadas fueron 3:

Intensidad del color - 10

Fenoles totales - 6

Prolina - 13

3. Base de datos WBCD: las caracterısticas seleccionadas para esta base de datos

fueron 2, las cuales son:

Espesor de grumos - 2

Tamano de la celula epitelial simple - 6

La Figura 6.5 muestra los resultados obtenidos despues de aplicar el metodo

SFS-FFNN para cada base de datos. La Figura 6.5(a) muestra la evolucion del error

en la clasificacion para la base de datos iris, el subconjunto de caracterısticas (4,2,3)

tienen el mınimo error de clasificacion de todos los atributos. En la Figura 6.5(b), se

puede observar la evolucion del error en la clasificacion para la base de datos del vino,

el subconjunto de caracterısticas (10,6,13) tienen el mınimo error de clasificacion.

Por ultimo en la Figura 6.5(c), se muestra la evolucion del error en la clasificacion

para la base de datos WBCD el subconjunto de caracterısticas (2,6) tienen el mınimo

de clasificacion.

109

Page 133: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.5 Experimento 5

1 2 3 40

0.001

0.002

0.003

0.004

0.005

0.006

0.007

0.008

0.009

0.01

Número de características incluidas Iris

erro

(a)

1 2 3 4 5 6 7 8 9 10 11 12 130.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

0.18

0.2

0.22

erro

Número de características incluidas Vino

(b)

1 2 3 4 5 6 7 8 90

0.02

0.04

0.06

0.08

0.1

0.12

0.14

Número de características incluidas WBCD

erro

(c)

Figura 6.5: Evolucion del error en la clasificacion usando SFS-FFNN para cada base dedatos.

110

Page 134: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.5 Experimento 5

Tabla 6.30 resume el subconjunto formado con caracterısticas seleccionados

para cada base de datos y el error alcanzado en la clasificacion.

Bases Clases Caracterısticas Errorε

de datos

Iris 3 4,2,3 1.606E-04

Wine 3 10,6,13 2.34E-02

WBCD 2 2,6 1.03E-02

Tabla 6.30: Resultado de la seleccion de caracterısticas despues de aplicar el metodo pro-puesto SFS-FFNN.

6.5.3. Seleccion de la Estructura de Red

Para determinar la mejor estructura de red y parametros de metaplasticidad

para cada base de datos, se procedio de la siguiente manera: primero a los sub-

conjuntos de datos (obtenidos despues de aplicar el metodo SFS-FFNN) de cada

base de datos, se selecciono el 70 % de cada base de datos para entrenar la red y

el 30 % restante se utilizo para probar la red (Tabla 6.31). Segundo se utilizo el

mismo procedimiento aplicado en los experimentos anteriores. En las Tablas 6.32

y 6.33, muestran los resultados obtenidos para diferentes estructuras de red y los

parametros metaplasticidad para cada base de datos.

Bases Numero de Patrones

de datos Entrena Prueba

Iris 105 45

Wine 125 53

WBCD 410 273

Tabla 6.31: Numero de patrones utilizando para el entrenamiento y prueba para cada basede datos usada en este estudio.

Bases de datos Estructura de Red

I HL O

Iris 3 8 3

Wine 9 8 3

WBCD 2 8 2

Tabla 6.32: Diferentes estructuras de redes neuronales aplicados para cada base de datos eneste estudio.

111

Page 135: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.5 Experimento 5

Bases BPNN AMMLP

de datos

MSE Epoch L.R.Parametros Metaplasticidad

A B

Iris 0.01 2000 1.0 39 0.5

Wine 0.01 2000 1.0 39 0.5

WBCD 0.01 2000 1.0 39 0.25

Tabla 6.33: Diferentes parametros de red y de metaplasticidad aplicados para cada base dedatos en este estudio.

La Tabla 6.34 muestra la mejor estructura de la red, parametros de metaplas-

ticidad para cada base de datos, ademas se presenta los resultados obtenido por el

AMMLP en terminos de velocidad y exactitud en la clasificacion para cada caso.

Bases Estructura Parametros Exactitud de la

de Datos de Red Metaplasticidad MSE Clasificacion (% )

I HL O A B Entrena Prueba

Iris 3 8 3 39 0.5 0.01 97.14 97.78

Wine 3 8 3 39 0.5 0.01 92.20 96.23

WBCD 2 8 1 39 0.25 0.01 99.11 98.53

Tabla 6.34: La mejor estructura de red y parametros de metaplasticidad para cada base dedatos.

6.5.4. Evaluacion del Metodo

Para comprobar el rendimiento metodo porpuesto AMMLP en este caso se

procedio de la siguiente manera:

Se comparo los resultados obtenidos por el AMMLP y BP estandar utilizando

la caracterısticas seleccionados por el metodo SFS-FFNN.

La Tabla 6.35 muestra el mejor resultado obtenido por AMMLP y BP estandar

en terminos de velocidad y de exactitud en la clasificacion para cada base de datos

en una simulacion.

112

Page 136: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.5 Experimento 5

Exactitud de la Clasificacion (%)

Bases AMMLPs BPNNs

de datosEntrena Prueba

Tiempo de

Entrena (seg.)Entrena Prueba

Tiempo de

Entrena (seg.)

Iris 97.14 97.78 96.3548 98.09 95.55 129.2260

Wine 92.20 96.23 1.7122 97.56 94.44 142.2158

WBCD 99.11 98.53 61.9513 98.08 97.43 75.3139

Tabla 6.35: Los mejores resultados obtenidos en una simulacion por el AMMLP y el BPestandar con las caracterısticas seleccionadas de cada base de datos por el metodo SFS-FFNN.

Con el proposito de corroborar y evaluar los resultados obtenidos con el

metodo propuesto en una simulacion, se entreno y se promedio el resultado de 100

simulaciones con el objeto de evaluar la estabilidad del metodo sugerido. En la

Tabla 6.36 muestra el promedio obtenido en 100 simulaciones para cada clasificador

con las caracterısticas seleccionadas de cada base de datos por metodo SFS-FFNN.

Exactitud de la Clasificacion (%)

Bases AMMLPs BPNNs

de datosEntrena Prueba Entrena Prueba

Iris 97.63 ± 1.2 98.00 ± 1.7 97.35 ±1.4 96.86 ± 1.6

Wine 98.58 ± .04 92.04 ± 2.8 94.58 ± 2.5 91.57 ± 3.2

WBCD 93.31 ± 0.6 98.48 ± 0.5 95.67± 0.7 94.51 ± 0.9

Tabla 6.36: Promedio obtenido en 100 simulaciones por el AMMLP y el BP estandar usandolas caracterısticas seleccionadas de cada base de datos por el metodo SFS-FFNN.

6.5.4.1. Comparacion con el Estado-del-Arte

Los resultados obtenidos por el SFS-FFNN y AMMLPs se compararon con

otros metodos de seleccion de caracterısticas aplicados por investigadores que

utilizaron las mismas bases de datos. En la Tabla 6.37 se indican los nombres

de estos investigadores, ano de publicacion y los algoritmos utilizados en sus estudios.

113

Page 137: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

6.5 Experimento 5

Nro. de Caracterısticas Exactitud de

Autor(s), ano Metodo Seleccionadas la Clasificacion (%)

Iris WBCD Wine Iris WBCD Wine

Last et al., 2001[172] IFN 1 3 3 60.00 32.2 33.00

Lee et al., 2001[36] FEBFC 2 6 NA 97.12 95.14 NA

Lazzerini & Marcelloni, 2001[175] FSBS NA NA 7 NA NA 93.80

Oh et al., 2004[176] HGAs NA NA 8 NA NA 95.51

Chen & Shie, 2005[177]FUZZY-

ENTROPY2 4 NA 96.00 97.21 NA

Muni et al., 2006[171] GP 1.57 2.237 4.087 98.69 96.84 94.82

Weiguo et al., 2008[178] NMACFS 1.97 15.97 NA 96.27 90.80 NA

Bratu et al., 2008[179] GBW;BFS NA 5 NA NA 96.48 NA

Jensen & Shen, 2009[180] FRFS NA NA 6 NA NA 95.50

Xiao and Zhang, 2009[181] ID 1 NA 4 97.33 NA 95.89

Hu et al., 2010[182] NDEM NA NA 6 NA NA99.448

86.509

En este estudio AMMLP 3 3 2 97.788 98.538 96.238

En este estudio AMMLP 3 3 2 98.0010 98.4810 92.0410

NA: No aplica

Tabla 6.37: Reduccion de la dimensionalidad de las bases de datos y la exactitud en laclasificacion del AMMLP y de otros algoritmo propuesto usando las mismas bases de datos

6.5.5. Conclusiones

En estudio, se aplico un metodo basado en la Seleccion Secuencial Adelante

y una red de alimentacion adelante (SFS-FFNN) con al finalidad de disminuir la

dimension de la data. Se uso el algoritmo AMMLP y el BP estandar para clasificar

los subcojuntos obtenidos por el metodo SFS-FFNN . Los resultados obtenidos con

el AMMLP fueron superiores a los obtenidos por el BP estandar en terminos de

velocidad y exactitud en la clasificacion. Los resultados obtenidos en conjunto por el

metodo (SFS-FFNN) + Algoritmo AMMLP demostraron ser superiores comparados

con otros algoritmos propuesto recientemente para disminuir la dimension de la data

y para clasificar los subconjuntos obtenidos aplicados a las mismas base de datos. De

los resultados obtenidos podemos concluir que el metodo (SFS-FFNN) + Algoritmo

AMMLP reduce la dimension de la data, reduce el coste computacional, provee una

alta exactitud de la clasificacion.

7Promedio de caracterıstica seleccionadas8Mejor resultado obtenido en una simulacion9Promedio de 10 simulaciones

10Promedio de 100 simulaciones

114

Page 138: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Capıtulo 7

Conclusiones

En esta tesis se propone y se desarrolla un modelo neuronal basado en la

propiedad biologica de la Metaplasticidad para mejorar las limitaciones de lentitud,

convergencia y exactitud del Algoritmo de Retropropagacion. La Metaplasticidad

biologica esta relacionada con el aprendizaje y la memoria y con la Teorıa de la

informacion de Shannon, en este sentido el modelo propuesto AMMLP modela dicha

propiedad en la fase de entrenamiento de las Redes Neuronales Artificiales (RNAs),

dandole mas relevancia a los patrones menos frecuentes y substrayendo importancia

a los mas frecuentes durante esta fase. Concretamente el algoritmo AMMLP se ha

implementado en un Perceptron Multicapas (MLP) y ha sido aplicado a diferentes

problemas de la clasificacion de patrones.

El algoritmo AMMLP en el problema de la clasificacion del cancer de mama

demostro ser superior en terminos exactitud en la clasificacion, velocidad,

fiabilidad y de bajo coste computacional a todos los algoritmos propuestos

recientemente y que han sido aplicados es este problema. muchos algoritmos

y metodos ha sido aplicados al problema de la clasificacion de cancer de

mama. Sin embargo ninguna de estas soluciones a logrado obtener la exac-

titud y la fiabilidad (los resultados obtenidos tienen muy poca dispersion)

en la clasificacion alcanzada por el algoritmo AMMLP propuesto en esta

investigacion. De los resultados obtenidos por el AMMLP en este problema

podemos concluir que el mencionado algoritmo puede ser utilizados por los

especialistas de esta area como una segunda opinion medica en el momentos

de tomar sus decisiones con respecto al cancer de mama.

115

Page 139: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

El algoritmo AMMLP en el problema de la evaluacion del riesgo de credito

bancario fue usado para apoyar las decisiones de los analista de riesgos

bancarios en el momento de otorgar o no el credito. El AMMLP obtuvo los

mejores resultados presentados hasta el momento por otros investigadores.

Cabe destacar que ninguno de los algoritmos aplicados a este problema a

logrado obtener la exactitud y fiabilidad alcanzada por el AMMLP. Esto

demuestra que el algoritmo propuesto AMMLP puede ser considerado co-

mo una herramienta que apoye las decisiones de los analista de riego bancarios.

Los parametros relacionados con la metaplasticidad (A y B) de algoritmo

AMMLP fueron optimizados en todas las bases de datos utilizadas, y pueden

ser utilizados como una primera aproximacion en futuras investigaciones.

El AMMLP demostro ser un algoritmo que mejora de manera cuantitativa

los problemas de lentitud, convergencia y exactitud en la clasificacion del

algoritmo de retropropagacion.

En general podemos concluir que, el algoritmo propuesto AMMLP es una

alternativa, facil de implementar y aplicar, que reduce el tiempo de computo

y el numero de iteraciones durante la fase de entrenamiento, con lo que se

consigue un entrenamiento mucho mas eficiente y con muy alto nivel de

exactitud en la clasificacion.

Aunque con el AMMLP se han obtenido excelentes resultados experimentales,

somos conciente de que este algoritmo no es la solucion definitiva a los problemas

del algoritmo de retropropagacion, sin embargo con el mencionado algoritmo se

han obtenidos nuevas hipotesis que puede servir de inspiracion para estudiar la

metaplasticidad biologica desde otro punto de vista.

116

Page 140: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Capıtulo 8

Contribuciones y Lıneas Futuras

de Investigacion

8.1. Contribuciones

A continuacion se presentan las principales contribuciones originales que se han

realizado al implementar un modelo neuronal basado en propiedad biologica de la

Metaplasticidad en esta investigacion.

Se ha implementado un modelo neuronal basado en la propiedad biologi-

ca de la metaplasticidad y se ha aplicado en un Perceptron Multicapa

[10, 11, 12, 184, 185].

Se ha aplicado por primera vez el algoritmo AMMLP al relevante y crıtico

problema de la clasificacion del cancer de mama, obtenido un alto nivel de

exactitud en la clasificacion. Los resultado obtenidos por el AMMLP fueron

superiores a los obtenidos por el algoritmo de retropropagacion estandar

y a los obtenidos por otros algoritmos de ultima generacion que han sido

aplicados al mismo problema. En base a los resultados obtenidos se puede

decir que, el AMMLP puede ser utilizado como una segunda opinion medica

por los especialista en el momento de tomar sus decisiones con respecto al

cancer de mama [11, 185].

117

Page 141: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

8.1 Contribuciones

Con el objeto de comprobar la potencialidad del AMMLP, este ha sido

aplicado al difıcil problema de la evaluacion del riesgo de credito bancario.

El AMMLP se ha usado para apoyar las decisiones de los analistas de riesgo

bancario en el momento de otorgar o no el credito. Los resultados obtenidos

por el AMMLP en este caso fueron superiores a los del estado del arte. El

algoritmo AMMLP se debe considerar como una herramienta que puede

apoyar las decisiones de prestamo de credito bancario.

Se demuestra la viabilidad de la aplicacion del AMMLP en la industria,

aplican-dolo al representativo problema de la clasificacion de nudos en la

madera. Las prestaciones obtenidas por el AMMLP fueron superiores a otros

algoritmos aplicados recientemente a este problema [12].

Se ha propuesto un nuevo algoritmo para la seleccion de caracterısticas

(SFS-FFNN) con la finalidad de disminuir la dimensionalidad de los datos y se

uso el AMMLP para clasificar las caracterısticas seleccionada. Los resultados

obtenidos por el SFS-FFNN + AMMLP fueron superiores los consultados en

la literatura.

Para demostrar la capacidad de generalizacion del algoritmo AMMLP, este

ha sido aplicado a diferentes bases datos estandar usadas en la clasificacion de

patrones (iris, vino, cancer de mama de wisconsin e ionosfera). Los resultados

obtenidos por el AMMLP fueron iguales o superiores a los obtenidos por otros

investigados que han usado estas mismas bases de datos en sus estudios [184].

Los parametros relacionados con la metaplasticidad (A y B) del algoritmo

AMMLP fueron optimizados en todas las bases de datos utilizadas en esta tesis

y los valores obtenidos pueden ser utilizados como una primera aproximacion

en futuras aplicaciones [11, 12, 184, 185].

En general el AMMLP reduce el tiempo de computo y el numero de iteraciones

durante la fase de entrenamiento, logrando de esta manera un entrenamiento

mas eficaz. Ademas, alcanza un alto nivel de exactitud en la clasificacion. Con

esta eficacia el AMMLP parece mejorar al MLP y al resto de los algoritmos

118

Page 142: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

8.2 Lıneas Futuras de Investigacion

de clasificacion en todas las aplicaciones [11, 12, 184, 185].

8.2. Lıneas Futuras de Investigacion

Con la experiencia adquirida durante el desarrollo de esta tesis, se pueden

plantear plantear varias lıneas de investigacion que se pueden llevar acabo a partir

de los trabajos que se han desarrollado y descrito.

1. Algunas de estas lıneas son la continuacion natural y directa de esta investi-

gacion. De las cuales se pueden mencionar las siguientes:

Implementar la Metaplasticidad Artificial en otras RNAs y comparar los

resultados obtenidos de esta implementacion con el AMMLP propuesto

en esta tesis.

Optimizar los valores de los parametros A y B de la Metaplasticidad

Artificial ya que, hasta el momento estos valores se han seleccionado de

manera empırica. Lo ideal serıa establecer un metodo sistematico para

la seleccion optima de estos valores.

Aplicar una fase de preproceso utilizando algoritmos recientes de opti-

mizacion tales como: Colonias de Hormigas (Ant Colony Optimization,

ACO), Enjambre de Partıculas (Particle Warm Optimization, PSO),

Algoritmo de Abejas (Bees Algorithm), etc, con la finalidad de obtener

los mejores parametros tanto de la red (capas ocultas, numeros de

neuronas de dichas capas, numeros de nodos de salidas, etc) como de la

metaplasticidad (A y B) para lograr mayor rapidez en el entrenamiento

y mayor exactitud en la clasificacion.

Investigar si el Algoritmo AMMLP cumple con la propiedad biologica

de la Homeostasis, la cual evita la saturacion de las neuronas biologicas

y en el caso de las artificiales estarıa modelada en evitar que estas se

saturen o que se bloqueen en la fase de entrenamiento.

119

Page 143: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

8.2 Lıneas Futuras de Investigacion

2. Otra lınea de investigacion se centra en realizar un modelo similar al propuesto.

Modelar, disenar, implementar y probar un nuevo algoritmo neuronal basado

en la propiedad biologica de la Homeostasis.

120

Page 144: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Parte I

APENDICES

121

Page 145: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

8.3 Publicaciones que sustentan la Tesis

8.3. Publicaciones que sustentan la Tesis

8.3.1. Publicaciones en Revistas (JCR)

1. Nombre de la Revista: Neurocomputing. (2da. revision)

Ranking JCR: 54/95.

Factor de Impacto: 1.234.

Cuartil de la categorıa: Q2.

Tıtulo: Breast Cancer Classification Applying Artificial Metaplasticity Algorithm.

Autores: Alexis Marcano-Cedeno, Joel Quintanilla-Domınguez, Diego Andina.

2. Nombre de la Revista: International Journal of Neural Systems. (2da. revision)

Ranking JCR: 12/102

Factor de Impacto: 2.988

Cuartil de la categorıa: Q1

Tıtulo: Artificial Metaplasticity Neural Network Applied To Credit Scoring.

Autores:Alexis Marcano-Cedeno, Amparo Marin B., Juan Pinuela and D. Andina

8.3.2. Publicaciones en Congresos

1. Congreso: IEEE International Conference of Industrial Electronics (IECON’10).

Ranking:

Tıtulo: Feature Selection Using Sequential Forward Selection and classification

applying Artificial Metaplasticity Neural Network..

Autores: Alexis Marcano-Cedeno, J. Quintanilla-Domınguez, Diego Andina.

Publicacion: Aceptado

Lugar: Phoenix - USA.

Fecha: 7-10 de Noviembre de 2010.

2. Congreso: IEEE International Conference of Industrial Electronics (IECON’09).

Tıtulo: Wood Defects Classification Using Artificial Metaplasticity Neural Network.

Autores: Alexis Marcano-Cedeno, J. Quintanilla-Domınguez, Diego Andina.

Publicacion: Proceedings of IECON 2009 IEEE 35th Annual Conference of

Industrial Electronics.

Doi: 10.1109/IECON.2009.5415189.

Paginas: 3422 - 3427.

Lugar: Oporto - Portugal.

Fecha: 3-5 de Noviembre de 2009.

122

Page 146: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

8.3 Publicaciones que sustentan la Tesis

3. Congreso: IEEE International Conference on Systems, Man and Cybernetics

(SMC 2009).

Tıtulo: Testing Artificial Metaplasticity in MLP Applications.

Autores: Alexis Marcano-Cedeno, J. Quintanilla-Domınguez, Diego Andina.

Publicacion: Proceedings of the 2009 IEEE International Conference on Systems,

Man, and Cybernetics .

Doi: 10.1109/ICSMC.2009.5346818. Paginas: 4256-4261 .

Lugar: San Antonio, Texas, USA.

Fecha: 11-14 de Octubre de 2009.

4. Congreso: IEEE International Conference on Industrial Informatics (INDIN 2009).

Tıtulo: Artificial Metaplasticity MLP applied to Image Classification.

Autores: Alexis Marcano-Cedeno, Aleksandar Jevtic,Antonio Alvarez-Vellisco,

Diego Andina.

Publicacion: Proceedings of the 2009 7th IEEE International Conference On

Industrial Informatics, Vols. 1 AND 2.

Paginas: 650-653.

Doi: 10.1109/INDIN.2009.5195879.

Lugar: Cardiff - GALES.

Fecha: 24-26 de Junio de 2009.

5. Congreso: International Work-Conference On The Interplay Between Natural And

Artificial Computation (IWINAC 2009).

Tıtulo: Breast Cancer Classification Applying Artificial Metaplasticity.

Autores: Alexis Marcano-Cedeno, F.S. Buendıa-Buendıa, Diego Andina

Publicacion: Lecture Notes In Computer Science; Vol.5602. Proceedings of the 3rd.

International Work-Conference On The Interplay Between Natural And Artificial

Computation: Part I: Bio-Inspired Systems: Computational and Ambient Intelligence.

Paginas: 48-54.

Doi: 10.1007/978-3-642-02267-8.

Lugar: Santiago de Compostela - Espana.

Fecha: 22-26 de Junio de 2009.

6. Congreso: International Work-Conference on Artificial Neural Networks

(IWANN’09).

Ranking: 55/620.

Tıtulo: New Artificial Metaplasticity MLP Results on Standard Data Base.

Autores: Alexis Marcano-Cedeno, Aleksandar Jevtic,Antonio Alvarez-Vellisco,

Diego Andina.

123

Page 147: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

8.3 Publicaciones que sustentan la Tesis

Publicacion: Lecture Notes In Computer Science; Vol. 5517. Proceedings of the 10th

International Work-Conference on Artificial Neural Networks: Part I: Bio-Inspired

Systems: Computational and Ambient Intelligence.

Paginas: 174-179.

Doi: 10.1007/978-3-642-02478-8 22

Lugar: Salamanca - Espana.

Fecha: 10-12 de Junio de 2009.

7. Congreso: International Work-Conference On The Interplay Between Natural And

Artificial Computation (IWINAC 2007).

Tıtulo: Error Weighting in Artificial Neural Networks Learning Interpreted as a

Metaplasticity Model.

Autores: Diego Andina, Aleksandar Jevtic, Alexis Marcano, Jose Miguel Barron

Adame.

Publicacion: Lecture Notes In Computer Science; Vol. 4527. Proceedings of the 2nd.

International Work-Conference On The Interplay Between Natural And Artificial

Computation: Part I: Bio-Inspired Systems: Computational and Ambient Intelligence.

Paginas:244-252 .

Doi: 10.1007/978-3-540-73053-8.

Lugar: La Manga del Mar Menor, Murcia - Espana.

Fecha: 18-21 Junio de 2007.

8. Congreso: International Work-Conference On The Interplay Between Natural And

Artificial Computation (IWINAC 2007).

Tıtulo: A Preliminary Neural Model for Movement Direction Recognition Based on

Biologically Plausible Plasticity Rules.

Autores: Eduardo Akira Kinto, Emılio Del Moral Hernandez, Alexis Marcano,

Francisco Javier Ropero Pelaez.

Publicacion: Lecture Notes In Computer Science; Vol. 4528. Proceedings of

the 2nd. International Work-Conference On The Interplay Between Natural And

Artificial Computation: Part II: Bio-Inspired Systems: Computational and Ambient

Intelligence.

Paginas: 628-636.

Doi: 10.1007/978-3-540-73055-2 65

Lugar: La Manga del Mar Menor, Murcia - Espana.

Fecha: 18-21 Junio de 2007.

124

Page 148: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

8.4 Otras Publicaciones

8.4. Otras Publicaciones

1. Congreso: World Automation Congress (WAC2010).

Tıtulo: Modeling Logic and Neural Approaches to Bankruptcy Prediction Models.

Autores: Amparo Marin de la Barcena, Alexis Marcano, J.A. Pinuela, Diego Andina.

Publicacion: Aceptado.

Lugar: Kobe - Japon.

Fecha: 10-23 de Septiembre 2010.

2. Congreso: World Congress of Soil Science, Pedometrics Symposia (Pedometrics

2007).

Tıtulo: Quantifying Soil Permeability through 2D Multifractal and Wavelet

Approach.

Autores: Joaquın Torres, Alexis Marcano, R. Heck, Juan Grau, J.M. Anton, Ana

Tarquis.

Paginas: 34.

Lugar: Tuebingen - Alemania.

Fecha: 27-30 de Agosto 2007.

3. Congreso: International Conference on Cybernetics and Information Technologies,

Systems and Applications (CITSA 2007).

Tıtulo: A Radar Detector Proposal Based on DTW Echo Properties.

Autores: Joaquın Torres, Alexis Marcano, Diego Andina.

Publicacion: Proceedings of the 2007 4th International Conference on Cybernetics

and Information Technologies, Systems and Applications.

Paginas: 16-19.

Lugar: Orlando, Florida - USA.

Fecha: 12-15 de Julio 2007.

4. Congreso: International Conference on Cybernetics and Information Technologies,

Systems and Applications (CITSA 2007).

Tıtulo: Computer-Aided Diagnosis Scheme Applying GRNN Neural Network.

Autores: Antonio Vega-Corona, Alexis Marcano, Diego Andina.

Publicacion: Proceedings of the 2007 4th International Conference on Cybernetics

and Information Technologies, Systems and Applications.

Paginas: 16-19.

Lugar: Orlando, Florida - USA.

Fecha: 12-15 de Julio 2007.

125

Page 149: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

8.4 Otras Publicaciones

5. Congreso: IEEE International Symposium on Industrial Electronics (ISIE 2007).

Tıtulo: Radar Signal Processing Through Wavelet Transform.

Autores: Joaquın Torres, Alexis Marcano, Diego Andina.

Publicacion: Proceedings of the 2007 7th IEEE International Symposium on

Industrial Electronics.

Paginas: 3420-3423.

Lugar: Vigo - Espana.

Fecha: 4-7 de Junio 2007.

126

Page 150: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

Bibliografıa

[1] Rumelhart D.E. and McClelland J. J. and the PDP Research Group . Parallel

distributed processing in the microsturcture in congnition. Vol. 1, pp. 216-271,

1986. Cambridge, MA: MIT Press

[2] Haykin S. Neural networks: a comprehensive foundation. Prentice-Hall Prentice

hall, New Jersey,USA. second edition. 1994

[3] Chaudhuri B.B. and Bhattacharya U. “Efficient training and improved perfor-

mance of multilayer perceptron in pattern classification”. Neurocomputing, Vol.

34(4), pp. 11-27. 2000. doi:10.1016/S0925-2312(00)00305-2.

[4] Abraham W.C. “Activity-dependent regulation of synaptic plasticity (meta-

plasticity) in the hippocampus. in the hippocampus”. In: The Hippocampus:

Functions and Clinical Relevance, Ed. N. Kato. Elsevier Science B.V., pp. 15

26. 1996.

[5] Parker D. and Grillner S. “Activity-Dependent Metaplasticity of Inhibitory and

Excitatory Synaptic Transmission in the Lamprey Spinal Cord Locomotor”. The

Journal of Neuroscience, Vol. 19(5), pp. 1647-1656. 1999.

[6] Thiagarajana T.C., Lindskoga M., Malgarolib A., Tsiena R.W. “LTP

and adaptation to inactivity: Overlapping mechanisms and implica-

tions for metaplasticit”. Neuropharmacology, 52(1), pp. 156-175. 2007.

doi:10.1016/j.neuropharm.2006.07.030.

[7] Young J., Isiegas C., Abel T. and Nguyen P.V. “Metaplasticity of the late-

phase of long-term potentiation a critical role for protein kinase A in synap-

tic tagging”. European Journal of Neuroscience, Vol. 23, pp. 1784-1794. 2006.

doi:10.1111/j.1460-9568.2006.04707.x

[8] Yu X., Shouval H.Z. and Knierim J.J. “A Biophysical Model of Synaptic Plas-

ticity and Metaplasticity Can Account for the Dynamics of the Backward Shift

127

Page 151: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

of Hippocampal Place Fields”. Journal of Neurophysiology, Vol. 100, pp. 2008.

983-992. doi:10.1152/jn.01256.2007

[9] Ropero-Pelaez J., Piqueira J.R. and Piqueira J.R. “Biological clues for up-

to-date artificial neurons”. In Computational Intelligence for Engineering and

Manufacturing, Andina D and Pham D.T. (Eds), Springer-Verlag, The Neder-

lands. 2007.

[10] Andina D., Alvarez-Vellisco A., Jevtic A. and Fombellida J. “Artificial meta-

plasticity can improve artificial neural network learning”. In Intelligent Automa-

tion and Soft Computing, Special Issue in Signal Processing and Soft Comput-

ing. Guest Editor D. Andina., Vol. 15(4), pp. 681-649. 2009. TSI Press, USA.

ISSN: 1079-8587.

[11] Marcano-Cedeno A., Alvarez-Vellisco A., Andina D. “Artificial metaplasticity

MLP applied to image classification”. IEEE International Conference on In-

dustrial Informatics, pp. 650-653. 2009. doi:10.1109/INDIN.2009.5195879.

[12] Marcano-Cedeno A., Quintanilla-Domınguez J., Andina D. “Wood Defects

Classification Using Artificial Metaplasticity Neural Network”. IEEE Preprint

of IECON Proceedings, pp. 3458-3463. 2009. doi: 10.1109/IECON.2009.5415189.

[13] Choi B. and Lee J.H. “Comparison of generalization ability on solv-

ing differential equations using backpropagation and reformulated radi-

al basis function networks”. Neurocomputing, Vol. 73, pp. 115-118. 2009.

doi:10.1016/j.neucom.2009.02.026.

[14] Karabatak M. and Cevdet-Ince M. “An expert system for detection of breast

cancer based on association rules and neural network”. Expert Systems with

Applications, Vol. 36, pp. 3465-3469. 2009. doi:10.1016/j.eswa.2008.02.064.

[15] Khashman A. “A neural network model for credit risk evaluation”. Int J Neural

Syst., Vol. 19(1), pp. 285-294. 2009.

[16] Leonard J. and Kramer M.A. “Improvement of the backpropagation algorithm

for training neural networks”. Computers & Chemical Engineering, Vol. 14(3),

pp. 337-341. 1990.doi:10.1016/0098-1354(90)87070-6.

[17] Lee M. and Weidman S.T. “Expert systems for guiding backpropagation train-

ing of layered perceptrons”. Expert Systems with Applications, Vol. 2(1), pp.

73-81. 1991. doi:10.1016/0957-4174(91)90135-2.

128

Page 152: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

[18] Kim Y.K. and Ra J.B. “Weight value initialization for improving training

speed in the backpropagation network”. In Proc. IEEE International Joint

Conference on Neural Networks, IJCNN’91, Vol. 3, pp. 2396-2401. 1991.

doi:110.1109/IJCNN.1991.170747.

[19] Scalero R.S. and Tepedelenlioglu N. “A fast new algorithm for training feedfor-

ward neural networks”. Signal Processing, IEEE Transactions on , Vol. 40(1),

pp. 202-210. 1992. doi: 10.1109/78.157194.

[20] Karayiannis N.B. and Venetsanopoulos A.N. “Fast learning algorithms for neu-

ral networks”. Circuits and Systems II: Analog and Digital Signal Processing,

IEEE Transactions on , Vol. 39(7), pp. 453-474. 1992. doi: 10.1109/82.160170.

[21] Anand R., Mehrotra K.G., Mohan C.K. and Ranka S. “An improved algorithm

for neural network classification of imbalanced training sets”. Neural Networks,

IEEE Transactions on, Vol. 4(6), pp. 962-969. 1993. doi:10.1109/72.286891.

[22] Riedmiller M. “Advanced supervised learning in multi-layer perceptrons - From

backpropagation to adaptive learning algorithms”. Computer Standards & In-

terfaces, Vol. 16(3), pp. 265-278. 1994. doi:10.1016/0920-5489(94)90017-5.

[23] Chen D.S. and Jain R.C. “A robust backpropagation learning algorithm for

function approximation”. Neural Networks, IEEE Transactions on, Vol. 5(3),

pp. 467-479. 1994. doi:10.1109/72.286917.

[24] Alpsan D., Towsey M., Ozdamar Z., Tsoi A.C. and Ghista D.N. “Efficacy of

Modified Backpropagation and Optimisation Methods on a Real-world Medical

Problem”. Neural Networks, Vol. 8(6), pp. 945-962. 1995. doi:10.1016/0167-

8655(95)00124-Y.

[25] Solomon R. and Van-Hemmen J.L. “Accelerating backpropagation through

dynamic self-adaptation”. Neural Networks, Vol. 9(4), pp. 589-601. 1996.

doi:10.1016/0893-6080(95)00144-1.

[26] Fu L., Hsu H.H. and Principe J.C. “Incremental backpropagation learning net-

works”. IEEE Transactions on Neural Neworks, Vol. 7(3), pp. 757-761. 1996.

doi:10.1109/72.5017321.

[27] Magoulas G.D., Vrahatis M.N. and G.S. “Effective Backpropagation Training

with Variable Stepsize Neural Networks”. Neural Networks, Vol. 10(1), pp. 69-

82. 1997. doi:10.1016/S0893-6080(96)00052-4.

129

Page 153: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

[28] Yam Y.F., Chow T.W. and Leung C.T. “A new method in determining initial

weights of feedforward neural networks for training enhancement”. Neurocom-

puting, Vol. 16(1), pp. 23-32. 1997. doi:10.1016/S0925-2312(96)00058-6.

[29] Sexton R.S., Dorsey R.E. and Johnson J.D. “Toward global optimization of

neural networks: A comparison of the genetic algorithm and backpropagation”.

Decision Support Systems, Vol. 22(2), pp. 171-185. 1998. doi:10.1016/S0167-

9236(97)00040-7.

[30] Sexton R.S., Alidaee B., Dorsey R.E. and Johnson J.D. “Global optimization

for artificial neural networks: A tabu search application”. European Journal

of Operational Research, Vol. 160(2), pp. 570-584. 1998. doi:10.1016/S0377-

2217(97)00292-0.

[31] Kamarthi S.V. and Pittne S. “Accelerating neural network training using

weight extrapolations”. Neural Networks, Vol. 12(9), pp. 1285-1299. 1999.

doi:10.1016/S0893-6080(99)00072-6.

[32] Kamarthi M. “Modelling with constructive backpropagation”. Neural Networks,

Vol. 12(4), pp. 707-716. 1999. doi:0.1016/S0893-6080(99)00018-0.

[33] Cho S.Y. and Chow T.W. “Training multilayer neural networks using fast global

learning algorithm - least-squares and penalized optimization methods”. Neuro-

computing, Vol. 25(1), pp. 115-131. 1999. doi:10.1016/S0925-2312(99)00055-7.

[34] Ampazisa K., Perantonisa S.J. and Taylor J.G. “Dynamics of multilayer net-

works in the vicinity of temporary minima”. Neural Networks, Vol. 12(1), pp.

43-58. 1999. doi:10.1016/S0893-6080(98)00103-8.

[35] Yam Y.F. and Chow T.W. “A weight initialization method for improving train-

ing speed in feedforward neural network”. Neurocomputing, Vol. 30(1), pp. 219-

232. 2000. doi:10.1016/S0925-2312(99)00127-7.

[36] Lee H.M., Chen C.M. and Huang T.C. “Learning efficiency improvement of

back-propagation algorithm by error saturation prevention method”. Neuro-

computing, Vol. 41, pp. 125-143. 2001. doi:10.1016/S0925-2312(00)00352-0.

[37] Mandische M. “A comparison of evolution strategies and backpropagation

for neural network training”. Neurocomputing, Vol. 42, pp. 87-117. 2002.

doi:10.1016/S0925-2312(01)00596-3.

130

Page 154: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

[38] Hoo k.A., Sinzinger E.D. and Piovoso M.J. “Improvements in the predictive

capability of neural networks”. Journal of Process Control, Vol. 12(1), pp.193-

202. 2002. doi:10.1016/S0959-1524(01)00007-5.

[39] Eom K., Jung K. and Sirisena H. “Performance improvement of backpropaga-

tion algorithm by automatic activation function gain tuning using fuzzy logic”.

Neurocomputing, Vol. 50, pp. 439-460. 2003. doi:10.1016/S0925-2312(02)00576-

3.

[40] Zweiri Y.H., Whidborne J.F. and Seneviratne L.D. “A three-term back-

propagation algorithm”. Neurocomputing, Vol. 50, pp. 305-318. 2003.

doi:10.1016/S0925-2312(02)00569-6.

[41] Abraham A. “Meta learning evolutionary artificial neural networks”. Neuro-

computing, Vol. 56, pp. 1-38. 2004. doi:10.1016/S0925-2312(03)00369-2

[42] Wang X.G., Tang Z., Tamura H., Ishii M and Sun W.D. “An improved back-

propagation algorithm to avoid the local minima problem”. Neurocomputing,

Vol. 56, pp. 455-460. 2004. doi:10.1016/j.neucom.2003.08.006.

[43] Mohammad-Taghi V.B and Pavesie N. “Training RBF networks with

selective backpropagation”. Neurocomputing, Vol. 62, pp. 39-64. 2004.

doi:10.1016/j.neucom.2003.11.011.

[44] Pernıa-Espinoza A.V., Ordieres-Mere J.B., Martınez-de-Pison F.J. and

Gonzalez-Marcos A. “TAO-robust backpropagation learning algorithm”. Neural

Networks, Vol. 18(2), pp. 191-204. 2005. doi:10.1016/j.neunet.2004.11.007.

[45] Steil J.J. “Online stability of backpropagation-decorrelation recur-

rent learning”. Neurocomputing, Vol. 69(7-9), pp. 642-650. 2006.

doi:10.1016/j.neucom.2005.12.012.

[46] Behera L., Kumar S. and Patnaik A. “On Adaptive Learning Rate That Guar-

antees Convergence in Feedforward Networks”. Neural Networks, IEEE Trans-

actions on, Vol. 17(5), pp. 1116-1125. 2006. doi:0.1109/TNN.2006.878121.

[47] Wang C.H., Kao C.H. and Lee W.H. “A new interactive model for improving

the learning performance of back propagation neural network”. Automation in

Construction, Vol. 16(6), pp. 745-758. 2007. doi:10.1016/j.autcon.2006.12.007.

131

Page 155: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

[48] Khashman A. “A Modified Backpropagation Learning Algorithm With Added

Emotional Coefficients”. Neural Networks, IEEE Transactions on, Vol. 19(11),

pp. 1896-1909. 2008. doi:10.1109/TNN.2008.2002913.

[49] Yang S.S., Siu S. and Ho C.L. “Analysis of the Initial Values in Split-Complex

Backpropagation Algorithm”. Neural Networks, IEEE Transactions on, Vol.

19(9), pp. 1564-1573. 2008.doi:10.1109/TNN.2008.2000805.

[50] Zhang C., Wu W., Chen X.H. and Xiong Y. “Convergence of BP algorithm for

product unit neural networks with exponential weights”. Neurocomputing, Vol.

72(1), pp. 513-5203. 2008. doi:10.1016/j.neucom.2007.12.004.

[51] Silva L.M., Marques de Sa J. and Alexandre L.A. “Data classification with

multilayer perceptrons using a generalized error function”. Neural Networks,

Vol. 21(9), pp. 1302-1310. 2008. doi:10.1016/j.neunet.2008.04.004.

[52] Soliman M.I. and Mohamed S.A. “A highly efficient implementation

of a backpropagation learning algorithm using matrix ISA. Journal of

Parallel and Distributed Computing , Vol. 68(7), pp. 949-961. 2008.

doi:10.1016/j.jpdc.2007.12.004.

[53] Cheng H.L and Park S.C. “An efficient document classification model using

an improved back propagation neural network and singular value decompo-

sition”. Expert Systems with Applications, Vol. 36(2), pp. 3208-3215. 2009.

doi:10.1016/j.eswa.2008.01.014.

[54] Kathirvalavakumar T. and Jeyaseeli-Subavathi S. “Neighborhood based modi-

fied backpropagation algorithm using adaptive learning parameters for training

feedforward neural networks”. Neurocomputing, Vol. 72, pp. 3915-3921. 2009.

doi:10.1016/j.neucom.2009.04.010.

[55] Bai Y., Zhang H. and Hao Y. “The performance of the backpropagation algo-

rithm with varying slope of the activation function”. Chaos, Solitons & Fractals,

Vol. 40(1), pp. 69-77. 2009. doi:10.1016/j.chaos.2007.07.033.

[56] Sun J. “Local coupled feedforward neural network”. Neural Networks , Vol.

23(1), pp. 108-113. 2010. doi:110.1016/j.neunet.2009.06.016.

[57] DARPA. DARPA Neural Network Study. AFCEA International Press, pp. 60.

1988.

132

Page 156: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

[58] Kohonen T. “The self-organizing map”. Neurocomputing, Vol.21, pp. 1-6. 1998.

doi:10.1016/S0925-2312(98)00030-7.

[59] Andina D. and Pham D.T. Computational Intelligence for Engineering and

Manufacturing (Eds), Springer-Verlag, The Nederlands. (2007). ISBN: 978-0-

387-37450-5.

[60] Mendel J.M. and McLaren R.W. “Reinforcement-learning control and pattern

recognition systems”. In Mendel, J. and Fu, K., editors. Adaptive, Learning

and Pattern Recognition Systems: Theory and Applications, pp. 287-318. 1970.

Academic Press, New York.

[61] Lippmann R.P. “An introduction to computing with neural nets”. IEEE ASSP

Magazine, Vol. 3(4), pp. 4-22. 1987.

[62] Zurada J.M. Introduction to Artificial Neural Systems. West Publishing Com-

pany, St. Paul. 1999.USA.

[63] Hassoun M.H. “Fundamentals of Artificial Neural Networks”. MIT Press, Cam-

bridge, MA. 1995.

[64] Hebb DO. The Organization of Behavior. Laurence Erlbaum Associates, 2002

(reedition of the 1949 original). 1949.ISBN 0805843000, 978080584300

[65] Jain A.K., Mao J. and Mohiuddin K.M. “Artificial neural networks: a tutorial”.

Comput. IEEE March, pp. 31-44. 1996.

[66] McCulloch W.S. and Pitts W.H. “A logical calculus of the ideas immanent in

nervous activity”. Bulletin of mathematical Biohysics, Vol. 5, pp. 115-133. 1943.

[67] Rosenblat F. “The Perceptron: A Probabilistic Model for Information Storage

and Organization in the Brain”. Psychological Review, Vol. 65(6), pp. 386-408.

1958.

[68] Andina D.(1995). Optimizacion de detectores neuronales. Aplicacion a Radar

y Sonar. Tesis Doctoral, ETSIT, Universidad Politecnica de Madrid.

[69] Minsky M. and Papert S. “Perceptrons: An Introduction to Computational

Geometry”. MIT Press, Cambridge, MA. 1969.

[70] Werbos P.J. “Backpropagation through time: What it does and how to do it”.

IEEE Proceedings, Vol. 78(10), pp. 1550-1560. 1990. doi: 10.1007/BF02551274.

133

Page 157: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

[71] Parker D. “A Comparison of Algorithms for Neuron-Like Cells”. AIP

Proc.: Neural Networks for Computing, Vol. 151, pp. 327-332. 1986.

doi:10.1063/1.36233.

[72] Hilera J.R. and Martınez V.J. Redes neuronales artificiales: fundamentos, mod-

elos y aplicaciones. 1995. RA-MA.Madrid.

[73] Cybenko G. “Approximation by superposition of a sigmoidal function”. Math-

ematics of Control, Signals and Systems, Vol. 2(4), pp. 303-314. 1989. doi:

10.1109/5.58337.

[74] Widrow B. and Hoff M.E. Associative Storage andRetrieval of Digital Infor-

mation in Network of Adaptive ”Neurons”. Biological Prototypes and Sinthetic

Systems. Published by Plenum Press. Vol. 1, 1962. New York.

[75] Werbos P.J. Beyond regression: New tools for prediction and analysis in the be-

havioral sciences. Harvard University Unpublished doctoral dissertation. 1974.

[76] Phansalkar V.V. and Sastry P.S. Analysis of the back-propagation algorithm

with momentum. IEEE Trans Neural Network, Vol. 5(3), pp. 505-506. 1994.

doi:10.1109/72.286925.

[77] Abraham W.C. “Metaplasticity: Key Element in Memory and Learning?”. News

in Physiological Sciences, Vol. 14(2), pp. 85. 1999.

[78] Cajal S.R. “La fine structure des centres nerveux”. Proceedings of Royal Society,

Vol. 55, pp. 444-468. 1894.

[79] Konorski J. “Conditioned Reflexes and Neuron Organization”. Cambridge, UK:

Cambridge Univ. Press. (948.

[80] Jedlicka P. “Synaptic plasticity, metaplasticidad and BCM theory”. Institute

of Pathophysiology. Medical Faculty. Comenius University, Vol.103(4), pp. 137-

143. 2002.

[81] Todd K., Serrano A., Lacaille J. and Robitaille R. “Glial cells in synap-

tic plasticity”. Journal of Physiology - Paris, Vol. 99, pp. 75-83. 2007.

doi:10.1016/j.jphysparis.2005.12.002.

[82] Malenka R. and Bear M.“LTP and LTD : An Embarrassment of Riches”. Neu-

ron, Vol. 44(1), pp. 5-21. 2004. doi:10.1016/j.neuron.2004.09.012.

134

Page 158: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

[83] Bliss T.V. and Lomo T. “Long-lasting potentiation of synaptic transmission

in the dentate area of the anaesthetized rabbit following stimulation of the

perforant path”. Journal of Physiology, Vol. 232(2), pp. 331-56. 1973.

[84] Aroniadou V.A. and Teyler T.J. “The role of NMDA receptors in long-term

potentiation (LTP) and depression (LTD) in rat visual cortex”. Brain Research,

Vol. 562(1), pp. 136-143. 1991. doi:10.1016/0006-8993(91)91197-9.

[85] Cudmore R.H. and Turrigiano G.G. “Long-Term Potentiation of Intrinsic Ex-

citability in LV Visual Cortical Neurons”. Journal Neurophysiology, Vol. 92, pp.

341-348. 2004. doi:10.1152/jn.01059.2003. 0022-3077/04.

[86] Barrionuevo G., Schotteler F. and Lynch G. “The effects of repetitive low fre-

quency stimulation on control and potentiatied synaptic responses in the hip-

pocampus”. Life Sci, Vol. 27, pp. 12385-2391. 1980.

[87] Bear M.F. “Progress in understanding NMDA-receptor-dependent synaptic

plasticity in the visual cortex”. J. Physiology(Paris), Vol. 90(3-4), pp. 223-227.

1996. doi:10.1016/S0928-4257(97)81428-3.

[88] Massey P.V. and Bashir Z.B. “Long-term depression: multiple forms and impli-

cations for brain function”. Trends in Neurosciences, Vol. 30(4), pp. 176-184.

2007. doi:10.1016/j.tins.2007.02.005.

[89] Martin S.J., Grimwood P.D. and Morris R.G. “Synaptic plasticity and memory:

an evaluation of the hypothesis”. Annual Review of Neuroscience, Vol. 23, pp.

649-711. 2000. doi:10.1146/annurev.neuro.23.1.649.

[90] Neves G., Cooke S.F. and Bliss T.V. “Synaptic plasticity, memory and the

hippocampus: a neural network approach to causality”. Nature Rev. Neurosci,

Vol. 9, pp. 65-75. 2008. doi:10.1146/annurev.neuro.23.1.649.

[91] Abraham W.C. and Bear M.F. “Metaplasticity: the plasticity of synap-

tic plasticity.” Trends in Neurosciences, Vol. 19(4), pp. 126-130. 1996.

doi:10.1016/S0166-2236(96)80018-X.

[92] Abraham W.C. and Tate W.P. “Metaplasticity: a new vista across the field of

synaptic plasticity”. Progress in Neurobiology, Vol. 52(4), pp. 303-323. 1997.doi:

10.1016/S0301-0082(97)00018-X.

135

Page 159: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

[93] Shouval H.Z., Bear M.F. and Cooper L.N. “A unified model of NMDA recep-

tordependent bidirectional synaptic plasticity”. Neurobiology, Vol. 99(16), pp.

10831-10836. 2002. doi: 10.1073/pnas.152343099.

[94] Philpot B.D., Espinosa J.S. and Bear M.F. “Evidence for altered NMDA re-

ceptor function as a basis for metaplasticity in visual cortex”. Journal of Neu-

roscience, Vol. 23(13), pp. 5583-5588. 2003.

[95] Burrone J. and Murthy V.N. “Synaptic gain control and homeostasis”.

Current Opinion in Neurobiology, Vol. 13(5), pp. 560-567. 2003. doi:

10.1016/j.conb.2003.09.007.

[96] Turrigiano G.G. and Nelson S.B. “Homeostatic plasticity in the developing

nervous system”. Nature Reviews Neuroscience, Vol. 5(2), pp. 97-107. 2004.

doi: 10.1038/nrn1327.

[97] Philpot B.D., Cho K. and Bear M. “Obligatory role of NR2A for meta-

plasticity in visual cortex”. Neuron, Vol. 53(4), pp. 495-502. 2007. doi:

10.1016/j.neuron.2007.01.027.

[98] Bear M.F., Cooper L.N. and Ebner F.F. “A physiological basis for a theory

of synapse modification”. Science, Vol. 237, pp. 42-48. 1987. doi: 10.1126/sci-

ence.3037696.

[99] Perez-Otano Isabel and Ehlers M.D. “Homeostatic plasticity and NMDA re-

ceptor trafficking”. Trends in Neurosciences, Vol. 28(5), pp. 229-238. 2005. doi:

10.1016/j.tins.2005.03.004.

[100] Bienenstock E.L., Cooper L.N. and Munro P.W. “Theory for the development

of neuron selectivity: orientation specificity and binocular interaction in visual

cortex”. Journal of Neuroscience, Vol. 2(1), pp. 32-48. 1982.

[101] Abraham W.C. “Metaplasticity: tuning synapses and networks for plas-

ticity”. Nature Reviews Neuroscience, Vol. 9, pp. 387-399. 2008. doi:

doi:10.1038/nrn2356

[102] Davies, C.H., Starkey S.J., Pozza M.F. and Collingridge G.L. “GABAB au-

toreceptors regulate the induction of LTP”. Nature, Vol. 349, pp. 609-611. (1991.

doi: 10.1038/349609a0

136

Page 160: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

[103] Wagner J.J. and Alger B.E. “Homosynaptic LTD and depotentiation: Do

they differ in name only?”. Hippocampus, Vol. 6(1), pp. 24-29. 1998. doi:

10,1002/(SICI)1098 − 1063(1996)6 : 1 < 24 :: AID −HIPO5 > 3,0.CO; 2 − 7

[104] Kinto E., Del-Moral-Hernandez E., Marcano-Cedeno A., and Ropero-Pelaez

J. “A preliminary neural model for movement direction recognition based on

biologically plausible plasticity rules”. in: Proc. IWINAC 2007, Lecture Notes

in Computer Science, Vol. 4528 (Springer, Berlin, 2007), pp. 628-636. 2007. doi:

10.1007/978-3-540-73055-2 65.

[105] Monteiro J.L., Lobo-Netto M., Andina D. and Pelez J.R. “Using Neural Net-

works to Simulate the Alzheimer’s Disease”. in: Proc. WAC 2008, World Au-

tomation Congress. (Hawaii, HI, USA, 2008) pp. 1-6. 2008. ISBN: 978-1- 889335-

38-4. INSPEC Accession Number: 10411864.

[106] Shannon C.E. “A mathematical theory of communication”.The Bell System

Technical Journal, Vol. (27), pp. 379-423. 1948. doi: 10.1145/584091.584093.

[107] Rucky D.W., Rogers S.K., Kabrisk M., Oxley M.E. and Suter B.W.0“ The

multi-layer perceptron as an approximation to a Bayers optimal discrimination

function”. IEEE Transactions on Neural Networks, Vol. 1(4), pp. 296-298. 1990.

doi: 10.1109/72.80266.

[108] http://archive.ics.uci.edu/ml/datasets.html

[109] Jerez-Aragones J.M., Gomez-Ruiz J.A., Ramos-Jimenez G., Munoz-Perez J.

and Alba-Conejo E. A combined neural network and decision trees model for

prognosis of breast cancer relapse. Artificial Intelligence in Medicine. Vo. 27(1),

pp. 45-63. 2003. doi: 10.1016/S0933-3657(02)00086-6.

[110] Christoyianni I., Dermatas E. and Kokkinakis G. “Fast detection of masses in

computer-aided mammography”. IEEE Signal Processing Magazine. Vol. 17(1)

pp. 54-64. 2000. doi: 10.1109/79.814646

[111] Rodrigues P.S., Giraldi G.A., Chang R.F. and Suri J.S. “Non-extensive en-

tropy for cad systems of breast cancer images”. 19th Brazilian Symposium on

Computer Graphics and Image Processing. pp. 121-128. 2006. doi: 10.1109/SIB-

GRAPI.2006.31.

[112] American Cancer Society Hompage (2008). Citing Internet sources URL:

http://www.cancer.org.

137

Page 161: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

[113] Bradley A.P. “The use of the area under the ROC curve in the evaluation of

machine learning algorithms”. Pattern Recognition. Vol. 30(7), pp. 1145-1159.

1997. doi:10.1016/S0031-3203(96)00142-2.

[114] Hopley L. and Schalkwyk, J.V. The magnificent ROC. 2001. Available at

http://www.anaesthetist.com/mnm/stats/roc/.

[115] Zhou X.H. and Harezlak J. “Comparison of bandwidth selection methods for

kernel smoothing of ROC curves”. Statistics in Medicine. Vol. 21(14), pp. 2045-

2055. 2002. doi:10.1002/sim.1156.

[116] Purves R.D. “Optimum numerical integration methods for estimation of area-

under-the-curve (AUC) and area-under-the-moment-curve (AUMC)”. Journal

of Pharmacokinetics and Pharmacodynamics. Vol. 20(3), pp.211-226. 1992. doi:

10.1007/BF01062525.

[117] Spritzler J., DeGruttola V. and Pei L. “Two-Sample Tests of Area-Under-the-

Curve in the Presence of Missing Data”. The International Journal of Biostatis-

tics. Vol. 4(1), pp. 1-18. 2008. doi: 10.2202/1557-4679.1068

[118] Mazurowski M.A. and Tourassi G.D. “Evaluating classifiers: Relation between

area under the receiver operator characteristic curve and overall accuracy.”

In: Proc. IJCNN 2009, International Joint Conference on Neural Networks,

(Atlanta, Georgia, USA, 2009) 2045-2049. doi: 10.1109/IJCNN.2009.5178752.

[119] Peng L., Yang B., Jiang J. “A novel feature selection approach for biomedical

data classification”. Journal of Biomedical Informatics. Vol. 43(1), pp. 15-23.

2010. doi: 10.1016/j.jbi.2009.07.008.

[120] Conforti D. and Guido R. “Kernel based support vector machine via semidefi-

nite programming: Application to medical diagnosis”. Computers & Operations

Research. Vol. 37, pp. 1389-1394. 2010. doi: 10.1016/j.cor.2009.02.018.

[121] Akay M.F. “Support vector machines combined with feature selection for

breast cancer diagnosis”. Expert Systems with Applications. Vol.36(2), pp. 3240-

3247. 2009. doi: 10.1016/j.eswa.2008.01.009.

[122] Ubeyli E.D. “Implementing automated diagnostic systems for breast cancer

detection”. Expert Systems with Applications. Vol. 33(4), pp. 1054-1062. 2007.

doi: 10.1016/j.eswa.2008.02.064.

138

Page 162: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

[123] Quinlan, J.R. “Improved use of continuous attributes in C4,5”. Journal of

Artificial Intelligence Research. Vol. 4, pp. 77-909. 1996.

[124] Hamiton, H.J., Shan, N., and Cercone N. “RIAC: A rule induction algorithm

based on approximate classification Technical Report”. University of Regina.

(1996)

[125] Ster B. and Dobnikar A. “Neural networks in medical diagnosis: Compar-

ison with other methods”. In: Proc. EANN’96, International Conference on

Engineering Applications of Neural Networks, (London, United Kingdom,1996)

427-430.

[126] Nauck D. and Kruse R. “Obtaining interpretable fuzzy classification rules from

medical data”. Artificial Intelligence in Medicine. Vol. 16, pp. 149-169. 1999.

doi: 10.1016/S0933-3657(98)00070-0

[127] Pena-Reyes C.A. and Sipper M. “A fuzzy-genetic approach to breast cancer

diagnosis”. Artificial Intelligence in Medicine. Vol.17, pp. 131-155. 1999. doi:

10.1016/S0933-3657(99)00019-6.

[128] Setiono, R. “Generating concise and accurate classification rules for breast

cancer diagnosis”. Artificial Intelligence in Medicine. Vol. 18(3), pp. 205-217.

2000. doi: 1 0.1016/S0933-3657(99)00041-X.

[129] Albrecht A.A., Lappas G., Vinterbo S.A., Wong C.K. and Ohno-Machado L.

”Two applications of the LSA machine”. In Proc. ICONIP ’02, 9th International

Conference on Neural Information Processing. (Singapore, China, 2002) 184-

189. doi: 10.1109/ICONIP.2002.1202156.

[130] Abonyi J. and Szeifert F. “Supervised fuzzy clustering for the identification of

fuzzy classifiers”. Pattern Recognition Letters. Vol. 14(24), pp. 2195-2207. 2003.

doi: 10.1016/S0167-8655(03)00047-3.

[131] Polat K., and Gunes S. “Breast cancer diagnosis using least square support

vector machine”. Digital Signal Processing. Vol. 17(4), pp. 694-701. 2007. doi:

10.1016/j.dsp.2006.10.008.

[132] Guijarro-Berdias B., Fontenla-Romero O., Perez-Sanchez B., and Fraguela P.

“A linear learning method for multilayer perceptrons using least squares”. In:

Proc. IDEAL 2007, Lecture Notes in Computer Science, Vol. 4881 (Springer,

Berlin, 2007) 365-374. doi: 10.1007/978-3-540-77226-2 38.

139

Page 163: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

[133] Karabatak M., Cevdet-Ince M. “An expert system for detection of breast can-

cer based on association rules and neural network”. Expert Systems with Appli-

cations. Vol. 36, pp. 3465-3469. 2009. doi: 10.1016/j.eswa.2008.02.064.

[134] Thomas L.C. “A survey of credit and behavioral scoring: forecasting finan-

cial”. International Journal of Forecasting, Vol. 16(2), pp. 149-172. 2000. doi:

10.1016/S0169-2070(00)00034-0.

[135] Lee T.S., Chiu C.C., Lu C.J. and Chen I.F. “Credit scoring using the hybrid

neural discriminant technique”. Expert Systems with applications, Vol. 23(3),

pp. 245-254. 2002. doi: 10.1016/S0957-4174(02)00044-1.

[136] Peng Y., Kou G., Shi Y. and Chen Z. “A Multi-criteria Convex Quadratic

Programming model for credit data analysis”. Decision Support Systems, Vol.

44(4), pp. 1016-1030. 2008. doi:10.1016/j.dss.2007.12.001.

[137] Tsai C.F and Wu J.W. Z. “Using neural network ensembles for bankruptcy

prediction and credit scoring”. Expert Systems with Applications, Vol. 44(4),

pp. 2639-2649. 2008. doi:10.1016/j.eswa.2007.05.019.

[138] Nanni L. and Lumini A. “An experimental comparison of ensemble of classi-

fiers for bankruptcy prediction and credit scoring”. Expert Systems with Appli-

cations, Vol. 36, pp. 3028-3033. 2009. doi:10.1016/j.eswa.2007.05.019.

[139] Xu X., Zhou C. and Wang Z. “Credit scoring algorithm based on link analysis

ranking with support vector machine”. Expert Systems with Applications, Vol.

36(2), pp. 2625-2632. 2009. doi:doi:10.1016/j.eswa.2008.01.024.

[140] Luo S.T., Cheng B. W. and Hsieh C.H. “Prediction model building with

clustering-launched classification and support vector machines in credit scor-

ing”. Expert Systems with Applications, Vol. 36(4), pp. 7562-7566. 2009.

doi:10.1016/j.eswa.2008.09.028.

[141] Tsai C.F. “Feature selection in bankruptcy prediction”. Knowledge-Based

Systems, Vol. 22(22), pp. 120-127. 2009. doi:10.1016/j.knosys.2008.08.002.

[142] Ping Y. “Hybrid Classifier Using Neighborhood Rough Set and SVM for

Credit Scoring”. In Proc. BIFE ’09, International Conference on Business

Intelligence and Financial Engineering.(Beijing, China,2009) 138-142. doi:

10.1109/BIFE.2009.41.

140

Page 164: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

[143] Chen F.L. and Li F.C. “Combination of feature selection approaches with SVM

in credit scoring”. Expert Systems with Applications, Vol. 37(7), pp. 4902-4909.

2010. doi:110.1016/j.eswa.2009.12.025.

[144] West D. “Neural network credit scoring models. Computers and Operations

Research, Vol. 27, pp. 1131-152. 2000. doi:10.1016/S0305-0548(99)00149-55.

[145] Ong C.S, Huang J.J and Tzeng G.H. “Building credit scoring models using

genetic programming”. Expert Systems with Applications, Vol. 29, pp. 41-47.

2005. doi:10.1016/j.eswa.2005.01.003.

[146] Huang J.J., G.H. and Ong C.S. “Two-stage genetic programming (2SGP) for

the credit scoring model”. Applied Mathematics and Computation, Vol. 174(2),

pp. 1039-1053. 2006. doi:10.1016/j.amc.2005.05.027.

[147] Martens D., Baesens B., Van Gestel T. and Vanthienen J. “Comprehensi-

ble credit scoring models using rule extraction from support vector machines”.

European Journal of Operational Research, Vol. 183(3), pp. 11466-1476. 2007.

doi:10.1016/j.ejor.2006.04.051.

[148] Hoffmann F., Baesens B., Mues C., Van Gestel T. and Vanthienen J. “Inferring

descriptive and approximate fuzzy rules for credit scoring using evolutionary

algorithms”. European Journal of Operational Research, Vol. 177, pp. 540-5556.

2007. doi:10.1016/j.ejor.2005.09.044.

[149] Huang C.L, Chen M.C. and Wang C.J. “Credit scoring with a data mining

approach based on support vector machines”. Expert Systems with Applications,

Vol. 33(4), pp. 847-856. 2007. doi:10.1016/j.eswa.2006.07.007.

[150] Lampinen J. and Smolander S. “Self-organizing feature extraction in recogni-

tion of wood surface defects and color images”. International Journal of Pat-

tern Recognition and Artificial intelligence, Vol. 10(2), pp. 97-113. 1996. doi:

10.1142/S0218001496000098.

[151] Chacon M.I. and Graciela R. “Wood Defects Classification Using a SOM/FFP

Approach with Minimum Dimension Feature Vector”. In: Proc. ECML 2001,

Lecture Notes in Computer Science, Vol. 3973 (Springer, Berlin, 2006) 1105-

1110. doi: 0.1007/11760191.

[152] Silven O., Niskanen M. and Kauppinen H. “Wood inspection with nonsuper-

vised clustering”. Machine Vision and application, Vol. 13, pp. 275-285. 2003.

doi: 10.1007/s00138-002-0084-z.

141

Page 165: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

[153] http://www.ee.oulu.fi/research/imag/knots/KNOTS/

[154] Grigorescu S.E., Petkov N. and Kruizinga P. “Comparison of texture features

based on Gabor filters”. Image Processing, IEEE Transactions on, Vol. 11(10),

pp. 1160-1167. 2003. doi: 110.1109/TIP.2002.804262.

[155] Brunzella H. and Eriksson J. “Feature reduction for classification of mul-

tidimensional data”. Pattern Recognition, Vol. 33(10), pp. 1741-1748. 2003.

doi:10.1016/S0031-3203(99)00142-9.

[156] Berzal F., Cubero J.C., Cuenca F. and Martın-BautistaM.J. “On the quest

for easy-to-understand splitting rules”. Data & Knowledge Engineering, Vol.

44, pp. 31-48. 2003. doi:10.1016/S0169-023X(02)00062-9.

[157] Lee k.K. and Yoon W.C. “Adaptive classification with ellipsoidal regions for

multidimensional pattern classification problems”. Pattern Recognition Letters,

Vol. 26(9), pp. 1232-1243. 2005. doi:10.1016/j.patrec.2004.11.004.

[158] Altincay H. “Decision trees using model ensemble-based nodes”. Pattern

Recognition, Vol. 40(12), pp. 3540-3551. 2007. doi:10.1016/j.patcog.2007.03.023.

[159] Cai W., Chen S. and Zhang D.“Robust fuzzy relational classifier incorporating

the soft class labels”. Pattern Recognition Letters, Vol. 28(16), pp. 2250-2263.

2007. doi:10.1016/j.patrec.2007.07.013.

[160] Qin Y. and Zhang S.“Empirical likelihood confidence intervals for differences

between two datasets with missing data”. Pattern Recognition Letters, Vol.

29(15), pp. 803-812. 2008. doi:10.1016/j.patrec.2007.12.010.

[161] Evsukoff A.G, Galichet S, de Lima B.L.P. and Ebeckena N.F.“Design of inter-

pretable fuzzy rule-based classifiers using spectral analysis with structure and

parameters optimization”. Fuzzy Sets and Systems, Vol. 160(7), pp. 857-881.

2009. doi:10.1016/j.eswa.2008.07.068.

[162] Park M.S. and Choi J.Y.“Theoretical analysis on feature extraction capability

of class-augmented PCA”. Pattern Recognition, Vol. 42(117), pp. 2353-2362.

2009. doi:10.1016/j.patcog.2009.04.011.

[163] Chandra B. and Varghese P.P. “Fuzzifying Gini Index based decision

trees”. Expert Systems with Applications, Vol. 36(4), pp. 8549-8559. 2009.

doi:10.1016/j.eswa.2008.10.053.

142

Page 166: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

[164] Ouyanga J., Patel N. and Sethi I. “Induction of multiclass multifeature split

decision trees from distributed data”. Pattern Recognition, Vol. 42(9), pp. 1786-

1794. 2009. doi:10.1016/j.patcog.2009.01.0333.

[165] Vallejo C.G., Troyano J.A. and Ortega F. “InstanceRank: Bringing order

to datasets”. Pattern Recognition Letters, Vol. 31(2), pp. 133-142. 2010.

doi:10.1016/j.patrec.2009.09.022.

[166] Al-Batah M.S., Mat N.A., Zamli K.Z. and Azizli K. “Modified Recur-

sive Least Squares algorithm to train the Hybrid Multilayered Perceptron

(HMLP) network”. Applied Soft Computing, Vol. 10(1), pp. 236-244. 2010.

doi:10.1016/j.asoc.2009.06.018.

[167] Jin X.B., Lui C.L. and Hou X. “Regularized margin-based conditional log-

likelihood loss for prototype learning”. Pattern Recognition, Vol. 43(7), pp.

2428-2438. 2010. doi:10.1016/j.patcog.2010.01.013.

[168] Zhao F., Jiao L., Liu H., Gao X. and Gong M. “Spectral clustering with

eigenvector selection based on entropy ranking”. Neurocomputing, Vol. 73(10),

pp. 1704-1717. 2010. doi:10.1016/j.neucom.2009.12.029.

[169] Zhang Y., Wu X., Xing Z.Y. and Hu W.L. “On generating in-

terpretable and precise fuzzy systems based on Pareto multi-objective

cooperative co-evolutionary algorithm”. Applied Soft Computing. 2010.

doi:10.1016/j.asoc.2010.03.005.

[170] Kudo M. and Sklansky J.“Comparison of algorithms that select features

for pattern classifiers”. Pattern Recognition. Vol. 33(1), pp 25-41. 2000.

doi:10.1016/S0031-3203(99)00041-2.

[171] Muni D.P., Pal N.R. and Das J. “Genetic programming for simultane-

ous feature selection and classifier design”. Systems, Man, and Cybernetics,

Part B: Cybernetics, IEEE Transactions on. Vol. 36(1), pp 1100-1103. 2006.

doi:10.1109/TSMCB.2005.854499.

[172] Last M., Kandel A. and Maimon O. “Information-theoretic algorithm for fea-

ture selection”. Pattern Recognition Letters. Vol. 22(6-7), pp 799-811. 2001.

doi:10.1016/S0167-8655(01)00019-8.

[173] Nakariyakul S. and Casasent D.P. “An improvement on floating search algo-

rithms for feature subset selection”. Pattern Recognition. Vol. 42(9), pp 1932-

19401. 2009. doi:10.1016/j.patcog.2008.11.018.

143

Page 167: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

[174] Schenk J., Kaiser M. and Rigoll G. “Selecting Features in On-Line Handwrit-

ten Whiteboard Note Recognition: SFS or SFFS?”. 10th International Confer-

ence on Document Analysis and Recognition. ICDAR’09, pp 1251-1254. 2009.

doi:10.1109/ICDAR.2009.130.

[175] Lazzerini B. and Marcelloni F. “Feature selection based on similarity”. Elec-

tronics Letters, Vol. 38(3), pp. 121-122, 2001. doi: 10.1049/el:20020078.

[176] Oh I.S., Lee J.S. and Moon B.R. “Hybrid genetic algorithms for feature selec-

tion”. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.

26(11), pp. 1424-1437, 2004. doi: 10.1109/TPAMI.2004.105.

[177] Chen S.M. and Shie J.D. “A New Method for Feature Subset Selection for

Handling Classification Problems”. In Proc. FUZZ’05, 14th IEEE Interna-

tional Conference on Fuzzy Systems. (Reno, Nevada, USA, 2005) 183-188. doi:

10.1109/FUZZY.2005.1452390.

[178] Weiguo S., Xiaohui L. and Fairhurst M. “A Niching Memetic Algorithm

for Simultaneous Clustering and Feature Selection”. IEEE Transactions

on Knowledge And Data Engineering, Vol. 20(7), pp. 868-879, 2008. doi:

10.1109/TKDE.2008.33.

[179] Bratu C.V., Muresan T. and Potolea R. “Improving classification accuracy

through feature selection”. In Proc. ICCP 2008, 4th International Conference

on Intelligent Computer Communication and Processing. (Cluj, Napoca, Roma-

nia, 2008) 25-32. 10.1109/ICCP.2008.4648350.

[180] Jensen R. and Qiang S. “New Approaches to Fuzzy-Rough Feature Selec-

tion”. IEEE Transaction on Fuzzy system, Vol. 17(4), pp. 824-838 , 2009. doi:

10.1109/TFUZZ.2008.924209.

[181] Xiao D. and Zhang J. “Importance Degree of Features and Feature Se-

lection”. In Proc. FSKD’09, 6th IEEE International Conference on Fuzzy

Systems and Knowledge Discovery. (Shandong, China, 2009) 197-201. doi:

10.1109/FSKD.2009.625.

[182] Qinghua H., Pedrycz W., Yu D. and Jun L. “Selecting Discrete and Contin-

uous Features Based on Neighborhood Decision Error Minimization”. IEEE

Transactions on Systems, Man, and Cybernetics,Part B: Cybernetics, Vol. 40,

pp. 137-150, 2010. doi: 10.1109/TSMCB.2009.2024166.

144

Page 168: UNIVERSIDAD POLITECNICA DE MADRID´ - Archivo …oa.upm.es/5125/1/ALEXIS_ENRIQUE_MARCANO_CEDENO.pdf · de los algoritmos mas conocidos y utilizados para el entrenamiento de las Redes

BIBLIOGRAFIA

[183] Proceedings of the 2009 IEEE International Conference on Systems, Man, and

Cybernetics San Antonio, TX, USA - October 2009

[184] Andina D., Marcano-Cedeno A., Torres J. and Alarcon M.J. “Testing Artifi-

cial Metaplasticity in MLP Applications”. In Proceedings of SMC 2009, IEEE

International Conference on Systems, Man, and Cybernetics, pp. 4361-4366.

2009. doi: 10.1109/ICSMC.2009.5346818.

[185] Marcano-Cedeno A., Alvarez-Vellisco A. and Andina D. “Artificial metaplas-

ticity MLP applied to image classification”. In Proceedings of INDIN 2009, 7th

IEEE International Conference on Industrial Informatics, pp. 650-653. 2009.

doi: 110.1109/INDIN.2009.5195879 .

145