redes neuronales y preprocesado de variables para modelos ... · departamento de ingeniería...

Departamento de Ingeniería Electrónica

Redes neuronales y preprocesado de variablespara modelos y sensores en bioingeniería

Tesis Doctoral

Fernando Mateo Jiménez

Directores:

Dr. Rafael Gadea Gironés

Dr. Jorge D. Martínez Pérez

Valencia, Junio de 2012

A mis padres y a mi hermana

Agradecimientos

Este trabajo no hubiera sido posible sin el apoyo, aliento y paciencia de algunas personasa las que quiero mostrar mi profundo agradecimiento por su papel fundamental en eldesarrollo del mismo.

La primera persona a la que quiero dar las gracias es al director de esta Tesis, RafaGadea. Él me acogió en el grupo de Diseño de Sistemas Digitales del Departamentode Ingeniería Electrónica de la Universidad Politécnica de Valencia cuando llegué sinapenas saber lo que era una red neuronal. Él me enseñó muchas cosas, me guió en lasetapas más inciertas, me mostró posibles soluciones a problemas que parecían no tenersolución y siempre planteó inquietudes y vías de trabajo interesantes inculcándome almismo tiempo, iniciativa, creatividad e interés por el trabajo en grupo. Igualmente doylas gracias a Jorge Martínez por su inestimable labor también como director del trabajo,que siempre se ofreció a ayudarme y estuvo pendiente del desarrollo del mismo. Quieroexpresar mi profundo agradecimiento al catedrático del grupo, Ángel Sebastiá, que siempreha sido un jefe muy cercano al resto de miembros del grupo, desde profesores a becarios,preocupandose en todo momento por nuestras necesidades. Agradezco su apoyo y ayudaen los momentos en que la he necesitado.

De manera muy especial quiero dar las gracias a mi madre Misericordia, quien seha sacrificado tanto por mí que nunca se lo agradeceré lo suficiente. Sus consejos y suayuda han sido inestimables para la realización de esta Tesis. Durante la cual no sólo harealizado su labor como madre, sino que también ha participado activamente en las tareasde investigación, como catedrática y directora del grupo de Micología y Micotoxinas delDepartamento de Microbiología y Ecología de la Universidad de Valencia. Igualmentequiero mostrar mi agradecimiento a mi padre Rufino, quien me ha dado mucho apoyomoral y ha sido colaborador activo en algunos aspectos del trabajo. Gracias, en especiala mi hermana Eva y también a otros becarios, compañeros y amigos, Ángel y Paco, conquienes he trabajado estrechamente y con los que he asistido a numerosos congresos de losque guardo un grato recuerdo. Quiero agradecer muy especialmente al catedrático JoséVicente Gimeno su inestimable ayuda y apoyo incondicional, especialmente en la últimaetapa de esta Tesis.

Otros compañeros y amigos que no puedo olvidar son Néstor, José María, Ramón,Michele, Elisa, Jean... con los que he compartido, laboratorio, tertulias y trabajo en grupo.A todos ellos, gracias, por su amistad y por todo lo que me han enseñado y trasmitido.Otros componentes del grupo a los que deseo agradecer especialmente la atención prestada,disponibilidad y apoyo incondicional son los profesores Vicente Herrero, Ricardo Colomy Ximo Cerdá.

No puedo olvidarme de las personas que me dieron una cálida acogida en mis estanciasen el Laboratory of Information and Computer Science de la Helsinki University of Tech-

III

nology. A ellos les debo muchos de mis conocimientos en el campo del preprocesamientode datos y selección de variables. En este grupo, en primer lugar deseo agradecer alprofesor Erkki Oja que me aceptara como investigador visitante en su departamento ypor facilitarme la integración en su grupo y en su laboratorio. Agradezco al profesorAmaury Lendasse su esfuerzo en instruirme en este campo, y al resto de compañeros delaboratorio: Francesco, Yoan, Antti, Emil, Elia, Dušan, Qiqi, Fede... por su amabilidad yapoyo. También doy las gracias de manera especial a Alberto Guillén, con quien trabajécodo con codo, bajo la supervisión del profesor Lendasse. A los dos, muchas gracias comocompañeros y amigos.

Quiero expresar mi agradecimiento al Ministerio de Ciencia e Innovación por la beca deFormación de Personal Investigador concedida para la realización de esta Tesis Doctoraly por la subvención de diversos proyectos en los que he participado como becario y comoinvestigador. Agradezco también la ayuda económica concedida para mis estancias enFinlandia. Buena parte de esta Tesis no hubiera sido posible sin ellas.

Finalmente, quiero expresar mi agradecimiento, muy especialmente, a todos mis ami-gos por su apoyo y ayuda y por compartir tantos buenos momentos y fines de semana que,sin duda, han contribuido a que este periodo haya sido uno de los mejores de mí vida. Atodos ellos, que son muchos ¡gracias!

Resumen

El propósito de esta Tesis Doctoral es proponer una alternativa viable a la aproximaciónde modelos y procesos en el ámbito científico y, más concretamente, en aplicaciones com-plejas de bioingeniería, en las cuales es imposible o muy costoso encontrar una relacióndirecta entre las señales de entrada y de salida mediante modelos matemáticos sencilloso aproximaciones estadísticas.

Del mismo modo, es interesante lograr una compactación de los datos que necesitaun modelo para conseguir una predicción o clasificación en un tiempo y con un coste deimplementación mínimos. Un modelo puede ser simplificado en gran medida al reducir elnúmero de entradas o realizar operaciones matemáticas sobre éstas para transformarlasen nuevas variables.

En muchos problemas de regresión (aproximación de funciones), clasificación y opti-mización, en general se hace uso de las nuevas metodologías basadas en la inteligenciaartificial. La inteligencia artificial es una rama de las ciencias de la computación que buscaautomatizar la capacidad de un sistema para responder a los estímulos que recibe y pro-poner salidas adecuadas y racionales. Esto se produce gracias a un proceso de aprendizaje,mediante el cual se presentan ciertas muestras o “ejemplos” al modelo y sus correspon-dientes salidas y éste aprende a proponer las salidas correspondientes a nuevos estímulosque no ha visto previamente. Esto se denomina aprendizaje supervisado. También puededarse el caso de que tal modelo asocie las entradas con características similares entre sípara obtener una clasificación de las muestras de entrada sin necesidad de un patrón desalida. Este modelo de aprendizaje se denomina no supervisado.

El principal exponente de la aplicación de la inteligencia artificial para aproximaciónde funciones y clasificación son las redes neuronales artificiales. Se trata de modelos quehan demostrado sobradamente sus ventajas en el ámbito del modelado estadístico y de lapredicción frente a otros métodos clásicos.

No se ha querido dejar a un lado la importancia del preprocesado de variables paraoptimizar la respuesta de un sistema de predicción basado en redes neuronales. Tanimportante es la adecuación de las variables de entrada como el correcto diseño del sistemapredictivo. Por ello, se ha dedicado especial atención al análisis de la selección de variablesde entrada de un sistema y su transformación (escalado, proyección, etc.) para optimizarsu respuesta. En concreto, se ha hecho uso de un criterio que se utiliza cada vez máspara decidir qué variables son verdaderamente importantes para una predicción. Dichocriterio de denomina Test Delta, y es un estimador no paramétrico que se basa en laaproximación de la varianza del ruido a la salida de una función. La combinación devariables de entrada que suponga la minimización de dicho criterio conseguirá un óptimocomportamiento predictivo de la red neuronal bajo estudio. Este método se evaluarásobre conjuntos de datos reales para comprobar su utilidad práctica.

V

En el presente trabajo se va a llevar a cabo la aplicación de las redes neuronales yel preprocesado de datos para tratar de aproximar una serie de problemas complejos enbioingeniería, todos ellos mediante aprendizaje supervisado. Por ejemplo, se van a tratarde aplicar las redes neuronales a la predicción de la presencia de toxinas (micotoxinas)asociadas a los hongos que pueden crecer en determinados alimentos debido a diferentesfactores ambientales asociados al cambio climático y que son consideradas cancerígenas.Esto se ha realizado mediante cultivos de hongos productores de ciertas micotoxinas (enconcreto deoxinivalenol y ocratoxina A) en laboratorio a lo largo de un cierto número dedías y bajo estrictas condiciones ambientales. Diversos factores o entradas se trataránde utilizar para la predicción de la cantidad de micotoxina, tales como el tiempo dealmacenaje, la temperatura de incubación, la actividad acuosa, el diámetro del inóculo ola presencia de fungicidas.

Otra aplicación de las redes neuronales que se va a presentar en esta Tesis esta rela-cionada con la reconstrucción de imágenes médicas en un detector de tomografía poremisión de positrones, corrigiendo errores intrínsecos a la naturaleza de la óptica y de losfenómenos físicos que sufren los fotones en su camino hacia el detector. Las redes neu-ronales diseñadas y entrenadas para tal propósito pueden ser fácilmente implementadasen hardware, liberando a un ordenador de una gran carga computacional y permitiendorealizar la corrección automática y en tiempo real (on-line) de la posición de impacto delos fotones en un sistema PET real.

Resum

El propòsit d’aquesta Tesi Doctoral és proposar una alternativa viable a l’aproximació demodels i processos en l’àmbit científic i, més concretament, en aplicacions complexes debioenginyeria, en les quals és impossible o molt costós trobar una relació directa entreels senyals d’entrada i d’eixida mitjançant models matemàtics senzills o aproximacionsestadístiques.

De la mateixa manera, és interessant aconseguir una compactació de les dades quenecessita un model per aconseguir una predicció o classificació en un temps i amb uncost d’implementació mínims. Un model pot ser simplificat en gran mesura en reduir elnombre d’entrades o realitzar operacions matemàtiques sobre aquestes per transformar-lesen noves variables.

En molts problemes de regressió (aproximació de funcions), classificació i optim-ització, en general es fa ús de les noves metodologies basades en la intel·ligència artificial.L’intel·ligència artificial és una branca de les ciències de la computació que busca au-tomatitzar la capacitat d’un sistema per respondre als estímuls que rep i proposar eixidesadequades i racionals. Això es produeix gràcies a un procés d’aprenentatge, mitjançantel qual es presenten certes mostres o “exemples”al model i les seues corresponents eixi-des i aquest aprèn a proposar les eixides corresponents a nous estímuls que no ha vistprèviament. Això s’anomena aprenentatge supervisat. També es pot donar el cas queaquest model associe les entrades amb característiques similars entre si per obtenir unaclassificació de les mostres d’entrada sense necessitat d’un patró d’eixida. Aquest modeld’aprenentatge es denomina no supervisat.

El principal exponent de l’aplicació de l’intel·ligència artificial per aproximació defuncions i classificació són les xarxes neuronals artificials. Es tracta de models que handemostrat àmpliament els seus avantatges en l’àmbit del modelat estadístic i de la predic-ció enfront d’altres mètodes clàssics.

No s’ha volgut deixar de banda l’importància del preprocessat de variables per optim-itzar la resposta d’un sistema de predicció basat en xarxes neuronals. Tan important ésl’adequació de les variables d’entrada com el correcte disseny del sistema predictiu. Peraixò, s’ha dedicat especial atenció a l’anàlisi de la selecció de variables d’entrada d’unsistema i la seua transformació (escalat, projecció, etc.) per optimitzar la seua resposta.En concret, s’ha fet ús d’un criteri que s’utilitza cada vegada més per decidir quines va-riables són veritablement importants per una predicció. Aquest criteri s’anomena TestDelta, i és un estimador no paramètric que es basa en l’aproximació de la variància delsoroll a l’eixida d’una funció. La combinació de variables d’entrada que supose la minim-ització d’aquest criteri aconseguirà un òptim comportament predictiu de la xarxa neuronald’estudi. Aquest mètode s’avaluarà sobre conjunts de dades reals per comprovar la seuautilitat pràctica.

VII

En el present treball es durà a terme l’aplicació de les xarxes neuronals i el preprocessatde dades per tractar d’aproximar una sèrie de problemes complexes en bioenginyeria, totsells mitjançant aprenentatge supervisat. Per exemple, es tractaran d’aplicar les xarxesneuronals a la predicció de la presència de toxines (micotoxines) associades als fongs quepoden créixer en determinats aliments a causa de diferents factors ambientals relacionatsamb el canvi climàtic i que són considerades cancerígenes. Això s’ha realitzat mitjançantcultius de fongs productors de certes micotoxines (en concret deoxinivalenol i ocratoxinaA) en laboratori al llarg d’un cert nombre de dies i baix estrictes condicions ambientals.Diversos factors o entrades es tractaran d’utilitzar per a la predicció de la quantitat demicotoxina, com ara el temps d’emmagatzematge, la temperatura d’incubació, l’activitataquosa, el diàmetre de l’inòcul o la presència de fungicides. Una altra aplicació de lesxarxes neuronals que es va a presentar en esta Tesi està relacionada amb la reconstrucciód’imatges mèdiques en un detector de tomografia per emissió de positrons, corregint errorsintrínsecs a la naturalesa de l’òptica i dels fenòmens físics que experimenten els fotons enel seu camí cap al detector. Les xarxes neuronals dissenyades i entrenades per a talpropòsit poden ser fàcilment implementades en hardware, alliberant a un ordinador d’unagran càrrega computacional i permetent realitzar la correcció automàtica i en temps real(on-line) de la posició d’impacte dels fotons en un sistema PET real.

Abstract

The purpose of this Doctoral Thesis is to propose a viable alternative to the approx-imation of models and processes in science and, particularly, for complex applicationsin bioengineering, in which it is impossible or very difficult to find a direct relationshipbetween inputs and outputs using simple mathematical models or statistical approaches.

Similarly, it is interesting to achieve a compaction of the data needed by a model toget a prediction or classification in minimum time and with the lowest implementationcost. A model can be greatly simplified by reducing the number of inputs or applyingmathematical calculations to transform them into new variables.

In many regression problems (function approximation), classification and general op-timization, new methodologies based on artificial intelligence are employed. Artificialintelligence is a branch of computer science that seeks to automate the computationalability of a system to respond to the stimuli it receives and propose appropriate andrational solutions. This occurs through a learning process guided by the presentation ofcertain samples or “examples” and their corresponding outputs to the model, and it learnsto propose the corresponding outputs to new stimuli that it has not previously seen. Thisis called supervised learning. It may also be the case that this model groups togetherinputs with similar characteristics to produce a classification of input samples without anoutput pattern. This learning model is called unsupervised learning.

The most representative application of artificial intelligence for function approximationand classification are artificial neural networks. These models have clearly shown theiradvantages in the field of statistical modeling and prediction over other classical methods.

We do not want to leave aside the importance of preprocessing variables to optimizethe response of a prediction system based on neural networks. The adaptation of the inputvariables is as important as the proper design of the predictive system. Therefore, specialattention has been devoted to analyze the selection of input variables of a system andits transformation (scaling, projection, etc.) to optimize its response. In particular, wehave made use of a more and more popular criterion to decide which variables are reallyimportant for a prediction. This test criterion is called Delta Test, and is a nonparametricestimator based on the approximation of the variance of the noise at the output of a func-tion. The combination of input variables that achieves the minimization of this criterionwill provide an optimal predictive performance of the neural network under study. Thismethod will be evaluated on real data sets to verify their practical use.

The present work aims to carry out the implementation of neural networks and datapreprocessing to try to approach a series of complex problems in bioengineering, all ofthem by supervised learning. For example, we will try to apply neural networks theprediction of the presence of toxins (mycotoxins) that are considered carcinogenic and areassociated to fungi that can grow in certain foods due to different environmental factors

IX

associated to climate change. This was done by the cultivation of certain mycotoxin-producing fungi (in particular fungi that are producers of deoxynivalenol and ochratoxinA) in a laboratory over a number of days and under strict environmental conditions.Diverse factors or inputs are used to try to predict the amount of mycotoxin, such as thestorage time, incubation temperature, water activity, the diameter of the inocule or thepresence of fungicides.

Another application of neural networks that will be presented in this Thesis is relatedto the medical image reconstruction on a detector for positron emission tomography,correcting intrinsic errors due to the nature of the optical and physical phenomena ex-perienced by photons on their way to the detector. The neural networks designed andtrained for this purpose can be easily implemented in hardware, freeing the computer froman important computational load, and allow the automatic online correction of impactposition of photons in a real time PET system.

Índice

Prefacio XXXIII

1 Fundamentos de las redes neuronales 11.1 La aproximación de funciones y el modelado de datos . . . . . . . . . . . . 1

1.1.1 Comportamiento estadístico de los datos experimentales . . . . . . 21.1.2 Regresión y clasificación . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1.2.1 Regresión . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.2.2 Clasificación . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2 El aprendizaje predictivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2.1 Estrategias de aprendizaje . . . . . . . . . . . . . . . . . . . . . . . 91.2.2 Estudio de la interpretabilidad . . . . . . . . . . . . . . . . . . . . . 101.2.3 Flexibilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3 La neurona biológica y la neurona artificial . . . . . . . . . . . . . . . . . . 121.3.1 La neurona biológica . . . . . . . . . . . . . . . . . . . . . . . . . . 121.3.2 La neurona artificial . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.3.2.1 Funciones de activación . . . . . . . . . . . . . . . . . . . 151.3.2.1.1 La función escalón . . . . . . . . . . . . . . . . . 151.3.2.1.2 La función lineal a trozos . . . . . . . . . . . . . 151.3.2.1.3 La sigmoide . . . . . . . . . . . . . . . . . . . . . 161.3.2.1.4 La función de activación gaussiana . . . . . . . . 17

1.4 Las redes neuronales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4.1 Beneficios de las redes neuronales . . . . . . . . . . . . . . . . . . . 19

1.5 Tipos y topologías de redes neuronales . . . . . . . . . . . . . . . . . . . . 211.5.1 El perceptrón . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211.5.2 El perceptrón multicapa . . . . . . . . . . . . . . . . . . . . . . . . 221.5.3 La red de base radial . . . . . . . . . . . . . . . . . . . . . . . . . . 241.5.4 Las máquinas de soporte vectorial . . . . . . . . . . . . . . . . . . . 261.5.5 Los mapas auto-organizativos . . . . . . . . . . . . . . . . . . . . . 29

1.6 El aprendizaje con redes neuronales . . . . . . . . . . . . . . . . . . . . . . 301.6.1 Entrenamiento, validación y test . . . . . . . . . . . . . . . . . . . . 311.6.2 Entrenamiento supervisado y no supervisado . . . . . . . . . . . . . 34

1.6.2.1 Entrenamiento supervisado . . . . . . . . . . . . . . . . . 341.6.2.2 Entrenamiento no supervisado . . . . . . . . . . . . . . . . 35

1.6.3 El algoritmo backpropagation . . . . . . . . . . . . . . . . . . . . . 351.6.4 El entrenamiento en modo on-line y en modo off-line . . . . . . . . 371.6.5 Algunos algoritmos de entrenamiento avanzados . . . . . . . . . . . 38

XI

1.6.5.1 Levenberg-Marquardt . . . . . . . . . . . . . . . . . . . . 381.6.5.2 Resilient backpropagation . . . . . . . . . . . . . . . . . . 391.6.5.3 Regularización bayesiana . . . . . . . . . . . . . . . . . . . 40

1.7 Reseña histórica de las redes neuronales y de sus aplicaciones . . . . . . . . 40

2 Variable selection in multidimensional regression problems using theDelta Test 432.1 Preprocessing and feature extraction . . . . . . . . . . . . . . . . . . . . . 432.2 Preprocessing and postprocessing . . . . . . . . . . . . . . . . . . . . . . . 442.3 The curse of dimensionality . . . . . . . . . . . . . . . . . . . . . . . . . . 442.4 Variable selection techniques . . . . . . . . . . . . . . . . . . . . . . . . . . 46

2.4.1 Wrapper, filter and embedded methods . . . . . . . . . . . . . . . . 462.4.2 Variable selection methods and input space transformations . . . . 47

2.4.2.1 Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . 482.4.2.2 Principal Component Analysis . . . . . . . . . . . . . . . 482.4.2.3 Kernel-based Principal Component Analysis . . . . . . . . 492.4.2.4 Partial Least Squares regression . . . . . . . . . . . . . . . 492.4.2.5 Canonical Correlation Analysis . . . . . . . . . . . . . . . 502.4.2.6 Kernel-based Canonical Correlation Analysis . . . . . . . . 512.4.2.7 Independent component analysis . . . . . . . . . . . . . . 522.4.2.8 Factor analysis . . . . . . . . . . . . . . . . . . . . . . . . 532.4.2.9 Multifactor dimensionality reduction . . . . . . . . . . . . 542.4.2.10 Principal curves . . . . . . . . . . . . . . . . . . . . . . . . 542.4.2.11 Gaussian process latent variable models . . . . . . . . . . 542.4.2.12 Locally Linear Embedding . . . . . . . . . . . . . . . . . . 552.4.2.13 Least absolute shrinkage and selection operator (Lasso) . . 552.4.2.14 Least Angle Regression . . . . . . . . . . . . . . . . . . . . 552.4.2.15 Validation methods . . . . . . . . . . . . . . . . . . . . . . 562.4.2.16 Singular Value Decomposition . . . . . . . . . . . . . . . . 572.4.2.17 Nested subset methods . . . . . . . . . . . . . . . . . . . . 582.4.2.18 Filters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 582.4.2.19 Automatic Relevance Determination . . . . . . . . . . . . 58

2.5 Input selection criteria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 592.5.1 k-Nearest neighbors . . . . . . . . . . . . . . . . . . . . . . . . . . . 592.5.2 Mutual information . . . . . . . . . . . . . . . . . . . . . . . . . . . 602.5.3 Nonparametric noise estimation . . . . . . . . . . . . . . . . . . . . 60

2.5.3.1 The Gamma Test . . . . . . . . . . . . . . . . . . . . . . . 612.5.3.2 The Delta Test . . . . . . . . . . . . . . . . . . . . . . . . 62

2.6 Search procedures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 632.6.1 Local search methods . . . . . . . . . . . . . . . . . . . . . . . . . . 63

2.6.1.1 Forward selection . . . . . . . . . . . . . . . . . . . . . . . 632.6.1.2 Backward elimination . . . . . . . . . . . . . . . . . . . . 632.6.1.3 Forward-backward selection . . . . . . . . . . . . . . . . . 64

2.6.2 Global search methods . . . . . . . . . . . . . . . . . . . . . . . . . 642.6.2.1 Exhaustive search . . . . . . . . . . . . . . . . . . . . . . 642.6.2.2 Tabu search . . . . . . . . . . . . . . . . . . . . . . . . . . 64

2.6.2.3 Genetic algorithms . . . . . . . . . . . . . . . . . . . . . . 652.7 Selection, scaling and projection . . . . . . . . . . . . . . . . . . . . . . . . 662.8 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

2.8.1 Modeling with a reduced set of inputs: the OP-ELM method . . . . 662.8.1.1 Extreme Learning Machine . . . . . . . . . . . . . . . . . 662.8.1.2 A global methodology based on Optimal-Pruned Extreme

Learning Machine . . . . . . . . . . . . . . . . . . . . . . 682.8.1.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . 702.8.1.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . 73

2.8.2 Parallelizing a global search . . . . . . . . . . . . . . . . . . . . . . 732.8.2.1 Motivation of a parallel search . . . . . . . . . . . . . . . . 732.8.2.2 Implementation of TS . . . . . . . . . . . . . . . . . . . . 74

2.8.2.2.1 TS for pure variable selection. . . . . . . . . . . . 742.8.2.2.2 TS for the scaling problem. . . . . . . . . . . . . 74

2.8.2.3 Setting the tabu conditions . . . . . . . . . . . . . . . . . 752.8.2.4 Hybrid parallel genetic algorithm . . . . . . . . . . . . . . 75

2.8.2.4.1 Encoding of the solutions. . . . . . . . . . . . . . 752.8.2.4.2 Selection, crossover and mutation operators. . . . 76

2.8.2.5 Parallelization . . . . . . . . . . . . . . . . . . . . . . . . 762.8.2.6 Hybridization . . . . . . . . . . . . . . . . . . . . . . . . . 772.8.2.7 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . 782.8.2.8 Datasets used in the experiments . . . . . . . . . . . . . . 792.8.2.9 Parallelization of the GA . . . . . . . . . . . . . . . . . . 802.8.2.10 Hybridization of the pGA with the TS and using the BLX-

α crossover . . . . . . . . . . . . . . . . . . . . . . . . . . 822.8.2.11 Comparison against the classical methodologies . . . . . . 832.8.2.12 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . 84

2.8.3 Enhancing the Delta Test minimization by means of projection . . . 842.8.3.1 Real-coded genetic algorithm with scaling: RCGA-S . . . 872.8.3.2 Real-coded genetic algorithm with scaling + projection:

RCGA-SP . . . . . . . . . . . . . . . . . . . . . . . . . . . 872.8.3.3 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . 882.8.3.4 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . 892.8.3.5 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . 892.8.3.6 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . 91

2.9 Approximate k-NN DT minimization using GA . . . . . . . . . . . . . . . 912.9.1 Time series prediction and preprocessing . . . . . . . . . . . . . . . 922.9.2 The approximate k-NN method . . . . . . . . . . . . . . . . . . . . 932.9.3 Using genetic algorithms for global search . . . . . . . . . . . . . . 93

2.9.3.1 Scaling (S) . . . . . . . . . . . . . . . . . . . . . . . . . . 942.9.3.2 Scaling + projection to k dimensions (SP-k) . . . . . . . . 942.9.3.3 Scaling with a fixed number of variables . . . . . . . . . . 95

2.9.4 Experiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 972.9.4.1 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . 982.9.4.2 Approximate k-nearest neighbor performance . . . . . . . 982.9.4.3 DT performance . . . . . . . . . . . . . . . . . . . . . . . 99

2.9.4.4 Computational time . . . . . . . . . . . . . . . . . . . . . 1002.9.4.5 Projection to k > 1 dimensions . . . . . . . . . . . . . . . 101

2.9.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1062.9.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

2.10 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

3 Aplicación de las ANNs a la predicción en sistemas biológicos: produc-ción de micotoxinas en alimentos 1113.1 El problema de las micotoxinas en alimentos . . . . . . . . . . . . . . . . . 1113.2 Factores que influyen en la producción de micotoxinas . . . . . . . . . . . . 1123.3 Aproximación a la predicción del nivel de micotoxinas . . . . . . . . . . . . 1143.4 ANNs para predecir la OTA producida por A. carbonarius . . . . . . . . . 115

3.4.1 Diseño experimental: Obtención de la matriz de datos . . . . . . . . 1153.4.2 Distribución del conjunto de datos . . . . . . . . . . . . . . . . . . 1193.4.3 Modelos de MLP ANN con una capa oculta . . . . . . . . . . . . . 1203.4.4 Modelos MLP con dos capas ocultas . . . . . . . . . . . . . . . . . 1213.4.5 Modelos con redes de función de base radial . . . . . . . . . . . . . 1213.4.6 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

3.4.6.1 Perceptrones de una capa oculta . . . . . . . . . . . . . . 1223.4.6.2 Perceptrones de dos capas ocultas . . . . . . . . . . . . . . 1263.4.6.3 Redes RBF . . . . . . . . . . . . . . . . . . . . . . . . . . 127

3.4.7 Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1283.5 Predicción de DON en cebada por F. culmorum . . . . . . . . . . . . . . . 130

3.5.1 Diseño experimental. Obtención de la matriz de datos . . . . . . . . 1313.5.2 Modelos de MLP ANN con una capa oculta . . . . . . . . . . . . . 1363.5.3 Modelos de MLP ANN con dos capas ocultas . . . . . . . . . . . . 1363.5.4 Redes de función de base radial . . . . . . . . . . . . . . . . . . . . 1373.5.5 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

3.5.5.1 Modelos MLP de una capa oculta . . . . . . . . . . . . . . 1383.5.5.2 Modelos MLP de dos capas ocultas . . . . . . . . . . . . . 1403.5.5.3 Modelos de RBFN . . . . . . . . . . . . . . . . . . . . . . 1433.5.5.4 Discusión . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

3.6 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

4 Estimación de la posición de incidencia en sistemas de Tomografía porEmisión de Positrones por medio de redes neuronales 1494.1 Las técnicas de imagen para diagnóstico médico . . . . . . . . . . . . . . . 149

4.1.1 Los rayos X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1494.1.2 La tomografía computerizada . . . . . . . . . . . . . . . . . . . . . 1504.1.3 El diagnóstico por ultrasonidos . . . . . . . . . . . . . . . . . . . . 1514.1.4 La imagen de resonancia magnética . . . . . . . . . . . . . . . . . . 1514.1.5 La imagen médica nuclear basada en radioisótopos . . . . . . . . . 1524.1.6 La tomografía de impedancia eléctrica . . . . . . . . . . . . . . . . 153

4.2 Introducción a la tomografía por emisión depositrones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1544.2.1 Evolución histórica . . . . . . . . . . . . . . . . . . . . . . . . . . . 1544.2.2 Radiofármacos más utilizados . . . . . . . . . . . . . . . . . . . . . 156

4.2.3 Principio físico del PET . . . . . . . . . . . . . . . . . . . . . . . . 1574.2.4 La detección en coincidencia . . . . . . . . . . . . . . . . . . . . . . 1574.2.5 Elementos de un sistema PET . . . . . . . . . . . . . . . . . . . . . 159

4.2.5.1 Colimación en PET . . . . . . . . . . . . . . . . . . . . . 1604.2.5.2 El cristal de centelleo . . . . . . . . . . . . . . . . . . . . . 1614.2.5.3 El tubo fotomultiplicador . . . . . . . . . . . . . . . . . . 1644.2.5.4 La electrónica de detección . . . . . . . . . . . . . . . . . 166

4.3 Interacciones de la radiación gamma con la materia . . . . . . . . . . . . . 1674.3.1 Absorción fotoeléctrica . . . . . . . . . . . . . . . . . . . . . . . . . 1674.3.2 Dispersión o scattering Compton . . . . . . . . . . . . . . . . . . . 1684.3.3 Atenuación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1694.3.4 Las pérdidas por tiempo muerto . . . . . . . . . . . . . . . . . . . . 1704.3.5 La profundidad de interacción . . . . . . . . . . . . . . . . . . . . . 171

4.4 Posicionamiento en PET . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1724.4.1 Redes de posicionamiento discretizado . . . . . . . . . . . . . . . . 1724.4.2 Algoritmos clásicos . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

4.4.2.1 La lógica de Anger . . . . . . . . . . . . . . . . . . . . . . 1744.4.2.2 Mínimos cuadrados . . . . . . . . . . . . . . . . . . . . . . 1764.4.2.3 Mínimos cuadrados con splines . . . . . . . . . . . . . . . 1774.4.2.4 Maximum likelihood . . . . . . . . . . . . . . . . . . . . . 1774.4.2.5 Regresión lineal localizada . . . . . . . . . . . . . . . . . . 1774.4.2.6 Método χ-cuadrado . . . . . . . . . . . . . . . . . . . . . 1774.4.2.7 Método χ-cuadrado generalizado . . . . . . . . . . . . . . 1784.4.2.8 Método del coeficiente de correlación lineal . . . . . . . . . 1784.4.2.9 Statistics Based Positioning . . . . . . . . . . . . . . . . . 1784.4.2.10 Red neuronal . . . . . . . . . . . . . . . . . . . . . . . . . 179

4.5 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1794.5.1 Banco de pruebas sintético . . . . . . . . . . . . . . . . . . . . . . . 1794.5.2 Diseño de una red neuronal para posicionamiento . . . . . . . . . . 183

4.5.2.1 Estudio previo del banco de simulación . . . . . . . . . . . 1854.5.2.2 Diseño de redes neuronales para estimación 2D . . . . . . 1864.5.2.3 Análisis del estimador 2D . . . . . . . . . . . . . . . . . . 188

4.5.3 Banco de pruebas real . . . . . . . . . . . . . . . . . . . . . . . . . 1894.5.3.1 Posicionamiento por ANNs . . . . . . . . . . . . . . . . . 1924.5.3.2 La necesidad del filtrado . . . . . . . . . . . . . . . . . . . 1924.5.3.3 Resultados de entrenamiento con muestras filtradas . . . . 194

4.5.3.3.1 Efecto de la DOI . . . . . . . . . . . . . . . . . . 1974.5.3.4 Uso de distintos mallados para entrenamiento y test . . . 197

4.6 Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

5 Aplicación de preprocesado de variables al posicionamiento PET 2035.1 Los momentos de una distribución . . . . . . . . . . . . . . . . . . . . . . . 2035.2 El momento de Hausdorff y Hamburger . . . . . . . . . . . . . . . . . . . . 2045.3 Topología del circuito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2055.4 Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

5.4.1 Obtención de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

5.4.2 Selección de momentos . . . . . . . . . . . . . . . . . . . . . . . . . 2075.4.3 Elección de parámetros . . . . . . . . . . . . . . . . . . . . . . . . . 2085.4.4 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208

5.5 Conclusión . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211

Conclusions 221

A La reconstrucción de imágenes en PET 225A.1 La adquisición de datos en PET . . . . . . . . . . . . . . . . . . . . . . . . 225

A.1.0.1 El almacenamiento de datos . . . . . . . . . . . . . . . . . 225A.1.0.2 El muestreo de datos . . . . . . . . . . . . . . . . . . . . . 229

A.1.1 La reconstrucción de imágenes 2D . . . . . . . . . . . . . . . . . . . 230A.1.1.1 El teorema de la sección central . . . . . . . . . . . . . . . 231A.1.1.2 El algoritmo filtered-backprojection . . . . . . . . . . . . . 232A.1.1.3 Métodos iterativos . . . . . . . . . . . . . . . . . . . . . . 234

A.1.2 La reconstrucción de imágenes 3D . . . . . . . . . . . . . . . . . . . 237A.1.2.1 El algoritmo 3D-filtered-backprojection . . . . . . . . . . . 238A.1.2.2 El algoritmo 3D-Reprojection . . . . . . . . . . . . . . . . 240A.1.2.3 Métodos de rebinning . . . . . . . . . . . . . . . . . . . . 242

B Redes neuronales en MATLAB 245B.1 Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . 245B.2 Creación de una red neuronal . . . . . . . . . . . . . . . . . . . . . . . . . 246B.3 Entrenamiento de una red neuronal . . . . . . . . . . . . . . . . . . . . . . 246B.4 Simulación de una red neuronal y estimación del error . . . . . . . . . . . . 248B.5 Construcción y simulación de una red de base radial . . . . . . . . . . . . . 249

C Algoritmos genéticos 251C.1 Definición formal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251C.2 Codificación de las soluciones . . . . . . . . . . . . . . . . . . . . . . . . . 253C.3 Creación de la población inicial . . . . . . . . . . . . . . . . . . . . . . . . 253C.4 La función de evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255C.5 El proceso de reproducción . . . . . . . . . . . . . . . . . . . . . . . . . . . 255

C.5.1 Operadores genéticos . . . . . . . . . . . . . . . . . . . . . . . . . . 256C.5.1.1 El operador de cruce . . . . . . . . . . . . . . . . . . . . . 256C.5.1.2 El operador de mutación . . . . . . . . . . . . . . . . . . . 256

C.5.2 El proceso de selección . . . . . . . . . . . . . . . . . . . . . . . . . 257C.5.3 El criterio de parada . . . . . . . . . . . . . . . . . . . . . . . . . . 258

Bibliografía 259

Lista de Tablas

1.1 Hechos significativos de la historia de las redes neuronales. . . . . . . . . . 42

2.1 Variables selected by FBS starting from en empty set, and their rankingaccording to LARS method. . . . . . . . . . . . . . . . . . . . . . . . . . . 71

2.2 Performance achieved by several OP-ELM models using different combina-tions of activation functions. L: linear, S: sigmoid, G: gaussian. . . . . . . . 71

2.3 Variables selected by FBS with scaling factors (DT = 0.0064). . . . . . . . 722.4 Study of the performance of several OP-ELM models using scaled variables.

The different activation functions are: L: linear, S: sigmoid, G: gaussian. . 732.5 Performance of RCGA vs pRCGA for three different datasets. Values of

the DT and number of generations completed. . . . . . . . . . . . . . . . . 812.6 Performance of pRCGA vs pTBGA, with the BLX-α crossover operator . . 852.7 Performance comparison of FBS, TS and the best pTBGA configuration . 862.8 Datasets used in the experiments. . . . . . . . . . . . . . . . . . . . . . . . 892.9 Performance of RCGA-S and RCGA-SP after 50 generations. . . . . . . . . 902.10 Mean and standard deviation of DT values (×10−4) calculated by RCGA-S

for several initialization ratios (Population size = 150). . . . . . . . . . . . 902.11 Mean and standard deviation of DT values (×10−4) calculated by RCGA-

SP for several initialization ratios (Population size = 150). . . . . . . . . . 912.12 Datasets tested . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 992.13 Minimum DT values calculated for the ten datasets using FBS, tabu search

and DTSP-k (denormalized values in brackets) . . . . . . . . . . . . . . . . 106

3.1 Principales micotoxinas y alimentos en los cuales se presentan . . . . . . . 1123.2 Condiciones experimentales para la obtención de datos de niveles de OTA . 1163.3 Valores de MSEtest hallados en MLP ANN de doble capa mediante los algo-

ritmos Resilient Propagation (RP), Levenberg-Marquardt (LM) y BayesianRegularization (BR). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

3.4 Resumen de las mejores ANN obtenidas para la predicción de la acumu-lación de OTA en medio de cultivo elaborado con zumo de uva utilizandocomo criterio de optimización el mínimo MSEtest . . . . . . . . . . . . . . . 127

3.5 Parámetros para las rectas de regresión de las concentraciones de OTApredichas frente a las observadas obtenidas mediante las mejores MLP ANNsin y con early-stopping después de 5 repeticiones independientes. . . . . . 128

3.6 Valores de las variables de entrada (inputs) para la predicción de la acumu-lación de DON en semillas de cebada contaminada con Fusarium culmorum.131

XVII

3.7 Arquitecturas y parámetros de calidad de los mejores MLPs monocapadesarrollados para la predicción de la acumulación de DON en cultivos deF. culmorum en grano de cebada in vitro. . . . . . . . . . . . . . . . . . . 138

3.8 Importancia relativa ( %) de las variables de entrada obtenida por análisisde sensibilidad para algunas MLP ANN de una capa oculta. Los valoresrepresentan el promedio de 20 repeticiones. . . . . . . . . . . . . . . . . . . 140

3.9 Arquitecturas y parámetros de calidad de los mejores MLPs de dos capasocultas y RBFs desarrolladas para la predicción de la acumulación de DONen cultivos de F. culmorum en grano de cebada in vitro. . . . . . . . . . . 142

3.10 Parámetros de las rectas de regresión de los niveles predichos para DONobtenidos por una RBFN con 85 nodos ocultos frente a los observadostras 5 repeticiones independientes sobre conjuntos de entrenamiento y testelegidos al azar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

4.1 Isótopos más utilizados como radiotrazadores y sus principales aplicaciones. 1564.2 Características más significativas de los cristales de centelleo más importantes.1634.3 Parámetros del cristal centelleador de LSO simulado. . . . . . . . . . . . . 1804.4 Índices de refracción a 2.95 eV de los materiales empleados en simulación. . 1814.5 Matriz de ganancias para la salida A. . . . . . . . . . . . . . . . . . . . . . 1824.6 Matriz de ganancias para la salida B. . . . . . . . . . . . . . . . . . . . . . 1824.7 Matriz de ganancias para la salida C. . . . . . . . . . . . . . . . . . . . . . 1834.8 Matriz de ganancias para la salida D. . . . . . . . . . . . . . . . . . . . . . 1834.9 Comparación del MSE medio de test de los algoritmos trainlm y trainrp

entrenando diferente número de epochs y promediando 10 entrenamientosen cada caso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

4.10 Evaluación de la media (10 promedios) de los errores sistemáticos (en mm)y las resoluciones espaciales (en mm) a lo largo del cristal, proporcionadaspor las mejores ANNs implementadas, en un grid de posiciones de test dis-tinto al de entrenamiento y considerando early-stopping (e.s.) con diferentenúmero de validation checks. . . . . . . . . . . . . . . . . . . . . . . . . . . 199

4.11 Comparación de los errores sistemáticos (mm) y resoluciones medias (mm)del estimador 2 × 5/9/6/1 entrenado hasta 10 y hasta 200 epochs, respec-tivamente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200

5.1 Comparación de métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

B.1 Funciones de activación en MATLAB . . . . . . . . . . . . . . . . . . . . . 247B.2 Algoritmos de entrenamiento en MATLAB . . . . . . . . . . . . . . . . . . 248

Lista de Figuras

1.1 Representación del resultado de un problema de regresión por aproximaciónpolinómica. El polinomio solución está representado en azul y los intervalosde confianza del 95 % aparecen en color cian. . . . . . . . . . . . . . . . . . 4

1.2 Representación del resultado de una clasificación de dos clases para unproblema linealmente separable. . . . . . . . . . . . . . . . . . . . . . . . . 7

1.3 Representación del resultado de una clasificación de dos clases para unproblema no linealmente separable. El clasificador menos complejo (repre-sentado en verde) tiene una cierta tasa de error, pero generalizará mejorque el que se ajusta a todas las muestras de aprendizaje (representado enrojo). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.4 Morfología de una neurona biológica. . . . . . . . . . . . . . . . . . . . . . 131.5 Diagrama de una neurona artificial. . . . . . . . . . . . . . . . . . . . . . . 141.6 Función escalón. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.7 Función lineal a trozos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161.8 Función sigmoide. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.9 Función gaussiana. Se muestra el efecto de los parámetros amplitud (a) y

anchura (b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.10 Efecto del signo del umbral b sobre la frontera de decisión en un problema

de clasificación de dos clases. . . . . . . . . . . . . . . . . . . . . . . . . . . 211.11 Estructura de una ANN de tipo MLP de d entradas, dos capas ocultas

con activación sigmoidal, de N1 y N2 neuronas, respectivamente, y unasalida con función de activación lineal. Los umbrales de cada neurona sehan omitido en el diagrama por claridad. El sentido de las flechas indica ladirección en que se propagan las señales (feedforward). . . . . . . . . . . . 23

1.12 Estructura de una red de tipo RBFN de d entradas, N neuronas en lacapa oculta, y M neuronas de salida. Los umbrales de cada neurona sehan omitido en el diagrama por claridad. Las flechas indican el sentido depropagación de las señales. . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.13 Funcionamiento de una RBFN modelando una función arbitraria medianteun agregado de 7 funciones base Gaussianas ponderadas y sumadas. . . . . 26

1.14 Hiperplano de máxima separación para un problema de dos clases etique-tadas como +1 y -1. La máxima separación entre clases viene dada por δy se tienen 5 vectores soporte (representados como círculos). . . . . . . . . 27

1.15 Problema que no es separable linealmente en el espacio de entrada pasa aserlo en el espacio de características. . . . . . . . . . . . . . . . . . . . . . 27

1.16 Estructura de una SVM. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

XIX

1.17 Problema de regresión modelado por SVR. . . . . . . . . . . . . . . . . . . 301.18 Estructura de una red SOM de 2 entradas y un mapa de salida de tamaño

3×3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.19 Esquema de una validación cruzada con k = 6 subconjuntos. . . . . . . . . 321.20 Modelo correctamente entrenado frente a modelo sobre-entrenado. El mo-

delo sobre-entrenado memoriza la forma de la función de entrada, mode-lando incluso el ruido de ésta. El modelo correctamente entrenado será másrobusto frente al ruido y tendrá mejor comportamiento con nuevas muestras. 33

1.21 Representación del criterio de parada por early-stopping. . . . . . . . . . . 34

2.1 Block diagram of a modeling scheme that includes preprocessing and post-processing. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.2 Schematic view of the (a) filter and (b) wrapper techniques for optimalfeature selection. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.3 LARS algorithm for m = 2 covariates. . . . . . . . . . . . . . . . . . . . . 562.4 Scheme of the global methodology considered. . . . . . . . . . . . . . . . . 682.5 Forward-backward selection algorithm based on the minimization of DT. . 682.6 FBS evolution for the modified Anthrokids dataset, starting from empty

selection. The algorithm stops in the 12th iteration (DT=0.0070) as a DTincrease is detected afterwards. The number of variables selected in eachiteration is shown over each point. The vertical dashed line indicates thepoint where the algorithm converges. . . . . . . . . . . . . . . . . . . . . . 70

2.7 Algorithm scheme. Dashed line represents one to one communication, dot-ted lines represent collective communications. . . . . . . . . . . . . . . . . 78

2.8 Generations evaluated by the GA vs the number of processors used. An-throkids dataset, without scaling (left) and with scaling (right). . . . . . . 82

2.9 Generations evaluated by the GA vs the number of processors used. Tecatordataset, without scaling (left) and with scaling (right). . . . . . . . . . . . 83

2.10 Generations evaluated by the GA vs the number of processors used. ESTSP2007 dataset, without and with scaling. . . . . . . . . . . . . . . . . . . . . 84

2.11 Pareto front for Santa Fe dataset, using scaling with fixed number of va-riables and df = d/2. The desired solution is the one that, in first place,adopts the desired number of fixed variables df (or as close as possible)and, in second place, minimizes the DT with that constraint. . . . . . . . . 96

2.12 Computational time of the approximate k-NN search as a function of ǫfor three datasets. The results were obtained running DTSP-1 for 200generations and 10 runs were averaged. . . . . . . . . . . . . . . . . . . . . 100

2.13 DT performance comparison for approximate k-NN search and differentvalues of ǫ for three datasets. The results were obtained running DTSP-1for 200 generations and 10 runs were averaged. . . . . . . . . . . . . . . . . 100

2.14 DT performance (average and minimum values) for ten datasets (ǫ = 1). . 1022.15 Computational times obtained for ten datasets (ǫ = 1). . . . . . . . . . . . 1032.16 DTSP-k results using projection to k = 1, 2, 3, 4, 5 dimensions for ten

datasets. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1042.17 Computational times obtained for DTSP-1, 2, 3, 4, 5 for ten datasets. . . 105

3.1 Esquema de la preparación de los cultivos de Aspergillus carbonarius enmedio preparado con zumo de uva. . . . . . . . . . . . . . . . . . . . . . . 117

3.2 Esquema del proceso analítico para determinar OTA en cultivos de A.carbonarius en medio obtenido a partir de uvas. . . . . . . . . . . . . . . . 118

3.3 Cromatograma de OTA obtenido en las condiciones indicadas en el texto.La fórmula de la toxina aparece en la esquina superior derecha. . . . . . . . 119

3.4 Variación de la concentración de OTA en cultivos de A. carbonarius enmedio con zumo de uva a 20oC, tres valores de aw y 5 dosis de carbendazima,incluyendo el control. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

3.5 Variación de MSEtest con el número de nodos en la capa oculta en percep-trones monocapa entrenados mediante los algoritmos RP, LM y BR sin ycon conjunto de validación para realizar early-stopping (-V en la leyenda). . 124

3.6 Evolución de los errores de entrenamiento, validación y test durante unentrenamiento típico con early-stopping con un valor de max_fail de 50epochs. El mínimo error de validación sucede antes del 5o epoch en todoslos casos ensayados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

3.7 Concentración de OTA predicha frente a la observada en el conjunto de testobtenida usando un MLP con estructura 4/20/6/1 entrenado mediante elalgoritmo BR con subconjunto de validación (45 muestras para entrenar)(A) y 4/18/12/1 entrenado mediante el algoritmo BR sin conjunto de val-idación (85 muestras para entrenar) (B). . . . . . . . . . . . . . . . . . . . 129

3.8 Variación en el MSE para el conjunto de datos de entrenamiento (MSEent)y de test (MSEtest) con el número de nodos en la capa oculta para RBFN. 130

3.9 Esquema de la preparación de los cultivos de F. culmorum en semillas decebada. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132

3.10 Esquema del proceso de análisis de las semillas de cebada contaminadascon F. culmorum para determinar el contenido de DON mediante GC-ECD.134

3.11 Esquema básico de un cromatógrafo de gases (izquierda) y de un ECD(derecha) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

3.12 Cromatograma obtenido mediante GC-ECD usando el método analíticoindicado a partir de un cultivo de semillas de cebada. Se indica el pico delDON y su fórmula estructural. . . . . . . . . . . . . . . . . . . . . . . . . . 135

3.13 Evolución de los errores de entrenamiento, validación y test durante unentrenamiento típico con early-stopping con un valor de max_fail de 50epochs. El punto de parada con el parámetro max_fail = 5 es el mismo quecon max_fail = 50. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

3.14 Acumulación de DON con el tiempo de incubación en semillas de cebadainoculadas con discos de 11 mm de diámetro de un cultivo de F. culmo-rum en PDA e incubadas a 15, 20 and 25 oC y a tres actividades acuosasdiferentes: A) 0.98; B) 0.96; C) 0.94. . . . . . . . . . . . . . . . . . . . . . 139

3.15 Variación del MSEent y MSEtest con el número de neuronas ocultas en MLPde una capa entrenados con tres algoritmos. A) LM sin validación; B) LMcon validación; C) BR sin validación; D) BR con validación; E) RP sinvalidación y F) RP con validación. . . . . . . . . . . . . . . . . . . . . . . 141

3.16 Concentración de DON predicha por las redes neuronales frente a la obser-vada para un conjunto de test seleccionado al azar. A) MLP con una capaoculta de 8 neuronas entrenada mediante el algoritmo BR; B) RBFN con85 neuronas ocultas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

3.17 Variación del MSEtest en MLP ANN de dos capas ocultas con el númerode nodos en las capas primera (N1) y segunda (N2). A) algoritmo LMsin validación; B) LM con validación; C) BR sin validación; D) BR convalidación; E) RP sin validación; F) RP con validación. . . . . . . . . . . . 143

3.18 Variación del MSE de entrenamiento y de test con el número de neuronasen la capa oculta en RBFN diseñada para predecir la acumulación de DONen cebada contaminada con F. culmorum. . . . . . . . . . . . . . . . . . . 144

4.1 Interacción momento/flujo magnético en MRI. . . . . . . . . . . . . . . . . 1524.2 Emisión de un positrón por parte de un núcleo radiactivo y su posterior

aniquilación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1574.3 Un evento true (a), un single (b), un random (c) y una coincidencia por

scattering (d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1584.4 Esquema básico de un circuito detector de coincidencias. Cada rama con-

tiene un circuito discriminador y un retardo ajustable para cancelar lasdiferencias de retardo entre las dos ramas. . . . . . . . . . . . . . . . . . . 159

4.5 Diagrama 3D de una gammacámara. Los fotones γ inciden en el cristalcentelleador. La señal óptica generada es captada por los PMTs, que laconvierten en señal eléctrica que puede ser procesada a posteriori paraestimar el punto de incidencia y, con ello, reconstruir la imagen de un objetomediante las LOR detectadas. La señal Z es proporcional a la cantidad totalde luz generada por un evento de centelleo y se utiliza para análisis de laaltura de pulso, además de para realizar estimaciones de la profundidad deinteracción [191]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160

4.6 Diagrama de un escáner PET cilíndrico de cuerpo entero. Las múltiplesLOR recorren el cuerpo del paciente transversalmente según distintos án-gulos y son detectadas por detectores opuestos de cada anillo, posibilitandola reconstrucción de imágenes de secciones de órganos, o volúmenes, al com-binar varias secciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161

4.7 Fotografía de un escáner comercial típico. . . . . . . . . . . . . . . . . . . . 1624.8 Gammacámara de geometría dual-head (dos detectores enfrentados). . . . . 1624.9 Matriz de cristales 8×8 acoplada a 4 PMTs formando 4 bloques detec-

tores. Generalmente, un escáner de PET puede constar desde dos de estosmódulos enfrentados hasta varios anillos de decenas de ellos en cada uno. . 164

4.10 Tubo fotomultiplicador. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1654.11 Efecto fotoeléctrico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1674.12 Scattering Compton. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1684.13 Energía del fotón dispersado (verde) y probabilidad de dispersión para el

mismo ángulo sólido (azul), normalizadas, según el ángulo de dispersión,para fotones de 511 keV. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168

4.14 Ilustración del error de paralaje producido al ignorar la DOI. . . . . . . . . 171

4.15 Implementación de un circuito de posicionamiento de 8×8 ánodos mediante(a) una DPC de 4 salidas (A,B,C,D) y (b) una SCD de 16 salidas (X1-8,Y1-8).173

4.16 Relación entre las señales A, B, C y D, y las coordenadas de referencia (X,Y). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175

4.17 Diagrama del bloque receptor simulado. La cara lateral del cristal queaparece en primer plano también está cubierta de pintura negra, pero seha omitido en el dibujo por claridad. . . . . . . . . . . . . . . . . . . . . . 180

4.18 Espectro de energía obtenido para el centro del cristal, con incidencia per-pendicular. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

4.19 Comparativa de los espectros de energía obtenidos para el centro del cristal(azul), en el borde del eje central (verde) y en la esquina del cristal (rojo)para incidencia perpendicular. . . . . . . . . . . . . . . . . . . . . . . . . . 186

4.20 Barrido de las 49 × 49 posiciones del cristal para la toma de medidas 2D. . 1884.21 Dimensionamiento del estimador 1D doble (a) y estimador 2D único (b). . 1894.22 Comparación de la linealidad del método de Anger (a) con el estimador

MLP doble (b). El método basado en MLP mejora la linealidad hastaconseguir un FOV útil de 40 mm × 40 mm, lo que constituye cerca de un90 % de la superficie del detector. Las dimensiones de los ejes vienen dadasen mm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

4.23 Comparación de histogramas 2D de cuentas de eventos detectados en unamalla de 9 × 9 posiciones del cristal por el método de Anger (a) y con elestimador MLP doble (b). Las dimensiones de los ejes vienen dadas en mm. 190

4.24 Esquema del banco de pruebas experimental. . . . . . . . . . . . . . . . . . 1904.25 Esquema de la proyección del cristal de centelleo sobre el MA-PMT uti-

lizado en los experimentos. El área útil de medida queda restringida por eltamaño del cristal a los 6 × 6 ánodos internos. . . . . . . . . . . . . . . . . 191

4.26 Diagrama de bloques del sistema PET completo utilizado para la toma demedidas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192

4.27 Error sistemático y resolución espacial logrados por el MLP 2×4/9/6/1para el conjunto de test sin preprocesado, en función de (a) la posición enel eje x y (b) la posición en y. . . . . . . . . . . . . . . . . . . . . . . . . . 193

4.28 Error sistemático y resolución espacial logrados por el MLP 2×4/9/6/1para el conjunto de test filtrado por energía, en función de (a) la posiciónen el eje x y (b) la posición en y. . . . . . . . . . . . . . . . . . . . . . . . 194

4.29 Histogramas 2D de cuenta de eventos para el estimador MLP 2×4/9/6/1utilizando filtrado por energía con una ventana del 20 % en torno al fotopico.194

4.30 Comparativa de los histogramas 2D de cuenta de eventos para (a) la lógicade Anger y (b) el estimador MLP 2×4/9/6/1. Las dimensiones de los ejesvienen dadas en mm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195

4.31 Error sistemático y resolución espacial logrados por el MLP 2×4/9/6/1para el conjunto de test filtrado en función de (a) la posición en el eje x y(b) la posición en y. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196

4.32 PSF a lo largo del eje y determinada por las posiciones [x = -3.04 mm], [-15.2 mm ≤y ≤ 15.2 mm] para la lógica de Anger (a) y para el estimador MLP2×4/9/6/1 (b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197

4.33 Histograma 2D de cuenta de eventos correspondiente al estimador 2×5/9/6/1 que incluye Z como entrada (a) y su PSF a lo largo del eje ydeterminada por las posiciones [x = -3.04 mm], [-15.2 mm ≤ y ≤ 15.2 mm](b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198

4.34 Diferentes mallados utilizados para entrenamiento y para test con el fin decomprobar el funcionamiento de la red entrenada en posiciones distintas alas de test. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199

4.35 Histogramas 2D de cuenta de eventos de test correspondiente al estimador2× 5/9/6/1 con distinto mallado para entrenamiento y test, entrenado (a)hasta 10 epochs y (b) hasta 200 epochs. . . . . . . . . . . . . . . . . . . . . 200

5.1 Diagrama del setup planteado. La sección analógica realiza una reducción o“compresión” del volumen de datos de entrada a únicamente un máximo deN = 8 señales. La sección digital se encarga de la estimación de la posiciónpor medio de ANNs. En el caso de estimación de posición bidimensionaltendríamos O = 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206

5.2 Malla de posiciones utilizadas para entrenar y testar. . . . . . . . . . . . . 207

5.3 Malla de posiciones utilizadas para validar. . . . . . . . . . . . . . . . . . . 208

5.4 Evaluación del comportamiento predictivo de las ANNs en (a) el eje x, (b)el eje y, y (c) en toda la superficie del cristal por medio de un histograma2-D, para el conjunto de test utilizando las 8 variables originales. . . . . . . 213

5.5 Evaluación del comportamiento predictivo de las ANNs en (a) el eje x, (b)el eje y, y (c) en toda la superficie del cristal por medio de un histograma2-D, para el conjunto de test utilizando selección de variables. . . . . . . . 214

5.6 Evaluación del comportamiento predictivo de las ANNs en (a) el eje x, (b)el eje y, y (c) en toda la superficie del cristal por medio de un histograma2-D, para el conjunto de test utilizando escalado de variables. . . . . . . . 215

5.7 Evolución del valor de DTx y DTy en función del número de proyeccionesutilizadas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216

5.8 Evaluación del comportamiento predictivo de las ANNs en (a) el eje x, (b)el eje y, y (c) en toda la superficie del cristal por medio de un histogra-ma 2-D, para el conjunto de test utilizando proyección de variables con 7proyecciones para x y 8 para y. . . . . . . . . . . . . . . . . . . . . . . . . 217

5.9 Evaluación del comportamiento predictivo de las ANNs en (a) el eje x, (b)el eje y, y (c) en toda la superficie del cristal por medio de un histogra-ma 2-D, para el conjunto de test utilizando proyección de variables con 4proyecciones para x y 4 para y. . . . . . . . . . . . . . . . . . . . . . . . . 218

5.10 Evaluación del comportamiento predictivo de las ANNs en (a) el eje x, (b)el eje y, y (c) en toda la superficie del cristal por medio de un histograma2-D, para el conjunto de test utilizando escalado y proyección de variables(7 proyecciones para x y 8 para y). . . . . . . . . . . . . . . . . . . . . . . 219

5.11 Evaluación del comportamiento predictivo de las ANNs en (a) el eje x, (b)el eje y, y (c) en toda la superficie del cristal por medio de un histograma2-D, para el conjunto de validación (mallado 8 × 8) utilizando escalado yproyección de variables (7 proyecciones para x y 8 para y). . . . . . . . . . 220

A.1 Representación de una proyección de un objeto 2D según un ángulo φarbitrario y relación entre la proyección y el sinograma. Cada fila del sino-grama corresponde a una proyección, y a cada punto (x, y) del objeto lecorresponderá una línea senoidal, obtenida a partir de las múltiples LORsque atraviesan dicho punto al variar φ entre [0, π] (no se toman ángulos enel rango ]π, 2π] por la simetría del sistema). . . . . . . . . . . . . . . . . . 227

A.2 Representación de una proyección 2D de un objeto 3D según unos ángulosφ y θ arbitrarios. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228

A.3 Sinograma oblicuo de un objeto esférico, para valores de yr y θ fijados. . . 229A.4 Esquemas de muestreo en una sección transaxial de un escáner PET cilín-

drico. Se representan: muestreo en abanico (a), muestreo paralelo (b) y lacombinación de ambos (c). . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

A.5 Ilustración del teorema de la sección central. La línea que pasa por el origende coordenadas de la transformada de Fourier 2D de la distribución f(x, y)con un ángulo φ equivale a la transformada de Fourier 1D de la proyecciónp(xr, φ). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232

A.6 Filtro de ponderación aplicado a la transformada de Fourier 2D de la dis-tribución del radiotrazador para evitar el sobremuestreo en el centro. . . . 233

A.7 Filtro de rampa en combinación con la ventana de Hanning para atenuar elruido estadístico a altas frecuencias y mejorar así la relación señal a ruido.En este ejemplo la frecuencia de corte es vc=0.5, que corresponde a unespaciado mínimo entre muestras ∆xr = 1. . . . . . . . . . . . . . . . . . . 235

A.8 Ejemplo de discretización de un objeto en píxeles. Se ha destacado en rojoun elemento Hij arbitrario del modelo H. . . . . . . . . . . . . . . . . . . . 236

A.9 Diferencia entre PET en modo 2D y en modo fully 3D. En este caso, para2D se permiten los planos directos y los cruzados mientras que para 3Dtodos los planos oblicuos están permitidos. . . . . . . . . . . . . . . . . . . 238

A.10 Proyecciones completas frente a proyecciones truncadas en un escáner cilín-drico. La aparición del truncamiento de datos se da para valores de |θ| > Θ. 241

A.11 Comportamiento del algoritmo de rebinning para una fuente puntual cen-trada en el eje del escáner y para una fuente puntual descentrada. A medidaque aumenta la distancia entre la fuente y el eje también aumenta el erroren la LOR reconstruida. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243

C.1 Diagrama de flujo de un algoritmo genético. . . . . . . . . . . . . . . . . . 254C.2 Operador de cruce clásico con (a) un punto de cruce y (b) dos puntos de

cruce. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256C.3 Operador de mutación clásico a nivel de bit. . . . . . . . . . . . . . . . . . 257

XXV

Lista de acrónimos y símbolos

AI Artificial intelligence

ANN Artificial neural network

APD Avalanche PhotoDiode

ARD Automatic relevance determination

BE Backward elimination

BP Backpropagation

BR Bayesian regularization

CCA Canonical correlation analysis

CG Centro de Gravedad

CT Computerized tomography

CV Cross-validation

DAQ Data Acquisition

DOI Depth-of-Interaction

DON Deoxinivalenol

DSP Digital Signal Processor

DT Delta test

ELM Extreme Learning Machine

EM Expectation maximization

FBP Filtered Backprojection

FBS Forward-backward selection

FDP Función de Densidad de Probabilidad

FOV Field-of-View

FPGA Field Programmable Gate Array

FS Forward selection

FWHM Full Width Half Maximum

GA Genetic algorithm

GPLVM Gaussian process latent variable model

GT Gamma test

ICA Independent component analysis

k-NN K-nearest neighbors

XXVII

LARS Least angle regression

LCC Linear correlation coefficient

LLE Locally Linear Embedding

LLR Local linear regression

LM Levenberg-Marquardt

LMS Least-mean squares

LOO Leave-One-Out

LOR Line-of-Response

LRF Light Response Function

LSO Lutetium Oxyorthosilicate

LUT Look-up table

LVQ Linear Vector Quantization

MA-PMT Multi-Anode Photomultiplier Tube

MDR Multifactor dimensionality reduction

MI Mutual Information

ML Maximum likelihood

MLP Multi-layer perceptron

MRI Magnetic resonance imaging

MRSR Multi-Response Sparse Regression

MSE Mean-squared error

NN Neural network

NNE Nonparametric noise estimation

OLS Ordinary least squares

OP-ELM Optimal Pruned - Extreme Learning Machine

OTA Ocratoxina A

PCA Principal component analysis

PEM Positron Emission Mammography

PET Positron Emission Tomography

PLS Partial least squares

PPS Potencial Post-Sináptico

PRESS Predictive Residual Error Sum of Squares

PS-PMT Position Sensitive Photomultiplier Tube

PSPD Position Sensitive Photodetector

RBF Radial basis function

RCGA Real-coded genetic algorithm

RMSE Root-mean-squared error

RMSEP Root-mean-squared error of prediction

ROI Region-of-Interest

XXVIII

RP Resilient backpropagation

RPROP Resilient backpropagation

RS Response surface

SEP Standard Error of prediction

SLFN Single Layer Feedforward Network

SNR Signal-to-Noise Ratio

SOM Self-Organizing Map

SPECT Single Photon Emission Computed Tomography

SVD Singular value decomposition

SVM Support Vector Machine

SVR Support Vector Regression

TOF Time-of-Flight

TS Tabu search

VC Vapnik-Chervonenkis

VOR Volume-of-Response

VQ Vector quantization

XXIX

Prediction is very difficult, especially about the future.La predicción es muy difícil, especialmente sobre el futuro.

Niels Bohr, físico Danés (1885-1962).

XXXI

Prefacio

Existen numerosos sistemas y procesos en bioingeniería que son costosos de modelar y porello se deben aproximar por problemas más simplificados para hallar su solución. Muchasveces es necesario reducir el número de estímulos de un sistema, o combinarlos de ciertamanera, para que la aproximación de una función sea posible con un mínimo de error yen un tiempo reducido.

La aproximación de funciones desconocidas a partir de un conjunto de muestras expe-rimentales ha sido siempre, y sigue siendo, una parte fundamental en muchas disciplinascientíficas e industriales. Esta tarea se ha abordado de diversas formas a lo largo de lahistoria, pasando por los modelos estadísticos, los modelos basados en lógica difusa y losmodelos neuronales.

Los modelos basados en redes neuronales han alcanzado una gran popularidad enlos últimos años al ser una herramienta sencilla que tiene una gran variedad de usos,ya sea predicción, clasificación, reconocimiento de patrones, optimización, etc. Al mismotiempo, son universales en el sentido de que puede utilizarse en infinidad de campos deinvestigación sin restricción alguna y suelen garantizar buenos resultados en comparacióncon los métodos estadísticos clásicos.

Las redes neuronales presentan una capacidad de interpolación y generalización real-mente sorprendentes. Su estructura es sencilla, ya que básicamente realizan una combi-nación lineal de sus entradas ponderadas por ciertos pesos, sobre las que se aplica unadeterminada función de activación. La característica más particular de las redes neuronaleses su capacidad de aprender mediante entrenamiento, realizado a partir de aproximaciónsucesiva de los pesos hacia sus valores óptimos, que son aquellos que minimizan el errora la salida de la red. Este entrenamiento suele realizarse comprobando el error a la saliday retrocediendo capa por capa, actualizando los pesos hacia atrás, desde las salidas hacialas entradas.

En la literatura se pueden encontrar multitud de algoritmos para entrenar las redesneuronales a partir de un conjunto de ejemplos de entrada/salida. Cada algoritmo tienesus puntos fuertes y sus puntos débiles, y no existe una regla básica que indique que unalgoritmo vaya a funcionar mejor que otro para un determinado problema, por lo que esnecesario probar varios de ellos y escoger el más apropiado en cada situación.

No obstante, el entrenamiento de las redes neuronales presenta problemas muy intere-santes y complejos, desde la parálisis del entrenamiento hasta la convergencia a mínimoslocales y, además, es complicado encontrar la estructura óptima de las redes en cuanto anúmero de capas y de neuronas, lo que requiere un análisis exhaustivo.

Cuando el número de entradas a la red es grande, la estructura de la red también crecey, con ello, el tiempo de computación necesario para entrenarla. Por tanto, es esencial saberanalizar los datos de entrada y encontrar las dependencias y variables innecesarias que

XXXIII

pueden eliminarse sin repercutir en las prestaciones de la red en cuanto a capacidad depredicción, reduciendo así de manera efectiva su coste computacional y haciéndola lo máscompacta posible.

Estructura de la tesis

Se ofrece a continuación un pequeño inciso sobre la temática que se discutirá en cada unode los capítulos.

Capítulo 1: Se presenta una introducción teórica a las redes neuronales como mode-los predictivos inteligentes y su aplicabilidad a los distintos problemas prácticos que sepresentarán posteriormente.

Capítulo 2: En este capítulo pasamos a discutir las ventajas del preprocesado de datospor medio de la selección eficiente de variables, antes de aplicar un modelo predictivo oun algoritmo de optimización, como pueden ser una red neuronal o un algoritmo genético,respectivamente. Además, se comprobarán las ventajas del preprocesado (selección devariables) por medio de la aplicación a casos reales, en concreto sobre conjuntos de datoscorrespondientes a series temporales.

Capítulo 3: Aquí se introduce el primer problema práctico en el que se utilizarán lasredes neuronales para tratar de predecir la evolución de la concentración de micotoxinas(toxinas producida por ciertos hongos) que existe en algunos tipos de alimentos, en funciónde ciertas variables de entorno y del tiempo.

Capítulo 4: Este capítulo describe la segunda aplicación práctica en la cual se aplicaránlas redes neuronales como aproximadores de funciones. Se trata de corregir la posición deincidencia en un tomógrafo por emisión de positrones, tanto en medidas simuladas comoen medidas reales.

Capítulo 5: A partir de lo expuesto en el Capítulo 2, se procederá a realizar una am-pliación del Capítulo 4, tratando de mejorar el comportamiento de los modelos neuronalesmediante un preprocesado de los estímulos de entrada.

Apéndice A: Se incluye una descripción de los métodos de reconstrucción de imágenesmédicas de PET en 2D y 3D, con el fin de complementar las explicaciones de los elementosde un sistema PET del Capítulo 4.

Apéndice B: Se introduce brevemente la sintaxis básica para crear, inicializar, entre-nar y testar redes neuronales con el popular software MATLABTM, utilizando la NeuralNetwork ToolboxTMproporcionada por dicho software.

XXXIV

Apéndice C: Aquí se explica la teoría básica de los algoritmos genéticos, necesaria paracomprender algunas de las ideas fundamentales del análisis expuesto en el Capítulo 2.

Objetivos

El trabajo que se presenta en esta tesis doctoral tiene los siguientes objetivos:

1. Reflejar el estado del arte actual de las redes neuronales como herramientas depredicción y sus ventajas frente a otros métodos clásicos. La primera fase de la Tesisconsistirá en la documentación exhaustiva sobre las redes neuronales, conocer suslimitaciones y sus principales aplicaciones, así como su implementación software enentornos de programación como MATLAB.

2. Discutir las ventajas del preprocesado de datos por medio de la selección eficientede variables antes de aplicar un modelo predictivo o un algoritmo de optimizacióncomo pueden ser una red neuronal o un algoritmo genético, respectivamente.

3. Profundizar en las ventajas del preprocesado (selección y transformación de va-riables) por medio de la aplicación de mejoras sobre lo expuesto en el objetivo 2,comprobándose la bondad de los métodos sobre series temporales.

4. Modelar la evolución de la concentración de importantes micotoxinas (ocratoxinaA, deoxinivalenol) producidas por ciertos hongos toxigénicos en cultivos basados enproductos alimenticios usando como variables predictoras parámetros de entorno,de tamaño de inóculo, presencia de sustancias fungicidas y el tiempo de incubación.A tal fin se usarán modelos basados en redes neuronales. Esta aplicación será de-sarrollada en colaboración con el Departamento de Microbiología y Ecología de laUniversidad de Valencia.

5. Utilizar redes neuronales artificiales para corregir la posición de incidencia en untomógrafo por emisión de positrones (PET), tanto en medidas simuladas como enmedidas reales. Las medidas simuladas se realizarán mediante el software GEANT4,mientras que las medidas reales se tomarán en un banco de test específicamente dise-ñado e implementado por el Departamento de Ingeniería Electrónica de la Universi-dad Politécnica de Valencia, dentro del marco del proyecto FPA 2007-65013-C02-02del Ministerio de Ciencia e Innovación.

6. Estudiar la repercusión del preprocesado de variables para la simplificación de laelectrónica de front-end del sistema de adquisición PET mencionado en el objetivo5. En concreto se pretende realizar una compresión de los datos con el fin de mini-mizar el número de sensores, entradas, convertidores, etc. que son necesarios parael funcionamiento del sistema.

La consecución de los objetivos 2 y 3 se acometerá en colaboración con el Laboratoryof Computer and Information Science (CIS) de la Helsinki University of Technology.

XXXV

Justificación

Dada la complejidad de ciertos procesos y aplicaciones en todos los campos relacionadoscon la ciencia y, en particular, en el campo de la bioingeniería, se hace necesaria la creaciónde modelos sencillos para aproximar funciones desconocidas o que son demasiado difícilesde evaluar matemáticamente, especialmente bajo restricciones temporales. En estos ca-sos conviene acudir a modelos estadísticos de aproximación u otros modelos matemáticosinteligentes, como las redes neuronales, que son modelos basados en el aprendizaje au-tomático (machine learning) y que facilitan, en gran medida, el proceso de aproximacióna una función no lineal o modelado de un sistema de clasificación por patrones. Existenmuchos problemas en los que se precisa explorar la capacidad de modelos basados enredes neuronales para mejorar la capacidad predictiva de modelos anticuados o la faltade modelos adecuados. En esta tesis se hará hincapié en las diversas aplicaciones en quelas redes neuronales pueden ser utilizadas como predictores universales.

En problemas de bioingeniería, es tan importante la predicción como el preprocesadode los conjuntos de datos. Para resolver un problema de predicción, en muchas ocasionesse tiene disponible una gran cantidad de variables. Es de suma importancia el saber dis-criminar, por medio de algún criterio fiable, qué variables son realmente necesarias parala resolución del problema, y cuáles no aportan apenas información útil. La presencia devariables superfluas constituye un problema de cara a la adquisición de datos, complican-do innecesariamente el hardware requerido, suponiendo un coste económico y temporaladicional, y complicando el código necesario. Es por ello que se deberán tratar adecuada-mente los conjuntos de datos para hallar criterios racionales que permitan compactar ysimplificar la información y de ese modo facilitar en gran medida el tratamiento computa-cional de los datos.

La primera aplicación en que se van a evaluar las redes neuronales es la microbiologíapredictiva. En concreto, resulta de gran interés estudiar las posibilidades que ofrecen lasredes neuronales para predecir la concentración que pueden alcanzar en productos ali-menticios ciertos metabolitos cancerígenos (micotoxinas) que son producidas por diversoshongos y que se acumulan en ciertos tipos de alimentos. Existen muy pocos estudios sobrepredicción en el campo de las micotoxinas, y los que existen no satisfacen las necesidadesactuales, por lo que es preciso mejorarlos. Por ello, se va a proponer un estudio exhausti-vo basado en redes neuronales para tratar de obtener mejores resultados que los métodosclásicos como las superficies de respuesta.

Por otro lado, se tratará de probar la universalidad de las redes neuronales aplicándolasa un campo tan distinto del anterior como es un sistema de posicionamiento automatizadopara tomografía por emisión de positrones. En este sistema se pretende optimizar laresolución para igualar o mejorar la resolución típica de los sistemas comerciales actuales,al tiempo que se minimiza el error sistemático y se uniformiza a lo largo del cristal.Además, se procurará corregir, en la medida de lo posible, las no linealidades introducidaspor los sistemas de posicionamiento tradicionales y que dificultan la reconstrucción de lasimágenes médicas.

Esta tesis doctoral trata de abordar todos estos puntos de manera exhaustiva, mostran-do ejemplos de aplicación concretos, con el fin de ofrecer una metodología de análisiscompleta y robusta que se pueda utilizar de forma general para el modelado de problemasde regresión prácticos y aproximación de funciones desconocidas.

XXXVI

Capítulo 1

Fundamentos de las redes neuronales

En este capítulo se presentan los aspectos básicos de las redes neuronales (ANNs) como he-rramientas para predecir y modelizar problemas tanto de regresión como de clasificación.Se describe el entorno en que surgen, y sus ventajas en el ámbito del modelado estadís-tico y de la predicción frente a los métodos clásicos. Posteriormente, se introducirán suscaracterísticas principales, sus tipos y topologías más empleados, así como sus ámbitos deaplicación. Estos conceptos serán esenciales de cara a entender su aplicación específica enlos capítulos posteriores.

1.1 La aproximación de funciones y el modelado de

datos

En multitud de problemas científicos se utilizan series de datos que deben tratarse paraajustarse a una función o modelo matemático que sea fácilmente reproducible, con

el fin de predecir muestras partiendo de las ya existentes, sin necesidad de tomar nuevasmedidas. En esta sección trataremos dos problemas íntimamente ligados. El primero es elproblema de la aproximación de funciones, que podemos enunciar formalmente como:

Dada una función f(x) definida en [a, b] y una serie de funciones base Ψr(x) definidastambién en [a, b], encontrar los coeficientes ar de forma que la suma

∑nr=0 Ψr(x) sea lo

más próxima posible a f(x) en el intervalo [a, b].El concepto de proximidad viene dado por la norma. La más utilizada es la norma de

mínimos cuadrados o L2, definida para dos funciones f(x) y g(x) como

‖f(x) − g(x)‖2 =

∫ b

a

(f(x) − g(x))2dx (1.1)

en un intervalo, o como

‖f(x) − g(x)‖2 =

n∑

i=0

(f(xi) − g(xi))2dx (1.2)

en un conjunto discreto de puntos. Aparte de la norma L2 se utilizan de manera usual lasnormas L1 y L∞, esta última definida como

‖f(x) − g(x)‖∞ = max(f(x) − g(x)). (1.3)

1

2 CAPÍTULO 1. FUNDAMENTOS DE LAS REDES NEURONALES

El problema de la aproximación es esencial cuando queremos representar una funciónen serie de otras más sencillas, como potencias o funciones trigonométricas.

El segundo problema surge cuando medimos datos que satisfacen una ley que se com-porta como una función. Típicamente medimos un conjunto de N puntos (xi, yi), dondela variable independiente xi se supone exacta y todo el error de medida de cada puntose atribuye a la variable dependiente yi, que viene afectada de un error experimental σi.Suponemos que la ley que satisfacen los datos se puede describir mediante un modelo dela forma y = f(x) que depende de una serie de parámetros ai. Nos limitaremos al casoparticular en que la dependencia de los parámetros es lineal, es decir f(x) =

∑nr=0 arΨr(x)

donde Ψr(x) son funciones base convenientes para describir nuestro modelo teórico de losdatos. Podemos enunciar el segundo problema como:

Determinar los valores de los parámetros ai que hacen que la cantidad

χ2 (a0, a1, . . . , an) =N∑

i=1

(yi −∑n

r=0 arΨr(xi))

σ2i

(1.4)

sea mínima.Éste es el problema del modelado de datos experimentales. Ambos problemas, apro-

ximación de funciones y modelado de datos, están íntimamente ligados y comparten lasmismas técnicas de resolución. Entre las técnicas más habituales están: la aproximaciónpor mínimos cuadrados, aproximación polinómica, la aproximación minimax, los splines,etc.

1.1.1 Comportamiento estadístico de los datos experimentales

Un caso particularmente importante es cuando deseamos ajustar datos experimentalesmediante una función dependiente de parámetros ajustables. Esta función puede estar in-spirada en un modelo teórico, o bien puede ser de carácter empírico, motivada únicamentepor el comportamiento de los datos.

Los datos experimentales vienen siempre afectados de errores de medida. Estos errorespueden ser sistemáticos o aleatorios. Los errores sistemáticos son debidos al sistema oaparato de medida y, generalmente, sólo actúan en una dirección. Tienen un númeroreducido de causas y se pueden determinar frecuentemente a partir del análisis del métodode medida, comparando con otras medidas conocidas, o mediante un procedimiento decalibrado. Los errores aleatorios, por otro lado, tienen un número muy elevado de causas,difíciles de identificar por separado, y que producen una contribución aleatoria en cadamedida independiente. Cada una de las causas produce una pequeña contribución y elerror aleatorio total es la suma de todas las causas por separado. El error aleatorio sepuede representar matemáticamente por una suma de variables aleatorias.

1.1.2 Regresión y clasificación

Tanto el problema de regresión como el de clasificación pueden considerarse casos par-ticulares de la aproximación de funciones. En el caso de la regresión, lo que se deseaaproximar es una función de regresión, mientras que en un problema de clasificación lasfunciones que se desean aproximar son las probabilidades de pertenencia a las diferentesclases expresadas como funciones de las variables de entrada [32].

1.1. LA APROXIMACIÓN DE FUNCIONES Y EL MODELADO DE DATOS 3

1.1.2.1 Regresión

En muchas tareas de predicción se hace necesario hallar valores de variables de salidacontinuas en función de las muestras de entrada al sistema. Este tipo de problema recibe elnombre de regresión. Concretamente, el análisis de regresión estima la media condicionadade la variable dependiente dada una serie de variables independientes, es decir, la media dela variable dependiente cuando las variables independientes se fijan a un valor [294]. Menoshabitualmente, se considera un cuantil, u otro parámetro de localización en la distribucióncondicionada de la variable dependiente dadas las variables independientes. En todo caso,el objetivo de la estimación es una función de las variables independientes denominadafunción de regresión. En el análisis de regresión, también es interesante caracterizar lavariación de la variable dependiente en torno a la función de regresión que puede serdescrita como una distribución de probabilidad.

Por lo general, un problema de regresión se reduce a la aproximación por míni-mos cuadrados. Consideremos un conjunto de ejemplos formado por vectores de entradaxnNn=1 junto con sus correspondientes valores objetivo o targets y = ynNn=1. Para sim-plificar, se va a considerar una única variable de salida, pero la explicación se podríaextender a más variables de salida. Por regresión, generalmente se asume que los targetsson una realización ruidosa de una relación funcional subyacente, f(x), que deseamosestimar:

yn = f(xn;w) + ǫn, (1.5)

donde ǫ es un proceso de ruido aditivo en que las realizaciones ǫn son independientes eidénticamente distribuidas, y w es un vector de parámetros ajustable o “pesos”.

Una clase interesante de funciones candidatas para f(x;w) viene dada por

f(x;w) =M∑

i=1

wiφi(x) = wTφ(x), (1.6)

lo que representa una suma lineal ponderada de M funciones base no lineales deno-tadas como φ(x) = (φ1(x), φ2(x), . . . , φM(x))T. Los modelos de tipo 1.6 se conocen co-mo modelos lineales, ya que la función f(x;w) es una función lineal de los parámetrosw = (w1, w2, . . . , wM)T. No obstante, por lo general, la función en sí es no lineal y, dehecho, puede ser muy flexible si M es relativamente grande.

Las técnicas clásicas utilizan un tipo de “estimador” que sirve para determinar un valorespecífico del vector w. Uno de los más sencillos es la suma de cuadrados definida por:

E(w) =1

2

N∑

n=1

|f(xn;w) − tn|2 (1.7)

donde el factor 1/2 se añade por conveniencia. La minimización de la suma de cuadradoscon respecto a w produce una estimación w∗ que puede utilizarse para hacer prediccionesde nuevos valores de y en función de nuevas entradas al modelo, al evaluar f(x;w∗).

En el caso de clasificación, la función f(x;w) se transforma usando una no linealidadapropiada, como una sigmoide logística para problemas de dos clases o la función softmax(exponencial normalizada) para problemas multiclase. La función de error correspondienteviene dada por la entropía cruzada [32].


Se puede observar la resolución de un problema de regresión por medio de una apro-ximación polinómica en la Figura 1.1.

Figura 1.1: Representación del resultado de un problema de regresión por aproximaciónpolinómica. El polinomio solución está representado en azul y los intervalos de confianzadel 95 % aparecen en color cian.

Un conocido problema de minimización de funciones de error es que modelos complejosy flexibles pueden “sobreajustar” los datos de aprendizaje, llevando a una generalizaciónpobre. De hecho, cuando el número de parámetros es igual al número de muestras, lasolución de mínimos cuadrados de la Ecuación 1.6 puede conseguir un ajuste perfecto a losdatos de aprendizaje mientras ofrece una generalización muy pobre respecto a muestrasnuevas. Este comportamiento se caracteriza porque los parámetros wi tendrán valoresaltos, positivos y negativos, que han aprendido a ajustarse al ruido de la entrada. Portanto la función f(x;w) exhibirá un comportamiento de grandes oscilaciones en funciónde x. Aunque el sobreajuste puede evitarse reduciendo la complejidad del modelo, estopuede llevar a mala generalización si el modelo no es lo suficientemente flexible como paracapturar el comportamiento inherente del conjunto de datos. Sin embargo, a veces hayque trabajar con conjuntos de datos de tamaño limitado y, además, sería deseable poderutilizar modelos flexibles, con muchos parámetros ajustables. Los modelos Bayesianos [33]afrontan este punto de vista, permitiendo trabajar eficientemente con modelos complejosy conjuntos de datos de tamaño limitado.

1.1.2.2 Clasificación

En la Sección anterior hemos visto cómo enfocar la resolución de un problema de regre-sión. Sin embargo, a menudo se pueden encontrar problemas para los cuales no hay unafunción o modelo de regresión que pueda asignar valores “cualitativos” o categorías dadauna determinada muestra de entrada. Es en estos casos donde cobran importancia losclasificadores. Se puede formular un problema de clasificación como la asignación de unamuestra a una determinada clase de entre un número discreto de clases.

Supongamos el caso particular de dos clases, a las que asignaremos los valores 0 y1 respectivamente. La información disponible de cada muestra a clasificar vendrá dada

1.1. LA APROXIMACIÓN DE FUNCIONES Y EL MODELADO DE DATOS 5

por un número finito d de variables reales. En conjunto, estas variables componen unvector x ∈ R

d que constituye una muestra. Para modelar la incertidumbre sobre a quéclase pertenece una muestra, asumiremos que existen unas probabilidades a priori P0

y P1 para las dos clases. Para modelar la relación entre las clase a la que una muestrapertenece y la muestra en sí (incluyendo la incertidumbre o ruido del proceso de medida),asumimos que un objeto de la clase y ∈ 0, 1 engendra una muestra aleatoria con unafunción de distribución condicionada a la clase Fy(x). Las muestras aleatorias X (las queson “observables” en este proceso) se generan en dos etapas: una clase al azar Y ∈ 0, 1 seselecciona primero de acuerdo con las probabilidades a priori P0, P1; entonces la muestraobservada X se selecciona de acuerdo a la distribución condicionada a la clase FY . Dadauna realización de la muestra medida, X = x, el problema con el que se encuentra elclasificador es el de asignar la muestra creada x a una de las clases, 0 o 1. Por lo tanto,un clasificador o regla de decisión en este caso es simplemente un mapeo g : R

d → 0, 1que indica la clase g(x) a la que una muestra X = x debe ser asignada.

Dado un clasificador g, su bondad viene dada por su probabilidad de error

L(g) = Pg(x) 6= Y . (1.8)

Si las probabilidades a priori y las distribuciones condicionadas son conocidas, la reglade decision óptima en el sentido de mínima probabilidad de error es la regla de decisiónde Bayes, denotada como g∗. Esta regla de decisión simplemente usa las distribucionesconocidas y la observación X = x para calcular las probabilidades a posteriori

η0(x) = PY = 0|X = x (1.9)

yη1(x) = PY = 1|X = x (1.10)

de las dos clases, y selecciona la que proporcione mayor probabilidad a posteriori (o menorriesgo), es decir

g∗(x) = arg miny∈0,1

ηy(x) . (1.11)

La bondad de la regla de Bayes, denotada L∗, viene dada por

L∗ = L(g∗) = E [min η0(x), η1x] . (1.12)

Por supuesto, en multitud de aplicaciones, estas distribuciones pueden ser desconocidaso sólo parcialmente conocidas. En estos casos se asume, por lo general, que además de lamuestra se tienen observaciones previas “etiquetadas”.

Dn = (X1, Y1), . . . , (Xn, Yn) (1.13)

donde Yk ∈ 0, 1 corresponde a la clase de las muestras y se asume que forma una se-cuencia de etiquetas independiente e idénticamente distribuida, extraídas según la reglade probabilidad desconocida P0, P1, y Xk es la muestra extraída según la distribucióncondicionada a la clase FYk

(x). Por tanto, los pares (Xk, Yk) se asumen independientes eidénticamente distribuidos de acuerdo con las distribuciones (desconocidas) Py y Fy(x)


que caracterizan el problema. Intuitivamente, los datos Dn proporcionan cierta informa-ción sobre las distribuciones desconocidas, y nos interesa usar estos datos para encontrarbuenos clasificadores. Formalmente, un clasificador (o regla de clasificación) es una fun-ción gn(x) = gn(x,Dn), que, basada en los datos de entrenamiento Dn, clasifica cualquiermuestra de entrada X ∈ R

d asignándole una etiqueta (0 o 1). Dados unos datos deentrenamiento fijos Dn, la probabilidad de error condicionada de tal clasificador es

L(gn) = Pgn(X) 6= Y |Dn (1.14)

donde el par (X, Y ) depende de Dn, y se obtiene de acuerdo a la misma distribución quegenera las muestras de entrenamiento. La probabilidad de error es una variable aleatoriaque depende de los datos (aleatorios) de entrenamiento. La esperanza de la probabilidadde error L(gn) = EL(gn) = Pgn(X) 6= Y proporciona información sobre el compor-tamiento medio del clasificador (donde la esperanza se toma con respecto a los datosaleatorios de entrenamiento). Para evaluar la bondad de un clasificador, éste se pruebacon la prueba de Bayes, que es la que proporciona el mejor error posible, incluso cuandolas distribuciones son conocidas.

Al seleccionar un clasificador usando una cantidad finita de datos aleatorios, es nor-mal esperar que la tasa de error solamente pueda aproximarse a la óptima de Bayes encierto sentido probabilístico. Un objetivo al que apuntar podría ser el diseño de una “reglaconsistente” tal que, al disponer de más datos de entrenamiento (n → ∞), tengamosL(gn) → L∗ en probabilidad. Si en lugar de eso tenemos L(gn) → L∗ con probabilidad1 entonces la regla se denomina “fuertemente consistente”. En general, dada una regla,el comportamiento de L(gn) dependerá de la distribución subyacente (y desconocida) de(X, Y ). Si una regla satisface lımn→∞ L(gn) = L∗ en probabilidad para cualquier dis-tribución de (X, Y ), la regla se dice que es “universalmente consistente”. Por supuesto,ya que puede ser irreal hacer asunciones, o imposible verificar las condiciones sobre ladistribución (X, Y ), si es posible sería conveniente diseñar reglas consistentes universales.Esto garantiza al usuario que si se toman suficientes datos, su clasificador tendrá presta-ciones similares al óptimo de Bayes, sin importar la distribución subyacente. Pero esto notermina aquí. Para todas las reglas de clasificación, la convergencia hacia L∗ puede serarbitrariamente lenta, y para cualquier tamaño finito de conjunto de datos n, la distanciaentre L∗ y la probabilidad de error real puede ser arbitrariamente próxima a 1/2 (ver[72, 88]). Esto demuestra que diseñar buenos clasificadores es una tarea no trivial y quese pueden adoptar diferentes puntos de vista.

Una perspectiva inicial que se puede tomar al diseñar buenas reglas es asumir que lasdistribuciones son de algún tipo sencillo conocido, y sólo un pequeño número de paráme-tros se desconocen. Estos “métodos paramétricos” se han estudiado ampliamente, y sonútiles cuando el problema considerado es suficientemente comprensible para garantizar lasasunciones paramétricas de las distribuciones. No obstante, en muchos casos puede quese tenga muy poca información sobre las distribuciones y dichas asunciones paramétricassean irreales. Por lo tanto, el estudio de los “métodos no paramétricos”, y de las reglasuniversalmente consistentes, en particular, también ha recibido mucha atención.

Gran cantidad de publicaciones han surgido para afrontar la optimización del rendimien-to de los clasificadores y el diseño de buenas reglas de decisión. También han surgido varioslibros dedicados a subtemas de interés. Algunos de los más significativos se recogen en[15, 44, 87, 89, 93, 113, 173, 229, 252, 350, 351, 353, 355]. Para representar una regla

1.2. EL APRENDIZAJE PREDICTIVO 7

de decisión se utilizan fronteras de decisión que separan los puntos correspondientes adistintas clases. En la Figura 1.2 se observa una frontera de decisión de un problema bidi-mensional de dos clases C1 y C2. En este caso el problema se resuelve con un hiperplanode separación (una recta en el caso bidimensional), por lo que se dice que es un problemade clasificación linealmente separable. Un clasificador óptimo maximizará la distancia ∆entre la frontera de decisión y los puntos más próximos a ésta de cada una de las clases.Cuando el problema no es linealmente separable se deben utilizar fronteras de decisiónmás complejas (ver Figura 1.3). Del mismo modo que se vio en la Sección 1.1.2.1, conun clasificador suficientemente complejo sería posible obtener un 100 % de acierto paralas muestras de aprendizaje. Sin embargo, este clasificador aprende incluso el ruido de lasmuestras de entrada dando lugar a una generalización pobre. Un clasificador menos com-plejo y que admita cierto error con respecto a las muestras de aprendizaje generalmenteproducirá mejores resultados al clasificar muestras nuevas.

x

x

D

D

C

C

Figura 1.2: Representación del resultado de una clasificación de dos clases para un pro-blema linealmente separable.

1.2 El aprendizaje predictivo

El aprendizaje predictivo trata de construir reglas de predicción adecuadas usando algo-ritmos de aprendizaje únicamente procesando los datos sin ningún conocimiento específicosobre ellos. Toda la información se supone que está contenida en los datos disponibles, y esresponsabilidad del algoritmo de aprendizaje el extraer y organizar de manera automáticadicha información para obtener la regla de predicción.

La metodología y teoría del aprendizaje de las computadoras han sido desarrolla-dos tradicionalmente en el campo de la estadística (regresión múltiple y clasificación), lamatemática aplicada (aproximación multivariable de funciones) e ingeniería (reconocimien-to de patrones).

El descubrimiento en los años 1980s de nuevas extensiones a las redes neuronales,junto con los avances en la tecnología de computación, han llevado a un interés renovadosobre el aprendizaje de las computadoras, y ha generado líneas de investigación tanto


x

x

C

C

Figura 1.3: Representación del resultado de una clasificación de dos clases para un pro-blema no linealmente separable. El clasificador menos complejo (representado en verde)tiene una cierta tasa de error, pero generalizará mejor que el que se ajusta a todas lasmuestras de aprendizaje (representado en rojo).

en aprendizaje automático (típicamente calificado como machine learning) como otrosmétodos bioinspirados, por ejemplo, las redes neuronales artificiales. Desafortunadamente,los mayores logros en estos campos han progresado en su mayor parte independientementeuno del otro, con escasas referencias cruzadas en la literatura, resultando en la reinvenciónde resultados en una de las disciplinas cuando ya existían en la otra.

Posiblemente la estadística haya visto la mayor duplicación de procedimientos en otroscampos, probablemente porque los estadísticos han sido reacios a adoptar enfoques mo-dernos basados en computadores. La actitud cauta de los estadísticos frente al análisis dedatos realizado por métodos basados en computadores se origina, en cierta medida, porel hecho de que la construcción del modelo estructural para los datos se ha consideradotrabajo del científico (no del estadístico). El rol del estadístico es analizar los datos yestudiar las limitaciones de inferencia del modelo realizado por el científico ante variascondiciones de incertidumbre, por ejemplo, evaluar hasta qué punto una colección de me-didas realmente caracteriza un sistema en lugar de ser simplemente un “artefacto” de esamuestra particular.

Además, los estadísticos han trabajado en el pasado con datos de muestras relativa-mente pequeñas, con gran nivel de ruido, procedentes de campos como la medicina, lapsicología o las ciencias políticas. En tales casos la inferencia debe darse con circuns-pección, utilizando métodos que hayan sido validados matemáticamente. Sin embargo,grandes conjuntos de datos son generados rutinariamente por sistemas para los cuales larelación señal a ruido (SNR) es alta, especialmente en las ciencias de la ingeniería y de lafísica. Las herramientas tradicionales de la estadística no son lo suficientemente flexiblespara extraer toda la información disponible en los conjuntos de datos. El reto que pro-pone la extracción de esta información es la principal motivación de los enfoques basadosen computadoras (como las redes neuronales) para la predicción mediante métodos deaprendizaje.


La habilidad de aprender del ejemplo es una faceta importante de la inteligencia, yen la última década ha sido un área especialmente fértil para los investigadores de lainteligencia artificial, estadística, ciencia cognitiva y otros campos relacionados. Se hanaplicado algoritmos capaces de aprender del ejemplo de manera inductiva a problemascomplejos de la vida real, con gran interés práctico [185, 359]. La aplicación de algoritmosde aprendizaje inductivos tiene dos objetivos subyacentes: rendimiento y descubrimiento.En el primer caso, el objetivo es usar un método de aprendizaje para inducir un mo-delo que pueda realizar alguna tarea de interés. Por ejemplo, el sistema ALVINN [278]ha aprendido a dirigir un vehículo a motor, y el sistema GRAIL [346] ha aprendido areconocer genes en secuencias de ADN no caracterizadas. Tal como ilustran estos casos,los métodos de aprendizaje inductivos a menudo pueden aprender a realizar tareas queno sabemos cómo programar explícitamente, o que son demasiado difíciles y tediosas deprogramar explícitamente. Otra razón por la que hacer uso de métodos de aprendizajeinductivos es mejorar la interpretabilidad de los datos construyendo un modelo descrip-tivo. En muchos casos, los modelos construidos por algoritmos de aprendizaje inductivosson más humanamente comprensibles y, por ese motivo, ofrecen un mejor entendimientodel dominio del problema. El aprendizaje inductivo enfocado a la comprensibilidad es unaactividad primordial del emergente campo del descubrimiento de conocimiento (knowl-edge discovery) en bases de datos y la minería de datos (data mining) [103]. Por supuesto,a menudo se da el caso de que un método de aprendizaje se aplica en un determinadodominio para ambos propósitos: para construir un sistema que pueda llevar a cabo unatarea útil y para mejorar la comprensibilidad de los datos disponibles.

Conocidos los objetivos de rendimiento y descubrimiento, dos de los criterios que seusan más habitualmente para evaluar sistemas de aprendizaje son la “exactitud de lapredicción” y la “interpretabilidad” de los modelos aprendidos. La exactitud de la predic-ción (llamada también “generalización”), que normalmente es el criterio predominante, serefiere a cómo de bien va a comportarse un modelo con muestras que no fueron utilizadasal inducir el modelo. La interpretabilidad (o comprensibilidad) se refiere a con qué facili-dad podemos inspeccionar y entender el modelo construido por el sistema de aprendizaje.Sin embargo, con frecuencia el modelo de aprendizaje que construye el modelo con lamáxima exactitud de predicción no es el método que produce el modelo más comprensi-ble. Las redes neuronales, por ejemplo, proporcionan una buena exactitud de predicciónen gran cantidad de problemas, pero producen modelos que son notoriamente difíciles deinterpretar. En muchos dominios en los que las redes neuronales (u otros sistemas simi-lares “opacos”, es decir, de tipo caja negra) proporcionan buena generalización, es tambiéndeseable entender el modelo construido.

1.2.1 Estrategias de aprendizaje

A grandes rasgos, existen tres tipos de tipos de aprendizaje inducido: “supervisado”, “nosupervisado” y “reforzado”. En el aprendizaje supervisado, se le proporcionan al modeloun conjunto de muestras de ejemplo de la forma 〈~x, y〉, donde y representa la variable queel sistema debe predecir, y ~x es un vector de valores que representan características que sesuponen relevantes para determinar el valor de y. El objetivo en aprendizaje supervisado esinducir un mapeo entre los vectores ~x y las salidas y. El modelo de aprendizaje a construir,f , será de la forma y = f(~x). El modelo debe ser capaz de generalizar, prediciendo valores


de y para muestras no vistas previamente. Un modelo inducido a menudo se expresa conel término hipótesis.

En el caso del aprendizaje no supervisado, al modelo se le proporciona también unaserie de muestras de ejemplo, pero, en este caso, cada muestra está compuesta sólo porla parte ~x y no incluye el valor de y. El objetivo es construir un modelo que tenga encuenta las regularidad del conjunto de datos de aprendizaje. La naturaleza de los mode-los construidos por algoritmos no supervisados varía de manera notable de un método aotro. Por ejemplo, existen métodos no supervisados que dan sentido a los datos de apren-dizaje estimando funciones de distribución de probabilidad [311], construyendo jerarquíasmediante categorización [105], o reduciendo la dimensionalidad de los datos para dejarsolamente las variables que más contribuyan a la varianza [167].

El aprendizaje reforzado se encuentra a caballo entre el supervisado y el no supervisa-do. Un modelo basado en aprendizaje reforzado opera en un medio dinámico, y puederealizar acciones que influencien el mismo medio. Al modelo no se le proporciona un valorde y para cada ~x dado, sino que se le proporciona periódicamente una “señal de refuerzo”escalar, que es indicativa de su rendimiento. El objetivo es aprender la acción a realizar(una “política”) para cada muestra ~x con el fin de maximizar alguna medida de refuerzoa largo plazo.

En la mayor parte de esta tesis y en la práctica totalidad de los experimentos se hatrabajado con entrenamiento supervisado. Más concretamente, se ha enfocado la tesis atareas de predicción y aproximación de funciones (regresión).

1.2.2 Estudio de la interpretabilidad

A menudo la interpretabilidad (o comprensibilidad) de un modelo es una consideraciónimportante. Una pregunta que surge al crear un modelo predictivo es: ¿El algoritmo deentrenamiento codifica el modelo de manera que sea fácilmente inspeccionable y entendiblepor humanos? La importancia de este criterio ha sido discutida por Michalski [237] en supostulado de comprensibilidad:

Los resultados de la inducción realizada por computadora deben ser descrip-ciones simbólicas de entidades dadas, similares semánticamente y estructural-mente a aquellas que un experto humano podría realizar observando las mismasentidades. Los componentes de estas descripciones deberían ser comprensiblesindividualmente como “trozos” de información, directamente interpretables enlenguaje natural, y deberían relacionar conceptos cuantitativos y cualitativosde manera integrada.

Hay varias razones por las que la interpretabilidad es un factor importante:

• Validación. Para ganarse la confianza de un sistema de aprendizaje, a menudoel usuario desea conocer cómo llega el sistema a sus conclusiones. La habilidad deinspeccionar una hipótesis aprendida es importante en tales casos. Es un factor deespecial interés en aplicaciones de diagnóstico médico [361], en los cuales la confianzaen el sistema es crucial.

• Descubrimiento. Los sistemas de aprendizaje también pueden tener una gran in-fluencia en el proceso del descubrimiento científico. Un sistema puede descubrir


características y relaciones destacadas en los datos de aprendizaje que estaban ocul-tas y no eran previamente discernibles. Si las hipótesis formuladas por el sistema soncomprensibles, estos descubrimientos pueden quedar disponibles para ser revisadospor humanos [160].

• Explicación. En algunos dominios no es necesario tener una descripción completadel modelo inducido por el algoritmo de aprendizaje, pero es deseable que podamosser capaces de explicar la clasificación de ejemplos individuales [115]. Si las hipóte-sis son comprensibles en ese dominio, entonces pueden ser utilizadas para explicarclasificaciones hechas sobre casos particulares.

• Mejora de la generalización. La representación de las variables en una tareade aprendizaje puede tener un gran impacto en cómo se aprenderá el algoritmo yen cómo generalizará [73, 106]. Los modelos de aprendizaje que son entendibles yanalizables proporcionan una mejor visión sobre cómo seleccionar formas de repre-sentación adecuadas.

• Refinamiento. Los algoritmos de aprendizaje se han utilizado para refinar teorías“aproximadamente correctas” para resolver problemas [266, 270, 341]. Una teoríaaproximada es una descripción incompleta de cómo resolver un problema particu-lar. Para completar la teoría mediante un proceso de refinamiento es importantepoder expresar, de modo comprensible, los cambios que han sucedido durante elaprendizaje.

1.2.3 Flexibilidad

Otra consideración que puede ser importante cuando se selecciona un método de apren-dizaje es la flexibilidad del lenguaje usado por el algoritmo para representar las hipótesis.En concreto, es deseable que los métodos de aprendizaje representen sus modelos uti-lizando representaciones declarativas en las cuales el modelo no está restringido a serúnicamente utilizado por un procedimiento para una tarea en particular, sino que va-rios procedimientos lo utilizan en diferentes contextos. Hay varias razones por las que laflexibilidad de las hipótesis aprendidas es, en ocasiones, una consideración importante.

En primer lugar, podría ser interesante “transferir” alguna parte de la solución apren-dida para una tarea al proceso de aprendizaje de una tarea relacionada [55, 281, 338]. Estatransferencia puede incrementar la velocidad de aprendizaje, o llevar a alcanzar mejoressoluciones en la segunda tarea. La flexibilidad de una representación es importante enel contexto de esta transferencia porque puede determinar la selectividad con la cual elconocimiento aprendido se puede transmitir.

La segunda razón por la cual se prefieren algoritmos de aprendizaje que producenrepresentaciones flexibles es que podría ser deseable modificar y utilizar partes de lashipótesis aprendidas. Por ejemplo, el sistema de gestión de un calendario desarrolladopor Mitchell et al. [245] opera en un medio en el cual las variables objetivo varían con eltiempo. Por esta razón, los autores deciden utilizar métodos de aprendizaje que producenhipótesis que pueden descomponerse en varias reglas, las cuales representan prediccionespara contextos específicos. Tal representación permite evaluar la bondad de las hipótesisaprendidas con un nivel de granularidad fino, y reemplazar selectivamente partes de lashipótesis aprendidas a lo largo del tiempo y de la evolución de las variables objetivo.


Una tercera razón que apoya la flexibilidad de las representaciones es que, a veces,es interesante integrar el conocimiento aprendido con el software existente. Por ejemplo,para aplicar un modelo a un gran base de datos, puede ser necesario traducir una hipótesisaprendida (o una parte) a un lenguaje de que pueda realizar consultas a la base de datos[103, 271].

Además de los criterios vistos (generalización, interpretabilidad y flexibilidad), existenotras consideraciones a tener en cuenta cuando se evalúa un algoritmo de aprendizaje, olas hipótesis que produce. Estos criterios incluyen: la eficiencia del algoritmo para inducirhipótesis, la eficiencia del algoritmo para clasificar nuevas muestras y la facilidad con queel algoritmo adapta una hipótesis a las muestras nuevas que se adquieren.

1.3 La neurona biológica y la neurona artificial

En esta sección se verán en detalle las semejanzas y diferencias entre una neurona biológicay una neurona artificial.

1.3.1 La neurona biológica

La neurona biológica, célula constituyente del cerebro, fue descubierta en 1836 y su es-tructura de varias entradas / una salida les supuso a sus descubridores, Camillo Golgi ySantiago Ramón y Cajal, el Premio Nobel de Medicina en 19061. En el cerebro humanohay aproximadamente diez mil millones de neuronas (1010 células nerviosas). Cada neu-rona tiene un cuerpo celular (soma), que tiene un núcleo celular. A partir del cuerpo de laneurona se ramifican una cantidad de fibras llamadas dendritas y una única fibra larga lla-mada axón. El axón mide en general 100 veces más que el diámetro del cuerpo de la célula(aproximadamente 1 cm). Los axones y dendritas transmiten las señales entre neuronas:el axón permite enviar señales a otras neuronas mientras que las dendritas permiten larecepción de dichas señales. Una neurona se conecta con un número variable de neuronas(entre 100 y 100000), formando un conjunto de conexiones sinápticas. Se estima que hayunas 1014 sinapsis en el cerebro de un adulto. Las señales se propagan entre neuronasmediante una reacción electroquímica: a nivel de la sinapsis, la neurona que genera laseñal (que puede ser excitadora o inhibitoria) emite unos neurotransmisores que activan odesactivan los receptores de la neurona que recibe la señal, cuando se supera un umbral.La excitación se propaga rápidamente entre neuronas gracias a su gran conectividad. Enla Figura 1.4 se puede apreciar la morfología de una neurona biológica.

La regla de aprendizaje de Hebb indica que ocurre un cambio metabólico en la sinapsiscuando la entrada de una neurona está siendo activada repetidamente de manera persis-tente, reduciendo la resistencia de la sinapsis [146]. Los huecos presentes en las sinapsisy que se encargan de atenuar las señales de entrada de una neurona, cambian de tamañoen respuesta al “aprendizaje”

La red neuronal del cerebro forma un sistema masivo de procesamiento paralelo deinformación, en contraste con las computadoras en las cuales un único procesador ejecutalinealmente una serie de instrucciones [306]. Por otra parte, la velocidad de procesamien-to representa una diferencia importante. Mientras que el cerebro opera a unos 100 Hz

1http://www.nobel.se/medicine/laureates/1906

1.3. LA NEURONA BIOLÓGICA Y LA NEURONA ARTIFICIAL 13

Figura 1.4: Morfología de una neurona biológica.

(100 operaciones por segundo), una computadora convencional procesa varias centenasde millones de operaciones por segundo. A pesar del “hardware” lento con el que estáconstruido, el cerebro posee una serie de capacidades notables:

• Su rendimiento tiende a degradarse lentamente bajo daño parcial. En contraste, lamayoría de los programas y sistemas son frágiles: si se daña alguna parte arbitra-riamente, es muy probable que el sistema entero deje de funcionar.

• Puede aprender (reorganizarse) a partir de la experiencia.

• Es tolerante a fallos. La recuperación de los daños es posible si unidades sanas logranreemplazar a las unidades dañadas, aprendiendo y asumiendo funciones de éstas.

• Ejecuta una cantidad masiva de cálculos en paralelo de forma extremadamente efi-ciente. Por ejemplo, la percepción visual compleja, que equivale a 10 etapas deprocesamiento, ocurre en menos de 100 milisegundos.

• Sustenta a la inteligencia y la conciencia. La ciencia todavía no ha logrado determi-nar cómo ocurre esto exactamente.

1.3.2 La neurona artificial

La neurona artificial trata de capturar la esencia de los sistemas neuronales biológicos eimitar su comportamiento. Una neurona artificial se puede describir de la siguiente manera[322]:

• Recibe una serie de “entradas” (sean datos originales o “salidas” de otras neuronas).Cada entrada llega a través de una conexión que tiene una cierta “fuerza”, o “peso”,que equivale a la eficiencia sináptica de una neurona biológica. Cada neurona tienetambién un determinado valor de umbral. La suma ponderada de las entradas menosel valor de umbral componen la “activación” de la neurona (también conocida comoPotencial Post-Sináptico (PPS) de la neurona).


• La señal de activación pasa a través de una función de activación, o función detransferencia, para producir la “salida” de la neurona. Esta función limita el rangode valores que puede tomar la variable de salida de la neurona.

Por lo tanto, el nivel de actividad de cada neurona es función de las entradas que recibe,y el resultado se envía como una señal a través de sus conexiones con otras neuronas. Cadaneurona sólo puede dar un valor de salida al mismo tiempo. Una neurona artificial puedeestar implementada por medio de componentes hardware o ser simulada por medio desoftware en un ordenador.

Para ilustrar lo explicado anteriormente consideremos que existe una señal xj a laentrada de la sinapsis j de la neurona k. Al atravesar la j-ésima conexión sináptica, lavariable xj se multiplica por el peso wkj y un umbral o sesgo bk (del inglés, bias) esagregado al resultado. El resultado pasa a ser mapeado por una función de activación ϕque puede ser lineal o no lineal, aunque en general se utilizan funciones no lineales. En laFigura 1.5 se aprecia una neurona artificial que utiliza una función de activación lineal, esdecir, es un sumador o combinador lineal de las m señales de entrada ponderadas por lospesos wkj, j = [1, . . . , m]. En términos matemáticos, las ecuaciones que definen el cálculoque realiza una neurona artificial son las siguientes:

uk =

m∑

j=1

(wkjxj) (1.15)

yk = ϕ(uk + bk) (1.16)

o bien en una única ecuación:

yk = ϕ

(

m∑

j=1

wkjxj + bk

)

. (1.17)

Es habitual considerar el umbral bk como un peso extra wk0 que se multiplica poruna supuesta entrada ficticia x0 fijada a 1, por lo que solamente contribuye como unaconstante al resultado.

S j

bkwk

wk

wkm

x

x

xm

yk

x = wk

Figura 1.5: Diagrama de una neurona artificial.

1.3. LA NEURONA BIOLÓGICA Y LA NEURONA ARTIFICIAL 15

1.3.2.1 Funciones de activación

En este apartado vamos a hacer un inciso sobre las funciones de activación más típicas quese suelen utilizar. En concreto se trata de las funciones: escalón, lineal a trozos, sigmoidey tangente hiperbólica.

1.3.2.1.1 La función escalón está definida por la Ecuación 1.18 y aparece repre-sentada en la Figura 1.6. A este tipo de neurona se refiere la literatura como neuronade McCulloch-Pitts [228]. Se emplea principalmente para clasificación, ya que la salidabinaria es apropiada para la selección entre dos clases.

ϕ(v) =

1 si v ≥ 0

0 si v < 0(1.18)

−5 −4 −3 −2 −1 0 1 2 3 4 50

0.2

0.4

0.6

0.8

1

1.2

v

ϕ(v

)

Figura 1.6: Función escalón.

1.3.2.1.2 La función lineal a trozos viene descrita por la Ecuación 1.19, y su re-presentación correspondiente se muestra en la Figura 1.7.

ϕ(v) =

1, v ≥ +12

v, +12> v > −1

2

0, v ≤ −12

(1.19)

El factor de amplificación (pendiente) en la región lineal de operación se asume quees la unidad. La forma de esta función de activación se aproxima a la respuesta de unamplificador no lineal. Se pueden dar los siguientes dos importantes casos particulares dela función lineal a trozos:

• La función lineal a trozos se convierte en un combinador lineal si la región lineal deoperación se mantiene sin entrar en saturación.


• La función lineal a trozos se convierte en un escalón si el factor de amplificación enla región lineal tiende a infinito.

−2 −1.5 −1 −0.5 0 0.5 1 1.5 20

0.2

0.4

0.6

0.8

1

v

ϕ(v

)

Figura 1.7: Función lineal a trozos.

1.3.2.1.3 La sigmoide es una función de activación muy popular. Está definida poruna función en forma de “s” y estrictamente creciente, mostrando una comportamientosuave. La ecuación que describe la sigmoide logística es la siguiente:

ϕ(v) =1

1 + e−av(1.20)

donde a > 0 es el parámetro de pendiente. En la Figura 1.8 se representan varias sigmoidescon distinto parámetro a. La importancia de esta función es que su derivada es siemprepositiva y cercana a cero para los valores grandes positivos o negativos; además, toma suvalor máximo cuando v es cero. Esto hace que se puedan utilizar las reglas de aprendizajedefinidas para la función escalón, con la ventaja respecto a esta función, de que la derivadaestá definida para todo el intervalo. Posteriormente se verá que la derivabilidad de lasfunciones de activación es una característica fundamental para aplicar los algoritmos deaprendizaje.

Igualmente se definen otros tipos de funciones de activación como la Gaussiana,

ϕ(v) =1√2π

∫ v

−∞

e−x2

2 dx (1.21)

o bien, la función arcotangente:

ϕ(v) =1

πarctan(v) +

1

2. (1.22)

Las funciones de activación descritas abarcan el rango [0, 1]. A veces es deseable quecubran el rango [−1, 1]. En ese caso se pueden definir las mismas funciones de formaantisimétrica respecto al origen. Por ejemplo, la función escalón pasaría a estar definidacomo:

1.4. LAS REDES NEURONALES 17

−5 −4 −3 −2 −1 0 1 2 3 4 50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

v

ϕ(v

)

a = 1a = 2a = 3a = 1/2a = 1/4

Figura 1.8: Función sigmoide.

ϕ(v) =

1 si v ≥ 0

0 si v = 0

−1 si v < 0

(1.23)

lo que se conoce habitualmente como función signo. Para el caso de la sigmoide seobtiene una función muy utilizada como función de activación por sus buenos resultados[145] denominada tangente hiperbólica:

ϕ(v) = tanh(v) =eav − e−av

eav + e−av(1.24)

donde a es de nuevo el parámetro que controla la pendiente.

1.3.2.1.4 La función de activación gaussiana está representada por la Ecuación1.25. Su representación en función de distintas amplitudes (A) y anchuras (B) se muestraen la Figura 1.9.

ϕ(v) = A · e−Bv (1.25)

La ventaja de esta función es que tanto la posición de los centros como la anchurapueden ser configuradas, de manera que son más adaptativas que las funciones sigmoidales.

1.4 Las redes neuronales

Una vez descrita la neurona como elemento de procesamiento nos surge otra pregunta:¿Cómo se deben conectar las neuronas para formar una red? Para que la red sea útil, debehaber como mínimo un número de entradas (que toman los valores de las variables deinterés externas) y salidas (que generan predicciones, o señales de control). Sin embargo,raramente las neuronas de entrada y salida están directamente conectadas. En el cuerpo


−5 0 500.20.40.60.811.21.41.61.82 (a)

v

ϕ(v

)

−5 0 500.10.20.30.40.50.60.70.80.91 (b)

v

ϕ(v

)

B = 1/2B = 1B = 2A = 1A = 1/2A = 2

Figura 1.9: Función gaussiana. Se muestra el efecto de los parámetros amplitud (a) yanchura (b).

humano, las neuronas que corresponden a los ojos (entrada) no están directamente conec-tadas a las manos (salida), por citar un ejemplo. Se requiere de un procesamiento internopara generar una salida. Por esto existen neuronas “ocultas”, que actúan internamente enla red [322]. Cabe aclarar que existen redes artificiales útiles de una sola capa, e inclusode un solo elemento, pero sus aplicaciones son más bien básicas [13].

Una red neuronal artificial (ANN), o red neuronal (NN) como se suele abreviar, es unacolección de neuronas artificiales (también denominadas “nodos”) interconectadas siguien-do un patrón o configuración particular. Es un procesador paralelo que puede calcular oestimar cualquier función. Básicamente, en una ANN, el conocimiento se almacena en unamemoria a modo de experiencia, y está disponible para su uso en un futuro. Los pesosasociados con la salida de cada neurona individual representan la memoria que almace-na el conocimiento. Estos pesos se comportan como fuerzas de conexión entre neuronas(como se explicó en la Sección 1.3.2). Cada neurona puede funcionar localmente por símisma, pero cuando varias neuronas se conectan, pueden actuar cooperativamente paraaproximar una determinada función, predecir un valor o clasificar una muestra. SegúnHaykin [145], una ANN puede definirse así:

Una red neuronal es un procesador distribuido masivamente paralelo com-puesto por unidades simples de procesamiento, que tiene una tendencia naturala almacenar conocimiento experiencial y a hacerlo disponible para ser usado.Se asemeja al cerebro en dos aspectos:

1. La red adquiere conocimiento del medio por medio de un proceso de apren-dizaje.

2. La fuerzas de conexión entre neuronas, denominados pesos sinápticos, seutilizan para almacenar el conocimiento adquirido.

Las ANNs, al igual que las personas, aprenden mediante el ejemplo, en concreto apartir de un proceso llamado “entrenamiento”. Este proceso de aprendizaje se basa en

1.4. LAS REDES NEURONALES 19

los sistemas biológicos ya que involucra ajustes en los pesos sinápticos que existen entrelas neuronas [325]. Esta modificación adaptativa de los pesos es un enfoque similar alfiltrado lineal adaptativo, ya bastante asentado y aplicado con éxito en diversos campos[144, 360]. Existen muchos algoritmos de entrenamiento distintos para cada tipo de ANN(se verán en detalle los más importantes en las Secciones 1.6.3 y 1.6.5) y para cadaaplicación específica. Gracias al entrenamiento, los pesos asociados con cada conexión seautoajustan al introducirse repetidamente un conjunto de datos a la red neuronal. Elajuste de los pesos cesa cuando éstos obtienen un valor óptimo que maximiza o minimizaun criterio. En ese momento se dice que la ANN ha “aprendido” la función particulardeseada. Con un entrenamiento adecuado, la ANN puede generalizar, de forma que si sele introducen datos que no han formado parte del entrenamiento, se obtendrá su salidadeseada. Una ANN se configura específicamente para una aplicación y no puede utilizarsepara otros problemas para los que no se ha diseñado. Una ANN también puede modificarsu propia topología, al igual que las neuronas del cerebro humano pueden morir y nuevasconexiones sinápticas pueden aparecer.

Una ANN está caracterizada fundamentalmente por:

1. La topología de la red.

2. Las funciones de transferencia de las neuronas, las capas ocultas y de la salida.

3. El valor de los pesos y umbrales.

En primer lugar, las redes típicas tienen cientos o miles de parámetros reales. Estosparámetros codifican la relación entre las variables de entrada ~x y la variable objetivoy. Aunque este tipo de codificación con un solo parámetro no es difícil de entender, elenorme número de parámetros en una ANN típica puede hacer que entenderlos sea difícil.Es más, en las redes multicapa, estos parámetros pueden representar relaciones no linealesy no monótonas entre las variables de entrada y la de salida. Por tanto, normalmente noes posible determinar, de forma aislada, el efecto de una determinada variable de entradasobre la variable objetivo, porque su efecto puede estar influenciado por los valores delresto de variables. Estas relaciones no lineales y no monótonas entre entradas y salidasestán representadas por neuronas “ocultas” que combinan las entradas correspondientes avarias variables de entrada, permitiendo al modelo aprovecharse de las dependencias entrevariables. Se puede pensar que las señales de salida de las neuronas ocultas representanvariables de alto nivel “derivadas” de las originales. Estas variables derivadas pueden noser interpretables en el dominio del problema. Las variables que tienen significado en eldominio del problema se codifican por patrones que abarcan varias neuronas ocultas. Deigual modo, cada neurona oculta puede participar en la representación de varias variablesderivadas.

1.4.1 Beneficios de las redes neuronales

Las ANN, gracias a su habilidad para extraer significado de datos complicados o im-precisos, pueden ser usadas para extraer patrones y determinar tendencias que son muycomplejas como para poder ser detectadas tanto por humanos como por otras técnicasinformáticas. Puede considerarse a una red neuronal entrenada como un “experto” en la


categoría de información a la que ha sido asignada para analizar. Este experto puede serutilizado entonces para proveer proyecciones dadas nuevas situaciones.

Otras ventajas que proporcionan las ANNs son:

1. Aprendizaje adaptativo: La habilidad de aprender cómo hacer tareas basado enlos datos disponibles para entrenamiento o como experiencia inicial.

2. Auto-organización: Una ANN puede crear su propia organización o representaciónde la información que recibe durante el tiempo de aprendizaje.

3. Operación en tiempo real: Las computaciones de una ANN pueden ser realizadasen paralelo. Actualmente, se está diseñando y fabricando hardware especial paraaprovechar esta capacidad.

4. Tolerancia a fallos vía codificación de la información redundante: La des-trucción parcial de una red lleva a la correspondiente degradación del rendimiento.Sin embargo, algunas capacidades de la red pueden ser retenidas a pesar de dañosimportantes a la red [325].

El éxito de las redes neuronales puede ser atribuido a ciertos factores clave:

• Potencia: Las redes neuronales son capaces de modelizar funciones extremadamentecomplejas. En particular, las redes neuronales modelan procesos no lineales. Durantemuchos años, la modelización lineal fue la técnica más comúnmente usada. Cuandola aproximación lineal no era válida, lo que sucedía frecuentemente, el modelo teníaserios inconvenientes [322]. Las redes neuronales también controlan el problema dela dimensionalidad, que frustra los intentos de modelizar funciones no lineales congran número de variables.

• Facilidad de uso: Como hemos visto, las ANNs aprenden con el ejemplo. Lasmismas recogen información representativa y luego utilizan algoritmos de entre-namiento para “aprender” la estructura de los datos. Si bien el usuario necesitatener conocimiento heurístico de cómo seleccionar y preparar los datos, de cómoseleccionar una red neuronal apropiada o de cómo interpretar los resultados, el nivelde conocimiento requerido para aplicar exitosamente las redes neuronales es muchomenor del necesario para aplicar otros métodos estadísticos no lineales tradicionales[322].

• Facilidad de implementación hardware: La naturaleza masivamente paralelade las ANNs las convierte en estructuras extremadamente rápidas para la realizaciónde ciertas tares. Esta característica hace que las ANNs sean apropiadas para su im-plementación usando tecnología Very Large Scale Integrated (VLSI). Un beneficioque ofrece la tecnología VLSI es que proporciona un método para capturar compor-tamientos muy complejos de manera jerárquica [230].

1.5. TIPOS Y TOPOLOGÍAS DE REDES NEURONALES 21

1.5 Tipos y topologías de redes neuronales

1.5.1 El perceptrón

El perceptrón [295] es la red neuronal que realiza la función más sencilla posible, lade clasificación binaria. Un perceptrón es una red compuesta por una única neurona.Básicamente, la función que realiza es mapear un vector de entrada x ∈ R

d a un valor desalida binario (0 o 1) por medio de la siguiente función f :

f(x) =

1 si w · x+ b > 0

0 en caso contrario(1.26)

donde w ∈ Rd es el vector pesos y w·x es el producto escalar. El valor escalar b corresponde

al umbral. Esta función de activación no es más que un escalón como el definido en laSección 1.3.2.1. Como se ha mencionado, la salida binaria implica que el perceptrón sepuede usar para clasificar una muestra en dos posibles clases. El umbral representa ladesviación u offset que tendrá el plano de decisión que separa las dos clases, respecto alorigen de coordenadas. Suponiendo un caso de clasificación binaria entre las clases C1 yC2, el efecto del umbral sobre el plano o frontera de decisión se aprecia en la Figura 1.10.

Clase C

Clase C

b= 0

b> 0

b< 0

x

x

Frontera de decisi n

w x + +w x 0ó

b =

Figura 1.10: Efecto del signo del umbral b sobre la frontera de decisión en un problemade clasificación de dos clases.

Para explicar la forma en que un perceptrón “aprende”, supongamos que tenemos Npares de puntos (xi, yi), i = 1, . . . , N . Supongamos que el umbral b = 0, sin pérdida degeneralidad, ya que se puede añadir un elemento más al vector de entrada, x(0) = 1 talcomo se indicó en la Sección 1.3.2, en cuyo caso el peso w(0) reemplaza al umbral b. Encada iteración el vector de pesos w se actualiza, para cada una de las N muestras, usandola siguiente regla:


w(j + 1) = w(j) + α(y − f(x))x(j), j = 1, . . . , d (1.27)

donde 0 < α ≤ 1 es el factor de aprendizaje. Se puede observar que perceptrón aprenderámientras la diferencia entre la salida obtenida y la salida deseada no sea 0. Los pesos sesuelen inicializar a 0, o a valores pequeños aleatorios [255]. La prueba de convergencia delalgoritmo de aprendizaje del perceptrón puede observarse en [145]. La gran limitación delperceptrón, que fue sacada a la luz por Minsky y Papert en su libro “Perceptrones” [242],es que un perceptrón solamente puede resolver problemas linealmente separables, lo quedeja fuera de su alcance problemas tan sencillos como una simple función OR exclusiva(XOR).

1.5.2 El perceptrón multicapa

El perceptrón multicapa (MLP) es una red neuronal de tipo feedforward2 que contieneuna o más capas ocultas de neuronas. Tal como se muestra en la Figura 1.11, una red detipo MLP se compone de varias capas de neuronas. Típicamente existen: a) una capa deentrada, b) una o varias capas ocultas y c) una capa de salida. El MLP de la Figura 1.11aparece totalmente interconectado (cada neurona de una capa tiene una conexión a cadaneurona de la anterior capa y de la siguiente capa). Hay casos en que existe interconexiónparcial (cada neurona se conecta solamente con un subconjunto de las neuronas de la capaanterior o de la siguiente), aunque esto último no es muy habitual. También es posiblela conexión entre neuronas de una misma capa en las denominadas redes competitivas,o incluso la realimentación de la señal de salida a las entradas, en las redes llamadasrecurrentes [145].

La capa de entrada de un MLP realmente sólo realiza la función de permitir la entradade muestras a la red neuronal, por lo que no es una capa de “neuronas” en el sentido estrictode la palabra. No contiene pesos ni umbrales, ni se realiza en ella ninguna operaciónmatemática, sino que simplemente “lee” los datos que se presentan a su entrada y losdistribuye a la primera capa oculta de neuronas. Visto de otra forma, se puede tambiénconsiderar que la capa de entrada de una ANN contiene nodos cuya activación representavalores de las variables del dominio del problema en el cual la red es aplicada.

Por su parte, la capa de salida representa las decisiones que toma la ANN. Existirán almenos tantas neuronas de salida como variables de salida tenga el problema a considerar.A menudo la función de activación de las neuronas de salida es lineal, de manera que sólorealiza la suma ponderada de las señales procedentes de la última capa oculta. También sepueden usar funciones sigmoidales según en qué problema. En problemas en que la salidadebe ser binaria se utiliza una función escalón.

Como se detalló en la Sección 1.4, las capas ocultas representan relaciones entre lasvariables de entrada que no pueden interpretarse a simple vista. Representan variablesque no pertenecen al dominio del problema, sino que codifican relaciones entre ellas a másalto nivel. El número de capas ocultas es un parámetro a optimizar cuando se diseña unaANN. El Teorema de Aproximación Universal especifica que “Una red MLP de una capaoculta es suficiente para realizar el mapeo entrada-salida que proporciona una realizaciónaproximada de cualquier función continua en un intervalo dado” [157]. En la práctica

2En una red feedforward la señal avanza de una capa a la siguiente de forma unidireccional, sinretroceder ni realimentarse.


x1

x2

xd 1-

xd

. . .

. . .. . .

1ª Capa ocultade N neuronas1

Capa desalida

Capa deentrada

. . .. . .

2ª Capa ocultade N neuronas2

. . .. . .

y1

ym

yM

Figura 1.11: Estructura de una ANN de tipo MLP de d entradas, dos capas ocultas conactivación sigmoidal, de N1 y N2 neuronas, respectivamente, y una salida con funciónde activación lineal. Los umbrales de cada neurona se han omitido en el diagrama porclaridad. El sentido de las flechas indica la dirección en que se propagan las señales(feedforward).

se observa que en muchas ocasiones, aun siendo suficiente el uso de una capa oculta, alutilizar dos capas ocultas, el rendimiento de la red MLP mejora considerablemente.

Siguiendo la estructura del ejemplo descrito en la Figura 1.11, pasamos a describirmatemáticamente el comportamiento de un MLP de dos capas ocultas. Aplicando laecuación que describe una única neurona (Ecuación 1.17) que se vio en la Sección 1.3.2y, asumiendo que el umbral de la neurona j-ésima es el producto de un peso wj0 por unaentrada ficticia fijada a 1 (x0 = 1), se puede extrapolar la ecuación analítica a la primeracapa de neuronas ocultas del MLP de la siguiente manera:

aj = ϕ2

(

d∑

i=0

w(1)ji xi

)

(1.28)

siendo xi, (i = 1, . . . , d) la i-ésima entrada, y w(1)ji el peso que va desde la entrada i hasta

la neurona j, (j = 1, . . . , N1) de la primera capa oculta. Del mismo modo, para la segundacapa oculta se tienen como entradas las aj obtenidas y se aplica de nuevo la Ecuación1.28:

bk = ϕ2

(

N1∑

j=0

w(2)kj aj

)

. (1.29)

Finalmente, para la capa de salida de M nodos:

ym = ϕ3

(

N2∑

k=0

w(3)mkbk

)

, m = 1, . . . ,M (1.30)


y sustituyendo 1.28 en 1.29, y el resultado en 1.30 se tiene la ecuación que define lam-ésima salida del MLP:

ym = ϕ3

(

N2∑

k=0

w(3)mkϕ2

(

N1∑

j=0

w(2)kj ϕ2

(

d∑

i=0

w(1)ji xi

)))

. (1.31)

Cabe destacar que la función de activación ϕ3 es lineal en este caso concreto, por loque ϕ3(υ) = υ.

1.5.3 La red de base radial

La motivación de las redes de base radial (RBFN) proviene de la investigación sobreinterpolación en espacios multidimensionales, es decir, cómo encontrar la superficie multi-dimensional que interpola de manera óptima los datos de test. Mediante la interpolaciónexacta [280] se lograba aproximar todos los puntos de un conjunto de datos de maneraexacta (el interpolador pasa por todos los puntos), gracias a una serie de funciones “base”centradas en ciertos puntos que, al ser combinadas linealmente, hacen el papel de apro-ximadores locales. Sin embargo, el hecho de que sea necesario un nodo por cada muestrade entrada lo convierte en un método costoso y, además, al ajustarse de manera perfectaa todos los puntos del conjunto de entrenamiento es, ciertamente, un método con pobregeneralización cuando las variables son ruidosas. Introduciendo una serie de modifica-ciones en el procedimiento de interpolación exacta se obtiene el modelo de la RBFN [49],que proporciona una interpolación suavizada en la cual el número de funciones base estádeterminada por la complejidad del mapeo a representar en lugar de sólo por el tamañodel conjunto de datos. Las modificaciones consisten en lo siguiente:

1. El número de funciones base, N , no necesita ser igual al número de muestras delconjunto de datos.

2. Los centros de las funciones base se modifican durante el proceso de entrenamiento.

3. Cada función base tiene su propia anchura σj , (j = 1, . . . , N), que también se mo-difica durante el entrenamiento.

4. Los umbrales se incluyen en la suma lineal realizada en los nodos de salida.

Al igual que el MLP, la RBFN es una red que posee varias capas de neuronas querealizan distintos roles. En concreto, está compuesta por una capa de entrada, una capaoculta y una capa de salida. La capa de entrada está formada por neuronas “sensoriales”,es decir, que captan los estímulos del medio. La capa oculta constituye la diferenciafundamental respecto al MLP. Se trata de una capa no lineal que aplica una transformaciónno lineal a los datos procedentes de las entradas a un espacio habitualmente de mayordimensionalidad [145]. La capa de salida es lineal y proporciona los valores estimados delas variables objetivo. Un diagrama de una RBFN genérica se muestra en la Figura 1.12.

La idea de transformar el espacio de entrada a un espacio de mayor dimensionalidadfue propuesta inicialmente por Cover en su “teorema de la separabilidad” [71]. En sutrabajo, se demuestra que en un problema de clasificación, la probabilidad de que éste sealinealmente separable es mayor en un espacio de alta dimensionalidad. Intuitivamente,


x1

x2

xd 1-

xd

. . .

Capa oculta de Nneuronas RBF

Capa desalida lineal

Capa deentrada

. . .. . .

. . .. . .

y1

ym

yM

Figura 1.12: Estructura de una red de tipo RBFN de d entradas, N neuronas en la capaoculta, y M neuronas de salida. Los umbrales de cada neurona se han omitido en eldiagrama por claridad. Las flechas indican el sentido de propagación de las señales.

una mayor capacidad del espacio oculto ofrecerá mayores posibilidades de aproximaciónde las relaciones complejas entre variables.

La función analítica que realiza una RBFN para obtener la k-ésima variable de salida(k = 1, . . . ,M) viene dada por:

yk(x) =

N∑

j=1

wkjφj(x) + bk (1.32)

donde x ∈ Rd es el vector de entrada, φj la función base del j-ésimo nodo, wkj es el peso

asociado a la conexión entre la neurona j de la capa oculta y la neurona k de salida ybk es el umbral de la neurona k de la capa de salida. Del mismo modo que se explicópara el MLP, en la RBFN los umbrales podrían incluirse en el sumatorio como pesos wk0asociados a una entrada fijada a 1. Para el caso típico de funciones base Gaussianas setiene:

φj(x) = exp

(

−‖x− µj‖2

2σ2j

)

(1.33)

donde µj es el vector que representa el centro de la función base φj. Como se observa, elvalor de φj(x) dependerá no sólo del valor de x sino también de su distancia al centro dela Gaussiana.

El entrenamiento consta de dos fases. En la primera se utiliza el conjunto de datos deentrada, de manera no supervisada (sin utilizar las salidas), para determinar los paráme-tros (µj y σj) de las funciones base. En la segunda fase del entrenamiento, los parámetrosde las funciones base se mantienen mientras los pesos de la capa de salida se ajustan pormedio de entrenamiento supervisado.

Comparando las RBFN con los MLPs, es fácil observar sus diferencias respecto a lasRBFN. En primer lugar la RBFN puede tener una sola capa oculta mientras que los


MLPs pueden tener un número indeterminado de ellas. A diferencia de los MLPs, dondeel argumento de la función de activación de una neurona era el producto interior entre elvector de entrada y el vector de pesos asociado a dicha neurona, en la RBFN el argumen-to es la norma Euclídea (distancia) entre el vector de entrada y un vector prototipo querepresenta el “centro” del nodo. Los MLP calculan aproximaciones “globales” del mapeono lineal entre entradas y salidas. Las RBFN por su parte, utilizan no linealidades ex-ponencialmente decrecientes (funciones de tipo Gaussiano) y construyen aproximaciones“locales” del mapeo entre entradas y salidas. El agregado de estas aproximaciones localesda lugar a la aproximación global, como se muestra en la Figura 1.13.

Los ámbitos de aplicación de las RBFN comprenden: aproximación de funciones, regu-larización, interpolación en entornos ruidosos, estimación de densidad, clasificación óptimay funciones potencial. Uno de los factores por los que se han asentado como una alternati-va factible a los MLPs es que sus tiempos de entrenamiento son sustancialmente menores[32].

1.5.4 Las máquinas de soporte vectorial

En esta Sección se introducirán los principios básicos de un tipo de redes que han cosechadomuy buenos resultados en la literatura reciente, tanto en aplicaciones de regresión comode clasificación y reconocimiento de patrones. Este tipo de redes son las máquinas desoporte vectorial, abreviadas como SVMs (del inglés support vector machines) y que fueronintroducidas a principios de la década de 1990 por Vapnik y sus colaboradores [38, 69, 351].

La base de una SVM es construir un hiperplano como superficie de decisión que separacon máximo margen las muestras de una y otra clase. El funcionamiento de una SVM tienesus raíces en la teoría de aprendizaje probabilístico, más concretamente en los métodos deminimización de riesgo estructural. Se llega a esta conclusión por el hecho de que la tasade error de generalización de la SVM está acotada por la suma del error de entrenamiento

1 2 3 4 5 6 7 8 9 10 11 120

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

x

y

Figura 1.13: Funcionamiento de una RBFN modelando una función arbitraria medianteun agregado de 7 funciones base Gaussianas ponderadas y sumadas.


y un término que depende de la dimensión de Vapnik-Chervonenkis (VC) [352].Suponiendo que la SVM venga determinada por un vector de pesos w y un umbral b,

tal que el hiperplano de separación entre clases es wTx + b = 0, se demuestra que existeun peso y un umbral óptimos (w0 y b0, respectivamente) que proporcionan la máximaseparación posible entre muestras de diferente clase [145]. Un ejemplo de hiperplano demáxima separación para un problema de dos clases se muestra en la Figura 1.14.

Las SVMs se apoyan en dos operaciones fundamentales. La primera es un mapeo de losvectores de entrada a un “espacio de características” de mayor dimensionalidad, que sólo seutiliza internamente y está oculto tanto para las entradas como para la salida. La segundaconsiste en la construcción del hiperplano óptimo de separación de las característicasencontradas en el paso anterior.

Las SVM hacen posible que, aunque las clases no sean separables linealmente en elespacio de entrada, sí lo sean en el espacio de características. Al ser éste de muy altadimensionalidad, es posible tener un hiperplano de separación lineal, como se aprecia enla Figura 1.15

Así pues, los productos que en las redes tipo MLP se realizaban entre entradas ypesos en la capa oculta ahora se realizan entre variables transformadas a un espacio de

+1

+1

+1

+1

+1+1

-1

-1 -1

-1

-1

-1

+1

+1

-1

-1

-1

d

H1

H2

Figura 1.14: Hiperplano de máxima separación para un problema de dos clases etiquetadascomo +1 y -1. La máxima separación entre clases viene dada por δ y se tienen 5 vectoressoporte (representados como círculos).

+1+1

+1

+1

+1+1

-1

-1 -1

-1

-1

-1+1

-1 -1-1

+1

+1

+1

+1

+1

+1

+1

-1

-1

-1

-1

-1

-1

-1

-1

-1

j

Espacio de entrada Espacio de características

Figura 1.15: Problema que no es separable linealmente en el espacio de entrada pasa aserlo en el espacio de características.


características distinto del de entrada. Supongamos un espacio de entrada de dimensiónd y un espacio de características de dimensión d′, y que las transformaciones no linealesdel espacio de entrada al de características vienen dadas por ϕ(x) = ϕj(x)d′j=1. Elhiperplano de decisión vendrá dado por

d′∑

j=1

wjϕj(x) + b = 0 . (1.34)

Incluyendo el umbral b como un peso w0 asociado a una entrada x0 = 1 en el sumatoriopodemos abreviar la ecuación como

wTϕ(x) = 0 . (1.35)

Por el método de los multiplicadores de Lagrange se puede expresar el vector de pesosw como

w =

N∑

i=1

αidiϕ(xi) (1.36)

donde N es el número de muestras de aprendizaje, αi son multiplicadores de Lagrange,xi es la i-ésima muestra del conjunto y di su salida correspondiente. Combinando lasEcuaciones 1.35 y 1.36 obtenemos:

N∑

i=1

αidiϕT (xi)ϕ(x) = 0 . (1.37)

Aquí definiremos el kernel o producto interior de la transformación del vector deentrada ϕ(x) con la de la i-ésima muestra del conjunto ϕ(xi) como K(x, xi) quedando laecuación del hiperplano óptimo como:

N∑

i=1

αidiK(x, xi) = 0 . (1.38)

Los kernels pueden ser de una gran variedad de tipos:

• Polinomial

• Gaussiano

• Función de base radial

• Sigmoidal

• Anova

• Serie de Fourier

• Spline

• B Spline


• Aditivo

• Producto tensor de varios kernels

Un esquema básico de una SVM se muestra en la Figura 1.16.

x1

x2

xd

. . .

Capa oculta de ´neuronas ( )kernels

d

Neurona desalida

Capa de entradade tamaño d

. . .

b

y

K x;x( 1)

K x;x( 2)

K x;x( )d´

Figura 1.16: Estructura de una SVM.

Las SVMs fueron extendidas también a problemas de regresión (support vector regres-sion, SVR) utilizando una función denominada ǫ-insensitiva de pérdidas [351]. El conjuntode entrenamiento se utiliza para obtener un modelo de regresión que puede ser represen-tado como un “tubo” de radio ǫ que se adapta a los datos (ver Figura 1.17). En el casoideal, la SVR encuentra una función que mapea todos los datos de entrenamiento conuna desviación máxima ǫ respecto al valor objetivo. Sin embargo, para conjuntos de datosafectados por errores, no es posible incluir todos los puntos dentro del tubo de regresióny seguir teniendo un modelo robusto. Por lo general, la SVR considera que el error de lasmuestras interiores al tubo es cero, mientras que las muestras exteriores al tubo tienenun error que aumenta con la distancia al tubo [315].

1.5.5 Los mapas auto-organizativos

El mapa auto-organizativo (SOM) es un tipo especial de ANN, que fue introducido porKohonen en 1982 [181], por lo que también se conoce como red de Kohonen. Está íntima-mente relacionado con la forma en que funciona el cerebro. Diferentes estímulos sensoriales,tales como visuales, auditivos, etc. se mapean en diferentes zonas del cerebro. Los SOMson mapeos artificiales que aprenden de la auto-organización. Las neuronas ocultas de losSOM separan los vectores de entrada en diferentes dominios basándose en los centros delas neuronas ocultas. Se calculan las distancias Euclídeas entre cada muestra de entrada ylos centros de cada neurona oculta. El centro que tenga la mínima distancia a la muestra


0+e

-e

Figura 1.17: Problema de regresión modelado por SVR.

de entrada es el que corresponde a la neurona “ganadora”. Después, en la capa de salida,se mapean las muestras a un mapa topográfico bidimensional. Los SOM se actualizaniterativamente siguiendo un modo de aprendizaje competitivo, y utilizando funciones devecindad, hasta obtener finalmente los datos clasificados. A modo de ejemplo, en la Figura1.18 se aprecia un SOM que tiene dos entradas y la capa de salida se compone de un mapa3×3 cuyas coordenadas abarcan desde (1, 1) a (3, 3).

(1,1)

(3,3)

(3,1)

(1,3)

entradas

pesos

mapa decaracterísticas

Figura 1.18: Estructura de una red SOM de 2 entradas y un mapa de salida de tamaño3×3.

1.6 El aprendizaje con redes neuronales

En la Sección 1.2 se vio que para el aprendizaje inductivo es crucial inducir un modeloque tenga una alta exactitud de predicción. Para aprendizaje supervisado esto significaque queremos un modelo que sea capaz de predecir con exactitud el valor de y para una

1.6. EL APRENDIZAJE CON REDES NEURONALES 31

muestra ~x obtenida. Claramente, es trivial pensar que será relativamente fácil predecir elvalor correcto de y (óptimo de Bayes, en dominios donde existe ruido) para ejemplos queestuvieron en el conjunto de muestras que se utilizó para el aprendizaje. Por consiguiente,un aspecto importante para determinar la bondad de un modelo es predecir los valoresde y de muestras que no estuvieron en el conjunto de aprendizaje.

1.6.1 Entrenamiento, validación y test

La forma más común de aprendizaje, y también de adaptación, que tienen las redes neu-ronales es, como hemos visto, a través de la modificación de los pesos (wij) que cadaneurona le asigna a la información que recibe de las neuronas que la preceden. Así, lasANNs van modificando los pesos en la etapa de aprendizaje, que se conoce como “entre-namiento”, para reducir progresivamente el error que cometen al tratar de predecir lasvariables independientes. Con el fin de que una ANN aprenda exitosamente una tareaes necesario el entrenamiento. Esto requiere que se presente a su entrada de manera se-cuencial cada muestra de un conjunto de datos que será un subconjunto de los datostotales disponibles. En caso de ser entrenamiento supervisado también se necesitarán lassalidas asociadas. Se conoce como epoch a una presentación completa del conjunto deentrenamiento durante el proceso de aprendizaje. El aprendizaje ocurre epoch a epochhasta que los pesos y umbrales se estabilizan y el criterio de error (típicamente el errorcuadrático medio (MSE)) sobre el conjunto de entrenamiento completo converge a algúnvalor mínimo. Además, es conveniente que las muestras se presenten de forma aleatoriapara convertir en estocástica la búsqueda en el espacio de los pesos y así minimizar laposibilidad de convergencia a un mínimo local.

En la etapa de entrenamiento las redes neuronales van calculando sus predicciones delas variables requeridas por el usuario y cada vez que obtienen un valor lo comparan conel valor real que tuvo la variable que se intentó predecir; así la red ve en qué medidase equivocó y modifica los pesos sinápticos para tratar de disminuir ese error. Para estola red neuronal puede partir con pesos iguales a cero (wij = 0) o, más habitualmente,inicializar los pesos de forma aleatoria antes de empezar a “aprender” [255]. De este modotiene un punto desde donde empezar a adaptar los pesos. Una forma muy común de irmodificando los pesos es mediante una distribución proporcional del error cometido enla predicción entre todas las neuronas según el aporte de cada una al resultado final, esdecir, cuanto más aportó la neurona o conexión al resultado, mayor parte del error se leasignará a ella para modificar sus pesos.

El método básico para estimar la eficiencia predictiva de un algoritmo de entrenamien-to es medir el error que comete sobre un conjunto de muestras que se ha mantenido almargen durante el proceso de entrenamiento. Este conjunto se denomina conjunto de testo conjunto hold-out. El método hold-out de test es el más extendido y el más sencillo,puesto que sólo es necesario separar un conjunto de muestras y reservarlas para compro-bar la generalización de un modelo una vez entrenado. Cuando las muestras disponiblespara entrenar son escasas, es posible obtener una medida más exacta de la estimación uti-lizando la validación cruzada [327]. La validación cruzada k-fold consiste en particionarlos datos disponibles en k subconjuntos con aproximadamente el mismo número de mues-tras. El proceso de validación cruzada supone k iteraciones, en las cuales el algoritmode entrenamiento utiliza k − 1 subconjuntos para entrenar, y deja fuera uno de ellos. El


Datos

Test

Test

Test

Test

Test

Test

k = 1

k = 2

k = 3

k = 4

k = 5

k = 6

MSE1

MSE2

MSE3

MSE4

MSE5

MSE6

MSE =S( )MSEi

6

Figura 1.19: Esquema de una validación cruzada con k = 6 subconjuntos.

subconjunto que se deja fuera va rotando en cada iteración de manera que, al final delproceso, todos los datos han formado parte del entrenamiento y del test en algún mo-mento (en concreto k − 1 veces para entrenar y una para testar). La medida del errorcometido es, por lo tanto, la media aritmética de los errores cometidos en las diferentesiteraciones. Se puede observar gráficamente este proceso en la Figura 1.19 para k = 6.Este método llevado al extremo, para k = N , siendo N el número de muestras totales,produce el denominado método leave-one-out (LOO), que consiste en evaluar N vecesel modelo, cada vez testando con una muestra distinta. También existe la posibilidad deutilizarla para optimizar parámetros durante el proceso de entrenamiento, o seleccionarmodelos de entre varios posibles.

La validación cruzada por LOO funciona bien para funciones de error continuas, comoel MSE, pero puede encontrar dificultades (además de las evidentes en cuanto a tiempo decomputación) al utilizarse para funciones discontinuas, como las tareas de clasificación.Tampoco es recomendable para selección de modelos, ya que la falta de continuidad haceque un pequeño cambio en los datos pueda dar lugar a un cambio radical en el modeloescogido [43]. Para la elección de subconjuntos de entradas en regresión lineal, Breiman ySpector [45] encontraron que una validación cruzada k-fold con k = 10 o k = 5 daba mejorresultado que LOO. Kohavi [179] también obtuvo mejores resultados para una validacióncruzada 10-fold que para LOO para problemas de árboles de decisión.

El método LOO a menudo se confunde con el método jackknife. Ambos tienen encomún que las muestras de entrenamiento se omiten por turnos y se entrena la red so-bre el conjunto restante. No obstante, la validación cruzada se utiliza para estimar elerror de generalización, mientras que el jackknife se usa para calcular el sesgo de unavariable estadística de interés en cada subconjunto de datos. La media de esta variableestadística calculada para todos los subconjuntos se compara con la obtenida para todoel conjunto para estimar el sesgo. El jackknife también puede emplearse para calcular elerror estándar de una variable. Por ejemplo, puede aplicarse al cálculo del sesgo del errorde entrenamiento y, con ello, estimar el error de generalización, pero este proceso es más


complicado que el LOO [95, 293].Otro método de validación cruzada sería el llamado submuestreo aleatorio. Este méto-

do consiste en, dada una población de muestras, extraer un número determinado de ellas,entrenar la red con ellas y reservar el resto para testar. El proceso se repite un númerodeterminado de veces, pudiéndose extraer varias veces la misma muestra para entrenar(se trata de un muestreo con reemplazamiento de tipo bootstrap [97]) y, finalmente, sepromedia el error de test obtenido en cada una de las repeticiones.

En cualquier caso, es obvio que la validación cruzada garantiza robustez frente a unaelección sesgada de los conjuntos de entrenamiento y test.

Otra pregunta que se puede plantear es: ¿cuándo se debe detener el entrenamiento? Apriori la respuesta lógica sería que cuantas más iteraciones (normalmente llamadas epochsen la literatura) del algoritmo se hayan producido, mejor será el ajuste de los pesos y, portanto, mejores prestaciones tendrá la red entrenada. Es evidente que esto se cumple paralos datos de entrenamiento ya que una ANN de al menos una capa oculta puede aproximar,dadas suficientes iteraciones, cualquier conjunto de datos con una precisión arbitraria. Sinembargo, esto no se cumple por lo general para muestras nuevas. Se dice que una red seha sobre-entrenado cuando “memoriza” las muestras que se le han presentado a la entradadurante el entrenamiento, de manera que incluso se ajusta al ruido existente en éstas(ver Figura 1.20). Una red sobre-entrenada tendrá una mala generalización con respectoa muestras nuevas y, por lo tanto, es algo que hay que evitar deteniendo el entrenamientoa tiempo.

y

x

Modelo robusto

Modelo sobre entrenado-

Figura 1.20: Modelo correctamente entrenado frente a modelo sobre-entrenado. El modelosobre-entrenado memoriza la forma de la función de entrada, modelando incluso el ruidode ésta. El modelo correctamente entrenado será más robusto frente al ruido y tendrámejor comportamiento con nuevas muestras.

Una manera de acometer el problema de sobre-entrenamiento (overfitting) es extraerun subconjunto de muestras del conjunto de entrenamiento (nótese que el conjunto detest se ha extraído previamente) y utilizarlo de manera auxiliar durante el entrenamiento.


Este subconjunto recibe el nombre de conjunto de validación. La función que desempeñael conjunto de validación es evaluar el error de la red tras cada epoch (o tras cada ciertonúmero de epochs) y determinar el momento en que éste empieza a aumentar. Ya queel conjunto de validación se deja al margen durante el entrenamiento, el error cometidosobre él es un buen indicativo del error que la red cometerá sobre el conjunto de test.En consecuencia, se procederá a detener el entrenamiento en el momento en que el errorde validación aumente y se conservarán los valores de los pesos del epoch anterior. Estecriterio de parada se denomina early-stopping. La Figura 1.21 describe el procedimientoexplicado.

Error

Epochs

Conjunto de entrenamiento

Conjunto de validacion

Punto de parada

Figura 1.21: Representación del criterio de parada por early-stopping.

1.6.2 Entrenamiento supervisado y no supervisado

En relación a su manera de aprender, las ANNs pueden ser clasificadas en dos grupos:

• Supervisadas

• No supervisadas

1.6.2.1 Entrenamiento supervisado

Este es el tipo más popular de entrenamiento y el que utilizaremos en esta Tesis. En estemodo de entrenamiento, se puede considerar intuitivamente que existe un “profesor” que“enseña” a la red, proporcionando información para llevarla a emular la función deseada.Supongamos que un conjunto de muestras de entrada se aplica a la entrada de la red.Entonces la respuesta a la salida se compara con la respuesta deseada que proporciona el“profesor”. Éste informa a la red, ya sea el resultado correcto o incorrecto, para actualizarlos pesos en consecuencia. Para este tipo de aprendizaje hace falta conocer la salidadeseada de las muestras de entrenamiento.


1.6.2.2 Entrenamiento no supervisado

Las ANNs no supervisadas también reciben el nombre de redes auto-organizativas o, másfrecuentemente, redes competitivas. Estas redes de aprendizaje competitivo no cuentancon la guía de un “profesor”. Su base de funcionamiento son las técnicas de clustering oagrupamiento. Su función es agrupar muestras con características similares en el mismocluster. Algunas redes no supervisadas son los SOM, las LVQ, los clasificadores k-NN3 ylas RBFN (en su primera fase de entrenamiento). La idea inherente de todas estas redeses que la capa oculta de neuronas debe ser capaz de extraer las características estadísticasdel conjunto de datos de entrada. En la mayoría de los casos las neuronas de la capaoculta compiten entre ellas para determinar cuál está más próxima al dato de entrada, yla neurona “ganadora” es la que se actualiza, lo que significa que se mueve más cerca deldato de entrada. Este tipo de red suele denominarse “winner-takes-all ”

1.6.3 El algoritmo backpropagation

Para las ANNs que tienen funciones de activación diferenciables existe un método po-tente y computacionalmente eficiente denominado backpropagation (BP), o de “retro-propagación” [300], para hallar las derivadas de la función de error con respecto a lospesos y umbrales de la red. En el método BP existe una función de error a minimizar,como puede ser el MSE entre las salidas obtenidas y las deseadas, y el algoritmo actúamodificando los pesos y umbrales en cada epoch. De manera adicional, puede incluir untérmino de complejidad que refleja una distribución previa sobre los valores que estosparámetros pueden tomar [299].

Se asume que la propagación de la señal tiene dos fases, la fase forward, que es lafase de funcionamiento normal, en la que las señales se propagan desde las entradas hacialas salidas, y la fase backward, en la cual una vez obtenidas las estimaciones de salidase realiza la corrección de los pesos y umbrales en sentido contrario, es decir, desde lassalidas hacia las entradas.

El algoritmo BP, para el modo on-line, es decir, con actualización secuencial de lospesos, se resume en los siguientes pasos para una red de L capas [145]:

1. Inicialización: Asumiendo que no existe información disponible a priori, se tomanlos pesos y umbrales de una distribución uniforme de media cero y cuya varianzahace que los productos entre pesos y entradas de las neuronas estén situados entrela zona lineal y la de saturación de las funciones de activación sigmoidales.

2. Presentación de las muestras de entrenamiento: Se presentan a la entrada dela red las muestras de entrenamiento correspondientes a un epoch. Para cada muestrase realiza la secuencia de operaciones en modo forward y backward indicadas en lospuntos 3 y 4, respectivamente.

3. Fase forward : Denotemos una muestra correspondiente al epoch n como (x(n),d(n)),siendo el vector x(n) presentado a las entradas de la ANN, y d(n) el vector de sali-das deseadas, presentado a la salida de la ANN. Se realiza la fase forward, capa por

3No suelen considerarse redes estrictamente hablando.


capa, según la ecuación que calcula el denominado “campo local inducido”, v(l)j (n),

de la neurona j de la capa l:

v(l)j (n) =

m0∑

i=0

w(l)ji (n)y

(l−1)i (n) (1.39)

donde m0 es el número de neuronas en la capa anterior (l − 1), y(l−1)i es la salida

de la neurona i de la capa l − 1 en el epoch n y w(l)ji es peso de la conexión entre la

neurona j de la capa l procedente de la neurona i de la capa l − 1. Para i = 0, setiene y(l−1)

0 = 1 y, por tanto, w(l)j0 = b

(l)j (n) es el umbral aplicado a la neurona j de

la capa l. Asumiendo que se utiliza una función de activación sigmoidal, la salidade la neurona j de la capa l es

y(l)j = ϕj(vj(n)) (1.40)

En el caso particular de la capa de entrada (l=0) se tiene

y(0)j (n) = xj(n) (1.41)

donde xj(n) es el elemento j-ésimo del vector de entrada x(n). En el caso de la capade salida (l = L) se cumple que para la neurona j la salida equivale al valor predichopj :

y(L)j = pj(n) (1.42)

Se calcula la señal de error como:

ej(n) = dj(n) − pj(n) (1.43)

siendo dj(n) el j-ésimo elemento de la salida deseada d(n).

4. Fase backward . Se calculan los gradientes locales (deltas) de la red por medio delmétodo de descenso de gradiente, definidos como

δ(l)j (n) =

e(L)j (n)ϕ′

j(v(L)j (n)), para la neurona j de la capa de salida L

ϕ′j(v

(l)j (n))

∑

δ(l+1)k (n)w

(l+1)kj (n), para la neurona j de la capa oculta l

(1.44)donde ϕ′

j(·) expresa la derivada de ϕj respecto al argumento. Los pesos se ajustande acuerdo con la ecuación siguiente:

w(l)ji (n + 1) = w

(l)ji (n) + α[w

(l)ji (n− 1)] + ηδ

(l)j (n)y

(l−1)i (n) (1.45)

donde η es la tasa de aprendizaje y α la constante de momento. La tasa de apren-dizaje está relacionada con la trayectoria que toma el algoritmo BP en el espacio delos pesos por el método de descenso de gradiente. Cuando η es pequeño, la variaciónde los pesos entre iteraciones será pequeña, haciendo más “suave” la trayectoria,pero también haciendo más lento el entrenamiento. Para η grandes, la variación delos pesos será grande, acelerando el entrenamiento. Sin embargo, si η es demasiadogrande, se corre el riesgo de que la red oscile y sea inestable. Existen métodos quemantienen la tasa de aprendizaje constante y otros que la hacen adaptativa según la


evolución del error de un epoch a otro. Por su parte, el término de momento ayudaa evitar las oscilaciones producidas por las variaciones de los pesos en la funciónde error, que no decrece de manera monótona. El descenso de gradiente modificadocon un término de momento se utiliza a veces, así como el método del gradienteconjugado4 [183], e incluso métodos de segundo orden [24].

5. Iteración: Se realizan los cálculos forward y backward de los puntos 3 y 4 presen-tando las muestras de entrenamiento de cada epoch a la entrada de la red hasta queel criterio de parada se cumpla5.

1.6.4 El entrenamiento en modo on-line y en modo off-line

Para un conjunto de entrenamiento dado, el aprendizaje de una ANN puede producirsede dos modos distintos.

• El modo on-line también se denomina secuencial. Este modo es el descrito para el al-goritmo BP en la Sección 1.6.3. En este modo de operación, la evaluación del error y,por consiguiente, el ajuste de los pesos, se realiza tras la evaluación de cada muestray antes de presentar la siguiente. Concretamente, consideremos un epoch que com-prendeN muestras de entrenamiento ordenados como (x(1),d(1)), . . . , (x(N),d(N)).El primer par, (x(1),d(1)) se presenta a la red, se realiza el entrenamiento, se calcu-la el error y se actualizan los pesos y umbrales. A continuación, el segundo ejemplo(x(2),d(2)) del epoch se presenta a la ANN y se repite la misma secuencia deoperaciones. El proceso continúa hasta que se han presentado las N muestras deentrenamiento.

• El modo off-line también recibe el nombre de modo batch. En este modo de entre-namiento, la evaluación del error y el ajuste de los pesos y umbrales tienen lugardespués de todas las muestras de entrenamiento correspondientes a un epoch. Si-guiendo la nomenclatura del apartado anterior, en este caso, las N muestras de en-trenamiento, (x(1),d(1)), . . . , (x(N),d(N)), se presentan a la red y, posteriormente,se evalúa el error y se ajustan los parámetros. A continuación, se pasa directamenteal siguiente epoch.

Por una parte, se prefiere el modo on-line frente al off-line en cuanto a que requieremenos espacio de almacenamiento local para cada conexión sináptica y, si se presentanlas muestras de entrada en orden aleatorio en cada epoch, el funcionamiento muestra amuestra facilita que la búsqueda en el espacio de los pesos sea estocástica, minimizandola posible convergencia del entrenamiento a un mínimo local del error. Tiene también la

4Aunque el algoritmo BP básico ajusta los pesos en la dirección de máxima pendiente negativa delgradiente y con ello acelera el decrecimiento de la función de error, esto no siempre desemboca en laconvergencia más rápida. Con el gradiente conjugado la búsqueda se realiza a lo largo de direccionesconjugadas, lo que produce mayor velocidad de convergencia que la del método de descenso de gradiente.

5El algoritmo BP no tiene un criterio de parada claro, ya que, por lo general, no converge. Existendiferentes criterios para detenerlo, como puede ser: (a) la norma Euclídea del vector gradiente se hareducido hasta alcanzar un determinado umbral, (b) la variación del error promedio por epoch es losuficientemente pequeña o (c) la generalización de la red ha alcanzado su máxima cota (criterio early-

stopping, ver Sección 1.6.1)


ventaja de que funciona bien con conjuntos de datos redundantes. Por otra parte, la mismanaturaleza estocástica del modo on-line hace difícil establecer condiciones teóricas parala convergencia del algoritmo. El modo off-line, en cambio, proporciona una estimaciónadecuada del vector gradiente, por lo que la convergencia al mínimo local está garantizadabajo ciertas condiciones. Además, la naturaleza del modo off-line lo hace más fácil deparalelizar que el on-line [145].

1.6.5 Algunos algoritmos de entrenamiento avanzados

1.6.5.1 Levenberg-Marquardt

El método de Levenberg-Marquardt (LM) [195, 214] es un tipo de algoritmo de entre-namiento similar a los denominados quasi-Newton. Su descripción original viene propuestaen [214] pero su aplicación al entrenamiento de ANNs aparece por primera vez en [138].Para entender la funcionalidad del método LM es conveniente empezar por comprender elmétodo de Newton. El método de Newton es un método de segundo orden que constituyeuna alternativa a los métodos de gradiente conjugado para optimización rápida. El pasobásico del método de Newton durante el epoch n es

w(n+ 1) = w(n) − H(n)−1g(n) (1.46)

donde w es el vector de pesos, g(n) es el vector gradiente actual y H(n) es la matrizHessiana (de derivadas segundas) de la función de error respecto a los pesos, evaluada enlos valores actuales de pesos y umbrales. El método de Newton generalmente converge másrápido que los métodos de gradiente conjugado. Desafortunadamente, la matriz Hessianaes compleja y costosa de calcular para las redes feedforward. Los algoritmos denominadosquasi-Newton (método de la secante) calculan y actualizan una aproximación de la matrizHessiana sin necesidad de resolver las derivadas de segundo orden en cada iteración. Laactualización realizada es función del gradiente.

Al igual que los métodos quasi-Newton, el algoritmo LM fue diseñado para acometerentrenamientos rápidos de segundo orden sin tener que calcular la matriz Hessiana. Cuan-do la función de error tiene la forma de una suma de cuadrados (el caso típico en las redesfeedforward), entonces la matriz Hessiana puede aproximarse como

H = JTJ (1.47)

donde J es la matriz Jacobiana que contiene las primeras derivadas de la función de errorde la red respecto a los pesos y umbrales. El gradiente se obtiene como

g = JTe (1.48)

siendo e el vector de errores de la red. El cálculo de la matriz Jacobiana se reduce a unsimple cálculo del método backpropagation [138] que es mucho más sencillo que construirla matriz Hessiana. El método LM actualiza los pesos de forma similar al método deNewton pero introduciendo los cambios anteriores:

w(n+ 1) = w(n) − [JTJ + µI]−1JTe (1.49)


donde el parámetro µ actúa como tasa de aprendizaje. Cuando µ es cero, el algoritmose convierte en el método de Newton empleando la forma aproximada del cálculo de lamatriz Hessiana:

w(n+ 1) = w(n) −H−1g (1.50)

Cuando µ es grande, se puede despreciar la aportación de la matriz Hessiana al cálculo yobtenemos el método de descenso de gradiente con un tamaño de paso (1/µ):

w(n+ 1) = w(n) − 1

µg (1.51)

El método de Newton es más eficaz cerca de un mínimo de error, así que el objetivo esmigrar al método de Newton tan pronto como sea posible. Así pues, se reduce µ trascada paso exitoso (cada vez que el error se logra reducir) y sólo se aumenta cuando elerror aumenta respecto a la iteración anterior. Con esta metodología, la función de errorsiempre disminuye tras cada iteración del algoritmo.

El algoritmo LM parece ser el método más rápido para entrenar redes feedforward detamaño moderado (hasta varios centenares de parámetros). Su principal desventaja es querequiere almacenar las matrices Jacobianas que, para ciertos conjuntos de datos, puedenser muy grandes, lo que significa un gran uso de memoria.

1.6.5.2 Resilient backpropagation

Las ANNs multicapa a menudo utilizan funciones de activación sigmoidales en las capasocultas. Estas funciones comprimen las entradas que tienen un rango infinito a un rangofinito de salida. Las sigmoides se caracterizan por el hecho de que sus pendientes debenaproximarse a cero cuando las entradas son grandes. Esto constituye un problema cuandose utiliza descenso de gradiente para el entrenamiento, porque el gradiente puede tomaruna magnitud muy pequeña y, por lo tanto, causar variaciones muy pequeñas en los pesosy umbrales, aunque disten mucho todavía de ser los óptimos.

El objetivo del algoritmo resilient backpropagation (abreviado como rprop o RP) [292]es eliminar estos efectos nocivos de las magnitudes de las derivadas parciales. Solamentese utiliza el signo de la derivada para determinar la dirección del ajuste de los pesos. Lamagnitud de la derivada no tiene efecto sobre la actualización de los pesos. La variaciónde los pesos se determina por medio de un valor de actualización separado. El valor deactualización de cada peso y umbral se incrementa por cierto factor ∆i siempre que laderivada de la función de error con respecto a ese peso tenga el mismo signo durante dositeraciones sucesivas. El valor de actualización se decrementa por un factor ∆d cuandola derivada respecto a dicho peso cambia de signo respecto a la iteración previa. Si laderivada es cero, el valor de actualización no varía. Cuando los pesos comienzan a oscilar,su variación se reduce. Si los pesos se modifican en la misma dirección durante variasiteraciones, su variación se incrementa.

El algoritmo rprop es normalmente mucho más rápido que el descenso de gradienteestándar. También tiene la interesante propiedad de que no tiene grandes requerimientosen cuanto a memoria de almacenamiento, porque sólo se necesitan almacenar los valores deactualización para cada peso y umbral, lo que equivale a la capacidad de almacenamientonecesaria para el gradiente.


1.6.5.3 Regularización bayesiana

La regularización constituye un criterio de parada de entrenamiento alternativo al early-stopping visto en la Sección 1.6.1. El método de regularización bayesiana (BR) implicamodificar la función de coste, normalmente el MSE. El MSE sobre el conjunto de datosde test (MSEd) se expresa mediante una suma de cuadrados de los errores individualesei de cada muestra de un conjunto de test de N datos de la siguiente forma:

MSEd =1

N

N∑

i=1

(ei)2 . (1.52)

La modificación comentada tiene el propósito de mejorar la capacidad de generalizacióndel modelo. Para conseguirlo, la función de coste de la Ecuación 1.52 se amplía con laadición de un término MSEw que incluye el efecto de la suma de cuadrados de los pesosde la red. Es decir:

MSEw =1

N

N∑

i=1

(wi)2 . (1.53)

Y la función de coste modificada queda así:

MSE = β ·MSEd + α ·MSEw (1.54)

donde β y α son parámetros que deben ser ajustados según la metodología Bayesianade MacKay [208, 207]. Esta metodología asume que los pesos y umbrales son variablesaleatorias que siguen distribuciones específicas (normalmente Gaussianas). Los paráme-tros de regularización están relacionados con las varianzas desconocidas asociadas a estasdistribuciones. Se pueden estimar estos parámetros mediante técnicas estadísticas. Unacaracterística de este algoritmo es que proporciona una medida de cuántos parámetrosde la red (pesos y umbrales) están siendo efectivamente usados por ésta. Este número deparámetros efectivos debería llegar a ser aproximadamente constante, sin importar cuángrande se haga el número de parámetros “reales” de la red. Para esto se asume que la redha sido entrenada durante suficientes epochs y que el entrenamiento ha convergido.

Se conoce que la técnica de regularización óptima requiere la costosa construcción dela matriz Hessiana. Como se ha indicado en la Sección 1.6.5.1, existen algoritmos quesolventan esta dificultad mediante aproximaciones de dicha matriz. Un algoritmo que seemplea a menudo en combinación con la técnica de regularización Bayesiana es el algoritmoLM. Otra consideración importante es que el algoritmo BR funciona mejor cuando tantoel rango de entrada como el de salida se encuentran en [−1, 1]. Si no se da el caso paraun determinado problema, es conveniente escalar los datos.

1.7 Reseña histórica de las redes neuronales y de sus

aplicaciones

Las ANNs fueron creadas dentro del movimiento de investigación en inteligencia artificial(IA). La inteligencia artificial surge (como campo) después de la Segunda Guerra Mun-dial, en particular, se considera como su fecha de nacimiento la conferencia de Dartmouth

1.7. RESEÑA HISTÓRICA DE LAS REDES NEURONALES Y DE SUS APLICACIONES41

(1956), organizada por John McCarthy, Marvin Minsky, Nathaniel Rochester y ClaudeShannon. En esa época se tenía mucha fe en poder realizar, con la ayuda de máquinas,tareas cotidianas para un ser humano. Algunas de las tareas estudiadas fueron el re-conocimiento de patrones visuales, reconocimiento de texto escrito a máquina o a mano,reconocimiento de voz, reconocimiento de rostros, el uso del lenguaje, la planificación detareas, el diagnóstico médico, etc. En un artículo de 1950, Computing machinery andintelligence [345], Alan Turing se pregunta si las máquinas pueden pensar. Como apro-ximación a la respuesta, propone una prueba (el test de Turing) para determinar si unamáquina puede simular una conversación humana, un usuario dialogando mediante uncanal escrito debe determinar si su interlocutor es un ser humano o una máquina.

Para realizar estas tareas fueron creadas distintas clases de herramientas: sistemasexpertos, sistemas de inferencia lógica, sistemas de planificación, etc. y la que nos interesaaquí: las ANNs. Como su nombre indica, la inspiración para la creación de las ANNsfueron los conocimientos que las neurociencias iban adquiriendo sobre el funcionamientodel cerebro humano.

En 1943, McCulloch y Pitts [228] propusieron un modelo matemático sencillo delfuncionamiento de las neuronas: la neurona dispara un potencial de acción cuando lacombinación lineal de sus entradas supera un umbral. Este modelo se usa como unidadde procesamiento en redes neuronales artificiales, bajo el nombre de perceptrón. Algunosde los primeros trabajos en IA se basaban en estas redes neuronales artificiales. Otrosnombres para este campo son computación neuronal, procesamiento distribuido paraleloy conexionismo. En 1951, Marvin Minsky fue el primero en desarrollar una red neuronalen hardware. En 1957, Frank Rosenblatt inventó el perceptrón moderno [295] y demostróel teorema de convergencia del perceptrón. En 1960, Widrow y Hoff [358] diseñaron elalgoritmo least-mean squares (LMS), también conocido como regla delta, para el apren-dizaje en filtros adaptativos, que también se aplicó al aprendizaje de las ANNs en modolineal. Sin embargo, después de esta primera época de entusiasmo, el libro de Minsky yPapert [242], donde analizan los límites de los perceptrones, marca el fin de los primerosesfuerzos de investigación en redes neuronales. En los años 1980 aparecen los primerossistemas expertos que resuelven problemas a escala industrial, y la IA se convierte en unaindustria. Renace el conexionismo, a partir de 1986 se produce el impulso más fuerte, cuan-do por lo menos cuatro grupos distintos reinventan en forma independiente el algoritmobackpropagation, mencionado por primera vez por Bryson y Ho en 1969 [51]. Gran partede este resurgimiento se atribuye a Rumelhart y McClelland [300], ya que propusieronel uso del algoritmo para machine learning, y demostraron cómo podía funcionar. Otrodescubrimiento significativo en los 1980s fue el mapa auto-organizativo o red de Kohonen(1982) [181]. En 1988, Broomhead y Lowe [49] describen un procedimiento para diseñarredes feedforward utilizando funciones de base radial (RBF), que suponen una alternativaa los perceptrones multicapa. En 1990, Poggio y Girosi [277] enriquecieron la teoría delas redes RBF por medio de la regularización. En los 1990s, Vapnik y sus colaboradores[351] idearon un nuevo tipo de redes neuronales supervisadas llamadas máquinas de so-porte vectorial (SVMs) para resolver problemas de reconocimiento de patrones, regresióny problemas de estimación de densidad. Hoy en día se utilizan en multitud de aplicaciones.

Quizá los trabajos de Hopfield [156] y de Rumelhart y McClelland [300] fueron losmás influyentes desde la invención de la neurona artificial por McCulloch y Pitts [228],porque provocaron el resurgimiento de las redes neuronales en los años 1980. Las redes


Año Acontecimiento

1943 McCulloch y Pitts proponen el modelo neuronal “McCulloch & Pitts”.

1949 Hebb publica su libro “La organización del comportamiento”, en el cualse propone la regla Hebbiana de aprendizaje.

1958 Rosenblatt introduce las redes de una sola capa hoy llamadas “Percep-trones”.

1960 Widrow y Hoff diseñan el algoritmo LMS (regla delta) para filtros adap-tativos.

1969 El libro “Perceptrons” de Marvin Minsky y Seymour Papert demuestralas limitaciones de ANNs de una capa basadas en perceptrones, y prác-ticamente la disciplina entera queda postergada.

1982 Hopfield publica una serie de trabajos sobre las redes de Hopfield.

1982 Kohonen desarrolla los mapas auto-organizativos que hoy llevan su nom-bre.

1986 El algoritmo de aprendizaje para perceptrones multicapa capas “Back-propagation” es redescubierto y la disciplina vuelve a surgir.

1990 El subcampo de las “redes de funciones de base radial” se desarrolla.

2000s La potencia de los conjuntos de redes neuronales y las “Support VectorMachines” se vuelve notable.

Tabla 1.1: Hechos significativos de la historia de las redes neuronales.

neuronales se han establecido como un tema interdisciplinario, con profundas raíces en lasneurociencias, psicología, matemáticas, ciencias físicas e ingeniería. La Tabla 1.1 muestrade manera resumida la evolución histórica de las redes neuronales desde 1943 hasta elpresente.

Capítulo 2

Variable selection in multidimensional regressionproblems using the Delta Test

This chapter contains the work developed as an invited researcher in the Information andComputer Science (CIS) laboratory of Helsinki University of Technology (HUT), Finland,under the supervision of Prof. Amaury Lendasse, head of the Time Series Prediction andChemo-Informatics group (TSP-CI). The methodologies explained in this chapter divergefrom the main topic dealt with in this Thesis so far. Instead of focusing on buildingaccurate models based on the optimization of supervised learning entities, such as neuralnetworks, we are going to focus on the often underestimated preprocessing of datasets,specifically by choosing which are the variables that most significantly affect the outcomeof the learning models. We will see that variable selection is very convenient especiallywhen the number of variables that a problem involves is relatively large, allowing modelcomplexity reduction and improved interpretability.

2.1 Preprocessing and feature extraction

In real life modeling problems, rather than representing the entire transformation fromthe set of input variables [x1, . . . , xd] to the set of output variables [y1, . . . , yn] by a

model (like an ANN can be), there is often great benefit in breaking down the mappinginto an initial preprocessing stage, followed by the parametrized machine learning modelitself.

The reduction in the number of input variables is a form of preprocessing which isgenerally called feature extraction. The distinction between the preprocessing stage andthe ANN is not always clear, but often the preprocessing can be regarded as a fixedtransformation of the variables, while the network itself contains adaptive parameterswhose values are set as part of the training process. The use of preprocessing can oftengreatly improve the performance of both regression and classification problems.

In some cases there is inherent information in the data considered, such as lineardependencies, translation or invariance, which are examples of prior knowledge, that is,information that we possess about the desired form of the solution which is additional tothe information provided by the training data [32]. The inclusion of prior knowledge intothe design of a machine learning system can improve its performance dramatically, andthe use of preprocessing is one important way of achieving this.

43

44 CAPÍTULO 2. VARIABLE SELECTION USING THE DELTA TEST

Pre-processing Post-processingModel

x x' y' y

Figure 2.1: Block diagram of a modeling scheme that includes preprocessing and post-processing.

The objective of variable selection is three-fold: improving the prediction performanceof the predictors, providing faster and more cost-effective predictors, and providing abetter understanding of the underlying process that generated the data.

2.2 Preprocessing and postprocessing

In Chapter 1 of the present Thesis we introduced ANNs as models that perform a non-linear mapping from a set of input variables to a set of output variables. We have seen thata feedforward neural network can in principle represent an arbitrary functional mappingbetween spaces of many dimensions, and so it would appear that we could use a singlenetwork to map the raw input data directly onto the required output variables. In prac-tice it is nearly always advantageous to apply preprocessing transformations to the inputdata before it is presented to a network. Similarly, the outputs of the network are oftenpostprocessed to give the required output values. These steps are represented in Figure2.1. The preprocessing and postprocessing steps may consist of simple fixed transforma-tions determined by hand, or they may themselves involve some adaptive processes whichare driven by the data. For practical applications, data preprocessing is often one of themost important stages in the development of a solution, and the choice of preprocessingsteps can often have a significant effect on generalization performance [32].

Since the training of the neural network may involve an iterative algorithm, it willgenerally be convenient to process the whole training set using the preprocessing trans-formations, and then use this transformed dataset to train the network. With applica-tions involving on-line learning, each new data point must first be preprocessed beforeit is passed to the network. If postprocessing of the network outputs is used, then thetarget data must be transformed using the inverse of the postprocessing transformationin order to generate the target values for the network outputs. When subsequent datais processed by the trained network, it must first be passed through the preprocessingstage, then through the network, and finally through the postprocessing transformation.A simple example of preprocessing and postprocessing is the data normalization that isperformed before introducing data to an ANN to adapt their range to the activationfunctions, and the necessary de-normalization phase to obtain the actual values of theoutputs.

2.3 The curse of dimensionality

There is another important reason why preprocessing can have a deep effect on the perfor-mance of a machine learning system. When a dataset contains a large number of variables

2.3. THE CURSE OF DIMENSIONALITY 45

and/or a low number of samples, the so called curse of dimensionality can be an importantfactor. The curse of dimensionality [27, 354] refers to the exponential growth of hyper-volume as a function of dimensionality. In the field of ANNs, the curse of dimensionalityexpresses itself in two related problems:

1. Many ANNs can be thought of mappings from an input space to an output space.Thus, loosely speaking, an ANN needs to somehow “monitor”, cover or representevery part of its input space in order to know how that part of the space should bemapped. Covering the input space takes resources, and, in the most general case,the amount of resources needed is proportional to the hypervolume of the inputspace. The exact formulation of “resources” and “part of the input space” dependson the type of network and should probably be based on the concepts of informationtheory and differential geometry.

As an example, one could think of a vector quantization (VQ). In VQ, a set ofunits competitively learn to represent an input space (like Kohonen’s SOMs butwithout topography for the units). Imagine a VQ trying to share its units (resources)more or less equally over hyperspherical input space. One could argue that theaverage distance from a random point of the space to the nearest network unitmeasures the goodness of the representation: the shorter the distance, the betteris the representation of the data in the sphere. It is intuitively clear (and can beexperimentally verified) that the total number of units required to keep the averagedistance constant increases exponentially with the dimensionality of the sphere (ifthe radius of the sphere is fixed).

The curse of dimensionality causes networks with lots of irrelevant inputs to behaverelatively badly: the dimension of the input space is high, and the network usesalmost all its resources to represent irrelevant portions of the space.

Unsupervised learning algorithms are typically prone to this problem, as well asconventional RBFs. A partial remedy is to preprocess the input in the right way,for example by selecting or scaling the components according to their “importance”.In many problems, reducing the number of input variables can sometimes lead toimproved performance for a given dataset, even though information is being dis-carded. The fixed quantity of data is better able to specify the mapping in thelower-dimensional space, and this more than compensates for the loss of informa-tion [32].

2. Even if we have a network algorithm which is able to focus on important portionsof the input space, the higher the dimensionality of the input space, the more datamay be needed to find out what is important and what is not. Thus, a reductionin the number of variables can compensate a dataset that is limited by number ofavailable samples, regardless of the learning model that is being employed. Besides,interpretability has to be taken into account. Understanding complex models (withtoo many inputs) is more difficult than understanding simple models (with lessinputs), which can provide comparably good performances.

A priori information can help with the curse of dimensionality. Careful feature selec-tion and scaling of the inputs fundamentally affects the severity of the problem, as well


as the selection of the ANN model. For classification purposes, only the borders of theclasses are important to represent accurately.

A network with fewer inputs has fewer adaptive parameters to be determined, andthese are more likely to be properly constrained by a dataset of limited size, leading to anetwork with better generalization properties. In addition, a network with fewer weightsmay be faster to train.

2.4 Variable selection techniques

In this Section we will present an overview of the existing techniques that can be used forvariable selection.

2.4.1 Wrapper, filter and embedded methods

In general, variable selection methods can be classified in three groups [136]:

• Wrapper methods utilize the learning machine of interest as a black box to scoresubsets of variables according to their predictive power.

• Filter methods select subsets of variables as a preprocessing step, independentlyof the chosen predictor.

• Embedded methods perform variable selection in the process of training and areusually specific to given learning machines.

The wrapper methodology, recently popularized by Kohavi and John [180], offers asimple and powerful way to address the problem of variable selection, regardless of thechosen learning machine. In its most general formulation, the wrapper methodologyconsists in using the prediction performance of a given learning machine to assess therelative usefulness of subsets of variables. In practice, one needs to define: (i) how to searchthe space of all possible variable subsets; (ii) how to assess the prediction performance ofa learning machine to guide the search and halt it; and (iii) which predictor to use.

An exhaustive search can be performed if the number of variables is not too large. Nev-ertheless, the search becomes computationally intractable with high-dimensional prob-lems. A wide range of search strategies can be used, including best-first, branch-and-bound, simulated annealing, genetic algorithms, etc. Greedy search strategies seem tobe particularly computationally advantageous and robust against overfitting. They comein several flavors: forward selection, backward elimination, or a mixture of those, calledforward-backward selection. These methods build the so-called nested subsets of variables.Performance assessments are usually done using a validation set or by cross-validation.

By using the learning machine as a black box, wrappers are remarkably universal andsimple. But embedded methods that incorporate variable selection as part of the trainingprocess may be more efficient in several respects: they make better use of the availabledata by not needing to split the training data into a training and validation set; theyreach a solution faster by avoiding retraining a predictor from scratch for every variablesubset investigated.

2.4. VARIABLE SELECTION TECHNIQUES 47

Some embedded methods guide their search by estimating changes in the objectivefunction value incurred by making moves in variable subset space. Combined with greedysearch strategies (backward elimination or forward selection) they yield nested subsets ofvariables.

Filter methods are independent of the choice of the predictor. It is argued that, com-pared to wrappers, they are faster. Still, recently proposed efficient embedded methodsare competitive in that respect. Another argument is that some filters (e.g. those basedon mutual information criteria) provide a generic selection of variables, not tuned for/bya given learning machine. Another compelling justification is that filtering can be usedas a preprocessing step to reduce space dimensionality and overcome overfitting.

A summarized comparative scheme between filter and wrapper techniques is illustratedin Figure 2.2.

All features

Feature subsetselection

Learningalgorithm

Performance

Optimal featuresubset

All features

Feature subsetgeneration

Learningalgorithm

Performance

Optimal featuresubset

Features Evaluation

(a) (b)

Figure 2.2: Schematic view of the (a) filter and (b) wrapper techniques for optimal featureselection.

2.4.2 Variable selection methods and input space transformations

Before trying to train a learning model it is often convenient to perform some transfor-mation of the input data so that domain knowledge can be incorporated to the model.This domain knowledge can be used to enhance the prediction capabilities of the modeland to improve interpretability as well.

In the literature one can find a wide variety of generic feature construction methods,including: clustering, basic linear transforms of the input variables, more sophisticatedlinear transforms like spectral transforms (Fourier, Hadamard), wavelet transforms orconvolutions of kernels; and applying simple functions to subsets of variables, like productsto create monomials. Here we are going to review some of the most typical.


2.4.2.1 Clustering

Clustering has long been used for feature construction. The idea is to replace a group of“similar” variables by a cluster centroid, which becomes a feature. The most popular algo-rithms include k-means and hierarchical clustering [94]. Clustering is usually associatedwith unsupervised learning, often for text processing applications.

2.4.2.2 Principal Component Analysis

Principal Component Analysis (PCA) is a very well known linear method for variableconstruction. PCA attempts to provide a set of orthogonal axes along which the (possiblycorrelated) data can be projected, allowing maximum data decorrelation, in order toaccount for most of the data with just the first few axes in the new space. PCA isreadily performed by solving an Eigenvalue problem, or by using iterative algorithmswhich estimate principal components [167].

Given a set of M centered observations xk, k = 1, . . . ,M,xk ∈ RN (centered meaning

that∑M

k=1 xk = 0), PCA diagonalizes the covariance matrix1

C =1

M

M∑

j=1

xjx⊤j . (2.1)

To do this, one has to solve the eigenvalue equation

λv = Cv. (2.2)

The values of the eigenvalues λ and, consequently, the values of eigenvectors v can befound, for example, by finding the solutions of the characteristic equation

|C − λI| = 0. (2.3)

where I is the identity matrix. Once the solutions have been found, we may representthe data in terms of only a few basis vectors of the orthogonal basis. Suppose one has avector population x of which the sample mean µx and the covariance matrix C have beencalculated. If we denote the matrix having the k first eigenvectors as rows by Vk, we cancreate a transformation

x′ = Vk(x − µx) , (2.4)

which is a point in the orthogonal coordinate system defined by the eigenvectors. Com-ponents of x′ can be seen as the coordinates in the orthogonal base. We can reconstructthe original data vector x from x′ by

x = V Tk x′ + µx . (2.5)

This means that we project the original data vector on the coordinate axes havingthe dimension k and transforming the vector back by a linear combination of the basisvectors. This minimizes the MSE between the data and this representation with givennumber of eigenvectors.

1More precisely, the covariance matrix is defined as the expectation of xx⊤.


2.4.2.3 Kernel-based Principal Component Analysis

Kernel PCA (k-PCA) [305] is a nonlinear generalization of PCA in the sense that if weuse the kernel k(x,y) = x · y we recover original PCA. To get nonlinear forms of PCAwe simply choose a nonlinear kernel. Moreover, k-PCA is a generalization of PCA in therespect that it is performing PCA in feature spaces of arbitrarily large (possibly infinite)dimension.

To understand the utility of k-PCA, particularly for clustering, observe that, whileN points cannot in general be linearly separated in d < N dimensions, but can almostalways be linearly separated in d ≥ N dimensions. That is, if we have N points, xi,i ∈ [1, N ] if we can map them to an N -dimensional space with

Φ(xi) = δij where Φ : Rd → R

N and δij is the Kronecker delta (2.6)

it is easy to construct a hyperplane that divides the points into arbitrary clusters. Ofcourse, this Φ creates linearly independent vectors, so there is no covariance. In k-PCA,a non-trivial Φ function is chosen so that the points Φ(xi) are not independent in R

N .And instead of choosing Φ explicitly, we choose

K = k(x,y) = (Φ(x),Φ(y)). (2.7)

where K is the Gramian matrix in the high-dimensional space.Kernel PCA allows us to operate in such a space without explicitly mapping the data

into the high-dimensional space. Because PCA can be cast as an optimization problemin terms of inner products with the transposed data matrix, we can write

v1 = arg max‖v‖=1

varv⊤x = arg max‖v‖=1

E

(

v⊤x)2

, etc. (2.8)

we just need to compute inner products in the high-dimensional space. This is the purposeof the kernel.

k-PCA has the main advantage that no nonlinear optimization is involved. It isessentially linear algebra as simple as standard PCA. In addition, we need not specifythe number of components that we want to extract in advance. Compared to neuralapproaches2, k-PCA could be disadvantageous if we need to process a very large numberof observations, as this results in a large matrix K. Compared to principal curves [143], k-PCA is so far harder to interpret in input space; however, at least for polynomial kernels,it has a very clear interpretation in terms of higher-order features, as compared to mostneural network type generalizations of PCA [260].

2.4.2.4 Partial Least Squares regression

Partial least squares regression (PLS regression) is a statistical method that bears somerelation to principal components regression; instead of finding hyperplanes of maximumvariance between the response and independent variables, it finds a linear model by pro-jecting the predicted variables and the observable variables to a new space. Because both

2Feedforward ANNs whose hidden layer size is smaller than the input can be trained to reproducethe input values as outputs (i.e. be used in an autoassociative mode). Then, the hidden unit activationsform a lower dimensional representation of the data, closely related to PCA [91].


the X and Y data are projected to new spaces, the PLS family of methods are known asbilinear factor models.

It is used to find the fundamental relations between two matrices (X and Y ), i.e. alatent variable approach to modeling the covariance structures in these two spaces. APLS model will try to find the multidimensional direction in the X space that explainsthe maximum multidimensional variance direction in the Y space. PLS regression isparticularly suited when the matrix of predictors has more variables than observations,and when there is multicolinearity among X values. By contrast, standard regression willfail in these cases.

PLS regression is an important step in PLS path modeling, a multivariate data analysistechnique that employs latent variables. This technique is often referred to as a form ofvariance-based or component-based structural equation modeling.

In case of single response y and p predictors, PLS regression model with h (h ≤ p)latent variables can be expressed as follows [100, 120].

X = TPt + E

y = Tb + f .(2.9)

In Equation 2.9, X(n×p), T(n×h), P(p×h), y(n×1), and b(h×1) are respectivelyused for predictors, X scores, X loadings, a response, and regression coefficients of T. Thek-th element of column vector b explains the relation between y and tk, the k-th columnvector of T. Meanwhile, E(n × p) and f(n × 1) stand for random errors of X and y,respectively. Generally, by using the Nonlinear Iterative Partial Least Squares (NIPALS)algorithm, a weight matrix W(p× h) is obtained to make ‖f‖ (Euclidean norm) as smallas possible and, at the same time, to derive a useful relation between X and y.

Several variable selection methods make use of PLS regression, like PLS-VIP [362] andPLS-BETA [149].

2.4.2.5 Canonical Correlation Analysis

Canonical Correlation Analysis (CCA) seeks to identify and quantify the associations be-tween two sets of variables. It searches for linear combinations of the original variableshaving maximal correlation. Further pairs of maximally correlated linear combinationsare chosen such that they are orthogonal to those already identified. The pairs of linearcombinations are called canonical variables and their correlations the canonical correla-tions. The canonical correlations measure the strength of association between the twosets of variables. CCA is closely related to other linear subspace methods like PrincipalComponent Analysis, Partial Least Squares and Multivariate Linear Regression.

Mathematically, we can decompose a matrix of data Z(N×m) in two sets of variables,X and Y

Z = [X|Y ]

X : N × p

Y : N × q(2.10)

We can express linear combinations of the variables Xi and Yi as


u = aTX =∑p

i=1 aiXi

v = bTY =∑q

i=1 biYi .(2.11)

CCA is the solution of the optimization problem:

maximizea,b

ρ = corr(u, v) =cov(u, v)

√

var(u)var(v)

subject to var(u) = var(v) = 1 .

(2.12)

The maximum value of ρ is the first canonical correlation. The canonical variates uα,vβ are defined by:

(α, β) = arg maxa,b

|corr(aTX,bTY )| . (2.13)

First we decompose cov(Z):

cov(Z) = Z⊤Z ≡ RZ =

(

RXX RXY

RY X RY Y

)

. (2.14)

Solving the optimization problem by Lagrange method leads to an eigenvalue equation:

B−1Aw = ρw

A =

(

0 RXY

RY X 0

)

B =

(

RXX 0

0 RY Y

)

w =

(

aT

bT

)

.

(2.15)

In order to deal with more than two sets, several approaches arise. The first one is tomaximize the sum of all pairwise correlations. Another option is to use kernels: combiningseveral datasets by summing up kernel matrices.

2.4.2.6 Kernel-based Canonical Correlation Analysis

Thanks to the kernel trick3, CCA can be formulated in terms of kernel functions.The starting point of kernel CCA (k-CCA) is to map the data-cases to feature vectors

Φ(xi) and Ψ(yi). When the dimensionality of the space is larger than the number ofdata-cases in the training-set, then the solution must lie in the span of data-cases, i.e.

a =∑

i

αiΦ(xi), b =∑

i

βiΨ(yi) . (2.16)

Then we construct the Lagrangian

L = αTKxKyβ − 1

2λ(αTKx

2α −N) − 1

2λ(βTKy

2β −N) (2.17)

3Given an algorithm which is formulated in terms of an inner product, one can construct an alternativealgorithm by replacing the inner product by a kernel function k.


where α is a vector in a different N -dimensional space than e.g. a which lives in a D-dimensional space, and Kx =

∑

i Φ(xi)TΦ(xi), Ky =

∑

i Φ(yi)TΦ(yi). Taking derivatives

w.r.t α and β we find

KxKyβ = λKx2α (2.18)

KxKyα = λKy2β (2.19)

One can solve these equations by assuming that Kx is full rank (which is typically thecase), obtaining α = λ−1Kyβ and hence, Ky

2β = λ2Ky2β, which always has a solution

for λ = 1. By recalling that,

ρ =1

N

∑

i

aTSxyb =1

N

∑

i

λaTSxa = λ . (2.20)

This represents the solution with maximal correlation, and hence the preferred one.Regularization can be performed to prevent overfitting. This is done by adding a diagonalterm to the constraints

L = αTKxKyβ − 1

2λ(αTKx

2α + η‖α‖2 −N) − 1

2λ(βTKy

2β + η‖β‖2 −N) . (2.21)

This regularization term acts as a quadratic penalty on the norm of α and β. Theresulting equations are

KxKyβ = λ(Kx2 + ηI)α (2.22)

KyKxα = λ(Ky2 + ηI)β (2.23)

In the same way we formulated the primal problem, we can solve the eigenvalue equa-tion

B−1Aγ = ργ

A =

(

0 KxKy

KyKx 0

)

B =

(

KxKx 0

0 KyKy

)

γ =

(

αT

βT

)

.

(2.24)

2.4.2.7 Independent component analysis

Independent component analysis (ICA) is a computational method for separating a multi-variate signal into additive subcomponents supposing the mutual statistical independenceof the non-Gaussian source signals. It is a special case of blind source separation.

The statistical method finds the independent components (aka factors, latent variablesor sources) by maximizing the statistical independence of the estimated components.Non-Gaussianity, motivated by the central limit theorem, is one method for measuringthe independence of the components. Non-Gaussianity can be measured, for instance, bykurtosis or approximations of negentropy. Mutual information is another popular criterionfor measuring statistical independence of signals.


Typical algorithms for ICA use centering, whitening (usually with the eigenvalue de-composition), and dimensionality reduction as preprocessing steps in order to simplifyand reduce the complexity of the problem for the actual iterative algorithm. Whiteningand dimension reduction can be achieved with principal component analysis or singularvalue decomposition. Whitening ensures that all dimensions are treated equally a prioribefore the algorithm is run. Algorithms for ICA include infomax, FastICA and JADE.

For the explanation of the general definition of ICA, let us suppose the data is repre-sented by the random vector x = (x1, . . . , xM ) and the components as the random vectors = (s1, . . . , sN). The task of ICA is to transform the observed data x, using a linearstatic transformation W as

s = Wx , (2.25)

into maximally independent components s measured by some function F (s1, . . . , sN) ofindependence.

2.4.2.8 Factor analysis

Factor analysis [130] is a statistical method used to describe variability among observedvariables in terms of fewer unobserved variables called factors. The observed variablesare modeled as linear combinations of the factors, plus error terms. The informationgained about the interdependencies can be used later to reduce the set of variables in adataset. Factor analysis originated in psychometrics, and is used in behavioral sciences,social sciences, marketing, product management, operations research, and other appliedsciences that deal with large quantities of data.

Factor analysis is related to principal component analysis (PCA) but is not identical.Because PCA performs a variance-maximizing rotation of the variable space, it takes intoaccount all variability in the variables. In contrast, factor analysis estimates how muchof the variability is due to common factors (“communality”). The two methods becomeessentially equivalent if the error terms in the factor analysis model (the variability notexplained by common factors, see below) can be assumed to all have the same variance.

Suppose we have a set of p observable random variables, x1, . . . , xp with means µ1, . . . , µp.Suppose for some unknown constants lij and k unobserved random variables Fj , where

i ∈ 1, . . . , p and j ∈ 1, . . . , k, where k < p, we have

xi − µi = li1F1 + . . .+ likFk + ǫi. (2.26)

Here ǫi is independently distributed error terms with zero mean and finite variance,which may not be the same for all of them. Let var(ǫi) = ψi, so that we have

cov(ǫ) = Diag(ψ1, . . . , ψp) = Ψ and E(ǫ) = 0 . (2.27)

In matrix terms, we have

x− µ = LF + ǫ . (2.28)

Also we will impose the following assumptions on F.

1. F and ǫ are independent.


2. E(F ) = 0

3. cov(F ) = I

Any solution for the above set of equations following the constraints for F is definedas the factors, and L as the loading matrix.

Suppose cov(x) = Σ. Then note that from the conditions just imposed on F , we have

cov(x− µ) = cov(LF + ǫ), or

Σ = Lcov(F )LT + cov(ǫ), or

Σ = LLT + Ψ

(2.29)

Note that for any orthogonal matrix Q if we set L = LQ and F = QTF , the criteriafor being factors and factor loadings still hold. Hence a set of factors and factor loadingsis identical only up to orthogonal transformations.

2.4.2.9 Multifactor dimensionality reduction

Multifactor dimensionality reduction (MDR) is a data mining approach for detecting andcharacterizing combinations of attributes or independent variables that interact to influ-ence a dependent or class variable. MDR was designed specifically to identify interactionsamong discrete variables that influence a binary outcome and is considered a nonpara-metric alternative to traditional statistical methods such as logistic regression.

The basis of the MDR method is a constructive induction algorithm that convertstwo or more variables or attributes to a single attribute. This process of constructing anew attribute changes the representation space of the data. The end goal is to createor discover a representation that facilitates the detection of nonlinear or nonadditiveinteractions among the attributes such that prediction of the class variable is improvedover that of the original representation of the data.

2.4.2.10 Principal curves

Principal curves and manifolds give the natural geometric framework for nonlinear di-mensionality reduction and extend the geometric interpretation of PCA by explicitly con-structing an embedded manifold, and by encoding using standard geometric projectiononto the manifold. How to define the “simplicity” of the manifold is problem-dependent,however, it is commonly measured by the intrinsic dimensionality and/or the smoothnessof the manifold [129].

2.4.2.11 Gaussian process latent variable models

Gaussian process latent variable models (GPLVM) are a probabilistic non-linear PCA.Like kernel PCA they use a kernel function to form the mapping (in the form of a Gaussianprocess). However in the GPLVM the mapping is from the embedded space to the dataspace (like density networks and generative topographic mappings) whereas in kernel PCAit is in the opposite direction.


2.4.2.12 Locally Linear Embedding

Locally Linear Embedding (LLE) [298] constructs a low-dimensional data representationusing a cost function that retains local properties of the data (actually this techniquecan be viewed upon as defining a graph-based kernel for Kernel PCA). In this way, it iscapable of unfolding datasets such as the Swiss roll. Techniques that employ neighborhoodgraphs in order to retain global properties of the data include Isomap [337] and MaximumVariance Unfolding.

2.4.2.13 Least absolute shrinkage and selection operator (Lasso)

The Lasso method [339] is a constrained version of ordinary least squares (OLS). It minimi-zes the residual sum of squares subject to the sum of the absolute value of the coefficientsbeing less than a constant s. In view of shrinking the regression coefficients by imposinga penalty on their size, the Lasso is similar in spirit to Ridge regression. If the data arestandardized to have mean 0, the Lasso estimate is defined by Equation 2.30. The tuningparameter, s ≥ 0, can be determined by the cross-validation. Because of the nature ofthe constraint it tends to produce some coefficients as zero and it may improve the over-all prediction accuracy by sacrificing a little bias to reduce the variance of the predictedvalues.

βlasso = arg minβ

(y −Xβ)T (y − Xβ)

subject to∑p

j=1 |βj | ≤ s .(2.30)

Although the solution to Equation 2.30 can be obtained by the standard quadraticprogramming with linear inequality constraints, the use of Least Angle Regression (LARS)algorithm reduces the computation burden.

2.4.2.14 Least Angle Regression

Least Angle Regression (LARS) [96] is related to forward selection and forward-backwardselection (see Section 2.6.1), and can be used for the Lasso estimate. Given a collection ofpossible predictors, we select the one having largest absolute correlation with the desiredresponse y, say xj1, and perform simple linear regression of y on xj1. This leaves aresidual vector orthogonal to xj1, now considered to be the response. We project theother predictors orthogonally to xj1 and repeat the selection process, choosing the secondmost correlated, along the so-called “least angle direction”. The process continues untilall variables have entered the model. After k steps this results in a set of predictorsxj1, xj2, . . . , xjk that are then used in the usual way to construct a k-parameter linearmodel.

To explain the algorithm, let X = (x1, x2, . . . , xm) be n vectors representing the co-variates. We will assume that the covariates have been standardized to have mean 0and unit length, and that the response has mean 0. A candidate vector of regressioncoefficients β = (β1, β2, . . . , βm) gives a prediction vector µ. LARS builds up estimatesµ = Xβ in successive steps, each step adding one covariate to the model, so that afterk steps just k of the βj’s are non-zero. A geometrical representation of the method withm = 2 covariates, X = (x1, x2), can be observed in Figure 2.3. In this case the current


correlations depend only on the projection y2 of y into the linear space L(X) spanned byx1 and x2. Beginning at µ0 = 0, the residual vector y2− µ0 has grater correlation with x1

than x2; hence, the next LARS estimate is µ1 = µ0 + γ1x1, where γ1 is chosen such thaty2 − µ1 bisects the angle between x1 and x2; then µ2 = µ1 + γ2u2, where u2 is the unitbisector; µ2 = y2 in the case m = 2, but not for m > 2. The staircase indicates a typicalstagewise path, in which steps are taken in alternate directions. Subsequent LARS steps,beyond 2 covariates, are taken along equiangular vectors (see [96] for details).

Figure 2.3: LARS algorithm for m = 2 covariates.

The entire sequence of steps in the LARS algorithm with m < n variables, where nis the number of observations, requires O(m3 + nm2) computations (the cost of a leastsquares fit on m variables). The LARS algorithm works gracefully for the case wherethere are many more variables than observations (m >> n).

2.4.2.15 Validation methods

The optimal number of principal components can be chosen by a validation statistic, likecross-validation or leave-one-out (LOO). Suppose that the models will be measuring theroot-mean-squared error of prediction (RMSEP) statistic, given by

RMSEP =

√

∑Ni=1(yi − yi)2

N(2.31)

where N is the number of test samples, yi are the measured outputs and yi are thepredicted outputs. As N gets large, the RMSEP will approach the prediction error of allfuture samples.

On the other hand, the selection of the number of components is important becausethe model should describe the significant sources of variance but not overfit the data.Several schemes have been proposed for model selection given the RMSEP at differentcomponents. The simplest criterion is to choose the number of components correspondingto the first minimum in a curve that represents number of components vs RMSEP. Furthertheories have been developed beyond this, because since the RMSEP is calculated witha finite number of samples, there is an error associated with it. Therefore, some criteria


like the Predictive Residual Error Sum of Squares (PRESS), which uses the variance termfrom RMSEP, can be applied. PRESS is defined by

PRESS =

N∑

i=1

(yi − yi)2. (2.32)

First, one has to compute

F (nc) =PRESS(nc)

PRESS(n∗c)

(2.33)

where nc is the number of components and n∗c is the number of components that produces

minimum PRESS. This statistic indicates if the two PRESS values are significantly dif-ferent. The optimal number of components is the smallest value of nc that has a PRESSwhich is not significantly different from PRESS(n∗

c).

2.4.2.16 Singular Value Decomposition

Another widely used method of feature construction is singular value decomposition(SVD). The goal of SVD is to form a set of features that are linear combinations ofthe original variables, which provide the best possible reconstruction of the original datain the least square sense [94]. It is an unsupervised method of feature construction.

Suppose M is an m-by-n matrix whose entries come from the field K, which is eitherthe field of real numbers or the field of complex numbers. Then there exists a factorizationof the form

M = UΣV ∗, (2.34)

where U is an m-by-m unitary matrix over K, the matrix Σ is m-by-n diagonal matrixwith nonnegative real numbers on the diagonal, and V ∗ denotes the conjugate transposeof V , an n-by-n unitary matrix over K. Such a factorization is called a singular-valuedecomposition of M .

A common convention is to order the diagonal entries Σi,i in non-increasing fashion.In this case, the diagonal matrix Σ is uniquely determined by M (though the matrices Uand V are not). The diagonal entries of Σ are known as the singular values of M .

Intuitively, we can state that

• The columns of V form a set of orthonormal “input” or “analyzing” basis vectordirections for M (the eigenvectors of M∗M .).

• The columns of U form a set of orthonormal “output” basis vector directions for M(the eigenvectors of MM∗).

• The diagonal values in matrix Σ are the singular values, which can be thought ofas scalar “gain controls” by which each corresponding input is multiplied to give acorresponding output (these are the square roots of the eigenvalues that correspondwith the same columns in U and V ).


2.4.2.17 Nested subset methods

A number of learning machines extract features as part of the learning process. Theseinclude neural networks whose internal nodes are feature extractors. Thus, node pruningtechniques such as OBD [187] are feature selection algorithms.

2.4.2.18 Filters

Torkkola [340] proposes a filter method for constructing features using a mutual informa-tion criterion. The author maximizes MI(φ,y) for m dimensional feature vectors φ andtarget vectors y. Modeling the feature density function with Parzen windows allows himto compute derivatives ∂MI/∂φi that are transform independent. Combining them withthe transform-dependent derivatives ∂φi/∂w, he devises a gradient descent algorithm tooptimize the parameters w of the transform (that need not be linear):

wt+1 = wt + η∂MI

∂w= wt + η

∂MI

∂φi

∂φi∂w

. (2.35)

2.4.2.19 Automatic Relevance Determination

Automatic Relevance Determination (ARD) [207, 254] is a hierarchical Bayesian approachwhere there are hyperparameters which explicitly represent the relevance of different in-put features. These relevance hyperparameters determine the range of variation for theparameters relating to a particular input, usually by modeling the width of a zero-meanGaussian prior on those parameters. If the width of that Gaussian is zero, then thoseparameters are constrained to be zero, and the corresponding input cannot have any effecton the predictions, therefore making it irrelevant. ARD optimizes these hyperparametersto discover which inputs are relevant.

ARD optimizes the model evidence, also known as the marginal likelihood, which isthe classic criterion used for Bayesian model selection.

Suppose a linear classifier that classifies a point x according to t = sign(wTx) forsome parameter vector w (the two classes are t = ±1). Given a training set D =(x1, t1), . . . , (xN , tN ), the likelihood for w can be written as

p(t|w, X) =∏

i

p(ti|xi,w) =∏

i

Ψ(tiwTφ(xi)) (2.36)

where t = tiNi=1, X = xiNi=1 and Ψ(·) is the cumulative distribution function for aGaussian. One can also use the step function or logistic function as Ψ(·). The basisfunction φT (xi) allows the classification boundary to be nonlinear in the original features.This is the same likelihood used in logistic regression and in Gaussian process classifiers.Given a new input xN+1, we approximate the predictive distribution:

p(tN+1|xN+1, t) =

∫

p(tN+1|xN+1,w)p(w|t)dw ≈ p(tN+1|xN+1, 〈w〉) (2.37)

where 〈w〉 denotes the posterior mean of the weights, called the Bayes Point [150].The basic idea in ARD is to give the feature weights independent Gaussian priors:

2.5. INPUT SELECTION CRITERIA 59

p(w|α) =∏

i

N (wi|0, α−1i ) , (2.38)

where α = αi is a hyperparameter vector that controls how far away from zero eachweight is allowed to go. The hyperparameters α are trained from the data by maximizingthe Bayesian “evidence” p(t|α), which can be done using a fixed point algorithm or anEM algorithm treating w as a hidden variable [207]. The outcome of this optimizationis that many elements of α go to infinity such that w would have only a few nonzeroweights wj. This naturally prunes irrelevant features in the data.

2.5 Input selection criteria

This section introduces three different input selection criteria [317]: k-nearest neighborsbased input selection (k-NN), mutual information (MI) and nonparametric noise estima-tion (NNE). The optimal set of inputs to choose is the one that optimizes one of the threecriteria. More precisely, the optimization of each criterion consists in the following:

• minimization of the k-NN LOO generalization error estimate,

• maximization of the MI between the inputs and the output, and

• minimization of the NNE.

2.5.1 k-Nearest neighbors

The k-NN approximation method is very simple and powerful. It has been used in manydifferent applications, particularly for classification tasks [32]. The key idea behind thek-NN is that samples with similar inputs have similar output values. Nearest neighborsare selected, according to Euclidean distance, and their corresponding output values areused to obtain the approximation of the desired output. The estimation of the output isusually calculated simply by averaging the outputs of the nearest neighbors:

yi =

∑kj=1 yj(i)

k, (2.39)

where yi represents the estimate (approximation) of the output, yj(i) is the output ofthe j-th nearest neighbor of sample xi and k denotes the number of neighbors used.The distances between samples are influenced by the input selection. Then, the nearestneighbors and the approximation of the outputs depend on the input selection.

The k-NN method is nonparametric, and only the value of k needs to be determined.The selection of k can be performed by many different model structure selection tech-niques, for example k-fold cross-validation [179], LOO [179], Bootstrap [97] and Bootstrap632 [98]. These methods estimate the generalization error obtained for each value of k.The selected k is the one that minimizes the generalization error.

It has been shown [318] that all methods (i.e. the LOO and Bootstraps) select thesame input sets, yet the number of neighbors is more efficiently selected by the Bootstraps.


2.5.2 Mutual information

The interpretation of MI comes from the basics of information theory. MI can be usedto evaluate the dependencies between random variables. The MI between two variables,say, X and Y , is the amount of information obtained from X in the presence of Y andvice versa. In a multivariate scenario, the MI between a set of input variables X andan output variable Y is one criterion for measuring the dependence between inputs andoutput. Thus, the inputs subset Xs ⊂ X, which yields maximum MI, is chosen to be thebest predictor of the output Y .

The definition of MI originates from the entropy in the information theory. For con-tinuous random variables (scalar or vector), let µX,Y , µX and µY represent the jointprobability density function and the two marginal density functions of the variables. Theentropy of X is defined by Shannon [23] as

H(X) = −∫ ∞

−∞

µX(x) lnµX(x) dx , (2.40)

where ln is the natural logarithm and then, the information is measured in natural units.The remaining uncertainty of X is measured by the conditional entropy as

H(X|Y ) = −∫ ∞

−∞

µY ×∫ ∞

−∞

µX(x|Y = y) lnµX(x|Y = y) dxdy. (2.41)

The joint entropy is defined as

H(X, Y ) = −∫ ∞

−∞

µX,Y (x, y) lnµX,Y (x, y) dxdy. (2.42)

The MI between variables X and Y is defined as [70]

MI(X, Y ) = H(Y ) −H(Y,X) = H(X) +H(Y ) −H(X, Y ). (2.43)

From Equations 2.40 to 2.43, MI is computed as

MI(X, Y ) =

∫ ∞

−∞

µX,Y (x, y) lnµX,Y (x, y)

µX(x)µY (y)dxdy. (2.44)

Thus, for the computation of the MI, only the estimations of the probability densityfunctions µX,Y , µX and µY are required.

A simple way of estimating the MI consists in using a k-NN approach [184]. Thenovelty of this approach resides in its ability to estimate the MI between two variables ofany dimensional space.

Combining the MI criterion with a local search strategy offers a good trade-off betweenoptimality of the selected feature subset and computation time [110].

Many applications of MI to variable selection have been reported in the literature[23, 110, 141, 272, 290, 297, 367].

2.5.3 Nonparametric noise estimation

The NNE method selects the best features based only on the dataset. Thus, it is notnecessary to build a regression model in order to find the best input variables. Model

2.5. INPUT SELECTION CRITERIA 61

independent approaches select a set of features by optimizing a criterion over differentcombinations of inputs. The criterion computes the dependences between each combi-nation of input features and the corresponding output using predictability, correlation,mutual information or other statistics.

Essentially, the NNE estimates the magnitude (variance) of the noise present at theoutput of some unknown function that relates the input and output variables of a model.A NNE simultaneously estimates the a priori performance of the best non-linear regressionmodel that can be built with the selected variables.

2.5.3.1 The Gamma Test

The Gamma Test (GT) is a NNE technique, therefore it calculates the variance of thenoise, or the mean square error (MSE), that can be achieved without overfitting [168].The evaluation of the NNE is done using the GT estimation introduced by Stefánsson[323].

Given N input-output pairs: (xi, yi) ∈ Rd×R, the relationship between xi and yi can

be expressed as

yi = f(xi) + ri, (2.45)

where f is an unknown function and r is the noise. The GT estimates the varianceof the noise r. The GT is useful for evaluating the nonlinear correlation between tworandom variables, namely, input and output pairs. The GT has been introduced formodel selection but also for input selection: the set of inputs that minimizes the GT isthe one that is selected. Indeed, according to the GT, the selected set of inputs is theone that represents the relationship between inputs and output in the most deterministicway.

The GT is based on hypotheses coming from the continuity of the regression function.If two points x and x′ are close in the input space, the continuity of regression functionimplies the outputs f(x) and f(x′) will be close enough in the output space. If this is notaccomplished, it is due to the influence of the noise. The distances between points in theoutput space is given by the variable γ, while the distances between points in the inputspace will be described by the variable σ.

Two versions for evaluating the GT are suggested. The first one evaluates the valueof γ, σ in increasing sized sets of data. Then the result for a particular parameter pairis obtained by averaging the results from all set sizes. The new or refined version estab-lishes the estimation based on the k-NN differences instead of increasing the number ofdata points gradually. In order to distinguish the k used in the NNE context from theconventional k in k-NN, the number of nearest neighbors is denoted by p.

Let us denote the p-th nearest neighbor of the point xi in the set x1, . . . , xN by xp(i).Then the following variables, γN and σN are defined as

γN(p) =1

2N

∑Ni=1 |yi − yp(i)|2 ,

σN (p) =1

2N

∑Ni=1 |xi − xp(i)|2 ,

(2.46)


where | · | denotes the Euclidean metric and yp(i) is the output of xp(i). For correctly se-lected p [168], the constant term of the linear regression model between the pairs (γN , σN)determines the noise variance estimate. A proof of the convergence of the GT is presentedin [168].

The GT assumes the existence of the first and second derivatives of the regressionfunction. Let us denote

∇f(x) =

(

∂f

∂xi

)

, i = 1, . . . , d (2.47)

Hf(x) =

(

∂2f

∂xi∂xj

)

, i, j = 1, . . . , d (2.48)

where xi and xj are the i-th and j-th components of x, respectively, and d is the number ofvariables. The GT requires both |∇f(x)| and |Hf(x)| are bounded. These two conditionsare general and are usually satisfied in practical problems. The GT requires no otherassumption on the smoothness property of the regression function. Consequently, themethod is able to deal with the regression functions of any degree of roughness.

The second assumption is about the noise distribution:

EΦr = 0 and EΦr2 = varǫ <∞,

EΦr3 <∞ and EΦr4 <∞,(2.49)

where EΦr is the noise density function. Furthermore, it is required that the noisyvariable be independent and identically distributed. In the case of heterogeneous noise,the GT provides the average of noise variance extracted from the whole dataset.

As discussed above (see Equation 2.46), the GT depends on the number of neighborsp used to evaluate the regression. It is suggested to use a mid-range value p = 10 [168] fortypical applications, although this parameter should be tuned for each particular dataset.The nearest neighbor lists can be found in O(N logN) time using optimal implementations[112].

2.5.3.2 The Delta Test

Delta Test (DT) was firstly introduced by Pi and Peterson for time series [274] and recentlyfurther analyzed by Liitiäinen et al. [198]. However, its applicability to variable selectionwas proposed in [99]. The DT is a NNE that can be interpreted as a particularizationof the GT considering only the first nearest neighbor. This yields a fully nonparametricmethod as it removes the only hyperparameter (number of neighbors) that had to bechosen for the GT. Let us denote the nearest neighbor of a point xi ∈ R

d as xNN(i). Thenearest neighbor formulation of the DT estimates the variance of the noise r as

var[r] ≈ δ =1

2N

N∑

i=1

(yi − yNN(i))2 , (2.50)

where yNN(i) is the output of ~xNN(i). The DT has shown comparable performance toGT taking only a small fraction of its computational time and memory requirements, asonly the distance from each point to its nearest neighbor needs to be stored. It has been

2.6. SEARCH PROCEDURES 63

shown, e.g. in [197], that the estimate converges to the true value of the noise variancein the limit N → ∞.

Noise variance estimators have been used previously for variable selection procedures[168, 320], but there are some essential problems with this usage that need to be addressed.Indeed, any reasonable noise estimator would manage to include all of the relevant varia-bles, since excluding them would cause unexplainable variations in the data. However,most estimators fail at the equally important task of pruning irrelevant inputs, since inthat context every variable has the possibility of containing a slight bit of additionalinformation and including it might lead to a lower estimate.

For eliminating variables, it is then somewhat counter-intuitive to be using a noise-estimation scheme. In spite of this, the DT has the interesting property that addingunrelated inputs does increase the estimate, separating it from most other estimators,and making it effective for input selection. A proof of this can be found in [99].

2.6 Search procedures

In this section we will review some of the most known search procedures to obtain thesubset of inputs that optimizes some criterion (MI, DT, etc.) over the input-output pairsof a dataset. One can distinguish local methods and global methods. The first groupcontains those methods that stop the search once the first optimum value of the criterionhas been found, while the second group comprises those search methods that continue thesearch until they have found the global solution (given enough time).

2.6.1 Local search methods

2.6.1.1 Forward selection

The forward selection (FS) method starts from an empty set S of selected input variables.At each step, each variable that is not already in the model is tested for inclusion in themodel, and the best available input (according to some criterion) is added to the set S.The variables are added one by one until the size of S is d, i.e., all variables have enteredthe set S.

In FS, only d(d + 1)/2 different input sets are evaluated. This is much less than thetotal amount of input combinations (2d − 1). Hence, optimality is not guaranteed. Theselected set may not be the global optimal one.

2.6.1.2 Backward elimination

Backward elimination (BE) is the opposite of FS process. In this strategy, the selectedinput set S is initialized to contain all input variables. Then, the input variable for whichthe elimination optimizes some criterion is removed from set S one by one, until the sizeof S is 1.

Basically, BE is the same procedure as FS but reversed. It evaluates the same amountof input sets as FS (d(d + 1)/2). Therefore, the same restriction applies, it is a localstrategy, so optimality is not guaranteed.


2.6.1.3 Forward-backward selection

As we have seen, both FS and BE methods suffer from an incomplete search. Forward-backward selection (FBS), also called stepwise regression, tries to leverage a combinationof both methods to achieve better results. It offers the flexibility to reconsider input va-riables previously discarded and vice versa, to discard input variables previously selected.It can start from any initial input set, including empty, full or randomly initialized.

In each step, a variable is added to or subtracted from the selected set, in order toobtain the maximum optimization of the criterion.

Note that the selection result depends on the initialization of the input set, and theresult can be suboptimal, as it still is a local search strategy. It is possible to carryout a pseudo-global search by repeating the method many times using different randominitializations. This way, several local optima will be discovered (depending on the natureof the dataset) and the global optimum may be one of those. If optimality is not needed,the fastest local minima to compute is the one found by initializing the algorithm withan empty set of variables.

2.6.2 Global search methods

2.6.2.1 Exhaustive search

The simplest algorithm that finds the optimal value of the desired target function amongall possible combinations of inputs and the output is the exhaustive search. This procedureis a “brute force” algorithm that tests all possible input combinations, i.e. 2d − 1 for dinput variables. Then, the one that yields an optimum value for the chosen criterion isselected. In the case of large datasets (d > 10), the exhaustive search procedure becomestoo time consuming and is not viable. Hence, alternative knowledge driven methods haveto be considered.

2.6.2.2 Tabu search

Tabu search (TS) is a metaheuristic algorithm that can be used to guide local searchmethods to explore the solution space beyond local optimality. The first most successfulusage was proposed by Glover [122, 123, 125] for combinatorial optimization. Later, TSwas successfully used in scheduling [84, 212, 371], design [364, 365], routing [42, 303] andgeneral optimization problems [7, 124, 147]. The TS has become a powerful method withdifferent components tied together, that is able to obtain excellent results in differentproblem domains.

Tabu search uses a neighborhood search procedure to iteratively move from a solutionx to a solution x′ in the neighborhood of x, until some stopping criterion has been satisfied.To explore regions of the search space that would be left unexplored by the local searchprocedure (see local optimality), tabu search modifies the neighborhood structure of eachsolution as the search progresses. The solutions admitted to N(x), the new neighborhood,are determined through the use of memory structures. The search then progresses byiteratively moving from a solution x to a solution x′ in N(x). While there are otherneighborhood based methods, such as widely used descent/ascent methods, the differenceis that TS uses memory in order to influence which parts of the neighborhood are going

2.6. SEARCH PROCEDURES 65

to be explored. A memory is used to record various aspects of the search process and thesolutions encountered, such as recency, frequency, quality and influence of moves. Insteadof storing full solutions in memory, which is impractical in some problems, in TS we storeattributes of solutions or moves/operations used to transition from one solution to thenext one.

Perhaps the most important type of memory structure used to determine the solu-tions admitted to N(x) is the tabu list. In its simplest form, a tabu list is a short-termmemory which contains the solutions that have been visited in the recent past (less thann iterations ago, where n is the number of previous solutions to be stored, also calledthe tabu tenure). Tabu search excludes solutions in the tabu list from N(x). A variationof a tabu list prohibits solutions that have certain attributes or prevent certain moves.Selected attributes in solutions recently visited are labeled “tabu-active”. Solutions thatcontain tabu-active elements are “tabu”. This type of short-term memory is also called“recency-based” memory. If unlimited memory is provided, the search procedure becomesglobal.

Tabu lists containing attributes can be more effective for some domains, althoughthey raise a new problem. When a single attribute is marked as tabu, this typicallyresults in more than one solution being tabu. Some of these solutions that must nowbe avoided could be of excellent quality and might not have been visited. To mitigatethis problem, “aspiration criteria” are introduced: these override a solution’s tabu state,thereby including the otherwise-excluded solution in the allowed set. A commonly usedaspiration criterion is to allow solutions which are better than the currently-known bestsolution.

In practical simulation, the size of the tabu list as well as the time each candidatesolution is kept in the list are important issues. These parameters should be set up so thatthe search is able to go through two distinct, but equally important phases: intensificationand diversification.

2.6.2.3 Genetic algorithms

A genetic algorithm (GA) is a search technique used to find exact or approximate solutionsto optimization and search problems. Genetic algorithms are categorized as global searchheuristics. They are a particular class of evolutionary algorithms (EA) that use techniquesinspired by evolutionary biology such as inheritance, mutation, selection, and crossover[154].

In GAs, an initial population of abstract representations (called chromosomes or thegenotype of the genome) of candidate solutions (called individuals, creatures, or pheno-types) to an optimization problem evolves toward better solutions. Traditionally, solutionsare represented in binary as strings of 0s and 1s, but other encodings are also possible,like real numbers (yielding real-coded genetic algorithms, RCGA) or other alphabets oflimited cardinality. The evolution usually starts from a population of randomly generatedindividuals and happens in generations. In each generation, the fitness of every individ-ual in the population is evaluated, multiple individuals are stochastically selected fromthe current population (based on their fitness), and modified (recombined and possiblyrandomly mutated) to form a new population. The new population is then used in thenext iteration of the algorithm. Commonly, the algorithm terminates when either a max-imum number of generations has been produced, or a satisfactory fitness level has been


reached for the population. If the algorithm has terminated due to a maximum numberof generations, a satisfactory solution may or may not have been reached.

2.7 Selection, scaling and projection

The meaning of pure variable selection is to perform a binary choice between the accep-tance or rejection of a variable. This is done by assigning a weight of “1” to a selectedvariable, and “0” to a discarded variable.

Variable scaling is a usual preprocessing step in function approximation tasks. Inscaling, weights are used to reflect the relevance of the input variables on the output tobe estimated. That is, scaling seeks for redundant inputs and assigns them low weights toreduce the corresponding influence on the learning process. In such a context, it is clearthat variable selection is a particular case of scaling: by weighting irrelevant variables byzero we are, indeed, enforcing selection.

Sometimes, the synthesization of new variables can help increase the interpretabilityof a model. New variables can be created in several ways. One of the most typical is theprojection of the existing variables to different subspaces. Projection gives a further stepin the selection and scaling preprocessing, as it brings out underlying data dependenciesthat were not obvious from the analysis of the original data.

2.8 Experiments

2.8.1 Modeling with a reduced set of inputs: the OP-ELM method

Extreme Learning Machine (ELM) [159] is a new learning technique to train single layerfeedforward neural networks (SLFN) which chooses the input weights randomly and de-termines the output weights analytically. This algorithm is designed to build models thatprovide the best possible generalization in the shortest time. Given its success, it hasalready been applied to many fields of machine learning such as text classification [200]or time series prediction [314].

This Section intends to make use of the methodology described in [238] which in-troduces a combination of the optimal-pruned version of ELM, OP-ELM, with variableselection. In this case, we focus on the use of NNE as a selection criterion, concretely byusing the DT as estimator. The applicability of the method is assessed on a dataset ofchildren anthropometric measurements.

2.8.1.1 Extreme Learning Machine

Let us consider a set of N points (xi, ti) ∈ Rn×R

m, where i = 1, . . . , N . A standard SLFNwith L hidden neurons and activation function g(x) can be mathematically modeled as

L∑

i=1

βig(wixi + bi) = dj j = 1, . . . , N (2.51)

where wi is the weight vector connecting the inputs to the i-th hidden neuron, βi is theweight vector connecting the i-th hidden neuron and output neurons, bi is the threshold

2.8. EXPERIMENTS 67

of the i-th hidden neuron, and dj is the output given by the ELM for data point j. Thestandard SLFN with L hidden neurons and activation function g(x) can approximatethese N samples with zero error in the ideal case, meaning that

∑Lj=1 ‖dj − tj‖ = 0, and

thus, there exist βi, wi and bi such that

L∑

i=1

βig(wixj + bi) = tj j = 1, . . . , N (2.52)

The above equations can be written compactly as:

Hβ = T (2.53)

where

H =

g(w1x1 + b1) . . . g(wLx1 + bL)... · · · ...

g(w1xN + b1) . . . g(wLxN + bL)

N×L

β =

βT1...

βTL

L×m

and T =

tT1...

tTN

N×m

The matrix H is called the hidden layer output matrix of the SLFN. When the numberof neurons in the hidden layer is equal to the number of samples, H is square and invertible.Otherwise, the system of equations needs to be solved by numerical methods, concretelyby solving

minβ

‖Hβ −T‖ . (2.54)

The solution that minimizes the norm of this least squares equation is

β = H†T (2.55)

where H† is called Moore-Penrose generalized inverse [159]. The most important proper-ties of this solution are:

• Minimum training error.

• Smallest norm of weights and best generalization performance.

• The minimum norm least-square solution of Hβ = T is unique, and is β = H†T.

Hence, the ELM algorithm for SLFNs can be summarized in these steps:Given a training set (xi, ti) ∈ R

n × Rm, i = 1, . . . , N activation function g(x) and L

hidden neurons:

1. Assign arbitrary input weights wi and biases bi, i = 1, . . . , L.

2. Calculate the hidden layer output matrix H.


3. Calculate the output weights β:

β = H†T

where H, β and T are as defined before.

2.8.1.2 A global methodology based on Optimal-Pruned Extreme LearningMachine

The scheme of the global methodology we are going to follow is shown in Figure 2.4. Thefirst stage corresponds to an a priori variable selection. In this study, a FBS methodwill be used, using the DT minimization as a search criterion. By using FBS, the initialselected set evolves to a solution where a minimum of DT is found. The process is depictedin Figure 2.5. In each iteration, all variables are considered to enter (if not present) orleave (if present) the dataset. Concretely, the variable whose addition/removal minimizesthe DT is considered to enter or leave the dataset, respectively.

After variable selection has been carried out, a SLFN is built and initialized using ELM.Neurons are then ranked using a Multi-Response Sparse Regression (MRSR) technique

Variableselection

(FBS + DT)

ELMconstruction

MRSR/LARSranking of hidden

neurons

Hidden layerpruning by LOOData Model

Figure 2.4: Scheme of the global methodology considered. !"#"$%"&$#"'!() *+,-./01 2 .,345)+45345 36.1- 789: ;9< => ? =) *@++-0 A,.5.6B -0B0C50/ -05 7D< 6,/ .,.5.6B 4,-0B0C50/ -05 7E<) *+F3450 G61H1I 4-.,J 5@0 K0B56 L0-5M'NO$NPQR$STO$NP UV%VS#"'!(( ) ( ) = ∪ ∪ ∈ ∈

,argmin [ ] | [ ] | \ , , i j

s j i i j

x xx Var r S x Var r S x x S x FWXY Z[\]\^ _`ab Z[\]\^cdefXgh\i jXg k

lmno pqb[gX jXg ko k[rX Z[\]\^Figure 2.5: Forward-backward selection algorithm based on the minimization of DT.

2.8. EXPERIMENTS 69

[312]. This technique is an extension of the LARS algorithm.The main idea of this algorithm is the following. Let us denote by T = [t1, . . . , tp] the

N × p matrix of targets, and by X = [x1, . . . , xm] the N ×m matrix of inputs. MRSRadds each regressor one by one to the model

Yk = XWk , (2.56)

where Yk = [y1, . . . , yp] is the target approximation by the model and Wk the weightmatrix. This weight matrix has k nonzero rows at k-th step of the MRSR. With each newstep, a new nonzero row and a new regressor to the total model are added.

An important detail shared by the MRSR and LARS is that the ranking obtained isexact in the case where the problem is linear. In fact, this is the case, since the ANNbuilt in the previous step is linear between the hidden layer and the output. Therefore,the MRSR provides the exact ranking of the neurons for our problem. The same ideaof LARS can be applied to rank the inputs to a model, although this process cannot beconsidered exact, as the hidden layer has a nonlinear activation function. In spite of this,the approximation given can be good enough to provide additional interpretability aboutthe inputs.

One can replace the nonlinear activation functions in the hidden layer of the SLFNby a k-nearest neighbor estimation, which produces the OP-KNN method [369]. Thekey idea behind KNN is that similar training samples have similar output values. InOP-KNN, the approximation of the output is the weighted sum of the outputs of thek-nearest neighbors.

Since the MRSR/LARS only provides a ranking of the kernels, the decision over theactual best number of neurons for the model is taken using a LOO validation method.The LOO is usually a costly way of estimating a model’s fit, since it requires to test themodel N times, for a training set of N samples. In order to keep the OP-ELM/KNN fast,the PRESS statistics [250] formula is used in order to compute this validation error

ǫPRESS =ti − hiβ

1 − hiPhTi(2.57)

where P is defined as P = (HTH)−1, H is the hidden layer output matrix, hi are thecolumn vectors of matrix H, ti are the target values and β are the output weights, asdefined in Section 2.8.1.1.

Finally, evaluating the LOO error versus the number of neurons used (which have beenpreviously properly ranked by the LARS algorithm) enables to select the best number ofranked neurons.

The presented methodology has been tested using the a modified version of An-throkids4 dataset. This dataset represents the results of a three-year study on 3900infants and children representative of the U.S. population of year 1977, ranging in agefrom newborn to 12 years of age. The dataset comprises 121 variables and the targetvariable to predict is children’s weight. As this dataset presented many missing values,a prior sample and variable discrimination had to be performed to build a robust andreliable dataset. The final set5 without missing values contains 1019 instances, 53 input

4Available online: http://ovrt.nist.gov/projects/anthrokids/5Available online: http://www.cis.hut.fi/projects/tsp/index.php?page=timeseries


0 2 4 6 8 10 12 140.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04

0.045

0.05

Iteration

DT

1

FBS evolution

2

3

45 6

7 8 910 11 12 11

Figure 2.6: FBS evolution for the modified Anthrokids dataset, starting from emptyselection. The algorithm stops in the 12th iteration (DT=0.0070) as a DT increase isdetected afterwards. The number of variables selected in each iteration is shown overeach point. The vertical dashed line indicates the point where the algorithm converges.

variables and one output (weight). More information on this methodology can be foundin [225].

2.8.1.3 Results

The data were divided in random training (70% of the total samples) and test (30%of the total samples) sets, and normalized to zero mean and unit variance prior to thevariable selection stage. FBS algorithm with DT as the performance criterion, and emptyinitialization, was applied to the training set. The algorithm converged after having added12 variables. The LARS method ranked the 12 variables as listed in Table 2.1 and thevalue of DT versus the iterations is shown in Figure 2.6. The lowest DT value achievedwas 0.0070 and the algorithm converged in 281.63 seconds using a Sun Fire v20z dualcore AMD OpteronTMwith 4 GB of RAM. This result may vary, depending on the choiceof training and test sets.

Intuitively, one can think that this ranking is reasonable because the selected variablesare mainly related to size and volume, which at the same time greatly affect weight.

Next, ELM models were built, using 150 internal nodes that were ranked using LARSand pruned by LOO validation, using PRESS statistic for fast computation. Table 2.2lists the results of several OP-ELM models, using different activation functions for thehidden layer. A linear component is always maintained because it generally helps fitting

2.8. EXPERIMENTS 71

LARS ranking Variable

1 Chest circumference

2 Calf circumference

3 Hip circumference

4 Shoulder breadth

5 Upper arm circumference

6 Waist circumference

7 Erect sitting height

8 Elbow-hand length

9 Foot length

10 Buttock-knee length

11 Upper thigh circumference

12 Stature

Table 2.1: Variables selected by FBS starting from en empty set, and their rankingaccording to LARS method.

Number of Activation Comput. LOO Test Number of

variables function time (s) error error neurons

L + S 7.79 0.0221 0.0354 88

53 (full set) L + G 8.12 0.0060 0.0167 118

L + S + G 7.98 0.0069 0.0169 143

L + S 3.15 0.0110 0.0214 47

12 (FBS) L + G 2.71 0.0060 0.0170 17

L + S + G 3.24 0.0062 0.0173 22

Table 2.2: Performance achieved by several OP-ELM models using different combinationsof activation functions. L: linear, S: sigmoid, G: gaussian.

the data if there is any linearity between the inputs and the outputs of the model. Theresults show that variable selection allows building a model with the same performanceas with the full set of variables (or even improving it when linear and sigmoid activationfunctions are used) in a much shorter time. The reduction in the number of requiredneurons is also noticeable.

The next step to take in order to optimize the variable selection is to scale the selectedvariables according to their influence on the output value. Let us consider f as theunknown function that determines the relationship between the inputs and outputs of aregression problem, y = f(x) + r, with x ∈ R

M , y ∈ R, r ∈ R. Let d be the number ofselected variables that minimize the DT without any scaling. Thus, the estimate of theoutput, y ∈ R, can be expressed as y = g(x′) + r, with x′ ∈ R

d and g is the model that


best approximates the function f . The objective is to find a scaling vector α ∈ Rd such

that

y = g(α1x′1, α2x

′2, . . . , αdx

′d) + r

minimizes the variance of the noise (DT) of the problem.Intuitively, the scaling will assign high values of α to the variables that are most

correlated with the output, and low values to those less correlated. It can happen thatsome variable that initially was not selected, now enters the set of selected variables witha low scaling factor.

The method of FBS with scaling was applied to the modified Anthrokids example,providing the ranking shown in Table 2.3. The result includes all the previously selectedvariables with scaling factor 1, and adds 6 more with lower scaling factors ranging from 0.1to 0.5. The computational time employed was 1495.95 seconds and the DT with scalingwas reduced to 0.0064. Finally, Table 2.4 shows a comparison of several OP-ELM modelsbuilt using the scaled variables.

Scaling factor Variable name

1.0 Stature

1.0 Erect sitting height

1.0 Buttock-knee length

1.0 Shoulder breadth

1.0 Upper arm circumference

1.0 Elbow-hand length

1.0 Chest circumference

1.0 Waist circumference

1.0 Hip circumference

1.0 Upper thigh circumference

1.0 Calf circumference

1.0 Foot length

0.5 Forearm circumference

0.4 Shoulder-elbow length

0.2 Lower face height

0.1 Hand breadth

0.1 Maximum fist circumference

0.1 Birth order

Table 2.3: Variables selected by FBS with scaling factors (DT = 0.0064).

2.8. EXPERIMENTS 73

Number of Activation Comput. LOO Test Number of

variables function time (s) error error neurons

L + S 3.61 0.0106 0.0210 68

18 (scaled) L + G 3.71 0.0058 0.0168 17

L + S + G 3.72 0.0058 0.0166 17

Table 2.4: Study of the performance of several OP-ELM models using scaled variables.The different activation functions are: L: linear, S: sigmoid, G: gaussian.

2.8.1.4 Conclusion

This section has presented the use of variable selection using the DT as a selection cri-terion, based on the minimization of the variance of the noise in a regression problem.This selection of variables has been combined with optimally pruned ELM models thateffectively accelerate the learning process of a single layer feedforward neural network.Several conclusions can be drawn:

• The OP-ELM models by themselves produced short training times (of the orderof 8 seconds for a problem involving 53 variables and around 1000 samples) andrelatively accurate estimations in terms of validation and test error.

• In the example studied, the combination with variable selection using DT reduces thecomputational time to less than half of the achieved with OP-ELM, maintaining, orimproving in some cases, the calculated errors. It also proved to reduce substantiallythe necessary number of nodes in the network.

• The best performing models for this application were those which included gaussiankernels, either with or without sigmoid components.

• The use of scaling factors to weight the variables according to their importance inthe model slightly increases the accuracy but on the other hand it increases thecomputational time too. Therefore, the convenience of using scaling or not willdepend on each specific application.

2.8.2 Parallelizing a global search

This section presents new methodologies based on the DT such as TS, GA and the hy-bridization of them, to determine a subset of variables which is representative of a function.As in the previous section, we will consider both the selection and the scaling problems.As we observed, by giving a weight to each variable based on its relevance it is possibleto achieve a better reduction of the DT. The new algorithms were adapted to be run inparallel architectures so better performances could be obtained in a small amount of time,presenting great robustness and scalability.

2.8.2.1 Motivation of a parallel search

Many variable selection techniques are based on search procedures that are very timeconsuming. Among these stand out global optimization techniques such as GAs and TS.


Local strategies can be also very time consuming with very large datasets and functionswith few local minima.

Nevertheless, the latest advances in computer architecture provide powerful clusterswithout requiring a large budget, so an adequate parallelization of these techniques mightameliorate this problem. This is quite important in real life applications where the re-sponse time of the algorithm must be acceptable from the perspective of a human operator.This section presents several new approaches to perform variable selection using the DTas criterion to decide if a subset of variables is adequate or not. The new approaches arebased on local search methodologies, global optimization techniques and the hybridizationof both.

2.8.2.2 Implementation of TS

The method presented is a pioneering work, because no implementation of the TS tominimize the DT has ever been reported. The TS was implemented in this work asan improvement over the FBS, which does not have any memory enhancement. Dueto the fact that this work considers the variable selection and the scaling problem, twodifferent algorithms had to be designed. Both algorithms use only short-term recencybased memory to store reverse moves instead of solutions to speed up the exploration ofthe search space.

2.8.2.2.1 TS for pure variable selection. In the case of variable selection, a movewas defined as a flip of the status of exactly one variable in the dataset. The statusis excluded (0) or included (1) from the selection. For a dataset of dimensionality d, asolution is then a vector of zeros and ones x = (x1, x2, . . . , xd), where xk ∈ 0, 1 , k =1, ..., d, are indicator variables representing the selection status of k-th dimension.

The neighborhood of a selection (solution) x is a set of selections x′ which have exactlyone variable that has different status. This can be written as

N(x) =

x′ | ∃1q ∈ 1, . . . , d xq 6= x′q ∧ xi = x′i, i 6= q

With this setup, each solution has exactly the same amount of neighbors, which willbe equal to d.

2.8.2.2.2 TS for the scaling problem. The first modification that requires theadaptation to the scaling problem is the definition of the neighborhood of a solution.A solution x is now a vector with scaling values from a discretized set xk ∈ H =0, 1/k, 2/k, . . . , 1, where k is discretization parameter. Two solutions are neighbors ifthey disagree on exactly one variable, same as for variable selection, but the disagreementis the smallest possible value. N(x) is defined in the same way as for variable selection,but with an additional constraint of

∣

∣xq − x′q∣

∣ = 1/k. For example, for k = 10 and d = 3,the solutions x1 = (0.4, 0.2, 0.8) and x2 = (0.3, 0.2, 0.8) would be neighbors, but not thesolution x3 = (0.1, 0.2, 0.8). The move between solutions is defined as a change of valuefor one dimension, which can be written as a vector (dimension, old value, new value).

2.8. EXPERIMENTS 75

2.8.2.3 Setting the tabu conditions

The tenure for a move is defined as the number of iterations that it is considered as tabu.This value is determined empirically when the TS is applied to solve a concrete problem.For the variable selection problem, this work proposes a value which is dependent on thenumber of dimensions so it can be applied to several problems. In the experiments, twotabu lists, and thus two tenures, were used. The first list is responsible for preventing thechange along certain dimension for d/4 iterations. The second one prevents the changealong the same dimension and for specified scaling value for d/4 + 2 iterations. Thecombination of these two lists gave better results than when each of the conditions wasused alone.

For example, for k = 10, if a move is performed along dimension 3 from value 0.1 to 0.2,which can be written as a vector m = (3; 0.1, 0.2), then its reverse move m−1 = (3; 0.2, 0.1)is stored in the list. The search will be forbidden to use any move along dimension 3 ford/4 iterations, and after that time, it will be further 2 iterations restricted to use themove m−1, or in other words to go back from 0.2 to 0.1.

With these settings, in the case of variable selection, two conditions are then implicitlymerged into one condition: restrict a flip of the variable for d/4 + 2 iterations. This isbecause there are only two values 0, 1 as possible choices.

2.8.2.4 Hybrid parallel genetic algorithm

The benefits and advantages of the global optimization and local search techniques havebeen hybridized in the proposed algorithm. The idea is to be able to have a globaloptimization, using a GA, but still being able to make a fine tune of the solution, usingthe TS.

2.8.2.4.1 Encoding of the solutions. Deciding how a chromosome encodes a solu-tion is one of the most decisive design steps since it will influence the rest of the design[78, 235, 244]. The classical encoding used for variable selection has been a vector ofbinary values where 1 represents that the variable is selected and 0 that the variable isnot selected. As it has been commented above, this work considers the variable selectionusing scaling in order to determine the importance of a variable. Therefore, instead ofusing binary values, other encoding must be chosen. If instead of using 0 and 1, thealgorithm uses real numbers to determine the weight of a variable, the GA could fall intothe category of Real Coded Genetic Algorithms (RCGA). However, the number of scaleshas been discretized in order to bound the number of possible solutions making the algo-rithm a classical GA where the cardinality of the alphabet for the solutions is increasedin k values. For the sake of simplicity in the implementation, an individual is a vector ofintegers where the number 1 represents that the variable was selected and k + 1 meansthat the variable is not selected.

Regarding the initial population, some individuals are included in the population de-terministically to ensure that each scaling value for each variable exists in the population.These individuals are required if the classical GA crossover operators (one/two-point,uniform) are applied so all the possible combinations can be reached. For example, ifthe number of scales is 4 in a problem with 3 variables, the individuals that are alwaysincluded in the population are: 1 1 1, 2 2 2, 3 3 3, and 4 4 4.


2.8.2.4.2 Selection, crossover and mutation operators. The algorithm was de-signed in order to be as fast as possible so when several design options appeared, thefastest one (in terms of computation time) was selected, as long as it was reasonable. Theselection operator chosen was the binary tournament selection as presented by Goldbergin [127] instead of the Baker’s roulette wheel operator [22] or other more complex opera-tors existing in the literature [59]. The reason for this is because the binary tournamentdoes not require the computation of any probability for each individual, thus, a consid-erable amount of operations are saved on each iteration. This is specially important forlarge populations. Furthermore, the fact that the binary tournament does not introducea high selective pressure is not as traumatic as it might seem. The reason is becausethe huge solution space, that arises as soon as the number of scales increases, shouldbe deeply explored to avoid local minima. Nevertheless, the algorithm incorporates theelitism mechanism, keeping the 10% of the best individuals of the population, so theconvergence is still feasible.

Regarding the crossover operator, the algorithm implemented the classical operatorsfor a binary coded GA. These are: one-point and two-point crossovers and the uniformcrossover [77, 154, 329]. The behavior of the algorithm using these crossovers was quitesimilar and acceptable. Nonetheless, since the algorithm could be included into the RCGAclass, an adaptation of the BLX-α [101] was implemented as well. The operator consistsin, given two individuals I1 = (i11, i

12, ...i

1d) and I2 = (i21, i

22, ...i

2d) with (i ∈ R), a new

offspring O = (o1, ..., oj, ..., od) can be generated where oj , j = 1...d is a random valuechosen from an uniform distribution within the interval [imin − α ·B, imax + α ·B] whereimin = min(i1j , i

2j), imax = max(i1j , i

2j ), B = imax − imin and α ∈ R. The adaptation only

required to round the absolute value assigned to each gene and also the modification ofthe value in case it is out of the bounds of the solution space.

The mutation operates at a gene level, so a gene has the chance to get any value ofthe alphabet.

2.8.2.5 Parallelization

The algorithm has been parallelized so it is able to take advantage of the parallel archi-tectures, like clusters of computers, that are easy available anywhere. The main reasonto parallelize the algorithm is to be able to explore more solutions in the same time,allowing the population to reach a better solution. There is a wide variety of possibilitieswhen parallelizing a GA [8, 9, 54], however, as a first approach, the classical master/slavetopology has been chosen [131].

As the previous subsection commented, the algorithm was designed to be as fast aspossible, nonetheless, the fitness function still remains expensive in comparison with theother stages of the algorithm (selection, crossover, mutation, etc.). At first, all the stagesof the GA were parallelized, but the results showed that the communication and synchro-nization operations could be more expensive than performing the stages synchronouslyand separately on each processor 6. Hence, only the computation of the DT for each in-dividual is distributed among the different processors. As it is proposed in the literature[54], the master/slave topology uses one processor to perform the sequential part of theGA and then, sends the individuals to different processors that will compute the fitness

6This work considers that a processor will execute one process of the algorithm.

2.8. EXPERIMENTS 77

function. Some questions might arise at this point like: Are the processors homogeneous?How many individuals are sent at a time? Is the fitness computation time constant?

The algorithm assumes that all processors are equal with the same amount of memoryand speed. If they were not, it should be considered to send the individuals iterativelyto each processor as soon as they were finished with the computation of the fitness of anindividual. This is equivalent to the case where the fitness function computational timemight change from one individual to another. However, the computation of the DT doesnot significantly vary from one individual to another, despite the number of variablesthey have selected. Thus, using homogeneous processors and constant time consumingfitness function, the amount of individuals that each processor should evaluate is size ofpopulation / number of processors.

The algorithm has been implemented so the number of communications (and theirnumber of packets) is minimized. To achieve this, all the processors execute exactly thesame code so, when each one of them has to evaluate its part of the population, it doesnot require to get the data from the master because it already has the current population.The only communications that have to be done during the execution of the GA are, afterthe evaluation of the individuals, to send and receive the values of the DT, but not theindividuals themselves. To make this possible, all processors have the same population allthe time considering that there are random elements, at the beginning of the algorithmthe master processor sends to all the others the seed for their random number generators.This implies that they all produce the same values when calling the function to obtain arandom number. In this way, when the processors have to communicate, only the valueof the DT computed will be sent, saving the communications that would require to sendeach individual to be evaluated. This is specially important since some problems requirelarge individuals, increasing the traffic in the network and retarding the execution of thealgorithm.

2.8.2.6 Hybridization

The combination of local optimization techniques with GA has been studied in severalpapers [81, 133, 163]. Furthermore, the inclusion of a FBS in a stage of an algorithm forvariable selection was recently proposed in [259] but the algorithm was oriented to classi-fication problems. The new approach introduced here proposes to perform a local searchat the beginning and at the end of the GA. The local search will be done by using the TSdescribed in the Section 2.8.2.2, so it does not stop when it finds a local minimum. Usinga good initialization as a start point for the GA, it is possible to find good solutions withsmaller populations [289]. This is quite important because the smaller the population is,the faster the algorithm will complete a generation. Therefore, the algorithm incorporatesan individual generated using the TS, so there is a potential solution which has a goodfitness. Since the algorithm is able to use several processors, several TSs can be run oneach processor. The processors will communicate sending each other the final individualonce the TS is over. Afterwards, they will start the GA using the same random seed.Thus, if there are p processors, p individuals of the population will be generated using theTS. Thanks to the use of the binary tournament selection, there is no need to worry aboutconverging too fast to a local minimum near these individuals. The GA will then explorethe solution space and when it finishes, each processor will take an individual using it asthe starting point for a new TS. In this way, the exploitation of a good solution is guar-


Figure 2.7: Algorithm scheme. Dashed line represents one to one communication, dottedlines represent collective communications.

anteed. The first processor takes the best individual, the second takes the second bestindividual and so on. As the GA maintains diversity in the population, the best resultafter applying the TS does not always come from the best individual in the population.This fact shows how important is to keep exploring the solution space instead of lettingthe GA converge too fast.

Figure 2.7 shows how the algorithm is structured as well as the communications thatare necessary to obtain the final solution.

2.8.2.7 Experiments

This section will show empirically that all the elements described in the previous one,when they are combined together, could improve the performance. First, the datasetsthat have been used are introduced. Then, the effect of the parallelism applied over theGA will be analyzed. Afterwards, more experiments with the parallel version will be donein order to show how the addition of the BLX-α crossover and the TS can improve theresults. Finally, the new proposed algorithm will be compared against the local searchtechnique used so far, proving how the global optimization, in combination with the localsearch, leads to better solutions.

In the experiments, a time limit of 600 seconds for all the algorithms was used. Twodifferent clusters were used in the experiments but, for the sake of clarity, only the resultsof the best one will be showed. Nonetheless, the algorithms had similar performancein both of them. A remarkable fact was that the size of the cache was crucial for thecomputational time of the DT. Due to the large size of the distances matrix, the fastercomputer had worse performance because it did not have as much cache memory as the

2.8. EXPERIMENTS 79

other. Further research must be done regarding the distribution of the samples amongthe processors so less memory accesses have to be done. The processors in the clusterused had the following characteristics:

Cpu family : 6Model : 15Model name : Intel(R) Xeon(R) CPU E5320 @ 1.86GHzStepping : 7Cpu MHz : 1595.931Cache size : 4096 KBCpu cores : 2Bogomips : 3723.87Clflush size : 64Cache alignment : 64Address sizes : 40 bits physical, 48 bits virtual

The algorithms were implemented in MATLAB and, in order to communicate thedifferent processes, the MPImex ToolBox presented in [134] was used.

2.8.2.8 Datasets used in the experiments

To assess the presented methods, several experiments were performed, using the followingdatasets:

1. The Housing dataset7: The housing dataset is related to the estimation of housingvalues in suburbs of Boston. The value to predict is the median value of owner-occupied homes in $1000’s. The dataset contains 506 instances, with 13 inputvariables and one output.

2. The Tecator dataset8: The Tecator dataset aims at performing the task of predict-ing the fat content of a meat sample on the basis of its near infrared absorbancespectrum. The dataset contains 215 useful instances for interpolation problems,with 100 input channels, 22 principal components (which will remain unused) and3 outputs, although only one is going to be used (fat content).

3. The Anthrokids dataset9: This dataset represents the results of a three-year study on3900 infants and children representative of the U.S. population of year 1977, rangingin age from newborn to 12 years of age. The dataset comprises 121 variables andthe target variable to predict is children’s weight. As this dataset presented manymissing values, a prior sample and variable discrimination had to be performed tobuild a robust and reliable dataset. The final set10 without missing values contains1019 instances, 53 input variables and one output (weight). More information onthis dataset reduction methodology can be found in [225].

7http://archive.ics.uci.edu/ml/datasets/Housing.8http://lib.stat.cmu.edu/datasets/tecator.9http://ovrt.nist.gov/projects/anthrokids.

10http://www.cis.hut.fi/projects/tsp/index.php?page=timeseries.


4. The Finance dataset10: This dataset contains information of 200 French industriesduring a period of 5 years. The number of samples is 650. It contains 35 inputvariables, related to balance sheet, income statement and market data, and oneoutput variable, called “return on assets” (ROA). This is an indicator of how prof-itable a company is relative to its total assets. It is usually calculated by dividing acompany’s annual earnings by its total assets.

5. The Santa Fe time series competition dataset11: The Santa Fe dataset is a time seriesrecorded from laboratory measurements of a Far-Infrared-Laser in a chaotic state,and proposed for a time series competition in 1994. The set contains 1000 samples,and it was reshaped for its application to time series prediction using regressors of12 samples. Thus, the set used in this work contains 987 instances, 12 inputs andone output.

6. The ESTSP 2007 competition dataset10: This time series was proposed for the Euro-pean Symposium on Time Series Prediction 2007. It is an univariate set containing875 samples but has been reshaped using a regressor of 55 variables, producing afinal set of 819 samples, 55 variables and one output.

All the datasets were normalized to zero mean and unit variance, so the DT valuesobtained are normalized by the variance of the output.

2.8.2.9 Parallelization of the GA

This section shows the benefits that are obtained by adding parallel programming to thesequential GA. The sequential version was designed exactly in the same way that wasdescribed in Section 2.8.2.5, using the same operators, however, the evaluation of theindividuals was performed uniquely in one processor. For these experiments, the TS wasnot incorporated to the algorithms so the benefits of the parallelism could be more easilyappreciated.

For these initial tests, the GA parameters were adjusted to the following values:

• Crossover Type: One point crossover

• Crossover Rate: 0.85

• Mutation Rate: 0.1 12

• Generational elitism: 10%

The results were obtained from three of the datasets, namely Anthrokids, Tecator andESTSP 2007 competition dataset. The performances are presented in Table 2.5, includinga statistical analysis of the values of DT and the number of generations evaluated.

Figures 2.8, 2.9 and 2.10 show the effect of increasing the number of processors in thenumber of generations done by the algorithms for a constant number of individuals for

11http://www-psych.stanford.edu/∼andreas/Time-Series/SantaFe.html12This is the same value used by Oh et al. [259] and Guillén et al. [135], also for feature selection.

The rate is higher than usual to enable a thorough exploration of all regions of the solution space, ratherthan focus on the refinement of a small number of candidate solutions.

2.8. EXPERIMENTS 81

Table 2.5: Performance of RCGA vs pRCGA for three different datasets. Values of theDT and number of generations completed.

Dataset Population MeasurementRCGA pRCGA (np=2) pRCGA (np=4) pRCGA (np=8)

k=1 k=10 k=1 k=10 k=1 k=10 k=1 k=10

Anthrokids

50

Mean (DT) 0.01278 0.01527 0.01269 0.01425 0.01204 0.01408 0.01347 0.0142

StDev (DT) 1.2e-3 8.9e-3 1.4e-3 1.2e-4 1.3e-3 6.3e-4 8.1e-4 4.2e-4

Min (DT) 0.0114 0.0134 0.0113 0.0121 0.0104 0.0134 0.013 0.0139

Max (DT) 0.0149 0.0167 0.0159 0.0157 0.0138 0.015 0.0144 0.0145

Mean (Gen.) 35.5 16.7 74.8 35.3 137.8 70 169.3 86

100

Mean (DT) 0.01351 0.01705 0.01266 0.01449 0.01202 0.0127 0.0111 0.01285


Min (DT) 0.0117 0.0156 0.0118 0.0126 0.0101 0.0106 0.0106 0.0121

Max (DT) 0.015 0.0182 0.0142 0.0158 0.0139 0.0149 0.0117 0.0136

Mean (Gen.) 17.2 8.5 35.4 17.3 68.8 35 104 44.5

150

Mean (DT) 0.01475 0.01743 0.01318 0.0151 0.01148 0.01328 0.01105 0.01375


Min (DT) 0.0124 0.016 0.0113 0.0117 0.0105 0.0125 0.0102 0.0132

Max (DT) 0.0166 0.0194 0.0146 0.0167 0.0129 0.0144 0.0119 0.0143

Mean (Gen.) 11 5.7 22.7 11.2 45.6 23.2 61 31

Tecator

50

Mean (DT) 0.13158 0.14151 0.14297 0.147 0.13976 0.14558 0.1365 0.1525


Min (DT) 0.1302 0.134 0.1321 0.1363 0.1341 0.1362 0.1339 0.149

Max (DT) 0.1326 0.1548 0.1565 0.1578 0.1528 0.1575 0.1391 0.156

Mean (Gen.) 627 298.1 1129.4 569.5 2099.2 1126.6 3369.5 1778.5

100

Mean (DT) 0.13321 0.14507 0.13587 0.14926 0.13914 0.14542 0.13525 0.1466

StDev (DT) 3.1e-3 8.6e-3 2.4e-3 6.6e-3 8.6e-3 8.2e-3 3e-4 1.8e-3

Min (DT) 0.1313 0.1325 0.1309 0.1382 0.1298 0.136 0.1331 0.1453

Max (DT) 0.1419 0.1557 0.1388 0.1564 0.1498 0.1574 0.1374 0.1479

Mean (Gen.) 310.8 154.4 579.6 299.9 1110.4 583 1731 926.5

150

Mean (DT) 0.13146 0.14089 0.1345 0.15065 0.13522 0.14456 0.1303 0.1404


Min (DT) 0.1299 0.1342 0.1307 0.1419 0.1319 0.1418 0.1229 0.1361

Max (DT) 0.1325 0.1549 0.1381 0.156 0.1476 0.1479 0.133 0.1447

Mean (Gen.) 195 98.3 388.1 197.8 741.2 377 1288 634.5

ESTSP

50

Mean (DT) 0.01422 0.01401 0.01452 0.01413 0.01444 0.014 0.01403 0.0142


Min (DT) 0.014 0.0134 0.014 0.0135 0.0142 0.0135 0.0137 0.0139

Max (DT) 0.0145 0.0145 0.0151 0.0148 0.0147 0.0145 0.0142 0.0148

Mean (Gen.) 51 29.1 99.2 57.6 190.8 113.8 229 126.7

100

Mean (DT) 0.01457 0.01445 0.01419 0.01414 0.01406 0.01382 0.01393 0.01393

StDev (DT) 2.5e-4 3.2e-4 3.9e-4 2e-4 2.9e-4 1.9e-4 3.2e-4 3.1e-4

Min (DT) 0.0141 0.0136 0.0136 0.0139 0.0137 0.0136 0.0137 0.0136

Max (DT) 0.0149 0.0148 0.0148 0.0145 0.0144 0.0141 0.0143 0.0142

Mean (Gen.) 24.8 14 50.5 27.9 93 57.8 128.7 67.7

150

Mean (DT) 0.01464 0.01467 0.01429 0.01409 0.01402 0.01382 0.0141 0.01325


Min (DT) 0.0139 0.0139 0.0139 0.0136 0.0138 0.0135 0.014 0.0132

Max (DT) 0.0151 0.0152 0.0146 0.0148 0.0143 0.0142 0.0142 0.0133

Mean (Gen.) 16.6 9.1 33.6 18.7 63.2 37.6 82.5 49.5

three datasets. As it was expected, if the number of individuals increases, the number ofgenerations is smaller. This effect is compensated with the introduction of more processors


Gen

era

tio

ns

Anthrokids (k=1)

Gen

era

tio

ns

Number of processors

Population=50 Population=100 Population=150

Gen

era

tio

ns

Anthrokids (k=10)

Gen

era

tio

ns



Figure 2.8: Generations evaluated by the GA vs the number of processors used. An-throkids dataset, without scaling (left) and with scaling (right).

that increase almost linearly the number of generations completed. The linearity is notthat clear for small populations with 50 individuals since the communication overheadsstart to be significant. However, larger population sizes guarantee a quite good scalabilityfor the algorithm.

Once the superiority of the parallel approach was proved, the next sections will onlyconsider the parallel implementations of the GA.

2.8.2.10 Hybridization of the pGA with the TS and using the BLX-α crossover

Once it has been demonstrated how important is the parallelization of the algorithm, thebenefits of adapting the BLX-α operator to the parallel version used in the previous sub-section will be shown. Furthermore, the comparison will also consider the hybridizationwith the TS at the beginning and at the end of the algorithm to make a fine tune of thesolution provided by the GA. This hybrid algorithm has received the name of pTBGA.The time limit of 600 seconds was divided into three time slices that were assigned to thethree different stages of the algorithm: tabu initialization, GA, and tabu refinement.

The goal was to find the best trade-off in terms of time dedicated to explore thesolution space and to exploit it. When assigning the time slices to each part it wasconsidered that, for the initialization using the TS, just a few evaluations were willed inorder to improve slightly the starting point for the GA. Several combinations where triedbut always keeping the time for the first TS smaller than the GA and the second TS.

The results are listed in Table 2.6. The Tables present a comparison between pRCGA,pTBGA using only TS at the end, and pTBGA using TS at the beginning and at the end,both with and without scaling. The population size was fixed to 150 individuals based onprevious experiments where no significant difference was observed over 200 individuals ifthe number of processors is fixed to 8. The configuration of pTBGA is indicated in Table2.6 as tTS1/tGA/tTS2 where tGA is the time (in seconds) dedicated to the GA, tTS1 is thetime dedicated to the first tabu step, and tTS2 the time dedicated to the last.

The values of DT obtained show how the application of the adapted BLX-α crossover

2.8. EXPERIMENTS 83

Gen

era

tio

ns

Tecator (k=1)

Gen

era

tio

ns



Gen

era

tio

ns

Tecator (k=10)

Gen

era

tio

ns



Figure 2.9: Generations evaluated by the GA vs the number of processors used. Tecatordataset, without scaling (left) and with scaling (right).

improves the results for pRCGA. Regarding the hybridization, there is no doubt thatintroducing the TS to the algorithm improves the results significantly. The effect ofintroducing the TS before the start of the GA improves the results in some cases, althoughthe improvement is not too significant. However, it is possible to appreciate how theapplication of the TS at the beginning and at the end reduces the standard deviationmaking the algorithm more robust.

2.8.2.11 Comparison against the classical methodologies

This last subsection performs a comparison of the final version of the proposed algorithmwith the classical local search methodology already proposed in the literature to minimizethe value of the DT. The pTBGA with optimal settings running on 8 processors wascompared in terms of performance (minimum DT and number of solutions evaluated)with other widely used sequential search methods such as FBS and TS, both running onsingle processors of the grid. As FBS converged rather quickly (always before the timelimit of 10 minutes), the algorithm was run with several initializations, until the timelimit was reached.

The results of these tests appear listed in Table 2.7.

For the pTBGA, a fixed population of 150 individuals was selected. The crossoverprobability was 0.85 in all cases.

When comparing the two local search techniques, this is, TS and FBS, it is remarkablethe good behavior of FBS against the TS. This is not surprising since the FBS, as soonas it converged, it was reinitialized starting from another random position. On the otherhand, the TS started at one random point and explored the neighborhood of it duringthe time frame specified, making it more difficult to explore other areas. The new hybridapproach improves the results of the FBS in average for both pure selection and scaling,being more robust than the FBS which does not always provide a good result.


Gen

era

tio

ns

ESTSP (k=1)

Gen

era

tio

ns



Gen

era

tio

ns

ESTSP (k=10)

Gen

era

tio

ns



Figure 2.10: Generations evaluated by the GA vs the number of processors used. ESTSP2007 dataset, without and with scaling.

2.8.2.12 Conclusions

This section has presented a new approach to solve the problem of simple and scaledvariable selection. The major contributions of the work are:

• The development of a TS algorithm for both pure selection and scaling, based onthe DT. A first initialization of the parameters required by the short-term memorywas proposed as well.

• The design of a Genetic Algorithm whose fitness function is the DT and that makesa successful adaptation of the BLX-α crossover to adapt the discretized scalingproblem as well as the pure variable selection.

• The parallel hybridization of the two previous algorithms that allows to keep thecompromise between the exploration/exploitation allowing the algorithm to findsmaller values for the Delta Test than the previous methodology does.

The results showed how the synergy of different paradigms can lead to obtain betterresults. It is also important to notice how necessary is the addition of parallelism in themethodologies since the increasing size of the datasets will not be able to be processed bysingle processor architectures. This work has addressed the problem of the cache memorylimitation that seems quite relevant for large datasets.

2.8.3 Enhancing the Delta Test minimization by means of pro-

jection

The use of real-valued scaling factors is already a great improvement that minimizes theDT beyond the limit imposed by pure selection, because a variable can not only be selectedor not, but also be given a weight according to its relative importance. Projection takesa further step as it includes the possibility of projecting the input vectors into a lower

2.8. EXPERIMENTS 85

Table 2.6: Performance of pRCGA vs pTBGA, with the BLX-α crossover operator

Dataset MeasurementpRCGA (np=8) pTBGA (np=8) 0/400/200 pTBGA (np=8) 50/325/225

k=1 k=10 k=1 k=10 k=1 k=10

Anthrokids

Mean (DT) 0.0113 0.0116 0.0084 0.0103 0.0083 0.0101

StDev (DT) 11.5e-4 14.7e-4 17.3e-5 53.1e-5 5.8e-5 83.3e-5

Min (DT) 0.0102 0.0105 0.0083 0.0097 0.0083 0.0094

Max (DT) 0.0125 0.0133 0.0086 0.0110 0.0084 0.011

Mean (GA gen.) 165.7 93 108 59 49.7 23.7

StDev (GA gen.) 1.5 5.3 1 0.8 1.5 0.6

Mean (Tabu eval.) – – 956 516.3 1006.7 641.7

StDev (Tabu eval.) – – 38 55 79.1 36.5

Tecator

Mean (DT) 0.13052 0.1322 0.1180 0.1303 0.1113 0.1309

StDev (DT) 25.8e-4 27.2e-4 12.1e-3 20.7e-4 88.9e-4 10.6e-4

Min (DT) 0.1279 0.1279 0.0988 0.1281 0.105 0.1299

Max (DT) 0.1341 0.1352 0.1293 0.1341 0.1215 0.1320

Mean (GA gen.) 2890.8 1616.6 2031.2 1229.5 1073.7 668.3

StDev (GA gen.) 212.6 151.3 56.5 54.2 33 44.3

Mean (Tabu eval.) – – 9016.3 5666.7 22326.7 12008.3

StDev (Tabu eval.) – – 1054.5 663.5 4825.9 102.1

ESTSP

Mean (DT) 0.01468 0.01408 0.01302 0.01308 0.01303 0.0132

StDev (DT) 16.4e-5 13e-5 8.4e-5 37.7e-5 5.8e-5 17.3e-5

Min (DT) 0.0144 0.0139 0.0129 0.0125 0.0130 0.0130

Max (DT) 0.0148 0.0142 0.0131 0.0135 0.0131 0.0133

Mean (GA gen.) 164.6 96.2 102.6 58 66 36.3

StDev (GA gen.) 10.8 9.8 4.7 4.2 1 0.6

Mean (Tabu eval.) – – 710 476.4 1026.7 702.3

StDev (Tabu eval.) – – 105.8 33.7 61.1 51.7

Housing

Mean (DT) 0.0710 0.0584 0.0710 0.0556 0.0710 0.0563

StDev (DT) 0 9.2e-4 0 8.5e-4 0 6.2e-4

Min (DT) 0.0710 0.0575 0.0710 0.0547 0.0710 0.0558

Max (DT) 0.0710 0.0599 0.0710 0.0564 0.0710 0.057

Mean (GA gen.) 1561 1275 985.3 812 704 577.3

StDev (GA gen.) 30.4 48.2 27.6 31.4 27.1 15.9

Mean (Tabu eval.) – – 9663 7855.3 10553.7 8371.7

StDev (Tabu eval.) – – 408.9 201.4 496.9 30.1

Santa Fe

Mean(DT) 0.0165 0.0094 0.0165 0.0092 0.0165 0.0092

StDev (DT) 0 9.8e-5 0 11.5e-5 0 11.5e-5

Min (DT) 0.0165 0.0092 0.0165 0.0091 0.0165 0.0091

Max (DT) 0.0165 0.0095 0.0165 0.0093 0.0165 0.0093

Mean (GA gen.) 376.4 329.5 253 203.7 172 137

StDev (GA gen.) 18 31.6 18.5 9.5 5.3 6

Mean (Tabu eval.) – – 2175.7 1842 2507 2037

StDev (Tabu eval.) – – 111.2 122.9 139.5 166

Finance

Mean(DT) 0.1498 0.1371 0.1406 0.1244 0.1406 0.1235

StDev (DT) 3.4e-4 3.7e-4 7.9e-4 6.1e-3 1.2e-4 6.2e-4

Min (DT) 0.147 0.1336 0.1396 0.1178 0.1396 0.1148

Max (DT) 0.1568 0.1414 0.1427 0.1298 0.1430 0.1291

Mean (GA gen.) 586.7 427 399 262 279.8 185

StDev (GA gen.) 63.4 28.6 7 10.1 10.7 6.8

Mean (Tabu eval.) – – 3705 2584.3 4392.5 2941.5

StDev (Tabu eval.) – – 217.9 50 116.4 255.5


Table 2.7: Performance comparison of FBS, TS and the best pTBGA configuration

Dataset MeasurementFBS TS pTBGA (np=8)*

k=1 k=10 k=1 k=10 k=1 k=10

Anthrokids

Mean (DT) 0.00851 0.01132 0.00881 0.01927 0.00833 0.0101

StDev (DT) 17.3e-5 19.1e-4 27.3e-5 36.5e-4 5.8e-5 83.3e-5

Min (DT) 0.0084 0.0092 0.0084 0.0147 0.0083 0.0094

Max (DT) 0.0089 0.0149 0.0093 0.0248 0.0084 0.011

Mean (DT Eval.) 10210.1 11074 10684 8127.8 7339.2 3659.2

StDev (DT Eval.) 582.8 547.4 544.5 399.9 273.9 110.1

Tecator

Mean (DT) 0.13507 0.14954 0.12799 0.18873 0.1113 0.1309

StDev (DT) 37.7e-4 10.6e-3 24.7e-4 10.4e-3 88.9e-4 10.6e-4

Min (DT) 0.130 0.137 0.1214 0.179 0.105 0.1299

Max (DT) 0.1396 0.1621 0.1303 0.2072 0.1215 0.1320

Mean (DT Eval.) 250530 277300 256095 219056.1 159219.2 97220.8

StDev (DT Eval.) 18393.6 18890.3 20680.5 10711 9034.1 5750.1

ESTSP

Mean (DT) 0.01331 0.01415 0.01296 0.01556 0.01302 0.01308

StDev (DT) 28.8e-5 44e-5 26.3e-5 16.4e-4 8.4e-5 37.7e-5

Min (DT) 0.0129 0.0135 0.0124 0.0133 0.0129 0.0125

Max (DT) 0.0138 0.0149 0.0132 0.0182 0.0131 0.0135

Mean (DT Eval.) 15835 17625 15576 12869.2 13791.5 7871.4

StDev (DT Eval.) 919.6 936.6 792.7 727.6 707.9 567.1

Housing

Mean (DT) 0.0710 0.0586 0.0711 0.0602 0.0710 0.0556

StDev (DT) 0 44.7e-5 35.4e-5 87.3e-4 0 8.5e-4

Min (DT) 0.0710 0.0583 0.0710 0.0556 0.0710 0.0547

Max (DT) 0.0710 0.0592 0.0720 0.0815 0.0710 0.0564

Mean (DT Eval.) 40789.5 43808.6 34792 29812.3 135293 111385.3

StDev (DT Eval.) 1950.5 2197.8 2038.1 1531 39267 4209.1

Santa Fe

Mean (DT) 0.0165 0.00942 0.0178 0.0258 0.0165 0.0092

StDev (DT) 0 7.1e-5 24.6e-4 18.5e-3 0.0165 0.0091

Min (DT) 0.0165 0.0094 0.0165 0.0091 0.0165 0.0093

Max (DT) 0.0165 0.0096 0.0225 0.0566 172 137

Mean (DT Eval.) 9033.5 9455 8560.2 6679.5 24437 19504.5

StDev (DT Eval.) 775.2 453.3 664.3 580.1 814.1 931

Finance

Mean (DT) 0.1411 0.1377 0.1420 0.4381 0.1406 0.1235

StDev (DT) 12.7e-4 46.6e-4 32.8e-4 0.1337 16.2e-4 64.2e-4

Min (DT) 0.1396 0.1297 0.1396 0.1624 0.1396 0.1148

Max (DT) 0.1427 0.1436 0.1496 0.5488 0.1430 0.1291

Mean (DT Eval.) 19540 24037.5 20570.6 16436.4 40060.6 26529

StDev (DT Eval.) 1894.6 1164.6 1253.3 1442.2 1483.2 1120.3

* The best pTBGA configuration among the tested for each dataset.

dimensional space. Both methods have been compared in [368] using a forward searchmethod but their integration in a global search framework has remained unexplored sofar.

The goal of this section is to optimize the choice of relevant inputs using the DT,introducing a combination of a GA-based global search strategy with two different fitnessapproaches: scaling and scaling enhanced with projection.

The purpose of the GA in this work is the global optimization of the scaling weightsand projection matrix that minimize the DT when applied to the input vectors. Thisstudy intends to find the optimal DT value in a fixed number of generations. Pureselection would clearly outperform scaling in terms of speed but the best DT found is

2.8. EXPERIMENTS 87

often sub-optimal. Scaling or projection are necessary to get closer to the optimal set ofsolutions. For that reason, a real-coded GA (RCGA) is proposed to optimize a populationof chromosomes that encode arrays of potential solutions. The two following subsectionsdescribe the fitness functions that were built and applied to the RCGA: one for scalingand another combining scaling and projection.

2.8.3.1 Real-coded genetic algorithm with scaling: RCGA-S

The target of performing scaling is to optimize the value of the DT beyond the minimumvalue that can be obtained with pure selection. When performing scaling, the selectedvariables are weighted according to their influence on the output variable. Let us considerf as the unknown function that determines the relationship between the N input-outputpairs of a regression problem, y = f(~x) + r, with ~x ∈ R

d, y ∈ R and r ∈ R is a randomvariable that represents the noise. Thus, the estimate of the output, y ∈ R, can beexpressed as y = g(~xs)+r, with ~xs = ~s ·~x ∈ R

d and g is the model that best approximatesthe function f . The objective is to find a scaling vector ~s ∈ R

d such that

y = g(s1x1, s2x2, . . . , sdxd) + r (2.58)

minimizes Var[r] for the given problem.Up to the date of this work, in the existing variable selection literature there were

several applications of scaling to minimize the DT, but often keeping a discrete number ofweights ([135, 225, 368]) instead of using unconstrained real values like in this study. Ineach generation, each individual (array of scaling factors) is multiplied element by elementby the i-th input sample from the dataset:

X iS(1×d) = X i

(1×d) × S(1×d), i = 1, . . . , N , (2.59)

where X is the N × d input matrix, XS is the scaled version of X and S is the scalingvector.

The DT is calculated by obtaining the Euclidean distances among the weighted inputsamples XS. Once done this, the first nearest neighbor of each point is selected and theDT is obtained from their corresponding outputs, according to Equation 2.50. When apredefined number of generations has been evaluated, the GA returns the fittest individualand its corresponding DT.

2.8.3.2 Real-coded genetic algorithm with scaling + projection: RCGA-SP

A projection can be used to reduce the number of variables by applying a linear (idem-potent) transformation, represented by a matrix P(d×k), to the matrix of input samplesX(N×d), resulting in a lower dimensional matrix XP (N×k), k < d:

XP (N×k) = X(N×d) × P(d×k) . (2.60)

Although it might seem counterproductive, the idea of the developed method thatcombines scaling and projection is to add a new variable to the input space (the projectionof the input vectors on one dimension, i.e. with k = 1). Equations 2.61 and 2.62 describethis approach:


XP (N×1) = X(N×d) × P(d×1) , (2.61)

XSP (N×(d+1)) = [XS(N×d), XP (N×1)] , (2.62)

where XS is the scaled version of X as calculated in Equation 2.59, XP is the projectedversion of X and XSP is the new scaled/projected input matrix. In this case, the lengthof the chromosome will be twice the length of the ones used for the scaling approach, i.e.2d, as a global optimization of the projection vector P must be carried out along withthe optimization of the scaling vector S.

2.8.3.3 Experiments

The experiments were carried out using MATLAB 7.5 (R2007b, The Mathworks Inc.,Natick, MA, USA), partly using the Genetic Algorithm and Direct Search Toolbox v2.2,and several custom functions. The parts of the code that are critical for speed, like thecomputation of pairwise distances among points, were coded in C++ and compiled asMATLAB executables (MEX).

The populations are initially created using a custom function that assigns a uniforminitialization to a percentage of the population and the rest can be customized by theuser, specifying how many of the remaining individuals are initialized randomly and howmany of them are left as zeros. The function is flexible in the sense that the custompercentage of the initial population can be further split into more subsets, each one witha customizable percentage of randomly initialized individuals.

The crossover and mutation operators have also been implemented as custom func-tions. The mutation operator is a pure random uniform function whereas the crossoveroperator was BLX-α [101] because of its better performance compared to the one-point,two-point and uniform crossover operators [154]. Regarding the selection operator, thebinary tournament was chosen because it outperformed the roulette wheel. Three popula-tion sizes were tested: 50, 100 and 150 individuals. Values higher than 150 were discardedin order to keep reasonable runtimes. To sum up, the GA parameters were set as follows:

• Number of averaged runs: 10

• Number of generations evaluated: 50

• Population sizes: 50, 100, 150

• Population initialization: 20% uniform / 80% custom (with 90% zeros and 10%random genes)

• Crossover operator: BLX-α (α=0.5)

• Selection function: Binary tournament

• Crossover rate: 0.85

• Mutation rate: 0.1

• Elitism: 10%

2.8. EXPERIMENTS 89

• Mutation function: Random uniform

• Fitness function: DT with scaling / DT with scaling + projection

2.8.3.4 Datasets

The described methods (RCGA-S and RCGA-SP) have been evaluated on five regressiondatasets with different sample/variable ratios to assess their performance in different typesof scenarios. The dimensionality and number of samples of each dataset are listed inTable 2.8. Santa Fe and ESTSP 2007 are time series, so regressors of 12 and 55 variables,respectively, were built.

Table 2.8: Datasets used in the experiments.Dataset Instances Input variables

Boston Housing1 506 13

Tecator2 215 100

Anthrokids 3 1019 53

Santa Fe4 987 12

ESTSP 20073 819 55

1 http://archive.ics.uci.edu/ml/datasets/Housing2 http://lib.stat.cmu.edu/datasets/tecator3 http://www.cis.hut.fi/projects/tsp/index.php?page=timeseries4 http://www-psych.stanford.edu/∼andreas/Time-

Series/SantaFe.html

All datasets were normalized to zero mean and unit variance. Therefore, all DT valuesshown here are normalized by the variance of the output. The normalization was donevariable-wise for all datasets except for Tecator, in which variable selection works betterwith sample-wise normalization.

2.8.3.5 Results

The results of the experiments appear listed in Table 2.9. In all tests, the populationsize of 50 chromosomes gave worse results than 100 or 150. The population size of 150minimized the DT for most datasets, either with RCGA-S or RCGA-SP. Nonetheless, thevalues of DT obtained with 100 individuals are often very similar to the ones obtainedwith 150, and the high increase in computational time might not always be worthwhile.

The average, minimum and maximum DT values are improved in all cases by usingRCGA-SP instead of RCGA-S. The rate of improvement depends on each particulardataset, and is specially noticeable for Tecator (>64%) or Santa Fe (>20%). Anotherimportant result is that the RCGA-S method is more precise than RCGA-SP as thestandard deviation is generally lower. Predictably, the fact of doubling the chromosomesize increases runtimes too.

An analysis of the initialization function was carried out using the GAs with thebest specifications among the tested (Population size = 150). The results, for several


Table 2.9: Performance of RCGA-S and RCGA-SP after 50 generations.Method Pop. size Measurement Housing Tecator Anthrokids Santa Fe ESTSP

RCGA-S

50

Mean±StDev DT (×10−4) 570±14 108±11 75±3 107±12 127.5±1.3

Min DT (×10−4) 544.54 92.60 71.91 89.99 125.01

Max DT (×10−4) 583.09 132.75 79.37 119.73 128.74

100

Mean±StDev DT (×10−4) 559±7 98±13 72.0±1.9 92±12 123.8±2.1

Min DT (×10−4) 544.78 75.74 69.13 77.33 120.65

Max DT (×10−4) 569.82 109.52 74.83 111.41 126.78

150

Mean±StDev DT (×10−4) 553±16 98±12 71.8±1.2 85±8 123.7±2.1

Min DT (×10−4) 528.47 83.60 69.81 75.46 121.43

Max DT (×10−4) 578.18 113.47 72.98 98.54 128.93

RCGA-SP

50

Mean±StDev DT (×10−4) 570±60 39±3 71±5 83±15 125±5

Min DT (×10−4) 523.56 35.02 66.08 69.96 119.02

Max DT (×10−4) 692.22 43.53 77.49 111.66 132.3

100

Mean±StDev DT (×10−4) 537±22 38.1±2.4 69±4 72±8 123±4

Min DT (×10−4) 512.47 35.14 62.54 62.15 116.71

Max DT (×10−4) 583.14 43.36 75.33 82.85 128.97

150

Mean±StDev DT (×10−4) 530±17 36.8±2.1 69±4 68±5 122±4

Min DT (×10−4) 514.15 33.12 61.82 62.83 115.62

Max DT (×10−4) 557.88 40.74 73.71 77.86 129.18

Table 2.10: Mean and standard deviation of DT values (×10−4) calculated by RCGA-Sfor several initialization ratios (Population size = 150).

Custom/Uniform Housing Tecator Anthrokids Santa Fe ESTSP

0%/100% 554±5 135.2±1.2 83±3 100±7 123.0±0.9

10%/90% 551±4 133.3±2.0 79±3 99±9 121.7±1.9

20%/80% 553±8 127±9 77±3 96±10 123.4±1.0

30%/70% 554±11 124.5±7 76±3 99±11 123.0±1.3

40%/60% 550±9 118±10 75±3 91±9 123.0±1.6

50%/50% 552±8 109±12 72.7±2.0 91±9 122.8±1.3

60%/40% 549±11 110±7 72.7±2.0 91±9 122.4±1.8

70%/30% 548±11 105±9 73.3±2.1 87±6 123.5±1.0

80%/20% 553±16 98±12 71.8±1.2 85±8 123.7±2.1

90%/10% 549±10 92±11 70.9±0.9 80±5 123.0±1.2

100%/0% 605±40 87±10 72.60±0.10 80±6 125.6±2.1

custom/uniform initialization ratios, are listed in Tables 2.10 and 2.11. The best meanDT for each dataset is marked in bold. As before, 90% of the custom part was composedof zeros while the remaining 10% was randomized.

The results confirm the goodness of the custom initialization with respect to the pureuniform, as the mean DT is reduced in most cases when a high rate of custom-initializedgenes is used. Again, the best improvement is found for Tecator dataset (>68% in somecases). Comparing with the existing methodologies (FBS, TS or combined tabu + GAsearch), the results have improved for all tested datasets [135].

2.9. APPROXIMATE K-NN DT MINIMIZATION USING GA 91

Table 2.11: Mean and standard deviation of DT values (×10−4) calculated by RCGA-SPfor several initialization ratios (Population size = 150).

Custom/Uniform Housing Tecator Anthrokids Santa Fe ESTSP

0%/100% 543±19 42.2±1.4 72±3 77±12 119±3

10%/90% 537±18 40.8±1.6 78±8 83±13 120±3

20%/80% 535±16 41.3±1.9 82±11 76±10 119.8±1.7

30%/70% 539±18 40.0±2.5 86±14 85±21 120±3

40%/60% 531±15 40±4 80±8 76±10 119.2±1.8

50%/50% 541±22 38.7±1.9 80±7 67±4 120±3

60%/40% 536±13 38.9±2.1 76±8 71±8 122±3

70%/30% 540±21 40±3 77±8 68±5 119±3

80%/20% 530±17 36.8±2.1 69±4 68±5 122±4

90%/10% 539±23 36.2±2.0 66±6 68±5 123±3

100%/0% 555±21 34.8±1.6 65±6 66±3 124±4

2.8.3.6 Conclusions

The methodology presented is a combination of a real-coded GA with custom fitnessfunctions that perform scaling (RCGA-S) and scaling + projection (RCGA-SP), whichhas proved to accurately minimize the DT in a variety of scenarios. In particular, theaddition of projection has proved to find lower values of DT than scaling alone in all tests.Furthermore, the proposed custom initialization enables a refinement of the final value ofDT obtained and performs better than the uniform initialization in most cases.

The minimum DT values found are lower than the lowest values attained in previousworks, either using local or global search strategies ([135, 368]) for the tested datasets.The main drawback of RCGA-SP is its higher computational time, but this issue couldbe alleviated using parallel implementations. Projection to higher dimensional spaces(k > 1) will be further examined in the following section.

2.9 Approximate k-NN Delta Test minimization using

GAs: An application to time series preprocessing

This section introduces a further improvement to the experiments developed in last sec-tion. The computational time required for variable selection is addressed by employing anapproximate technique for the estimation of the nearest neighbors. This approach, knownas approximate k-NN, will be incorporated to the algorithm that estimates the DT. Astudy on the performance and computational time will be presented and discussed. Be-sides, the successive improvements found, namely scaling and projection, together witha GA-based search, will be considered again. The resulting global methodology will beapplied to several datasets, paying special attention to the preprocessing of time seriesdata.


2.9.1 Time series prediction and preprocessing

In many fields like science, industry and finance it is necessary to accurately predict futurevalues of a time series. Some examples of problems that would benefit from an accurateprediction are: industrial processes, that can be modeled, predicted and controlled basedon sensory data; natural phenomena, such as daily rainfall or seismic events; medicalapplications like the modeling of biological signals such as EEG or ECG; and financialproblems like the prediction of stock market prices.

The correct estimation of future values of time series is usually affected by complex pro-cesses like random fluctuations, sudden trend changes, volatility and noise. The horizon ofprediction and the number of available samples to obtain one or more future estimationsare important issues too. When building a regressor, which can be understood as thenumber of past events used to predict their next one, the number of inputs to the model(which is translated as the size of the regressor) can become very large, depending on theperiodicity of the particular time series. With large regressors, the learning procedure ofthe involved predictive models becomes slow and tedious.

Historically, the different models employed to estimate time series have been differen-tiated in two groups: linear and nonlinear methods. The most popular linear methods arebased on the Box-Jenkins methodology [41]. They include autoregressive (AR) models,integrated (I) models, and moving average (MA) models. Their combination has givenrise to autoregressive moving average (ARMA) models, autoregressive integrated movingaverage (ARIMA) models and their seasonal generalization (SARIMA) [47]. However,these models are too limited and simplistic for the average complexity of a time series.In contrast, nonlinear methods are more suitable for complex series that contain irregu-larities and noise, such as chaotic time series. There is abundant literature on nonlinearmodels for time series forecasting [56, 66, 267, 282, 288, 300]. Among the existing meth-ods are neural networks [140, 161, 178, 332, 335, 372, 373], radial basis function networks[178, 256, 285, 370], support vector machines [247, 248, 336, 344], self organizing maps[182, 313] and other variants of these models [60, 61, 178, 188, 314]. Recently, several hy-brid methods (ARIMA + fuzzy or neural networks) have been employed in the literature[164, 307, 347]. However, building these nonlinear models takes considerable computa-tional time compared to linear models.

Either linear, nonlinear, and hybrid methods have the same purpose: to gather enoughinformation from past samples to give a reliable prediction of the immediate future samples(short-term prediction) or give estimations about far-future samples (long-term predic-tion). Long term prediction (i.e. predicting multiple steps ahead towards the future) isusually more challenging because the accumulation of errors and inherent uncertainties ofa multiple-step-ahead in time yields deteriorated estimates of future samples.

Time series prediction can be considered a modeling problem [363]. The inputs to themodel are composed of a set of consecutive regressor instances, while the output is thenext value or values of the series that have to be predicted after each regressor instance.

Normally, the size of the regressor is chosen according to the periodicity components ofthe time series. Consequently, time series with long periodic components may yield verylarge regressors that can be troublesome to handle by predictive models. Most modelingtechniques do not deal well with datasets that have a high number of input variables,due to the curse of dimensionality [354]. As the number of dimensions grows, the numberof input values required to sample the solution space increases exponentially. Many real


life problems present this drawback since they have a considerable amount of variablesto be selected in comparison to the small number of observations. Therefore, efficientvariable selection procedures are required to reduce the complexity while also improvingthe interpretability [137] of multidimensional problems.

2.9.2 The approximate k-NN method

Nearest neighbor search is an optimization technique for finding closest points in metricspaces. Specifically, given a set of n reference points R and query point q, both in thesame metric space V , we are interested in finding the closest or nearest point c ∈ R to q.Usually, V is a d-dimensional space R

d, where distances are measured using Minkowskimetrics (e.g. Euclidean distance, Manhattan distance, max distance).

The simplest solution to this neighbor search problem is to compute the distance fromthe query point to every other point in the reference set, while registering and updating theposition of the nearest or k-nearest neighbors of every point. This algorithm, sometimesreferred to as the naive approach or brute-force approach, works for small datasets, butquickly becomes intractable as either the size or the dimensionality of the problem becomeslarge, because the running time is O(dn). In practice, computing exact nearest neighborsin dimensions much higher than 8 seems to be a very difficult task [17].

Few methods allow to find the nearest neighbor in less time than the brute-forcecomputation of all distances does. In 1977, Friedman et al. [112] showed that O(n) spaceand O(logn) query time are achievable through the use of kd-trees. However, even thesemethods suffer as dimension increases. The constant factors hidden in the asymptoticrunning time grow at least as fast as 2d (depending on the metric).

In some applications it may be acceptable to retrieve a “good guess” of the nearestneighbor. In those cases one may use an algorithm which does not guarantee to returnthe actual nearest neighbor in every case, in return for improved speed or memory saving.Such an algorithm will find the nearest neighbor in the majority of cases, but this dependsstrongly on the dataset being queried. It has been shown [17] that by computing nearestneighbors approximately, it is possible to achieve significantly faster running times (onthe order of tens to hundreds) often with relatively small actual errors.

The authors [17] state that given any positive real ǫ, a data point p is a (1 + ǫ)-approximate nearest neighbor of q if its distance from q is within a factor of (1 + ǫ) ofthe distance to the true nearest neighbor. It is possible to preprocess a set of n points inRd in O(dn logn) time and O(dn) space, so that given a query point q ∈ R

d, and ǫ > 0,a (1 + ǫ)-approximate nearest neighbor of q can be computed in O(cd,ǫ log n) time, wherecd,ǫ ≤ d⌈1 + 6d/ǫ⌉d is a factor depending only on dimension and ǫ. In general, it is shownthat given an integer k ≥ 1, (1 + ǫ) approximations to the k-nearest neighbors of q canbe computed in additional O(kd logn) time.

This faster neighbor search has been applied to the computation of the DT as expressedin Equation 2.50 with high computational savings.

2.9.3 Using genetic algorithms for global search

The purpose of the GA in this work is analogous to their use in the Section 2.8.3, i.e. theglobal optimization of the scaling weights and projection matrix that minimize the DT


when applied to datasets built from time series data, although this approach may apply toother regression problems as it was seen in the mentioned section. This study intends tofind the optimal DT value in a fixed number of generations. Pure selection (i.e. assigningonly ‘0’ or ‘1’ scaling factors to each variable), scaling or projection will be considered.Besides, we will introduce a variation of these methods fixing the number of selectedvariables. Again, an RCGA is proposed to optimize a population of chromosomes thatrepresent arrays of potential solutions. The following subsections describe the differenttypes of variable preprocessing and their implementation: scaling, scaling + projection,and their corresponding versions with fixed number of variables.

2.9.3.1 Scaling (S)

In the existing variable selection literature there are several applications of scaling tominimize the DT, but often keeping a discrete number of weights [135, 225, 368] insteadof using unconstrained real values like in this study. In each generation of the GA,every input sample ~xi = [xi1, xi2, . . . xid] from the dataset X[N×d] is multiplied element byelement by an individual ~s (array of scaling factors), forming a new dataset Xs

[N×d]:

xsij = sjxij , i = 1, . . . , N, j = 1, . . . , d . (2.63)

Thus, for a population of p individuals the same number p new datasets will be created.The DT is calculated by obtaining the Euclidean distances among the weighted inputsamples Xs. After composing the new dataset Xs, the first approximate nearest neighborof each point is selected using the method described in Section 2.9.2 and the DT isobtained from the difference between their corresponding outputs, according to Equation2.50. When a predefined number of generations has been evaluated, the GA returns thefittest individual and its corresponding DT value.

2.9.3.2 Scaling + projection to k dimensions (SP-k)

A projection can be used to reduce the number of variables by applying a linear (idem-potent) transformation, represented by a matrix P[d×k], to the matrix of input samplesX[N×d], resulting in a lower dimensional matrix Xp

[N×k], k < d:

Xp[N×k] = X[N×d]P[d×k] . (2.64)

Although it might seem counterproductive, the idea of the developed method thatcombines scaling and projection is to add new variables to the input space (the projectionof the input vectors on k dimensions). Equation 2.65 describes how these new variablesare attached to the input matrix as new columns:

Xsp[N×(d+k)] = [Xs

[N×d], Xp[N×k]] , (2.65)

where Xs is the scaled version of X as calculated in Equation 2.63, Xp is the projectedversion of X and Xsp is the new scaled/projected input matrix. In this case, the lengthof the chromosome increases linearly with parameter k, indicating that this value shouldbe kept low to attain reasonable running times.

With a combination of both scaling and projection, the optimization problem shouldbe able to reach a DT value that is not larger than the value obtained for scaling or


projection alone. Consider the following two special cases. In the first special case,projection columns are set to zero values Xsp =

[

Xs, 0[N×k]

]

. This special case is just ascaling problem with additional zero columns that do not influence the search process, butonly increase computational time. The second special case is similar, with all elementsof Xs set to zero, i.e. Xsp =

[

0[N×d], Xp]

, leading to a pure projection problem withextra computational cost. These two extreme cases suggest that by allowing both Xs andXp to have real values, it becomes possible to find solutions that are at least as good assolutions for either scaling or projection problem.

2.9.3.3 Scaling with a fixed number of variables

In many real world datasets, the number of samples is sometimes so large (N > 10000)that optimizing scaling weights takes a considerable amount of time. This is due to thehigh computational cost of the inherent nearest neighbor search in the DT formula. Oneapproach to solve this would simply be to randomly discard some portion of the samplesin order to speed up calculation time, but there is risk of losing valuable data and thereis no clear method to select important samples. Instead of removing samples, a differentstrategy involves drastically reducing the number of variables by forcing most of thescaling weights to have zero value (si = 0). To achieve this goal, an additional constraintis added to the problem which requires that at most df scaling weights have non-zerovalues. Therefore, df variables are fixed to be included in final scaling vector ~s and theremaining d − df weights are forced to zero which effectively changes the dimensionalityof the dataset. The computation of nearest neighbor search is reduced to a lower df -dimensional space. Thus, the fixed method enables a quick insight into the df mostrelevant variables of the regression problem.

The parameter df should not be considered as an additional hyperparameter to theproblem, since the optimization with restricted number of scaling weights gives largerDT values compared to optimization without any restrictions. If we consider the scalingwithout any additional constraints (optimization of all d variables), we should be able toreach the global minimum, since it is included in the search space. Removing any of thevariables carries the risk of excluding the global minimum from the search space (unlessthose variables have zero weights in the global minimum), leading to solutions with largerDT values. Thus, to find the global minimum one should set df = d. However, the searchfor nearest neighbors is computationally more expensive in d-dimensional space than in df -dimensional one. Introducing df parameter enables the control over the trade-off betweenthe DT values and computational time.

For easier notation and understanding, we refer to standard scaling as scaling or purescaling, while scaling with the fixed number of variables is referred to as fixed scaling.The same setup of the GA can be used for both scaling problems. For the fixed scalingproblem, one can just take the df most important or largest weights, effectively performinga ranking of scaling weights. On the other hand, the chromosomes can be fixed to haveat most df non-zero values. With modified chromosomes, the crossover and mutationoperators have to be modified accordingly to further preserve the required constraint.However, both approaches tend to converge extremely quickly to suboptimal solutions injust a couple of tens of generations. A different approach would be to consider this asa multi-objective (MO) optimization problem [80, 239, 326], where one objective is theminimization of the DT, the main goal, and the other objective is the absolute difference


7.3 7.35 7.4 7.45 7.5 7.55 7.6

x 10−3

0

1

2

3

4

5

6

Objective 1: F1(~s)

Obje

ctiv

e2:

F2(~s

)

Pareto front (Santa Fe dataset)

Selectedsolution

Figure 2.11: Pareto front for Santa Fe dataset, using scaling with fixed number of variablesand df = d/2. The desired solution is the one that, in first place, adopts the desirednumber of fixed variables df (or as close as possible) and, in second place, minimizes theDT with that constraint.

between the number of non-zero scaling weights and the desired value df , i.e.

F1 (~s) = Var [η] on scaled dataset Xs (2.66)

F2 (~s) = |df − |si 6= 0 | i = 1, . . . , d|| . (2.67)

MO optimization tries to find the Pareto Optimal Front [81] (a set of non-dominatedsolutions) instead of a single solution. This set contains solutions where the values ofobjective functions are in conflict, i.e. improving one objective leads to deteriorationin the other objective(s). Therefore, the result to a MO problem is a set of solutionson different pareto fronts, after which the user selects one (or more) based on his/herpreference. In this study, when the solutions are returned, we look for the one with theexact required number df of non-zero scaling weights and the smallest DT. If such asolution does not exist, the one with the lowest F2 value is used, that is, we try to stayclose to df variables. A pareto front of Santa Fe dataset (see Table 2.8 for details) isshown in Figure 2.11 to illustrate this.

The algorithm used for MO optimization is the Elitist Non-Dominated Sorting Ge-netic Algorithm proposed in [80], denoted NSGA-II. It works by constructing the newpopulation layer by layer of non-dominated fronts. To ensure that the population hasalways the same size, the last layer to be added has to be split up into two parts. Thepart that is included in the next population contains solutions from the least crowdedarea of that front. This crowded comparison is based on the crowding distance, which iscomputed in the objective function space. For details see [80]. The overall complexity ofNSGA-II is O(hp2), where h is the number of objectives (in our case h = 2) and p is thesize of the population.


Fixed scaling is easily extended to include the projection problem, in the same manneras explained in Section 2.9.3.2 for scaling + projection. The combination of scaling witha fixed number of variables and projection will be referred to as fixed scaling + projection.The projection in this problem is not modified, only the scaling is replaced with the fixedversion.

2.9.4 Experiments

The experiments were carried out using MATLAB R2009a (TheMathworks Inc., Natick,MA, USA) and its Genetic Algorithm and Direct Search Toolbox (GADS). Creation,crossover and mutation operators are implemented outside of the toolbox. The approx-imate nearest neighbor search uses a C++ library [1]. The settings of the GA wereidentical to those used in Section 2.8.2.4.2. The hardware platform used this time was anIntel Core i7TMTM 920 processor (CPU clock: 4.2 GHz, Cache size: 8 MB) with 6 GB ofsystem memory running Windows 7 (64-bit).

The population size was fixed to 150 individuals. This value appears to be a goodcompromise between performance and computational cost for GA-based search applied tosimilarly sized datasets [135, 227]. After some preliminary tests, the number of generationswas fixed to 200 to ensure convergence in all cases. An alternative to this setting couldbe allowing a dynamic management of the number of generations to be evaluated beforestopping the search. Thus, the search would be stopped if no improvement in the DT hasbeen found for n generations, indicating that the algorithm has converged.

The fitness function of the GA is the DT computed for different types of problems.In the MO optimization, the DT is one of two objective functions. In this section, wedenote with DTS the optimization of scaling problem using DT, with DTFS the fixedscaling problem, with DTSP-k the problem of scaling + projection to k dimensions, withDTFS-df the fixed scaling with df variables and finally DTFSP-df -k is the problem offixed scaling with df variables plus projection to k dimensions. To emphasize the goodnessof these methods, pure selection (DTSL) has also been included in the comparison.

From the previous analyses in Sections 2.8.2.9 and 2.8.3.3, the best crossover and mu-tation rates for a feature selection application using the GA are 0.85 and 0.1 respectively,and an elitism of 10% of the individuals was the best compromise.

To sum up, the GA parameters were set as follows:

• Number of averaged runs: 10

• Number of generations evaluated: 200

• Population size: 150

• Population initialization: 20% uniform / 80% custom. The customized part isfurther divided into three parts:

– 1/3 with 90% zeros and 10% random genes



• Crossover operator: BLX-α (α = 0.5)

• Selection function: Binary tournament


• Crossover rate: 0.85

• Mutation rate: 0.1

• Elitism: 10%

• Mutation function: Random uniform

The parameter df was set to ⌈d/2⌉ for all datasets throughout the experiments.

2.9.4.1 Datasets

The described methods have been evaluated on eight time series and two standard re-gression datasets, to show the applicability of this methodology to generic regressionproblems. For the time series, the data matrices were composed using one-step-aheaddirect prediction strategy [166, 317]. The size of the built datasets are listed in Table2.12. For the time series, the number of variables refers to the regressor size, which waschosen according to the periodicity of each series.

Some of the series were preprocessed in order to make them more stationary by re-moving the trend and seasonality. This is particularly the case for all of the three series ofESTSP 2008 competition. The first series (ESTSP 2008a) is actually a set of three series,with two exogenous and one target series. The goal is to predict the next values of thetarget series. For our experiments we only used the target series, as correlation of the tar-get series with the other two exogenous series is not significant. The target series is thentransformed by taking the first order difference. ESTSP 2008b series was transformed byapplying x′t = log(xt/xt−1) to the original series defined by xt, t ∈ [1, . . . , 1300], in orderto remove the trend.

All datasets were normalized to zero mean and unit variance to prevent variables withhigh variance from dominating over those with a lower one. Therefore, all DT valuesshown are normalized by the variance of its respective output variable. No splitting ofdatasets was performed (i.e. training and test sets) because the objective of the study isthe data preprocessing to minimize the DT value and not the fitting of a model to thedata. It is important to note that in a real-world prediction application, the methodologyshould be applied to the training data available, but in these experiments the methodwas applied to the full datasets to provide repeatability, independently of the particularchoice of training and test subsets.

2.9.4.2 Approximate k-nearest neighbor performance

A preliminary test was carried out to assess the speed of the approximate method ofnearest neighbor computation as a function of ǫ. Typically, ǫ controls the trade-off betweenefficiency and accuracy. When ǫ is set larger, the approximation is less accurate, and thesearch completes faster.

The averaged results (10 runs) for Santa Fe, ESTSP 2007 and Mackey Glass 17datasets, after 200 generations, are shown in Figure 2.12 for values of ǫ between 0 and 2.Higher values were not tested as the DT estimate quickly deteriorates. The approximatemethod proves to be faster for larger values of ǫ, as expected. The computational timeimprovement for ǫ = 1 with respect to exact k-NN (ǫ = 0) ranges from 15% (Santa Fe)to 28% (ESTSP 2007).


Table 2.12: Datasets testedDataset Instances Variables

Mackey-Glass 17 [2] 1500 20

Mackey-Glass 30 [2] 1500 20

Poland electricity [3] 1400 12

Santa Fe [3] 1000 12

ESTSP 2007 [3] 875 55

ESTSP 2008a [3] 354 20

ESTSP 2008b [3] 1300 15

Darwin SLP [4] 1400 13

Housing [5] 506 12

Tecator*[6] 215 100

* This dataset was normalized in a sample-wise wayinstead of the typical variable-wise way, because ithas been proved that better DT values are achievedwith this variation [227].

Additionally, a study on the DT performance has been done, using several values ofǫ for approximate k-NN. The DT performance is plotted in Figure 2.13 using DTSP-1.A degradation of the DT is expected when allowing higher error bound. Experimentalresults show a clear increase trend for ESTSP 2007 and Mackey Glass 17 datasets whenǫ > 1. From these observations, we select the value ǫ = 1 for the rest of the experimentsas it seems the best compromise between speed-up and goodness of the DT estimate. TheDT given by the approximate search with ǫ = 1 stays close to the value given by theexact search in the majority of cases. The greatest difference was registered for Santa Fe,where there is an 8% DT reduction. Thus, we are reducing the computational cost withno significative performance loss. This result makes the approximate k-NN approach veryinteresting, especially for large datasets.

2.9.4.3 DT performance

The average DT values computed by each method for each dataset are shown in Figure2.14. The scaling and projection factors assigned to each variable have been omittedbecause the subject of interest are the DT values only.

From the inspection of the results, one can affirm that all the proposed methodsoutperform pure selection in the considered scenarios, except from rare exceptions givenby the fixed methods. The best performing method is DTSP-1 in most cases, followedby DTFSP. However, the DTFSP method ties with DTSP in some datasets, such asthe Mackey Glass series. Overall, the methods that include projections are the mostadvantageous. This was an expected result because they include the benefits of scalingand also leverage the possibility of using newly created variables to gain an advantageover scaling alone.

In general, the fixed variations provide slightly worse DT values than their standard


0 0.5 1 1.5 245

50

55

60A

ver

age

run

tim

e(s

)

ǫ

Santa Fe

0 0.5 1 1.5 270

80

90

100

110

120

130

Aver

age

run

tim

e(s

)

ǫ

ESTSP 2007

0 0.5 1 1.5 270

75

80

85

90

95

Aver

age

run

tim

e(s

)

ǫ

Mackey Glass 17

Figure 2.12: Computational time of the approximate k-NN search as a function of ǫ forthree datasets. The results were obtained running DTSP-1 for 200 generations and 10runs were averaged.

0 0.5 1 1.5 25.4

5.6

5.8

6

6.2

6.4x 10

−3

Aver

age

DT

ǫ

Santa Fe

0 0.5 1 1.5 29.4

9.6

9.8

10

10.2

10.4x 10

−3

Aver

age

DT

ǫ

ESTSP 2007

0 0.5 1 1.5 26.8

7

7.2

7.4

7.6

7.8x 10

−4

Aver

age

DT

ǫ

Mackey Glass 17

Figure 2.13: DT performance comparison for approximate k-NN search and different val-ues of ǫ for three datasets. The results were obtained running DTSP-1 for 200 generationsand 10 runs were averaged.

counterparts (e.g. Santa Fe, Poland electricity), meaning that learning models will beable to give similar performance on the halved dataset. Since only half of the variablesare used, the training times of models will greatly benefit from this reduction. The fixedversion also gives an insight into the most relevant variables, and in these experiments the⌈d/2⌉ most important dimensions for prediction. For ESTSP datasets, values of DTFSare not on the same level as those of DTS, suggesting that more than ⌈d/2⌉ variables arerequired for better prediction.

2.9.4.4 Computational time

A computational time comparison of the presented methods is shown in Figure 2.15. Thepure selection is obviously the fastest method because the combination of solutions totry is very limited. It is noticeable that DTSP-1 requires similar computational time toperform the 200 generations to DTS, and in some cases (ESTSP 2007, Darwin SLP) evenimproving times computed for pure selection. This might seem contradictory, as the sizeof the individuals is twice the size of those used for DTS in the GA setup. Althoughthe computational time for GA doubles when moving from DTS to DTSP-1, the runningtime of DT optimization is dominated by nearest neighbor search. The faster calculationtime for DTSP-1 could be attributed to the construction of the underlying data structureof approximate nearest neighbors, which uses a hierarchical space decomposition tree


called balanced-box decomposition (BBD) tree [17]. Additional dimensions might leadto favorable splitting of the points/samples into leaves of the tree, eventually improvingresponse time for query searches.

The fixed versions yielded good results in terms of DT values for some datasets, buttheir computational times are generally higher than their non-fixed versions. When usingMO optimization there is an additional cost inherent in NSGA-II method, which computescrowding distance to ensure that individuals from least crowded areas are included in thenext population. The additional O(hp2) complexity of NSGA-II for p = 150 slightlyincreases the running time for most datasets. The only exception is ESTSP 2008b, wherethe computational time for fixed methods is lower than for DTS/DTSP-1.

In the next section, the computational time and performance of the DTSP method isfurther analyzed for several values of k.

2.9.4.5 Projection to k > 1 dimensions

From the previous results one can extract the conclusion that DTSP-1 has clearly out-performed the rest of the methods while still keeping reasonably low computational timesin many scenarios (except for ESTSP 2008b, Darwin SLP and Poland electricity series).The DTSP method also offers the possibility of projecting to more than one dimension.In this subsection, projections to k = 1, 2, 3, 4, 5 dimensions are tested for each timeseries dataset. Figure 2.16 illustrates the DT results obtained and Figure 2.17 representsthe computational time evolution.

By looking at the results it is easy to observe that, for all datasets, the value of DT hasan optimum value after which it starts to rise again when adding more projections. Thequestion that remains is how to automatically select a good value for k that optimizesthe DT. One possible heuristic is the following: Start with k = 1 and compute the DTcriterion. Then progressively increase k by 1 until the value of DT no longer improves.Since the result of the GA depends on the initial population, in the proposed heuristic,instead of taking only one run of the GA, several runs should be performed and theminimum taken as the result for a certain value of k. The downsides of this approach are:a) the huge computational cost, since for each value of k, the GA is applied several timesto produce reliable DT values, and b) the possibility of stopping prematurely due to localminima.

The computational times show a general increasing tendency, which is logical due tothe complexity increase with k. The only exception was ESTSP 2007, for which computa-tional times show an irregular descending behavior. For Darwin SLP, the computationaltime registered for k = 1 is slightly higher than expected, as compared to the time requiredto project to more dimensions.

Finally, we have compared the minimum DT values achieved with DTSP-k to somepopular search methods that can use DT as performance criterion, such as FBS and TSwith the settings of [135], both for selection and discrete scaling (with 10 equally spacedlevels). For a fair comparison, these methods were executed in the same machine asDTSP-k and the the same amount of solutions were evaluated by each method. Theresults are listed in Table 2.13. The proposed methodology easily outperforms the classictechniques by a large margin.


DT

Santa Fe

DT

Method

Santa Fe

DT

ESTSP 2007

DT

Method

ESTSP 2007

DT

ESTSP 2008a

DT

Method

ESTSP 2008a

DT

ESTSP 2008b

D

T

Method

ESTSP 2008b

DT

Mackey Glass 17

DT

Method

Mackey Glass 17

DT

Mackey Glass 30

DT

Method

Mackey Glass 30

DT

Poland electricity

DT

Method

Poland electricity

DT

Darwin SLP

DT

Method

Darwin SLP

DT

Housing

DT

Method

Housing

DT

Tecator

DT

Method

Tecator

Figure 2.14: DT performance (average and minimum values) for ten datasets (ǫ = 1).


run

tim

es

ec

on

ds

Santa Fe

Ave

rag

eru

nti

mes

ec

on

ds

Method

Santa Fe

Ave

rag

e r

un

tim

e (

se

co

nd

s)

ESTSP 2007

Ave

rag

e r

un

tim

e (

se

co

nd

s)

Method

ESTSP 2007

Av

era

ge

ru

nti

me

(s

ec

on

ds

)

ESTSP 2008a

Av

era

ge

ru

nti

me

(s

ec

on

ds

)

Method

ESTSP 2008a

Av

era

ge

ru

nti

me (

se

co

nd

s)

ESTSP 2008b

Av

era

ge

ru

nti

me (

se

co

nd

s)

Method

ESTSP 2008b

Ave

rag

e r

un

tim

e (

se

co

nd

s)

Mackey Glass 17

Ave

rag

e r

un

tim

e (

se

co

nd

s)

Method

Mackey Glass 17

Ave

rag

e r

un

tim

e (

se

co

nd

s)

Mackey Glass 30

Ave

rag

e r

un

tim

e (

se

co

nd

s)

Method

Mackey Glass 30

Av

era

ge r

un

tim

e (

se

co

nd

s)

Poland electricity

Av

era

ge r

un

tim

e (

se

co

nd

s)

Method

Poland electricity

Av

era

ge

ru

nti

me (

se

co

nd

s)

Darwin SLP

Av

era

ge

ru

nti

me (

se

co

nd

s)

Method

Darwin SLP

Ave

rag

e r

un

tim

e (

se

co

nd

s)

Housing

Ave

rag

e r

un

tim

e (

se

co

nd

s)

Method

Housing

Ave

rag

e r

un

tim

e (

se

co

nd

s)

Tecator

Ave

rag

e r

un

tim

e (

se

co

nd

s)

Method

Tecator

Figure 2.15: Computational times obtained for ten datasets (ǫ = 1).


DT

Santa Fe

DT

k

Santa Fe

DT

ESTSP 2007

DT

k

ESTSP 2007

DT

ESTSP 2008a

DT

k

ESTSP 2008a

DT

ESTSP 2008b

DT

k

ESTSP 2008b

DT

Mackey Glass 17

DT

k

Mackey Glass 17

DT

Mackey Glass 30

DT

k

Mackey Glass 30

DT

Poland Electricity

DT

k

Poland Electricity

DT

Darwin SLP

DT

k

Darwin SLP

DT

Housing

DT

k

Housing

DT

Tecator

DT

k

Tecator

Figure 2.16: DTSP-k results using projection to k = 1, 2, 3, 4, 5 dimensions for tendatasets.


Ave

rag

e r

un

tim

e (

se

co

nd

s)

Santa Fe

Ave

rag

e r

un

tim

e (

se

co

nd

s)

k

Santa Fe

Ave

rag

e r

un

tim

e (

se

co

nd

s)

ESTSP 2007

Ave

rag

e r

un

tim

e (

se

co

nd

s)

k

ESTSP 2007

Av

era

ge r

un

tim

e (

se

co

nd

s)

ESTSP 2008a

Av

era

ge r

un

tim

e (

se

co

nd

s)

k

ESTSP 2008a

Ave

rag

e r

un

tim

e (

se

co

nd

s)

ESTSP 2008b

Ave

rag

e r

un

tim

e (

se

co

nd

s)

k

ESTSP 2008b

Ave

rag

e r

un

tim

e (

se

co

nd

s)

Mackey Glass 17

Ave

rag

e r

un

tim

e (

se

co

nd

s)

k

Mackey Glass 17

Ave

rag

e r

un

tim

e (

se

co

nd

s)

Mackey Glass 30

Ave

rag

e r

un

tim

e (

se

co

nd

s)

k

Mackey Glass 30

Av

era

ge

ru

nti

me

(s

ec

on

ds

)

Poland Electricity

Av

era

ge

ru

nti

me

(s

ec

on

ds

)

k

Poland Electricity

Av

era

ge r

un

tim

e (

se

co

nd

s)

Darwin SLP

Av

era

ge r

un

tim

e (

se

co

nd

s)

k

Darwin SLP

Ave

rag

e r

un

tim

e (

se

co

nd

s)

Housing

Ave

rag

e r

un

tim

e (

se

co

nd

s)

k

Housing

Ave

rag

e r

un

tim

e (

se

co

nd

s)

Tecator

Ave

rag

e r

un

tim

e (

se

co

nd

s)

k

Tecator

Figure 2.17: Computational times obtained for DTSP-1, 2, 3, 4, 5 for ten datasets.


Table 2.13: Minimum DT values calculated for the ten datasets using FBS, tabu searchand DTSP-k (denormalized values in brackets)

DatasetFBS Tabu DTSP-k

Selection Scaling Selection Scaling k DT

Santa Fe 0.0164 (36.09) 0.0094 (20.71) 0.0164 (36.11) 0.0108 (23.82) 1 0.0050 (11.00)

ESTSP 2007 0.0133 (0.082) 0.0137 (0.084) 0.0135 (0.083) 0.0156 (0.096) 1 0.0092 (0.056)

ESTSP 2008a 0.4959 (4.978) 0.4553 (4.570) 0.5409 (5.430) 0.4028 (4.043) 5 0.2223 (2.238)

ESTSP 2008b 0.2907 (9.7E-3) 0.2775 (9.3E-3) 0.2907 (9.7E-3) 0.2782 (9.3E-3) 3 0.1878 (6.3E-3)

Darwin SLP 0.1062 (0.7214) 0.1019 (0.6923) 0.1071 (0.7277) 0.0982 (0.6671) 4 0.0725 (0.4925)

Mackey Glass 17 11.5E-4 (5.9E-5) 9.5E-4 (4.9E-5) 11.5E-4 (5.9E-5) 9.5E-4 (4.9E-5) 2 6.3E-4 (3.2E-5)

Mackey Glass 30 4.0E-3 (3.2E-4) 3.8E-3 (3.0E-4) 4.0E-3 (3.2E-4) 3.8E-3 (3.0E-4) 1,2 1.6E-3 (1.3E-4)

Poland electricity 0.0481 (0.0013) 0.0404 (0.0011) 0.0481 (0.0013) 0.0379 (0.0010) 4 0.024 (6.6E-4)

Housing 0.0710 (6.009) 0.05654 (4.783) 0.0720 (6.089) 0.0558 (4.720) 3 0.0385 (3.257)

Tecator 0.0136 (2.2076) 0.0149 (2.412) 0.0112 (1.825) 0.0248 (4.023) 2,3 0.0028 (0.454)

2.9.5 Discussion

After extensive testing, several notable results have been obtained. We have profited fromusing the approximate version of the nearest neighbor computation to evaluate the DT.Preliminary tests on three datasets have shown that the approximate k-NN algorithmproduces computational time improvements of between 15% and 28% while keeping verysimilar DT values to the ones obtained by the exact search. Better improvements can beobtained at the expense of higher DT. This trade-off is controlled by parameter ǫ, whichprovided acceptable DT results in the range [0,1]. The results obtained suggest that theapproximate method is suitable for speed critical applications or large datasets.

With respect to the DT performance of the different fitness functions, all the proposedvariations provide better results than selection. The improvement introduced depends onthe method used, but generally DTSP provides the best results, followed by DTFSP.These improvements range from 24% (Darwin SLP) to almost 70% (Santa Fe, Tecator).The importance of projection stands out especially in Tecator dataset. Where scaling ishardly able to obtain any improvement against selection, projection manages to reducethe estimate by a great amount. In some cases, fixed methods do not perform well (e.g.most ESTSP time series). This is probably because in complex problems, the limitedamount of variables (d/2) did not allow further DT minimization.

We found that the DTSP method was not only the best overall performer, but italso generally reached these good results in a reasonable amount of time. It performscomparably to DTS in terms of speed, despite having twice the number of genes tooptimize. In the particular case of ESTSP 2007 it outperformed pure selection in termsof speed, which is a remarkable result.

The adjustable number of projections also aided in the obtention of lower DT values.The progression of the DT curves as a function of k shows a minimum where the optimumDT has been registered. As we only tested projections to k ≤ 5 dimensions, better valuesmay be found for higher k’s, at the expense of computational time. The increase incomputational time as a function of k generally follows an increase with k, save forESTSP 2007 dataset, which produced an irregular descending trend.

The second overall best performing method has been DTFSP. The improvement pro-vided by this method follows a similar trend to DTSP, as both include projection capabil-


ities. Likewise, DTFS was able to show similar performance to DTS using only half of thevariables, which is a promising result. However, the running times for DTFS and DTFSPwere higher than for DTS and DTSP, respectively, in 8 out of 10 datasets. The fact ofcarrying out a double objective optimization without increasing the number of genera-tions could have affected the performance. Besides, we believe that the strong constraintimposed by grounding half the regressor variables to zero can justify this difference. Ofcourse, the number of variables that are considered zero can be tweaked to match theneeds of every particular user (e.g. for applications limited by number of variables). Tosum up, the fixed methods can be very beneficial when building a model because it willonly be necessary to deal with a fraction of the initial number of inputs, achieving similarresults.

Casting the scaling problem with a fixed number of variables into MO setting increasesthe run time on the tested datasets. In order to achieve lower running times, the num-ber of individuals in the population has to be reduced, which influences the explorationcapabilities of the GA in a negative way. The additional computational time of NSGA-IIprevents it from being used in this type of problem. Therefore, faster and simpler tech-niques should be employed to lower the running times of the fixed scaling (plus projection)problem. One such possibility is the island GA with migration policies that do not havesuch high complexity.

2.9.6 Conclusion

This study has presented a fast methodology for DT minimization based on a global searchguided by a GA, which has been successfully applied to a variety of time series datasets.The methodology can be generalized to other regression problems with a single output,as it has also been shown. The most important goals of the proposed methodology are toreduce the datasets in order to simplify the complexity of the necessary modeling schemesand to improve interpretability by pruning unnecessary variables, only keeping those thatare really important for the prediction.

The DT method requires the computation of the nearest neighbor of each point. Thetime needed for this computation has been greatly alleviated by using an approximate ver-sion of the k-nearest neighbor algorithm. The DT was optimized using several methodolo-gies: scaling of variables (DTS), scaling + projection to a number of dimensions (DTSP)and versions of these with a fixed number of variables (DTFS and DTFSP, respectively).These methods can minimize the DT beyond the limits imposed by pure selection andhelp to increase interpretability of the datasets.

The results obtained are very promising, especially for the methods that include pro-jection. Projection has helped to bring out underlying relationships between variablesthat were initially not apparent, thus allowing a significant DT minimization with respectto scaling alone. DTSP was the best performing method in all scenarios and it reached amaximum DT minimization of 70% over pure selection. Moreover, the low computationaltime of this method makes it suitable for problems that involve large datasets. The pos-sibility of varying the number of dimensions to project to enables a fine refinement of theresult that proved useful in all tests.


2.10 Conclusion

In this chapter we have focused on the need for variable selection in complex datasetsused for regression, with a double objective in mind:

1. to reduce the complexity of the necessary models, lowering the computational timeneeded to train them and

2. to bring out hidden relationships among variables, improving the interpretability ofthe problems.

We have reviewed the existing variable selection and guided search methods and finallyfocused on the nonparametric noise estimators for our study and, particularly, on theDelta Test criterion. Fixing this criterion, we developed a global methodology that wasimproved sequentially.

In the first part of the chapter we obtained very interesting conclusions with regardto the quantitative improvement of training times when using reduced datasets againstthe full sets of variables, while keeping similar error performance. In addition to that, thenecessary number of nodes of the ANNs (concretely ELM models for faster training ofsingle hidden layer networks) was drastically reduced, allowing much simpler implemen-tations. We introduced the use of scaling factors to further reduce the Delta Test, at theexpense of higher training times.

After that, we swapped the local search used so far (FBS) to a global search algorithm(GA) for a better approximation to the global optimum set of variables. We continuedtesting pure selection and scaling with 10 levels. The search computational time increasewas alleviated by parallelizing the search among several processors in a cluster, allowinga quasi-linear improvement with the amount of processors. A variation in the search wasintroduced by combining both a local (using TS) and global (using GA) exploitation ofthe solutions, which offered a good compromise between the exploration and exploitationof the search, obtaining lower DT values than the classical methodologies.

The next step to obtain lower DT values was to change the implementation of the GAto accept an infinite alphabet, yielding a fully real-coded GA. This new implementationoffered a considerable improvement as the solutions were no longer restricted to a limitedalphabet of 10 levels. A major improvement was also the inclusion of projection of theexisting variables to new fictitious dimensions. This method increases the number ofvariables instead of reducing it, but it manages to find relationships between variablesthat remained not obvious. The addition of projection has proved to find lower values ofDT than scaling alone in all performed tests.

We also studied a new custom initialization of the GA populations, with a customfunction that assigns a uniform initialization to a percentage of the population and therest can be customized by the user, specifying how many of the remaining individualsare initialized randomly and how many of them are left as zeros. This initializationfunction proved to produce better solutions when the custom percentage was higher thanthe uniform one in most cases.

In the last part of the chapter we introduced a few modifications to further optimizethe methodology. In the first place, the computational burden due to the calculation

2.10. CONCLUSION 109

of the nearest neighbor of each point (needed for the DT calculation) was considerablyreduced by using an approximate method for nearest neighbor search.

We kept the improvements given by scaling and projection, but the projection wasextended to more than one extra dimension, allowing a refinement of the best solution byexamination of the results as a function of the number of projected dimensions. Also, afixed variation of the scaling and projection methods was introduced, in which the usercan specify the exact number of variables that he/she wants to maintain, and optimizethe DT subject to that constraint. This double optimization was performed using amulti-objective optimization (NSGA-II).

Capítulo 3

Aplicación de las ANNs a la predicción ensistemas biológicos: producción de micotoxinasen alimentos

En este capítulo se propone la aplicación de las ANN como herramientas predictivasen el campo de la microbiología, más concretamente se van a emplear para predecir laaparición de toxinas producidas por hongos que pueden crecer en determinados alimentosbajo la influencia de diferentes factores ambientales siendo, a veces, cancerígenas. Estastoxinas reciben el nombre de micotoxinas. Las ANNs podrían ayudar a establecer modeloscapaces de predecir con precisión los niveles que ciertas micotoxinas pueden alcanzar en losalimentos. Tales modelos serían capaces de competir o mejorar los métodos de estimaciónpredictiva utilizados hasta la fecha, tales como las superficies de respuesta (RS).

3.1 El problema de las micotoxinas en alimentos

Los hongos o mohos que crecen normalmente en muchos cultivos y alimentos en todo elmundo, además de generar graves pérdidas económicas por deterioro en las cosechas,

pueden también producir micotoxinas, las cuales son productos del metabolismo secun-dario de los hongos que pueden resultar tóxicos para el ser humano y los animales. Latoxicidad de estos compuestos puede ser de diversa índole: aguda, crónica, mutagénica yteratogénica [275]. Muchos de los hongos toxigénicos son ubicuos y tienen usualmente unaestrecha relación ecológica con el suministro de alimentos. Los géneros más importantes encuanto a producción de micotoxinas en alimentos son Fusarium, Aspergillus y Penicillium[275].

Hay cinco micotoxinas o grupos de micotoxinas que se presentan frecuentemente en losalimentos: tricotecenos del tipo B entre los que destaca el deoxinivalenol (DON), reem-plazado en algunas zonas por nivalenol (NIV), zearalenona, ocratoxinas, fumonisinas yaflatoxinas [240]. Además, existe un número elevado de metabolitos tóxicos cuya presen-cia en los alimentos es bastante menos frecuente. La Tabla 3.1 resume los alimentos másafectados por estas micotoxinas, las especies que las producen y los principales efectostóxicos observados en seres humanos y en animales.

F. graminearum y F. culmorum son especies muy relacionadas que producen DON,NIV y zearalenona, dependiendo del origen geográfico de la cepa [241]. DON es probable-

111

112 CAPÍTULO 3. PRODUCCIÓN DE MICOTOXINAS EN ALIMENTOS

Tabla 3.1: Principales micotoxinas y alimentos en los cuales se presentanMicotoxina Alimento Especies productoras Efectos de la ingesta

Deoxinivalenol Trigo, maíz, cebada Fusarium graminearum,Fusarium crookwellense,Fusarium culmorum

Toxicosis humanas en India, China,Japón, y Corea. Tóxico para los ani-males, especialmente en cerdos

Zearalenona Trigo, maíz Fusarium graminearum,Fusarium crookwellense,Fusarium culmorum

Posible carcinógeno en humanos segúnla International Agency for Researchon Cancer (IARC). Afecta el sistemareproductor de los cerdos hembra

Ocratoxina (espe-cialmente ocratoxi-na A)

Trigo, cebada,uvas, café, cerveza,vino

Aspergillus ochraceus,Penicillium verrucosum,Aspergillus carbonarius yotros

Clasificado por la IARC como posiblecarcinógeno para seres humanos. Car-cinogénico en animales de laboratorioy en cerdos

Fumonisina B1 Maíz Fusarium moniliforme yotros

Posible carcinógeno en humanos segúnla IARC. Toxico para cerdos y aves decorral. Causante de la leucoencefalo-malacia equina, una enfermedad mor-tal de los caballos

Aflatoxinas B1, B2,G1, G2

Maíz, cacahuete yotros productos ali-menticios

Aspergillus flavus,Aspergillus parasiticus

La aflatoxina B1 es un potentecarcinógeno en humanos [162]. Efectosadversos en animales, especialmentepollos

mente la micotoxina de más amplia distribución en alimentos y piensos y fue la respon-sable de un brote tóxico en Kashmir Valley (India) en 1988 [31]. La toxicidad aguda semanifiesta con vómitos y desórdenes intestinales. Los niveles máximos en cereales y otrosalimentos están limitados por la Comisión Europea [68].

La ocratoxina A, la más importante desde el punto de vista toxicológico dentro delgrupo de las ocratoxinas, es producida principalmente por Aspergillus ochraceus en ce-reales y por A. carbonarius en uvas aunque existen otras especies de hongos capacesde producirla también. Produce fragilidad intestinal, inmunosupresión, teratogenicidad,citotoxicidad en células hepáticas, nefrotoxicidad, anemia y carcinogenicidad en ratonesmachos [34, 165, 186]. La Agencia Internacional de Investigación sobre el Cáncer la haincluido en el grupo 2B (sustancias probablemente cancerígenas para el ser humano) [162].Se ha encontrado en sangre procedente de personas sanas, alimentos de consumo gener-alizado como cereales, cacahuetes, judías, uvas, frutos secos, café, pan, y bebidas (leche,vino, zumo de uva, cerveza). Dada su elevada toxicidad, su vasta incidencia en alimentos ybebidas de uso corriente en todo el mundo y la dificultad de su eliminación, se ha generadoun gran interés por esta micotoxina en todo el mundo y su concentración está limitada envarios alimentos [68]. Si se sobrepasan los límites establecidos se generan graves proble-mas comerciales que pueden originar considerables pérdidas económicas, además de lasposibles consecuencias negativas para la salud de los consumidores.

3.2 Principales factores que influyen en la producción

de micotoxinas

Los factores más significativos que influyen en la producción de micotoxinas por los hongosque habitualmente contaminan las cosechas agrícolas tanto durante su cultivo como enpostcosecha son diversos [26, 155, 220, 231, 232, 243, 276, 287, 333]. Entre estos factoresdestacan:

3.2. FACTORES QUE INFLUYEN EN LA PRODUCCIÓN DE MICOTOXINAS 113

• Temperatura ambiental.

• Actividad de agua (aw) del sustrato sobre el que se desarrolla el hongo. Este parámetroindica la proporción de agua biodisponible y está relacionado con la humedad rela-tiva del ambiente.

• Especie y cepa fúngica.

• Nivel de contaminación del sustrato con el hongo productor de la toxina.

• Naturaleza del sustrato (cereales, frutas, etc)

• Tiempo.

• Prácticas agrícolas (tratamiento con fungicidas).

La influencia de estos factores no es independiente sino que existen complejas inter-acciones entre ellos que dificultan la obtención de conclusiones de amplia aplicación. Así,en relación con la temperatura ambiente existen especies fúngicas productoras de mico-toxinas que se desarrollan mejor a temperaturas suaves o relativamente altas (20-35 oC)como A. carbonarius [25, 190, 231, 243], mientras que otras están aclimatadas en zonasfrías como Penicillium verrucosum (10-15 oC) [205]. Ambas especies producen ocratoxinaA. No obstante, las temperaturas óptimas para el crecimiento del hongo no suelen coin-cidir normalmente con las óptimas para la biosíntesis de las micotoxinas [231]. Del mismomodo, el rango de temperaturas en el que puede crecer el hongo es más amplio que elrango en el que puede producir micotoxinas.

En lo que se refiere a actividad de agua, valores elevados de aw, del orden de 0.99-0.995,favorecen el crecimiento de muchos hongos pero otros se desarrollan mejor con menos aguabiodisponible, son los denominados hongos xerófilos. También ocurre, al igual que sucedecon la temperatura, que los valores de aw más propicios para la producción de micotoxinasno suelen coincidir en general con los más favorables para el crecimiento fúngico [243].

Los dos factores más importantes que afectan el ciclo vital de los mohos productores demicotoxinas son la temperatura y la aw [209, 210]. Ambos factores interactúan e influyenen la germinación, esporulación y producción de micotoxinas [302]. Se ha apuntado queel estrés térmico e hídrico moderado puede favorecer la producción de micotoxinas.

Cuando un producto agrícola se encuentra contaminado con micotoxinas, su consumono es aceptable. La legislación vigente contempla estrictas medidas de control de los nive-les de micotoxinas aceptables en alimentos y piensos [68], y ello supone grandes pérdidaseconómicas para los productores y exportadores. La mejor manera para luchar contrala presencia de micotoxinas en alimentos y piensos es el establecimiento de medidas deprevención. Por ello, el conocimiento de la influencia de las variables ambientales (tempe-ratura, humedad) en la producción de micotoxinas es clave para estimar como puede verseafectada en el futuro el nivel de micotoxinas en los alimentos y el riesgo que puede implicarel cambio climático global en este proceso [210]. Estos factores pueden interactuar no soloentre sí sino también con otros como el sustrato.

La influencia de la especie fúngica es fundamental ya que una especie puede produciruna o varias micotoxinas de estructura similar pero otras no. Por ejemplo, F. culmorumo F. graminearum pueden producir tricotecenos, como DON pero no OTA, fumonisinas,


patulina u otras toxinas (Tabla 3.1). Incluso dentro de una especie ciertas cepas sonproductoras de unas determinadas toxinas pero otras cepas no lo son. Así en la especieFusarium culmorum o F. graminearum existen grupos denominados quimiotipos DON yNIV que biosintetizan DON o NIV fundamentalmente, los cuales están incluidos dentrode los tricotecenos tipo B. Lógicamente, la producción de micotoxinas es estrictamentedependiente de la base genética del microrganismos pero es fundamental la expresión delos genes específicos que regulan la biosíntesis de los metabolitos y esta expresión dependede la confluencia de factores ambientales [304].

El sustrato o tipo de alimento en el que crece el hongo) es de fundamental importanciaya que existe una especificidad entre este factor (llamado hospedador) y el hongo. Porejemplo, F. graminearum y F. culmorum contaminan cereales y raramente son aislados enotras matrices alimenticias. A. carbonarius crece en uvas fundamentalmente y en menorextensión se ha aislado en café, cebada y otros productos alimenticios (ver Tabla 3.1).

Algunos agentes antifúngicos (fungicidas) utilizados en tratamientos agrícolas comocarbendazima, tridemorf, difenoconazol, etc. para evitar o retrasar el crecimiento de loshongos pueden favorecer la producción de micotoxinas por Fusarium fitopatógenos si seaplican en dosis subletales [92] o por Aspergillus [220, 231, 232].

3.3 Aproximación a la predicción del nivel de contam-

inación por micotoxinas de los alimentos

Sería de gran utilidad para la seguridad alimentaria y también para el comercio poderpredecir con fiabilidad la concentración de las micotoxinas en los alimentos sin necesidadde efectuar determinaciones analíticas costosas y que deben realizarse a posteriori conlas correspondientes consecuencias. La microbiología de los alimentos predictiva es larama de la microbiología que trata de los modelos matemáticos que pueden usarse parapredecir el comportamiento de los microorganismos que se desarrollan sobre los alimentos,fundamentalmente en cuanto a crecimiento y producción de ciertos metabolitos. Es uncampo emergente con gran repercusión y variedad de posibles aplicaciones en el áreasanitaria y en el comercio.

El desarrollo de modelos predictivos en este campo es una tarea de gran interés perodifícil dado el número de variables que influyen sobre el desarrollo del hongos, como ya seha indicado anteriormente (véase la Sección 3.2). Durante algún tiempo la metodologíaconocida como superficies de respuesta (RS) se ha usado ampliamente para predecir ymodelar el crecimiento de microorganismos. Se trata de modelos basados en la regresiónlineal múltiple en los cuales se supone una relación lineal entre las variables predictorasy le respuesta [296, 376]. Estos modelos se han aplicado fundamentalmente a modelar elcrecimiento microbiano y raramente a predecir el nivel alcanzado por las micotoxinas enlos alimentos y otros sustratos. Por otra parte, suponen la existencia de relaciones linealesentre las variables predictoras y las dependientes y ello no está probado en muchos casos.

Modelos basados en las ANN se han aplicado también en microbiología predictivapara modelar el crecimiento microbiano en base, fundamentalmente, a temperatura y aw[116, 117, 118] o para predecir la inactivación térmica de bacterias en función de esosparámetros y también del pH [203]. Muy pocos modelos predictivos se han desarrolladopara describir el impacto de la temperatura y la aw sobre la acumulación de micotoxinas

3.4. ANNS PARA PREDECIR LA OTA PRODUCIDA POR A. CARBONARIUS 115

en cereales y otros alimentos almacenados. Este fue el motivo que llevó a efectuar unestudio sobre la aplicabilidad de modelos basados en ANN para predecir la concentraciónde algunas micotoxinas en función de condiciones ambientales determinadas.

3.4 Desarrollo de ANNs para predecir la concentración

de ocratoxina A en medio basado en zumo de uva

contaminado con Aspergillus carbonarius

La producción de OTA es dependiente de la temperatura, la aw, el tiempo, la presenciade fungicidas, la cepa del hongo, etc [26, 190, 213, 243, 333]. Según Llorens et al. [202] elefecto de la temperatura sobre la producción de DON por F. graminearum y F. culmorumen maíz es muy significativo, consiguiéndose un mayor nivel de DON a 28 oC. El efecto dela humedad fue menos importante y no significativo. El conocimiento de esta influenciaes clave para la elección de las variable predictoras o inputs y sus valores para el diseñoexperimental sobre el cual se basa el tratamiento de los datos para el desarrollo de ANNsdirigidas a predecir con el mayor acierto posible el nivel de estas micotoxinas, DON yOTA, in vitro.

3.4.1 Diseño experimental: Obtención de la matriz de datos

El trabajo experimental ha sido llevado a cabo en el laboratorio de investigación delgrupo “Micología y Micotoxinas” del Departamento de Microbiología y Ecología de laUniversidad de Valencia.

La Figura 3.1 esquematiza el proceso seguido para la obtención de los datos. Se preparaun stock de zumo de uva (variedad Bobal). A porciones de este zumo se le añade glicerolacuoso para modificar la aw de forma que se obtengan tres valores diferentes una vez queel medio esté preparado (0.94, 0.96 y 0.98). La mezcla contiene 20 % de mosto de uvay 80 % de agua-glicerol. Se añade un 2 % de agar y se esteriliza en autoclave a 115 oCdurante 30 minutos. Cuando se sacan los matraces del autoclave se añade a cada uno(a aproximadamente 45 oC) el volumen necesario de una suspensión de carbendazimade 100 mg/l o una dilución de la misma para tener dosis del fungicida en el intervalo0-450 µg/l (Tabla 3.2). Estas dosis son sub-inhibitorias y permiten crecer al hongo. Losmedios se reparten en placas de Petri y se inoculan con 2× 10−3 ml de una suspensión deesporas de A. carbonarius (cepa Ac 25, colección del Dep. de Microbiología y Ecología dela Universidad de Valencia) (1 × 106 esporas/ml). Estos cultivos se incuban en cámarasisotérmicas a tres temperaturas ambientales según la Tabla 3.2 con la misma aw que teníacada cultivo. Todos los experimentos se realizan por duplicado. Cada placa de Petri seobserva diariamente y cuando las colonias del hongo alcanzan 5 mm de diámetro medio(lo que se conoce como fin de la fase lag) se determina la concentración de OTA en elmedio desde el día 3 hasta el día 15. El conjunto de condiciones experimentales apareceen la Tabla 3.2.

La metodología analítica para determinar la OTA en este medio se esquematiza en laFigura 3.2. Se basa en la extracción del cultivo (agar más micelio del hongo) con metanol,seguida de filtración a través de una columna que contiene el adsorbente Celite 545 y


Tabla 3.2: Condiciones experimentales para la obtención de datos de niveles de OTAVariable Valores

aw 0.94 0.96 0.98

Temperatura (oC) 20 25 28

Dosis de carbendazima(µg/l)

0 50 150 250 350 450

Tiempo de incubación trasla fase lag (días)

3 4 5 6 7 8 9 10 11 12 13 14 15

posterior centrifugación. El sobrenadante del extracto se transfiere a un vial y se inyectaen un cromatógrafo de líquidos.

El equipo cromatográfico utilizado consta de las siguientes partes:

• Sistema de desgasificación “on-line” para la fase móvil.

• Bomba de alta presión Waters 600E: opera impulsando la fase móvil (acetonitrilo-agua-ácido acético, 44:55:1, vol/vol/vol) a un flujo constante de 1 ml/min la cualatraviesa el sistema desde la bomba al detector, pasando por inyector y columna.

• Inyector automático de muestras Waters 717.

• Precolumna + columna cromatográfica (Phenomenex Gemini C18, 150 × 4.6 mm, 5µm de diámetro de partícula, Phenomenex, Macclesfield, UK). En la columna tienelugar la separación de los compuestos inyectados que depende de sus propiedadesfisicoquímicas y de la interacción entre las moléculas de estos compuestos con la faseestacionaria enlazada a la columna y la fase móvil que la atraviesa desde el inyectoral detector.

• Detector de fluorescencia con escáner Waters 470 (Waters Co., Milford, MA, USA).

• Software Millennium 4.0 (Waters) para control del sistema y tratamiento de datoscromatográficos

Las moléculas de OTA arrastradas por la fase móvil atraviesan una microcelda decuarzo (16 µL) continuamente irradiada con un haz de luz monocromática de longitudde onda (longitud de onda de excitación, λex) 330 nm procedente de una lámpara dexenon (150 W). Esta radiación produce la excitación de las moléculas de OTA desde elestado electrónico fundamental a estados electrónicos excitados de mayor energía. Lasmoléculas excitadas en un tiempo del orden de microsegundos emiten luz al regresar alestado fundamental (fluorescencia). Una parte de la radiación emitida atraviesa un orificioen dirección perpendicular al haz excitatriz, incide en un monocromador y el haz de luzmonocromática cuya longitud de onda es 460 nm (longitud de onda de emisión, λem) llegaal detector. La radiación incidente en el detector (transductor fotónico) se transformaen corriente eléctrica cuya intensidad es directamente proporcional a la potencia de laradiación incidente y, por tanto, a la concentración de moléculas de OTA en la microceldasi tal concentración es baja. Este detector presenta la ventaja de ser selectivo ya que sololas sustancias que presentan fluorescencia a la longitud de onda de emisión seleccionada(460 nm) originan una señal lo cual disminuye drásticamente el número de sustanciasinterferentes. La fase móvil seleccionada origina solo una débil señal de fondo. Otra ventaja

3.4. ANNS PARA PREDECIR LA OTA PRODUCIDA POR A. CARBONARIUS 117Uva variedad BobalPrensado y f ilt rado:obtención del zumo de uvaAdición de glicerolagua paramodificar la aw (0.94, 0.96 y0.98)Adición de 2% de agarEsterilización en autoclave:110 ºC, 30 minAdic ión de suspensión decarbendazima (a 45 ºC)0 (contro l), 50, 250, 350 y450 Ég/LVert ido en placas de Petriestériles.Inoculación con suspensiónde esporas de AspergilluscarbonariusIncubación a 15, 20 y 25 ºCMed ida de l d iámet ro de lascolonias para dete rminar lafase lag.Anális is d ia rio delos cult ivos ent re los días 3 y15 pa ra dete rmina r OTA

CARBENDAZIMAMFigura 3.1: Esquema de la preparación de los cultivos de Aspergillus carbonarius en mediopreparado con zumo de uva.

del detector de fluorescencia es su alta sensibilidad que permite detectar concentracionesmuy bajas del compuesto fluorescente, de modo que el límite de detección es menor de0.01 µg OTA/g de muestra analizada (basado en una relación señal/ruido = 3). Con otrotipo de detectores menos sensibles, como el de luz ultravioleta, no se consiguen límites dedetección tan bajos.

La señal del detector (voltaje originado por la radiación fluorescente emitida por la


Metanol, 50 mLFilt ración del extracto a travésde Celite® 545 para eliminarimpurezas

EXTRACCIÓNPURIFICACIÓN

20 g cult ivo (sust rato + biomasa)

Centrifugación de 1 mL def ilt radoTransferencia del sobrenadantea un vial para inyección en elcromatógrafo de líquidosSeparacióncromatográf ica deocratoxinaA:detección/cuant if icación ex: 330nm em: 460nm

CROMATOGRAFIA

+

Figura 3.2: Esquema del proceso analítico para determinar OTA en cultivos de A. car-bonarius en medio obtenido a partir de uvas.

disolución a 460 nm) se registra en función del tiempo que transcurre desde que se in-yecta la muestra. El gráfico obtenido se denomina cromatograma y en él aparece el picooriginado por la OTA a un tiempo determinado (tiempo de retención) que es constantesi las condiciones cromatográficas no varían (Figura 3.3) y que por ello se usa con finesidentificativos. El software del cromatógrafo integra el pico proporcionando su área, lacual se usa con fines cuantitativos. La concentración de OTA se obtiene por interpolaciónanalítica del área correspondiente a su pico en la ecuación de una recta de calibrado pre-viamente obtenida por regresión lineal a partir de una serie de disoluciones patrón de OTAde concentraciones perfectamente conocidas y sometidas al mismo proceso cromatográfico


Figura 3.3: Cromatograma de OTA obtenido en las condiciones indicadas en el texto. Lafórmula de la toxina aparece en la esquina superior derecha.

experimentado por la muestra. Para el cálculo de la concentración de OTA en la muestraes preciso tener en cuenta las operaciones efectuadas a lo largo del proceso de preparaciónde la misma.

Para cada una de las distintas combinaciones de condiciones experimentales se obtienendos datos de concentración de OTA correspondientes a las dos réplicas. Los datos mediosde OTA constituyen los targets o valores observados en el conjunto de datos.

Tras la ejecución del diseño factorial completo, se obtiene finalmente una matriz dedatos que tiene 585 filas con cuatro columnas que constituyen las entradas (inputs) alsistema predictor (temperatura, aw, dosis de carbendazima y tiempo) y una columnade salidas (concentración media de OTA). Éste es el conjunto a utilizar para diseñar lasredes neuronales. Sin embargo, estas variables, tanto de entrada como de salida, se escalanpreviamente entre -1 y +1 para ajustar las señales internas de la red al rango de la funciónsigmoide (tangente hiperbólica).

3.4.2 Distribución del conjunto de datos

A priori no existe ninguna regla para efectuar la partición óptima del conjunto de datos.Para este experimento se ha realizado la siguiente partición:

1. Con early-stopping :

• Entrenamiento: 500;

• Validación: 40;

• Test 45.

2. Sin early-stopping :

• Entrenamiento: 500;

• Test: 85.


La función de coste a minimizar durante el entrenamiento fue el MSE para los al-goritmos LM y RP: En el caso de BR es la modificación indicada en la Sección 1.6.5.3.Ambas están implementadas en MATLAB. En todo caso, la función que se considera paracomparar la eficacia de las diferentes ANNs es, principalmente, el MSE.

En cada caso se llevan a cabo 20 repeticiones tomando en cada una diferentes con-juntos de datos de entrenamiento, validación y test o bien de entrenamiento y test. Lospesos iniciales son diferentes para cada arquitectura y en cada una de la repeticiones ladivisión del conjunto en los subconjuntos es llevada a cabo de forma aleatoria (muestreoaleatorio). Finalmente, los resultados se promedian para minimizar los sesgos originadospor la elección aleatoria inicial de muestras y pesos. El objetivo es encontrar el modelo queda lugar al mínimo MSE para el conjunto de test (MSEtest), que es una buena estimaciónde la capacidad de generalización.

3.4.3 Modelos de MLP ANN con una capa oculta

Para evaluar la exactitud de la predicción y la bondad del modelo se usan las funcionesMSE, RMSE y error estándar de predicción ( %SEP). Asimismo, se computa el valor delcoeficiente de determinación R2. La función de activación elegida es la tangente hiperbóli-ca (tansig). El entrenamiento de la red se optimiza mediante el criterio que por defecto usala Neural Network Toolbox de MATLAB que consiste en la minimización del MSE. Segúnesto, cuanto menor sea el MSE mejor se adaptan los datos. Existen otros índices relaciona-dos con la bondad del ajuste de los datos al modelo como el llamado factor sesgo “biasfactor” (Bf) y el factor exactitud “accuracy factor” (Af ) que fueron desarrollados inicial-mente por Ross [296] para modelar el crecimiento bacteriano y aplicados posteriormentepor varios autores a las ANN en el campo de la microbiología predictiva del crecimientobacteriano [118, 268, 269, 375]. Ambos índices son iguales a 1 en un modelo perfecto. Bf

proporciona una indicación de cuanto se desvía un modelo en sus predicciones por arribao debajo de los valores objetivo según sea mayor o menor que 1. Af indica en cuanto enpromedio los valores predichos difieren de los datos observados. Ambos no son de utilidadsi alguno de los valores observados es cero [374]. Estos índices no están implementados enla Neural Network Toolbox de MATLAB y deben calcularse aparte.

El conjunto de datos se divide en un conjunto de entrenamiento, un conjunto devalidación y un conjunto de test. El conjunto de validación se usa para determinar elpunto de parada del entrenamiento (early-stopping) con el fin evitar el sobreentrenamientocomo se indicó previamente (Sección 1.6.1). Alternativamente y con fines comparativos seestudia la modelización de MLP ANNs sin tener en cuenta el subconjunto de validaciónpero sí el de test. En este caso se lleva a cabo un número de epochs prefijado e igual a100. Tras este proceso de entrenamiento el conjunto de test se presenta a cada red y secomputa su MSE (MSEtest). Antes de empezar el tratamiento todas las variables se escalanentre -1 y +1, tal y como se mencionó en la Sección 3.4.1. Tras efectuar los cálculos seinvierte el escalado. Los valores de las concentraciones de OTA predichas, que constituyenla variable de salida una vez desescalada, no pueden ser negativos por motivos lógicos.Por ello, cuando al desescalar obtienen estos valores negativos se han de considerar comocero, es decir que las concentraciones son indetectables.

El número de nodos en la capa oculta varía desde 2 hasta 30 mediante la adiciónsistemática de dos nodos en cada red, es decir:


N = (2, 4, 6, . . . , 30). (3.1)

Los algoritmos usados para el entrenamiento son Levenberg-Marquardt (LM), resilientback-propagation (RB) y regularización bayesiana (BR), todos ellos incluidos en la NeuralNetwork Toolbox de MATLAB.

3.4.4 Modelos MLP con dos capas ocultas

En estos modelos, la arquitectura se describe como 4/N1/N2/1 siendo N1 y N2 el númerode neuronas en la primera y segunda capa oculta, respectivamente. En cada arquitectura,N1 es un número par que se hace variar desde 10 a 20 mediante la adición sistemáticade dos neuronas mientras que N2 es un número par que, para cada valor de N1, se hacevariar desde 2 hasta como máximo N1 siempre que no se exceda el número de 32 neuronas,el cual se propone para que el número total de neuronas ocultas no sea muy elevado encomparación con las redes de una capa. Es decir:

N1 = 10, 12, 14, 16, 18, 20 (3.2)

N2 = 2, 4, 6, . . . , N1 − 2, N1, /N2 ≤ N1; N1 +N2 ≤ 32 (3.3)

Para cada arquitectura, el entrenamiento se realiza con los tres algoritmos anterior-mente indicados (LM, BR y RP) usando un conjunto de validación para early-stoppingo simplemente submuestreo aleatorio sin conjunto de validación. El número de datos enlos diferentes conjuntos es el mismo que el descrito para perceptrones de una capa. Elobjetivo es también el mismo en el caso de los MLP de una capa: encontrar el modelo queda lugar al mínimo MSEtest.

3.4.5 Modelos con redes de función de base radial

El diseño de la RBF no precisa del uso de un subconjunto de validación. Se construyede modo diferente a un perceptrón, usando todos los valores de la matriz de datos deentrenamiento para la optimización de los pesos, pero no los de la matriz de test. Una vezconstruido el modelo de RBF se ensaya su capacidad predictiva sobre el subconjunto detest.

En este caso concreto, el número de neuronas en la capa oculta se hace variar desde1 hasta 80, mostrando los resultados cada 5 neuronas añadidas, utilizando la funciónnewrb de Matlab (véase Apéndice B). También se computa un modelo con 200 neuronasocultas para evaluar el efecto de un número muy elevado de neuronas sobre la calidad dela predicción. El parámetro spread se ha ensayado entre 0.2 y 1.4 con varias RBFN paraelegir el valor más apropiado en base a la obtención del mínimo valor del MSEtraining yMSEtest.

Los valores de spread ≥ 1 dan lugar a un aumento del error. Finalmente se elige elvalor 1.0 por originar el menor MSE. El conjunto de datos se divide en 500 muestras paraentrenamiento y el resto (85) para test como en la computación de MLP sin conjunto devalidación. Durante el entrenamiento las muestras también se eligen al azar. Se computanlos mismos parámetros de error que en el caso de los MLP ANNs y, de igual modo, para


cada arquitectura se promedian los resultados del error de 20 repeticiones completas conel objetivo de minimizar los efectos del sesgo.

3.4.6 Resultados

La Figura 3.3 muestra un cromatograma obtenido con una muestra de cultivo preparadocon zumo de uva en el que se observa el pico correspondiente a OTA. El área comprendidaentre la línea de señal y la línea de base se integra mediante software entre un punto inicialy un punto final, en los cuales el software considera que comienza a haber una señal distintade la línea de base y que termina de existir una señal distinta a la del pico, respectivamente.Este área se sustituye en la ecuación de la recta de calibración obtenida por regresión linealcon patrones de OTA de distintas concentraciones. Al resolver la ecuación se obtiene laconcentración de OTA en el vial que se inyecta y, al considerar las operaciones efectuadasen el proceso de preparación de la muestra, se obtiene la concentración de OTA en elcultivo de partida.

Las concentraciones de OTA en los cultivos preparados con zumo de uva variaron des-de niveles indetectables (≤ 10 ng/g) hasta 5980 ng/g. Como ya se ha indicado, los nivelesindetectables se tratan como cero a efectos de cálculo. La Figura 3.4 muestra la tendenciade las concentraciones de OTA a 20 oC, para los tres valores de aw testados y para lasdiferentes dosis de carbendazima, incluyendo el control. El máximo nivel de OTA acumu-lada se obtiene el día 15 contado a partir del fin de la fase lag en cultivos adicionados con450 µg del fungicida/l a aw = 0,98. Los niveles de la micotoxina normalmente aumentancon el tiempo aunque en ciertas condiciones se estabilizan o incluso disminuyen [224].

Antes de empezar la creación de modelos de ANN, el conjunto de datos se somete aanálisis de varianza multifactorial (ANOVA multifactorial) el cual revela que todas lasvariables predictoras afectan significativamente a la acumulación de OTA considerandoun nivel de confianza del 95 % y que, por consiguiente, pueden ser usadas como inputsen el diseño de las redes. Esta selección de variables se podría comparar a la realizada enel Capítulo 2 pero la finalidad es distinta. En el caso del DT, se trata de un método noparamétrico que estima la varianza del ruido a la salida de una función, basándose en lasdistancias a los vecinos más próximos entre cada par de puntos. El ANOVA, en cambio,es un método paramétrico que se utiliza por lo general en experimentos relativamentesimples para decidir qué variables y qué interacciones entre variables afectan al valor dela salida y cuáles no, mediante el contraste de hipótesis.

3.4.6.1 Perceptrones de una capa oculta

La Figura 3.5 muestra la variación del MSEtest en los perceptrones de una capa oculta conel número de nodos. Se observan los resultados obtenidos con los tres algoritmos y la influ-encia de efectuar o no parada por early-stopping mediante un subconjunto de validaciónobtenido de los datos de entrenamiento. Se han probado distintos valores del parámetroque controla el mínimo número de epochs a evaluar antes de detener el algoritmo tras laobtención de un mínimo de error de validación (max_fail) que por defecto es 5. Inclusocon valores altos (por ejemplo 50) el algoritmo early-stopping de Matlab siempre convergeantes del 5o epoch (ver un ejemplo en la Figura 3.6), luego la parada que hace Matlabes correcta y no está limitada por un valor de max_fail demasiado bajo. En todos loscasos, se ha utilizado el método de submuestreo aleatorio como validación cruzada, con lo


0

1000

2000

3000

4000

5000

6000

3 4 5 6 7 8 9 10 11 12 13 14 15

C onc .OTA( ng/ g) DíasControl 50 250 350 450

aw = 0.98

Dosis de carbendazima (ng/ml)

0200400600800

100012001400160018002000

3 4 5 6 7 8 9 10 11 12 13 14 15

C onc .OTA( ng/ g) Díasaw= 0.96

0

200

400

600

800

3 4 5 6 7 8 9 10 11 12 13 14 15

C onc .OTA( ng/ g) Díasaw= 0.94

Figura 3.4: Variación de la concentración de OTA en cultivos de A. carbonarius en mediocon zumo de uva a 20oC, tres valores de aw y 5 dosis de carbendazima, incluyendo elcontrol.

que se pretende que las muestras formen parte de los diferentes conjuntos (entrenamiento,validación y test) en diferentes repeticiones y se promedien los errores al final del proceso.Al entrenar hasta un número predefinido de epochs, se obtienen MSEtest menores aunquese corre el riesgo de sobreentrenar.

Según se observa en la Tabla 3.3, el algoritmo RP proporciona los MSEtest más eleva-dos, seguido de LM y de BR, en este orden. El valor más bajo (0.0029) corresponde a una


0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.16

0.18

0.20

0 5 10 15 20 25 30

RP

RPÊV

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.16

0.18

0.20

0 5 10 15 20 25 30

MS E t est LM

LMÊV

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

0.16

0.18

0.20

0 5 10 15 20 25 30Número de nodos en lacapaoculta BR

BRÊVFigura 3.5: Variación de MSEtest con el número de nodos en la capa oculta en percep-trones monocapa entrenados mediante los algoritmos RP, LM y BR sin y con conjuntode validación para realizar early-stopping (-V en la leyenda).

red con N = 26 entrenada mediante el algoritmo BR. Con N = 16−24 nodos se obtienenvalores de MSEtest sólo ligeramente superiores. Si se entrenan las redes usando un conjuntode validación, el algoritmo LM origina el valor más bajo de MSEtest (0.0043) para la ANNcon N = 30. Por tanto, el hecho de aplicar early-stopping origina mayores errores para elconjunto de test para una arquitectura dada con independencia del algoritmo usado. Sinembargo, la red en la cual se detiene el entrenamiento por early-stopping es menos suscep-tible de padecer sobreentrenamiento. La Tabla 3.4 presenta los valores de los índices MSEy R2 para entrenamiento y test de los perceptrones monocapa que producen los valoresmínimos de MSEtest con early-stopping (N = 30/LM) y sin él (N = 26/BR). El índiceRMSE se comporta en general de modo similar al MSE (datos no mostrados) de modoque las arquitecturas óptimas obtenidas en base a este índice no son muy distintas de las


0 10 20 30 40 5010

−6

10−4

10−2

100

Best Validation Performance is 0.17992 at epoch 2

Mea

n S

quar

ed E

rror

(m

se)

Epochs

TrainValidationTestBestGoal

Figura 3.6: Evolución de los errores de entrenamiento, validación y test durante un en-trenamiento típico con early-stopping con un valor de max_fail de 50 epochs. El mínimoerror de validación sucede antes del 5o epoch en todos los casos ensayados.

obtenidas con el MSE. Esto es lógico dada la correlación entre ambos e importante, yaque algunos investigadores consideran el RMSE mínimo como el criterio de optimizaciónde modelos de ANN en microbiología predictiva [102, 118, 204, 268, 375]. Los valores deBf y Af para la ANN con N = 26 nodos fueron 0.977 y 1.210, respectivamente.

El análisis de sensibilidad según Garson [119] y Goh [126] indica que las cuatro va-riables de entrada tienen aproximadamente la misma importancia (25 % cada una) conligeras variaciones según la ANN particular ensayada (datos no mostrados). El análisis deGarson consiste en particionar los pesos de las conexiones de la ANN para determinar laimportancia relativa de cada variable en la red.

Para una ANN con m = 1, . . . ,M entradas, n = 1, . . . , N neuronas ocultas y unaneurona de salida, el algoritmo consiste en los siguientes pasos:

1. Construir la matriz que contiene los pesos de la capa de entrada a la oculta whi ylos de la capa oculta a la de salida (woh).

2. Calcular la contribución de cada entrada Im a la salida O a través de la conexiones dela capa ocultaH (producto de valores absolutos de los pesos PN×M = |wHI |×|wOH|).

3. Calcular la contribución relativa Qnm debida a cada entrada a la señal de salida,para cada neurona de la capa oculta: Qnm = Pnm/

∑Mm=1 Pnm, n = 1 . . . , N , y

a continuación sumar todas las contribuciones de las neuronas de entrada Sm =∑N

n=1Qnm, m = 1, . . . ,M .

4. Calcular la importancia relativa ( %) de cada variable de entrada Sm×100/(∑

m Sm),m = 1, . . . ,M .


Tabla 3.3: Valores de MSEtest hallados en MLP ANN de doble capa mediantelos algoritmos Resilient Propagation (RP), Levenberg-Marquardt (LM) yBayesian Regularization (BR).

Algoritmo V N1N2

2 4 6 8 10 12 14 16

RP No 10 0.0521 0.0403 0.0379 0.0334 0.0314

RP Si 10 0.1009 0.0761 0.0709 0.0674 0.0457

RP No 12 0.0480 0.0353 0.0349 0.0315 0.0252 0.0291

RP Si 12 0.0848 0.0746 0.0632 0.0576 0.0824 0.0617

RP No 14 0.0436 0.0327 0.0298 0.0267 0.0240 0.0220 0.0211

RP Si 14 0.0722 0.0560 0.0484 0.0575 0.0603 0.0533 0.0470

RP No 16 0.0410 0.0348 0.0245 0.0262 0.0214 0.0247 0.0163 0.0222

RP Si 16 0.0939 0.1013 0.0592 0.0656 0.0296 0.0470 0.0495 0.0487

RP No 18 0.0419 0.0291 0.0279 0.0200 0.0200 0.0187 0.0187

RP Si 18 0.0686 0.0716 0.0482 0.0526 0.0348 0.0340 0.0340

RP No 20 0.0390 0.0303 0.0242 0.0221 0.0170 0.0196

RP Si 20 0.1415 0.0677 0.1388 0.0511 0.0300 0.0358

LM No 10 0.0983 0.0948 0.0652 0.0702 0.0466

LM Si 10 0.0764 0.0619 0.0732 0.0104 0.0056

LM No 12 0.1724 0.1491 0.0931 0.0217 0.0082 0.0525

LM Si 12 0.0739 0.0813 0.0291 0.0068 0.0189 0.0673

LM No 14 0.1132 0.1025 0.0479 0.0889 0.0124 0.0181 0.0454

LM Si 14 0.1138 0.0919 0.0946 0.0691 0.0742 0.0205 0.0082

LM No 16 0.0253 0.0714 0.0138 0.0451 0.0047 0.0422 0.0632 0.0093

LM Si 16 0.2354 0.0997 0.1032 0.0068 0.0136 0.0099 0.1157 0.0084

LM No 18 0.1037 0.1112 0.0378 0.0176 0.0244 0.0167 0.0171

LM Si 18 0.1913 0.0873 0.0161 0.0106 0.0095 0.0080 0.0359

LM No 20 0.1354 0.0806 0.0439 0.1422 0.1051 0.0456

LM Si 20 0.1551 0.1610 0.0851 0.0283 0.0044 0.0060

BR No 10 0.0051 0.0036 0.0027 0.0025 0.0028

BR Si 10 0.0175 0.0072 0.0047 0.0090 0.0264

BR No 12 0.0043 0.0029 0.0026 0.0026 0.0024 0.0023

BR Si 12 0.0109 0.0077 0.0079 0.0096 0.0068 0.0139

BR No 14 0.0037 0.0027 0.0024 0.0031 0.0024 0.0019 0.0027

BR Si 14 0.0078 0.0053 0.0052 0.0116 0.0087 0.0096 0.0083

BR No 16 0.0030 0.0025 0.0024 0.0025 0.0026 0.0023 0.0023 0.0030

BR Si 16 0.0080 0.0057 0.0082 0.0058 0.0089 0.0100 0.0127 0.0148

BR1 No 18 0.0027 0.0025 0.0023 0.0030 0.0021 0.0018 0.0021

BR Si 18 0.0117 0.0038 0.0122 0.0056 0.0066 0.0144 0.0120

BR No 20 0.0026 0.0026 0.0022 0.0031 0.0020 0.0025

BR Si 20 0.0071 0.0051 0.0028 0.0043 0.0109 0.0111

V: conjunto de validación (early-stopping); N1 = Número de nodos en la primera capa oculta; N2 =Número de nodos en la segunda capa oculta.

1 Red neuronal que produjo el MSEtest mínimo (0.0018).

3.4.6.2 Perceptrones de dos capas ocultas

También en estas redes el MSEtest es superior al de entrenamiento (MSEent) para cualquiercombinación (N1, N2) independientemente del algoritmo usado.

Los valores medios de 20 repeticiones independientes encontrados para MSEtest me-diante los diferentes modelos del MLP ANN estudiado aparecen en la Tabla 3.3. El valormás bajo es 0.0018 obtenido mediante una red con N1 = 18 y N2 = 12, lo cual supone


Tabla 3.4: Resumen de las mejores ANN obtenidas para la predicción de la acumulaciónde OTA en medio de cultivo elaborado con zumo de uva utilizando como criterio deoptimización el mínimo MSEtest

ANN Algoritmo early-stopping N1 N2 MSEent R2ent MSEtest R2

test

MLP 1 capa BR No 26 - 0.0016 0.9986 0.0029 0.9975

LM Si 30 - 0.0018 0.9984 0.0043 0.9962

MLP 2 capas BR No 18 12 0.0004 0.9997 0.0018 0.9982

No 14 12 0.0005 0.9996 0.0019 0.9983

No 20 10 0.0004 0.9997 0.0020 0.9980

Si 20 6 0.0011 0.9991 0.0028 0.9972

LM No 16 10 0.0002 0.9998 0.0047 0.9957

Si 20 10 0.0008 0.9993 0.0044 0.9955

RP No 16 14 0.0117 0.9897 0.0163 0.9859

Si 16 10 0.0225 0.9806 0.0296 0.9688

RBF - - 200 - 0.0004 0.9996 0.0025 0.9978

un total de 30 neuronas ocultas. Esta red ha sido entrenada usando el algoritmo BR sinearly-stopping ya que este algoritmo funciona bien sin necesidad de tal criterio de parada.

Valores similares se obtienen con otras arquitecturas como 4/14/12/1 o 4/20/10/1.Cualquiera de ellas puede aplicarse con errores semejantes. La Tabla 3.4 muestra los valo-res de MSEent, R2

ent, MSEtest y R2test para los mejores modelos de perceptrones multicapa

entrenados con cada uno de los tres algoritmos. Se observa que normalmente R2 aumentacuando MSEtest disminuye. Los algoritmos LM y RP dan lugar a peores ajustes (mayoresMSEtest), especialmente el último. La Figura 3.7 presenta la recta de regresión lineal delos valores predichos (outputs) frente a los observados (targets) para la concentración deOTA en las muestras estudiadas correspondiente al conjunto de datos de test para dosredes. Una es la red con estructura 4/20/6/1 entrenada mediante el algoritmo BR peroutilizando conjunto de validación. Es el MLP que consigue el mínimo MSEtest (0.0028)cuando se aplica validación (Tabla 3.3). Otra es la red cuya arquitectura es 4/18/12/1,entrenada con BR, que presenta el mínimo valor del MSEtest como se ha dicho. La pen-diente es muy próxima a 1 y la ordenada en el origen muy próxima a cero. En la Tabla3.5 se reflejan los parámetros de las rectas de regresión referidas a los conjuntos de entre-namiento y de test tras 5 repeticiones independientes junto a los intervalos de confianzade cada uno (P = 0.95). Los valores de ambos parámetros están incluidos en el intervalode confianza del 95 % de los valores teóricos. El coeficiente R2 es > 0.999, lo cual indica unajuste excelente a los puntos. Los valores de Af y Bf son 0.987 y 1.075, respectivamente.Estos parámetros presentan valores ligeramente diferentes para cada repetición debido ala elección al azar de las muestras y los pesos.

Si comparamos los MLP monocapa y con doble capa oculta se observa que en el casoque nos ocupa los últimos proporcionan mejores resultados en términos de MSE con unnúmero similar de neuronas ocultas [224].

3.4.6.3 Redes RBF

La variación de valores de MSE para los conjuntos de entrenamiento (500 muestras) yde test (85 muestras) con el número de neuronas ocultas se observa en la Figura 3.8. Elvalor del parámetro spread es igual a 1 ya que este valor resulta ser el óptimo en el caso


Tabla 3.5: Parámetros para las rectas de regresión de las concentraciones de OTApredichas frente a las observadas obtenidas mediante las mejores MLP ANN sin y conearly-stopping después de 5 repeticiones independientes.

Pendiente Ordenada en el origen

Arquitecturade la ANN

Algoritmo/ early-

stopping

No

mues-tras

Media Desv.están-dar(±s)

Límitesde confi-anza dela media(P=0.95)*

Media Desv.están-dar(±s)

Límitesde confi-anza dela media(P=0.95)**

R2

4/18/12/1 BR/No 500(ent.)

0.99912 0.00072 0.99823a1.000011

0.00057 0.00028 0.000225a0.000915

0.9997

85(test)

0.99902 0.0075 0.98971a1.00833

-0.0047 0.0083 -0.0149 a0.00567

0.9984

4/20/6/1 BR/Si 500(ent. +val.)

0.9963 0.0050 0.99015a 1.0025

0.00113 0.00037 0.00068 a0.00159

0.9991

45(test)

0.9861 0.017 0.9655 a1.00663

0.0094 0.013 -0.0072 a0.0260

0.9970

BR: Regularización bayesiana.* Calculados como media ±t (dos colas, P = 0.95, gl = 4), s/(5)1/2; hipótesis nula (H0): pendiente = 1; hipótesis

alternativa (H1): pendiente 6= 1;** (H0): ordenada en el origen = 0; (H1): ordenada en el origen 6= 0.

estudiado. Los datos corresponden a los valores medios obtenidos tras 20 repeticionesindependientes. El descenso del error es muy pronunciado entre 5 y 25 neuronas peroluego la variación es mucho más suave y se acerca a cero asintóticamente. Es de destacarla forma aproximadamente exponencial de la gráfica y la escasez de mínimos locales delerror en función del número de neuronas. En todo caso para alcanzar un valor de MSEtest

similar al obtenido mediante las mejores MLP ANN es preciso usar 200 o más neuronasocultas. El menor MSEtest es 0.0025 y el menor MSEent es 0.0004, y corresponden a laRBFN con 200 neuronas ocultas (Tabla 3.4). No obstante, la velocidad de entrenamientoes menor que en el caso de MLP ANN. Los valores de Af y Bf fueron 1.016 y 1.097 parael conjunto de entrenamiento y para el de test fueron Af = 1.18 y Bf = 1.02.

Las RBFN estudiadas dieron lugar a valores de MSE superiores a los observados conperceptrones multicapa con un número de nodos sustancialmente menor.

3.4.7 Discusión

El algoritmo escogido para el entrenamiento de las MLP ANN influye sobre el modeloelegido y sobre los errores de predicción. Sin embargo, existe una relación entre el algoritmoy el criterio de parada (con o sin early-stopping) del entrenamiento. En general, sin realizarearly-stopping, el mejor algoritmo de los tres ensayados ha sido BR, seguido de LM y, enúltimo lugar, RP.

La parada del entrenamiento por early-stopping conduce a modelos en los que el MSEes siempre superior al que se obtiene si se omite y la validación se efectúa directamenteusando el conjunto de test tras realizar 100 epochs durante el entrenamiento y promediarel resultado de 20 repeticiones. Por tanto, parece recomendable omitir la parada del entre-namiento por early-stopping ya que ésta puede detener el entrenamiento en una red en laque el error de predicción está en un mínimo local y es todavía susceptible de disminuir.No obstante, también puede en algunos casos evitar el sobreentrenamiento.


0

1

2

3

4

5

0 1 2 3 4 5

Pendiente = 0.996 ± 0.008Ordenada en el origen =ó 0.002 ± 0.008R2 = 0.997

012345

0 1 1 2 2 3 3 4 4 5 5Concentración de OTA observada (mg/Kg)

Pendiente = 1.003 ± 0.003Ordenada en el origen = ' 0.0021± 0.004R2 = 0.9993

A

BC oncent raciónd eOTA predi ch a( mg/K g)

Figura 3.7: Concentración de OTA predicha frente a la observada en el conjunto de testobtenida usando un MLP con estructura 4/20/6/1 entrenado mediante el algoritmo BRcon subconjunto de validación (45 muestras para entrenar) (A) y 4/18/12/1 entrenadomediante el algoritmo BR sin conjunto de validación (85 muestras para entrenar) (B).

Las MLP ANN de dos capas ocultas producen MSEtest menores que los de una capacon un número similar de nodos ocultos. Para la creación de las redes RBF no se empleaninguno de los anteriores algoritmos ni ningún conjunto de validación. Se entrenan rápi-damente pero su principal inconveniente es que precisan de un número alto de neuronas(aprox. 200) para producir errores del mismo orden que los originados por los MLP dedos capas ocultas.

Entre todos los modelos de MLP ANN estudiados el mejor, usando como criteriofundamental el mínimo MSEtest, es el que posee la arquitectura 4/18/12/1 entrenado


Figura 3.8: Variación en el MSE para el conjunto de datos de entrenamiento (MSEent) yde test (MSEtest) con el número de nodos en la capa oculta para RBFN.

mediante BR, aunque otras arquitecturas (como 4/14/12/1) dan resultados similares. Losmodelos optimizados son adecuados para predecir la concentración de OTA en el medioestudiado a base de zumo de uva proporcionando errores muy bajos incluso sobre unconjunto de test no utilizado para entrenar la red y solo presentado al modelo generadoa posteriori, lo cual indica que se alcanza un grado de generalización muy aceptable.

Este es el primer estudio realizado en relación con la predicción de la acumulación deesta importante micotoxina en un medio elaborado con mosto de uva mediante el uso deredes neuronales. Es esperable que sirva de base a futuros estudios predictivos usando unametodología similar.

3.5 Predicción de la acumulación de DON en cebada

por una cepa de Fusarium culmorum

Este estudio tiene por objetivo encontrar redes neuronales capaces de predecir con la ma-yor exactitud la concentración de DON alcanzada en granos de cebada cuando crece sobreellos una cepa de F. culmorum capaz de producir la toxina. Los factores ambientales comotemperatura y humedad afectan al crecimiento de Fusarium fitopatógenos. Según Llorenset al. [202] el efecto de la temperatura sobre la producción de DON por F. graminearumy F. culmorum en maíz es muy significativo, consiguiéndose un mayor nivel de DON a28oC. El efecto de la humedad fue menos importante y no significativo.

3.5. PREDICCIÓN DE DON EN CEBADA POR F. CULMORUM 131

3.5.1 Diseño experimental. Obtención de la matriz de datos

La Figura 3.9 esquematiza la forma en que se llevan a cabo los experimentos. Se parte de unlote de semilla de cebada que se analiza previamente a las experiencias para asegurar queno contiene cantidades detectables de DON. Luego se eligen las condiciones experimentalesque son: aw de las semillas, diámetro del disco de cultivo de la cepa del hongo F. culmorumFc05 en agar patata-dextrosa (PDA) con el cual se inoculan las semillas, temperatura deincubación y tiempo de muestreo de los cultivos in vitro. Los valores que toman estasvariables son los indicados en la Tabla 3.6. La cepa de F. culmorum Fc05 está depositadaen el Departamento de Microbiología y Ecología de la Universidad de Valencia.

La metodología seguida supone dos etapas claramente diferenciadas como en el casoanterior (Sección 3.4.1):

1. Cultivo de la cepa de F. culmorum en las semillas de cebada en laboratorio bajo lasdistintas condiciones experimentales indicadas en la Tabla 3.6, siguiendo el esquemade la Figura 3.9. A 100 g de semillas colocadas en matraces se adiciona un volumendeterminado de mezcla glicerol-agua de diferente composición según la aw que sedesee que tenga el cultivo (existen tablas/gráficas empíricas para determinar elvolumen a añadir por 100 g de grano). Los matraces se cierran con una películade polietileno y las semillas humedecidas se dejan en reposo una noche a 4 oC paraequilibrar la humedad. Luego los valores de aw de los granos equilibrados se midencon un equipo apropiado (unidad RTD 502, Novasina GmbH, Pfäffikon, Suiza) quese calibra previamente. Los granos se esterilizan en autoclave (115 oC, 30 min) traslo cual se vuelve a comprobar la aw en matraces testigo para asegurar los valores.Las semillas se inoculan con cultivos de 10 días mantenidos a 20 oC de la cepa deF. culmorum efectuado en placas de Petri sobre agar patata-dextrosa (PDA). Lainoculación se realiza tomando porciones cilíndricas del cultivo en PDA mediantesacabocados con diámetros diferentes (7, 11 o 15 mm) que se introducen en losmatraces en campana de flujo laminar y junto a un mechero de gas encendido paraevitar contaminaciones. El inóculo se distribuye entre las semillas contenidas en elmatraz por agitación manual para mezclarlo lo más homogéneamente posible. Luego,los matraces se tapan con algodón y se introducen en medios isotermos a las trestemperaturas del ensayo (25, 20 y 15 oC) dentro de bolsas de plástico en las cualeshay mezclas de glicerol-agua cuya aw coincide con la del grano para evitar variacionesde la humedad con el tiempo. Los matraces se extraen del medio isotermo donde seincuban en días determinados entre el día 7 y el 50 (Tabla 3.6). Su contenido se secaen estufa a 50 oC durante 48 horas y después se tritura en molino de laboratorio.Todos los cultivos se preparan por duplicado para cada conjunto de condiciones

Tabla 3.6: Valores de las variables de entrada (inputs) para la predicción de la acumulaciónde DON en semillas de cebada contaminada con Fusarium culmorum.

Variable Valores

aw 0.94 0.96 0.98

Temperatura (oC) 15 20 25

Diámetro del inóculo (mm) 7 11 15

Tiempo de incubación (días) 7 10 13 16 20 24 30 35 40 50


Semillas de cebada Semillas de cebada100 g/matraz Adic ión de glicerolkagua para obtener laaw deseada (0.94, 0.96o 0.98) Comprobación de la aw Esterilizac ión enautoclave: 115 ºC,30 min Confirmación de la awen el contro l Inoculación concult ivos deF. culmorum enagarpatataÙ dextrosamediante discos de 7,11 ó 15 mmdiámetro Distribución del inóculopor agitación vigorosa

Cult ivos deF. culmorum en agarpatatadext rosa (PDA)10 días, 25 ºC Cult ivo en medioisotermo a 25, 20 ó 15ºC en cámara con lamisma aw que el cult ivoMuest reo en 10 días determinados (entre 7 y 50días), secado (2 días a 50ºC) y molienda f ina

Sacabocados dediferentes diámetros(7, 11 y 15 mm) parala inoculación de lacebadaFigura 3.9: Esquema de la preparación de los cultivos de F. culmorum en semillas decebada.

(diámetro del disco de inoculación, aw, temperatura, tiempo de muestreo).

2. Determinación de la concentración de DON en todos los cultivos llevados a cabouna vez secos y triturados. El proceso analítico esquematizado en la Figura 3.10supone:

• Extracción del DON con una mezcla de acetonitrilo-agua (84:16, vol/vol),seguida de filtración.

• Purificación de 3 ml del líquido filtrado, para lo que se hace atravesar por


un cartucho de alúmina-carbón-silica C18 y el DON se eluye (arrastra) condisolvente [349]. El líquido purificado se concentra en un vial por evaporacióndel disolvente en corriente suave de N2.

• Derivatización del residuo concentrado para lo que se hace reaccionar con unamezcla de anhídrido pentafluoropropiónico y 4-dimetilaminopiridina en toluenoa 60 oC durante 1 hora a fin de formar el pentafluoropropionil derivado delDON, un compuesto volátil adecuado para ser separado por cromatografía degases y detectado mediante un detector selectivo como el de captura electrónica.Tras añadir bicarbonato sódico (para destruir el exceso de reactivo) y tolueno,se inyecta 1 µl de la fase superior (orgánica) se inyecta 1 µl en el cromatógrafode gases, cuyo esquema básico se representa en la Figura 3.11.

• Separación cromatográfica, llevada a cabo en un cromatógrafo de gases HP6890 Plus provisto de una columna capilar de sílice fundida HP-5 de 30 m delongitud x 0.32 mm diámetro y 0.25 mm espesor de film (Hewlett Packard,Avondale, Pa., USA), un detector de captura electrónica (ECD) y un inyectorautomático de muestras Agilent 7683. El gas portador fue He con una presiónconstante de 42.5 kPa. Las temperaturas del inyector y del detector fueron 240oC y 300 oC, respectivamente. La temperatura del horno donde está la columnaarrollada en espiral fue progresivamente incrementada según un programa paraacelerar la elución del derivado del DON en un tiempo razonable evitando lasinterferencias de otras sustancias. El programa térmico fue: a) 90 oC (1 min)hasta 160 oC a 40 oC/min; b) 182 oC a 1.5 oC/min; c) 240 oC a 5 oC/min;d) 275 oC (2 min) a 40 oC/min. Se realizan tres inyecciones de cada vial y sepromedian los resultados. El ECD es una cavidad que contiene dos electrodosy una fuente de 63Ni, emisora de rayos β (Figura 3.11). El extremo final dela columna capilar donde tiene lugar la separación de los diferentes compo-nentes inyectados se introduce al principio del detector. Las colisiones entrelos electrones emitidos por el isótopo radiactivo y el gas portador más el gasauxiliar producen un plasma de electrones (aproximadamente 100 electronespor cada partícula β inicial) e iones positivos. Los electrones no capturadosson atraídos hacia el ánodo y en condiciones estacionarias se obtiene una cor-riente de intensidad constante entre ánodo y cátodo. Las sustancias con mayorafinidad por los electrones al atravesar el detector retienen más partículas ydeben producir una caída en la corriente eléctrica de fondo correspondiente alflujo continuo de gas portador. Para evitar oscilaciones de la intensidad eléctri-ca se producen pequeños pulsos de frecuencia variable mediante un circuito deretroalimentación para atraer a los electrones. Así, se obtiene una distribuciónmás homogénea de los iones en el plasma y una respuesta más estable. La fre-cuencia se representa en función del tiempo transcurrido desde el momento dela inyección en el GC originando un cromatograma. Este detector presenta unagran selectividad y sensibilidad para moléculas con átomos electronegativos,como halógenos, oxígeno, azufre o nitrógeno. El fluor es el elemento con mayorelectronegatividad por lo que el pentafluoropropionil derivado del DON da lu-gar a una respuesta muy incrementada (la sensibilidad relativa de compuestospolifluorados respecto de hidrocarburos es de 1000000:1). El límite de detec-ción del DON en estas condiciones analíticas se sitúa en 7 ng/g (ppb) [349].


Cult ivo molido 5 g Extracción con acetonitriloagua84:16 vol/volFilt ración y toma de 3 mLPurif icación en cartuchode alúmina¼carbón¼silicaEvaporación deldisolvente en vialbajo corriente de N2 Reacción con anhídridopentaf luoropropiónico/4ådiåmetilaminopiridina entolueno 60 ºC, 1 h.Eliminación del excesode react ivoInyección en elcromatógrafo de gasescon detector decaptura electrónica

EXTRACCIÓN

PURIFICACIÓNFORMACIÓN DELDERIVADOPERFLUORADO DEL DONCROMATOGRAFÍAGC/ECD

Anhídrido pentaf luoropropiónicoN2

Figura 3.10: Esquema del proceso de análisis de las semillas de cebada contaminadas conF. culmorum para determinar el contenido de DON mediante GC-ECD.

Un cromatograma en el cual se puede observar el pico del derivado del DONaparece en la Figura 3.12. El tiempo correspondiente al máximo de la curva essu tiempo de retención, que es constante bajo condiciones cromatográficas fijasy se usa con fines identificativos. El software integra el área bajo el pico. Elvalor del área se interpola en la recta de calibrado obtenida previamente porregresión lineal con disoluciones patrón de DON de concentraciones conocidas


preparadas a partir del estándar comercial. Ello permite determinar la concen-tración de DON en el cultivo al tener en consideración los pasos efectuados enla preparación de la muestra.

Tras la ejecución del diseño factorial completo se obtiene una matriz de datos quetiene 3×3×3×10 = 270 filas con cuatro columnas de inputs (temperatura, aw, diámetrodel disco de inóculo y tiempo) y una columna de outputs (concentración media de DON).Cuando no se detecta DON se considera cero su concentración a efectos de computación

Figura 3.11: Esquema básico de un cromatógrafo de gases (izquierda) y de un ECD(derecha)

min2.5 5 7.5 10 12.5 15 17.5 20Norm.05000100001500020000 DON

Figura 3.12: Cromatograma obtenido mediante GC-ECD usando el método analítico indi-cado a partir de un cultivo de semillas de cebada. Se indica el pico del DON y su fórmulaestructural.


de la matriz de datos. Este es el conjunto a utilizar para diseñar las redes neuronales. Losvalores se escalan previamente entre -1 y +1 y, posteriormente, se desescalan.

3.5.2 Modelos de MLP ANN con una capa oculta

Para predecir la acumulación de DON se ha procedido de modo semejante a como se haindicado en el estudio de aplicación de las redes neuronales artificiales para predecir laacumulación de OTA (Sección 3.4). Se emplea la misma función de activación (tangentehiperbólica). Se han considerado los mismos tres algoritmos de entrenamiento (LM, BR yRP) implementados en el Neural Network Toolbox de MATLAB y submuestreo aleatoriocomo método de validación cruzada. Se ha evaluado, de igual modo, la bondad de realizaro no early-stopping. En BR no es necesaria la presencia de un conjunto de validación paratal fin, pero se ha ensayado con fines comparativos. También aquí el conjunto de datosse divide en subconjuntos de entrenamiento, validación y test. El 50 % de los datos seusa para entrenamiento, el 25 % para validación y el resto para test. Si no se lleva caboearly-stopping, el 75 % de los datos se usa para entrenamiento y el resto para test. En estecaso el número de epochs se ha fijado en 100. En el caso de utilizar early-stopping se hamantenido el parámetro max_fail = 5 (valor por defecto de Matlab). Se ha comprobadoque, debido a la tendencia de los errores en función de los epochs, incluso con valores másaltos de max_fail, el punto de parada es en general el mismo (se muestra un ejemplo conmax_fail = 50 en la Figura 3.13) salvo en pocas excepciones cuya influencia es reducidaal promediar 20 repeticiones de cada entrenamiento. El submuestreo aleatorio de los datosse ha utilizado en todos los casos. Se utiliza el mismo programa y los mismos criteriosde selección de la mejor red. No se han considerado, sin embargo, los parámetros Af yBf porque existen valores nulos para la concentración de DON y no se pueden usar eneste caso. El tamaño de la matriz de datos es diferente si bien el número de variablesde entrada (inputs) y de salida (outputs) es el mismo. Se realizan 20 repeticiones detodo el proceso para obtener los valores medios de los errores de entrenamiento y test(MSE, RMSE, %SEP) y del parámetro R2. El objetivo primario durante el proceso deconstrucción de los modelos ha sido fundamentalmente minimizar el MSEtest y al mismotiempo maximizar el valor de R2. La arquitectura de este tipo de ANN es 4/N/1 siendo 4el número de inputs, N el número de neuronas en la capa oculta (N = 2, 4, 6, . . . , 30) y 1la única salida. Por otro lado, se realiza un análisis de sensibilidad según Garson [119] yGoh [126] para evaluar la importancia relativa de cada variable de entrada con relación ala variable de salida pues aquellas con poca importancia pueden ser eliminadas del modelosin pérdida significativa en su eficacia predictiva.

3.5.3 Modelos de MLP ANN con dos capas ocultas

Se ha seguido el procedimiento de trabajo descrito para los MLP de una capa. La arqui-tectura general se denota 4/N1/N2/1, siendo N1 y N2 (N2 ≤ N1) el número de neuronasen la primera y segunda capa oculta, respectivamente. N1 es un número par comprendidoentre 10 y 20 ambos inclusive y N2 es un número par comprendido entre 2 y 14, ambosinclusive. Esta limitación se ha establecido al igual que en el caso de OTA (Sección 3.4)porque un gran número de neuronas ocultas hace que las redes no realicen prediccionesacertadas [251].


0 10 20 30 40 50 6010

−6

10−4

10−2

100

102

Best Validation Performance is 0.0091189 at epoch 16

Mea

n S

quar

ed E

rror

(m

se)

Epochs

TrainValidationTestBestGoal

Figura 3.13: Evolución de los errores de entrenamiento, validación y test durante unentrenamiento típico con early-stopping con un valor de max_fail de 50 epochs. El puntode parada con el parámetro max_fail = 5 es el mismo que con max_fail = 50.

3.5.4 Redes de función de base radial

La función de base utilizada ha sido la gaussiana. El número de neuronas en la capaoculta N se incrementa de 5 en 5 desde 5 hasta > 100. Ya se ha indicado previamenteque las RBFN precisan de un mayor número de neuronas ocultas que los MLP paraconseguir errores similares a los conseguidos con este tipo de redes aunque la construccióndel modelo es bastante rápida. El conjunto de datos se divide de modo que el 75 % de losmismos se usa para el entrenamiento mientras que el 25 % restante se usa para el test. Otradistribución alternativa que se estudió es usar el 50 % de los datos para entrenamiento yel otro 50 % para test. La segunda opción dio peores resultados que la primera por lo quenos centraremos en la primera partición. La elección de los datos en cada una de las 20repeticiones efectuadas con las diferentes estructuras tiene lugar al azar.

3.5.5 Resultados

En los cultivos de cebada se detectó DON excepto cuando aw fue 0.94 y el diámetro deldisco de inoculación fue de 7 mm. En algunos casos ha sido necesario esperar durantemás de 30 días para conseguir la detección. Ello es debido a que el hongo debe ser capazde desarrollar micelio para producir la toxina lo cual requiere de un cierto tiempo. Trasuna fase inicial, cuya duración es variable en función de los valores de las condicionesde incubación, se detecta DON en los cultivos de cebada. La producción, una vez inicia-da, crece rápidamente bajo condiciones favorables pero la concentración de toxina en elmedio se hace estacionaria o incluso desciende con el tiempo en ciertas condiciones. Lasconcentraciones de DON se encuentran desde aquellas no detectables hasta 9.1 mg/Kg. LaFigura 3.14 ilustra la tendencia de la acumulación del DON en el cultivo; corresponde a lavariación de la concentración media de DON con el tiempo en cultivos de cebada inocula-


Tabla 3.7: Arquitecturas y parámetros de calidad de los mejores MLPs monocapadesarrollados para la predicción de la acumulación de DON en cultivos de F. culmorumen grano de cebada in vitro.

ANN Algoritmoa early-

stopping

N1b MSEtest RMSEtest %SEPtest R2

test

MLP 1 capa LM No 16 0.1129 0.2987 62.84 0.924

Si 18 0.1861 0.3743 75.63 0.905

BR No 8 0.0613 0.2364 50.37 0.964

Si 10 0.4796 0.6198 127.55 0.746

RP No 18 0.1954 0.4237 81.30 0.887

Si 20 0.2224 0.4524 90.34 0.889

a (LM) Levenberg-Marquardt, (BR) Bayesian Regularization; (RP) Resilient Backpropagationb Número de nodos en la capa oculta.

dos con discos de 11 mm de diámetro del cultivo de F. culmorum en agar patata-dextrosaa las tres temperaturas ensayadas (15, 20 y 25 oC) y a tres valores de aw (0.98, 0.96 y0.94). En la Figura 3.14 (A) se evidencia la tendencia creciente de la concentración deDON con el tiempo a partir del día 20 especialmente a 20 oC. La velocidad de incrementode la concentración de la toxina disminuye a partir del día 40. En la Figura 3.14 (B)las concentraciones de DON son mucho menores evidenciando que la aw 0.96 dificulta laproducción y no existe una tendencia. En la Figura 3.14 (C) se observa la baja producciónde DON a aw 0.94.

Las 4 variables independientes predictoras influyen significativamente en la concen-tración de DON según se desprende de la aplicación de análisis de la varianza multifacto-rial al conjunto de datos con un nivel de significación p < 0.05.

3.5.5.1 Modelos MLP de una capa oculta

En la Tabla 3.7 se resumen las arquitecturas de las ANN que producen los mejores resulta-dos en términos de mínimo MSEtest, el cual aparece indicado junto con el correspondientealgoritmo de entrenamiento [223]. También se expresan aplicados al subconjunto de testotros parámetros relacionados con la calidad de la predicción (RMSEtest, SEPtest y R2

test).Se observa que los valores del error normalmente son menores si no se detiene el entre-namiento mediante early-stopping sino que se llevan a cabo 100 epochs. Cada valor esla media de 20 repeticiones y, en cada repetición, los datos se redistribuyen al azar ensubconjuntos de entrenamiento, test y, en su caso, de validación.

En los perceptrones monocapa estudiados, tanto el MSEent como el MSEtest disminuyencon N independientemente del algoritmo utilizado siendo los valores del primer errorinferiores a los del segundo para cualquier valor par de N ≤ 30.

El MLP con N = 8 entrenado por BR sin conjunto de validación produjo los mínimosMSEtest (0.0613), RMSEtest y %SEPtest y el máximo valor de R2 (0.964) (Tabla 3.7).

Este algoritmo está optimizado para su empleo sin conjunto de validación por lo cual,en caso de realizarse, el error aumenta considerablemente. Cuando el entrenamiento selleva a término sin usar conjunto de validación, la mejor red tiene 2 neuronas menosque la que se obtiene si se usa validación (Tabla 3.7). Esta proximidad entre el valorde N produce un alto grado de confianza en la mejor arquitectura aunque los valoresde MSEtest son diferentes. Es de destacar que la mejor MLP monocapa, obtenida por


!

!

!

"

!

!

!

#

!

!

!

"

$

!

!

!

!

!

!

#

Figura 3.14: Acumulación de DON con el tiempo de incubación en semillas de cebadainoculadas con discos de 11 mm de diámetro de un cultivo de F. culmorum en PDA eincubadas a 15, 20 and 25 oC y a tres actividades acuosas diferentes: A) 0.98; B) 0.96; C)0.94.


Tabla 3.8: Importancia relativa ( %) de las variables de entrada obtenida por análisisde sensibilidad para algunas MLP ANN de una capa oculta. Los valores representan elpromedio de 20 repeticiones.

N/Algoritmoa early-stoppingVariables de entrada

aw Tiempo Temperatura Diámetro

8/BR No 33.4 31.0 20.6 15.0

8/RP No 28.4 22.7 27.2 21.7

10/BR Si 29.4 23.4 28.7 18.5

10/LM No 29.3 24.2 22.9 23.5

12/BR No 30.6 31.3 22.7 15.3

16/LM No 26.9 25.4 23.6 24.1

18/LM Si 27.1 25.0 26.1 21.8

18/RP No 27.2 22.6 25.3 24.9

20/RP Si 24.7 23.1 26.0 26.2

a : BR: Bayesian Regularization; LM: Levenberg-Marquardt; RP: Resilient Backpropagation

BR, tiene aproximadamente la mitad de neuronas ocultas que las mejores perceptronesmonocapa obtenidos usando los otros dos algoritmos de entrenamiento.

En la Figura 3.15 se representa la variación de MSEent y MSEtest en función de N . Esobservable la presencia de mínimos locales característica de los algoritmos de retropropa-gación. El algoritmo LM produce una disminución muy rápida de MSEent con valoresde N bajos pero la disminución se hace mucho más lenta a valores más altos de N . Sinembargo, con el algoritmo BR, MSEent no disminuye sino que fluctúa e incluso aumentacon N . Cuando se usa el algoritmo RP los errores de entrenamiento decrecen suavementese use o no early-stopping. Los valores de %SEP son, en general, bastante elevados ya queel denominador de la función es el valor medio de las concentraciones de DON, el cual esmuy bajo debido a la gran cantidad de valores nulos.

El análisis de sensibilidad [119, 126] se ha realizado con algunos MLP monocapa (Tabla3.8). Debido a que la importancia relativa de las variables de entrada varía de un ensayo aotro se promedia los resultados de 20 repeticiones independientes. En promedio la variablede entrada con mayor importancia relativa es aw, seguida del tiempo, temperatura ydiámetro del disco de inoculación pero las diferencias entre ellas no son grandes y nopermiten rechazar ninguna como variable predictora. Este resultado concuerda con elobtenido mediante análisis de la varianza multifactorial ya que, según se indicó, todas lasvariables independientes influyen significativamente en la variable dependiente.

La Figura 3.16 (A) corresponde a la regresión lineal de los valores predichos por laANN con una capa oculta cuyo MSEtest es el mínimo (0.0613) frente a los observadospara la concentración de DON en un conjunto de test escogido al azar. La ecuación de larecta aparece junto con el valor de R2. Los parámetros de regresión cambian ligeramentesi otro subconjunto de test diferente se presenta a la red neuronal. La recta de regresiónideal tiene pendiente = 1, ordenada en el origen = 0 y coeficiente de regresión = 1, quecorresponde a un ajuste perfecto.

3.5.5.2 Modelos MLP de dos capas ocultas

La Figura 3.17 ilustra la variación producida en el MSEtest de las series de MLP con doscapas ocultas estudiadas, en función de N1 y N2 para los tres algoritmos de entrenamiento.


Figura 3.15: Variación del MSEent y MSEtest con el número de neuronas ocultas en MLPde una capa entrenados con tres algoritmos. A) LM sin validación; B) LM con validación;C) BR sin validación; D) BR con validación; E) RP sin validación y F) RP con validación.

Se observa que el early-stopping conduce a redes con errores de test superiores a losobtenidos si se omite tal validación al igual que sucede con los MLP de una capa oculta.También se observa la existencia de mínimos locales.

El algoritmo RP da lugar a la red con menor MSEtest (0.0651) (Tabla 3.9) con unatopología en la que N1 = 18 y N2 = 8 cuando se entrena sin early-stopping. No obstante,el valor del MSEtest es ligeramente superior al obtenido con la red de una capa oculta y8 neuronas entrenada mediante BR y menos compleja [223]. Una MLP ANN entrenadamediante BR con N1 = 14 y N2 = 2 sin early-stopping también da lugar a un valor bajodel MSEtest (0.0876) (Tabla 3.9). Es de destacar que casi todos los MLP ANN de dos capasocultas entrenadas mediante RP producen valores de MSEtest iguales o inferiores a 0.2(Figura 3.15). El algoritmo LM conduce a los resultados peores en términos de MSEtest,especialmente cuando se realiza early-stopping.


Figura 3.16: Concentración de DON predicha por las redes neuronales frente a la observadapara un conjunto de test seleccionado al azar. A) MLP con una capa oculta de 8 neuronasentrenada mediante el algoritmo BR; B) RBFN con 85 neuronas ocultas.

Tabla 3.9: Arquitecturas y parámetros de calidad de los mejores MLPs de dos capasocultas y RBFs desarrolladas para la predicción de la acumulación de DON en cultivosde F. culmorum en grano de cebada in vitro.

ANN Algoritmoa early-

stopping

N1b N2

c MSEtest RMSEtest %SEPtest R2test

MLP 2 capas LM No 12 10 0.1332 0.3241 65.32 0.918

Si 12 12 0.1747 0.3763 71.81 0.922

BR No 14 2 0.0876 0.2561 47.04 0.961

Si 12 12 0.1625 0.3651 84.26 0.869

RP No 18 8 0.0651 0.2413 51.19 0.960

Si 20 8 0.2127 0.4297 88.66 0.866

RBF - - 85 - 0.0393 0.1866 40.09 0.974

- - 60 - 0.0572 0.2311 46.52 0.966

a (LM) Levenberg-Marquardt, (BR) Bayesian Regularization; (RP) Resilient Backpropagation.b Número de nodos en la primera capa oculta.c Número de nodos en la segunda capa oculta.


Figura 3.17: Variación del MSEtest en MLP ANN de dos capas ocultas con el número denodos en las capas primera (N1) y segunda (N2). A) algoritmo LM sin validación; B) LMcon validación; C) BR sin validación; D) BR con validación; E) RP sin validación; F) RPcon validación.

3.5.5.3 Modelos de RBFN

En las RBFN, el valor del parámetro spread se optimizó, siendo 1.0 el valor más apropiado,al igual que sucede en el estudio efectuado con OTA. La Figura 3.18 muestra el cambioproducido en el MSEent y MSEtest con el número de neuronas para las RBFN estudiadas.La disminución es muy brusca en ambos a valores bajos de N (5 a 20) para moderarsesustancialmente a valores superiores de N . El MSEtest es < 0.1 con N = 35. Contrastacon las MLP la muy escasa presencia de mínimos locales y la suave disminución de loserrores al aumentar N . Los mejores resultados se obtienen con la red de 85 nodos ocultostomando el 75 % del conjunto de datos para entrenamiento y el 25 % para test [223]. Sise toma el 50 % de los datos para entrenamiento disminuye la capacidad predictiva delas RBFN. El MSEtest correspondiente a la RBFN con N = 85 (0.0393) (Tabla 3.9) esmenor en un 64 % que el valor obtenido con la mejor MLP testada. También los valoresde RMSEtest y %SEPtest son inferiores y el valor de R2 es superior. Una red con N = 60también da lugar a un error ligeramente superior pero menor que el obtenido con la mejorMLP ANN (3.6). A pesar de la mayor complejidad en términos de nodos ocultos el tiempocomputacional en este tipo de redes es menor que en los modelos de retropropagación.

Un gráfico de los valores predichos por la RBFN con N = 85 para un subconjunto


Figura 3.18: Variación del MSE de entrenamiento y de test con el número de neuronasen la capa oculta en RBFN diseñada para predecir la acumulación de DON en cebadacontaminada con F. culmorum.

Tabla 3.10: Parámetros de las rectas de regresión de los niveles predichos para DONobtenidos por una RBFN con 85 nodos ocultos frente a los observados tras 5 repeti-ciones independientes sobre conjuntos de entrenamiento y test elegidos al azar.

Conjunto de datos Parámetro Media ±Desviación Estándar Límites de confianza de la media (P=0.05)*

Entrenamiento

Ord. origen 0.0064 0.0019 0.0041−0.0089

Pendiente 0.9960 0.0010 0.9948−0.9974

R2 0.9974 0.0009 0.9963−0.9986

Test

Ord. origen 0.035 0.036 -0.0098−0.0794

Pendiente 0.957 0.033 0.915−0.998

R2 0.9785 0.0010 0.9663−0.9906

* : t-Student (P = 0.05, 4 grados de libertad) = 2.776.

de test elegido al azar frente a los valores experimentales correspondientes aparece enla Figura 3.16 B. Los parámetros de la regresión cambian ligeramente de una repeticióna otra. Los parámetros obtenidos para las rectas de regresión tras 5 repeticiones paraentrenamiento y test se resumen en la Tabla 3.10.

3.5.5.4 Discusión

La metodología de redes neuronales puede ser utilizada incluso cuando las relaciones entrelas variables de entrada y las de salida no son conocidas a priori debido a su naturalezade “caja negra” [139]. En este caso, sin embargo, existe una relación entre la producciónde DON en grano de cebada por cepas productoras de Fusarium culmorum y las cuatrovariables predictoras usadas según se deduce de la aplicación del análisis de la varianzadel análisis de sensibilidad efectuado con ANN. La influencia de la temperatura y de laaw sobre la producción de esta toxina en cereales por Fusarium spp. está documentada


[155, 201, 202]. En cuanto al tamaño del inóculo es de suponer que cuanto mayor sea éstemás toxina se produzca pero no se encuentran estudios concretos al respecto en cebadaalmacenada.

El objetivo principal de la presente sección era el de desarrollar modelos basados enANN adecuados para conseguir predecir la concentración alcanzada por la toxina en elcultivo de cebada in vitro con la mayor seguridad posible. Tal desarrollo ha supuesto lacomparación de MLP ANN con una y dos capas ocultas entre sí y con RBFN. Tambiénse han comparado tres algoritmos de entrenamiento distintos y la efectividad del early-stopping frente a la omisión de tal proceso.

Cuando se comparan los distintos tipos de redes estudiadas teniendo en consideraciónespecialmente el MSE los perceptrones monocapa dan resultados satisfactorios (MSEtest

<0.1) si se entrenan con un algoritmo apropiado (en este caso, BR). La mejor de estasANNs tiene la estructura relativamente simple 4/8/1. La realización de early-stoppingdurante el entrenamiento de las MLP da lugar en promedio a errores más elevados debidoposiblemente a la detención en mínimos locales en el proceso construcción del modelo. Porel contrario, forzar el entrenamiento durante un número predeterminado de epochs (100en este caso) permite salvar ese problema y diseñar un modelo con más neuronas ocultas ymenos error. Con el algoritmo BR tiene lugar un empeoramiento de la capacidad predictivade los modelos ya que el algoritmo está diseñado para no precisar de validación. Cuandose usa conjunto de validación, el mejor algoritmo ha sido LM pero tiene más neuronasocultas (18) y presenta un MSEtest tres veces mayor que el de la red precedente entrenadamediante BR. El algoritmo de entrenamiento elegido condiciona pues la estructura de lamejor red neuronal.

Las MLP de dos capas ocultas no mejoran la capacidad predictiva de las MLP de unacapa oculta a pesar de su mayor complejidad. Sin early-stopping, la mejor MLP presentala arquitectura 4/18/8/1 con una eficacia predictiva similar pero algo inferior a la de lamejor MLP ANN con arquitectura 4/8/1.

Los valores de los índices RMSE y SEP usados por algunos autores en el campo de lamicrobiología predictiva para evaluar la efectividad de las ANN [118, 203, 204, 348] sigue,en general, la tendencia del índice MSE. Los valores altos de SEP (40-127 %) indican unmal ajuste entre los valores predichos y los observados y son debidos al bajo muy valor dela media aritmética de los valores de la variable dependiente. Por ello, el SEP proporciona,en este caso, una visión poco acertada de la capacidad predictiva de la red y resulta másapropiado el MSE o el RMSE. Este último presenta la ventaja de que su valor se puedeexpresar en la mismas unidades que la variable de salida (mg/kg de DON) en este caso.

Algunos modelos de RBFN desarrollados son capaces de alcanzar un grado de gene-ralización mayor que el conseguido con los perceptrones estudiados aunque a expensas deutilizar un número de nodos ocultos (60 o 85) muy superior, a semejanza de lo que sucedecon la OTA.

La mayor exactitud en la predicción de la acumulación de DON en cebada es unobjetivo de este estudio. Por ello, tras comparar los modelos nos decantamos por la RBFNcon 85 nodos en primer lugar y con 60 nodos en segundo lugar. El perceptrón con N = 8entrenado mediante el algoritmo BR ocuparía el tercer puesto. No obstante es obvio quela construcción de modelos de ANN para predecir la concentración de DON en cebadaalmacenada bajo un amplio espectro de condiciones necesita mucho trabajo experimentalimplicando otras cepas de F. culmorum productoras de esta toxina, distintas variedades


de cebada, así como otras temperaturas y valores de aw. El presente trabajo es unaaproximación a una tarea de mayor amplitud dirigida a aplicar esta metodología a lapredicción de la contaminación por micotoxinas en una variedad de productos alimenticios.No existe bibliografía en el campo de las redes neuronales con la cual comparar este estudioque se refiera a DON, a F. culmorum y a las condiciones de cultivo empleadas.

3.6 Conclusiones

Tras el estudio de los distintos modelos de ANN aplicados a la predicción de la acumulaciónde OTA y de DON en medios basados en productos alimenticios las conclusiones obtenidascon las siguientes:

1. Es posible usar los MLP ANN y las RBFN para efectuar la predicción del nivelalcanzado por las micotoxinas estudiadas (OTA y DON) bajo las condiciones de losensayos en los medios empleados.

2. La capacidad predictiva de los modelos de MLP ANN con una determinada estruc-tura entrenados mediante 100 epochs y sin emplear un conjunto de validación paradetener el entrenamiento de la red por early-stopping ha sido en general superior a laobtenida empleando este procedimiento. Cuando se utiliza conjunto de validación,el algoritmo LM da lugar a perceptrones de una capa oculta con los menores va-lores de MSEtest en el estudio efectuado con OTA. Sin embargo, para el caso dedos capas ocultas, el mejor resultado se obtiene con el algoritmo BR aunque se useearly-stopping en lugar de dejar converger el algoritmo de regularización. La arqui-tectura óptima de la red depende de la naturaleza de los datos experimentales y esespecífica para cada problema. Por ello, la estimación proporcionada por las ANNsno sigue un comportamiento predecible al modificar el número de capas y en lasdiferentes situaciones puede variar el algoritmo óptimo.

3. En el caso de OTA, el algoritmo BR da lugar a MLP ANN con una capacidadpredictiva mejor que la obtenida con los algoritmos LM y RP tanto con una como condos capas ocultas si no se detiene el entrenamiento por early-stopping. Sin embargo,en el caso de DON, el algoritmo BR resulta óptimo en redes con una capa oculta perono en las que tienen dos capas ocultas. En éstas, el algoritmo RP produce modeloscon menor error. El algoritmo BR no necesita de validación. Si se lleva a cabo, seobtienen errores más elevados. Al igual que se mencionó en el punto anterior, lamejor arquitectura de red depende de la naturaleza de los datos.

4. En el estudio efectuado con DON los MLP con una capa oculta proporcionan, si seentrenan con el algoritmo más apropiado (BR) y sin emplear early-stopping sino quese ejecuta un número determinado de epochs (100), una eficacia predictiva sobre elconjunto de test mayor o similar que las de los perceptrones con dos capas ocultas.No obstante, este comportamiento no se puede generalizar ya que el caso de OTAsucede que los MLP con dos capas ocultas no producen valores mínimos del MSEtest

si el algoritmo es BR dentro de los límites del experimento. Ello significa que noes posible generalizar los modelos sino que deben estudiarse en cada caso concreto,

3.6. CONCLUSIONES 147

ya que la producción de metabolitos por hongos es compleja y en ella confluye unnúmero de variables que puede ser superior al de los inputs contemplados.

5. Las RBFN representan una buena alternativa a las MLP ANN si se usa un númerosustancialmente mayor de neuronas en la capa oculta. En el estudio efectuado conOTA se precisaron 200 nodos para obtener MSE similares a los producidos con unaMLP ANN con una capa oculta constituida por 26 nodos. En el estudio efectuadocon DON se necesitaron 60 aunque el error fue menor con 85 nodos. Este tipo deredes tienen una gran aceptación hoy día y no precisan de un conjunto de validaciónpara su entrenamiento. El valor del parámetro spread que proporcionó los mejoresresultados fue 1, que es el valor empleado por defecto en MATLAB.

6. Los valores de las estimaciones del error (MSE, RMSE, %SEP) de los modelos deredes neuronales han sido menores en el estudio efectuado sobre OTA que en elrealizado sobre DON. Ello puede estar influido por el número total de datos, mayoren el caso de OTA, por la diferente partición del conjunto de datos (el conjuntode entrenamiento ha sido proporcionalmente mayor en el caso de OTA), por ladistribución de los datos ya que parece haber mayor linealidad también en el casode OTA o por la ausencia de valores nulos para la concentración de OTA.

7. No tiene mucho interés encontrar una red neuronal cuyo error sea cero ya que losvalores observados son valores medios y tienen un error experimental propio delprocesado de la muestra y de la técnica empleada. Si se conviene en un valor de-terminado de error mayor que el MSEtest mínimo se pueden aceptar modelos menoscomplejos.

8. Algunas diferencias observadas entre los modelos óptimos de ANN diseñadas parala predicción de OTA en medio basado en uva y de DON en grano de cebada puedenser debidas a varias causas como diferencias en el tamaño de la matriz de datos, enla división de la misma en los subconjuntos de entrenamiento, validación y test, enla naturaleza de las variables de entrada y salida, etc.

9. El presente estudio constituye la parte inicial y, por ello, de prueba de un programaextenso cuyo objetivo es explorar el potencial de las ANN para predecir el contenidode las más importantes micotoxinas en alimentos y bebidas para preservar la saludde los consumidores. Los resultados obtenidos permiten ser optimistas y, por tanto,esperar que en el futuro estos modelos tengan una mayor implantación en el ámbitode la predicción de producción de metabolitos en las ciencias microbiológicas, espe-cialmente donde las relaciones entre las variables sean complejas y no lineales. Ellono supone desplazar la estadística convencional, que ha sido y es una herramientamuy valiosa en el campo de la investigación de sistemas biológicos, ya que ambosson perfectamente compatibles y complementarios.

Capítulo 4

Estimación de la posición de incidencia ensistemas de Tomografía por Emisión dePositrones por medio de redes neuronales

En este capítulo se introduce una aplicación muy interesante de las ANNs a un sistemade imagen médica, en concreto a la Tomografía por Emisión de Positrones (PET, delinglés; Positron Emission Tomography), para estimar la posición de incidencia corregidade los fotones que impactan en la superficie de un receptor PET típico. Se han realiza-do simulaciones sintéticas mediante software y, posteriormente, se diseñó un sistema realde medición para evaluar cómo se comportan las ANNs frente a los métodos clásicos deposicionamiento. A lo largo del capítulo se presentará una introducción teórica al PET,y se revisará la situación actual de las técnicas existentes para adquisición de datos, re-construcción de imagen y posicionamiento. Se plantearán los problemas inherentes a lastécnicas actuales de posicionamiento y se mostrarán las ventajas de las ANNs median-te resultados de experimentos realizados en laboratorio sobre un banco de pruebas realespecíficamente diseñado.

4.1 Las técnicas de imagen para diagnóstico médico

Las diferentes técnicas de imagen médica han surgido a lo largo de los años y se hanido perfeccionado, dejando paso a las más avanzadas, como las basadas en medicina

nuclear. Sin embargo, las técnicas clásicas no han perdido su aplicación y todavía sonampliamente utilizadas. Esta Sección introduce a grandes rasgos las técnicas más sig-nificativas para obtención de imágenes médicas que existen en el presente. Una de lasmás recientes y de mayor aceptación es la tomografía por emisión de positrones, que seexplicará con más profundidad en subsiguientes Secciones.

4.1.1 Los rayos X

Los rayos X fueron descubiertos en 1895 por W.C. Röntgen y su utilización para diag-nóstico médico fue inmediatamente reconocida [121]. Los rayos X penetran la mayoríade tejidos biológicos con baja atenuación y, por lo tanto, proporcionan un modo rela-tivamente simple de producir imágenes de “sombra”, o proyección, del cuerpo humano.

149

150 CAPÍTULO 4. ESTIMACIÓN DE LA POSICIÓN EN PET MEDIANTE ANNS

La imagen de rayos X es la radiografía, que representa la distribución de los fotones derayos X transmitidos a través del paciente. Por ello, se trata de una proyección 2D delas propiedades de atenuación de los tejidos a lo largo del camino de los rayos X detecta-dos. Las principales interacciones con la materia que causan atenuación son la absorciónfotoeléctrica y la dispersión inelástica.

Los fotones son dispersados, absorbidos o transmitidos sin interacción. La mayoría delos fotones dispersados se eliminan por medio de una rejilla de plomo. El detector puedeser un sistema de película-pantalla, una película fotográfica de rayos X o un intensificadorde imagen. Las energías de los fotones típicamente oscilan entre 17 y 150 keV. La elecciónde la aplicación particular o tejido analizado es un compromiso entre la dosis de radiaciónaceptable y el contraste de imagen alcanzable. Los huesos causan por regla general másatenuación que el resto de los tejidos, ya que su sección fotoeléctrica y densidad sonmayores. El resultado es un mayor contraste, lo que hace que la radiografía por rayos Xsea particularmente apropiada para imágenes de huesos.

4.1.2 La tomografía computerizada

La radiografía convencional no proporciona información de profundidad, ya que la estruc-tura 3D se proyecta en una imagen 2D. Otra limitación es que el contraste obtenido paratejidos blandos es bastante pobre, lo que es de gran importancia para ciertos órganos,como el cerebro, donde los tejidos blandos están recubiertos por el cráneo, que producegran atenuación. La tomografía computerizada de rayos X (CT) proporciona secciones2D del cuerpo muy finas (aproximadamente 1 mm de grosor). Se puede conseguir resolu-ción espacial sub-milimétrica con buena discriminación entre tejidos (menos de un 1 % devariación debida a la atenuación).

En 1972, G.N. Hounsfield presentó por primera vez un escáner CT clínico en el AnnualCongress of the British Institute of Radiology, el diseño del cual se describe en [158]. Desdeentonces, la introducción de la CT clínica de rayos X ha revolucionado la imagen médicay puede describirse como el mayor avance en Radiología desde el descubrimiento de losrayos X. Los primeros sistemas CT empleaban un haz de tipo pincel procedente de unafuente colimada que escanea linealmente a lo largo del paciente para obtener proyeccionesparalelas.

El tiempo de adquisición era bastante lento, alrededor de 4 minutos. Desde entonces,varias generaciones de CT han surgido. La cuarta generación es capaz de realizar laadquisición de datos en 4-5 segundos, lo que reduce los artefactos en la imagen debidosa los movimientos del paciente en gran medida. Para ello es necesario un anillo continuode unos 1000 detectores. Los sistemas de quinta generación escanean al paciente en unospocos milisegundos, lo que permite obtener imágenes médicas en tiempo real.

Las imágenes de secciones tomográficas que representan la atenuación se construyeninvirtiendo los datos de proyección medidos. El trasfondo matemático de este métodofue descrito por J. Radon en 1917 [286]. El método más utilizado hoy en día para lareconstrucción recibe el nombre de filtered-backprojection, que es común a otros métodostomográficos.

4.1. LAS TÉCNICAS DE IMAGEN PARA DIAGNÓSTICO MÉDICO 151

4.1.3 El diagnóstico por ultrasonidos

En la imagen de diagnóstico por ultrasonidos se emplean pulsos de energía acústica dealta frecuencia, que se emiten hacia el cuerpo de los pacientes, en el cual experimentanreflexión en las fronteras entre tejidos de diferente impedancia característica. A partir dela medida del retardo temporal y de la intensidad de los pulsos reflejados (ecos), se puedereconstruir una imagen que represente las fronteras entre tejidos.

La técnica de diagnóstico por ultrasonidos supone un riesgo despreciable, siempreque la intensidad de los pulsos incidentes sea baja. La tecnología relativamente simpleque se necesita la convierte en una técnica relativamente barata en comparación con otrastécnicas de imagen médica existentes. La resolución espacial obtenible depende de muchosfactores y es típicamente del orden del milímetro. En cuanto a las frecuencias de los pulsos,éstas oscilan por lo general entre 1 y 15 MHz.

El componente central del sistema de imagen por ultrasonidos es el transductor. Éste seencarga de convertir señales eléctricas en ondas acústicas, y viceversa. Los transductoresde ultrasonidos consisten en uno o varios cristales piezoeléctricos acoplados al tejido pormedio de un gel. Para producir una imagen 2D, el transductor se mueve mecánicamente, obien se dirige un rayo acústico utilizando ondas interferentes que se originan en un arrayde cristales. Los sistemas de ultrasonidos Doppler son capaces de detectar variacionesDoppler en las longitudes de onda de las ondas dispersadas. Esto permite, por ejemplo,medir la velocidad del flujo de la sangre en un vaso sanguíneo.

4.1.4 La imagen de resonancia magnética

En la imagen de resonancia magnética (MRI), también conocida como resonancia mag-nética nuclear (NMR), el paciente se sitúa en el interior de un fuerte campo magnéticonormalmente generado por un material superconductor de gran tamaño. La resonanciamagnética nuclear se utiliza para obtener imágenes en función de la densidad de giro delos protones y del tiempo de relajación (o espectro del 31P y 1H en espectroscopía NMR).Los principios de la NMR se explican en profundidad en [211].

En esencia, la MRI se basa en que el momento magnético mp de un núcleo que girainteracciona con un campo magnético aplicado de densidad de flujo B0. El acoplo resul-tante causa que el núcleo gire alrededor del vector campo magnético B0 a la frecuenciacaracterística de Larmor:

ω0 = −γB0 (4.1)

donde γ es el factor giromagnético. Para un núcleo de hidrógeno a B0 = 1 Tesla, lafrecuencia generada es 42.6 MHz. La Figura 4.1 ilustra la geometría del sistema. Enreposo, la componente magnética neta, M, será paralela a B0 y al eje z, pero si se aplicaun pulso corto de radiación a frecuencia RF polarizado circularmente, cuyo vector campomagnético sea perpendicular a B0, entonces M se inclinará respecto al eje z y girará enel plano xy a la frecuencia ω0. Esto representa una fuente de radiación detectable a lafrecuencia ω0. La recuperación de la componente z da lugar a una señal caracterizada pordos tiempos de caída o relajación: T1, que es el tiempo de relajación longitudinal y T2,que es el tiempo de relajación transversal. T1 proporciona información sobre movimientovibracional del mallado, que en tejidos biológicos es, normalmente, el agua. En resumen,


x

y

zB0

mpw0

Figura 4.1: Interacción momento/flujo magnético en MRI.

T1 mide la movilidad de las moléculas de agua vecinas a los núcleos que giran por influenciadel campo magnético, dando una idea del contenido en agua y el grado de absorción en eltejido. Por su parte, T2 manifiesta la pérdida de coherencia de fase entre núcleos vecinos,causada por variaciones locales en el campo magnético que son debidas a cambios en lasusceptibilidad magnética que depende del tejido, junto con la no uniformidad del campomagnético.

Estos tiempos de relajación son característicos de cada tejido y pueden medirse apli-cando secuencias de pulsos de RF y midiendo la frecuencia de las señales obtenidas dela MRI con una bobina receptora. Se pueden adquirir conjuntos de datos anatómicoscompletos aplicando gradientes de campo magnético a lo largo del paciente y midiendo elgradiente de frecuencias en un plano, y el gradiente de fases codificadas en el plano ortog-onal. Posteriormente, se aplica la transformada de Fourier 2D y se obtiene una imagen dela sección del plano de interés.

Entre las razones del éxito de la MRI se puede destacar que es una técnica de al-ta resolución (sub-milimétrica), completamente no invasiva y de muy bajo riesgo. Lasdesventajas son el alto coste, el tamaño de los equipos necesarios, los problemas asociadosa los fuertes campos magnéticos y la necesidad de que el paciente permanezca inmóvil enel escáner durante un tiempo prolongado.

4.1.5 La imagen médica nuclear basada en radioisótopos

Las técnicas de obtención de imagen basadas en radioisótopos cambian radicalmente res-pecto a los métodos vistos hasta ahora en el sentido en que la radiación ya no es trans-mitida desde una fuente externa al cuerpo, sino que se origina dentro de él. Compuestosquímicos etiquetados con radioisótopos se inyectan en el cuerpo del paciente en canti-dades muy pequeñas, y cuando se produce su decaimiento se obtienen fotones gamma.A partir de su detección es posible construir imágenes de la distribución del radionucléi-do. La elección del compuesto depende de la función fisiológica que se desee monitorizar,como puede ser el flujo de sangre, el volumen de sangre, o ciertos procesos metabólicos.Los aspectos físicos de la Medicina nuclear se explican en detalle en [316]. Dentro de losmétodos basados en radioisótopos se pueden destacar dos:

• La tomografía computerizada de fotón único (SPECT): En esta técnica se

4.1. LAS TÉCNICAS DE IMAGEN PARA DIAGNÓSTICO MÉDICO 153

emite un único rayo γ por cada decaimiento nuclear. Una gammacámara equipadacon un colimador parallel-hole rota alrededor del paciente y registra proyecciones1D de radiactividad. Un gran número de estos datos registrados hace posible lareconstrucción (utilizando el método filtered backprojection, al igual que la CT derayos X) de secciones 2D de la distribución del radiofármaco en el cuerpo. Al com-binar proyecciones opuestas se puede tener en cuenta también la absorción dentrodel cuerpo. El SPECT proporciona imágenes funcionales con contraste mejorado endetrimento de la resolución espacial, comparado con la imagen planar basada enradioisótopos.

• La tomografía por emisión de positrones: Esta técnica se basa en la emisiónde dos fotones γ por decaimiento, y en su detección en coincidencia. Un decaimientoproduce un positrón, que tras viajar una corta distancia (∼1 mm) colisiona con unelectrón y se aniquila, generando dos fotones que son emitidos colinealmente y ensentidos opuestos. Su detección en coincidencia por dos detectores opuestos posibilitala reconstrucción de las líneas por las que han viajado estos fotones. Con esto se lograun método más preciso de reconstruir imágenes que con un SPECT colimado. Estoes posible porque la forma y la magnitud de la función de ensanchamiento de línea(LSF) no son determinadas por la respuesta geométrica del colimador y, por tanto,de la distancia al detector. La resolución espacial alcanzable es del orden de pocosmm. Debido a la precisión de este método, la obtención de imágenes funcionalesdel cerebro es un área que puede beneficiarse enormemente de esta técnica. Losusos típicos incluyen el diagnóstico y localización de tumores e infartos cerebrales,así como los cambios en el flujo de la sangre asociados con las funciones locales delcerebro. Por su alto coste instrumental y la baja vida media de los radioisótopos (querequieren un ciclotrón in situ para ser producidos), los escáneres PET normalmentesólo se encuentran en grandes centros clínicos o de investigación.

Es conveniente recalcar que las técnicas basadas en PET o SPECT son técnicas deimagen médica funcional, a diferencia de las imágenes adquiridas con CT o MRI que sonesencialmente morfológicas.

4.1.6 La tomografía de impedancia eléctrica

La tomografía de impedancia eléctrica (EIT) es un nuevo método que todavía dista deser una modalidad clínica establecida para la toma de imágenes. Sin embargo, se trata deuna técnica de gran proyección futura, que recuerda en ciertos aspectos a la tomografíaóptica. En concreto se asemejan mucho sus técnicas de reconstrucción. Una revisión delprogreso realizado en el campo de la EIT fue publicada por Boone en 1997 [36].

La EIT produce imágenes de la resistividad del cuerpo, que varía de manera significa-tiva entre diferentes tipos de tejidos. Por ejemplo, el hueso tiene una resistividad de 150Ω/cm, mientras que la sangre es mucho mejor conductora con sólo 1.6 Ω/cm. Típicamentese sitúan 16 electrodos de manera equidistante sobre la región de interés, por ejemplo, eltórax o el cerebro. Se inyecta entonces una corriente alterna a frecuencias de decenas dekHz a un par de electrodos, y se mide la diferencia de potencial resultante entre cada parde electrodos restantes. Aunque inicialmente se utilizó el simple método de backprojectionpara la reconstrucción, más recientemente se han implantado esquemas de reconstrucción


iterativos, que proporcionan imágenes cuantitativamente más precisas. Estos métodos re-sultan necesarios dada la no linealidad inherente al problema, que está gobernado por laecuación de Laplace:

∇ · ρ−1∇V (ρ) = 0 (4.2)

que relaciona el voltaje V y la distribución de resistividad ρ. La reconstrucción iterativade la distribución de resistividad obtenida de las medidas de voltaje tiene por objetivominimizar la norma del error entre los datos simulados y los reales.

Aunque la resolución espacial de las imágenes de EIT es relativamente baja (del ordendel 10-20 % de las dimensiones del objeto), tiene las ventajas de la rápida adquisición dedatos (en fracciones de segundo), la ausencia de riesgos para el paciente y el relativo bajocoste.

4.2 Introducción a la tomografía por emisión de

positrones

La tomografía por emisión de positrones es el método de adquisición de imágenes médicasde gran sensibilidad para el seguimiento del nivel de moléculas radiotrazadoras in vivo, esdecir, en el cuerpo de un paciente. Se administra al paciente un radiofármaco y, una vezse ha dejado transcurrir el tiempo suficiente para que se concentre en el órgano de interés,la distribución del compuesto en el mismo puede reconstruirse. Esta reconstrucción puedeser realizada en 2D o 3D y con gran precisión, al detectar los pares de fotones que surgenal aniquilarse los positrones emitidos con los electrones presentes en el tejido. Todo estose describirá con más detalle en la siguientes Subsecciones.

4.2.1 Evolución histórica

Aunque los primeros dispositivos capaces de obtener imágenes de la concentración de unradionucléido (compuesto modificado con una molécula radiactiva) en el interior del cuer-po humano no llegaron hasta mediado el siglo XX, el uso de radioisótopos en Medicinaestaba ya siendo investigado a principios de los años 20. En este sentido, un paso de im-portancia definitiva tuvo lugar en el Radiation Laboratory de la Universidad de Berkeleyen California que, posteriormente, sería denominado Lawrence Berkeley National Labo-ratory (LBNL), donde Ernest O. Lawrence inventó el ciclotrón en 19291. Poco tiempodespués, los primeros radionucléidos de isótopos como 14C, 201Tl o 131I entre otros es-tarían disponibles para su uso en investigación médica. En la Universidad de Berkeleyy, concretamente, en el Doner Laboratory creado por John Lawrence, tuvieron origen losmayores avances en el uso de radioisótopos en medicina entre los cuales destaca el uso de131I para el diagnóstico y tratamiento del hipertiroidismo, o el empleo de 32P y 24Na enel tratamiento de la leucemia.

Sin embargo, los inicios de la imagen médica nuclear se sitúan en la Universidad deCalifornia (UCLA), Los Ángeles, donde en 1951, Benedict Cassen inventa el escáner rec-tilíneo, también conocido como escáner cero-dimensional dado que requería de un barrido

1Este descubrimiento le valió el Premio Nobel de Física posteriormente, en 1939.

4.2. INTRODUCCIÓN A LA TOMOGRAFÍA POR EMISIÓN DE POSITRONES 155

del paciente en ambas dimensiones. Éste consistía en un detector de rayos gamma basadoen un cristal de CaWO4 acoplado a un tubo fotomultiplicador que empleaba un colimadorde plomo single-hole e iba montado sobre un brazo mecánico. De este modo, se recorría elcuerpo del paciente al tiempo que se imprimía en un papel punto a punto la actividad de-tectada. A pesar de su extremada lentitud y su reducida sensibilidad, con este dispositivoCassen obtuvo las primeras imágenes de la glándula tiroides empleando 131I [58].

El uso de emisores de positrones para la obtención de imágenes médicas fue utilizadopor primera vez por Gordon Brownell y un grupo de científicos del Massachussets Instituteof Technology (MIT) en 1953. Para ello, construyeron un detector de positrones basadoen la detección de los fotones coincidentes de 511 keV procedentes de la aniquilaciónpositrón-electrón [50], dedicado a la obtención de imágenes del cerebro para la localizaciónde tumores y estudiar su posible recurrencia.

Uno de los avances más significativos en el área de la imagen médica nuclear tuvolugar en la Universidad de Berkeley, donde se estaban investigando nuevos usos para losradisótopos en el diagnóstico y terapia médica, cuando en 1957, Hal Anger construyela primera2 cámara gamma [14], también denominada “cámara de centelleo” o “cámarade Anger”. El alcance de este trabajo ha sido esencial, dado que los principios de fun-cionamiento de la cámara original siguen formando parte de prácticamente la totalidadde los dispositivos desarrollados en la actualidad. Una de sus principales ventajas sobre eldispositivo de Cassen era su mayor área de detección, lo que implicaba a su vez una mayorsensibilidad, posibilitando la obtención de imágenes completas de órganos pequeños sindesplazar el detector. El diseño original consistía en un cristal de NaI(Tl) de 6 mm degrosor y 10 cm de diámetro acoplado ópticamente a 7 tubos fotomultiplicadores de 3.8cm de diámetro distribuidos de forma hexagonal [148], y que producía una imagen deproyección bidimensional del área bajo estudio, eliminando la necesidad de llevar a caboun barrido para poder obtener imágenes del campo de visión útil de la cámara.

La implantación definitiva de las cámaras gamma en el ámbito clínico se vio fuerte-mente apoyada por la disponibilidad y el uso de nuevos radioisótopos que permitieronavances muy importantes. Entre todos ellos destaca la obtención de 99mTc mediante ungenerador (technetium cow) inventado por científicos del Brookhaven National Laboratory(BNL) que separaba el radioisótopo de su isótopo padre, el 99Mo que debido a su tiempo devida medio de 65.94 horas podía ser más fácilmente transportado desde el reactor nucleardonde había sido generado hasta las instalaciones donde debía ser finalmente empleado.El 99mTc aportaba ventajas significativas: era un isómero metaestable cuya desexcitaciónmediante la emisión de un fotón de aproximadamente 140 keV no generaba productosradioactivos o ionizantes adicionales, tenía un tiempo de vida medio de sólo 6.01 horas,permitía etiquetar multitud de compuestos y además era relativamente sencillo de pro-ducir y distribuir, lo que lo convertiría en uno de los radioisótopos más utilizados. En 1964estarían disponibles los primeros marcadores desarrollados por P. Harper y K. Lathrup[142] para el estudio del cerebro, riñón o hígado entre otros. En la actualidad, sus apli-caciones van desde el marcado de difosfonatos (MDP) y, más recientemente, isonitriloscomo el 2-metoxi-isobutil-isonitrilo (MIBI), para la obtención de imágenes óseas [53] hastala realización de estudios de perfusión miocárdica [21], pasando por complejos como elglucoheptonato (GH) en estudios renales [16]. Parece evidente pues que la aparición de

2Ya en 1952 Anger había desarrollado una cámara empleando un colimador pin-hole, cristal de NaI(Tl)y papel fotográfico, con la que había obtenido imágenes empleando 131I


Isótopo Vida media (min) Producción Compuesto más común Aplicación

18F 109.8 Ciclotrón 18F - FDG Metabolismo glucosa

15O 2.03 Ciclotrón 15O - H2O Neurofisiología

13N 9.97 Ciclotrón 13N - amonio Flujo miocárdico

11C 20.3 Ciclotrón 11C - metionina Tumor cerebral82Rb 1.26 Generador 82Rb Flujo miocárdico

62Cu 9.74 Generador 62Cu - PTSM Flujo miocárdico

68Ga 68.0 Generador 68Ga Flujo miocárdico

Tabla 4.1: Isótopos más utilizados como radiotrazadores y sus principales aplicaciones.

nuevos radioisótopos, así como el desarrollo de nuevos radiofármacos dirigidos al estudiodel funcionamiento de órganos determinados impulsó de forma definitiva la aplicación delas modalidades de imagen médica nuclear a la práctica clínica convencional. De hecho,en 1971, la American Medical Association reconoció oficialmente a la medicina nuclearcomo especialidad médica.

Finalmente, Michel Ter-Pogossian, Michael Phelps y Edward Hoffman de la Universi-dad de Washington, St. Louis, construyen a finales de 1974 el primer escáner PET [273]de cuerpo entero. Los primeros diseños utilizan los algoritmos de reconstrucción emplea-dos por Hounsfield en el desarrollo de la tomografía computerizada, al mismo tiempoque explotan las ventajas de la colimación electrónica posibilitada por la radiación deaniquilación procedente de los radioisótopos emisores de positrones, con los que Phelpshabía estado trabajando hasta ese momento en estudios dinámicos del cerebro humano.El primer escáner PET comercial fue entregado por éste a la UCLA en 1976.

4.2.2 Radiofármacos más utilizados

Para llevar a cabo el escaneo de un paciente mediante PET, inicialmente se administraun radiofármaco3 formado por una pequeña cantidad de un isótopo radiactivo basado enciertos compuestos que se encuentran en el cuerpo humano de manera natural, sobre unsustrato que participa en el metabolismo humano, evitando así perturbaciones en el organ-ismo. Algunos de los isótopos más usuales junto con su vida media se resumen en la Tabla4.1. La principal desventaja de estos compuestos es que su reducida vida media obliga aproducirlos en las propias instalaciones. El 18F es el compuesto más utilizado ya que sumayor vida media permite producirlo fuera de las instalaciones y transportarlo después.También contribuye a ello el hecho de que puede ser fácilmente empleado para etiquetarbiomoléculas de interés como la glucosa, dando lugar a 2-[18F] fluoro-2-desoxi-D-glucosa(18F-FDG). Su distribución en el interior del cuerpo humano posibilita la diferenciaciónde tejidos malignos que suelen presentar un consumo de glucosa varias veces superior a lonormal, así como la detección de tejidos isquémicos o necróticos, entre otras aplicaciones.

3La administración se realiza típicamente por vía intravenosa, aunque en otras aplicaciones, como lasque afectan a las vías respiratorias, el fármaco es inhalado en forma de aerosol.


b+

n

e~180º

511 KeV

511 KeVNúcleo emisorde positrones

-

Figura 4.2: Emisión de un positrón por parte de un núcleo radiactivo y su posterioraniquilación.

4.2.3 Principio físico del PET

El principio físico en que se basa el PET es que los isótopos deficientes de neutrones puedenexperimentar un decaimiento de tipo β+, que consiste en la emisión de un positrón (oelectrón positivo, e+) y un neutrino (ν). Un positrón tiene la misma masa, pero cargaopuesta, que la del electrón. Los positrones se emiten junto con una pequeña cantidadde energía (unos pocos MeV a lo sumo), que rápidamente pierden por colisiones con losátomos del medio que los rodea (tejido). El proceso recibe el nombre de desintegraciónβ+ y puede resumirse de la siguiente manera:

p+ → n + e+ + ν (4.3)

Una vez que la energía del positrón disminuye lo suficiente, una colisión con un electrónlibre en el tejido resulta en una aniquilación materia-antimateria, de la que surgen dosfotones γ que forman aproximadamente 180o (ver Figura 4.2), siguiendo una línea querecibe el nombre de línea de respuesta (LOR). La distancia que recorre el positrón antesdel encuentro con el electrón es de unos pocos milímetros, dependiendo de la energía conque se emitió. La ligera desviación de los fotones respecto al ángulo de 180o es debida a queel sistema positrón-electrón poseía cierto momento residual que se conserva en el procesode aniquilación. Esta falta de perfecta colinealidad limita la máxima resolución espacialalcanzable por un sistema PET. La energía de cada fotón de aniquilación es de 511 keV,lo que equivale a la masa del electrón o del positrón, por el principio de conservación dela energía. Los pares de fotones de 511 keV son emitidos en un ángulo sólido de 4π (esdecir, en 3D) sin una dirección preferente.

4.2.4 La detección en coincidencia

Un tomógrafo para PET está diseñado para registrar la radiación electromagnética proce-dente de la reacción de aniquilación de los positrones con los electrones de la materia, eneste caso del paciente. La detección en coincidencia de los pares de fotones de una mismaaniquilación proporciona información sobre la distribución del compuesto radiotrazadorque emite los positrones. Para reconstruir la distribución se deben tener en cuenta dossuposiciones:


(a) (b) (c) (d)

Figura 4.3: Un evento true (a), un single (b), un random (c) y una coincidencia porscattering (d).

1. La línea sobre la que los fotones viajan contiene el núcleo desde el cual el positrónse originó.

2. Los fotones se emiten formando un ángulo de 180o.

Estas suposiciones son necesarias (aunque como hemos visto, no se cumplen total-mente) para que la integral de todos los pares de fotones emitidos a lo largo de unadirección dada represente la suma, o integral de línea, de la actividad de emisión depositrones correspondiente a tal línea. En la práctica, las integrales medidas deben sercorregidas respecto a varios efectos del entorno antes de llevar a cabo la reconstrucción.Los pares de fotones que se detectan en coincidencia pero que tienen su origen en diferentesaniquilaciones se denominan randoms o falsas coincidencias, al contrario que los fotonesque se detectan en coincidencia y que realmente proceden de la misma aniquilación, queen ese caso se denominan trues o coincidencias verdaderas. Los eventos random son cau-sados por la asignación a una LOR incorrecta de dos fotones generados por distintasaniquilaciones pero detectados en coincidencia. Este tipo de eventos se compone de dossingles, eventos para los que sólo un fotón del par es detectado. Los randoms, junto conlos eventos que han sufrido dispersión (scattering Compton) y que son detectados en co-incidencia, contribuirán a aumentar el ruido de fondo del histograma de medidas. Por lotanto, las integrales (sumas) de fotones detectados deben ser corregidas eliminando efectosde randoms, dispersión y atenuación.

Otra consideración importante es que para que una coincidencia sea considerada comoválida los dos fotones de un par deben alcanzar los respectivos detectores en un inter-valo de tiempo establecido (ventana de coincidencia) del orden de los nanosegundos ysu energía debe superar un umbral mínimo que asegure que no han sufrido dispersionesde importancia en el trayecto. El tiempo de vuelo (TOF), habitualmente inferior a 1 ns,determinará la ventana de coincidencia temporal mínima del escáner.

El factor más importante a la hora de establecer la ventana temporal de coincidencia esla capacidad de un componente del receptor denominado cristal de centelleo para producirluz. Cuanto mayor sea esta cualidad para un tipo de cristal dado, menos tiempo necesitael sistema para reconocer el impacto de un fotón y más pronto estará listo para recibir elsiguiente. No hace falta explicar que si un tipo de cristal realiza esta operación en la mitadde tiempo que otro, el sistema en su conjunto es potencialmente candidato a multiplicarpor dos su sensibilidad. La sensibilidad es el parámetro de referencia y el responsablemáximo de las posibilidades de un PET.


Discriminador

PMT

PMT

Discriminador

Retardo t1

Retardo t2

trigger

Figura 4.4: Esquema básico de un circuito detector de coincidencias. Cada rama contieneun circuito discriminador y un retardo ajustable para cancelar las diferencias de retardoentre las dos ramas.

La detección de coincidencias pasa en primer lugar por la detección del impacto de unfotón γ en alguno de los módulos detectores. Una vez que un evento ha sido detectado, sialgún otro módulo ha detectado un evento dentro de una ventana temporal determinadase generará una señal de disparo (trigger) que habilita la digitalización. La detección decoincidencias requiere, por tanto, de un circuito discriminador que genere una señal lógicaque esté relacionada con una marca temporal del pulso (ver Figura 4.4).

4.2.5 Elementos de un sistema PET

La detección en PET se basa en las denominadas gammacámaras, nombre que procede delos fotones γ, aunque también son conocidas como cámaras de Anger [14] o de centelleo.Los componentes básicos de una gammacámara para PET son los siguientes [264]:

• Una guía colimadora, que limita el ángulo de incidencia de los fotones γ para ase-gurar que las incidencias son perpendiculares al cristal de centelleo.

• Un cristal de centelleo, que convierte la energía de los fotones en luz en el espectroUV o visible por lo general.

• Tubos fotomultiplicadores (PMTs) y su electrónica asociada, que se encargan deconvertir la energía electromagnética en señales eléctricas, que pueden ser procesadasconvenientemente para hallar las posiciones de impacto y, con ello, la reconstrucciónde la imagen médica.

Un diagrama de una gammacámara puede observarse en la Figura 4.5.Los escáneres PET adquieren diferentes configuraciones dependiendo de la aplicación

para la que estén diseñados. Los más comunes son los de cuerpo entero, que constan demúltiples anillos de módulos detectores que rodean completamente el campo de visión(FOV, del inglés Field of View) de la cámara (ver Figura 4.6). Una fotografía de unescáner de cuerpo entero comercial puede observarse en la Figura 4.7.


Circuitos de posicionamiento y sumado

Analizador dealtura de pulso

X Y Z

Ordenador

Corrección de linealidady uniformidad

Monitor

Imagen

Ventana de entrada

PMTs

Colimador

Cristal de centelleo

Figura 4.5: Diagrama 3D de una gammacámara. Los fotones γ inciden en el cristal cen-telleador. La señal óptica generada es captada por los PMTs, que la convierten en señaleléctrica que puede ser procesada a posteriori para estimar el punto de incidencia y, conello, reconstruir la imagen de un objeto mediante las LOR detectadas. La señal Z es pro-porcional a la cantidad total de luz generada por un evento de centelleo y se utiliza paraanálisis de la altura de pulso, además de para realizar estimaciones de la profundidad deinteracción [191].

Otras geometrías (de dos planos, rectangulares, semianulares, etc.), son adaptadasespecíficamente a sistemas de PET dedicados como, por ejemplo, las cámaras de mamo-grafía por emisión de positrones (MEP). La gammacámara empleada en los experimentosde esta Tesis tiene una configuración de dos detectores enfrentados (dual-head), como larepresentada en la Figura 4.8.

4.2.5.1 Colimación en PET

El PET es intrínsecamente una técnica sin colimación mecánica. La colimación se realizaelectrónicamente. En ocasiones, como es el caso del trabajo presentado en este capítulo,se hace uso de colimadores mecánicos para evitar coincidencias cruzadas, es decir, paraasegurar que la incidencia de los fotones γ es siempre perpendicular al cristal de centelleo.Existe la posibilidad de usar una fuente colimada, o bien añadir el colimador en la carafrontal del cristal; en tal caso, estaría formado por placas pequeñas, perpendiculares al


Figura 4.6: Diagrama de un escáner PET cilíndrico de cuerpo entero. Las múltiples LORrecorren el cuerpo del paciente transversalmente según distintos ángulos y son detectadaspor detectores opuestos de cada anillo, posibilitando la reconstrucción de imágenes desecciones de órganos, o volúmenes, al combinar varias secciones.

cristal, de material muy absorbente a 511 keV (generalmente plomo), para detener todorayo gamma que no llegue al cristal por uno de los huecos entre placas (es decir, cualquierrayo gamma con incidencia oblicua).

Aunque los primeros escáneres empleaban colimación mecánica entre distintos anillosde detectores mediante membranas de plomo, lo que restringía las coincidencias a unmismo plano de detección, actualmente éstas han ido siendo progresivamente eliminadas4

con el objetivo de incrementar la sensibilidad al aumentar la aceptación geométrica dela cámara. Esto presenta diversas implicaciones. En primer lugar, la adquisición de lascoincidencias es completamente 3D, lo que aumenta la tasa de eventos incrementandola sensibilidad pero también el scatter. Por otro lado, los algoritmos de reconstrucciónde imagen se hacen significativamente más complejos tanto algorítmica como computa-cionalmente, necesitando bien de esquemas de corrección para continuar empleando losya desarrollados para reconstrucción 2D, o bien de métodos esencialmente nuevos.

4.2.5.2 El cristal de centelleo

Al producirse eventos de absorción fotoeléctrica o scatter Compton se liberan fotonescuya frecuencia depende exclusivamente del material por el que viajan. Si la frecuenciase encuentra dentro del espectro de la luz visible, se logrará transformar un rayo gammaen un centelleo de luz. Un cristal de centelleo está fabricado en un material transparentecuya radiación característica se encuentra en el espectro visible (concretamente azul, conuna longitud de onda entre 400 y 500 nm).

4Algunos escáneres, fundamentalmente comerciales, todavía presentan una septa retráctil que permiteescoger entre las modalidades de adquisición 2D y 3D.


Figura 4.7: Fotografía de un escáner comercial típico.

FOV

Fuentepuntual

LOR

Detector 1 Detector 2

Figura 4.8: Gammacámara de geometría dual-head (dos detectores enfrentados).

Una de las características que debe tener un buen cristal de centelleo es que sea buenproductor de luz. Todo cristal tiene una constante de proporcionalidad denominada lightyield, o producción de luz, que determina cuántos fotones son generados al dispersar unfotón incidente. Interesa que el light yield sea elevado para maximizar la sensibilidad enla detección.

Otro parámetro significativo es el tiempo de decaimiento, que es el tiempo medio entrela interacción del rayo gamma con el cristal y la generación de fotones ópticos. Interesa quesea corto para poder detectar el siguiente rayo tan pronto como sea posible y minimizarasí el tiempo muerto. Aunque el tiempo de respuesta de los cristales orgánicos es menorque el de los inorgánicos, estos últimos se prefieren para escáneres PET debido a su mayorpoder de detención, lo que ayuda a poder utilizar cristales de menor grosor. Además sonmejores productores de luz y más lineales.

Por último, el coeficiente de atenuación del cristal es también importante. Este parámetroindica la probabilidad de interacción de un rayo incidente que atraviesa una sección de


NaI BGO LSO GSO

Densidad (g/cm3) 3.67 7.13 7.40 6.71

No atómico efectivo 50 74 66 59

Tiempo de decaimiento (ns) 230 300 40 60

Producción de luz ( % NaI) 100 15 75 16

Tabla 4.2: Características más significativas de los cristales de centelleo más importantes.

cristal de profundidad unidad. Este coeficiente debe ser alto para conseguir absorber másradiación con un cristal de una anchura dada.

El acoplamiento óptico entre un cristal de centelleo y un PMT es un recurso empleadodurante muchas décadas con considerable éxito. La energía, relativamente alta, de losfotones de aniquilación obliga a incorporar a los detectores dedicados a PET un tipo decristal de centelleo más denso, capaz de frenar esta radiación en unos espesores reducidosde material. Hasta hace pocos años el material más empleado era el BGO (germanatode bismuto) entre otras cosas por tener un número atómico efectivo elevado y a pesarde contar con dos considerables defectos para desarrollar su labor. Por una parte, esun modesto productor de luz sobre todo si lo comparamos con el cristal de centelleo dereferencia, el NaI (Tl) y, en segundo lugar, su capacidad de resolución en energía y, portanto, de distinguir fotones de energías similares, es de las peores entre las ya de por sílimitadas prestaciones del centelleo sólido en este aspecto. Los nuevos cristales como elortosilicato de lutecio (LSO) [233] y ortosilicato de gadolinio (GSO) [234] están obteniendomuy buenos resultados. En concreto, el LSO tiene un light yield entre 3 y 4 veces superioral BGO y un tiempo de decaimiento 7 veces inferior al BGO [257]. En el trabajo realizadoen esta Tesis se emplearon cristales LSO. En la Tabla 4.2 se resumen los tipos de cristalesmás importantes y sus principales características.

En un tomógrafo para PET, la distribución de los cristales y los PMTs se realiza en mó-dulos independientes llamados bloques detectores. Consisten en una matriz de pequeñoscristales acoplada a un número determinado de PMTs que depende del modelo del equipoy del fabricante. Esta solución, aunque cara, es la más eficiente para tomógrafos con altasprestaciones de sensibilidad y resolución ya que dota al equipo un carácter puramentemodular en el que cada matriz de cristales es independiente de su vecina y cuenta conelectrónica propia para dar salida a los eventos registrados. Mientras se detecta cada even-to y se le asigna matemáticamente una posición en la matriz del cristal, período duranteel que ese bloque no es capaz de detectar ningún otro evento, el resto de los bloques y, portanto, la práctica totalidad de la superficie útil de detección, siguen activos. Este procesono puede conseguirse tan eficazmente en equipos que trabajan con grandes monocristales,como los que se colocan en las gammacámaras convencionales, lo que redunda en mayorespérdidas de tasa de contaje por tiempo muerto.

Los detectores que contienen un único cristal acoplado a los PMTs se denominan“continuos”. Estos detectores tienen el problema de que hacen falta muchos PMTs paralograr resoluciones cercanas a 1 mm, con lo que se hace necesario utilizar PMTs sensiblesa la posición o multi-ánodo. Por contra, el detector más habitualmente empleado es eldenominado “pixelado”, que se basa en la unión de varios PMTs, mediante una guía de luz


cristales de centelleo(matriz 8x8)

4 PMTs

Figura 4.9: Matriz de cristales 8×8 acoplada a 4 PMTs formando 4 bloques detectores.Generalmente, un escáner de PET puede constar desde dos de estos módulos enfrentadoshasta varios anillos de decenas de ellos en cada uno.

o grasa óptica a la parte posterior de una matriz de cristales centelleadores obtenidos apartir del corte del material correspondiente. Los cristales individuales deben ser cubiertoscon un película reflectante de forma que la luz emitida quede confinada en el interior decada cristal. Al mismo tiempo, la guía de luz tiene que hacer llegar ésta a las ventanas deentrada de los PMTs garantizando la no deformación de la distribución de luz procedentedel cristal. El impacto de un fotón γ en un cristal producirá una salida determinada encada uno de los PMTs acoplados a la base de la matriz de centelleadores. En la Figura4.9 se representa una matriz de cristales 8×8 formando 4 bloques detectores, mediante laasignación de un PMT a cada submatriz de 4×4 cristales, según la configuración propuestapor Casey [57]. El acoplamiento óptico entre el cristal y los PMTs puede hacerse medianteuna ventana de entrada (light guide), que mejora la eficiencia de la captación de luz, altiempo que evita que la luz se pierda por los huecos entre PMTs [63].

Los detectores pixelados pueden alcanzar muy buenas resoluciones espaciales (<2 mm)dado que ésta dependerá fundamentalmente de las dimensiones del cristal. Sin embargo, elcorte del cristal puede incidir de manera importante en el coste. Entre los inconvenientesse puede destacar que la reducción del tamaño del píxel empieza a ser progresivamentemás complicada, dificultando la extracción de la luz del cristal [62]. Problemas adicionalescomo el scatter inter-cristal [308] también se hacen significativos a medida que se reducenlas dimensiones de éstos.

4.2.5.3 El tubo fotomultiplicador

El empleo de PMTs es la técnica más común para detectar la luz emitida por el cristal cen-telleador y convertirla en una señal eléctrica cuya amplitud sea proporcional a la energíadepositada por el fotón incidente. Los PMTs son una alternativa viable y ampliamenteaceptada frente a los fotodiodos de avalancha (APDs), que son más caros, aunque puedenalcanzar tamaños más reducidos [215]. Los PMTs se basan en la emisión y recolecciónde electrones de baja energía a partir de los fotones ópticos que alcanzan una película


Fo

tocá

tod

o

Dínodos

Ánodo

Señal óptica

- +

i

t

Figura 4.10: Tubo fotomultiplicador.

fotosensible denominada fotocátodo que está situada a la entrada del dispositivo. El fo-tocátodo es de un material fotosensible que libera cierta cantidad de electrones por cadafotón incidente, con una probabilidad de absorción dada por su eficiencia cuántica ν

ν( %) =No fotoelectrones emitidos

No fotones incidentes× 100 (4.4)

que suele tomar valores entre 20-30 %.Dado que la magnitud de la señal generada es muy pequeña, es necesario amplificarla

usando una estructura de dínodos sucesivos tal como ilustra la Figura 4.10. Entre cadapar de dínodos hay una diferencia de potencial elevada, del orden de varios cientos devoltios, de manera que cuando un electrón se desprende del mismo, es acelerado por elcampo eléctrico y causa el desprendimiento de varios electrones en el dínodo destino. Elresultado es un amplificador de varias etapas en cascada que logra elevadas ganancias yalta linealidad. Normalmente se usan entre 10 y 15 etapas de amplificación para conseguiruna ganancia total del orden de 106. Con ello, el PMT es capaz de generar pulsos decorriente cuya amplitud sea proporcional al número de fotones ópticos que alcanzaron elfotocátodo [107, 175, 177].

Para cada fotón incidente que se detecte (con probabilidad ν), se generará una de-terminada carga en el ánodo, que se medirá a partir la corriente i de salida del PMT.Concretamente, para obtener la energía incidente correspondiente a un centelleo (Q),tendremos

∫ ∞

0

i(t) dt = Q = G · f (4.5)

donde f es el número de fotones detectados durante el centelleo y G es la matriz deganancias del PMT (en realidad, este factor incluye tanto la ganancia asociada a lasetapas de amplificación como la sensibilidad del fotocátodo). De modo que la integralde la corriente generada es proporcional al número de fotones y, por tanto, a la energíadepositada en la superficie fotodetectora.


Para poder posicionar el centelleo, son necesarios varios PMTs que proporcionen in-formación acerca de la distribución espacial de los fotones de un centelleo en la superficieposterior del cristal. Recientemente, han sido desarrollados nuevos PMTs sensibles a laposición (PS-PMT, Position Sensitive-Photomultiplier Tube) de alta resolución que evi-tan la necesidad de tener más de un PMT para estimar el posicionamiento. Estos PMTshan ganado rápidamente una gran aceptación en aplicaciones de imagen médica nuclear:cámaras gamma, SPECT y PET. Dentro de los nuevos PS-PMT, los fotomultiplicadoresmulti-ánodo (MA-PMT, Multi-Anode Photomultiplier Tube) han sido los utilizados en eldetector del sistema PET que se ha empleado en esta Tesis.

4.2.5.4 La electrónica de detección

La electrónica de front-end del detector se encarga de analizar y almacenar la informaciónproveniente de los bloques detectores. Una etapa se encarga de integrar los pulsos paracalcular la energía depositada e identificar la localización de la interacción. Una segundaetapa se encarga de decidir si dos eventos simples ocurren dentro de una ventana temporalsuficientemente estrecha como para considerar que ambos eventos están correlacionados(en coincidencia).

La señal procedente del detector consiste generalmente en un pulso de corriente i(t) conforma exponencial cuya integral es proporcional a la carga generada por el fotodetector,como se vio en la Ecuación 4.5

Desde el punto de vista electrónico, la detección de la interacción de un fotón γ enel detector puede ser dividida en varias etapas. En primer lugar, dado que la señal noes habitualmente procesada en modo corriente5, suele haber una etapa preamplificado-ra encargada de la conversión corriente-tensión (i.e. típicamente una etapa integradora,trasladando la carga de la Ecuación 4.5 a una tensión en los terminales de una capacidad,que puede ser directamente la de salida del PMT que se aprecia en la Figura 4.10).

A continuación, la señal suele ser acondicionada mediante una etapa de conformaciónque deberá adaptar el pulso en cuanto a amplitud, polaridad, forma, tiempos de subida ybajada, así como en función de las características del ruido presente en el proceso de de-tección. La etapa de conformación de pulso puede ser completamente analógica o realizarsimplemente un acondicionado previo de la señal que, inmediatamente, es muestreaday conformada digitalmente. Esta última aproximación permite aprovechar toda la po-tencia del filtrado digital para conseguir una forma de la señal que optimice diversosparámetros como la SNR, la resolución temporal y la resolución en energía, mediante laimplementación de filtros óptimos, filtros adaptativos o, simplemente, con una respuestaen frecuencia que no puede ser sintetizada con una implementación analógica.

Finalmente, tras la conformación, las señales procedentes del detector son procesadaspara determinar la energía del fotón así como la información temporal del mismo. EnPET interesa discriminar sólo aquellos pares de fotones que provengan de una mismadesintegración. De este modo, serán necesarios mecanismos de detección de coincidenciatemporal que consideren una ventana de tiempo lo más estrecha posible pero que incluyael posible tiempo de vuelo de cada fotón a lo largo de todas las LORs del sistema.

5A excepción de los mecanismos de read out que están íntimamente ligados al dispositivo fotodetector(es decir, una red resistiva de división de corriente para la determinación de la posición de interacciónreduciendo el número de canales requerido).

4.3. INTERACCIONES DE LA RADIACIÓN GAMMA CON LA MATERIA 167

4.3 Interacciones de la radiación gamma con la materia

Un fotón, en su recorrido hasta el detector, se enfrenta a diversos fenómenos físicos queafectan a su trayectoria y limitan la calidad de reconstrucción que puede alcanzar unsistema PET. En esta sección se enumeran los más significativos.

4.3.1 Absorción fotoeléctrica

La absorción fotoeléctrica, o efecto fotoeléctrico, es un efecto que se da cuando el fotón (φ)colisiona con un electrón en una de las capas internas de un átomo. El fotón es absorbidopor completo y el electrón es expulsado del átomo, con una energía cinética igual a ladiferencia entre la energía del fotón absorbido y la energía de enlace del electrón, Eb:

Ee− = Einc − Eb = hν −Eb (4.6)

A este electrón expulsado se le llama fotoelectrón. Al crearse un hueco en uno de losorbitales internos del átomo, éste puede ser ocupado por un electrón libre o ser ocupadopor un electrón procedente de un orbital más lejano al núcleo. Típicamente, se trata deun electrón del orbital inmediatamente posterior, que deja un hueco que es, a su vez,ocupado por un electrón del siguiente orbital. De esta manera se produce una cascada deelectrones hasta llegar al último orbital del átomo. En cada movimiento de electrones, segenera radiación emitida en forma de rayos X para compensar la diferencia de energía deenlace. Este proceso se ilustra en la Figura 4.11.

Por otro lado, el fotoelectrón colisiona, a su vez, con electrones de otros átomos cer-canos, expulsándolos de los mismos e induciendo el mismo efecto. En cada colisión, sepierde parte de la energía cinética del fotoelectrón. Esta reacción en cadena continúahasta que se pierde toda la energía cinética.

En PET, al interactuar los fotones con los tejidos biológicos, se produce atenuaciónpor el fenómeno de la absorción fotoeléctrica. El grado de atenuación depende del tipo detejido. Por lo general, la atenuación es corregida mediante mapas de de atenuación, comose explicará más adelante en la Sección 4.3.3.

Figura 4.11: Efecto fotoeléctrico.


Figura 4.12: Scattering Compton.

Figura 4.13: Energía del fotón dispersado (verde) y probabilidad de dispersión para elmismo ángulo sólido (azul), normalizadas, según el ángulo de dispersión, para fotones de511 keV.

4.3.2 Dispersión o scattering Compton

Cuando el electrón que interactúa con el fotón gamma pertenece a una de las capas exter-nas del átomo, o bien se trata de un electrón libre, el fotón no es absorbido completamente,y en su lugar se produce una colisión elástica, en la que el fotón transfiere parte de suenergía al electrón (en forma de energía cinética). La Figura 4.12 representa este proceso.

Tras la colisión, el fotón puede dispersarse según cualquier ángulo, siguiendo unadistribución de probabilidad que viene dada por la ecuación de Klein-Nishina [177]. LaFigura 4.13 muestra la distribución de probabilidad del ángulo θ para fotones incidentesde 511 keV. El ancho de haz a mitad de máximo es de 86o, con lo cual en la mayoríade los casos el ángulo de deflexión θ está por debajo de 45o. En la misma Figura se harepresentado la energía del fotón dispersado, que depende también del ángulo de dispersióny puede calcularse a partir de la fórmula

E ′γ =

Eγ

1 + Eγ

mec2(1 − cos(θ))

(4.7)

donde Eγ = hν es la energía del fotón incidente, E ′γ = hν ′ es la energía del fotón dispersado

y me es la masa en reposo del electrón, que equivale a 511 keV.


El fotón dispersado puede, a su vez, sufrir absorción fotoeléctrica o un segundo scat-tering Compton. Igualmente, el electrón expulsado puede desencadenar la misma reacciónen cadena que en el caso de la absorción fotoeléctrica. La energía de retroceso T puedeobtenerse como la diferencia entre la energía del fotón antes y después de la colisión

T = Eγ − E ′γ = hν − hν ′ (4.8)

La máxima energía de retroceso se obtiene cuando el fotón incidente sale despedido enel sentido contrario al de incidencia con θ = 180o, fenómeno conocido como backscattering.

Evidentemente, un mismo fotón puede sufrir fenómenos sucesivos de scattering Comp-ton, aunque la probabilidad es progresivamente menor, siendo mayor a su vez la de de-saparecer a través de un proceso de efecto fotoeléctrico o la de abandonar el cristal sinhaber sido completamente absorbido.

En los últimos años se han desarrollado diferentes técnicas de corrección de scatteringCompton y sus resultados han sido publicados. En particular, estas técnicas han sido laconvolución-sustracción [20], la ventana de energía dual [29, 132] y los métodos basadosen modelos [262, 357].

4.3.3 Atenuación

Cuando los fotones viajan en una dirección particular a través de la materia, su númerodisminuye gradualmente, ya que algunos de ellos interaccionan con electrones y son ab-sorbidos o se desvían de su trayectoria inicial. Por definición, la fracción que desaparecea lo largo de una distancia ds es igual a µ(s)N(s):

−dN(s) = µ(s)N(s) (4.9)

donde N indica el número de fotones en función de la distancia, y µ es el coeficientede atenuación lineal, que se define como la probabilidad de interacción por unidad delongitud.

Si se emiten inicialmente N(a) fotones desde un punto s = a a lo largo del eje s, elnúmero de fotones N(d) que se espera que alcancen un detector posicionado en s = d secalcula integrando la Ecuación 4.9

N(d) = N(a)e−∫ d

a µ(s)ds . (4.10)

En el caso del PET se deben detectar pares de fotones procedentes de la aniquilaciónde los positrones. Si un número N(a) de pares de fotones es emitido desde un punto s = aa lo largo de una determinada LOR y se pretenden detectar con dos detectores opuestossituados en s = d1 y s = d2, respectivamente, el número de posibles detecciones en coinci-dencia será proporcional al producto del número de fotones emitidos por la probabilidadde que ambos abandonen el objeto:

N(d1, d2) = N(a)·P(d1,a)·P(a,d2) = N(a)·e−∫ a

d1µ(s)ds·e−

∫ d2a

µ(s)ds = N(a)·e−∫ d2d1

µ(s)ds . (4.11)

De la Ecuación 4.11 se desprende que la atenuación en PET es, a diferencia de en otrastécnicas basadas en fotón único como SPECT, independiente del origen de la radiacióna lo largo de la LOR concreta. Este hecho simplifica de forma importante el proceso de


corrección de la atenuación. Las interacciones fotón-electrón serán más frecuentes cuandoexisten más electrones por unidad de longitud. En consecuencia, los materiales de altadensidad en cuanto a número de electrones por átomo tendrán mayores coeficientes deatenuación lineal.

La corrección de la atenuación es esencial en PET ya que típicamente más del 60 % delos fotones emitidos interaccionan con el tejido [342]. La corrección requiere un mapa decoeficientes de atenuación lineales (llamado mapa µ) a 511 keV, que pueden ser medidoscon una fuente externa, o calculados a partir del conocimiento de las fronteras del medioatenuador. El punto crucial es el compromiso entre precisión en la corrección, la propa-gación del ruido introducido en el proceso y la posibilidad de que no coincidan el mapa µverdadero con el medido o calculado. Aunque es relativamente sencilla para imágenes delcerebro, la medida de factores de corrección de la atenuación precisos y con bajo nivel deruido es algo más problemática para imágenes del corazón. Las imágenes de cuerpo enteroentrañan incluso más dificultad por culpa del límite de tiempo disponible para adquirirlos datos individuales de de cada posición de la cama. La técnica estándar de medida defactores de corrección de atenuación es adquirir transmisiones de escaneos 2D utilizan-do una barra rotatoria de fuentes 68Ge. A continuación se apilan estas proyecciones 2Dpara formar un volumen 3D y se obtienen los factores de corrección de atenuación por elmétodo de reproyección (ver Apéndice A).

4.3.4 Las pérdidas por tiempo muerto

El tiempo que transcurre entre que el cristal capta un fotón y está listo para recibir elsiguiente se denomina tiempo muerto o dead time. Durante el tiempo muerto, el detectorno es capaz de captar nuevos fotones incidentes. El tiempo muerto de un detector sehace mayor a medida que aumenta la tasa de contaje. Para concentraciones elevadas deltrazador, la electrónica de los detectores es incapaz de generar un pulso eléctrico paracada fotón que alcanza el detector, produciéndose una pérdida considerable de cuentasasociadas a ese punto que puede acabar incluso en un fenómeno de saturación del detectorpor apilamiento (pile-up) de impulsos. De no ser caracterizado este fenómeno, la captaciónen cuestión presentaría una concentración del trazador inferior a la real.

Es necesario distinguir dos componentes distintas del dead time. En primer lugar,existe un dead time del detector, que comprende generalmente toda la duración del pulsoelectrónico generado por el impacto de un fotón γ en el cristal centelleador y que estarádeterminado por el tiempo de decaimiento del centelleador más el ensanchamiento genera-do por la electrónica de front-end (es decir, las constantes de tiempo del preamplificadory la etapa de conformación). La llegada de un nuevo fotón γ al mismo detector tras untiempo inferior al dead time dará lugar a un pile-up.

En segundo lugar está el dead time de la electrónica, que comprende el tiempo duranteel cual el sistema de adquisición y procesado de datos no puede aceptar un nuevo eventocoincidente que, por lo tanto, es desechado. En el banco de pruebas utilizado en estaTesis se emplea un esquema de adquisición en modo free-running sampling [328] y conprocesamiento paralelo de los datos que no presenta dead time para las tasas de eventosque pueden ser soportadas por el LSO (τd ≈ 47 ns). Además, las técnicas de procesadodigital posibilitan la aplicación de técnicas para la recuperación de los pile-ups permitiendola reducción del dead time del detector frente a las constantes temporales del cristal y la


detector 1

detector 2

LOR real

LOR asignada

Fuentepuntual

DOI

Figura 4.14: Ilustración del error de paralaje producido al ignorar la DOI.

etapa de front-end.Existen mecanismos para la corrección de la tasa de cuentas en función del dead time,

que puede ser medido con cierta facilidad. En cualquier caso, la no detección de eventosimplica una reducción en la eficiencia del escáner y la introducción de ruido estadísticoen la imagen reconstruida.

4.3.5 La profundidad de interacción

Es muy habitual que los eventos que inciden en unas coordenadas (x, y)|z=0 del cristal,en realidad sean detectados en otro punto (x′, y′)|z 6=0 (llamado centroide) debido a ladistancia que recorren los fotones γ en el cristal antes de depositar toda su energía. Ladistancia en línea recta desde el punto donde se detecta el centelleo y la superficie dela cara externa del cristal se denomina profundidad de interacción (Depth of interaction,DOI).

El resultado de ignorar la profundidad de interacción en una medición origina el de-nominado “error de paralaje”. Al considerar únicamente las coordenadas en las direccionespertenecientes al plano de la superficie detectora, se está asumiendo que todas las interac-ciones han tenido lugar en el mismo plano, normalmente la superficie externa del cristal.Cuando la incidencia es perpendicular al cristal, por ejemplo, en gammacámaras con uncolimador añadido al cristal, este error es inexistente ya que siempre se detecta la mismaposición de interacción independientemente de su profundidad. Sin embargo, en PET éstaes una de las fuentes de error más importantes.

Cuando la proximidad entre los módulos detectores de un escáner PET es pequeña estefenómeno cobra una importancia mayor, ya que el ángulo de entrada es mayor, sobre todoen los extremos del FOV. También es evidente que para cristales más gruesos la distanciarecorrida podrá ser mayor, por lo que es conveniente escoger cristales estrechos. Otrasolución es reducir el FOV útil de la cámara, lo que supone una pérdida de sensibilidad.De esta manera, se establece un compromiso entre el error de paralaje y la sensibilidaddel detector. La única forma de corregir el error de paralaje sin renunciar a la sensibilidadconsiste en estimar el ángulo de incidencia o la profundidad de interacción de los fotonespara poder asignar la LOR adecuada a la radiación detectada.


Entre las estrategias más destacadas para la determinación de la DOI se puede destacarel ingenioso método de W.W. Moses [246] que, mediante la combinación de medicionesde un array de fotodiodos PIN y un PMT, lograba determinarla con buena resolución.Más recientemente han aparecido métodos analíticos que mediante la suma promediadade las señales procedentes de la matriz de ánodos de un PMT permiten realizar unabuena estimación de la magnitud de la DOI, al tiempo que con ciertas modificaciones encircuito de posicionamiento permiten medir simultáneamente los primeros momentos dedistribución de luz [191].

4.4 Posicionamiento en PET

Para reconstruir una LOR, lo más habitual es estimar las coordenadas de interacciónindependientemente en cada detector. La situación se complica en presencia de interac-ciones Compton. Incluso en el hipotético caso más simple donde sólo haya una interacciónCompton en el cristal y la consecuente absorción fotoeléctrica, se puede tratar de esti-mar las coordenadas de ambas interacciones, y escoger la que tenga menor profundidadde penetración en el cristal. Una decisión más precisa sería escoger la que se produzcaantes a lo largo de la posible LOR. Esta observación muestra lo importante que es tenerconocimiento de la dirección del fotón.

Debido a los límites impuestos por la estadística de la luz, la estimación de las coorde-nadas no es perfecta. Se puede intentar usar una perspectiva Bayesiana para optimizarla.Esto supondría disponer de conocimiento sobre la distribución de la deposición de energíay direcciones de vuelo de los fotones en cada interacción Compton, la probabilidad deabsorción fotoeléctrica, la distribución de los fotones visibles tras cada interacción, etc. Alfinal se obtendría un estimador complejo que daría las coordenadas de la primera inter-acción. El modelo resultante debería incluir la dirección inicial de los fotones, problemaque no es fácil de solucionar, especialmente en tiempo real.

Una alternativa es emplear un sistema inteligente, que “aprenda” de la experiencia paraobtener una aproximación de las coordenadas que obtendría el modelo óptimo estadístico[48], a partir de datos de entrenamiento, que pueden obtenerse tanto por simulación comomediante experimentación. Veremos que con un sistema relativamente sencillo basado enANNs se puede obtener una estimación precisa de las coordenadas de cada interacción, ycon una velocidad de cálculo que permite que funcione en un sistema en tiempo real.

4.4.1 Redes de posicionamiento discretizado

Todo detector para PET debe contener un circuito que se encargue de “leer”, o realizarel read-out de las posiciones de impacto de los fotones γ a partir de las corrientes desalida de los PMTs. La mayoría de circuitos de posicionamiento presentes en el front-endde los detectores PET actuales se basa en el diseño de la lógica de Anger [14, 310]. Enlos detectores para PET basados en PS-PMTs y MA-PMTs, la disposición de los ánodoscomplica su read-out respecto a los PMTs de salida única. Para simplificar los circuitos,se han propuesto diversos esquemas que obtienen salidas simplificadas a partir de todaslas señales que provienen de los ánodos de los PMTs [310].

La forma más efectiva de reducir el número de señales del detector consiste en inter-conectar las corrientes de los fotodetectores a través de un circuito analógico que permita

4.4. POSICIONAMIENTO EN PET 173

Figura 4.15: Implementación de un circuito de posicionamiento de 8× 8 ánodos mediante(a) una DPC de 4 salidas (A,B,C,D) y (b) una SCD de 16 salidas (X1-8,Y1-8).

obtener las señales objetivo con un retardo mínimo. Concretamente, suelen emplearse re-des resistivas para obtener una cantidad reducida de corrientes, que serán combinacioneslineales de las generadas por los fotodetectores. Este tipo de circuitos de división de cargason conocidos como redes de posicionamiento discretizado (DPC, Discretized Position-ing Circuit) [310]. El circuito DPC se basa en el algoritmo de posicionamiento ortogonalutilizado originariamente en contadores para determinar la posición mediante cables dematerial fotosensible [37]. En lugar de una avalancha de electrones que golpea un cablecontinuo de resistividad uniforme, las corriente de los ánodos de los PMTs “impactan”sobre la red de resistencias.

Entre las aplicaciones de DPCs para read-out han aparecido muchas contribucionesdestacables en la literatura reciente [12, 191, 221, 222, 261, 279]. También se han propuestoestructuras de multiplexación paralela frente a la multiplexación en serie de las DPC,llamadas redes de división de carga simétricas (SCD, Symmetric Charge Division circuit)[261]. En las DPCs la carga se divide proporcionalmente a las coordenadas cartesianas,mientras que en las SCD las conexiones se producen por filas y columnas (ver Figura4.15). Además, en las SCDs, la impedancia vista desde cada ánodo es constante. LasDPCs tienen la ventaja de que el número de señales se reduce siempre a 4 mientras que enla SCD se requiere una salida por cada fila y una salida por cada columna. Por ejemplo, enun circuito de 8×8 ánodos como el de la Figura 4.15, para una SCD hacen falta 16 salidas(8 para la coordenada X y 8 para la Y ), por lo que se necesitarán 16 preamplificadores(uno por salida), frente a los 4 requeridos para la DPC. Por, último, es posible combinarconexiones de una red resistiva en modo paralelo y serie dando lugar a los circuitos deread-out híbridos [310].

Las características de un circuito de read-out determinará en gran medida cuál será lamáxima resolución alcanzable por el detector, por lo que se deben tener en cuenta varios


factores para su diseño:

• Debe minimizarse el nivel de ruido generado.

• Debe mantenerse la linealidad espacial para evitar artefactos en las imágenes.

• Deben ajustarse las ganancias.

Se ha optado por redes resistivas pasivas en la mayoría de los casos, siendo, además,los valores de las resistencias tales que hacen que la red sea simétrica, con lo que puedenser fácilmente analizables por el teorema de superposición.

Dada una red arbitraria de resistencias, con N entradas de corriente ij(t), de la cualnos interesa determinar el valor de ciertas corrientes Jk(t), k = A,B,C,D (esto equivalea determinar el valor de varias corrientes de salida, si podemos asumir que éstas van conec-tadas a impedancias reales y constantes), podemos aplicar el teorema de superposiciónpara expresar

Jk(t) =

N∑

j=1

Mj,kij(t) (4.12)

donde Mj,k son constantes que expresan la ganancia de corriente desde la j-ésima entradahasta la corriente de interés Jk(t). Integrando la expresión anterior sobre la duración deun centelleo (T ), obtendremos el valor

Jk =

N∑

j=1

Mj,k

∫

T

ij(t) dt =

N∑

j=1

Mj,kGjfj (4.13)

donde Gj es la ganancia del j-ésimo pad del fotomultiplicador, y fj es el número de fotonesdetectados en dicho pad durante el centelleo.

4.4.2 Algoritmos clásicos

4.4.2.1 La lógica de Anger

La posición de interacción de un fotón en un detector puede ser obtenida a priori mediantela denominada lógica de Anger [14], que relaciona las señales de salida de cada PMT concada uno de los píxeles de los que consta el detector. El método de Anger es el másestandarizado y más ampliamente utilizado en escáneres basados en PS-PMTs debido alo sencillo que resulta obtener una estimación de la posición de interacción.

Poniendo como ejemplo un detector compuesto por 4 PMTs como el de la Figura 4.9,la posición de incidencia 2D estimada por el método de Anger vendrá dada por (X, Y ),donde cada coordenada se obtiene individualmente aplicando combinaciones lineales delas cuatro amplitudes de las señales de salidas de los PMTs (A, B, C, D). El punto deincidencia estimado (X, Y ) es lo que se denomina centroide. Es por ello que la lógicade Anger es descrita en ocasiones como “lógica del centroide” o “algoritmo de centro degravedad” (COG).

X =(A+B) − (D + C)

E(4.14)


X

Y

C B

D A

Figura 4.16: Relación entre las señales A, B, C y D, y las coordenadas de referencia (X,Y).

Y =(A+D) − (B + C)

E(4.15)

donde E es la energía depositada por el fotón incidente

E = A+B + C +D . (4.16)

La relación entre las coordenadas X e Y y las señales A, B, C y D se representa en laFigura 4.16.

Como las posiciones dadas por la lógica de Anger no determinan el píxel concretodonde incidió el fotón, sino una aproximación de la distancia al centro del cristal, endetectores pixelados es habitual el empleo de look-up tables (LUTs) que asocian las dis-tintas salidas de la lógica de Anger (X, Y ) con cada uno de los elementos individualesde los que consta el detector. Estas tablas son obtenidas con anterioridad mediante unprocedimiento de calibración empleando fuentes de radiación colimadas. También existenotros mecanismos para la decodificación de la posición en este tipo de detectores basadosen métodos estadísticos. En detectores continuos, en cambio, las Ecuaciones 4.14 y 4.15calculan directamente la posición de incidencia en el cristal.

En una cámara de Anger, la resolución intrínseca viene definida por el full-width halfmaximum (FWHM), o ancho a mitad de máximo, de una aproximación Gaussiana delperfil de cuentas de eventos en el cristal llamada Point Spread Function (PSF). La PSFes la imagen producida por una fuente puntual en un punto de incidencia, mostrando ladistribución de probabilidad de los distintos valores estimados. La aproximación Gaussianase puede obtener independientemente para hallar la resolución espacial a lo largo de losejes x e y del cristal, dando lugar a las resoluciones FWHMx y FWHMy, respectivamente.De igual modo, también se puede utilizar una aproximación Gaussiana para obtener laresolución FWHM en energía del detector, al aplicarse sobre el histograma que da lacuenta de fotones detectados en función de sus energías. El FWHM puede determinarseanalíticamente a partir de la desviación estándar de la distribución Gaussiana como:


FWHM = 2√

2 ln 2σ = 2,35 σ (4.17)

La resolución intrínseca de las gammacámaras de amplio FOV es del orden de unospocos mm. En las geometrías de cámara típicas, por lo general es la colimación la quelimita la máxima resolución espacial alcanzable por una gammacámara [265].

Los algoritmos basados en el cálculo del centroide son los más utilizados para esti-mación de posición en cámaras de centelleo. Su popularidad es debida sobre todo a susencilla implementación hardware y sus aceptables resultados. Sin embargo, estos métodosno tienen en cuenta la fluctuación estadística de los fotones γ ni las no linealidades en larespuesta de los PMTs en función de la posición de impacto. Como consecuencia presentaserios problemas de distorsión espacial [170], que son más acusados en las proximidadesde los bordes del cristal, produciéndose los denominados efectos de borde. Los efectos deborde son fácilmente apreciables: los eventos correspondientes al borde del cristal se de-tectan sistemáticamente en una posición más cercana al centro del cristal de lo que lescorresponde, con lo que se obtiene una imagen comprimida.

El motivo por el que aparecen los efectos de borde es porque, dadas las dimensionesfinitas del cristal, las corrientes que se obtienen del detector corresponden a un histogramatruncado de energía incidente: sólo se recoge la parte correspondiente al ángulo sólidoocupado por la superficie detectora (en los bordes del cristal se absorbe la mayoría de laluz, reflejando tan sólo una pequeña parte, lo que aumenta la sensibilidad pero distorsionael histograma). Cerca del borde, el truncamiento se produce más cerca de la posición decentelleo, y la consecuencia es que el centroide calculado se aleja del borde. Aunque existenmapas de corrección para aliviar la distorsión espacial, el problema no se puede solucionarcompletamente por las dificultades que entraña determinar el mapa de distorsión real.Incluso aplicando un mapa de corrección, se estima que el FOV útil de un estimadorbasado en la lógica del centroide se reduce a aproximadamente el 60 % central de cadadimensión del cristal.

4.4.2.2 Mínimos cuadrados

La respuesta asociada a la interacción en un punto desconocido del cristal se compara conla respuesta producida por conjuntos de eventos de referencia en posiciones conocidas. Encada posible posición de interacción (píxel) se calcula la amplitud Aij de la señal obtenida,donde i indica el número de píxel y j la posición del rayo.

Para determinar la posición en la dirección x, se suman todas las amplitudes de lospulsos generados en la dirección y, y viceversa. Para cada evento cuya posición de inci-dencia es desconocida, se calcula la distancia L2Dj de dicho evento a cada uno de losconjuntos de referencia j

L2Dj =∑

i

(xi − Aij)2 (4.18)

La posición del conjunto de referencia que minimice la distancia se toma como la mejorestimación de la posición del evento [334].


4.4.2.3 Mínimos cuadrados con splines

Se trata del mismo método visto para mínimos cuadrados, pero con el objetivo de reducirlas fluctuaciones estadísticas en los valores de referencia, para cada valor i se ajusta unmodelo empírico (un spline, o polinomio a trozos) a Aij en función de j.

4.4.2.4 Maximum likelihood

Es posible realizar estimaciones de la posición de interacción de los rayos γ construyendoun algoritmo iterativo basado en el criterio ML [64, 114]. El principio básico de ML esseleccionar, para un conjunto de respuestas observadas del PMT, la posición de centelleoque maximiza la probabilidad a posteriori de obtener esas respuestas. El algoritmo esiterativo, por lo que la posición estimada se va refinando en cada iteración

Algunas implementaciones [114] tienen en cuenta también la coordenada z (DOI) dela posición, por lo que la estimación del punto de interacción se realiza en 3D.

4.4.2.5 Regresión lineal localizada

Supongamos que una LOR viene determinada por unas coordenadas de interacción en uncristal planar y = (y1, y2). Mediante la regresión lineal localizada (LLR, Localized LinearRegression) [48] se estima la posición a partir de la ecuación lineal

y = a0 + Ax (4.19)

donde y es el vector estimación de la posición, x ∈ Rd es el vector de respuestas del PMT

y a0 es un vector de dos elementos que hacen la función de términos independientes de laecuación y A es una matriz de tamaño 2 × d, siendo d el número de señales procedentesdel PMT, que contiene los coeficientes de regresión hallados al minimizar el MSE sobreel conjunto de muestras disponibles en la región de test por medio de la ecuación deentrenamiento

A = arg mınA

N∑

i=1

(

a0 + Axi − yi)2

(4.20)

donde xi,yiNi=1 son las muestras disponibles (de las que conocemos la posición a priori).

4.4.2.6 Método χ-cuadrado

Para cada posición del rayo j se calcula la media de las amplitudes de todos los píxels Aijdel PMT y se obtiene la raíz del error cuadrático medio (RMSE) de todas las amplitudesσij , donde i es el número de píxel. Al igual que para el método de mínimos cuadrados,se suman las amplitudes de los píxeles por filas y por columnas. La distancia se calculacomo

χ2Dj =∑

i

(

xi − Aijσij

)2

. (4.21)


4.4.2.7 Método χ-cuadrado generalizado

Es el mismo método que χ-cuadrado salvo que, en este caso, se utiliza la matriz de errorescompleta, incluyendo la correlación de todas las amplitudes Aij dada una posición j delrayo emitido [334].

4.4.2.8 Método del coeficiente de correlación lineal

Este método de la correlación fue ideado por Joung et al. [169] como alternativa a las LUTsutilizadas por el método de Anger. Posteriormente, el método fue mejorado utilizandoinformación sobre el coeficiente de correlación lineal (LCC) [170]. La estimación de laposición se determina maximizando el coeficiente de correlación lineal entre la funciónverdadera y los datos medidos.

El coeficiente de correlación lineal entre dos variables X e Y se define como

ρ =cov[X, Y ]

σX · σY(4.22)

En un problema de posicionamiento 2D, la Ecuación 4.22 se puede escribir como

ρ(x, y) =E[N · S(x, y)] − E[M ] · E[S(x, y)]

σM · σS(x,y)

(4.23)

donde M representa los datos medidos y S(x, y) la función de respuesta de luz (LightResponse Function, LRF), o lo que es lo mismo, la distribución verdadera de eventossobre el área del cristal.

Finalmente, el punto de impacto (x, y) se estima como

(x, y) = arg max∀(x,y)x=x,y=y

[ρ(x, y)] . (4.24)

Para minimizar el coste computacional, se debe limitar el rango de valores que puedentomar x e y, mediante algoritmos de búsqueda rápida.

4.4.2.9 Statistics Based Positioning

El método estadístico de posicionamiento (SBP, Statistics Based Positioning) fue intro-ducido en 2002 por J. Joung [171] y, posteriormente, se ha empleado en diversas publi-caciones [90, 330]. Su éxito radica en que, al igual que el método ML, logra aumentar elFOV útil del escáner a un valor en torno a 80 %, mientras que la lógica de Anger permiteutilizar aproximadamente el 60 % de la superficie del cristal.

Para explicar el funcionamiento del método supongamos que la distribuciones de lassalidas obtenidas de los PMTs M = M1,M2, . . . ,Mn, para una posición de centelleo x,son distribuciones normales con media µ(x) y desviación estándar σ(x).

La función que determina la probabilidad (likelihood) de realizar alguna observaciónmi de la distribución Mi dada x es

L[mi|x] =

n∏

i=1

1

σi(x)√

2πe−

(mi−µi(x))2

2σ2i(x) . (4.25)

El estimador ML de un evento en la posición x es

4.5. EXPERIMENTOS 179

x = arg mınx

[

∑

i(mi − µi(x))

2

2σ2i (x)

+ ln(σi(x))

]

. (4.26)

El método SBP requiere que la LRF frente a la posición de interacción sean caracteri-zadas para el detector. Durante este proceso de caracterización se construyen dos LUTs,que contienen la media y la varianza de la función densidad de probabilidad (FDP) de laluz, respectivamente, frente a la posición (x, y).

4.4.2.10 Red neuronal

Se construye una red neuronal feedforward a la que se introducen como entradas las señalesprocedentes del PMT y se entrena para que aprenda las posiciones de salida correspon-dientes de un conjunto de datos de referencia. Una red neuronal es un aproximador nolineal universal por lo que podremos utilizarla con cualquier conjunto de datos, ya seasimulado u obtenido mediante experimentos, para obtener las coordenadas de la posiciónde impacto del fotón γ sobre el cristal. Una vez entrenada la red, se puede evaluar el errorcometido sobre otro conjunto distinto (conjunto de test). Este es el método que se utilizóen esta Tesis y en diversas publicaciones previas [12, 221, 222]. En ellas se emplean redesque hacen uso de las señales procedentes del fotodetector (que pueden ser previamentepreprocesadas para reducir su número y así simplificar la arquitectura de las redes) y lasalida obtenida corresponde a las posiciones de incidencia estimadas. Esta metodología sedescribe con más detenimiento en la próxima Sección.

4.5 Experimentos

4.5.1 Banco de pruebas sintético

Para poder obtener un volumen de datos suficiente para el estudio de los detectores deradiación gamma sin necesidad de un montaje experimental real dedicado, se hizo uso depaquete de simulación GEANT4 [301] desarrollado por Agostinelli y sus colaboradores enla Universidad de Stanford. Se trata de unas librerías C++ que permiten la simulaciónde experimentos a nivel de física de partículas. En nuestro caso, el grupo de Diseño deSistemas Digitales de la Universidad Politécnica de Valencia [217], planteó un banco depruebas sintético basado en la simulación de emisión de radiación gamma desde una fuentepuntual, su interacción en un cristal de LSO (absorción fotoeléctrica, scatter Compton yotros fenómenos de menor relevancia), el centelleo y la recolección de fotones ópticos.

El montaje experimental usado en la simulación consistió en la generación de rayos γde 511 keV desde una fuente puntual a una distancia de 50 mm de la superficie frontal deun detector basado en cristal centelleador, con la geometría que se muestra en la Figura4.17. Para cada ejecución de la simulación se seleccionan el punto y el ángulo de incidenciade los rayos sobre el detector, así como el número total de rayos γ, o bien de centelleos,que deben ser simulados (muchos de los rayos atravesarán el cristal sin producir centelleo).

El cristal empleado tiene una superficie de 49 × 49 mm2 y una anchura de 10 mm.Se ha definido el material LSO como Lu2SiO5, con las propiedades físicas que se detallanen la Tabla 4.3. Se ha considerado emisión monoenergética, dado que esto no afectasensiblemente a los resultados. El light yield medio se ha situado en un valor conservador,


Crist

al L

SO

MA

-PM

T

pintura negraabsorbente

grasaóptica

ventana deentrada

49 m

m

49 mm

10 m

m

2.7

mm

0.1

mm

Figura 4.17: Diagrama del bloque receptor simulado. La cara lateral del cristal que apareceen primer plano también está cubierta de pintura negra, pero se ha omitido en el dibujopor claridad.

ya que éste puede alcanzar los 30000 fotones/MeV. En cambio, se ha dado un valor típicopara la resolución en energía, que se define como el factor de calidad del light yield (esdecir, el ancho a mitad de máximo dividido por la posición del pico).

Parámetro Valor

Densidad (g/cm3) 7.4

Light yield 23000 fotones/MeV

Resolución en energía 7 %

Energía de fotones ópticos 2.95 eV

Índice de refracción 1.82

Tabla 4.3: Parámetros del cristal centelleador de LSO simulado.

Las cinco caras exteriores del cristal se han cubierto de una superficie pulida y negra,es decir, absorbente no ideal. Concretamente, se ha supuesto un índice de reflectividad del10 %, es decir, un 10 % de los fotones incidentes desde dentro del cristal sufren reflexión;el resto son absorbidos. La superficie negra frontal, que sirve para preservar la forma dela distribución de luz del centelleo, no tiene efecto alguno sobre la incidencia del fotón γen el cristal.


Material Índice de refracción

Aire 1

LSO 1.82

Grasa óptica 1.465

Guía óptica 1.49

Tabla 4.4: Índices de refracción a 2.95 eV de los materiales empleados en simulación.

De manera adicional, se ha situado una ventana de entrada situada entre el cristal y elfotodetector para realizar el acoplamiento óptico. La ventana de entrada está compuesta decristal de borosilicato, con una longitud de 2.7 mm, adherida al cristal de LSO medianteuna capa de grasa óptica, que se ha supuesto de 0.1 mm de grosor. Ambos materialesposeen una densidad cercana a la del agua (1.03 g/cm3), y unos índices de refracción quese resumen en la Tabla 4.4. Las cuatro caras exteriores de la ventana de entrada se hancubierto con una superficie absorbente perfecta.

Por último, se ha definido un bloque detector en la posición correspondiente al PMT(en concreto un MA-PMT). Su única misión es la de simular un fotodetector compuestode una matriz de 8 × 8 pads de 6.125 × 6.125 mm2 cada uno, cada uno de los cuales actúacomo un fotocátodo independiente. Durante la simulación, el detector se activa cada vezque un fotón óptico incide sobre su superficie frontal, en cuyo momento se determina laposición de impacto y se cuenta un fotón incidente en el pad adecuado (de esta formase simula la existencia de 64 pads diferentes). El detector simulado imita la geometría ypropiedades del Hamamatsu H8500 [176] que se utilizará en el detector real. En concreto,tiene una eficiencia del 20 %, es decir, sólo el 20 % de los fotones incidentes son considerados(se establece una ventana en torno al fotopico correspondiente al valor de energía de 511keV). Hay que tener en cuenta que, procediendo de esta forma, se están despreciandoalgunos efectos menores, como la variación de sensibilidad dentro del propio pad o en lasuperficie que separa los distintos pads y la interferencia entre señales de pads contiguos.

El montaje real de una gammacámara o del calibrado de una cámara PET requeriría,además, el uso de colimadores para asegurar que la incidencia de los fotones gamma essiempre perpendicular al cristal centelleador. Sin embargo, en la simulación no es necesarioañadir este elemento, ya que puede ajustarse exactamente la dirección de impacto delfotón.

Al utilizar un cristal continuo, la discretización del posicionamiento se realizó medianteun circuito DPC (véase Sección 4.4.1), en concreto la red de resistencias propuesta porSiegel [310] (Figura 4.15 (a)). De acuerdo con la expresión 4.13, los valores discretos quese obtienen en cada centelleo son una combinación lineal de las cantidades de fotonesdetectados en cada pad del detector, que son precisamente los datos que obtenemos de lasimulación con GEANT4. Los pesos tienen una componente determinista Mj,k, que vienedada por la red de resistencias empleada, y una componente aleatoria Gj, debida a la noidealidad del fotodetector empleado, que es constante para cada detector (despreciandoefectos de deriva).

Aunque es posible obtener las fórmulas analíticas de las ganancias de corriente paraun DPC con esta configuración bidimensional, es bastante más complicado que en el


caso de una red unidimensional. La forma más eficiente de obtener los valores es usarun simulador de circuitos analógicos como OrCAD o PSPICE. En concreto, se utilizó enentorno de diseño Cadence y el simulador Spectre. Se aplicó el teorema de superposiciónpara corrientes (Ecuación 4.12) con el fin de obtener las matrices de ganancias paralas cuatro salidas (A, B, C, D) introduciendo sucesivamente pulsos trapezoidales en lasdiferentes entradas a la red (ánodos) y midiendo la señal obtenida por cada una de lassalidas situadas en las esquinas del DPC6. Los coeficiente normalizados para cada pad secalculan dividiendo el máximo del pulso trapezoidal entre el valor de la corriente inyectada.Las matrices obtenidas se presentan en las Tablas 4.5 a 4.8.

0.7996 0.7040 0.6028 0.4976 0.3912 0.2862 0.1850 0.0894

0.6980 0.6140 0.5258 0.4348 0.3430 0.2520 0.1639 0.0797

0.5966 0.5240 0.4488 0.3720 0.2946 0.2178 0.1428 0.0700

0.4952 0.4338 0.3718 0.3092 0.2464 0.1837 0.1217 0.0604

0.3938 0.3438 0.2948 0.2464 0.1981 0.1496 0.1006 0.0507

0.2922 0.2538 0.2178 0.1835 0.1498 0.1155 0.0795 0.0411

0.1908 0.1639 0.1409 0.1207 0.1015 0.0813 0.0584 0.0314

0.0894 0.0739 0.0639 0.0579 0.0532 0.0472 0.0373 0.0217

Tabla 4.5: Matriz de ganancias para la salida A.

0.0894 0.1850 0.2862 0.3912 0.4976 0.6028 0.7040 0.7996

0.0797 0.1639 0.2520 0.3430 0.4348 0.5258 0.6140 0.6980

0.0700 0.1428 0.2178 0.2946 0.3720 0.4488 0.5240 0.5966

0.0604 0.1217 0.1837 0.2464 0.3092 0.3718 0.4338 0.4952

0.0507 0.1006 0.1496 0.1981 0.2464 0.2948 0.3438 0.3938

0.0411 0.0795 0.1155 0.1498 0.1835 0.2178 0.2538 0.2922

0.0314 0.0584 0.0813 0.1015 0.1207 0.1409 0.1639 0.1908

0.0217 0.0373 0.0472 0.0532 0.0579 0.0639 0.0739 0.0894

Tabla 4.6: Matriz de ganancias para la salida B.

6En realidad, dada la simetría de la red, lo más sencillo es obtener la matriz de ganancias Mj,k parauna salida y extrapolar el resto por medio de imágenes simétricas de ella.


0.0217 0.0373 0.0472 0.0532 0.0579 0.0639 0.0739 0.0894

0.0314 0.0584 0.0813 0.1015 0.1207 0.1409 0.1639 0.1908

0.0411 0.0795 0.1155 0.1498 0.1835 0.2178 0.2538 0.2922

0.0507 0.1006 0.1496 0.1981 0.2464 0.2948 0.3438 0.3938

0.0604 0.1217 0.1837 0.2464 0.3092 0.3718 0.4338 0.4952

0.0700 0.1428 0.2178 0.2946 0.3720 0.4488 0.5240 0.5966

0.0797 0.1639 0.2520 0.3430 0.4348 0.5258 0.6140 0.6980

0.0894 0.1850 0.2862 0.3912 0.4976 0.6028 0.7040 0.7996

Tabla 4.7: Matriz de ganancias para la salida C.

0.0894 0.0739 0.0639 0.0579 0.0532 0.0472 0.0373 0.0217

0.1908 0.1639 0.1409 0.1207 0.1015 0.0813 0.0584 0.0314

0.2922 0.2538 0.2178 0.1835 0.1498 0.1155 0.0795 0.0411

0.3938 0.3438 0.2948 0.2464 0.1981 0.1496 0.1006 0.0507

0.4952 0.4338 0.3718 0.3092 0.2464 0.1837 0.1217 0.0604

0.5966 0.5240 0.4488 0.3720 0.2946 0.2178 0.1428 0.0700

0.6980 0.6140 0.5258 0.4348 0.3430 0.2520 0.1639 0.0797

0.7996 0.7040 0.6028 0.4976 0.3912 0.2862 0.1850 0.0894

Tabla 4.8: Matriz de ganancias para la salida D.

En cuanto al valor de las ganancias de los pads del PMT (Gj), sus valores fuerongenerados aleatoriamente entre [1, 3] de acuerdo con las especificaciones de Hamamatsu[176].

Ya que el área efectiva del MA-PMT [176] es de 49 × 49 mm2, se ha dispuesto unamalla de 49 × 49 posiciones separadas 1 mm entre sí, de forma que se cubre la totalidadde la superficie de detección. La toma de medidas se realizó desplazando la fuente puntualde manera secuencial por filas y columnas. Se tomaron 2000 eventos de incidencia perpen-dicular por posición, los cuales fueron enventanados para producir 1000 eventos situadosen un entorno del 40 % del fotopico de energía de 511 KeV. De estos 1000 eventos, sededicaron 500 muestras tomadas al azar para crear subconjuntos de entrenamiento, y lasrestantes 500 para generar subconjuntos de test.

4.5.2 Diseño de una red neuronal para posicionamiento

La mayoría de algoritmos de posicionamiento están basados en la aritmética del centroide,a menudo combinados con mapas de corrección. Sin embargo, su aplicación es problemáti-ca en el caso de tener cristales gruesos o la fuente situada muy próxima al cristal, debidoal considerable error de paralaje observado para ángulos grandes y a las no linealidadescausadas por los efectos de borde.


Los algoritmos iterativos basados en ML tratan de superar estos problemas y obtienenmejoras en el FOV útil de la cámara, pero resultan muy costosos computacionalmente,de manera que su implementación para tiempo real se hace inviable.

En este contexto surgen las redes neuronales (ANNs) como una alternativa de imple-mentación sencilla, con gran capacidad de aproximación y con un coste computacionalreducido, para mejorar las prestaciones de los algoritmos estadísticos iterativos [48, 65, 85].

En esta Subsección se presenta la metodología para obtener la ANN óptima que resuel-va el problema de posicionamiento bidimensional7 en el banco de pruebas sintético. Estametodología de diseño fue previamente desarrollada por el grupo de Diseño de SistemasDigitales de la Universidad Politécnica de Valencia [12, 217] y verificado posteriormenteutilizando un circuito de readout distinto [222].

El diseño de la red neuronal comienza por la toma de varias decisiones:

• Tipo de ANN. Dependiendo del problema (clasificación, regresión, reconocimiento depatrones, etc.) y de su naturaleza (supervisado, no supervisado, número de muestrasy de variables, varianza de las muestras, outliers, muestras incompletas, etc.) sedeberá escoger un tipo de red u otra.

• Topología. Una vez seleccionado un tipo de ANN, se debe determinar cuántas en-tradas y cuántas salidas necesitamos, el número de capas y de neuronas y las fun-ciones de activación o kernels más adecuados. Se debe evaluar un determinadonúmero de topologías, marcando un criterio que limite la cantidad de combina-ciones a probar, que de lo contrario sería infinita. A menudo se limita el númerode neuronas por capa y/o el número de neuronas totales de la red, para limitar lacomplejidad de ésta8.

• Algoritmo de entrenamiento. Se debe escoger el algoritmo que mejor generalice y almismo tiempo intentar que sea lo más rápido posible.

• Error tolerable. En muchas ocasiones se debe llegar a un compromiso y tolerarun determinado error. Se debe entrenar fijándolo como objetivo para detener elalgoritmo antes de que se produzca sobreentrenamiento. Existe la posibilidad deentrenar durante un número predeterminado de epochs, pero debe verificarse que laANN no ha memorizado el conjunto de entrenamiento para que la red entrenadasea robusta frente a nuevos valores de las entradas.

En nuestro caso, se ha determinado que el problema de la estimación de la posición2D de impacto en el cristal es un problema de regresión (aunque también podría haberseconsiderado un problema de clasificación si se hubiese discretizado el cristal en vóxelesde cierto tamaño y se hubiera establecido una equivalencia entre vóxeles y clases). ElMA-PMT empleado (Hamamatsu H8500) dispone de 64 ánodos de salida, aunque, comose ha comentado, estas señales se han reducido a solamente 4 corrientes, JA, JB, JC y JD.El resultado es que las redes neuronales a implementar solamente necesitan disponer de 4entradas para estimar la posición 2D, en lugar de las originales 64. Esto va a ser crucial decara a la reducción del coste computacional de las ANNs, al mismo tiempo que se reducen

7Todavía no se considera la reconstrucción de la DOI (coordenada z) en el análisis.8En ocasiones se reduce la complejidad a posteriori, mediante el podado (pruning) de las conexiones

(pesos) que menos contribuyen al valor de la salida y que, por tanto, son prescindibles.


Figura 4.18: Espectro de energía obtenido para el centro del cristal, con incidencia per-pendicular.

los requerimientos de hardware de cara a una implementación en una PCB para funcionaren un sistema PET real.

Ya que se va a considerar el problema como de regresión y de tipo supervisado, se harestringido el problema a las redes de tipo MLP y RBFN. En análisis previos se determinóque las redes de tipo RBFN producían peores resultados que las de tipo MLP, por lo que,finalmente, se excluyeron del análisis.

Primeramente estudiaremos el comportamiento del cristal en simulación. Posterior-mente, se pasará a optimizar la arquitectura de la red neuronal y, a continuación, seevaluará su comportamiento frente a la lógica de Anger, por ser el método más utilizado.

4.5.2.1 Estudio previo del banco de simulación

En primer lugar, se procedió a evaluar el comportamiento del montaje mediante simula-ciones de Monte Carlo. El espectro en energía obtenido para las coordenadas del centrodel cristal es el representado en la Figura 4.18. El histograma se ha obtenido a partirdel lanzamiento de 100000 fotones γ de 511 keV en dirección normal al centro del cristaly se ha restringido únicamente a los eventos que han producido centelleo (∼ 40 %). Laresolución FWHM en energía resultante es del 7.2 %, dato que coincide aproximadamentecon lo esperado.

Para analizar el efecto de la incidencia en zonas del cristal distintas del centro se simulóde nuevo incidencia perpendicular a lo largo del eje central del cristal. En la Figura 4.19se muestran los espectros en energía en el centro y en dos puntos cerca del extremodel cristal, uno de ellos centrado en el extremo del cristal y el otro en la esquina. Seobserva que en todos los casos existe un pico, con una resolución FWHM prácticamenteconstante en casi todo el cristal, pero que aumenta conforme nos acercamos al borde yes todavía más acusada en las esquinas. Se aprecian claramente unos pedestales o “colas”,correspondientes a eventos que han sufrido scatter Compton y que son mayores cercade los bordes del cristal. Con el fin de obtener vectores de entrenamiento fiables para la


Figura 4.19: Comparativa de los espectros de energía obtenidos para el centro del cristal(azul), en el borde del eje central (verde) y en la esquina del cristal (rojo) para incidenciaperpendicular.

red neuronal, se deben filtrar estos eventos, eligiendo solamente los que se encuentran enun entorno del pico, y desechando el resto en la medida de lo posible. Cerca del borde,es inevitable elegir un porcentaje elevado de eventos que han sufrido scatter, puesto queambas zonas del espectro se solapan.

El procedimiento típico de filtrado de eventos no fiables se realiza por medio de unenventanado en energía, mediante una ventana rectangular centrada en el pico y con unaanchura configurable, dependiendo de la cantidad de eventos que se necesite dejar pasar.

4.5.2.2 Diseño de redes neuronales para estimación 2D

Para comparar el rendimiento de distintas arquitecturas de red, necesitaremos determinarparámetros adecuados de evaluación. El elemento básico en la evaluación del detector esla PSF en cada punto del cristal, es decir, la imagen producida por una fuente puntualen dicho punto de incidencia, mostrando la distribución de probabilidad de los distintosvalores estimados. A partir de los vectores de validación, se pueden obtener aproximacionesdel PSF en los 49 puntos de incidencia considerados, y para cada PSF pueden calcularsevalores escalares que describen la calidad de la estimación en dicho punto de incidencia.Nos vamos a centrar en dos de ellos: el error sistemático y la resolución FWHM. Los erroresse han evaluado en una región del FOV dada por [−20 mm < x < 20 mm] × [−20 mm <y < 20 mm]. Con esto se evita que participen en el testeo de la red neuronal aquelloseventos afectados por el efecto de bordes.

El estudio y simulación de las ANNs se realizó mediante el programa MATLAB (TheMathworks Inc., Natick, MA, USA) en su versión 2007b. En este primer análisis del sistemaPET mediante medidas sintéticas no se realizó una evaluación exhaustiva de los diferentesalgoritmos de entrenamiento, simplemente se tomó el más rápido de los implementadosen la Neural Network Toolbox de MATLAB que proporcionase un rendimiento aceptable.Con estas premisas se seleccionó el algoritmo Rprop. Debido al decrecimiento monótono


de tanto el error de entrenamiento como el de test con este algoritmo, se utilizó un criteriode parada tras un número prefijado de epochs (800) tras el cual se apreciase visualmentela convergencia del algoritmo. En este sentido, para Rprop funcionó mejor detener elentrenamiento tras 800 epochs que utilizar métodos de early stopping o regularización.En cuanto el error tolerable para la convergencia se empleó un MSE de test de 10−4. Encuanto a las funciones de activación, se utilizaron funciones sigmoidales bipolares de tipotangente hiperbólica en todas las capas. Los datos de entrada y salida fueron normalizadosentre -1 y +1 en todas las pruebas, para adaptarnos al rango de valores de las sigmoides.

En una simulación intervienen varios factores importantes que se debe tener en cuentaya que pueden condicionar los resultados. El primero de ellos es la elección de los pesosiniciales de la ANN. Una elección inteligente de los pesos iniciales es crucial para que elcomportamiento de la red sea el correcto, es decir, que converja en un número reducidode epochs y que generalice bien. Para ello, hemos empleado el algoritmo de inicializaciónde pesos aleatorios pequeños propuesto por Nguyen y Widrow [255].

Otro factor que condicionará el resultado, ya que influye directamente en las entradasa la red (corrientes), es la matriz de ganancias Gj del PMT. Esta matriz se debe generarde manera aleatoria para cada simulación.

Por último, está la elección de las muestras de entrenamiento y test. Se debe tratar,en la medida de lo posible, de seleccionar muestras representativas de todos los pads deldetector y, aproximadamente, en la misma cantidad, para que participen vectores de todoel espacio de entrada en el aprendizaje. De esta forma se pretende que el error sea lomás uniforme posible en el cristal para modelizar los errores en la medida introduciendomínimas perturbaciones por parte del modelo.

Los factores mencionados obligan a realizar un cierto número de repeticiones del en-trenamiento para cada topología de red y promediar los errores obtenidos si se quiereobtener resultados consistentes. En concreto, se promediaron 20 repeticiones para cadaconfiguración de red, variando los parámetros descritos en cada repetición.

Los conjuntos de entrenamiento se obtuvieron por el método de submuestreo aleatorio,extrayendo 50 muestras por posición para entrenamiento y 50 para test, de manera quelos conjuntos de entrenamiento y test tienen tamaños de 49× 49× 50 = 120050 muestrascada uno.

Se ha considerado la posibilidad de construir dos tipos de estimadores de las doscoordenadas de la posición de interacción (x, y) a partir de las 4 señales de salida (A, B,C, D) del circuito DPC:

• Un estimador 2D único para ambas salidas, de manera que se utilizará una únicaANN cuya topología será 4/N1/N2/2.

• Un estimador 1D doble que hace uso de dos ANNs con idéntica topología9, cada unade las cuales se entrena para estimar una coordenada por separado. En este caso, latopología de las ANNs será 4/N1/N2/1.

donde N1 y N2 indican el número de neuronas de la primera y segunda capa oculta,respectivamente. Para limitar el número de topologías a evaluar se limitó el número totalde neuronas N = N1 +N2 a una cota máxima. Los límites impuestos fueron N1 +N2 < 25

9En pruebas preliminares se determinó que las diferencias en el comportamiento del las ANNs en lasdos dimensiones para una misma topología son despreciables.


...

...

...

...

1 2 48 49

-24 mm 24 mm0 mmx

y

-24 mm

0 mm

24 mm

1

2

49

Figura 4.20: Barrido de las 49 × 49 posiciones del cristal para la toma de medidas 2D.

para el estimador 2D y N1 +N2 < 16 para cada ANN del estimador 1D, siendo en amboscasos con N1 ≥ N2.

Se ha comprobado [11] que si se utilizan dos capas ocultas, la segunda aumenta con-siderablemente la resolución. De manera adicional, para dicha configuración de dos capasocultas, un aumento de la segunda capa mejora la linealidad de la respuesta, reduciendoel error sistemático, mientras que un aumento de la primera capa disminuye el FWHM,aumentando así la resolución. El uso de más de dos capas ocultas no aporta mejorassignificativas y aumenta la complejidad del diseño por lo que no se ha tenido en cuenta.

4.5.2.3 Análisis del estimador 2D

Para la estimación de la posición 2D se realizó un barrido de las 49 × 49 posicionesdel cristal con paso de 1 mm según se muestra en la Figura 4.20. Los conjuntos de en-trenamiento y test se generaron de manera análoga al caso 1D. Para el estimador 1Ddoble, los mejores resultados se obtienen con una arquitectura 2 × 4/9/6/1. Por otraparte, el mejor estimador único se ha obtenido con la topología 4/15/8/2. Los resultadosson ligeramente favorables al estimador doble, ya que éste requiere un menor númerode neuronas para conseguir los mismos resultados del estimador único y, además, elmejor error sistemático obtenido es menor que para el estimador único. El estimadorúnico tiene la ventaja de su rápida convergencia, pero su error sistemático medio esligeramente mayor (0.2121 mm frente a 0.21095 mm de la red doble). La resoluciónFWHM no es el factor más determinante para llevar a cabo la decisión de la arqui-tectura de red óptima. Todos los valores de resolución FWHM bidimensional, calculadacomo FWHMXY =

√

FWHM2X + FWHM2

Y , rondan los 0.85 mm. En la Figura 4.21 seobserva el análisis de las arquitecturas de red. A la vista de los resultados, la estructuraescogida para el resto de análisis será la de dos redes separadas 2 × 4/9/6/1.

La comparación de la linealidad a lo largo del cristal para el método propuesto y el deAnger se observa en la Figura 4.22. Un histograma 2D comparativo de ambos métodos sepresenta en la Figura 4.23. En estas figuras se aprecia la conveniencia de las ANNs parala aplicación de posicionamiento, ya que eliminan o atenúan en gran medida los efectosde distorsión en los bordes que presenta la lógica de Anger, ampliando sustancialmente elFOV útil del escáner.


4 5 6 70.212

0.214

0.216

0.218

0.22

0.222

0.224

0.226

0.228

0.23

N2

Err

or

sis

tem

ático

(m

m)

N1=10

N1=9

N1=8

N1=7

7 8 9 100.212

0.214

0.216

0.218

0.22

0.222

0.224

0.226

0.228

0.23

Err

or

sis

tem

ático

(m

m)

N2

N1=16

N1=15

N1=14

N1=13

(a) (b)

Figura 4.21: Dimensionamiento del estimador 1D doble (a) y estimador 2D único (b).

(a) (b)

Figura 4.22: Comparación de la linealidad del método de Anger (a) con el estimador MLPdoble (b). El método basado en MLP mejora la linealidad hasta conseguir un FOV útilde 40 mm × 40 mm, lo que constituye cerca de un 90 % de la superficie del detector. Lasdimensiones de los ejes vienen dadas en mm.

4.5.3 Banco de pruebas real

El Departamento de Ingeniería Electrónica de la Universidad Politécnica de Valencia hadiseñado e implementado un banco de pruebas completo para medidas de PET, dentro delmarco del proyecto FPA 2007-65013-C02-02 del Ministerio de Ciencia e Innovación. Estebanco de pruebas se ha utilizado para verificar los métodos de posicionamiento propuestosutilizando medidas reales.

El banco de pruebas experimental consiste en dos detectores enfrentados, compuestospor cristales continuos de LSO de dimensiones 42×42×10 mm3 acoplados a sendos MA-


(a) (b)

Figura 4.23: Comparación de histogramas 2D de cuentas de eventos detectados en unamalla de 9 × 9 posiciones del cristal por el método de Anger (a) y con el estimador MLPdoble (b). Las dimensiones de los ejes vienen dadas en mm.

x

y

22Na

5 mm 690 mm

Electrónicade Front-End

H8500

LS

O

Figura 4.24: Esquema del banco de pruebas experimental.

PMTs Hamamatsu H8500. Se empleó una fuente radiactiva 22Na de 1 mm de diámetro y10 µCi posicionada a 5 mm de uno de los detectores y a 690 mm del opuesto, como serepresenta en la Figura 4.24. El detector más próximo a la fuente se ha montado sobre unsoporte móvil de precisión, activado por dos motores paso a paso, cada uno de los cualeshabilita el movimiento del soporte según uno de los ejes. Ya que la radiación de la fuentees isotrópica ha sido necesario realizar colimación. Ésta se ha realizado por detección decoincidencia en ambos detectores, aprovechando que el ángulo sólido proyectado por lafuente es el mismo en los dos cristales, por lo que, considerando los fotones detectados


49

mm

42m

m

3 6.7

2m

m

Useful area

Crystal projection

MA-PMT

Figura 4.25: Esquema de la proyección del cristal de centelleo sobre el MA-PMT utilizadoen los experimentos. El área útil de medida queda restringida por el tamaño del cristal alos 6 × 6 ánodos internos.

dentro el área visible del detector más alejado, se ha restringido el área de impacto defotones en el detector más próximo a un área mucho menor, lo que permitirá tomarmedidas bastante próximas entre sí para evaluar la resolución espacial.

Cabe destacar que el área útil cubierta por el MA-PMT es de 49 × 49 mm2, pero lamenor área del cristal (42 mm de lado) limitó la cantidad de ánodos útiles del MA-PMTy, con ello, el rango de posiciones de impacto a evaluar cerca del borde del cristal. Esto noes necesariamente una restricción que pueda afectar negativamente a la toma de medidas,sino más bien algo positivo, ya que se evita tomar medidas que puedan estar sesgadas porlos efectos de borde del cristal. Por esta diferencia de tamaños, sólo se tomaron medidasen la malla 6 × 6 interna del cristal, como se aprecia en la Figura 4.25.

La electrónica de front-end para la detección fue específicamente diseñada para es-ta aplicación. La parte analógica está compuesta por un Application Specific IntegratedCircuit (ASIC) cuya implementación se ha denominado PESIC [152]. Los elementos im-plementados son:

• Una etapa de preamplificación provista de un control digital de ganancia (I2C) quepermite la no uniformidad en la ganancia de los ánodos del MA-PMT.

• Una implementación del DPC propuesto por Siegel en [310]. De este modo los 64canales de salida del MA-PMT se consiguen reducir a solamente 4 corrientes que seobtienen de las 4 esquinas del DPC, como se explicó en la Sección 4.4.1. De maneraadicional, se ha incluido la circuitería necesaria para medir la DOI por medio delmétodo propuesto en [191], es decir, mediante un circuito sumador de las tensionesexistentes en los nodos del DPC.

• Una etapa de post-amplificación y shaping de las señales de salida del DPC (A, B,C, y D) y de la señal Z que proporciona la estimación de la DOI.

Las señales resultantes pasan por una etapa de conversión analógica-digital y, poste-riormente, se procesan digitalmente. La parte digital del banco de pruebas está imple-mentada en una Field Programmable Gate Array (FPGA) dedicada, que lleva a cabo laadquisición de datos y procesado de coincidencias (DAQ-CP), y que se conecta a unaplaca madre utilizada para procesamiento digital de señal (DSP) [216].


12

64

ASIC

LS

Osc

intil

lato

r

MA

-PM

T

Analog Processing

Shaping

A/Dconverters

Digital Processing

Ia

Ib

Ic

Id

Z

Photons

22Na

Readout12

64

Preamp.

ANNs

Gaincontrol S

i=1

64

Vi

V1 V8

V57 V64

A

B C

D

64

DAQ-CP

DSP

DOI estimation

X

Y

Figura 4.26: Diagrama de bloques del sistema PET completo utilizado para la toma demedidas.

Los eventos válidos detectados en coincidencia pueden utilizarse posteriormente parapredecir las posiciones de impacto, ya sea con la lógica de Anger o mediante redes neu-ronales. En este estudio, se utilizan herramientas software (MATLAB) para evaluar las re-des neuronales de manera off-line, utilizando directamente las señales digitalizadas proce-dentes del front-end.

Una vista esquemática del montaje experimental se ilustra en la Figura 4.26.

4.5.3.1 Posicionamiento por ANNs

Para los análisis se ha evaluado la ANN óptima obtenida en la Sección 4.5.2.3, es decir,un estimador 1D doble de tipo MLP con arquitectura 2 × 4/9/6/1 y se ha comparado sucomportamiento frente a la lógica de Anger. Por el momento, se evaluarán las ANNs sinincluir la señal Z como entrada.

El barrido del cristal se realizó tomando medidas sobre la malla correspondiente a los6× 6 ánodos internos del H8500. Se tomaron medidas en 26× 26 posiciones, por lo que elespaciado entre puntos fue de 1.47 mm. Se tomaron 4096 medidas en cada punto. Existendificultades al entrenar con muestras que lleguen a impactar en un punto del cristal distintodel esperado por haber sufrido scatter. Se comprobó que el entrenamiento de las ANNutilizando los datos obtenidos para cada posición sin ningún preprocesado generaba unosvalores de error y de resolución inaceptables. En concreto, se obtuvieron valores de errorsistemático medio que oscilaban entre 0.27 mm y 2.2 mm para la coordenada x, y entre0.5 mm y 1.7 mm para la y. En cuanto a la resolución, se obtuvieron valores de entre 1.3mm y 7.8 mm en x y entre 0.7 mm y 3.3 mm para y. Estos resultados se muestran enla Figura 4.27. Los valores de resolución máxima son especialmente alarmantes y hacenque todo el sistema predictivo fracase en su intento por lograr unas predicciones al menoscomparables a la lógica de Anger. Es por ello que se propuso preprocesar los datos deentrada a la red mediante algún tipo de filtrado.

4.5.3.2 La necesidad del filtrado

Las muestras que corrompen la predicción (outliers) pueden eliminarse mediante filtradopor energía como se vio en las predicciones basadas en simulaciones. También se puede


−20 −15 −10 −5 0 5 10 15 20−4

−2

0

2

4Error sistematico en x (mm)

−20 −15 −10 −5 0 5 10 15 200

5

10

15Resolucion espacial en x (mm)

−20 −15 −10 −5 0 5 10 15 20−2

0

2

4Error sistematico en y (mm)

−20 −15 −10 −5 0 5 10 15 200

2

4

6Resolucion espacial en y (mm)

(a) (b)

Figura 4.27: Error sistemático y resolución espacial logrados por el MLP 2×4/9/6/1 parael conjunto de test sin preprocesado, en función de (a) la posición en el eje x y (b) laposición en y.

dar la dificultad de que la posición objetivo de impacto de un par de fotones no coincidacon la obtenida analíticamente por el método de Anger (que es un test bastante robustopara determinar cuál será el comportamiento aproximado de la ANN). De hecho, si endatos obtenidos del montaje real utilizamos solamente filtrado por energía, se observaque, pese a existir una mejora sustancial frente al caso de no filtrar (errores sistemáticosmedios inferiores a 0.5 mm en toda la superficie de cristal evaluada, y resoluciones mediasde 1 mm para la x y 0.6 mm para la y como se observa en la Figura 4.28), se aprecia uncomportamiento errático en el histograma 2D de cuenta de eventos. En concreto, existen“colas” en la distribución en un entorno de los máximos que representan los puntos deimpacto. Estas colas se extienden paralelas a las direcciones x e y como aparece repre-sentado en la Figura 4.29. Para afrontar este problema, además del filtrado por ventanade energía, se ha procedido a utilizar un filtrado espacial de muestras determinado por laposición esperada por la lógica de Anger.

En resumen, los filtrados empleados consisten en lo siguiente:

• Filtrado por energía: Es el mismo filtrado que se utilizó en la simulaciones. Seestablece una ventana de energía del 20 % en torno al fotopico de energía de losfotones detectados y se eliminan los eventos que se detectan fuera de esta ventana.Este método se utiliza habitualmente en la literatura [12, 199].

• Filtrado por posición: Puede darse el caso de que eventos coincidentes dadospor válidos por el filtrado por energía produzcan centelleo en un punto lejano asu posición de impacto prevista. Estos eventos se comportan como outliers, queincrementan el error sistemático. Se han eliminado estos eventos por medio de filtroscirculares que sólo dejan pasar las muestras que producen centelleo en un entorno delos centroides calculados por las fórmulas de Anger. Este filtrado se conoce tambiéncomo “máscara de Anger”. También es posible descartar eventos basándose en el


−20 −15 −10 −5 0 5 10 15 20−0.5

0

0.5

1Error sistematico en x (mm)

−20 −15 −10 −5 0 5 10 15 200

1

2

3Resolucion espacial en x (mm)

−20 −15 −10 −5 0 5 10 15 20−1

−0.5

0

0.5

1Error sistematico en y (mm)

−20 −15 −10 −5 0 5 10 15 200

0.5

1

1.5Resolucion espacial en y (mm)

(a) (b)

Figura 4.28: Error sistemático y resolución espacial logrados por el MLP 2×4/9/6/1 parael conjunto de test filtrado por energía, en función de (a) la posición en el eje x y (b) laposición en y.

x (mm)

y (m

m)

−15 −10 −5 0 5 10 15

−15

−10

−5

0

5

10

15

0

20

40

60

80

100

120

140

160

Figura 4.29: Histogramas 2D de cuenta de eventos para el estimador MLP 2×4/9/6/1utilizando filtrado por energía con una ventana del 20 % en torno al fotopico.

filtrado de aquellos que no superan un determinado nivel en el histograma respectoal máximo de la distribución de luz [199], con lo que se tiene en cuenta la nouniformidad de la distribución de luz en cada dimensión.

4.5.3.3 Resultados de entrenamiento con muestras filtradas

Las muestras que pasaron el filtrado se dividieron en conjuntos de entrenamiento y testde igual tamaño, y se realizaron varias repeticiones de los entrenamientos, esta vez de200 epochs cada uno, ya que a partir de ese valor se estancaba el error de test. No


x

y

Lógica de Anger

−15 −10 −5 0 5 10 15

−15

−10

−5

0

5

10

15

0

5

10

15

20

25

x

y

Redes neuronales

−15 −10 −5 0 5 10 15

−15

−10

−5

0

5

10

15

0

100

200

300

400

500

600

(a) (b)

Figura 4.30: Comparativa de los histogramas 2D de cuenta de eventos para (a) la lógicade Anger y (b) el estimador MLP 2×4/9/6/1. Las dimensiones de los ejes vienen dadasen mm.

Algoritmo

epochs

50 100 150 200

MSEx MSEy MSEx MSEy MSEx MSEy MSEx MSEy

trainlm 0.9393 0.5846 0.6264 0.4534 0.5847 0.3831 0.4299 0.4451

trainrp 1.8115 1.8184 1.5419 1.3067 0.9960 1.1950 1.0002 0.9074

Tabla 4.9: Comparación del MSE medio de test de los algoritmos trainlm y trainrp entre-nando diferente número de epochs y promediando 10 entrenamientos en cada caso.

se emplearon métodos de early-stopping ni de regularización, porque se comprobó queen muchas ocasiones detenían el entrenamiento prematuramente sin haber optimizadoel error de test, por haber encontrado una disminución demasiado baja del error en ladirección del gradiente. A diferencia de los resultados obtenidos en simulación, en el casode muestras reales funcionó mejor el algoritmo Levenberg-Marquardt que el Resilientpropagation (ver Tabla 4.9). Los datos fueron normalizados entre -1 y +1, y se emplearonfunciones de tipo tangente hiperbólica en todas las neuronas.

Para estudiar el error sistemático y la resolución espacial se utilizaron las muestrasdetectadas en las posiciones -15.2 mm, -9.12 mm, -3.04 mm, 3.04 mm, 9.12 mm, 15.2 mmdel cristal, tanto en la coordenada x como en y, de manera que se tiene una estimacióndel comportamiento de cada ánodo considerado. El número de muestras que pasaron elfiltrado se sitúa entre 1000 y 2000 por cada una de las 36 posiciones. Las muestras decada posición se dividieron al 50 % entre los conjuntos de entrenamiento y test.

Los histogramas 2D que se presentan en la Figura 4.30 dan una idea de la mejoraobtenida al utilizar las ANNs como estimadores en lugar de la lógica de Anger. El errorsistemático se ha reducido considerablemente. Para la lógica de Anger se han obtenidoerrores sistemáticos de 0.2 mm (centro) a 3.3 mm (bordes), mientras que para el estimador


−20 −15 −10 −5 0 5 10 15 20−0.1

−0.05

0

0.05

0.1Error sistematico en x (mm)

−20 −15 −10 −5 0 5 10 15 200.05

0.1

0.15

0.2

0.25Resolucion espacial en x (mm)

−20 −15 −10 −5 0 5 10 15 20−0.05

0

0.05Error sistematico en y (mm)

−20 −15 −10 −5 0 5 10 15 200.09

0.1

0.11

0.12Resolucion espacial en y (mm)

(a) (b)

Figura 4.31: Error sistemático y resolución espacial logrados por el MLP 2×4/9/6/1 parael conjunto de test filtrado en función de (a) la posición en el eje x y (b) la posición en y.

propuesto basado en ANNs el error sistemático es inferior a 0.05 mm en todo el rango útildel cristal (ver Figura 4.31). Es necesario destacar que en los histogramas de la Figura4.30 se han utilizado todas las muestras filtradas en el caso de la lógica de Anger, puestoque es un método analítico determinista, mientras que para los estimadores MLP se hanempleado la mitad de ellas (el conjunto de test únicamente).

Del mismo modo que para el caso bidimensional, se han obtenido histogramas decuentas de eventos a lo largo de los ejes x e y, hallados a partir de secciones de loshistogramas 2D. Después, se ha procedido a ajustar los puntos del histograma mediantefunciones gaussianas, tal como se representa en la Figura 4.32 para uno de los cortescentrales del histograma 2D a lo largo del eje y. La representación del resto de seccionesse ha omitido por su similitud.

Curiosamente, mientras que para la lógica de Anger las mejores resoluciones se ob-tienen para medidas en el centro del cristal, para el método de las ANNs correspondena los extremos y esquinas del cristal. Se ha determinado analíticamente la resolución es-pacial FWHM media, que determina lo próximas que pueden estar dos fuentes para serdiferenciadas, y se ha obtenido el perfil de error sistemático medio y resolución espacialFWHM media en función de la posición del eje, promediando los 6 valores obtenidos parauna misma posición en cada eje. El resultado se observa en la Figura 4.31. La resoluciónFWHM obtenida es inferior a 0.2 mm en toda la superficie de cristal estudiada. Estoconstituye un resultado muy bueno en comparación con la lógica de Anger, para la quese han obtenido resoluciones entre 2 mm y 3 mm. Los resultados de resolución son delmismo orden que los alcanzados por el algoritmo SBP en aplicaciones similares [171], peroel porcentaje de mejora relativa respecto a la lógica de Anger es claramente favorable alas ANNs.

Subjetivamente se puede observar como las ANNs han limpiado de eventos dispersadosel histograma, eliminando el pedestal de ruido y produciendo imágenes mucho más nítidas.Una de las principales ventajas del método introducido es que realiza al mismo tiempo


−15 −10 −5 0 5 10 150

5

10

15

20

25

y

Nº

Eve

nto

s

Lógica de Anger

Puntos histogramaAproximación Gaussiana

−15 −10 −5 0 5 10 150

100

200

300

400

500

600

700

y

Nº

eve

nto

s

Redes neuronales

Valores histogramaAproximación Gaussiana

(a) (b)

Figura 4.32: PSF a lo largo del eje y determinada por las posiciones [x =-3.04 mm], [-15.2 mm ≤ y ≤ 15.2 mm] para la lógica de Anger (a) y para el estimadorMLP 2×4/9/6/1 (b).

el posicionamiento y el binning necesario para componer el histograma discretizado. Estepaso de conversión de posición continua a discreta es fundamental en la mayoría de al-goritmos de reconstrucción típicos, como el FBP o el ML-EM, descritos en el ApéndiceA.

4.5.3.3.1 Efecto de la DOI A continuación se ha introducido la DOI como unavariable más del sistema para comprobar su efecto en el comportamiento predictivo delas redes neuronales. Como se comentó en la Sección 4.5.3, la estimación de la DOI vienedada por la señal Z obtenida de la suma de tensiones en los 64 nodos de la red resistiva.

El nuevo histograma de posicionamiento 2D que incluye la señal Z y la PSF correspon-diente al eje y se representa en la Figura 4.33. Los parámetros de las redes neuronales y desu entrenamiento se han mantenido igual que en la Sección 4.5.3.3, con la única diferenciade que la arquitectura de los MLPs ahora es 2× 5/9/6/1. A partir del histograma sepuede observar que las diferencias respecto al estimador que no incluye la Z son mínimas.El error sistemático medio en este caso es 0.02 mm y siempre se mantiene por debajo de0.05 mm. La resolución espacial FWHM por su parte ronda los 0.11 mm por coordenaday con un máximo de 0.13 mm. Al igual que en el caso que no considera la Z, las mejoresresoluciones se tienen para los puntos situados en los extremos del cristal.

4.5.3.4 Uso de distintos mallados para entrenamiento y test

Se ha procedido a realizar una prueba para determinar el comportamiento de las ANNsdiseñadas cuando las muestras con las que se testa tienen salidas que no corresponden aninguna de las presentes en el conjunto de entrenamiento. Con esto se pretende observarsi las ANNs funcionan bien para estimar la posición en un detector continuo además desimplemente realizar un binning (clasificación) para un detector pixelado. Las filtradasse dividieron en conjuntos de entrenamiento y test utilizando distintos mallados para


x

yHistograma 2D ANNs inluyendo Z

−15 −10 −5 0 5 10 15

−15

−10

−5

0

5

10

150

100

200

300

400

500

600

−15 −10 −5 0 5 10 150

50

100

150

200

250

300

350

400

450

500

y

Nº

even

tos

PSF a lo largo del eje y, incluyendo Z

Valores histogramaAproximación Gaussiana

(a) (b)

Figura 4.33: Histograma 2D de cuenta de eventos correspondiente al estimador 2× 5/9/6/1que incluye Z como entrada (a) y su PSF a lo largo del eje y determinada por las posiciones[x = -3.04 mm], [-15.2 mm ≤ y ≤ 15.2 mm] (b).

garantizar que el entrenamiento no sobreentrene hacia los targets (salidas) del conjuntode entrenamiento. Se tomaron puntos alternos para entrenamiento y test como se apreciaen la Figura 4.34.

También se ha considerado el efecto de utilizar early-stopping con diferente número devalidation checks (número de epochs transcurridos sin que disminuya el MSE de validacióndesde la obtención de un mínimo antes de detener el entrenamiento). La arquitectura delas redes se ha mantenido como en las anteriores secciones, es decir 2× 4/9/6/1 cuando nose considera la DOI y 2× 5/9/6/1 cuando se considera. La división de los datos para en-trenamiento/validación/test es 60 %/20 %/20 % que corresponde a los valores por defectoen Matlab. Los resultados de 10 entrenamientos promediados de cada tipo se observan enla Tabla 4.10. Evidentemente y como era previsible, tanto los errores sistemáticos comola resolución son mayores que en el caso de utilizar el mismo grid de posiciones paraentrenamiento y para test. En muchos casos el entrenamiento tiende a alcanzar los 200epochs de cota máxima sin haber finalizado previamente por early-stopping ya que engeneral el progreso del error del conjunto de validación es decreciente con el número deepochs al igual que sucede con el error del conjunto de entrenamiento, y no hay ningúnmínimo global que haga detenerse al algoritmo.

A pesar de utilizar el mecanismo de early-stopping, se aprecia en los resultados unatendencia al sobreentrenamiento. Las muestras de test tienden a clasificarse en los binsque se presentan a la red en la etapa de entrenamiento. En la Tabla 4.10 destaca elcomportamiento de early-stopping, que produce los menores errores si se detiene el entre-namiento al alcanzar el primer mínimo de error de validación. Esto nos da a entender quela generalización es mejor si se ejecuta un número reducido de epochs. En la Figura 4.35se aprecian los histogramas de una red entrenada con 10 epochs sin realizar early-stoppingfrente a una red sobreentrenada (200 epochs). Los valores medios de error y resolución semuestran en la Tabla 4.11

Como se observa, la red entrenada con sólo 10 epochs respeta el mallado (menor error

4.6. CONCLUSIÓN 199

9.12

3.04

x (mm)

y (mm)

15.2

-3.04

-9.12

-15.2

15.2

-15.2

-9.1

2

-3.0

4

9.1

2

3.0

4

Entrenamiento Test

Figura 4.34: Diferentes mallados utilizados para entrenamiento y para test con el fin decomprobar el funcionamiento de la red entrenada en posiciones distintas a las de test.

Sin DOI

Algoritmo Epoch Epoch Error Error Resolución Resolución

de parada parada x parada y sistemático x sistemático y espacial x espacial y

sin e.s. 200 200 1.6 ± 1.2 2.0 ± 1.7 1.5 ± 1.1 1.4 ± 1.4

e.s. (1 epoch) 29 80 0.9 ± 0.7 1.3 ± 0.7 2.1 ± 1.0 2.0 ± 1.1

e.s. (5 epochs) 149.2 169.8 1.5 ± 1.1 1.9 ± 1.3 1.7 ± 1.5 1.6 ± 1.1

e.s. (10 epochs) 146.8 166.2 1.7 ± 1.5 1.8 ± 1.1 1.7 ± 1.6 1.7 ± 1.0

Con DOI

sin e.s. 200 200 1.5 ± 1.2 1.5 ± 1.2 1.6 ± 1.3 1.2 ± 0.9

e.s. (1 epoch) 58 40.2 1.0 ± 0.9 1.0 ± 0.9 1.7 ± 1.0 1.9 ± 0.9

e.s. (5 epochs) 158.8 137.2 1.3 ± 1.1 1.5 ± 1.3 1.7 ± 1.1 1.4 ± 1.4

e.s. (10 epochs) 153.8 146.8 1.1 ± 0.9 1.2 ± 1.0 1.6 ± 1.0 1.1 ± 0.7

Tabla 4.10: Evaluación de la media (10 promedios) de los errores sistemáticos (en mm) ylas resoluciones espaciales (en mm) a lo largo del cristal, proporcionadas por las mejoresANNs implementadas, en un grid de posiciones de test distinto al de entrenamiento yconsiderando early-stopping (e.s.) con diferente número de validation checks.

sistemático) a costa de peor resolución espacial. Obviamente, es preferible un menor errorsistemático, ya que de nada sirve tener un clasificador de gran precisión pero con malaexactitud.

4.6 Conclusión

Como se ha visto en este capítulo, las ANNs se pueden considerar como unos efectivosestimadores de posición bidimensionales para aplicaciones de detección en PET. En con-creto, se han diseñado redes de tipo MLP para formar parte del front-end de detecciónde un sistema PET real de reducido tamaño diseñado y construido por el Departamento


x (mm)

y (m

m)

10 epochs

−15 −10 −5 0 5 10 15

−15

−10

−5

0

5

10

150

5

10

15

20

25

30

35

40

45

50

x (mm)

y (m

m)

200 epochs

−15 −10 −5 0 5 10 15

−15

−10

−5

0

5

10

150

50

100

150

200

250

300

350

400

450

500

(a) (b)

Figura 4.35: Histogramas 2D de cuenta de eventos de test correspondiente al estimador2× 5/9/6/1 con distinto mallado para entrenamiento y test, entrenado (a) hasta 10 epochsy (b) hasta 200 epochs.

EpochsError Error Resolución Resolución

sistemático x sistemático y espacial x espacial y

10 0.37 ± 0.21 0.35 ± 0.22 2.3 ± 0.4 1.8 ± 0.7

200 1.7 ± 1.0 1.4 ± 1.6 1.9 ± 0.7 1.3 ± 1.2

Tabla 4.11: Comparación de los errores sistemáticos (mm) y resoluciones medias (mm)del estimador 2 × 5/9/6/1 entrenado hasta 10 y hasta 200 epochs, respectivamente.

de Ingeniería Electrónica de la Universidad Politécnica de Valencia en colaboración con elInstituto de Física Corpuscular (IFIC). A lo largo de este capítulo se han podido extraervarias conclusiones.

• Se ha trabajado tanto con muestras simuladas generadas por el paquete de softwareGEANT4 como muestras reales adquiridas por un setup PET real con un front-endespecífico para la adquisición de los datos.

• Se ha utilizado con éxito un circuito de readout pasivo (red de resistencias) parareducir el número de señales de entrada a las ANNs de 64 a solamente 4 sin un au-mento significativo del error cometido, lo que constituye una reducción considerabledel coste computacional y de la complejidad de la implementación hardware.

• Mediante simulación sistemática en Matlab, se ha determinado que la estructuraneuronal óptima de las redes se obtiene al utilizar un estimador individual porcada coordenada con una arquitectura 4/9/6/1, es decir: 4 entradas, 9 neuronas enla primera capa oculta, 6 en la segunda capa oculta y una salida. Las funciones deactivación de todas las capas han sido tangentes hiperbólicas y la red se ha entrenadohasta un número prefijado de epochs.


• Las ANNs han permitido reducir hasta corregir casi por completo los efectos nolineales que suelen aparecer en los bordes de los cristales centelleadores cuando sehace uso de la lógica de centroide. Las mejores resoluciones espaciales se obtienenen los extremos del cristal y los menores errores sistemáticos cerca del centro.

• Asimismo, se ha probado el uso de la aproximación (Z ) de la DOI como una variablede entrada extra del sistema, siendo la nueva arquitectura neuronal de cada esti-mador 5/9/6/1. A partir de los resultados se concluye que las diferencias respectoal estimador que no incluye dicha variable son mínimas. Se llega, por lo tanto, a lamisma conclusión que con el front-end PESIC [152] de manera totalmente diferente.La DOI obtenida por PESIC es una aproximación reducida por proyección de laaproximación DOI original basada en la anchura de la distribución de luz [191]. Sehizo esa aproximación por la complejidad que suponía el cálculo de la DOI original.En el nuevo ASIC la DOI se ve representada por el momento de segundo orden en(x, y) [194] y en este caso sí que contribuye a mejorar la estimación. En nuestrosexperimentos, en un principio y utilizando el mismo grid para entrenar y testar lasANNs, obtuvimos resultados que hacían pensar que la introducción de la DOI noaportaba una mejora sustancial. En cambio, al utilizar diferentes grids, la aproxi-mación de la DOI de PESIC ayuda a mejorar tanto el error como la resolución entérminos generales, como constata la Tabla 4.10.

• Tanto en esta Tesis como en un cierto número de publicaciones ([11, 12, 221, 222]), seobserva que las muestras que corrompen la predicción, posiblemente eventos desvi-ados de otras posiciones que centellean en posiciones erróneas del cristal, puedeneliminarse mediante filtrado por energía. En este caso particular, en los histogramas2D obtenidos tras el filtrado por energía aparecen “colas” alrededor de los máximos.Filtrando estos eventos por distancia a la posición del centroide, mediante filtroscirculares, pueden corregirse estas colas que el filtrado por energía dejaba pasar ycontribuían a corromper el histograma.

• Mediante el uso del filtrado de eventos (por cota de energía o por posición en unentorno del fotopico) se ha logrado reducir el ruido de los histogramas de posi-cionamiento en gran medida, produciendo imágenes mucho más nítidas, hasta elpunto de convertir el estimador de posición en un clasificador “virtual”. Una granventaja de realizar este filtrado es que se realiza al mismo tiempo el posicionamientoy el binning necesario para componer el histograma discretizado.

• Esta clasificación virtual tiene el inconveniente de que si se entrenan las ANNs conun mallado de puntos muy separados se va a cometer un gran error al arrastrar lospuntos testados a las posiciones preestablecidas del grid. Sin embargo, si se realizaseuna adquisición de puntos de entrenamiento con un grid muy fino, esta clasificaciónen bins sería similar a una aproximación a una función continua de manera que elerror cometido se reduciría considerablemente.

• Se ha realizado una prueba para comprobar la efectividad de los estimadores de posi-ción diseñados cuando el mallado del conjunto de test es distinto al de entrenamientoy así simular el comportamiento en un caso real el el que pueden llegar impactos en


cualquier coordenada (x, y) del cristal, no sólo en los puntos de la cuadrícula de en-trenamiento. Como conclusión, se puede decir que existe el peligro de sobreentrenarla red y que arrastre los puntos de test a las posiciones entrenadas. Incluso con elcriterio early-stopping y deteniendo el entrenamiento en el primer mínimo de errorde validación esto puede suceder. Para evitarlo, se debe entrenar hasta un númeromuy reducido de epochs (en los experimentos se ha probado con 10) y así conseguirque se respete el mallado de test. Por un lado, los errores sistemáticos medios que seconsiguen de esta forma son buenos (∼0.4 mm) pero por otro empeora la resoluciónespacial (alrededor de 2 mm). Esto es preferible a tener un clasificador con buenaresolución espacial pero con un gran error sistemático. Como se ha señalado en elpunto anterior, si el grid fuese más fino, quizá el clasificador sería una opción.

Capítulo 5

Aplicación de preprocesado de variables alposicionamiento PET

En este capítulo se va a replantear el problema de posicionamiento en el sistema PETdel Capítulo 4 introduciendo parte de la metodología de selección de variables explica-da en el Capítulo 2. En concreto, se va a plantear una estructura modificada del setupla cual posibilitará una mayor configurabilidad del sistema mediante un mayor númerode parámetros a optimizar. Se explotarán las ventajas de las estructuras neuronales encombinación con las de los GAs para obtener los mejores resultados en cuanto a error yresolución del posicionamiento bidimensional.

5.1 Los momentos de una distribución

En matemáticas, un momento está relacionado con la forma de una distribución depuntos. Los momentos de una distribución de puntos tienen asociado un orden n ∈ N0.

En una función de densidad de probabilidad (FDP), por ejemplo, el primer momento estáasociado a la media aritmética y el segundo, a la varianza de la distribución. En general,el n-ésimo momento de la FDP dada por f(x) se determina como

µn =

∫

Ω

xnf(x) dx, n ∈ N0. (5.1)

El momento de orden 0 (µ0) es el área bajo f(x) y corresponde, en el caso de nuestrobloque detector PET, a la carga total liberada por el impacto de un fotón (un evento γ)si f(x) es la distribución espacial de carga tras convertir la luz de centelleo utilizandoun fotodetector sensible a la posición (PSPD). Si el soporte de f(x) es un subconjuntode Ω, se tiene que µ0 = 1. En caso contrario, el momento de orden 0 puede ser usadopara calcular los momentos normalizados µnn = µn/µ0, n ∈ N 0. El primer momento µ1

corresponde a la media de f(x). Para una FDP unimodal y simétrica, la media coincidecon el máximo de f(x). Este es el motivo por el cual el algoritmo de Centro de Gradiente(COG) puede ser utilizado para estimar la posición de impacto del fotón γ. La mediapuede ser utilizada para calcular los momentos centrales

µcn =

∫

Ω

(x− µ1)nf(x) dx, n ∈ N0. (5.2)

203

204 CAPÍTULO 5. PREPROCESADO DE VARIABLES PARA PET

El momento central más importante es la varianza µc2, que es una medida del anchode la distribución f(x).

5.2 El momento de Hausdorff y Hamburger

El problema del momento de Hausdorff consiste en encontrar una función real o complejaf(x) de la cual sus momentos (Ecuación 5.1) en un intervalo de integración finito Ωson iguales a una secuencia de números reales o complejos νn. Tal secuencia se denominasecuencia de momentos. El problema del momento de Hamburger es similar pero sustituyeel intervalo de integración finito por el conjunto R de los números reales. La solución aestos problemas tiene como objetivo reconstruir la función desconocida f(x) utilizando susecuencia de momentos.

De acuerdo con Talenti [331], la sustitución de la secuencia de momentos νn de unasolución f(x) por otra secuencia νn+ǫn puede llevar a una solución completamente distintade 5.1, incluso si Σnǫ

2n es arbitrariamente pequeña. Por tanto, el problema de los momentos

se denomina truncado si sólo se conoce un subconjunto de la secuencia de momentos.Se puede hallar una función aproximada f(x) para el problema truncado de Hausdorff

expandiendo f(x) en términos de funciones base ortonormales [331]. Aunque la recons-trucción de f(x) no se requiere para la imagen de rayos γ, es conveniente revisar estemétodo ya que demuestra que el cálculo de los momentos es una alternativa adecuadapara representar f(x) y permite una reducción de los datos, siempre y cuando el númerode momentos necesarios sea menor que el número de muestras de f(x).

Como un primer paso, f(x) puede ser expandida en un conjunto de polinomios deLegendre

f(x) ≈ f(x) =

N∑

i=0

λiLi(x). (5.3)

En este caso, el intervalo de integración Ω es [0, 1]. Por lo tanto, los polinomios deLegendre están desplazados y escalados al sustituir sus argumentos por 1 − 2x. Los poli-nomios escalados se renormalizan para que satisfagan la condición de ortogonalidad

∫ 1

0

Li(x)Lj(x) dx = δij (5.4)

con i, j ∈ N0. Los coeficientes de Fourier-Legendre λi vienen dados por

λi =

∫ 1

0

Li(x)f(x) dx. (5.5)

También se pueden escribir los polinomios de Legendre de la forma

Li(x) =

i∑

j=0

cijxj . (5.6)

Utilizando esta expresión en la Ecuación 5.5 y comparando con los momentos de f(x)en la Ecuación 5.1 se obtiene que los coeficientes de Fourier-Legendre están relacionadoscon los momentos por

5.3. TOPOLOGÍA DEL CIRCUITO 205

λi =

i∑

j=0

cijµj. (5.7)

Esta resulta ser la solución aproximada del problema del momento de Hausdorff. Lareconstrucción mediante otra función base ortonormal es también posible.

Como ya se ha mencionado, el hecho de conocer la distribución f(x) no es un requisito.Para imágenes de rayos γ sólo se necesita saber la posición de impacto tridimensional delfotón γ en el interior del cristal de centelleo. La Ecuación 5.1 también puede interpretarsecomo un sistema acoplado de ecuaciones integrales. Por tanto, la posición de impacto delrayo γ puede obtenerse invirtiendo este sistema de ecuaciones mediante métodos numéricosestándar. Un algoritmo apropiado son las ANN, porque permiten una rápida y eficazestimación (además de no iterativa) de la posición de impacto, una vez la red ha sidoentrenada. En el caso que nos ocupa, la aproximación por ANN no se utilizará parareconstruir la distribución, sino para invertir el sistema de ecuaciones integrales. Estosignifica que también se podrían emplear conjuntos de funciones base no ortonormales.Así pues, los pasos necesarios para la aplicación de posicionamiento son:

1. Antes de la operación normal, entrenar la ANN con un conjunto de posiciones deeventos γ detectados y sus correspondientes momentos asociados.

2. Durante la operación normal, para cada evento γ, mapear la distribución de la señalen un conjunto de momentos.

3. Introducir estos momentos a la ANN entrenada para estimar la posición de impacto.

5.3 Topología del circuito

El circuito en que se basa el sistema de posicionamiento del setup consta de una secciónanalógica y una sección digital, tal y como puede observarse en la Figura 5.1. La secciónanalógica es el paso previo a la fase digital y ha sido implementada en un ASIC. El ASICrecibe como entradas el conjunto de I pixels procedentes del PSPD, organizados comoun vector qj , j = 1, . . . , I, I ∈ N/0 correspondiente a las cargas detectadas en cadapixel del detector, y reordenadas en una sola columna (en nuestro caso se reciben I = 64canales procedentes de un detector de 8 × 8 pixels). Esta etapa constituye el readout olectura de los estímulos de entrada al detector. A diferencia de otros estudios en los que elreadout se realizaba por medio de redes resistivas de estructura fija [310], en este caso serealiza un readout dinámico en el sentido que los pesos asociados a cada señal procedentede cada ánodo puede ser programados libremente mediante una estructura configurablebasada en sumas ponderadas.

Análogamente a la Ecuación 5.1 podemos escribir

µi =I∑

j=1

ωijqj (5.8)

donde i = 0, 1, . . . , N − 1, N ∈ N0. En la ecuación anterior, los qj son las muestras de ladistribución f(x) si se busca una analogía con la Sección 5.2. Primeramente, se realizan


... ...S

S

S

S ...

SECCIÓNANALÓGICA SECCIÓNDIGITAL

ASIC FPGAS

W12W22W32WM2S

W13W23W33W M3S

W11W2 1W3 1WM 1 Y1Y2Y3...S

W11W2 1W3 1WN 1 FUNCION DEACTIVACIÓNY1S

W13WW33WN3 Y1S

W12W22W32WN2 Y1S

W 1MW2MW3MWNM Y1

...A/D 1A/D 2A/D 3A/D N 23...... ...... .........SYN APSESSYN APSESSYN APSESSYN APSES

N EURONNEURONNEURONNEURONNEURONN EURONN EURONFUNCION DEACTIVACIÓN FUNCION DEACTIVACIÓNFUNCION DEACTIVACIÓN FUNCION DEACTIVACIÓNFUNCION DEACTIVACIÓNFUNCION DEACTIVACIÓN

SYN APSESSYN APSESSYN APSESSYNAPSES

SYNAPSESSYNAPSESSYNAPSESN EURONNEURONNEURONNEURONFUNCION DEACTIVACIÓNI N N

MN OM O

Figura 5.1: Diagrama del setup planteado. La sección analógica realiza una reducción o“compresión” del volumen de datos de entrada a únicamente un máximo de N = 8 señales.La sección digital se encarga de la estimación de la posición por medio de ANNs. En elcaso de estimación de posición bidimensional tendríamos O = 2.

M copias de las señales qj que vamos a denominar qcij , i = 0, . . . , N . A continuación,estas copias se multiplican por los pesos programables ωij que, una vez determinados,mantienen su valor para los subsiguientes valores de las entradas. El hecho de que lospesos sean programables dota al circuito de una alta configurabilidad. El número totalde parámetros (pesos) a configurar es N × I. El resultado de multiplicar las señalesreplicadas qcij por los pesos ωij se suma para cada índice i mediante M bloques sumadoresanalógicos. La salida de cada sumador corresponde a la estimación de uno de los momentosde la distribución f(x). El número de momentos necesarios N puede ser sustancialmentemenor que el número de entradas I, según la elección de los ωij. Esto constituye la principalventaja de este método al reducir significativamente el coste en hardware (número de ADCnecesarios) y la carga computacional de la sección digital del sistema sin comprometerla calidad de la estimación de la posición. En nuestro ASIC se ha limitado el número demomentos a N ≤ 8, aunque veremos que el número de momentos necesarios puede serincluso limitado a 4 sin una pérdida sustancial de información.

La estructura del hardware del setup es idéntica a la detallada en el Capítulo 4. Esdecir, se utilizan dos detectores enfrentados cada uno equipado con un cristal monolíticode LSO de dimensiones físicas 42 × 42 × 10 mm3, y sendos fotomultiplicadores Hama-


0 20-20

20

0

-20

x

y

Figura 5.2: Malla de posiciones utilizadas para entrenar y testar.

matsu H8500, que se conectan directamente al prototipo ASIC. Esta vez se utiliza unesquema de compensación de inhomogeneidades en los ánodos del PSPMT [192]. Estose consigue hallando los pesos compensados ω′

ij del ASIC analíticamente y compensandoindividualmente la inhomogeneidad o error ǫj de cada pixel, de modo que ω′

ij = ωijǫ−1j .

5.4 Experimentos

5.4.1 Obtención de datos

El conjunto de datos de entrenamiento y test utilizado en los experimentos fue obtenidomediante una simulación de Monte Carlo utilizando GEANT4 [301]. Se simuló una mallade 9 × 9 posiciones equiespaciadas ([-20 mm, -15 mm, -10 mm, -5 mm, 0 mm, 5 mm, 10mm, 15 mm, 20 mm]) a lo largo y ancho de un cristal LSO de dimensiones 42 × 42 × 10mm3, acoplado a un MA-PMT Hamamatsu 8500. De manera análoga, para la validaciónse generó una malla de 8 × 8 posiciones equiespaciadas situadas en [-17.5 mm, -12.5mm, -7.5 mm, -2.5 mm, 2.5 mm, 7.5 mm, 12.5 mm, 17.5 mm] en ambas coordenadas. Seregistraron aproximadamente 45000 eventos para los conjuntos de entrenamiento y test,mientras que el de validación se compuso a partir de 36000 muestras, aproximadamente.Estos datos se utilizaron previamente en [193]. El mallado del conjunto de entrenamientoy test se representa en la Figura 5.2 mientras que el mallado para validación se muestraen la Figura 5.3.

5.4.2 Selección de momentos

Con el propósito de reducir el volumen de datos a tratar en la parte digital (FPGA)se aplica el método de búsqueda basado en GA para selección de variables mediante laminimización del DT que se introdujo en el Capítulo 2 y, concretamente, el método queintroduce la aproximación por k − NN en en la Sección 2.9. Puesto que dicho métodose aplica a conjuntos de datos con una única salida, se ha procedido a diferenciar dosselecciones independientes de momentos, Nx y Ny, una para la coordenada x y otra para


0 17.5-17.5

0

-17.5

x

y

17.5

Figura 5.3: Malla de posiciones utilizadas para validar.

la coordenada y, respectivamente. Estas dos selecciones de momentos se utilizarán comoentradas a las respectivas ANNs de posicionamiento de cada coordenada.

5.4.3 Elección de parámetros

Solamente un subconjunto (1/5) de los datos de entrenamiento disponibles fueron utiliza-dos para la búsqueda basada en GA con el objetivo de reducir el coste computacional.Los parámetros del GA fueron: número de generaciones 200; tamaño de población: 150;operador de cruce: BLX-α (α = 0,5); función de selección: torneo binario; probabilidad decruce: 0.85; probabilidad de mutación: 0.1; elitismo: 10 %; función de mutación: aleatoriauniforme. Estos valores son identicos a los utilizados en [226] para propósitos de opti-mización similares. En el presente estudio se han probado los métodos de preprocesadovistos en el capítulo 2: selección, escalado y proyección de variables, así como la combi-nación de escalado y proyección, y se han comparado los resultados con los del modeloque utiliza todas las variables. La función a optimizar es la minimización del DT .

En la etapa digital se ha utilizado dos ANN (una red por cada coordenada, x e y) detipo MLP de dos capas ocultas, con 18 neuronas en la primera capa oculta y 12 en lasegunda, con funciones de activación de tipo tangente sigmoidal en las dos capas ocultas yde tipo lineal en la salida. Las ANNs fueron entrenadas por medio del algoritmo Levenberg-Marquardt. El principal motivo por el cual se utilizan dos estimadores es porque el cálculodel DT nos limita a funciones de una variable de salida.

5.4.4 Resultados

En primera instancia se ha procedido a entrenar las ANNs utilizando la secuencia de 8 mo-mentos originales, con el propósito de comparar los resultados con aquellos obtenidos porlos métodos de preprocesado previamente descritos. Los resultados obtenidos se puedenresumir en la Figura 5.4. Los valores de DTx y DTy fueron 0.0181 y 0.0168, respectiva-mente, dando lugar a errores sistemáticos medios de 0.27 mm en x y 0.22 mm en y. Porsu parte, las resoluciones espaciales halladas fueron 1.17 mm en x y 1.09 mm en y.

Mediante selección de variables, los momentos seleccionados fueron cuatro para cadacoordenada:


Para la coordenada x: 1o, 2o, 4o, 8o.Para la coordenada y: 2o, 3o, 4o, 6o.No es sencillo interpretar el significado de cada uno de los momentos. Los momentos

en general no tienen un significado matemático claro. Pero algunos sí, como se vio enla Sección 5.1 y permiten computar parámetros con significado. Por ejemplo, el primermomento centralizado y normalizado se puede usar como aproximación para la posición.Del segundo momento y el primer momento se puede calcular la desviación estándar. Deigual manera se pueden calcular los momentos centrales de mayor orden (asimetría, cur-tosis, etc.). Pero la idea subyacente es la descomposición de la distribución en momentos.La esperanza es que con sólo un subconjunto de estos momentos se pueda reconstruir ladistribución o los parámetros que interesan [283].

Los valores de DT obtenidos fueron DTx=0.0113 y DTy=0.0108. Utilizando estassecuencias de momentos como entradas a las ANNs se obtuvieron unos errores sistemáticosmedios de 0.21 mm en x y 0.18 mm en y, y unas resoluciones espaciales medias de 1.06 mmen x y de 1.03 mm en y. Los resultados en funcion de la posición del cristal se muestranen la Figura 5.5.

El siguiente experimento consistió en la aplicación de factores de escalado a los pesospara ponderar la secuencia de los 8 momentos originales. Estos factores van a pasar aser optimizados por un GA con un alfabeto real (lo que se denomina Real-Coded GA).En teoría, esto debería servir para hallar menores valores de DT que los que pudieronobtenerse por selección pura. En efecto, el DT medio se redujo a 0.0097 para la x y 0.0090para la y. Por su parte, el error sistemático medio pasa a ser 0.25 mm en x y 0.21 mm eny. La resolución espacial media es ahora 0.97 mm en x y 0.98 mm en y. Por lo tanto, seha conseguido mejorar la resolución a costa de un mayor error sistemático. Los resultadosse muestran gráficamente en la Figura 5.6.

De manera adicional, se ha llevado a cabo un estudio de la proyección de los 8 momen-tos proporcionados por el ASIC sobre un subespacio de hasta 8 dimensiones. Con esto seha intentado obtener nuevas variables que pudieran dar lugar a menores valores de DT(y mejores estimaciones de la posición) que los logrados con la secuencia de momentosobtenida por selección.

En este caso, el mínimo valor de DT se obtuvo utilizando 7 proyecciones para lacoordenada x (DTx = 0.0090) y 8 para la y (DTy = 0.0083). La Figura 5.7 ilustra laevolución del DT con respecto al número de proyecciones para ambas coordenadas. Laspredicciones de las ANNs proporcionan unos errores sistemáticos medios de 0.21 mm parax y 0.29 mm para y. Las resoluciones espaciales medias obtenidas fueron 0.96 mm para xy 1.04 mm para y. Los resultados para este método aparecen representados en la Figura5.8. La cantidad de proyecciones requeridas es 15, luego harían falta dos ASIC trabajandoen paralelo para implementarlos. Esto no es viable con el setup actual, por lo que esinteresante limitar a 4 proyecciones por coordenada para poder utilizar un solo chip capazde sintetizar 8 momentos. En este caso se observan unos DT ligeramente mayores, unerror medio de 0.29 mm en x y 0.25 mm en y, y unas resoluciones de 1.08 mm en x y 1.02mm en y, valores no muy distantes de los obtenidos con casi el doble de proyecciones. Elresultado de esta prueba se observa en la Figura 5.9.

Dados los buenos resultados del método que aúna escalado y proyección en el capítulo2, se ha procedido a evaluar este método también confiando en obtener una mejora en losresultados. Recordemos que este método combinado consiste en que, además de aplicar los


factores de escalado a todas las variables originales, se procede a añadir nuevas variablesdadas por proyecciones de las 8 variables originales en nuevos subespacios. En concreto,dado que con 7 proyecciones para x y 8 para y se tenían los valores óptimos de DT enel caso de proyección, se ha decidido mantener este número de proyecciones. Por tanto,se ha evaluado una optimización con 8+7 variables para x y 8+8 variables para y. Losvalores de DT resultantes son DTx=0.0082 y DTy=0.0095. Los correspondientes erroressistemáticos medios fueron 0.17 mm para x y 0.18 mm para y. En cuanto a las resolucionesespaciales medias, se obtuvieron unos valores de 1.05 mm para x y 1.03 mm para y. Losresultados se representan en la Figura 5.10.

Finalmente, de la misma forma que en el Capítulo 4, se ha ensayado la capacidadpredictiva de las ANNs para el caso de utilizar un mallado distinto para entrenar y paratestar. Para ello, se ha aprovechado el conjunto de validación, cuyos puntos están tomadosen distintas posiciones a los de entrenamiento y a los de test (ver Figura 5.3). Se hatomado la mejor opción de preprocesado encontrada (escalado y proyección de variablescon 7 proyecciones para x y 8 para y) y se ha procedido a simular las redes sobre elconjunto de validación. El resultado ha sido satisfactorio, con errores bajos y respetandoel mallado 8 × 8 esperado. Los errores sistemáticos obtenidos son 0.22 para x y 0.18 paray. Las resoluciones espaciales son 1.01 mm y 1.06 mm, respectivamente. El resultado semuestra gráficamente en la Figura 5.11.

A modo de comparación se han agrupado los resultados más significativos de las prue-bas realizadas en la Tabla 5.1, junto a la capacidad de predicción de las ANNs. Losresultados corresponden a la aplicación de los métodos al conjunto de test, excepto en laúltima fila, donde se utiliza el mallado de validación. También se ha comparado el númerode momentos a implementar en cada caso. Este valor puede ser determinante a la hora deescoger la mejor solución para la implementación hardware del preprocesado. En el casode no hacer ningún preprocesado tomamos para la predicción los 8 momentos originales.En el caso de selección son necesarios 6 momentos (n = 1, 2, 3, 4, 6, 8). Para el escaladonecesitamos 8+8 variantes escaladas de los momentos originales, para la proyección te-nemos 8+7 proyecciones en el caso óptimo y 4+4 en el caso restringido por los recursosdel ASIC, y para la combinación de escalado y proyección se tienen 8+7+8+8 variablesa implementar.

Tabla 5.1: Comparación de métodos

Método DTx DTy

Error Error Resolución Resolución Número de

sistemático x sistemático y espacial x espacial y momentos a

(mm) (mm) (mm) (mm) implementar

Todas las variables 0.0181 0.0168 0.27 0.22 1.17 1.09 8

Selección 0.0113 0.0108 0.21 0.18 1.06 1.03 6

Escalado 0.0097 0.0090 0.25 0.21 0.97 0.98 16

Proyección 0.0090 00083 0.21 0.29 0.96 1.04 15

Proyección1 0.0092 00093 0.29 0.25 1.08 1.02 8

Escalado + proyección 0.0092 0.0088 0.15 0.17 1.02 1.06 31

Escalado + proyección2 0.0092 0.0088 0.22 0.18 1.01 1.06 31

1 Limitando a 4 proyecciones por coordenada para posibilitar la obtención de los momentos con un solo chip.2 Resultados sobre el mallado 8 × 8 del conjunto de validación.


5.5 Conclusión

A primera vista se aprecia que todos los métodos presentados logran una mejora deresultados frente al hecho de utilizar a ciegas los 8 momentos proporcionados por elcircuito de readout, luego el preprocesado realizado ha sido conveniente.

Los menores valores de error sistemático se obtienen al combinar escalado y proyecciónpero la resolución es aproximadamente la misma que la que se logra con escalado. Engeneral, el objetivo es buscar el error sistemático mínimo en la estimación de la posiciónde impacto en el cristal, pero el incremento en tiempo de computación para la búsquedapuede no compensar la ligera mejora en el resultado.

El uso de proyecciones por sí solas proporciona valores de DT muy bajos pero lacapacidad predictiva de las ANNs a partir de las variables generadas no es muy buenay, además, está sesgada hacia la x. La mejor resolución espacial se consigue utilizandosolamente escalado, lo que proporciona valores medios de resolución < 1 mm en ambos ejes.Está claro que la diferencia entre resoluciones es muy pequeña y se podría considerar quela resolución obtenida por varios de los métodos es esencialmente la misma. En cualquiercaso, las posiciones estimadas cerca del borde del cristal sufren muy poco de efectos deborde y tanto las resoluciones como los valores de error permanecen aproximadamenteconstantes a lo largo del cristal, lo que indica que se ha conseguido una buena correcciónde las no linealidades.

Otro aspecto que puede ser determinante es que un método que implique la creaciónde nuevas proyecciones no se puede evaluar con señales reales, puesto que los valores delos 64 pads solo los podemos conocer sintéticamente. Con la instrumentación disponibleactualmente, no es posible sensar los 64 pads de salida del PMT para poder hacer esteanálisis sobre señales obtenidas en el setup. Por ello, no es posible saber con certitud si losmomentos escogidos serían los mismos sobre señales reales. En cambio con los momentosobtenidos mediante selección, si que podemos hacer este análisis igualmente con señalesreales e incluso comparar los resultados obtenidos con datos sintéticos y reales.

Análogamente al Capítulo 4, se ha realizado un análisis sobre un mallado de datosdiferente al de entrenamiento (en este caso se ha aprovechado el mallado del conjunto devalidación) con resultados satisfactorios, si bien los errores son ligeramente superiores alos proporcionados por el conjunto de test, éstos se encuentran dentro de lo aceptable,respetándose completamente el mallado y, a diferencia de los resultados obtenidos en elCapítulo 4, manteniendo resoluciones espaciales bajas, del orden de 1 mm en ambos ejes.Por otra parte, si recordamos que las resoluciones obtenidas en aquel caso por la lógicade Anger se encontraban en torno a 2 o 3 mm según la posición del cristal, y los erroressistemáticos entre 0.2 mm y 3.3 mm, se puede concluir que el método de preprocesadopresentado es claramente más ventajoso frente a los métodos clásicos.

Es también cierto que no se podría hacer una comparación directa con los resultadosdel Capítulo 4, puesto que el origen de los datos es distinto, así como su tratamiento(entonces se realizó un filtrado agresivo por energía o por posición) y la estructura delfront-end planteada. Los valores de error y resolución obtenidos con preprocesamiento devariables son ligeramente superiores a los obtenidos por la clasificación en bins propuestaentonces, pero el método planteado en el presente Capítulo es mucho más robusto frenteal cambio de mallado. Además, no ha sido necesario realizar ningún filtrado, por lo que sepuede aplicar el método sin conocer a priori la naturaleza del conjunto de datos empleado.


Asimismo, no es necesario conocer la naturaleza del conjunto de datos para aplicar elDT, ya que se trata de un método no paramétrico en el que el número de vecinos máspróximos a hallar para cada punto del conjunto de entrada se reduce a uno. Lo único quese asume es que haya una única variable de salida y una cierta continuidad de la funcióna aproximar (que entradas próximas entre sí produzcan salidas próximas entre sí). Lajustificación teórica del DT como un criterio eficiente para seleccionar variables ya fuedemostrado en [99] y se ha utilizado con éxito en gran variedad de conjuntos de datos.Además, se trata de un método más sencillo que otros estimadores de la varianza del ruidocomo los expuestos en [168, 320]. El presente estudio no es una excepción. Se ha utilizadoel DT como criterio para seleccionar, escalar y proyectar variables obteniendo mejoresresultados que con las variables originales, sobre todo en términos de error sistemático, yse ha simplificado al mismo tiempo el problema. Es obvio que el DT no se puede aplicarde manera factible a todo tipo de problemas. Por ejemplo los que tratan con salidasmultidimensionales, entradas muy ruidosas o un excesivo número de muestras de entradade las que buscar sus vecinas. El uso del DT no garantiza una mejora de los resultados,pero son numerosos los casos registrados en la literatura en los que ayuda.


−20 −10 0 10 20−1

0

1

2

x (mm)

Err

or s

iste

mát

ico

(mm

)

−20 −10 0 10 200.5

1

1.5

2

2.5

x (mm)

Res

oluc

ión

espa

cial

(m

m)

−20 −15 −10 −5 0 5 10 15 20−1

−0.5

0

0.5

1

y (mm)

Err

or s

iste

mát

ico

(mm

)

−20 −15 −10 −5 0 5 10 15 200.5

1

1.5

2

y (mm)

Res

oluc

ión

espa

cial

(m

m)

(a) (b)

x (mm)

y (m

m)

−20 −10 0 10 20

−20

−15

−10

−5

0

5

10

15

20

0

10

20

30

40

50

60

70

(c)

Figura 5.4: Evaluación del comportamiento predictivo de las ANNs en (a) el eje x, (b)el eje y, y (c) en toda la superficie del cristal por medio de un histograma 2-D, para elconjunto de test utilizando las 8 variables originales.


−20 −10 0 10 20−1

−0.5

0

0.5

1

x (mm)

Err

or s

iste

mát

ico

(mm

)

−20 −10 0 10 200.5

1

1.5

2

x (mm)

Res

oluc

ión

espa

cial

(m

m)

−20 −10 0 10 20−1

−0.5

0

0.5

1

y (mm)

Err

or s

iste

mát

ico

(mm

)−20 −10 0 10 20

0.5

1

1.5

2

y (mm)R

esol

ució

n es

paci

al (

mm

)

(a) (b)

x (mm)

y (m

m)

−20 −10 0 10 20

−20

−15

−10

−5

0

5

10

15

20

0

10

20

30

40

50

60

70

80

(c)

Figura 5.5: Evaluación del comportamiento predictivo de las ANNs en (a) el eje x, (b)el eje y, y (c) en toda la superficie del cristal por medio de un histograma 2-D, para elconjunto de test utilizando selección de variables.


−20 −10 0 10 20−0.5

0

0.5

1

x (mm)

Err

or s

iste

mát

ico

(mm

)

−20 −10 0 10 20

0.8

1

1.2

1.4

Res

oluc

ión

espa

cial

(m

m)

−20 −10 0 10 20−1

−0.5

0

0.5

1

y (mm)

Err

or s

iste

mát

ico

(mm

)

−20 −10 0 10 200.5

1

1.5

x (mm)

Res

oluc

ión

espa

cial

(m

m)

(a) (b)

x (mm)

y (m

m)

−20 −10 0 10 20

−20

−15

−10

−5

0

5

10

15

200

10

20

30

40

50

60

70

(c)

Figura 5.6: Evaluación del comportamiento predictivo de las ANNs en (a) el eje x, (b)el eje y, y (c) en toda la superficie del cristal por medio de un histograma 2-D, para elconjunto de test utilizando escalado de variables.


1 2 3 4 5 6 7 88

8.5

9

9.5

10

10.5

11

11.5x 10

−3

Nº Proyecciones

DT

DT

x

DTy

Figura 5.7: Evolución del valor de DTx y DTy en función del número de proyeccionesutilizadas.


−20 −10 0 10 20−0.5

0

0.5

1

x (mm)

Err

or s

iste

mát

ico

(mm

)

−20 −10 0 10 200

0.5

1

1.5

x (mm)

Res

oluc

ión

espa

cial

(m

m)

−20 −10 0 10 20−1

−0.5

0

0.5

1

y (mm)

Err

or s

iste

mát

ico

(mm

)

−20 −10 0 10 200

0.5

1

1.5

2

y (mm)

Res

oluc

ión

espa

cial

(m

m)

(a) (b)

x (mm)

y (m

m)

−20 −10 0 10 20

−20

−15

−10

−5

0

5

10

15

200

10

20

30

40

50

60

70

80

(c)

Figura 5.8: Evaluación del comportamiento predictivo de las ANNs en (a) el eje x, (b)el eje y, y (c) en toda la superficie del cristal por medio de un histograma 2-D, para elconjunto de test utilizando proyección de variables con 7 proyecciones para x y 8 para y.


−20 −15 −10 −5 0 5 10 15 20−1.5

−1

−0.5

0

0.5

1

x (mm)

Err

or s

iste

mát

ico

(mm

)

−20 −15 −10 −5 0 5 10 15 200.5

1

1.5

2

2.5

x (mm)

Res

oluc

ión

espa

cial

(m

m)

−20 −15 −10 −5 0 5 10 15 20−1.5

−1

−0.5

0

0.5

1

y (mm)

Err

or s

iste

mát

ico

(mm

)

−20 −15 −10 −5 0 5 10 15 200

0.5

1

1.5

2

2.5

y (mm)R

esol

ució

n es

paci

al (

mm

)

(a) (b)

x (mm)

y (m

m)

−20 −15 −10 −5 0 5 10 15 20

−20

−15

−10

−5

0

5

10

15

200

10

20

30

40

50

60

70

80

(c)

Figura 5.9: Evaluación del comportamiento predictivo de las ANNs en (a) el eje x, (b)el eje y, y (c) en toda la superficie del cristal por medio de un histograma 2-D, para elconjunto de test utilizando proyección de variables con 4 proyecciones para x y 4 para y.


−20 −10 0 10 20−0.5

0

0.5

x (mm)

Err

or s

iste

mát

ico

(mm

)

−20 −10 0 10 200.5

1

1.5

x (mm)

Res

oluc

ión

espa

cial

(m

m)

−20 −10 0 10 20−0.5

0

0.5

y (mm)

Err

or s

iste

mát

ico

(mm

)

−20 −10 0 10 200.5

1

1.5

2

y (mm)

Res

oluc

ión

espa

cial

(m

m)

(a) (b)

x (mm)

y (m

m)

−20 −10 0 10 20

−20

−15

−10

−5

0

5

10

15

200

10

20

30

40

50

60

70

80

(c)

Figura 5.10: Evaluación del comportamiento predictivo de las ANNs en (a) el eje x, (b)el eje y, y (c) en toda la superficie del cristal por medio de un histograma 2-D, para elconjunto de test utilizando escalado y proyección de variables (7 proyecciones para x y 8para y).


−20 −15 −10 −5 0 5 10 15 20−0.6

−0.4

−0.2

0

0.2

0.4

x (mm)

Err

or s

iste

mát

ico

(mm

)

−20 −15 −10 −5 0 5 10 15 20

0.8

1

1.2

1.4

1.6

x (mm)

Res

oluc

ión

espa

cial

(m

m)

−20 −15 −10 −5 0 5 10 15 200.4

0.6

0.8

1

1.2

1.4

y (mm)

Res

oluc

ión

espa

cial

(m

m)

−20 −15 −10 −5 0 5 10 15 20−1

−0.5

0

0.5

1

y (mm)

Err

or s

iste

mát

ico

(mm

)

(a) (b)

x (mm)

y (m

m)

−20 −15 −10 −5 0 5 10 15 20

−20

−15

−10

−5

0

5

10

15

20 0

10

20

30

40

50

60

(c)

Figura 5.11: Evaluación del comportamiento predictivo de las ANNs en (a) el eje x, (b)el eje y, y (c) en toda la superficie del cristal por medio de un histograma 2-D, para elconjunto de validación (mallado 8 × 8) utilizando escalado y proyección de variables (7proyecciones para x y 8 para y).

Conclusions

This Thesis has successfully served its purpose of showing the usefulness of ANNs and va-riable preprocessing in a variety of scientific disciplines. In particular, we have conducteda pioneering study on how ANNs can be used for function approximation (regression)to tackle two examples of bioengineering problems: the prediction of the concentrationof several types of mycotoxins (toxins produced by fungi) in food cultures according toenvironmental conditions and time of incubation in laboratory conditions and the biascorrection of the detected impact position of photons on the surface of a small PET systemand. Also, variable selection and preprocessing of datasets have been examined in severalsynthetic and real benchmarks to evaluate its advantages over the use of raw, unprocesseddata.

A study on variable selection and data preprocessing has also been contemplated. Wehave reviewed the existing methods of variable selection and introduced a novel criterioncalled Delta Test (DT). This nonparametric noise estimator is based on the continuity ofregression functions and uses a nearest neighbor formulation to estimate the variance ofthe noise at the output of the unknown regression function. By minimizing this criterionwe obtain an optimal set of inputs that can be used afterwards for the prediction withany regression model, such as ANNs. We have developed a global methodology that wasimproved sequentially, modifying the search methods and adding further possibilities likescaling or projection of variables into higher dimensional subspaces.

When using preprocessing, datasets are generally simplified and, consequently, modeltraining times become lower as compared to those of the full sets of variables, whilekeeping similar error performance. In addition to that, the necessary number of nodes ofthe ANNs was drastically reduced, allowing much simpler implementations.

The problem of finding local minima for the variance of the noise due to local searchmethods (TS, FBS) was alleviated by introducing global search methods such as GAs.This enabled us to get closer to the global optimum set of variables for a particularproblem. GAs offer a great variety of tuning options, so they are easily adapted toany dataset. In an effort to improve the search times, we introduced an approximatecalculation of the nearest neighbors of each point of the population, producing satisfactoryreductions of search times.

A fixed variation of the scaling and projection methods was also introduced. Thus,the user can specify the exact number of variables that he/she wants to maintain, andoptimize the DT subject to that constraint. This double optimization was performedusing a multi-objective optimization (NSGA-II).

One of the main objectives of the present work on ANN applications to bioengineeringsystems was to assess the potential ability of these models to predict as accurately aspossible the accumulation of mycotoxins in food.

221

222 CONCLUSIONS

It has been demonstrated that it is possible to build models based on ANNs andRBFNs able to predict the levels of two of the most relevant mycotoxins (ochratoxinA and deoxynivalenol) produced in food-based cultures by fungal strains of Aspergilluscarbonarius and Fusarium culmorum, respectively. The culture media were grape-basedsolid medium for A. carbonarius and barley kernels for F. culmorum. The inputs to thenetworks were temperature, water activity, time, and carbendazim dose for OTA. In thecase of DON, the fourth variable was the inoculum size.

The predictive capacity of models was always better for training datasets than for testdatasets, as expected. The predictive ability of the ANN with a given topology trainedby using 100 epochs and random sub-sampling generally exceeded that obtained usinghold-out validation to perform early-stopping.

The algorithm used to perform the training of the MLP ANNs influences the perfor-mance of the model built but it also depends on whether random sub-sampling of hold-outvalidation is used during training. If hold-out validation is accomplished, the LM algo-rithm provided MLPs of one and two hidden layers with the lowest MSE for the test datasubsets (MSEtest) in the case of OTA. In the case of DON, however, this was true onlyfor single-layer MLP. If random sub-sampling is used, the BR algorithm provided MLPANNs that gave more accurate predictions for OTA than those attained when using theLM or RP algorithms. For DON, this was true only for single-layer MLPs and the RPalgorithm provided lower MSEtest for double-layer perceptrons.

In the study carried out with DON, single-layer perceptrons trained with the most ap-propriated algorithm (BR) using random sub-sampling and 100 epochs showed a forecast-ing ability on test data subsets similar of better than that of the double-layer perceptrons.Nevertheless, this behaviour cannot be generalized because in the case of OTA the BRalgorithm does not produce the lowest MSEtest for double-layer perceptrons within thelimits of the experiment. It may be deduced that generalization of model performance isnot possible as metabolite production is complex and influenced by a number of variablesthat can be higher than the number of inputs considered in the experiments.

RBFNs are a good alternative to MLP ANNs to build mycotoxin prediction modelsbut the number of hidden neurons in the hidden layer must be several times higher thanthe number of hidden neurons in the latter. In the study of OTA forecasting, a RBFNwith 200 nodes provided similar MSE values to those provided by the best single layerMLP with 26 hidden nodes. In the study of DON forecasting, RBFNs with 60-85 hiddennodes provided similar performance to the best, among the tested, MLP ANNs. RBFNsare very popular today and have the advantage that a validation dataset is not needed.The best spread value was 1, which the default value in the Neural Network Toolbox ofMATLAB.

The values of the error parameter estimators (MSE, RMSE, %SEP) in the ANN modelswere lower in the study carried out on OTA than in the study performed on DON. Thismay be due to the different dataset size or dataset splitting ratio, to data distributionwhich seems to be more linear in the study of OTA accumulation or even to the absenceof null values for OTA concentration.

This study constitutes a pioneering approach to examine a broader attempt aimed atexploring the potential ability of ANN to predict the content of the most relevant myco-toxins in food and drinks to preserve consumer health. The results let us be optimistic. Itmay be considered that the initial objective has been fulfilled. Probably these models will

223

be studied more in depth in future and implemented in the field of forecasting metaboliteproduction in microbiological sciences where relationships among variables are complexand usually nonlinear.

Another important application of ANNs presented in this Thesis is the processing ofdata acquired by a PET setup. We have proved that ANNs can be accurate positionestimators in 2D PET applications. ANNs are able to correct the intrinsic positioningerrors that appear at the edge of the PET detector surface that can lead to artifacts inthe reconstructed medical images. ANNs produce a large, uniform FOV in the detectionsurface, with low systematic errors in the whole surface and good spatial resolution. UsingANNs, the resolution at the edges becomes very close to the one obtained at the centerof the scintillator crystal when using the classic Anger logic, which is considered as thebest attainable value.

The amount of necessary data for the analysis has been successfully reduced by usinga resistive readout circuit that produces 4 signals by combining the original 64 outputsignals from the MA-PMT. This complexity reduction drastically reduces the hardwareimplementation costs and the time needed for the calculations without introducing signi-ficative errors.

Furthermore, the systematic error can be arbitrarily reduced by applying event filtering(by energy or position), which converts the function approximation problem in a “virtual”classification problem. A finer grid than the used in the experiments would allow a quasi-continuous function approximation capability of the ANNs, preventing errors due to theseparation of the classes in the 2D plane. Testing in a different grid from the trainingone implies a loss in resolution, but if the number of epochs in the training process iskept low, a successful positioning is achieved, with low systematic error, and overfittingis prevented.

The proposed variable preprocessing methods (or the most “evolved” of them) havebeen applied to the problem of PET positioning introduced in Chapter 4. All the testedpreprocessing methods improve the results obtained by using the whole set of variablesobtained directly from the readout circuit. The best systematic errors are obtained whencombining scaling and projection of variables, but the resolution is approximately the sameas the one obtained by scaling (∼1 mm). In general, the goal is to achieve the lowestsystematic error in the position estimation, but the substantial increase in computationaltime of the most complex methods may not be worthwhile. In every one of the evaluatedcases, the estimated positions near the edge of the crystal (the ones that can cause moretrouble), suffer very little from border effects and both the errors and spatial resolutionsremain approximately constant across the crystal, which means that nonlinearities havebeen successfully corrected.

In addition to that, an improved generalization has been observed when testing ona different grid from the training one, keeping the same errors and resolution values aswhen testing on the original grid of positions. This makes the method based in momentsa more robust approach for bias corrected position estimation than the one based onreadout circuits studied before.

224 CONCLUSIONS

Apéndice A

La reconstrucción de imágenes en PET

A continuación se explican los métodos que se pueden aplicar para la reconstrucción bidi-mensional y tridimensional de imágenes médicas de PET. En concreto se describen ciertosmétodos de obtención de la distribución de la distribución de un radiofármaco medianteel cálculo de sus proyecciones. Comenzaremos con la explicación del formato de los datosde un escáner PET y el modo en que se almacenan y, posteriormente, introduciremos lastécnicas de reconstrucción, tanto 2D como 3D, más habituales. Gran parte del contenidode este apéndice se basa en las explicaciones de Bendriem y Townsend [28].

A.1 La adquisición de datos en PET

En ausencia de eventos de atenuación y scattering, el número de coincidencias detectadasen dos detectores enfrentados, en un tiempo prefijado, es proporcional a la integral

de línea de la concentración del radiotrazador a lo largo de una LOR.

∑

LOR

(eventos) ∝∫

LOR

f(x) dx (A.1)

donde f(x) representa la distribución 3D del radiotrazador. En la práctica, la EcuaciónA.1 es solamente cierta en promedio, debido a la naturaleza estocástica de la emisión depositrones y del proceso de detección de los fotones de aniquilación.

Un modelo más apropiado sería asumir que la suma de eventos a lo largo de una LORes una realización de una distribución aleatoria de acuerdo con una función de distribuciónde probabilidad (FDP). La FDP puede ser conocida o se puede suponer conocida, y laintegral de línea representa la media o esperanza, tal como se indica en la Ecuación A.2.

E

[

∑

LOR

(eventos)

]

= c

∫

LOR

f(x) dx . (A.2)

Se asume que la FDP es, normalmente, una distribución de Poisson.

A.1.0.1 El almacenamiento de datos

Existen dos métodos diferentes de acumular los datos procedentes de un escáner PET.En el primero, y más común, se asigna un vector de gran tamaño en la memoria de

225

226 APÉNDICE A. LA RECONSTRUCCIÓN DE IMÁGENES EN PET

un ordenador, tal que haya un elemento del vector por cada posible LOR que se puedamedir durante el proceso de escaneo. En un principio todos los elementos se inicializana cero. Para cada evento de coincidencia que se registra durante el escaneo, el elementodel vector correspondiente a la LOR en cuestión se incrementa en uno. El resultado esun histograma de las cuentas que se han producido en cada LOR. Cada elemento delvector se denomina bin y representa la suma de eventos producidos a lo largo de unaLOR. En realidad, cada detector no puede tratarse como un punto, sino que tiene unasdimensiones determinadas. Esto da lugar a que entre dos píxeles de detectores opuestos seconstruye un volumen paralelepipédico que puede contener diversas LORs posibles. Todoslos eventos coincidentes detectados dentro de este “tubo” o volumen de respuesta (VOR)se almacenan en un bin del histograma.

En el segundo método, la información de los eventos se almacena en formato de listaen base a cada evento que es detectado. En este modo de lista, cada entrada contieneinformación sobre un evento individual de coincidencia. Los datos del modo lista sonpost-procesados (rebinning), clasificando los eventos en un histograma, una vez que laadquisición se ha completado.

En muchos protocolos de imagen 2D, el formato del histograma puede ser mucho máscompacto que el formato de lista, especialmente cuando el número de cuentas por LORcrece. Sin embargo, en algunos protocolos 3D, el número de LORs y, por consiguiente, eltamaño de los histogramas, es un orden de magnitud mayor que para 2D, conduciendoa histogramas que tienen un número medio de eventos por LOR mucho menor que launidad. En estos casos el modo lista es a menudo más compacto para la adquisición dedatos, aunque los datos deben ser procesados a posteriori para convertirlos en histogra-mas, que son necesarios para aplicar los algoritmos de reconstrucción, como se verá másadelante. Debe tenerse en cuenta que la conversión a histogramas supone la pérdida dealgo de información, ya que los histogramas representan únicamente el número de even-tos que se han agrupado juntos bajo ciertas características comunes. En imagen PET, lacaracterística común que se escoge típicamente es la detección en coincidencia de un parde detectores (o índice de la LOR) si la energía depositada está comprendida en un rangodeterminado. Otra información adicional, como la energía o el orden de ocurrencia, se pier-den durante el proceso de construcción del histograma. A partir de este punto asumiremosque disponer de los datos en formato de histograma es un primer paso indispensable paraemplear los algoritmos de reconstrucción. Un formato útil para los histogramas es asumirque los valores de los bins del histograma corresponden a las integrales de línea a lo largodel objeto. El conjunto de todas las integrales de línea paralelas a una dirección dada eslo que se denomina proyección [83]. Cada proyección proporciona información sobre ladistribución del radiofármaco en el órgano de interés según una determinada dirección.El método empleado por un equipo de PET para almacenar los datos registrados es am-pliamente conocido en medicina nuclear. La simetría axial del sistema de detección haceespecialmente cómodo, desde el punto de vista matemático, almacenar los datos (LORs)en función de sus coordenadas polares, esto es, un radio y un ángulo (r, φ). A la represen-tación de los datos en estas coordenadas se le denomina sinograma. Un sinograma estáconstituido por filas, cada una de las cuales corresponde a una proyección. El nombre delsinograma es debido a que la línea trazada por una fuente puntual en el campo de visióndel escáner corresponde a una sinusoide. Un sinograma también se corresponde con latransformada de Radon de un objeto, descrita por Deans en [79].

A.1. LA ADQUISICIÓN DE DATOS EN PET 227

Objeto: f(x,y)

LOR f

f

x

y

x r

y r

x r

Proyección: p(x , )r f

f

xr

Proyección

Curva senoidaltrazada por un punto

Sinograma: s(x , )r f

Figura A.1: Representación de una proyección de un objeto 2D según un ángulo φ arbi-trario y relación entre la proyección y el sinograma. Cada fila del sinograma correspondea una proyección, y a cada punto (x, y) del objeto le corresponderá una línea senoidal,obtenida a partir de las múltiples LORs que atraviesan dicho punto al variar φ entre [0, π](no se toman ángulos en el rango ]π, 2π] por la simetría del sistema).

Supongamos un caso bidimensional en que existe una distribución f(x, y) de un de-terminado fármaco en un objeto de interés. Una proyección vendrá descrita por

p (xr, φ) =

∫ ∞

−∞

f(x, y) dyr (A.3)

donde (xr, yr) son las coordenadas (x, y) tras experimentar una rotación de un ángulo φacimutal relativo al escáner, y se obtienen como

[

x

y

]

=

[

cosφ − sin φ

sinφ cosφ

][

xr

yr

]

. (A.4)

En la Figura A.1 se muestra la rotación de coordenadas realizada y la relación entrelas proyecciones y el sinograma.

En la vida real no es posible calcular sinogramas con un número infinito de LORs, encambio se tiene un número finito de ellas y, por tanto, un número finito de proyecciones.


y

z

x Objeto: f(x,y,z)

Proyección: p(x ,y , , )r r f q

xr

zryr

f

q

Figura A.2: Representación de una proyección 2D de un objeto 3D según unos ángulos φy θ arbitrarios.

Se denotará como pik la proyección asociada a la distancia axial discretizada xr = i∆xr ycomo φ al ángulo acimutal discretizado φ = k∆φ, siendo i y k números enteros.

El caso de las proyecciones de objetos en 2D se puede extender a 3D de manerasencilla. Ahora la distribución del radiofármaco en el objeto vendrá dada por f(x, y, z) ylas coordenadas rotadas serán (xr, yr, zr). Las proyecciones en PET 3D están compuestaspor proyecciones 2D formadas por un conjunto de integrales de línea paralelas, expresadasen coordenadas cilíndricas, con un determinado ángulo acimutal φ y un ángulo copolar θ,tal como se ilustra en la Figura A.2.

Las integrales de línea en este caso son fácilmente extrapolables de la Ecuación A.3:

p (xr, yr, φ, θ) =

∫ ∞

−∞

f(x, y, z) dzr (A.5)

y la rotación de coordenadas en 3D viene dada por

x

y

z

=

− sin θ − cosφ sin θ cos φ cos θ

cos φ − sinφ sin θ sinφ cos θ

0 cos θ sin θ

xr

yr

zr

. (A.6)

Nótese que para θ = 0 se tiene el caso de 2D visto en la Ecuación A.4.De igual modo que en 2D, en 3D no es posible considerar un número infinito de LORs,

por lo que los parámetros se deben discretizar. Una proyección 2D discreta depende de 4variables y se expresará como pijkl, donde i, j, k y l son números enteros. La discretizaciónde parámetros queda como


f

xr

Figura A.3: Sinograma oblicuo de un objeto esférico, para valores de yr y θ fijados.

xr = i∆xr

yr = j∆yr

φ = k∆φ

θ = l∆θ

(A.7)

A diferencia del modo 2D en que el sinograma era el formato de representación único,en 3D existen dos formatos para almacenar los datos de las proyecciones bidimensionales.Uno es el formato de proyección, representado por proyecciones 2D del objeto según lascoordenadas (xr, yr), tal como se observa en la Figura A.2. El segundo formato es elsinograma oblicuo, en que se proyecta sobre las coordenadas (xr, φ), al igual que en elcaso del sinograma visto en la Figura A.1, salvo que ahora, para cada punto se mantienenconstantes yr y θ y se obtiene una “banda” que abarca un cierto rango de valores de xr,como se aprecia en la Figura A.3.

Los dos formatos representan la misma información, y la elección de uno u otro de-penderá de cuál sea más conveniente para el procesado analítico de los datos

A.1.0.2 El muestreo de datos

Como se ha indicado en la sección anterior, en la realidad es necesario discretizar el númerode LORs que se toman para realizar la reconstrucción de una imagen. Para ello se empleanvalores discretos de las variables (radios y ángulos). Estos valores discretos se obtienenmediante muestreo espacial del FOV del escáner PET.

Para explicar el proceso de muestreo consideremos la configuración de escáner PETmás típica: una superficie cilíndrica formada por anillos de detectores adosados. Estosescáneres tienen procedimientos de muestreo específicos determinados por la disposicióngeométrica de los cristales de centelleo [343]. Supongamos que el radio del cilindro es RD

y la superficie del escáner está subdividida en Nd elementos que se suponen cuadrados, dedimensiones ∆d ×∆d, cada uno de los cuales corresponde a un detector. Si consideramos


Dd2RD xr

Dxr

(a) (b) (c)

Figura A.4: Esquemas de muestreo en una sección transaxial de un escáner PET cilíndrico.Se representan: muestreo en abanico (a), muestreo paralelo (b) y la combinación de ambos(c).

una sección transversal del dicho escáner podemos observar que aparecen dos posiblesmecanismos de muestreo del FOV: un muestreo angular con geometría en abanico (fan-beam) y un muestreo espacial con geometría paralela (parallel-beam). Se pueden observardichos patrones de muestreo en la Figura A.4.

El muestreo en abanico se realiza tomando una serie de rayos equiangulares que partendel centro de un detector y llegan al centro del resto de detectores formando ángulos deπNd

. Sin embargo, el caso más habitual es el muestreo espacial paralelo. En este caso elFOV del escáner se muestrea mediante rayos paralelos, separados una distancia

∆xr = ∆d

√

1 −(

xrRD

)2

(A.8)

siendo ∆d = 2πRD

Nd.

En el modo paralelo se puede hacer la aproximación que la separación es ∆xr ≈ ∆d

cerca de la zona central del escáner (|xr| << RD). En caso contrario, cuando xr seaproxima a RD, la separación de los rayos disminuye y se deben interpolar los datos parahacer esta aproximación, procedimiento que recibe el nombre de corrección de arco.

En la práctica se combinan los dos modos de muestreo en un mismo escáner, teniendoal mismo tiempo muestreo espacial y muestreo angular, y duplicando así la frecuencia demuestreo efectiva.

A.1.1 La reconstrucción de imágenes 2D

En esta Sección se revisarán los métodos existentes para invertir la Ecuación A.1 parareconstruir imágenes de PET 2D. Existen varias maneras de derivar las ecuaciones de PET2D para reconstrucción de imágenes, pero aquí nos centraremos en el método basadoen el teorema de la sección central y en el método de backprojection. De los métodosde reconstrucción de imágenes 2D se puede extrapolar el proceso de reconstrucción deimágenes para PET 3D.


A.1.1.1 El teorema de la sección central

Tanto para PET de 2D como de 3D, la reconstrucción de imágenes tiene su fundamentoteórico en el teorema de la sección central. Para PET 2D recordemos que una proyecciónviene dada, en función de la distribución f(x, y) del radiofármaco, por la Ecuación A.3,y su rotación de coordenadas por la Ecuación A.4.

Un aspecto importante de la imagen PET 2D es que puede aproximarse por un procesolineal espacialmente invariante. Esta propiedad hace posible que se pueda calcular latransformada de Fourier de los datos de la proyección. Siguiendo con la notación de laSección A.1.0.1 se obtiene:

P (vxr , φ) =

∫ ∞

−∞

p(xr, φ)e−2πixrvxr dxr = F1p(xr, φ) , (A.9)

donde F1· se define como la transformada de Fourier 1D con respecto a la primeravariable. Si expandimos el término de la derecha de la igualdad se puede mejorar lainterpretabilidad de la ecuación en relación a las proyecciones paralelas y a la distribucióndel trazador f(x, y):

P (vxr , φ) =

∫ ∞

−∞

p(xr, φ)e−2πixrvxrdxr

=

∫ ∞

−∞

∫ ∞

−∞

f(x, y)e−2πixrvxrdxrdyr

=

∫ ∞

−∞

∫ ∞

−∞

f(x, y)e−2πivxr (x cos φ+y sinφ)dxdy

= F (vxr cosφ, vxr sinφ)

(A.10)

donde

F (vx, vy) =

∫ ∞

−∞

∫ ∞

−∞

f(x, y)e−2πi(vxx+vyy)dxdy = F2f(x, y) , (A.11)

y F2· es la transformada de Fourier 2D respecto a las primeras dos variables.De las Ecuaciones A.10 y A.11 se obtiene que la transformada de Fourier 1D de una

proyección según un ángulo φ equivale a al valor de la transformada de Fourier 2D def(x, y) a lo largo de una línea que pasa por el origen (según el mismo ángulo φ) comoilustra la Figura A.5. Esto se expresa de manera concisa como

P (vxr , φ) = F (vx, vy)|vyr= 0 (A.12)

Esto constituye el teorema de la sección central o teorema de la proyección-sección[172].

El teorema de la sección central en 2D establece la siguiente premisa como suficientey necesaria:

Para determinar la distribución f(x, y), se necesita p(xr, φ) para todo |xr| ≤R y todo φ : 0 ≤ φ < π. Esto es debido a que no hay una correspondenciapunto a punto entre F (vx, vy) y f(x, y), y si P (vxr , φ) es conocido para todo φ,entonces por el teorema de la sección central es posible determinar F (vx, vy)para todo (vx, vy).


f(x,y)

f

x

y

x r

y r

x r

p(x , )rf

F(v ,v )x y

f

P(v, )

x rf

x r

vx r

vy r

vy

vx

proyección

F1

F2

equivalencia

vy r=0

Figura A.5: Ilustración del teorema de la sección central. La línea que pasa por el origende coordenadas de la transformada de Fourier 2D de la distribución f(x, y) con un ánguloφ equivale a la transformada de Fourier 1D de la proyección p(xr, φ).

A.1.1.2 El algoritmo filtered-backprojection

El término backprojection, o retroproyección, se refiere a la operación inversa al proceso deproyección, es decir, asignar un valor de la proyección p(xr, φ) a un elemento de un vectoren el plano xy, que constituye una LOR. La retroproyección b(x, y) de una proyecciónp(xr, φ) se expresa matemáticamente como

b(x, y) =

∫ π

0

p(xr, φ) dφ (A.13)

El conjunto de todas las retroproyecciones necesarias (una por cada punto de la matrizde reconstrucción) para obtener b(x, y) suele ser muy costoso computacionalmente, por loque se han buscado métodos más eficientes para hacerlo. Como al calcular la proyecciónse ha perdido información de la procedencia de los valores proyectados en el plano xy, loque se hace es asignar un valor constante a cada LOR de la matriz de reconstrucción, paracada ángulo φ fijado. Por un corolario del teorema de la sección central, esto equivale aubicar los valores de la transformada de Fourier P (vxr , φ) como elementos de una matrizque representa F (vx, vy). El proceso se repite para cada φ, (0 ≤ φ < π) y con ello se tienela función b(x, y) completa.

Se podría pensar que el resultado de retroproyectar todas las proyecciones por estemétodo y aplicar la transformada de Fourier inversa a F (vx, vy) es directamente la imagenreconstruida. Sin embargo, éste no es el caso debido a que se produce sobremuestreo enel centro de la transformada de Fourier, mientras que en los bordes del FOV existen muypocas muestras. Por ello, es necesario un proceso de filtrado que iguale las contribucionesen todo el FOV. Básicamente, la transformada de Fourier de la imagen retroproyectadadebe ser filtrada por un filtro en forma de “cono” o ponderación radial

v =√

vx2 + vy2 (A.14)


−2−1

01

2

−2

−1

0

1

20

0.5

1

1.5

2

2.5

3

Figura A.6: Filtro de ponderación aplicado a la transformada de Fourier 2D de la dis-tribución del radiotrazador para evitar el sobremuestreo en el centro.

que acentúa los valores en los bordes de la transformada y atenúa los valores en el centrocomo se muestra en la Figura A.6. La operación realizada se resume como

F (vx, vy) = v · B(vx, vy) = v · F2b(x, y) (A.15)

donde B(vx, vy) es el espacio de la transformada de Fourier antes del filtrado con el filtrocónico. Ahora será posible reconstruir f(x, y) de la siguiente manera:

f(x, y) = F−12 v · F2b(x, y) (A.16)

donde F−12 es la transformada de Fourier 2D inversa. El método expuesto, que incluye

retroproyección y filtrado, recibe el nombre de backprojection-filtering (BPF). De igualmodo, se puede ver este filtrado como una convolución en el plano xy entre b(x, y) y larespuesta al impulso del filtro calculada como F−1

2 (v). La desventaja de este método es quela función b(x, y) soporta un rango de salidas mayor que f(x, y) debido a la convolucióncon el término de filtrado. Esto resulta en que se recuperan valores que caen fuera delrango de salidas de f(x, y). Así pues, cualquier procedimiento numérico debe calcularinicialmente b(x,y) utilizando una matriz sustancialmente más grande de lo necesariopara obtener correctamente el resultado final.

Esta desventaja puede evitarse intercambiando las etapas de retroproyección y filtra-do, con lo que se obtiene el ampliamente utilizado método filtered-backprojection (FBP).Mediante este método la imagen se recupera de la siguiente manera:

f(x, y) =

∫ π

o

pF (xr, φ)dφ (A.17)

donde pF (xr, φ) es la proyección filtrada y viene dada por

pF (xr, φ) = F−11 |vxr |F1p(xr, φ) . (A.18)


Unificando las Ecuaciones A.17 y A.18 se tiene

f(x, y) =

∫ π

0

[∫ ∞

−∞

|vxr |P (vxr , φ)e2πixrvxrdvxr

]

dφ . (A.19)

La proyección filtrada puede interpretarse como una pre-corrección antes de realizar latransformada de Fourier para prevenir la aparición del sobremuestreo en la transformadade Fourier 2D de f(x, y). La corrección se realiza mediante un filtro de rampa, |vxr |,formado por una sección del filtro cónico v. Una vez hecha esta corrección, se recuperala imagen por el método de backprojection. Al haber filtrado las proyecciones, el tamañode la matriz de reconstrucción puede ser mucho menor que para BPF para conseguir elmismo nivel de resolución.

La inversión exacta del método BPF no es posible por dos motivos. En primer lugar,en la práctica es necesario un muestreo discreto que, por el teorema de Shannon, imponeun límite en la máxima frecuencia que se puede recuperar sin aliasing : la frecuencia deNyquist vN = 1/(2∆xr). El segundo factor limitante es la presencia de ruido estadístico.Por encima de cierta frecuencia, que depende de la relación señal a ruido (SNR), latransformada de Fourier P (vxr , φ) está dominada por el ruido, y la aplicación del filtrode rampa a frecuencias más altas resulta en la amplificación de este ruido, degradando laSNR de la imagen reconstruida.

Para evitar estos problemas se emplea una ventana de apodización W (vxr) que eliminetoda contribución de frecuencias superiores a una frecuencia de corte predeterminadavc. La elección adecuada de vc viene determinada tanto por la anchura del muestreoespacial ∆xr como de la estadística de la radiación fotónica. En cuanto a las ventanas deapodización existe una gran variedad de posibilidades [206], pero las más populares son lade Hamming y la de Hanning, que atenúan las componentes de alta frecuencia y puedenimponer frecuencias de corte por debajo de la de Nyquist. El efecto final de este filtradopaso bajo es el suavizado de la imagen que elimina muchos de los artefactos presentespero que implica también una pérdida de resolución espacial. Un ejemplo del efecto de laventana de Hanning junto con el filtro de rampa se observa en la figura A.7.

Con el uso de la ventana de apodización, el algoritmo FBP viene dado por

f(x, y) ≈∫ π

0

F−11 W (vxr)|vxr |F1p(xr, φ) (A.20)

Donde la igualdad se ha reemplazado por una aproximación debido a la pérdida decomponentes de alta frecuencia por el uso de la ventana. La Ecuación A.20 resume elmétodo FBP que es el método más utilizado en imagen de PET 2D y en otras técnicas deimagen médica como CT, y está explicado con detalle en diversas publicaciones [151, 172,253]. El paso final es componer imágenes volumétricas, que se realiza utilizando imágenes2D apiladas por planos adyacentes.

A.1.1.3 Métodos iterativos

El algoritmo FBP forma parte de los algoritmos transformados, en los que la imagen escalculada analíticamente a partir de los datos en un solo paso, Otro tipo algoritmos dereconstrucción 2D son los iterativos [264], que tratan de estimar f(x, y) mediante refi-namientos sucesivos en lugar de tratar de invertir directamente la transformada de la


0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

v

Filtro de rampa + HanningFiltro de rampaHanning

Figura A.7: Filtro de rampa en combinación con la ventana de Hanning para atenuar elruido estadístico a altas frecuencias y mejorar así la relación señal a ruido. En este ejemplola frecuencia de corte es vc=0.5, que corresponde a un espaciado mínimo entre muestras∆xr = 1.

imagen. Los algoritmos iterativos pueden requerir muchos ciclos para converger a unasolución aceptable, y cada ciclo conlleva tantas operaciones como el algoritmo FBP. Sinembargo, con los avances en capacidad de computación en los últimos tiempos, el tiem-po de cálculo adicional ha pasado a ser menos significativo. La ventaja de los métodositerativos sobre los analíticos es que pueden tener en cuenta la estructura del ruido enlas observaciones y pueden simular un modelo más realista del sistema. Cabe destacartambién la posible aplicabilidad a PET 3D, ya que los métodos iterativos modelan lavarianza espacial de las medidas fully 3D a través del modelo del sistema, y éste estágobernado por los mismos principios y relaciones estadísticas en 2D y en 3D, por lo queno es necesario un esfuerzo extra para reconstruir imágenes 3D.

Un método iterativo contiene cinco componentes básicos [104]:

1. Un modelo de imagen. Normalmente se trata de una discretización del dominio dela imagen en N elementos, ya sean píxeles (elementos de una imagen 2D) o vóxeles(elementos de una imagen 3D). También se han propuesto elementos esféricos (blobs)con cierto solapamiento [219, 258].

2. Un modelo del sistema que relacione la imagen con los datos. Un elemento Hij delmodelo del sistema H caracteriza el sistema de imagen y representa la probabilidadde que una emisión desde el vóxel (píxel) j sea detectada en la proyección i

pi =N∑

j=1

Hijfj (A.21)


proyección pi

Hij

pixel j Discretización de un objeto

Figura A.8: Ejemplo de discretización de un objeto en píxeles. Se ha destacado en rojoun elemento Hij arbitrario del modelo H.

donde pi es el valor promedio de la i-ésima proyección y fj es la actividad delj-ésimo vóxel. La Ecuación A.21 es fácilmente interpretable observando la FiguraA.8. En la actualidad predominan los modelos de sistema espacialmente invariantescon respuesta simplificada para optimizar la eficiencia computacional. En particularse han realizado estudios con sistemas espacialmente invariantes para mejorar laresolución y corregir errores de posicionamiento en sistemas PET para animalespequeños de alta resolución [111, 189, 284] y PET de cuerpo entero [10].

3. Un modelo para los datos, que relaciona estadísticamente el valor de las medidas consu esperanza. Las medidas de cuentas de fotones detectados suelen seguir distribu-ciones de Poisson. Para M proyecciones, la ley de probabilidad de Poisson indicaque la probabilidad (L) con la que un vector aleatorio (P ) de cuentas de fotones quesiguen una distribución de Poisson, sea igual a la distribución verdadera de cuentasde fotones (p), dado un vector de tasas de emisión f es

L(P = p|f) =

M∏

i=1

p pi

i e−pi

pi!(A.22)

Aunque el modelo de Poisson es adecuado para un punto de vista conceptual dela imagen de PET, una vez se han realizado las correcciones de randoms, scatter yatenuación, los datos ya no siguen una distribución de Poisson. En ese caso se utilizanaproximaciones de modelos de Poisson [39], modelos de Poisson desplazados [366] ymodelos Gaussianos.

4. Un criterio para determinar la mejor imagen. Es una forma de expresar la funciónde coste o función objetivo del algoritmo iterativo. El criterio más empleado es elMaximum Likelihood (ML). Según este criterio, la relación entre probabilidades sebasa en la semejanza entre el objeto f y su estimación f , de manera que maximiceel valor de L(·). El criterio ML tiene las ventajas de tener sesgo nulo y minimizarla varianza a medida que el número de observaciones aumenta. Una importanteconclusión de esto es que a medida que el número de medidas o de proyeccionescrece, la esperanza de la imagen se aproxima a su valor verdadero: E[f ] → ftrue.


5. Un algoritmo que optimice la función de coste. Se ha propuesto una gran variedadde algoritmos en la literatura, desde algoritmos basados en el gradiente [18, 39,249] hasta el popular algoritmo Expectation-Maximization (EM) y una versión deeste último denominada Ordered Subsets Expectation Maximization (OSEM). Elalgoritmo EM, propuesto por Dempster et al. en 1977 [86], es el más utilizadocon diferencia. Este algoritmo ofrece un método numérico para estimar el criterioML, por lo que se suele denominar algoritmo ML-EM. Este algoritmo, desde suintroducción para reconstrucción de imágenes en 1982 por Shepp y Vardi [309], hapermanecido como un estándar en reconstrucción estadística y constituye la basefundamental de muchos otros métodos. Cuando se aplica a PET, el método ML-EMse basa en la maximización de la función objetivo

L(f) =∑

i

[

pi ln

(

∑

j

Hijfj

)

−∑

j

Hijfj

]

(A.23)

en la que los nuevos valores de los píxeles se hallan mediante una simple ecuacióniterativa

f(n+1)j =

f(n)j

∑

i′ Hi′j

∑

i

Hijpi

∑

kHikf(n)k

(A.24)

donde f (n+1)j es la próxima estimación del valor del vóxel j basado en la estimación

actual f (n)j . La estimación inicial f (0)

j se suele tomar como un valor constante paratoda la imagen. A partir de ahí, el algoritmo trata de escoger nuevas estimacionesde la imagen iterativamente basándose en las proyecciones medidas pi. Una pruebade la convergencia del algoritmo se puede encontrar en [257].

A.1.2 La reconstrucción de imágenes 3D

En PET fully 3D se adquieren los datos, no sólo de un plano transversal del FOV del es-cáner sino que se tienen en cuenta LORs que cruzan los planos directos y son registradasen planos oblicuos. La diferencia entre los dos modos de operación son unos delgadosanillos de plomo denominados septas, situados entre cada anillo de detectores y en di-rección perpendicular a los cristales, limitando así el ángulo con que la radiación puedealcanzarlos. La Figura A.9 muestra su comportamiento. Estos anillos en ocasiones sonretráctiles, pudiéndose pasar de modo 2D a 3D y viceversa, en un mismo escáner. Hayque recalcar que ambos modos de operación conducen a imágenes 3D. La operación en3D sirve para incrementar la sensibilidad y así reducir el ruido estadístico asociado a lacuenta de fotones, con lo que se consigue aumentar la relación señal a ruido de la imagenreconstruida.

En los primeros escáneres se evitó el modo fully 3D por varias razones. En primerlugar, las medidas en modo 3D requieren una capacidad de almacenamiento 103 vecesmayor que para 2D. Por consiguiente, la reconstrucción se hace mucho más complejacomputacionalmente. Además, las septas utilizadas en modo 2D ayudan a evitar eventosde fotones que inciden de manera oblicua porque han sufrido scatter en su trayectoria.En la actualidad, estos problemas del modo 3D han sido aliviados por la mejora en lastécnicas de corrección de scatter [263, 264].


PET 2D PET 3D

septa

eje z(dirección axial)

planosdirectos

planoscruzados

planosoblicuos

Figura A.9: Diferencia entre PET en modo 2D y en modo fully 3D. En este caso, para2D se permiten los planos directos y los cruzados mientras que para 3D todos los planosoblicuos están permitidos.

Existen dos diferencias notorias1 entre PET 2D y 3D:

1. Varianza espacial: En PET 3D, el escáner es más sensible a la actividad en elcentro del FOV axial que a la actividad en el borde del FOV. Esto se debe a quemayor cantidad de planos oblicuos se intersectan en el centro del escáner (ver FiguraA.9). Esto causa varianza espacial, que complica el uso de técnicas de reconstrucciónanalíticas.

2. Redundancia de datos: Los datos de PET 3D contienen redundancia por el hechode que, desde un punto de vista analítico, sólo son necesarios los datos de una seccióntransversal del escáner para reconstruir la imagen de una distribución. Al utilizarPET 3D se tiene un conjunto de datos mayor, por lo que para reconstruir el mismovolumen se tienen datos “extra” que consisten en información redundante, que si seusa adecuadamente, puede ayudar a mejorar la SNR.

Los métodos vistos para reconstrucción 2D pueden ser aplicados al problema de re-cuperación de una distribución volumétrica f(x, y, z) siempre que se disponga de las in-tegrales de línea a través de ella restringidas a un único plano (es decir, en modo deadquisición 2D), para posteriormente apilar cada uno de los cortes transversales realiza-dos construyendo una representación tridimensional a partir de todas las f(x, y)|z=cte.

A.1.2.1 El algoritmo 3D-filtered-backprojection

La versión 3D del algoritmo filtered-backprojection (3D-FBP) no es más que la extensióndel algoritmo ya visto para 2D. En este caso se trata de reconstruir la distribución f(x, y, z)mediante la generación de un conjunto de proyecciones 2D paralelas. Haciendo uso de lamisma notación que en la Sección A.1.0.1, asumiremos que la proyección p(xr, yr, φ, θ) esconocida para 0 ≤ φ < π, |θ| ≤ Θ (siendo Θ un ángulo que abarca todas las posibles LOR

1Existen, claro está, otras diferencias al pasar de 2D a 3D, como el incremento del número de coinci-dencias afectadas por scattering, pero asumiremos que se han aplicado las correcciones pertinentes, y quelas ecuaciones que definen la distribución volumétrica del radiotrazador son A.5 y A.6.


contenidas en el FOV del escáner cilíndrico que no se pierden debido a su longitud axial),y también es conocida para cualquier (xr, yr). Esto significa que todas las proyecciones soncompletas (no existe truncamiento). El truncamiento complicaría la reconstrucción porqueel algoritmo FBP está basado en la deconvolución de Fourier y no puede ser aplicado aproyecciones incompletas.

El algoritmo 3D-FBP se basa en el teorema de la sección central para 3D, que consti-tuye una generalización del teorema para 2D. Se define la transformada de Fourier 3D dela imagen como

F (vx, vy, vz) =

∫ ∞

−∞

∫ ∞

−∞

∫ ∞

−∞

f(x, y, z)e−2πi(xvx+yvy+zvz)dxdydz . (A.25)

También se puede definir la transformada de Fourier 2D con respecto a las dos primerascoordenadas de una proyección 2D perpendicular al eje zr(φ, θ) = (cosφ cos θ, sinφ cos θ, sin θ)como

P (vxr , vyr , φ, θ) =

∫ ∞

−∞

∫ ∞

−∞

p(xr, yr, φ, θ)e−2πi(xrvxr +yrvyr )dxrdyr . (A.26)

El teorema de la sección central 3D relaciona la transformada de Fourier de la imageny los datos proyectados como

P (vxr , vyr , vzr) = F (vx, vy, vz)|vzr =0 (A.27)

Esto significa que una proyección 2D de un objeto 3D permite recuperar F (vx, vy, vz)en un plano que contiene el origen y es ortogonal a zr(φ, θ) en el espacio transformado dela imagen 3D.

De manera análoga al caso 2D, para corregir efectos de sobremuestreo se puede utilizarun filtro HC , denominado filtro de Colsher [67], que tiene en cuenta la redundancia de losdatos, y está definido como

HC(vxr , vyr , vzr) =√

v2xr

+ v2yr·H(Θ, ψ) (A.28)

donde H(Θ, ψ) es un factor de normalización definido por

1

H(Θ, ψ)=

∫ +Θlim

−Θlim

2 cos θ√

cos2 ψ − sin2 θdθ =

=

2π, cosψ ≤ sin Θ

4 arcsin(

sinΘcosψ

)

, cosψ > sin Θ

(A.29)

y los ángulos Θlim y ψ vienen dados por

Θlim =

Θ, cosψ > sin Θ

π/2 − ψ, cosψ ≤ sin Θ(A.30)

tan2 ψ =v2yr

cos2 θ

v2xr

+ v2yr

sin2 θ. (A.31)


Las dependencias angulares y radiales están claramente separadas en el filtro de Col-sher (Ecuación A.28). El factor radial viene dado por el módulo de la frecuencia

√

v2xr

+ v2yr

y es similar al filtro de rampa |v| en 2D FBP. Esto resulta en que los algoritmos FBPpara 2D y 3D tienen similares características con respecto al ruido.

Continuando con las analogías con 2D FBP, también se utiliza una ventana de apodizaciónen 3D FBP. La ventana de apodización W (vxr , vyr) tiene el objetivo de limitar la amplifi-cación del ruido producida por el filtro de Colsher. La elección de W vendrá condicionadapor el nivel de ruido y normalmente se determina de forma empírica. También se suelenemplear ventanas de tipo Hamming o Hanning, con una frecuencia de corte apropiada.

Por lo tanto, el algoritmo 3D FBP se resume en los siguientes pasos:

1. Calcular P (vxr , vyr , φ, θ) = F2p(xr, yr, φ, θ) mediante la Ecuación A.26.

2. Multiplicar por el filtro HC y por la ventana W : P F (vxr , vyr , φ, θ) = P (vxr , vyr , φ, θ) ·HC(vxr , vyr , θ) ·W (vxr , vyr).

3. Realizar la transformada de Fourier 2D inversa para obtener una proyección filtrada

pF (vxr , vyr , φ, θ) = F−12 P F (vxr , vyr , φ, θ) =

=

∫ +∞

−∞

∫ +∞

−∞

P F (vxr , vyr , φ, θ)e2πi(xrvxr +yrvyr )dvxrdvyr (A.32)

4. Retroproyección 3D de las proyecciones filtradas:

f(x, y, z) = f(x, y, z) + (cos θ∆θ∆φ)pF (xr, yr, φ, θ) (A.33)

5. Repetir los pasos 1-2 para cada φ : 0 ≤ φ < π

6. Repetir los pasos 1-3 para cada θ : −Θ ≤ θ < Θ

La implementación discreta del algoritmo anterior presenta varias dificultades quedeben ser consideradas [83]. La primera es el resultado de acomodar las proyecciones 2Den matrices de mayores dimensiones, lo que obliga a realizar un zero-padding de las proyec-ciones filtradas P F (vxr , vyr , φ, θ) para evitar posibles artefactos derivados de la convolucióncircular. La segunda consiste en que la discretización del filtro HC debe ser realizada en eldominio espacial y no el frecuencial. Es habitual, por tanto, calcular la transformada deFourier inversa de una versión sobremuestreada en el dominio de la frecuencia para luegollevar a cabo un submuestreo en el dominio espacial y volver a obtener la transformadade Fourier 2D que nos proporcione el filtro HC que será finalmente empleado.

A.1.2.2 El algoritmo 3D-Reprojection

La respuesta de los escáneres PET en realidad no se comporta como espacialmente inva-riante. Esto es consecuencia de la extensión axial del escáner, que conduce a proyeccionestruncadas (ver Figura A.10). En un escáner con configuración en anillo bidimensional,la intensidad observada de una fuente puntual permanecerá aproximadamente constantesin importar la posición de la fuente puntual en el interior del FOV del escáner. No ob-stante, para un escáner cilíndrico tridimensional, aparecerán proyecciones truncadas, y la


Proyección truncada: | |>q Q2

Regiones no medidas debido ala longitud axial del escáner

Datos truncados

Proyección completa: | |<q Q1z

q2q1

Figura A.10: Proyecciones completas frente a proyecciones truncadas en un escáner cilín-drico. La aparición del truncamiento de datos se da para valores de |θ| > Θ.

intensidad observada para una fuente puntual variará según la posición en el FOV del es-cáner, en particular cuando la fuente puntual se mueve a lo largo del eje del cilindro. Parael caso hipotético de un escáner esférico sin truncamiento, con los detectores rodeandopor completo el objeto, la respuesta del escáner sería espacialmente invariante, aunquecontinuaría existiendo redundancia de datos.

Esta naturaleza dependiente de la posición de los datos medidos complica el procesode reconstrucción, ya que existirán regiones del FOV del escáner para las que los eventosdetectados no podrán ser utilizados en el proceso de reconstrucción, y las transformadasde Fourier bidimensionales del algoritmo FBP no podrán ser calculadas con exactitud demanera simple usando FFTs (Fast Fourier Transforms).

El método más utilizado para reconstruir datos truncados de PET 3D es la reproyec-ción 3D (3DRP, del inglés 3D-Reprojection) [174]. Supongamos que Dp es la región delFOV de un escáner cilíndrico que da soporte a un objeto (la zona requerida para que lasproyecciones de un objeto sean completas) y Mp es la región medida por el escáner, queincluye todas las posibles proyecciones incluyendo las truncadas. Cuando Mp no contienela proyección del objeto Dp, la proyección aparece truncada. Por el método 3DRP seobtienen proyecciones 2D “completadas” estimando p(xr, yr, φ, θ) en la región no medida(xr, yr)|(xr, yr) ∈ Dp, (xr, yr) /∈ Mp. Las proyecciones completadas se construyen enparte por datos medidos y en parte por datos sintetizados. Los datos truncados se esti-man calculando integrales de línea de una imagen f2D(x, y, z) reconstruida con θ = 0, esdecir, en modo adquisición 2D. Estas proyecciones son completas y pueden reconstruirseempleando la FBP 2D estándar. En la práctica, las proyecciones 2D se toman variando θen pasos discretos, con lo que se toman proyecciones paralelas para diferentes valores dez. La cantidad de proyecciones que se tomen determinará la calidad final de la imagen.

También es posible restringir el rango del ángulo axial a solamente aquellas proyec-ciones que no son truncadas. Sin embargo, esto no es útil en sistemas PET reales porqueel paciente abarca la totalidad de la longitud axial del escáner.

En definitiva, los pasos de los que consta el algoritmo 3DRP son los siguientes:

1. Extraer los datos 2D del conjunto total de datos, para realizar reconstrucción 2D.


2. Construir un primera estimación f2D(x, y, z) aplicando FBPs 2D a proyeccionesparalelas para cada valor de z discretizado.

3. Para cada proyección (φ, θ), con 0 ≤ φ < π, |θ| ≤ Θ:

• Estimar los datos truncados:

p(xr, yr, φ, θ) =

∫ +∞

−∞

f2D(x, y, z)dzr, (xr, yr)|(xr, yr) ∈ Dp, (xr, yr) /∈Mp(A.34)

• Unir los datos estimados y los medidos. Los pasos siguientes corresponden almétodo 3D FBP.

• Calcular la FFT 2D de la proyección para obtener P (vxr , vyr , φ, θ).

• Multiplicar por el filtro de apodización de Colsher y enventanar: HC(vxr , vyr , θ)·W (vxr , vyr).

• Calcular la FFT 2D inversa para obtener pF (xr, yr, φ, θ).

• Retroproyectar el volumen 3D: f(x, y, z) = f(x, y, z)+(cos θ∆θ∆φ)pF (xr, yr, φ, θ).

A.1.2.3 Métodos de rebinning

El tiempo requerido para reconstruir datos 3D con el algoritmo 3DRP es, al menos, unorden de magnitud superior al tiempo requerido para reconstruir datos 2D adquiridos consepta. Esto es evidente, ya que el número de LORs que participan en la reconstrucción esmucho mayor. La adquisición 3D supone otra desventaja: la memoria de almacenamientonecesaria para albergar esa mayor cantidad de datos.

Los métodos de rebinning tienen por objetivo estimar distribuciones volumétricastransformando sinogramas oblicuos en sinogramas directos tomados a lo largo del ejez

s(xr, φ, z,∆r) ⇒ s2D(xr, φ, z) (A.35)

siendo z =(

r1+r22

)

y ∆r = r1 − r2, donde r1 y r2 son coordenadas axiales de dos anillosen coincidencia. Es decir, que para una LOR oblicua que es detectada por dos anillossituados en z = r1 y z = r2, respectivamente, la LOR procesada por rebinning se asignaa un plano directo situado en la posición axial z =

(

r1+r22

)

, tal como muestra la FiguraA.11.

Los métodos de rebinning, al mismo tiempo que reducen la reconstrucción de las imá-genes a partir de sinogramas directos, también consiguen comprimir los datos de maneraconsiderable. El único punto negativo es que el tipo de problema al que pueden aplicarsedebe ser controlado cuidadosamente. Una SNR óptima se obtiene únicamente cuando elmétodo de rebinning incorpora todos los datos 3D, al igual que para el algoritmo 3DRP.

Existen diversos métodos de rebinning. El más sencillo es el single-slice rebinning(SSRB) [75], que funciona del modo indicado en la Figura A.11. Los nuevos sinogramasse construyen a partir de los sinogramas 3D como

s2D(x, φ, z) =1

2∆rmax(z)

∫ +∆rmax(z)

−∆rmax(z)

s(xr, φ, z,∆r)d∆r (A.36)

A.1. LA ADQUISICIÓN DE DATOS EN PET 243z

z r= 2

z r= 1

Fuente puntualcentrada en el eje

Fuente puntualdescentrada del eje

LOR detectada

LOR tras rebinning

Figura A.11: Comportamiento del algoritmo de rebinning para una fuente puntual cen-trada en el eje del escáner y para una fuente puntual descentrada. A medida que aumentala distancia entre la fuente y el eje también aumenta el error en la LOR reconstruida.

donde ∆rmax(z) es la máxima distancia entre anillos disponible para el plano directosituado en la posición z. El método SSRB sólo funciona bien cuando la distribución deltrazador está próxima al eje del escáner. En estos casos sus resultados son comparablesa los obtenidos con 3DRP [319]. Una gran ventaja del rebinning via SSRB es que puedelograrse de manera on-line con la mayoría de escáneres comerciales, reduciendo tantoel tiempo de procesado como el espacio de almacenamiento necesario, al no tener quealmacenar los sinogramas oblicuos. La desventaja es que la compresión de datos implicacierta pérdida de información sobre la posición pero, a pesar de ello, el rebinning SSRBes, en algunos casos, la única rutina necesaria para un escaneado dinámico 3D.

Se han desarrollado métodos más precisos para superar las limitaciones del SSRB,como el multi-slice rebinning (MSRB) [196]. Este método también es muy rápido y puederealizarse on-line. La precisión y resolución son comparables a las del método 3DRP, perola estabilidad con respecto al ruido es inferior.

Finalmente, se puede destacar el método Fourier rebinning (FORE) [82], que tienebuena precisión y estabilidad para aperturas de hasta 35o [218]. Aunque no puede serimplementado on-line, permite una reducción de un orden de magnitud en el tiempo dereconstrucción frente a 3DRP. El FORE se basa en la obtención de las transformadas deFourier 2D de cada sinograma oblicuo con respecto a φ y xr

S(vxr , k, z,∆r) =

∫ +∞

−∞

dxr

∫ 2π

0

s(xr, φ, z,∆r)e−2πixrvxrdφ , (A.37)

y las posiciones de los sucesivos planos directos se obtienen como

z′ = z − ktan θ

2πvxr

(A.38)

donde k es un valor entero.

Apéndice B

Redes neuronales en MATLAB

En este capítulo se repasarán las principales funciones que pueden utilizarse en MATLABpara modelizar redes neuronales, en concreto utilizando la Neural Network ToolboxTM. Elentorno de programación de MATLAB incluye todas las funciones esenciales para llevara cabo la creación, entrenamiento y test de varios tipos de redes neuronales populares.En las subsiguientes secciones se detallará la sintaxis necesaria para tal propósito. Esnecesario enfatizar que la sintaxis de las funciones de MATLAB varía según la versión dela Toolbox empleada. En este capítulo se empleará la sintaxis correspondiente a la versión6.0.2 de la Toolbox.

B.1 Planteamiento del problema

En primer lugar se deben proporcionar a MATLAB los datos necesarios para la creaciónde la red neuronal. Esto implica construir dos matrices, una de entradas (x) y otra

de salidas (targets, t) de la red. Para el problema típico de la función booleana XOR dedos variables de entrada y una de salida, tendremos

x = [0 1 0 1; 0 0 1 1];

t = [0 1 1 0];

Esto se puede generalizar a problemas de tamaño [Xd×N , Ts×N ] donde N es el númerode muestras, d es el número de variables de entrada, y s el número de variables de salida.

Cuando queremos dividir una matriz en subconjuntos de entrenamiento, validación ytest podemos usar la función dividevec de modo que se generan estos subconjuntos conelección de muestras aleatoria, y cada uno de ellos con porcentaje de muestras especificado.

[trainV,valV,testV] = dividevec(x,t,valPercent,testPercent);

donde valPercent y testPercent se indican en tanto por uno, por ejemplo 0.25 paradedicar un 25 % de las muestras totales. El porcentaje restante se asigna implícitamenteal conjunto de entrenamiento. El resultado son las estructuras trainV, valV y testV quepueden indizarse leyendo sus campos .P y .T, que contienen las variables de entrada ysus targets asignados, respectivamente.

245

246 APÉNDICE B. REDES NEURONALES EN MATLAB

B.2 Creación de una red neuronal

Típicamente se puede emplear una red de tipo feedforward para aproximar un problemade predicción o clasificación. En MATLAB, para crear una red de tipo feedforward se usala función newff:

net = newff(trainV.P,trainV.T,5);

Mediante este comando se ordena a MATLAB que cree una red feedforward de 5 neu-ronas en la capa oculta. Para diseñar una red de más de una capa oculta se puede utilizarun vector con tantos elementos como capas ocultas (por ejemplo, [6 5] representaríaun perceptrón multicapa de dos capas ocultas de 6 y 5 neuronas, respectivamente). Encuanto a las capas de entrada y salida, MATLAB automáticamente toma los tamañosnecesarios en concordancia con los vectores x y t proporcionados. Además, este comandoinicializa los pesos y umbrales iniciales de la red, por lo que directamente se puede pasar aentrenarla. Si se quisieran reinicializar los pesos de nuevo se podría hacer con el comandoinit:

net = init(net);

Por defecto se usan funciones de activación de tipo tangente hiperbólica (tansig) paralas capas ocultas y funciones lineales para la capa de salida. Si se quisiera emplear otrotipo de funciones se debería especificar de manera explícita. Por ejemplo, la instrucción

net = newff(trainV.P,trainV.T,[8 4],’logsig’ ’tansig’ ’purelin’);

crea una red de tipo perceptrón multicapa de 8 neuronas en la primera capa y 4 enla segunda, con función de activación sigmoidal logarítmica en la primera capa oculta,función tangente hiperbólica en la segunda y función lineal en la de salida. En la TablaB.1 se indican las posibles funciones de activación a emplear.

Existe una gran variedad de algoritmos de entrenamiento implementados. Por defectose emplea el algoritmo de Levenberg-Marquardt (trainlm), pero se puede utilizar otro delos muchos posibles, asignando al campo net.trainFcn uno de los valores indicados enla Tabla B.2.

B.3 Entrenamiento de una red neuronal

La red neuronal creada net es una estructura compuesta por diversos campos, que in-cluyen los pesos y umbrales, las funciones de activación de cada capa, la cota máxima deerror permitido, el número de epochs con que se entrenará, etc. Estos campos se puedenmodificar para personalizar el entranemiento. Es posible asignar la tasa de error objetivo(goal) y los epochs a entrenar como

net.trainParam.goal = 0.0001;

net.trainParam.epochs = 200;

B.3. ENTRENAMIENTO DE UNA RED NEURONAL 247

Tabla B.1: Funciones de activación en MATLABFunción Descripción

compet Función de activación competitiva

hardlim Función de activación escalón

hardlims Función de activación escalón simétrica

logsig Función de activación sigmoidal logarítmica

netinv Función de activación inversa

poslin Función de activación lineal positiva

purelin Función de activación lineal

radbas Función de activación de base radial

satlin Función de activación lineal saturante

satlins Función de activación lineal saturante simétrica

softmax Función de activación Softmax

tansig Función de activación tangente hiperbólica

tribas Función de activación de base triangular

El parámetro de error por defecto es el MSE, pero este criterio de parada se puedemodificar. A continuación podemos pasar a entrenar, lo que haremos por medio de lafunción train:

net_tr = train(net,trainV.P,trainV.T);

El entrenamiento se detendrá cuando se alcance el número de epochs especificado, selogre la tasa de error objetivo o cuando se detecte un incremento en el error de vali-dación durante varios epochs lo que equivale a una parada por early-stopping. La funcióntrain automáticamente divide los datos en subconjuntos de entrenamiento, validacióny test (cuya proporción viene especificada en los campos .trainRatio, .valRatio y.testRatio). Si no deseamos que realice esta división podremos especificarlo previamen-te al entrenamiento como

net.divideFcn = ’’;

y, en ese caso, podremos entrenar sin hacer uso del early-stopping.Una vez la red neuronal ha sido entrenada, podemos acceder a sus pesos y umbrales

finales. Por medio del campos net_tr.IW obtenemos los pesos de la capa de entrada, connet_tr.LW accedemos a los de las capas ocultas y a la de salida y con net_tr.b accedemosa los umbrales de todas las capas.

Para entrenar una red de base radial lo podremos hacer mediante la función newrb.Esta función añade neuronas hasta un máximo de N a la red mientras no se satisface latasa de error requerida en el parámetro goal. Por ejemplo

goal = 0.0001;

spread = 1;

N = 50;

net_tr = newrb(trainV.P,trainV.T,goal,spread,N);


Tabla B.2: Algoritmos de entrenamiento en MATLABFunción Descripción

trainb Entrenamiento batch con reglas de entrenamiento para pesos y umbrales

trainbfg BFGS quasi-Newton backpropagation

trainbfgc BFGS quasi-Newton backpropagation para controladores adaptativos dereferencia de modelos ANN

trainbr Regularización bayesiana

trainbuwb Entrenamiento batch no supervisado para pesos y umbrales

trainc Actualización incremental de orden cíclico

traincgb Powell-Beale backpropagation de gradiente conjugado

traincgf Fletcher-Powell backpropagation de gradiente conjugado

traincgp Polak-Ribiére backpropagation de gradiente conjugado

traingd Backpropagation por descenso de gradiente

traingda Backpropagation por descenso de gradiente con reglas de entrenamientoadaptativas

traingdm Backpropagation por descenso de gradiente con momento

traingdx Backpropagation por descenso de gradiente con momento y reglas deentrenamiento adaptativas

trainlm Levenberg-Marquardt backpropagation

trainoss One step secant backpropagation

trainr Entrenamiento incremental de orden aleatorio con funciones de apren-dizaje

trainrp Resilient backpropagation (Rprop)

trains Entrenamiento incremental de orden secuencial con funciones de apren-dizaje

trainscg Backpropagation por descenso de gradiente conjugado y escalado

devolvería una red de base radial con un error objetivo de 0.0001 y un máximo de 50 nodosocultos. El parámetro spread está relacionado con la forma de las funciones base. Cuantomayor sea, más suaves serán las funciones y se necesitarán menos para aproximar unafunción con fluctuaciones lentas, mientras que se requerirá una mayor cantidad de ellaspara aproximar una función con fluctuaciones rápidas. El valor por defecto es spread = 1.

B.4 Simulación de una red neuronal y estimación del

error

La predicción de una red neuronal sobre ciertos datos que no han participado en el entre-namiento se puede obtener por medio de la función sim:

t_pred = sim(net_tr,testV.P);

B.5. CONSTRUCCIÓN Y SIMULACIÓN DE UNA RED DE BASE RADIAL 249

El error (MSE) sobre los datos de test se puede estimar a continuación como

error = mse(t - t_pred);

B.5 Construcción y simulación de una red de base ra-

dial

En Matlab se pueden utilizar las funciones newrb y newrbe para construir RBFs. Laprimera añade neuronas progresivamente a la capa oculta de la RBF hasta un valormáximo especificado. El algoritmo se detendrá si se alcanza un error inferior al umbral deMSE especificado, o bien si se alcanza el número máximo de neuronas en la capa oculta. Lasegunda trata de obtener un error nulo utilizando tantas neuronas ocultas como vectoresde entrada. Este último es, por tanto, un método mucho más costoso computacionalmentecuando se tiene un elevado número de vectores de entrada. Habitualmente se suele permitirun cierto error en las estimaciones y es por ello que la función newrb se utiliza con másfrecuencia.

La sintaxis de la función newrb es la siguiente:

[net,tr] = newrb(P,T,GOAL,SPREAD,MN,DF);

donde P es la matriz de vectores de entrada, T es la matriz de vectores de salida, GOAL esel objetivo de MSE, SPREAD es un parámetro que controla la amplitud de las funcionesRBF, MN es el número máximo permitido de neuronas y DF es el número de neuronas entrecada representación gráfica. Se devuelve la RBF en la variable net y el MSE en tr.

La función newrb crea una red de dos capas. La primera es la capa oculta y contieneun número variable de funciones no lineales de tipo base radial. La segunda contiene unnúmero fijo de funciones de tipo lineal (tantas como salidas). En la capa oculta, se calculala distancia euclídea entre los vectores de entrada y los pesos (centros de las funcionesradiales) mientras que en la capa de salida se realiza una suma ponderada de estos valores.Las dos capas suman sus correspondientes umbrales.

El algoritmo funciona de la siguiente manera: inicialmente la capa oculta no tieneneuronas. Se repiten los siguientes pasos hasta que el error es inferior a GOAL o el númerode neuronas alcanza MN.

1. Se simula la red.

2. Se obtiene el vector de entrada que produce mayor error.

3. Se añade una neurona de base radial a la capa oculta, con sus pesos iguales a dichovector.

4. Se recalculan los pesos de la capa de salida para minimizar el error.

Un ejemplo práctico del uso de newrb es el siguiente:


P = [1 2 3];

T = [2.0 4.1 5.9];

goal = 0.0001;

spread = 1;

MN = 40;

DF = 5;

[net,tr] = newrb(P,T,goal,spread,MN,DF);

Para simular la RBF anterior con un conjunto de test basta con hacer lo siguiente:

test = 1.5;

pred = sim(net,test);

Apéndice C

Algoritmos genéticos

Los algoritmos genéticos [40, 52, 76, 109, 127, 128, 154, 235, 321, 324] son algoritmos debúsqueda basados en la selección natural [74] y en las leyes de la genética. Combinan elprincipio de la supervivencia de las mejores soluciones para un problema, con un intercam-bio de información aleatorio, aunque estructurado, formando un algoritmo de búsquedacapaz de explotar las zonas prometedoras del espacio de soluciones y de escapar de losmínimos locales para converger hacia soluciones casi-óptimas.

Aunque sean aleatorios, los algoritmos genéticos son mucho más potentes que unabúsqueda ciega, ya que explotan información histórica para especular sobre la localizaciónde nuevas zonas del espacio de soluciones con una mayor aptitud que las que están siendoexplotadas actualmente. Sus objetivos fueron claramente definidos por Holland en [154]:

• abstraer y explicar rigurosamente los procesos adaptativos de los sistemas naturales,y

• diseñar sistemas artificiales que mantengan los mecanismos importantes de los sis-temas naturales.

C.1 Definición formal

Formalmente, un algoritmo genético es un algoritmo probabilístico1 que, en un instantet, mantiene una población de cromosomas P t = ıt1, ıt2, . . . , ıtn. Cada uno de estos

cromosomas representa una solución potencial para un problema dado y se encuentracodificado mediante una cadena de bits. Los bits de dicha cadena se deben interpretar deacuerdo a una estructura de datos D para identificar los valores que toman cada una delas características que definen la solución representada por la cadena binaria. La bondadde las soluciones codificadas en cada uno de los cromosomas de la población se mide deacuerdo a una función de aptitud o fitness, f , que asigna a cada cromosoma un grado deaptitud que será mejor cuanto mejor sea el cromosoma. Una vez que los cromosomas hansido evaluados, se seleccionan los más aptos para formar una nueva población P t+1 enla que sólo los cromosomas que han sido seleccionados podrán reproducirse para generarnuevas soluciones para el problema. El proceso de reproducción se lleva a cabo mediante la

1Su comportamiento es no determinista. En dos ejecuciones distintas no tiene por que encontrar lamisma solución.

251

252 APÉNDICE C. ALGORITMOS GENÉTICOS

aplicación de operadores genéticos que pueden ser de mutación o de cruce. Los operadoresde mutación µk son unarios, es decir, se aplican sobre una cadena de bits, y crean unanueva solución aplicando un cambio aleatorio a un cromosoma ya existente en la población:

µk : D → D (C.1)

En cambio, los operadores de cruce χj combinan la información de varios cromosomaspara formar varios descendientes que posiblemente heredarán las mejores cualidades decada uno de sus progenitores:

χj : D × . . .×D → D × . . .×D (C.2)

Esta secuencia de pasos se conoce como generación, y su repetición lleva a que lapoblación converja a una solución que se espera que sea casi-óptima. Los pasos a seguiren un algoritmo genético básico se detallan en el diagrama de la Figura C.1.

Debido a su estrecha relación con la genética natural, se han adoptado diversos tér-minos de ésta para referirse a las estructuras de datos, la información o los procesos en elámbito de los algoritmos genéticos. A cada una de las posibles soluciones para el problemase las conoce como cromosomas. En cada uno de ellos se pueden diferenciar dos partes,la estructura de datos que le da soporte, conocida como genotipo, que en el caso de losalgoritmos genéticos es una cadena de bits, y el fenotipo, que es la información genética ensí, independientemente de la forma en la que codifique. Cada cromosoma está compuestopor unidades mínimas de información llamadas genes que describen las distintas carac-terísticas atómicas de la solución. Los genes relacionados con ciertas características estáncolocados en una posición determinada y cada uno de los estados o valores que puedencontener se llama alelo. El conjunto de posibles soluciones que se almacena en el momentoactual se conoce como población, y cada una de las iteraciones del proceso evolutivo sellama generación.

Desde su introducción, han aparecido multitud de artículos y disertaciones que es-tablecen su aplicabilidad a multitud de áreas como la aproximación funcional, el controlde procesos, la optimización de rutas, horarios, consultas a bases de datos, problemas detransporte, etc. [19, 30, 35, 77, 108, 127, 235, 236, 356]. Las razones para su crecientepopularidad están bien claras: son algoritmos de búsqueda muy poderosos al posibilitarla explotación / exploración de múltiples soluciones, en contraposición con los algoritmosde búsqueda tradicionales, se pueden aplicar a cualquier tipo de problemas, son capacesde manejar restricciones sobre el espacio de soluciones válidas o aceptables, no estánlimitados por la topología del espacio de búsqueda (pueden buscar en espacios no deri-vables, no continuos, multimodales, etc.) y son computacionalmente sencillos y fáciles deimplementar.

Los algoritmos genéticos son altamente configurables. Sus múltiples grados de libertadpermiten ajustar el proceso de búsqueda a las necesidades de cada problema, pero si nose controlan adecuadamente puede ser que no se llegue a encontrar una solución acepta-ble. Para resolver un problema particular hay que estudiar detalladamente cómo se va aimplementar cada una de las siguientes componentes del algoritmo:

• la codificación usada para representar las posibles soluciones,

• la creación de la población inicial,

C.2. CODIFICACIÓN DE LAS SOLUCIONES 253

• el diseño de la función de evaluación,

• el proceso de reproducción,

• el proceso de selección,

• el valor de los parámetros (probabilidades de aplicación de operadores y tamaño dela población), y

• el criterio de parada.

A continuación se discute sobre la forma adecuada de fijar cada uno de los componentesanteriores.

C.2 Codificación de las soluciones

Cada cromosoma de la población representa una posible solución al problema codificadacomo una cadena de bits. Esta representación tiene la desventaja de que para problemasque involucren estructuras de datos complejas habrá que construir un codificador paratransformar una de estas estructuras en una cadena de bits y un decodificador que puedaconstruir una estructura compleja a partir de los bits almacenados en un cromosoma. Sinembargo, una vez que las soluciones están representadas como cadenas de bits, puedenser manipuladas mediante operadores de cruce y mutación genéricos que actúen a nivelde bit o grupo de bits.

La forma de codificar las soluciones determinará de forma decisiva el comportamientodel algoritmo [78, 235, 244]. Se debe escoger una representación fácil de manejar y querepresente a las soluciones de la manera más natural, evitando, en la medida de la posi-ble, representaciones con combinaciones de bits que representen soluciones no válidas oinviables para el problema. De esta forma se simplifica el proceso de búsqueda, ya que elresultado de cualquier operador genético que aplique cambios aleatorios sobre los cromo-somas generará soluciones válidas. En el caso de que este tipo de representación no seaposible será necesaria la inclusión de mecanismos para detectar las soluciones inviables ymanejarlas de forma especial en el algoritmo.

C.3 Creación de la población inicial

La población inicial se puede generar de forma aleatoria o mediante el uso de algunastécnicas heurísticas, de forma que los cromosomas de la primera generación estén razo-nablemente bien colocados en el espacio de búsqueda. Desde el punto de vista teórico,cualquier inicialización nos llevaría a encontrar una solución óptima en un tiempo infinitoo una solución casi-óptima en un tiempo razonable, pero lo cierto es que con una buenainicialización se pueden ahorrar bastantes generaciones en el proceso de búsqueda y sepuede disminuir el tamaño de la población, obteniéndose la solución final con un menorcoste de computación y de tiempo [289].

Sin embargo, el uso de técnicas heurísticas debe aplicarse con cuidado en la generaciónde la población inicial. Si la población de la que parte el algoritmo no es lo suficientemente

254 APÉNDICE C. ALGORITMOS GENÉTICOS !" ! "#$%&'()%* +,-.('/%*

t ← 0

!"#! $# %&'$#()*+ )+)()#$ P t

,-#$.#! P t

/0" (.1%$" $# !"#$ $%" #& '()(#(2

0)

+&

t ← t + 1

3"$"(()&+#! P t4&1#+5& $&0 (!&1&0&1#0 160 #%4&0 5" P t−1

7"%!&5.()! P t

,-#$.#! P t

8"-&$-"! "$ (!&1&0&1# 160 #%4& 5" P t

"#$! !01 #$%&'()*& %+,-)(.& /01(.&

Figura C.1: Diagrama de flujo de un algoritmo genético.

C.4. LA FUNCIÓN DE EVALUACIÓN 255

diversa, el proceso de búsqueda puede terminar ofreciendo como solución final el óptimolocal más cercano a la población de partida.

C.4 La función de evaluación

La construcción de una función f(ıtj) de evaluación de la aptitud de los individuos ıtj es unade las tareas de mayor importancia cuando se está diseñando un algoritmo genético para unproblema determinado. Su diseño exige conocimiento del problema que se está abordandopara poder así asignar un grado de aptitud a los distintos cromosomas dependiendo de lacalidad de la solución que estén codificando de forma que, tras su evaluación, el algoritmogenético pueda discernir qué cromosomas son los mejores de la población o cuáles codificansoluciones no válidas o inviables. Las soluciones inviables deben ser detectadas y, en caso deque existan, se les debe asignar una aptitud peor que la de cualquier solución válida, perono demasiado mala2, o el cromosoma no tendría prácticamente ninguna probabilidad desupervivencia en la siguiente generación, ya que las siguientes generaciones se construyenbasándose en el principio de supervivencia de los más aptos.

C.5 El proceso de reproducción

El objetivo en la fase de reproducción del algoritmo genético es obtener una nuevapoblación P t+1 a partir de la población actual P t. Para llevarlo a cabo, el primer pa-so consiste en crear el subconjunto de cromosomas de la población actual que se van areproducir para generar la nueva población, subconjunto que llamaremos a partir de ahoraconjunto de progenitores y que denotaremos como P t

χ.La creación del conjunto P t

χ se realiza mediante un proceso de Bernoulli [153] con ηensayos, uno por cada cromosoma de la población, y probabilidad de éxito pχ ∈ (0, 1] iguala la probabilidad de cruce del algoritmo3. Una vez formado el conjunto de progenitores, lareproducción de éstos se realiza mediante la aplicación de operadores genéticos de crucea cromosomas seleccionados aleatoriamente de este conjunto hasta completar una nuevageneración P t+1 de η cromosomas.

Tras crear la nueva población, se pasa a la etapa de mutación, en la que cada cromo-soma sufrirá una mutación con una probabilidad pµ. La selección de los cromosomas quevan a ser mutados se realiza de forma análoga a la selección del conjunto de progenitores.En este caso se realizará un proceso de Bernoulli con η ensayos y probabilidad de éxitoo mutación pµ

4. Los cromosomas que sean seleccionados en esta etapa serán mutadosmediante la aplicación de operadores de mutación.

2A menudo interesa que una solución no válida forme parte de la población, al menos durante algunasgeneraciones, ya que la mayoría de las veces las soluciones óptimas se encuentran en los extremos delespacio de búsqueda, rodeadas de soluciones no válidas [291]. Mediante un cruce o mutación de estassoluciones no válidas es posible que obtengamos una muy buena solución al problema.

3El valor para la probabilidad de cruce pχ suele estar comprendido entre 0.5 y 0.8, aunque podríatomar otro rango de valores dependiendo del problema que se quiera resolver y del tipo de búsqueda quese quiera realizar. Un valor alto de este parámetro favorecerá una búsqueda local o en profundidad.

4El valor de pµ suele estar comprendido típicamente entre 0.05 y 0.1.


(a) (b)

Figura C.2: Operador de cruce clásico con (a) un punto de cruce y (b) dos puntos decruce.

C.5.1 Operadores genéticos

Los operadores genéticos son los que realmente realizan la búsqueda de soluciones para elproblema, llevando a cabo dos tareas de importancia:

• Proponer soluciones basadas en las ya existentes para realizar una explotación dela información histórica encontrada durante el proceso de búsqueda. El operador decruce se encarga de esta labor.

• Proponer soluciones completamente nuevas para facilitar la exploración de zonasnuevas en busca del óptimo global. El operador de mutación logra este objetivo.

C.5.1.1 El operador de cruce

El operador de cruce clásico realiza un intercambio de segmentos entre dos progenitorestal como se muestra en la Figura C.2 (a). El punto de cruce se escoge aleatoriamentecada vez que se aplica el operador. Hay versiones de este operador que usan varios puntosde cruce. La más común es la que utiliza dos puntos de cruce. Los dos puntos se escogenaleatoriamente y se intercambian segmentos alternativamente como muestra la Figura C.2(b).

C.5.1.2 El operador de mutación

El operador de mutación clásico realiza una modificación en el cromosoma de una formatotalmente aleatoria, provocando un resultado del todo imprevisible. Mediante el uso deeste tipo de operadores se mantiene la diversidad en la población y se facilita el escape demínimos locales. Se suele aplicar con una probabilidad pµ bastante pequeña para que elproceso de búsqueda no se convierta en una búsqueda ciega. La mutación se lleva a cabo

C.5. EL PROCESO DE REPRODUCCIÓN 257

Figura C.3: Operador de mutación clásico a nivel de bit.

seleccionando aleatoriamente un bit (gen) del cromosoma y cambiándole el valor (de 0 a1 o de 1 a 0) como se indica en la Figura C.3.

C.5.2 El proceso de selección

En este paso del algoritmo se aplica el principio de la selección natural. Los cromosomasmás aptos de la población actual tendrán más posibilidades de pasar a la siguiente gene-ración que otros con menos cualidades. La esperanza matemática del número de copiasque obtendrá cada cromosoma en la siguiente generación debe ser directamente propor-cional a su aptitud. De esta forma, se consigue que las zonas del espacio de búsqueda másprometedoras mantengan a sus representantes en la población para que puedan seguirexplotándose en próximas generaciones.

La forma de realizar el muestreo debe ser aleatoria, de forma que se garantice queun cromosoma siempre va a poder sobrevivir, aunque sea con una probabilidad muypequeña. Es posible que cromosomas con mala aptitud generen buenas soluciones al mutaro cruzarse con otros, por lo que no deben descartarse automáticamente.

Una de las formas más populares de llevar a cabo el proceso de selección es el métodode la ruleta. Este método asigna a cada cromosoma una probabilidad de ser seleccionadodirectamente proporcional a su aptitud. Con estas probabilidades se construye una ruedade ruleta en la que habrá una ranura para cada uno de los cromosomas de la población.La ranura asociada a un cromosoma tendrá una anchura directamente proporcional a suaptitud. Una vez construida la ruleta, se tiran η bolas y se selecciona una copia del cromo-soma en cuya ranura acabe cada una de las bolas. Los cromosomas con ranuras más anchastendrán mayor probabilidad de ser seleccionados y los cromosomas poco aptos, aunquecon una probabilidad muy pequeña, siempre tienen alguna posibilidad de supervivencia.

Aunque el método de la ruleta es el más extendido, existen otras posibilidades pararealizar el proceso de selección [22, 46, 77]. Por ejemplo, el modelo elitista fuerza lapreservación del mejor cromosoma en la siguiente generación. Con este modelo se aseguraque la mejor solución encontrada hasta el momento no desaparezca de la población porcasualidades del azar, aunque se aumenta la presión selectiva del algoritmo.

El modelo del valor esperado selecciona determinísticamente el número de copias espe-radas de cada cromosoma para formar la siguiente generación. Con este modelo se pierdecompletamente la aleatoriedad del proceso de selección y, si no se controla la diversidad dela población mediante una probabilidad de mutación alta, el algoritmo puede convergerinmediatamente al primer óptimo local que se encuentre. Otro posible modelo es el llama-do modelo elitista del valor esperado, en el que se combinan los dos modelos anteriores y,por último, el modelo crowding, en el que cada nuevo cromosoma reemplaza al cromosomade la población actual que más se le parezca.


C.5.3 El criterio de parada

El criterio de parada decide cuándo se debe dar por concluida la búsqueda de soluciones.Un buen criterio de parada debe estudiar la evolución de la población y detectar cuándoésta converge hacia una solución. Una vez alcanzado este estado, no tiene sentido continuarla búsqueda, ya que no se va a mejorar la aptitud de la población y, por tanto, es elmomento adecuado para detener el proceso y ofrecer como solución el cromosoma o elconjunto de cromosomas más apto encontrado.

Las formas más usadas para detener la ejecución de un algoritmo genético son:

• se alcanza el número máximo prefijado de generaciones o

• se registran n generaciones seguidas sin ninguna mejora en el mejor cromosoma.

Bibliografía

[1] http://www.cs.umd.edu/mount/ANN/.

[2] http://www.cse.ogi.edu/∼ericwan/data.html.

[3] http://www.cis.hut.fi/projects/tsp/index.php?page= timeseries.

[4] http://www.stat.duke.edu/∼mw/data-sets/ts_data/darwin.slp.

[5] http://archive.ics.uci.edu/ml/data sets/Housing.

[6] http://lib.stat.cmu.edu/data sets/tecator.

[7] K.S. Al-Sultan and M.A. Al-Fawzan. A tabu search Hooke and Jeeves algorithmfor unconstrained optimization. Eur. J. Oper. Res., 103(1):198–208, 1997.

[8] E. Alba, F. Luna, and A.J. Nebro. Advances in parallel heterogeneous geneticalgorithms for continuous optimization. Int. J. Appl. Math. Comput. Sci., 14:317–333, 2004.

[9] E. Alba and M. Tomassini. Parallelism and evolutionary algorithms. IEEE Trans.Evol. Comput., 6(5):443–462, 2002.

[10] A.M. Alessio, P.E. Kinahan, and T. Lewellen. Modeling and incorporation of systemresponse functions in 3-D whole body PET. IEEE Trans. Med. Imag., 25(7):828–837, 2006.

[11] R.J. Aliaga. Estimación de posición 2d mediante redes neuronales en detectores deradiación gamma para PET. Master’s thesis, Universidad Politécnica de Valencia,Valencia, Spain, September 2005.

[12] R.J. Aliaga, J.D. Martínez, R. Gadea, A. Sebastiá, J.M. Benlloch, F. Sánchez,N. Pavón, and Ch.W. Lerche. Corrected position estimation in PET detectormodules with multi-anode PMTs using neural networks. IEEE Trans. Nucl. Sci.,53(3):776–783, 2006.

[13] D. Anderson and G. McNeil. Artificial neural networks technology. Technical report,Data & Analysis Center for Software, 1992.

[14] H. Anger. Scintillation camera. Rev. Sci. Instrum., 29(1):27–33, 1958.

[15] M. Anthony and N. Biggs. Computational Learning Theory. Cambridge UniversityPress, Cambridge, UK, 1992.

259

260 BIBLIOGRAFÍA

[16] R.W. Arnold, G. Subramanian, J.G. McAfee, R.J. Blair, and F.D. Thomas. Com-parison of Tc-99m complexes for renal imaging. J. Nucl. Med., 16:357–367, 1975.

[17] S. Arya, D.M. Mount, N.S. Netanyahu, R. Silverman, and A.Y. Wu. An optimalalgorithm for approximate nearest neighbor searching fixed dimensions. Journal ofthe Assoc. Comput. Mach. (JACM), 45(6):891–923, 1998.

[18] O. Axelsson. Iterative solution methods. Cambridge University Press, Cambridge,UK, 3rd edition, 1996.

[19] T. Bäck. Evolutionary Algorithms in Theory and Practice. Oxford University Press,New York, 1995.

[20] D.L. Bailey and S.R. Meikle. A convolution-subtraction scatter correction methodfor 3D PET. Phys. Med. Biol., 39:412–424, 1994.

[21] G.Y. Baillet, I.G. Mena, and J.H. Kuperus. Simultaneous technetium-99m-MIBIangiography and myocardial perfusion imaging. J. Nucl. Med., 30(1):38–44, 1989.

[22] J.E. Baker. Reducing bias and inefficiency in the selection algorithm. In Proceedingsof ICGA, pages 14–21, Hillsdale, NJ, USA, 1987. L. Erlbaum Associates Inc.

[23] R. Battiti. Using mutual information for selecting features in supervised neural netlearning. IEEE Trans. Neural Networks, 50:537–550, 1994.

[24] S. Becker and Y. Le Cun. Improving the convergence of back-propagation learningwith second order methods. In G.E. Hinton, T.J. Sejnowski, and D.S. Touretzky,editors, Proceedings of the 1988 Connectionist Models Summer School, pages 29–37.Morgan Kaufmann, San Mateo, CA, 1988.

[25] N. Bellí, S. Marín, V. Sanchis, and A.J. Ramos. Influence of water activity andtemperature on growth of isolates of Aspergillus section Nigri obtained from grapes.Int. J. Food Microbiol., 96(1):19–27, 2004.

[26] N. Bellí, S. Marin, V. Sanchis, and A.J. Ramos. Impact of fungicides on Aspergilluscarbonarius growth and ochratoxin A production on synthetic grape-like mediumand on grapes. Food Addit. Contam. Part A, 23(10):1021–1029, 2006.

[27] R. Bellman. Adaptive Control Processes: A Guided Tour. Princeton UniversityPress, 1961.

[28] B. Bendriem and D.W. Townsend. The theory and practice of 3D PET. KluwerAcademic, 1998.

[29] B. Bendriem, R. Trebossen, V. Froulin, and A. Syrota. A PET scatter correctionusing simultaneous acquisitions with low and high lower energy methods. In IEEEMedical Imaging Conference Record, volume 3, pages 1779–1783, 1993.

[30] K. Bennet, M.C. Ferris, and Y.E. Ioannidis. A genetic algorithm for database queryoptimization. In R. Belew and L.B. Booker, editors, Proceedings of the FourthInternational Conference on Genetic Algorithms, ICGA’91, pages 400–407. Morgan-Kaufmann, San Mateo, CA, 1991.

BIBLIOGRAFÍA 261

[31] R.V. Bhat, Y. Ramakrishna, S.R. Beedu, and K.L. Munshi. Outbreak of tri-chothecene mycotoxicosis associated with consumption of mould-damaged wheatproducts in Kashmir Valley, India. Lancet, 333(8628):35–37, 1989.

[32] C.M. Bishop. Neural Networks for Pattern Recognition. Oxford University Press,New York, NY, 1995.

[33] C.M. Bishop and M.E. Tipping. Bayesian regression and classification. Adv. inLearning Theory: Methods, Models and Applications, 190:267–285, 2003.

[34] G.S. Bondy and C.L. Armstrong. Cytotoxicity of Nephrotoxic Fungal Toxins toKidney-derived LLC-PK 1 and OK Cell Lines. Cell Biol. Toxicol., 14(5):323–332,1998.

[35] L.B. Booker. Intelligent Behavior as an Adaption to the Task Environment. PhDthesis, University of Michigan, 1982.

[36] K. Boone, D. Barber, and B. Brown. Imaging with electricity: report of the Europeanconcerted action on impedance tomography. J. Med. Eng. Tech., 21(6):201–232,1997.

[37] C.J. Borkowski and M.K. Kopp. Some applications and properties of one- andtwo-dimensional position-sensitive proportional counters. IEEE Trans. Nucl. Sci.,17(3):340–349, 1970.

[38] B. Boser, I. Guyon, and V.N. Vapnik. A training algorithm for optimal marginclassifiers. In Fifth Annual Workshop on Computational Learning Theory, pages144–152. Morgan Kaufmann, San Mateo, CA, 1992.

[39] C.A. Bouman and K. Sauer. A unified approach to statistical tomography usingcoordinate descent optimization. IEEE Trans. Imag. Process., 5:480–492, 1996.

[40] D.G. Bounds. New optimization methods from physics and biology. Nature, 329:215–219, 1987.

[41] G.E.P. Box, G.M. Jenkins, and G.C. Reinsel. Time Series Analysis: Forecasting andControl. Prentice-Hall, Englewood Cliffs, NJ, 3rd edition, 1994.

[42] J. Brandao. A tabu search algorithm for the open vehicle routing problem. Eur. J.Oper. Res., 157(3):552–564, 2004.

[43] L. Breiman. Heuristics of instability and stabilization in model selection. Ann.Stat., 24:2350–2383, 1996.

[44] L. Breiman, J.H. Friedman, R.A. Olshen, and C.J. Stone. Classification and Re-gression Trees. Wadsworth and Brooks, Pacific Grove, CA, 1984.

[45] L. Breiman and P. Spector. Submodel selection and evaluation in regression: TheX-random case. Int. Stat. Rev., 60:291–319, 1992.

[46] A. Brindle. Genetic Algorithms for Function Optimization. PhD thesis, Universityof Alberta, Edmonton, 1981.

262 BIBLIOGRAFÍA

[47] P.J. Brockwell and R.A. Davis. Introduction to Time Series and Forecasting.Springer, Berlin, 2nd edition, 2002.

[48] A.M. Bronstein, M.M. Bronstein, M. Zibulevsky, and Y.Y. Zeevi. Optimal nonlinearline-of-flight estimation in positron emission tomography. IEEE Trans. Nucl Sci.,50(3):421–426, 2003.

[49] D.S. Broomhead and D. Lowe. Multivariable functional interpolation and adaptivenetworks. Complex systems, 2:321–355, 1988.

[50] G.L. Brownell and W.H. Sweet. Localization of brain tumors with positron emitters.Nucleonics, 11(11):40–45, 1953.

[51] A.E. Bryson Jr. and Y.C. Ho. Applied Optimal Control. Blaisdell, 1969. (RevisedPrinting, 1975, Hemisphere Publishing, Washington, DC).

[52] B.P. Buckles and F.E. Petry. Genetic Algorithms. Electronica Books Ltd., Middle-sex, UK, 1993.

[53] B. Caner, M. Kitapcl, M. Unlü, G. Erbengi, T. Calikoglu, T. Gögüs, and C. Bekdik.Technetium-99m-MIBI uptake in benign and malignant bone lesions: a comparativestudy with technetium-99m-MDP. J. Nucl. Med., 33(3):319–324, 1992.

[54] E. Cantu-Paz. Markov chain of parallel genetic algorithms. IEEE. Trans. Evol.Comput., 4:216–226, 2000.

[55] R. Caruana. Algorithms and applications for multitask learning. In Proceedings ofthe Thirteenth International Conference on Machine Learning, Bari, Italy, 1996.

[56] M. Casdagli. Nonlinear prediction of chaotic time series. Physica D, 35:335–356,1989.

[57] M.E. Casey and R.A. Nutt. A multicrystal two-dimensional BGO detector systemfor positron emission tomography. IEEE Trans. Nucl. Sci., 33:460–463, 1986.

[58] B. Cassen, L. Curtis, C. Reed, and R. Libby. Instrumentation for 131I use in medicalstudies. Nucleonics, 9(1):46–50, 1951.

[59] U.K. Chakraborty, K. Deb, and M. Chakraborty. Analysis of selection algorithms:A Markov chain approach. Evol. Comput., 4(2):133–167, 1996.

[60] K.Y. Chen and C.H. Wang. A hybrid SARIMA and support vector machines inforecasting the production values of the machinery industry in Taiwan. ExpertSyst. Appl., 32(1):254–264, 2007.

[61] Y. Chen, B. Yang, and J. Dong. Time-series prediction using a local linear waveletneural network. Neurocomputing, 69(4-6):449–465, 2006.

[62] S.R. Cherry, Y. Shao, M.P. Tornai, S. Siegel, A.R. Ricci, and M.E. Phelps. Collectionof scintillation light from small BGO crystals. IEEE Trans. Nucl. Sci., 42(4):1058–1063, 1995.

BIBLIOGRAFÍA 263

[63] S.R. Cherry, J.A. Sorenson, and M.E. Phelps. Physics in Nuclear Medicine. Saun-ders, Philadelphia, PA, 3rd edition, 2003.

[64] Y.H. Chung, Y. Choi, T.Y. Song, J.H. Jung, G. Cho, Y.S. Choe, K.-H. Lee, S.E.Kim, and B.-T. Kim. Evaluation of maximum-likelihood position estimation withPoisson and Gaussian noise models in a small gamma camera. IEEE Trans. Nucl.Sci., 51(1):101–104, 2004.

[65] D. Clément, R. Frei, J.-F. Loude, and C. Morel. Development of a 3d positionsensitive scintillation detector using neural networks. In Proc. of the IEEE Med.Imag. Conf., Toronto, November 1998.

[66] M.P. Clements, P.H. Franses, and N.R. Swanson. Forecasting economic and financialtime-series with non-linear models. Int. J. Forecasting, 20(2):169–183, 2004.

[67] J.G. Colsher. Fully three-dimensional positron emission tomography. Phys. Med.Biol., 25:103–115, 1980.

[68] European Commission. Commission Regulation no. 123 / 2005 of 26 January 2005amending Regulation 466 / 2001 as regards ochratoxin A. Official J. Eur. Union,pages 3–5, 2005.

[69] C. Cortes and V.N. Vapnik. Support vector networks. Machine Learning, 20:273–297, 1995.

[70] T. Cover and J. Thomas. Elements of Information Theory. Wiley, New York, 1991.

[71] T.M. Cover. Geometrical and statistical properties of systems of linear inequalitieswith applications in pattern recognition. IEEE Trans. Electron. Comput., 14:326–334, 1965.

[72] T.M. Cover and P.E. Hart. Nearest neighbor pattern classification. IEEE Trans.Inform. Theory, IT-13:21–27, 1967.

[73] M.W. Craven and J.W. Shavlik. Learning to represent codons: A challenge problemfor constructive induction. In Proceedings of the Thirteenth International JointConference on Artificial Intelligence, pages 1319–1324, Chambery, France, 1993.Morgan Kaufmann.

[74] C. Darwin. The Origin of Species by means of Natural Selection. The ModernLibrary, London, 1859.

[75] M.E. Daube-Witherspoon and G. Muehllehner. Treatment of axial data in threedimensional PET. J. Nucl. Med., 28(11):1717–1724, 1987.

[76] L. Davis (editor). Handbook of Genetic Algorithms. Van Nostrand Reinhold, NewYork, 1991.

[77] K.A. De Jong. An analysis of the behavior of a class of genetic adaptive systems.PhD thesis, University of Michigan, 1975.

264 BIBLIOGRAFÍA

[78] K.A. De Jong. Evolutionary computation: Recent developments and open issues.In Proc. of ICECIA96, pages 7–17, 1996.

[79] S.R. Deans. The Radon transform and some of its applications. Wiley, New York,1983.

[80] K. Deb, S. Agrawal, A. Pratap, and T. Meyarivan. A fast elitist non-dominatedsorting genetic algorithm for multi-objective optimization: NSGA-II. In Lect. Notes.Comput. Sci., volume 1917, pages 849–858. Springer, 2000.

[81] Kalyanmoy Deb. Multi-Objective Optimization Using Evolutionary Algorithms. Wi-ley, Chichester, UK, 2001.

[82] M. Defrise, A. Geissbuhler, and D.W. Townsend. Performance study of 3D recon-struction algorithms for PET. Phys. Med. Biol., 39(3):305–320, 1994.

[83] M. Defrise and P.E. Kinahan. The Theory and Practice of 3D PET, chapter Dataacquisition and image reconstruction for 3D PET, pages 11–50. Kluwer, Dordrecht,The Netherlands, 1998.

[84] M. DellÁmico and M. Trubian. Applying tabu search to the job-shop schedulingproblem. Ann. Oper. Res., 41(1-4):231–252, 1993.

[85] S. Delorme, R. Frei, C. Joseph, J.-F. Loude, and C. Morel. Use of a neural networkto exploit light division in a triangular scintillating crystal. Nucl. Instr. Meth. A,373:111–118, 1996.

[86] A. Dempster, N. Laird, and D. Rubin. Maximum likelihood from incomplete datavia the em algorithm. J. Royal Stat. Soc., 39:1–38, 1977.

[87] P.A. Devijver and J. Kittler. Pattern Recognition: A Statistical Approach. Prentice-Hall, Englewood Cliffs, NJ, 1982.

[88] L. Devroye and L. Györfi. Distribution-free exponential bound on the l1 error ofpartitioning estimates of a regression function. In F. Konecny, J. Mogyoródi, andW. Wertz, editors, Proc. of the 4th Pannonian Symp. Mathematical Statistics, pages67–76, Budapest, Hungary, 1983. Akadémiai Kiadó.

[89] L. Devroye, L. Györfi, and G. Lugosi. A Probabilistic Theory of Pattern Recognition.Springer-Verlag, New York, 1996.

[90] D. DeWitt, R.S. Miyaoka, X. Li, C. Lockhart, T.K. Lewellen, and S. Hauck. Designof an FPGA based algorithm for real-time solutions of statistics-based positioning.In IEEE Nucl. Sci. Symp. Conf. Record, pages 5029–5035, 2008.

[91] K.I. Diamantaras and S.Y. Kung. Principal Component Neural Networks. Wiley,New York, 1996.

[92] J.P. Felix D’Mello, A.M.C Macdonald, D. Postel, W.T.P. Dijksma, A. Dujardin, andC.M. Placinta. Pesticide use and mycotoxin production in fusarium and aspergillusphytopathogens. J. Plant Pathol., 104(8):741–751, 1998.

BIBLIOGRAFÍA 265

[93] R.O. Duda and P.E. Hart. Pattern Classification and Scene Analysis. Wiley, NewYork, 1973.

[94] R.O. Duda, P.E. Hart, and D.G. Stork. Pattern Classification. John Wiley andSons, New York, 2nd edition, 2001.

[95] B. Efron. The Jackknife, the Bootstrap and Other Resampling Plans. SIAM,Philadelphia, PA, 1982.

[96] B. Efron, T. Hastie, I. Johnstone, and R. Tibshirani. Least angle regression. Ann.Stat., 32(2):407–451, 2004.

[97] B. Efron and R. Tibshirani. An Introduction to the Bootstrap. Chapman and Hall,1993.

[98] B. Efron and R.J. Tibshirani. Improvements on cross-validation: the .632+ boot-strap method. J. Am. Statist. Assoc., 92:548–560, 1997.

[99] E. Eirola, E. Liitiäinen, A. Lendasse, F. Corona, and M. Verleysen. Using the deltatest for variable selection. In Proc. of the European Symposium on Artificial NeuralNetworks, ESANN 2008, pages 25–30, Bruges, Belgium, April 2008.

[100] L. Eriksson, E. Johansson, N. Kettaneh-Wold, and S. Wold. Multi-and megavariatedata analysis: principles and applications. Umetrics Academy, Umeå, Sweden, 2001.

[101] L.J. Eshelman and J.D. Schaffer. Real-coded genetic algorithms and intervalschemata. In L. Darrell Whitley, editor, Foundation of Genetic Algorithms 2, pages187–202. Morgan-Kauffman Publishers, Inc., 1993.

[102] A. Esnoz, P.M. Periago, R. Conesa, and A. Palop. Application of artificial neuralnetworks to describe the combined effect of pH and NaCl on the heat resistance ofBacillus stearothermophilus. Int. J. Food Microbiol., 106(2):153–158, 2006.

[103] U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth. From data mining to knowledgediscovery in databases. AI Magazine, 17(3):24–26, 1996.

[104] J.A. Fessler. Penalized weighted least squares image reconstruction for positronemission tomography. IEEE Trans. Med. Imag., 13(2):290–300, 1994.

[105] D. Fisher. Knowledge acquisition via incremental conceptual clustering. MachineLearning, 2(2):139–172, 1987.

[106] N. Flann and T. Dietterich. Selecting appropriate representations for learning fromexamples. In Proceedings of the Fifth National Conference on Artificial Intelligence,pages 460–466. Morgan Kaufmann, Philadelphia, PA, 1986.

[107] S.O. Flyckt and C. Marmonier. Photomultiplier tubes. Principles and applications.Photonis, Brive, France, 1st edition, 2002.

[108] D.B. Fogel. Evolutionary Computation: Toward a New Philosophy of Machine In-telligence. IEEE Press, Piscataway, NJ, 1995.

266 BIBLIOGRAFÍA

[109] S. Forrest. Genetic algorithms - principles of natural selection applied to computa-tion. Science, 261(5123):872–878, 1993.

[110] D. François, F. Rossi, V. Wertz, and M. Verleysen. Resampling methods forparameter-free and robust feature selection with mutual information. Neurocom-puting, 70:1276–1288, 2007.

[111] T. Frese, N.C. Rouze, C.A. Bouman, K. Sauer, and G.D. Hutchins. Quantitativecomparison of FBP, EM, and Bayesian reconstruction algorithms for the IndyPETscanner. IEEE Trans. Med. Imag., 22:258–276, 2003.

[112] J.H. Friedman, J.L. Bentley, and R.A. Finkel. An algorithm for finding best matchesin logarithmic expected time. ACM Trans. Math. Software (TOMS), 3(3):209–226,1977.

[113] K. Fukunaga. Introduction to Statistical Pattern Recognition. Academic Press, NewYork, 1972.

[114] D. Gagnon, N. Pouliot, L. Laperrière, M. Therrien, and P. Olivier. Maximum likeli-hood positioning in the scintillation camera using depth of interaction. IEEE Trans.Med. Imag., 12(1):101–107, 1993.

[115] S.I. Gallant. Neural Network Learning and Expert Systems. MIT Press, Cambridge,MA, 1993.

[116] R.M. García-Gimeno, C. Hervás-Martinez, and M.I. de Silóniz. Improving artificialneural networks with a pruning methodology and genetic algorithms for their appli-cation in microbial growth prediction in food. Int. J. Food Microbiol., 72(1-2):19–30,2002.

[117] R.M. García-Gimeno, C. Hervás-Martinez, E. Sanz-Tapia, and G. Zurera-Cosano.Estimation of microbial growth parameters by means of artificial neural networks.Food Sci. Technol. Int., 8(2):73, 2002.

[118] R.M. García-Gimeno, C. Hervás-Martinez, R. Rodríguez-Pérez, and G. Zurera-Cosano. Modelling the growth of Leuconostoc mesenteroides by artificial neuralnetworks. Int. J. Food Microbiol., 105(3):317–332, 2005.

[119] G. D. Garson. Interpreting neural-network connection weights. AI expert, 6(4):46–51, 1991.

[120] P. Geladi and B.R. Kowalski. Partial least-squares regression: a tutorial. Anal.Chim. Acta, 185:1–17, 1986.

[121] O. Glasser. Wilhelm Conrad Röntgen and the Early History of the Roentgen Rays.Charles C. Thomas, Springfield, IL, 1934.

[122] F. Glover. Tabu Search - Part I. ORSA J. Comput., 1(3):190–206, 1989.

[123] F. Glover. Tabu Search - Part II. ORSA J. Comput., 2(1):4–32, 1990.

BIBLIOGRAFÍA 267

[124] F. Glover. Parametric tabu-search for mixed integer programs. Comput. Oper. Res.,33(9):2449–2494, 2006.

[125] F. Glover and M. Laguna. Tabu search. Kluwer, Norwell, MA, 1997.

[126] A.T.C. Goh. Back-propagation neural networks for modeling complex systems.Artif. Intell. Eng., 9(3):143–151, 1995.

[127] D.E. Goldberg. Genetic algorithms in search, optimization and machine learning.Addison Wesley, Boston, MA, 1989.

[128] D.E. Goldberg. Genetic and evolutionary algorithms come of age. Comm. ACM,37(3):113–119, 1994.

[129] A. Gorban, B. Kegl, D. Wunsch, and A. Zinovyev. Principal manifolds for datavisualisation and dimension reduction. In LNCSE, volume 58, Springer Verlag,Berlin - Heidelberg, 2007.

[130] R.L. Gorsuch. Factor Analysis. Lawrence Erlbaum, Hillsdale, NJ, 1983.

[131] J.J. Grefenstette. Parallel adaptive algorithms for function optimization. Techni-cal Report TCGA CS-81-19, Department of Engineering Mechanics, University ofAlabama, Vanderbilt University, 1981.

[132] S. Grootoonk, T.J. Spinks, T. Jones, C. Michel, and A. Bol. Correction for scatterusing a dual energy window technique with a tomograph operating without septa.In IEEE Medical Imaging Conference Record, volume 2, pages 1569–1573, 1992.

[133] A. Guillén, H. Pomares, J. González, I. Rojas, L.J. Herrera, O. Valenzuela, andA. Prieto. Parallel multiobjective memetic RBFNNs design and feature selectionfor function approximation problems. Neurocomputing, 72(16–18):3541–3555, 2009.

[134] A. Guillén, I. Rojas, G. Rubio, H. Pomares, L.J. Herrera, and J. González. A newinterface for MPI in MATLAB and its application over a genetic algorithm. InProceedings of the European Symposium on Time Series Prediction, ESTSP 2008,pages 37–46, 2008.

[135] A. Guillén, D. Sovilj, F. Mateo, I. Rojas, and A. Lendasse. Minimising the deltatest for variable selection in regression problems. Int. J. High Performance SystemsArchitecture, 1(4):269–281, 2009.

[136] I. Guyon and A. Elisseeff. An introduction to variable and feature selection. J.Machine Learning Res., 3:1157–1182, 2003.

[137] I. Guyon, S. Gunn, M. Nikravesh, and A. Zadeh. Feature extraction: Foundationsand applications (Studies in fuzziness and soft computing). Springer-Verlag, NewYork, Secaucus, NJ, 2006.

[138] M.T. Hagan and M. Menhaj. Training feed-forward networks with the Marquardtalgorithm. IEEE Trans. Neural Networks, 5(6):989–993, 1994.

268 BIBLIOGRAFÍA

[139] M.N. Hajmeer, I.A. Basheer, and Y.M. Najjar. Computational neural networks forpredictive microbiology II. Application to microbial growth. Int. J. Food Microbiol.,34(1):51–66, 1997.

[140] J.V. Hansen and R.D. Nelson. Forecasting and recombining time-series componentsby using neural networks. J. Oper. Res. Soc., 54(3):307–317, 2003.

[141] J. Hao. Input selection using mutual information - applications to time series predic-tion. M.s. thesis, Dept. of Computer Science and Engineering, Helsinki Universityof Technology, 2005.

[142] P.V. Harper, K.A. Lathrop, D. Charleston, and R. Beck. Optimization of scanningmethod using Tc99m. Nucleonics, 22(1):50–54, 1964.

[143] T. Hastie and W. Stuetzle. Principal curves. J. Am. Stat. Assoc., 84:502–516, 1989.

[144] S. Haykin. Adaptive Filter Theory. Prentice-Hall, Englewood Cliffs, NJ, 1996.

[145] S. Haykin. Neural networks: a comprehensive foundation. Prentice-Hall, EnglewoodCliffs, NJ, 2nd edition, 1999.

[146] D.O. Hebb. The Organisation of Behaviour, A Neuropsychological Theory. JohnWiley, New York, 1949.

[147] A.R. Hedar and M. Fukushima. Tabu search directed by direct search methods fornonlinear global optimization. Eur. J. Oper. Res., 170(2):329–349, April 2006.

[148] W.R. Hedee and E.R. Ritenour. Medical Imaging Physics. Wiley-Liss Inc., NewYork, 4th edition, 2002.

[149] I.S. Helland. On the structure of partial least squares regression. Commun. Stat.Simul. Comput., 17(2):581–607, 1988.

[150] R. Herbrich, T. Graepel, and C. Campbell. Bayes point machines: Estimating thebayes point in kernel space. In IJCAI Workshop SVMs, pages 23–27, 1999.

[151] G.T. Herman. Image reconstruction from projections: The fundamentals of comput-erized tomography. Computer Science and Applied Mathematics Series. AcademicPress, New York, 1980.

[152] V. Herrero, R.J. Colom, R. Gadea, J. Espinosa, J.M. Monzó, R. Esteve, A. Se-bastiá, Ch.W. Lerche, and J.M. Benlloch. PESIC: An integrated front-end for PETapplications. IEEE Trans. Nucl. Sci., 55(1):27–33, 2008.

[153] W.W. Hines and D.C. Montgomery. Probability and Statistics in Engineering andManagement Science. John Wiley and Sons, New York, 3rd edition, 1990.

[154] J.J. Holland. Adaptation in natural and artificial systems. University of MichiganPress, 1975.

BIBLIOGRAFÍA 269

[155] R. Hope, D. Aldred, and N. Magan. Comparison of environmental profiles forgrowth and deoxynivalenol production by Fusarium culmorum and F. graminearumon wheat grain. Lett. Appl. Microbiol., 40(4):295–300, 2005.

[156] J.J. Hopfield. Neural networks and physical systems with emergent collective com-putational abilities. In Proceedings of the National Academy of Sciences, pages2554–2558. National Academy of Sciences, 1982.

[157] K. Hornik, M. Stinchcombe, and H. White. Multilayer feedforward networks areuniversal approximators. Neural Networks, 2:359–366, 1989.

[158] G.N. Hounsfield. Computerized transverse axial scanning (tomography). Part I:description of system. Part II: clinical applications. Br. J. Radiol., 46:1016–1022,1973.

[159] G.-B. Huang, Q.-Y. Zhu, and C.-K. Siew. Extreme learning machine: A new learningscheme of feedforward networks. Neurocomputing, 70:489–501, 2006.

[160] L. Hunter and T. Klein. Finding relevant biomolecular features. In Proceedingsof the First International Conference on Intelligent Systems for Molecular Biology,pages 190–197, Bethesda, MD, 1993. AAAI Press.

[161] H.B. Hwarng. Insights into neural network forecasting time series corresponding toARMA(p,q) structures. Omega, 29:273–289, 2001.

[162] IARC (The International Agency for Research on Cancer). Monographs on Evalua-tion of Carcinogenic Risks to Humans. Some Naturally Occurring Substances: FoodItems and Constituents, Heterocyclic Aromatic Amines and Mycotoxins, volume 56.International Agency for Research on Cancer, Lyon, France, 1993. p. 489.

[163] H. Ishibuchi, T. Yoshida, and T. Murata. Balance between genetic search and localsearch in memetic algorithms for multiobjective permutation flowshop scheduling.IEEE Trans. Evol. Comput., 7:204–223, 2003.

[164] A. Jain and A.M. Kumar. Hybrid neural network models for hydrologic time seriesforecasting. Appl. Soft Comput., 7(2):585–592, 2007.

[165] JECFA (Joint Food and Agriculture Organization of the United Nations / WorldHealth Organization Expert Committee on Food Additives). Safety evaluation ofcertain mycotoxins in food. WHO Food Additives Series 47, FAO Food and NutritionPaper 74, 2001.

[166] Y. Ji, J. Hao, N. Reyhani, and A. Lendasse. Direct and recursive prediction oftime series using mutual information selection. In Proc. of the International Work-Conference on Artificial Neural Networks, IWANN 2005, pages 8–10. Springer, 2005.

[167] I.T. Jolliffe. Principal Component Analysis. Springer-Verlag, New York, NY, 1986.

[168] A.J. Jones. New tools in non-linear modelling and prediction. Comput. Manag.Sci., 1(2):109–149, 2004.

270 BIBLIOGRAFÍA

[169] J. Joung, R.S. Miyaoka, S.G. Kohlmyer, and T.K. Lewellen. Implementation ofML based positioning algorithms for scintillation cameras. IEEE Trans. Nucl. Sci.,47(3):1104–1111, 2000.

[170] J. Joung, R.S. Miyaoka, S.G. Kohlmyer, and T.K. Lewellen. Investigation of bias-free positioning estimators for the scintillation cameras. IEEE Trans. Nucl. Sci.,48(3):715–719, 2001.

[171] J. Joung, R.S. Miyaoka, and T.K. Lewellen. CMiCE: A high resolution animal PETusing continuous LSO with a statistics based positioning scheme. Nucl. Instrum. &Meth. A, 489(1-3):584–589, 2002.

[172] A.C. Kak and M. Slaney. Principles of Computerized Tomographic Imaging. IEEEPress, New York, 1988.

[173] M. Kearns and U. Vazirani. Introduction to Computational Learning Theory. MITPress, Cambridge, MA, 1994.

[174] P.E. Kinahan and J.G. Rogers. Analytic 3D image reconstruction using all detectedevents. IEEE Trans. Nucl. Sci., 36:964–968, 1989.

[175] Hamamatsu Photonics K.K. Photomultiplier tubes. Basics and applications. Hama-matsu K.K., 2nd edition, 1999.

[176] Hamamatsu Photonics K.K. H8500 Technical Data Sheet, 2006.

[177] G.F. Knoll. Radiation Detection and Measurement. John Wiley and Sons, NewYork, 1989.

[178] V. Kodogiannis and A. Lolis. Forecasting financial time series using neural networkand fuzzy system-based techniques. Neural Comput. Appl., 11(2):90–102, 2002.

[179] R. Kohavi. A study of cross-validation and bootstrap for accuracy estimation andmodel selection. In International Joint Conference on Artificial Intelligence, (IJ-CAI), volume 14, pages 1137–1145, 1995.

[180] R. Kohavi and G.H. John. Wrappers for feature subset selection. Artif. Intell.,97(1-2):273–324, 1997.

[181] T. Kohonen. Self-organized formation of topologically correct feature maps. Biol.Cybern., 43:59–69, 1982.

[182] T. Koskela, M. Varsta, J. Heikkonen, and K. Kaski. Recurrent SOM with locallinear models in time series prediction. In 6th European Symposium on ArtificialNeural Networks, pages 167–172. D-facto Publications, 1998.

[183] A.H. Kramer and A. Sangiovanni-Vicentelli. Efficient parallel learning algorithmsfor neural networks. Adv. Neural Inf. Proc. Sys., 1:40–48, 1989.

[184] A. Kraskov, H. Stögbauer, and P. Grassberger. Estimating mutual information.Phys. Rev., 69(6):066138, 2004.

BIBLIOGRAFÍA 271

[185] P. Langley and H.A. Simon. Applications of machine learning and rule induction.Comm. ACM, 38(11):54–64, 1995.

[186] T. Lea, K. Steien, and C. Stormer. Mechanism of ochratoxin A-induced immuno-suppresion. Mycopathology, 107:153–159, 1989.

[187] Y. LeCun, J.S. Denker, and S.A. Solla. Optimal brain damage. Adv. Neural Inf.Proc. Sys., 2:598–605, 1990.

[188] C.C. Lee, Y.C. Chiang, C.Y. Shih, and C.L. Tsai. Noisy time series prediction usingm-estimator based robust radial basis function neural networks with growing andpruning techniques. Expert Syst. Appl., 36(3P1):4717–4724, 2009.

[189] K. Lee, P.E. Kinahan, J.A. Fessler, R.S. Miyaoka, M. Janes, and T.K. Lewellen.Pragmatic fully 3D image reconstruction for the MiCES mouse imaging PET scan-ner. Phys. Med. Biol., 49(19):4563–4578, 2004.

[190] S.L. Leong, A.D. Hocking, and E.S. Scott. Effect of temperature and water activ-ity on growth and ochratoxin A production by Australian Aspergillus carbonariusand A. niger isolates on a simulated grape juice medium. Int. J. Food Microbiol.,110(3):209–216, 2006.

[191] Ch.W. Lerche, J.M. Benlloch, F. Sánchez, N. Pavón, B. Escat, E.N. Giménez,M. Fernández, I. Torres, M. Giménez, A. Sebastiá, and J.D. Martínez. Depthof γ-ray interaction within continuous crystals from the width of its scintillationlight-distribution. IEEE Trans. Nucl. Sci., 52(3):560–572, 2005.

[192] Ch.W. Lerche, V. Herrero-Bosch, N. Ferrando-Jódar, R. Gadea-Gironés, F. Sánchez-Martínez, and F. J Mora-Más. Efficient readout electronics for multi-anode photo-multiplier. In Proceedings of SPIE, volume 7805, page 78050V, 2010.

[193] Ch.W. Lerche, V. Herrero-Bosch, M. Spaggiari, F. Mateo-Jiménez, J.M. Monzó-Ferrer, R.J. Colom-Palero, and F. Mora-Mas. Fast circuit topology for spatial signaldistribution analysis. In Real Time Conference (RT), 2010 17th IEEE-NPSS, pages1–8, May 2010.

[194] C.W. Lerche, M. Döring, A. Ros, V. Herrero, R. Gadea, R.J Aliaga, R. Colom,F. Mateo, JM Monzó, N. Ferrando, et al. Depth of interaction detection for γ-rayimaging. Nucl. Instr. Meth. A, 600(3):624–634, 2009.

[195] K. Levenberg. A method for the solution of certain non-linear problems in leastsquares. T. Quart. Appl. Math., 2:1634–1641, 1944.

[196] R.M. Lewitt, G. Muehllehner, and J.S. Karp. Three-dimensional image reconstruc-tion for PET by multi-slice rebinning and axial image filtering. Phys. Med. Biol.,39(3):321–339, 1994.

[197] E. Liitiäinen, F. Corona, and A. Lendasse. Nearest neighbor distributions andnoise variance estimation. In Proc. of the European Symposium on Artificial NeuralNetworks, ESANN 2007, pages 67–72, Bruges, Belgium, April 2007.

272 BIBLIOGRAFÍA

[198] E. Liitiäinen, F. Corona, and A. Lendasse. On nonparametric residual varianceestimation. Neural Proc. Lett., 28(3):155–167, 2008.

[199] T. Ling, T.K. Lewellen, and R.S. Miyaoka. Depth of interaction decoding of acontinuous crystal detector module. Phys. Med. Biol, 52:2213–2228, 2007.

[200] Y. Liu, H.T. Loh, and S.B. Tor. Comparison of extreme learning machine withsupport vector machine for text classification. Innovations in Applied ArtificialIntelligence, pages 390–399, 2005.

[201] A. Llorens, R. Mateo, M.J. Hinojo, A. Logrieco, and M. Jiménez. Influence ofthe interactions among ecological variables in the characterization of zearalenoneproducing isolates of Fusarium spp. Syst. Appl. Microbiol., 27:253–260, 2004.

[202] A. Llorens, R. Mateo, M.J. Hinojo, F.M. Valle-Algarra, and M. Jiménez. Influenceof environmental factors on the biosynthesis of type B trichothecenes by isolates ofFusarium spp. from Spanish crops. Int. J. Food Microbiol., 94(1):43–54, 2004.

[203] W. Lou and S. Nakai. Application of artificial neural networks for predicting thethermal inactivation of bacteria: a combined effect of temperature, pH and wateractivity. Food Res. Int., 34(7):573–579, 2001.

[204] W. Lou and S. Nakai. Artificial neural network-based predictive model for bac-terial growth in a simulated medium of modified-atmosphere-packed cooked meatproducts. J. Agric. Food Chem., 49(4):1799–1804, 2001.

[205] F. Lund and J.C. Frisvad. Penicillium verrucosum in wheat and barley indicatespresence of ochratoxin a. J. Appl. Microbiol., 95(5):1117–1123, 2003.

[206] R.G. Lyons. Understanding Digital Signal Processing. Pearson Education Inc.,Upper Saddle River, New Jersey, 2nd edition, 2001.

[207] D.J.C. MacKay. Bayesian interpolation. Neural Comput., 4(3):415–447, 1992.

[208] D.J.C. MacKay. A practical bayesian framework for backpropagation networks.Neural Comput., 4(3):448–472, 1992.

[209] N. Magan. Fungi in extreme environments. Environmental and Microbial Relation-ships, 4:85–103, 2007.

[210] N. Magan, A. Medina, and D. Aldred. Possible climate-change effects on mycotoxincontamination of food crops pre-and postharvest. Plant Pathology, 60(1):150–163,2011.

[211] P. Mansfield and P. Morris. NMR imaging in biomedicine. Academic Press, NewYork, 1982.

[212] A.H. Mantawy, S.A. Soliman, and M.E. El-Hawary. A new tabu search algorithm forthe long-term hydro scheduling problem. In Proc. of the Large Engineering SystemsConference on Power Engineering 2002, LESCOPE 02, pages 29–34, 2002.

BIBLIOGRAFÍA 273

[213] S. Marin, N. Bellí, S. Lasram, S. Chebil, A.J. Ramos, A. Ghorbel, and V. Sanchis.Kinetics of ochratoxin A production and accumulation by Aspergillus carbonarius onsynthetic grape medium at different temperature levels. J. Food Sci., 71(6):M196–M200, 2006.

[214] D. Marquardt. An algorithm for least-squares estimation of nonlinear parameters.SIAM J. Appl. Math., 11:431–441, 1963.

[215] C.J. Marriot, J.E. Cadorette, R. Lecomte, V. Scasnar, J. Rousseau, and J.E. Vanlier.High-resolution PET imaging and quantitation of pharmaceutical biodistributionsin a small animal using avalanche photodiode detectors. J. Nucl. Med., 35(8):1390–1396, 1994.

[216] J.D. Martínez, J. Toledo, R. Esteve, A. Sebastiá, F.J. Mora, J.M. Benlloch, M.M.Fernández, M. Giménez, E.N. Giménez, Ch.W. Lerche, N. Pavón, and F. Sánchez.Design of a coincidence processing board for a dual-head PET scanner for breastimaging. Nucl. Instr. Meth. A, 546:28–32, 2005.

[217] J.D. Martínez. Estudio y Diseño de la Electrónica de Adquisición de Datos paraMamografía por Emisión de Positrones con Detectores Continuos. PhD thesis, Uni-versidad Politécnica de Valencia, Valencia, Spain, May 2008.

[218] S. Matej, J.S. Karp, R.M. Lewitt, and A.J. Becher. Performance of the Fourierrebinning algorithm for PET with large acceptance angles. Phys. Med. biol., 43:787–796, 1998.

[219] S. Matej and R.M. Lewitt. Practical considerations for 3-D image reconstructionusing spherically symmetric volume elements. IEEE Trans. Med. Imag., 15:68–78,1996.

[220] E.M. Mateo, Á. Medina, F.M. Valle-Algarra, R. Mateo-Castro, and M. Jiménez.Impact of non-selective fungicides on growth and production of ochratoxin A byAspergillus ochraceus and A. carbonarius in barley medium. Food. Addit. Contam.Part A, 2010.

[221] F. Mateo, R.J. Aliaga, N. Ferrando, J.D. Martínez, V. Herrero, Ch.W. Lerche, R.J.Colom, J.M. Monzó, A. Sebastiá, and R. Gadea. High-precision position estimationin PET using artificial neural networks. Nucl. Instr. Meth. A, 604:366–369, 2009.

[222] F. Mateo, R.J. Aliaga, J.D. Martínez, J.M. Monzó, and R. Gadea. Incidence positionestimation in a PET detector using a discretized positioning circuit and neuralnetworks. In F. Sandoval, A. Prieto, J. Cabestany, and M. Graña, editors, Lect.Notes. Comput. Sci., volume 4507, pages 684–691. Springer, Jun. 2007.

[223] F. Mateo, R. Gadea, E.M. Mateo, and M. Jimenez. Multilayer perceptron neuralnetworks and radial-basis function networks as tools to forecast accumulation of de-oxynivalenol in barley seeds contaminated with Fusarium culmorum. Food Control,22(1):88–95, Jan 2011.

274 BIBLIOGRAFÍA

[224] F. Mateo, R. Gadea, Á. Medina, R. Mateo, and M. Jiménez. Predictive assessment ofochratoxin A accumulation in grape juice based-medium by Aspergillus carbonariususing neural networks. J. Appl. Microbiol., 107(3):915–927, 2009.

[225] F. Mateo and A. Lendasse. A variable selection approach based on the delta test forextreme learning machine models. In Proc. of the European Symposium on TimeSeries Prediction, ESTSP 2008, pages 57–66, Porvoo, Finland, September 2008.

[226] F. Mateo, D. Sovilj, and R. Gadea. Approximate k-NN delta test minimizationmethod using genetic algorithms: application to time series. Neurocomputing, 73(10-12):2017–2029, 2010.

[227] F. Mateo, D. Sovilj, R. Gadea, and A. Lendasse. RCGA-S/RCGA-SP methods tominimize the delta test for regression tasks. In J. Cabestany et al., editor, LectureNotes in Computer Science, volume 5517, pages 359–366, Berlin-Heidelberg, 2009.Springer.

[228] W.S. McCulloch and W. Pitts. A logical calculus of the ideas immanent in nervousactivity. Bull. Math. Biophys., 5(6,12a):115–133, 1943.

[229] G.J. McLachlan. Discriminant Analysis and Statistical Pattern Recognition. Wiley,New York, 1992.

[230] C.A. Mead. Analog VLSI and neural systems. Addison-Wesley, Reading, MA, 1989.

[231] Á. Medina, R. Mateo, F.M. Valle-Algarra, E.M. Mateo, and M. Jiménez. Effectof carbendazim and physicochemical factors on the growth and ochratoxin A pro-duction of Aspergillus carbonarius isolated from grapes. Int. J. Food Microbiol.,119:230–235, 2007.

[232] A. Medina, M. Jiménez, R. Mateo, and N. Magan. Efficacy of natamycin for controlof growth and ochratoxin A production by Aspergillus carbonarius strains underdifferent environmental conditions. J. Appl. Microbiol., 103(6):2234–2239, 2007.

[233] C.L. Melcher and J.S. Schweitzer. A promising new scintillator: cerium-dopedlutetium oxyorthosilicate. Nucl. Instr. Meth. A, 314:212–214, 1992.

[234] C.L. Melcher and J.S. Schweitzer. Scintillation properties of GSO. IEEE Trans.Nucl. Sci., 37(2):161–164, 1992.

[235] Z. Michalewicz. Genetic algorithms + Data structures = Evolution programs.Springer-Verlag, 3rd edition, 1996.

[236] Z. Michalewicz, J. Krawczyk, M. Kazemi, and C. Janikow. Genetic algorithms andoptimal control problems. In Proc. of the 29th IEEE Conference on Decision andControl, pages 1664–1666, Honolulu, 1990. IEEE Computer Society Press.

[237] R. Michalski. A theory and methodology of inductive learning. Artif. Intell., 20:111–161, 1983.

BIBLIOGRAFÍA 275

[238] Y. Miche, P. Bas, Ch. Jutten, O. Simula, and A. Lendasse. A methodology forbuilding regression models using extreme learning machine: OP-ELM. In Proc. ofthe European Symposium on Artificial Neural Networks, ESANN 2008, 2008.

[239] K. Miettinen. Nonlinear Multiobjective Optimization, volume 12 of InternationalSeries in Operations Research and Management Science. Kluwer Academic Pub-lishers, Dordrecht, 1999.

[240] J.D. Miller. Fungi and mycotoxins in grain: Implications for stored product research.J. Stored Prod. Res., 31(1):1–16, 1995.

[241] J.D. Miller, R. Greenhalgh, Y.Z. Wang, and M. Lu. Trichothecene chemotypes ofthree Fusarium species. Mycologia, 83:121–130, 1991.

[242] M.L. Minsky and S.A. Papert. Perceptrons: An introduction to computational ge-ometry. MIT Press, Cambridge, MA, 1969.

[243] D. Mitchell, R. Parra, D. Aldred, and N. Magan. Water and temperature relations ofgrowth and ochratoxin A production by Aspergillus carbonarius strains from grapesin Europe and Israel. J. Appl. Microbiol., 97(2):439–445, 2004.

[244] M. Mitchell and S. Forrest. Genetic algorithms and artificial life. Artif. Life,1(3):267–289, 1995.

[245] T. Mitchell, R. Caruana, D. Freitag, J. McDermott, and D. Zabowski. Experiencewith a learning personal assistant. Comm. ACM, 37(7):80–91, 1994.

[246] W.W. Moses and S.E. Derenzo. Design studies for a PET detector module us-ing a PIN photodiode to measure depth of interaction. IEEE Trans. Nucl. Sci.,41(4):1441–1445, 1994.

[247] S. Mukherjee, E. Osuna, and F. Girosi. Nonlinear prediction of chaotic time seriesusing support vector machines. In Proceedings of the VII Workshop on NeuralNetworks for Signal Processing, NNSP 1997, pages 511–520, 1997.

[248] K.R. Müller, A.J. Smola, G. Rätsch, B. Schökopf, and J. Kohlmorgen. Advances inKernel Methods - Support Vector Learning, chapter Using support vector machinesfor time series prediction, pages 243–254. MIT Press, Cambridge, MA, 1999.

[249] E. Mumcuoglu, R. Leahy, S.R. Cherry, and Z. Zhou. Fast gradient-based methodsfor bayesian reconstruction of transmission and emission PET images. IEEE Trans.Med. Imag., 13:687–701, 1994.

[250] R.H. Myers. Classical and Modern Regression with Applications. Duxbury, PacificGrove, CA, 2nd edition, 1990.

[251] Y.M. Najjar, I.A. Basheer, and M.N. Hajmeer. Computational neural networks forpredictive microbiology: I. methodology. Int. J. Food Microbiol., 34(1):27–49, 1997.

[252] B.K. Natarajan. Machine Learning: A Theoretical Approach. Morgan Kaufmann,San Mateo, CA, 1991.

276 BIBLIOGRAFÍA

[253] F. Natterer. The mathematics of computerized tomography. Classics in AppliedMathematics Series. SIAM, Philadelphia, PA, 2001.

[254] R.M. Neal. Bayesian learning for neural networks. Springer, New York, 1996.

[255] D. Nguyen and B. Widrow. Improving the learning speed of 2-layer neural networksby choosing initial values ot the adaptive weights. Proc. of the International JointConference on Neural Networks, IJCNN 1990, 3:21–26, 1990.

[256] M. Niranjan and V. Kadirkamanathan. A nonlinear model for time series predictionand signal interpolation. In International Conference on Acoustics, Speech, andSignal Processing, ICASSP-91, pages 1713–1716, 1991.

[257] J. Nuyts. Nuclear medicine technology and techniques. Course, Katholieke Univer-siteit Leuven, September 2008.

[258] T. Obi, S. Matej, R.M. Lewitt, and G.T. Herman. 2.5D simultaneous multislicereconstruction by series expansion methods from FORE PET data. IEEE Trans.Med. Imag., 19:474–484, May 2000.

[259] I.-S. Oh, J.-S. Lee, and B.-R. Moon. Hybrid genetic algorithms for feature selection.IEEE Trans. Pattern Anal., 26(11):1424–1437, 2004.

[260] E. Oja. A simplified neuron model as a principal component analyzer. J. Math.Biology, 15:267–273, 1982.

[261] P.D. Olcott, J.A. Talcott, C.S. Levin, F. Habte, and A.M.K Foudray. Compactreadout electronics for position sensitive photomultiplier tubes. IEEE Trans. Nucl.Sci., 52(1):21–27, 2005.

[262] J.M. Ollinger. Evaluation of a model-based scatter correction for fully 3D PET. InIEEE Medical Imaging Conference Record, volume 2, pages 1264–1268, 1994.

[263] J.M. Ollinger. Model-based scatter correction for fully 3D PET. Phys. Med. Biol.,41:153–176, 1996.

[264] J.M. Ollinger and J.A. Fessler. Positron-emission tomography. IEEE Signal Proc.Mag., 14:43–55, January 1997.

[265] A. Oppelt (editor). Imaging Systems for Medical Diagnostics. Publicis CorporatePubl., 2005.

[266] D. Ourston and R. Mooney. Theory refinement combining analytical and empiricalmethods. Artif. Intell., 66(2):273–309, 1994.

[267] T. Ozaki. Non-linear time series models and dynamical systems. Handbook ofStatistics, 5:25–83, 1985.

[268] E.Z. Panagou, V. Kodogiannis, and G.J.E. Nychas. Modelling fungal growth us-ing radial basis function neural networks: The case of the ascomycetous fungusMonascus ruber van Tieghem. Int. J. Food Microbiol., 117(3):276–286, 2007.

BIBLIOGRAFÍA 277

[269] E.Z. Panagou and V.S. Kodogiannis. Application of neural networks as a non-linearmodelling technique in food mycology. Expert Syst. Appl., 36(1):121–131, 2009.

[270] M. Pazzani and D. Kibler. The utility of knowledge in inductive learning. MachineLearning, 9(1):57–94, 1992.

[271] M.J. Pazzani, J. Muramatsu, and D. Billsus. Syskill & webert: Identifying inter-esting web sites. In Proceedings of the Thirteenth National Conference on ArtificialIntelligence, pages 54–59, Portland, OR, 1996. AAAI/MIT Press.

[272] H. Peng, F. Long, and C. Ding. Feature selection based on mutual information: cri-teria of max-dependency, max-relevance, and min-redundancy. IEEE Trans. PatternAnal., 27(8):1226–1238, 2005.

[273] M.E. Phelps, E.J. Hoffman, N.A. Mullani, and M.M. Ter-Pogossian. Applicationof annihilation coincidence detection to transaxial reconstruction tomography. J.Nucl. Med., 16(3):210–224, 1975.

[274] H. Pi and C. Peterson. Finding the embedding dimension and variable dependenciesin time series. Neural Comput., 6(3):509–520, 1994.

[275] J.I. Pitt. Toxigenic fungi and mycotoxins. Br. Med. Bull., 56(1):184, 2000.

[276] J.I. Pitt and A.D. Hocking. Fungi and food spoilage. Chapman and Hall, London,2nd edition, 1997.

[277] T. Poggio and F. Girosi. Networks for approximation and learning. Proceedings ofthe IEEE, 78(9):1481–1497, 1990.

[278] D.A. Pomerleau. Neural Network Perception for Mobile Robot Guidance. Kluwer,Boston, MA, 1993.

[279] V. Popov, S. Majewski, A.G. Weisenberger, and R. Wojcik. Analog readout systemwith charge division type output. In IEEE Nuclear Science Symposium ConferenceRecord, volume 4, pages 1937–1940, 2001.

[280] M.J.D. Powell. Algorithms for Approximation, chapter Radial basis functions formultivariable interpolation: A review, pages 143–167. Oxford: Clarendon Press,1987.

[281] L.Y. Pratt, J. Mostow, and C.A. Kamm. Direct transfer of learned informationamong neural networks. In Proceedings of the Ninth National Conference on Arti-ficial Intelligence, pages 584–589, Anaheim, CA, 1991. AAAI/MIT Press.

[282] M.B. Priestley. Non-Linear and Non-stationary Time Series Analysis. AcademicPress, New York, 1988.

[283] S.P. Prismall, M.S. Nixon, and J.N. Carter. Accurate object reconstruction by sta-tistical moments. In Visual Information Engineering, 2003. VIE 2003. InternationalConference on, pages 29–32. IET, 2003.

278 BIBLIOGRAFÍA

[284] J. Qi, R.M. Leahy, S.R. Cherry, A. Chatziioannou, and T.H. Farquhar. High-resolution 3D Bayesian image reconstruction using the microPET small-animal scan-ner. Phys. Med. Biol., 43:1001–1014, 1998.

[285] L. Qu, Y. Chen, and Z. Liu. Time series forecasting model with error correction bystructure adaptive RBF neural network. In The Sixth World Congress on IntelligentControl and Automation, WCICA 2006, volume 2, 2006.

[286] J. Radon. Über die bestimmung von funktionen durch ihre integralwerte längsgewisser mannigfaltigkeiten. Sächs. Akad. Wissenschaft. Leipzig Math. Phys. Kl.,69:262–267, 1917.

[287] M.L. Ramírez, S. Chulze, and N. Magan. Impact of environmental factors and fungi-cides on growth and deoxynivalenol production by Fusarium graminearum isolatesfrom Argentinian wheat. Crop Prot., 23(2):117–125, 2004.

[288] T.S. Rao and M.M. Gabr. Introduction to bispectral analysis and bilinear timeseries models. In Lecture Notes in Statistics, volume 24. Springer, 1984.

[289] C.R. Reeves. Using genetic algorithms with small populations. In Proceedings ofthe Fifth International Conference on Genetic Algorithms, pages 92–99. MorganKaufmann Publishers Inc., San Mateo, CA, 1993.

[290] N. Reyhani, J. Hao, Y. Ji, and A. Lendasse. Mutual information and gamma test forinput selection. In Proc. of the European Symposium on Artificial Neural Networks,ESANN 2007, Bruges, Belgium, 2005.

[291] J.T. Richardson, M.R. Palmer, G. Liepins, and M. Hilliard. Some guidelines forgenetic algorithms with penalty functions. In Proceedings of the Third InternationalConference on Genetic Algorithms: George Mason University, June 4-7, 1989, pages191–197. Morgan Kaufmann Publishers Inc., 1989.

[292] M. Riedmiller and M. Braun. A direct adaptive method for faster backpropaga-tion learning: The RPROP algorithm. In IEEE Proceedings of the InternationalConference on Neural Networks, volume 1, pages 586–591, 1993.

[293] B.D. Ripley. Pattern Recognition and Neural Networks. Cambridge University Press,Cambridge, UK, 1996.

[294] H. Robbins and S. Monro. A stochastic approximation method. Ann. Math. Stat.,22:400–407, 1951.

[295] F. Rosenblatt. The perceptron: A probabilistic model for information storage andorganization in the brain. Psych. Rev., 65:386–408, 1958.

[296] T. Ross. Indices for performance evaluation of predictive models in food microbiol-ogy. J. Appl. Bacteriol., 81(501–508), 1996.

[297] F. Rossi, A. Lendasse, D. François, V. Wertz, and M. Verleysen. Mutual infor-mation for the selection of relevant variables in spectrometric nonlinear modelling.Chemometr. Intell. Lab., 80:215–226, 2006.

BIBLIOGRAFÍA 279

[298] S.T. Roweis and L.K. Saul. Nonlinear dimensionality reduction by locally linearembedding. Science, 290:2323–2326, 2000.

[299] D.E. Rumelhart, R. Durbin, R. Golden, and Y. Chauvin. Backpropagation: Theory,Architectures, and Applications. Lawrence Erlbaum, Hillsdale, NJ, 1995.

[300] D.E. Rumelhart and J.L. McCleland. Parallel Distributed Processing, Explorationsin the Microstructure of Cognition, volume 1 and 2. MIT Press, Cambridge, MA,1987.

[301] S. Agostinelli et al. GEANT4: A Simulation Toolkit. Nucl. Instr. Meth. A,506(3):250–303, 2003.

[302] V. Sanchis and N. Magan. Mycotoxins in food: detection and control, chapter Envi-ronmental profiles for growth and mycotoxin production, pages 174–189. WoodheadPublishing, Ltd., Cambridge, United Kingdom, 2004.

[303] S. Scheuerer. A tabu search heuristic for the truck and trailer routing problem.Comput. Oper. Res., 33(4):894–909, 2006.

[304] M. Schmidt-Heydt, R. Parra, R. Geisen, and N. Magan. Modelling the relationshipbetween environmental factors, transcriptional genes and deoxynivalenol mycotoxinproduction by strains of two fusarium species. J. Royal Soc. Interf., 8(54):117–126,2011.

[305] B. Schölkopf, A.J. Smola, and K.R. Muller. Kernel principal component analysis.Lect. Notes. Comput. Sci., 1327:583–588, 1997.

[306] N. Schraudolph and F. Cummins. Introduction to neural networks. Technical report,Istituto Dalle Molle di Studi sull’Intelligenza Artificiale, Lugano, CH, 1999.

[307] L. See and S. Openshaw. Hybrid multi-model approach to river level forecasting.Hydrol. Sci. J., 45(4):523–536, 2000.

[308] Y. Shao, S.R. Cherry, S. Siegel, and R.W. Silverman. A study of inter-crystal scatterin small scintillator arrays designed for high resolution PET imaging. IEEE Trans.on Nucl. Sci., 43(3):1938–1944, 1996.

[309] L. Shepp and Y. Vardi. Maximum likelihood reconstruction for emission tomogra-phy. IEEE Trans. Med. Imag., 1(2):113–122, 1982.

[310] S. Siegel, R.W. Silverman, Y. Shao, and S.R. Cherry. Simple charge division readoutsfor imaging scintillator arraysusing a multi-channel PMT. IEEE Trans. Nucl. Sci.,43(3):1634–1641, 1996.

[311] B.W. Silverman. Density Estimation for Statistics and Data Analysis. Chapmanand Hall, New York, NY, 1986.

[312] T. Similä and J. Tikka. Multiresponse sparse regression with application to mul-tidimensional scaling. In Proc. of the 15th International Conference on ArtificialNeural Networks, volume 2, pages 97–102, 2005.

280 BIBLIOGRAFÍA

[313] G. Simon, A. Lendasse, M. Cottrell, J-C. Fort, and M. Verleysen. Time series fore-casting: Obtaining long term trends with self-organizing maps. Pattern RecognitionLetters, 26(12):1795–1808, 2005.

[314] R. Singh and S. Balasundaram. Application of extreme learning machine methodfor time series analysis. Int. J. Int. Tech, 2(4):256–262, 2007.

[315] A.J. Smola and B. Schölkopf. A tutorial on support vector regression. Stat. Comput.,14:199–222, 2004.

[316] J.A. Sorenson and M.E. Phelps. Physics in nuclear medicine. Grune and Stratton,Orlando, FL, 1987.

[317] A. Sorjamaa, J. Hao, N. Reyhani, Y. Ji, and A. Lendasse. Methodology for long-term prediction of time series. Neurocomputing, 70(16-18):2861–2869, 2007.

[318] A. Sorjamaa, N. Reyhani, and A. Lendasse. Input and structure selection for k-NNapproximator. In J. Cabestany, A. Prieto, and F.S. Hernández, editors, Lect. Notes.Comput. Sci., volume 3512, pages 985–992. Springer, Berlin - Heidelberg, 2005.

[319] V. Sossi, M.W. Stazyk, P.E. Kinahan, and T.J. Ruth. Implementation of a 3Dacquisition and 2D reconstruction tecnique on an ECAT 953B for phantom andhuman basal ganglia studies. J. Comp. Assist. Tomogr., 18:1004–1010, 1994.

[320] V. Spokoiny. Variance estimation for high-dimensional regression models. J. Multiv.Anal., 82(1):111–133, 2002.

[321] M. Srinivas and L.M. Patnaik. Adaptive probabilities of crossover and mutation ingenetic algorithms. IEEE Trans. Syst. Man Cyber., 24(4):656–666, 1994.

[322] Statsoft. Statsoft Electronic Textbook, 2003.

[323] A. Stefánsson, N. Končar, and A.J. Jones. A note on the gamma test. NeuralComput. Appl., 5(3):131–133, 1997.

[324] J. Stender (editor). Parallel Genetic Algorithms. IOS Press, Amsterdam, 1893.

[325] C. Stergiou and D. Siganos. Neural networks. Technical report, Department ofComputing, London Imperial College, 1996.

[326] R.E. Steuer. Multiple Criteria Optimization: Theory, Computation, and Application.Wiley, New York - Toronto, 1986.

[327] M. Stone. Cross-validatory choice and assessment of statistical predictions. J. RoyalStat. Soc., 36:111–147, 1974.

[328] M. Streun, G. Brandenburg, H. Larue, E. Zimmermann, K. Ziemons, and H. Halling.Pulse recording by free-running sampling. IEEE Trans. Nucl. Sci., 48(3):524–526,2001.

BIBLIOGRAFÍA 281

[329] G. Sywerda. Uniform crossover in genetic algorithms. In Proc. of the 3rd Interna-tional Conference on Genetic Algorithms, pages 2–9. Morgan Kaufmann PublishersInc., San Francisco, CA, 1989.

[330] T. Ling et al. Performance comparisons of continuous miniature crystal elements(cMiCE) detectors. IEEE Trans. Nucl. Sci., 53:2513–2518, 2006.

[331] G. Talenti. Recovering a function from a finite number of moments. Inv. Probl.,3:501, 1987.

[332] Z. Tang and P.A. Fishwick. Feedforward neural nets as models for time seriesforecasting. ORSA J. Comput., 5:374–385, 1993.

[333] C.C. Tassou, P.I. Natskoulis, E.Z. Panagou, A.E. Spiropoulos, and N. Magan. Im-pact of water activity and temperature on growth and ochratoxin A productionof two Aspergillus carbonarius isolates from wine grapes in greece. J. Food Prot.,70:2884–2888, 2007.

[334] S. Tavernier, P. Bruyndonckx, S. Léonard, and O. Devroede. A high-resolution PETdetector based on continuous scintillators. Nucl. Instr. Meth. A, 537:321–325, 2005.

[335] A.S. Tawfiq and E.A.Ibrahim. Artificial neural networks as applied to long-termdemand forecasting. Artif. Intell. Eng., 13:189–197, 1999.

[336] F.E.H. Tay and L. Cao. Application of support vector machines in financial timeseries forecasting. Omega, 29:309–17, 2001.

[337] J.B. Tenenbaum, V. de Silva, and J. C. Langford. A global geometric frameworkfor nonlinear dimensionality reduction. Science, 290:2319–2323, December 2000.

[338] S. Thrun. Explanation-Based Neural Network Learning: A Lifelong Approach. Kluw-er, Boston, MA, 1996.

[339] R. Tibshirani. Regression shrinkage and selection via the lasso. J. Royal Stat. Soc.,58:267–288, 1996.

[340] K. Torkkola. Feature extraction by non-parametric mutual information maximiza-tion. Mach. Learning Res., 3:1415–1438, 2003.

[341] G. Towell and J. Shavlik. Knowledge-based artificial neural networks. Artif. Intell.,70(1,2):119–165, 1993.

[342] D.W. Townsend and B. Bendriem. The Theory and Practice of 3D PET, chapterIntroduction to 3D PET, pages 1–7. Kluwer, Dordrecht, The Netherlands, 1998.

[343] D.W. Townsend and M. Defrise. Image reconstruction methods in positron tomog-raphy. Technical report, CERN, 1993.

[344] T.B. Trafalis and H. Ince. Support vector machine for regression and applicationsto financial forecasting. In Proceedings of the International Joint Conference onNeural Networks, IJCNN 2000, volume 6, 2000.

282 BIBLIOGRAFÍA

[345] A.M. Turing. Computing machinery and intelligence. Mind, 59(236):433–460, 1950.

[346] E.C. Uberbacher, J.R. Einstein, X. Guan, and R.J. Mural. Gene recognition andassembly in the GRAIL system: Progress and challenges. In H. Lim, J. Fickett,C. Cantor, and R. Robbins, editors, Proceedings of the Second International Con-ference on Bioinformatics, Supercomputing, and Complex Genome Analysis, pages465–476, Singapore, 1993. World Scientific.

[347] O. Valenzuela, I. Rojas, F. Rojas, H. Pomares, L.J. Herrera, A. Guillén, L. Marquez,and M. Pasadas. Hybridization of intelligent techniques and ARIMA models for timeseries prediction. Fuzzy Sets Syst., 159(7):821–845, 2008.

[348] A. Valero, C. Hervás, R.M. García-Gimeno, and G. Zurera. Searching for newmathematical growth model approaches for Listeria monocytogenes. J. Food Sci.,72:M16–M25, 2007.

[349] F.M. Valle-Algarra, Á. Medina, J.V. Gimeno-Adelantado, A. Llorens, M. Jiménez,and R. Mateo. Comparative assessment of solid-phase extraction clean-up proce-dures, GC columns and perfluoroacylation reagents for determination of type Btrichothecenes in wheat by GC-ECD. Talanta, 66:194–201, 2005.

[350] V.N. Vapnik. Estimation of Dependencies Based on Empirical Data. Springer-Verlag, New York, 1982.

[351] V.N. Vapnik. The Nature of Statistical Learning Theory. Springer-Verlag, NewYork, 1995.

[352] V.N. Vapnik and A.Ya. Chervonenkis. On the uniform convergence of relative fre-quencies of events to their probabilities. Theor. Prob. Appl., 17:264–280, 1971.

[353] V.N. Vapnik and A.Ya. Chervonenkis. Theory of Pattern Recognition. Nauka,Moscow, USSR, 1974.

[354] M. Verleysen and D. François. The curse of dimensionality in data mining and timeseries prediction. In J. Cabestany, A.G. Prieto, and F. Sandoval, editors, LectureNotes in Computer Science, volume 3512, pages 758–770. Springer, 2005.

[355] M. Vidyasagar. A Theory of Learning and Generalization. Springer-Verlag, NewYork, 1997.

[356] G.A. Vignaux and Z. Michalewicz. A genetic algorithm for the linear transportationproblem. IEEE Trans. Syst. Man Cyber., 21(2):445–452, 1991.

[357] C.C. Watson, D. Newport, and M.E. Casey. Three dimensional image reconstructionin radiology and nuclear medicine, chapter A single scatter simulation technique forscatter correction in three-dimensional PET, pages 255–268. Kluwer, Dordrecht,The Netherlands, 1996.

[358] B. Widrow and M.E. Hoff Jr. Adaptive switching circuits. In IRE WESCONConvention Record, pages 96–104, 1960.

BIBLIOGRAFÍA 283

[359] B. Widrow, D.E. Rumelhart, and M.A. Lehr. Neural networks: Applications inindustry, business, and science. Comm. ACM, 37(3):93–105, 1994.

[360] B. Widrow and S. Stearns. Adaptive Signal Processing. Prentice-Hall, EnglewoodCliffs, NJ, 1985.

[361] W.H. Wolberg, W.N. Street, and O.L. Mangasarian. Machine learning techniquesto diagnose breast cancer from fine needle aspirates. Cancer Lett., 77:163–171, 1994.

[362] S. Wold, E. Johansson, and M. Cocchi. 3D QSAR in drug design. Theory, meth-ods and applications. PLS-Partial Least Squares Projection to Latent Structures.ESCOM, Leiden, Holland, pages 523–550, 1993.

[363] L. Xiaoyu, W.K. Bing, and Y.F. Simon. Time series prediction based on fuzzyprinciples. Technical report, Department of Electrical & Computer Engineering,FAMU-FSU College of Engineering, Florida State University, Tallahassee, FL, 2003.

[364] J. Xu, S. Chiu, and F. Glover. A probabilistic tabu search for the telecommuni-cations network design. J. Combin. Optim., Special Issue on Topological NetworkDesign, 1:69–94, 1996.

[365] J. Xu, S. Chiu, and F. Glover. Using tabu search to solve steiner tree-star problemin telecommunications network design. Telecomm. Syst., 6:117–125, 1996.

[366] M. Yavuz and J.A. Fessler. Statistical Tomographic Recon methods for randoms-precorrected PET scans. Med. Imag. Anal., 2:369–378, 1998.

[367] M.M.R. Yousefi, M. Mirmomeni, and C. Lucas. Input variables selection usingmutual information for neuro fuzzy modeling with the application to time seriesforecasting. In Proc. of the International Joint Conference on Neural Networks,IJCNN 2007, Orlando, Florida, August 2007.

[368] Q. Yu, E. Séverin, and A. Lendasse. A global methodology for variable selection: ap-plication to financial modeling. In Proc. of MASHS 2007, ENST-Bretagne, France,May 2007.

[369] Q. Yu, A. Sorjamaa, Y. Miche, A. Lendasse, E. Séverin, A. Guillén, and F. Mateo.Optimal Pruned K-Nearest Neighbors: OP-KNN–Application to Financial Mode-ling. In Proc. of the 8th International Conference on Hybrid Intelligent Systems,HIS 2008, pages 764–769. IEEE Computer Society, 2008.

[370] R. Zemouri, D. Racoceanu, and N. Zerhouni. Recurrent radial basis function networkfor time-series prediction. Eng. Appl. Artif. Intell., 16(5-6):453–463, 2003.

[371] C. Zhang, P. Li, Z. Guan, and Y. Rao. A tabu search algorithm with a newneighborhood structure for the job shop scheduling problem. Comput. Oper. Res.,34(11):3229–3242, 2007.

[372] G.P. Zhang, E.B. Patuwo, and M.Y. Hu. A simulation study of artificial neuralnetwork for nonlinear time-series forecasting. Comput. Oper. Res., 28:381–396, 2001.

284 BIBLIOGRAFÍA

[373] G.P. Zhang and M. Qi. Neural network forecasting for seasonal and trend timeseries. Eur. J. Oper. Res., 160:501–514, 2005.

[374] L. Zhao, Y. Chen, and D.W. Schaffner. Comparison of logistic regression and linearregression in modeling percentage data. Appl. Environ. Microbiol., 67(5):2129, 2001.

[375] G. Zurera-Cosano, R.M. García-Gimeno, R. Rodríguez-Pérez, and C. Hervás-Martínez. Validating an artificial neural network model of Leuconostoc mesen-teroides in vacuum packaged sliced cooked meat products for shelf-life estimation.Eur. Food Res. Technol., 221:717–724, 2005.

[376] G. Zurera-Cosano, R.M. García-Gimeno, R. Rodríguez-Pérez, and C. Hervás-Martínez. Performance of response surface model for prediction of Leuconostocmesenteroides growth parameters under different experimental conditions. FoodControl, 17(6):429–438, 2006.

redes neuronales y preprocesado de variables para modelos ... · departamento de ingeniería...

Documents