redes neuronales -...

REDES NEURONALESMonografıa

Tratamiento Estadıstico de Senales

Santiago Lafon

Abril de 2002

Esta monografıa es una breve introduccion a las Redes Neuronales Artificiales. De la gran diversidad demodelos existentes, solo se analizan dos de ellos: el Perceptron y las redes RBF. Ambos son modelos deredes de aprendizaje supervisado.

Los Perceptrones solo se analizan desde el punto de vista de su estructura y su capacidad de clasi-ficacion. Sobre las redes RBF se realiza un analisis teorico de mayor profundidad, simulandose algunastecnicas de aprendizaje.

1 Introduccion

Una Red Neuronal Artificial (RNA) es un sistema procesador de informacion cuyas caracterısticas dedesempeno se inspiran en el funcionamiento de las Redes Neuronales Biologicas (RNB).En sus orıgeneslas RNA quisieron ser un modelo matematico del funcionamiento de las RNB. Con el correr del tiempofueron surgiendo modelos de RNA que se alejaron de la parte biologica, pero que se encontraron optimospara resolver problemas de procesamiento de informacion. Las principales caracterısticas comunes son:

• El procesamiento de la informacion ocurre en elementos llamados neuronas.

• Una red neuronal esta formada por un conjunto de neuronas conectadas entre sı y con el exteriorpor medio de ligas.

• A traves de las ligas se transmiten senales en un unico sentido1. Esto causa que haya entradasy salidas a una neurona (en realidad cada neurona tiene una unica salida que puede ser a su vezentrada de muchas otras).

• El resultado del procesamiento que ocurre en una neurona es una funcion no lineal de las entradasa la misma y de un conjunto de parametros.

El ultimo punto es la base del funcionamiento de las RNA, ya que el conjunto de parametros de losque dependen dichas funciones se van ajustando de acuerdo a lo que van aprendiendo. Para ser unpoco mas especıficos, pensemos en un ejemplo dentro de los campos en los que las RNA tienen mayorauge: el reconocimiento de patrones. Supongamos que se quiere tener una RNA capaz de reconocerletras manuscritas a partir de imagenes digitales(es decir, cada imagen digital corresponde a una letra

1Esto no es totalmente cierto, ya que existen conexiones bidireccionales entre las neuronas reales. Esto se puede modelarcomo dos ligas unidireccionales en sentidos opuestos.

1

manuscrita). Nuestra RNA tendra como entrada la matriz de puntos de la imagen digital y 28 salidas,una para cada letra, y deseamos que poner un 1 en la salida de la letra correspondiente a la imagende entrada y 0 en las demas. Llamando n al no de puntos de la matriz, la RNA bien podrıa tener laforma que se observa en la figura 1. Cada persona realiza las letras en forma diferente, mas aun, nadie

x1

x2

xn

A�

B

Z

{ {

Capa de entrada Capa de salida

{Capas ocultas

Figura 1: Estructura de la RNA para deteccion de letras

realiza dos iguales, pero supongamos que disponemos de un conjunto de imagenes que sabemos a que letracorresponden, escritos por un conjunto de varias personas (llamado muestra o base de datos). El primerpaso es entrenar a la RNA. Para esto se realiza lo siguiente:

1. Se toma una valor inicial para los parametros de la misma.

2. Se observa la salida que se obtiene para una imagen y se compara con la salida deseada (error).

3. Con un algoritmo adecuado se modifican los parametros en funcion del error que se tuvo en el paso2.

Los pasos 2 y 3 se repiten con todas las imagenes de la muestra.Luego de que la red ha sido entrenada, si el algoritmo es bueno y la muestra es suficientemente

heterogenea, la red es capaz de responder con un porcentaje de aciertos muy alto a las imagenes que lepongamos de aquı en mas.El aprendizaje en las RNA se puede dar de 2 modos: supervisado o no supervisado. En el modo supervisadoel aprendizaje se logra en base a la comparacion directa del la salida de la red con la respuesta correctaya conocida. En el modo no supervisado la informacion disponible solo esta en correlacion de datos deentrada o senales. Se espera que la red forme categorıas de estas correlaciones, y producir una senalcorrespondiente a cada categorıa de entrada. Claramente el ejemplo antes nombrado corresponderıa almodo supervisado.Las RNA pueden ser clasificadas tambien segun su arquitectura. Hay dos grandes clases: las redes depropagacion hacia adelante y las redes recursivas. En las redes de propagacion hacia adelante se tieneuna estructura de capas, donde la salida de una cierta neurona solo puede servir de entrada a neuronasde la capa siguiente , salvo que se trate de una neurona de la ultima capa, en cuyo caso su salida sera yauna salida de la RNA. Las redes recursivas permiten realimentacion entre capas, teniendo una dinamicade mayor complejidad. El esquema presentado en el ejemplo corresponde a una red de propagacion haciaadelante.

2

2 El primer modelo: El Perceptron

2.1 El modelo biologico

Una neurona real esta compuesta basicamente por un cuerpo celular aproximadamente esferico del quesalen una rama principal, el axon, y varias ramas mas cortas, las dentritas. El extremo lejano del axonse abre en pequenas ramas por las cuales se comunica con las dentritas de otras neuronas o con elexterior de la red neuronal (musculos o glandulas). El proceso interno en la neurona es ası: el cuerpocelular de una neurona N1 recibe por las dentritas senales electricas, que combina e integra. Si sealcanza un cierto umbral positivo, emite una senal por el axon. Esto genera que un elemento quımicollamado neurotransmisor se haga presente en la dentrita de las siguiente neurona (N2). Segun el tipo deneurotransmisor y como se combine con la neurona N2, se producira un efecto excitatorio o inhibitorio en lamisma. La neurona N2 sumara este efecto a los que le produzcan otras neuronas que esten comunicadascon otras dentritas, emitiendo senales a su vez cuando las senales recibidas alcancen el umbral. Loscoeficientes de la combinacion de las entradas son variantes en el tiempo, y les llamaremos parametros.Se podrıa decir entonces que la salida es una funcion de las entradas y de un conjunto de parametros, yque esta funcion no sera lineal por ser una funcion con umbrales. El umbral que se debe alcanzar paraque se produzca una senal a la salida de una neurona se lo denomina potencial de accion.

2.2 El Perceptron

Seguramente este sea el modelo mas sencillo de neuronas artificiales. Se inspira en forma directa delcomportamiento de una neurona real. En cada neurona, las entradas xi se suman linealmente ponderadaspor un conjunto de parametros wi. A todo esto se le suma un parametro mas b y el resultado se pasa poruna funcion ϕ. El resultado es la salida y (ver figura 2). La ecuacion de la neurona es entonces:

y = ϕ(n∑

i=1

wixi + b) = ϕ(wT x + b) (1)

Podemos vincular el coeficiente b con el potencial de reposo. Se han desarrollado diversos sub-modelos

x1

x2

xn

w1

w2

wn

+

b

f y

Figura 2: Modelo de una neurona

variando algunas caracterısticas de la funcion ϕ. Los principales son:

1. Modelo de McCulloch-PittsEn este caso la funcion ϕ tiene un umbral, devolviendo un 1 para entradas positivas y un 0 para lasnegativas (ver figura 3 a). Este modelo data de 1943.

2. Modelo lineal con saturacionEste modelo se observa en la figura 3 b. Tendra mayor o menor rango lineal segun el valor dependiente que se elija.

3. Modelo Sigmoidal Este modelo contempla las funciones monotonas crecientes entre 0 y 1 simetricasrespecto al (0, 1

2 ). El nombre proviene de su forma de S. Una posible familia de funciones con esta

3

caracterıstica son:ϕ(x) =

11 + e−βx

−5 −4 −3 −2 −1 0 1 2 3 4 5

0

0.2

0.4

0.6

0.8

1

Figura 3: Modelos para ϕ: azul-McCulloc-Pits rojo-lineal con saturacion negro-sigmoidal

2.3 Capacidad de clasificacion de un Perceptron

Se pretende ahora realizar un breve analisis de que tanto se puede hacer con un Perceptron, es decir, conuna neurona cuyo modelo es el visto en la seccion anterior. Trabajaremos unicamente con el modelo deMcCulloch-Pitts.

Para comenzar supongamos que n=2, o sea que la entrada es un vector x ∈ R2. La salida de la neuronasera:

y = 1 ⇔ w1x1 + w2x2 + b > 0y = 0 ⇔ w1x1 + w2x2 + b < 0

Dado que w1x1 + w2x2 + b = 0 es la ecuacion de una cierta recta r en el plano, lo que estamos diciendoes que un Perceptron es capaz de distinguir entre dos elementos unicamente si estos se encuentran ensemiplanos diferentes respecto a la recta r.

Para analizar el caso mas general en que x ∈ Rn, serıa conveniente tener antes claro el concepto dehiperplano en un espacio de dimension n. Definamos primero un hiperplano que pasa por el origen comoel conjunto de vectores de Rn que son perpendiculares a un cierto vector fijo w, o sea, que satisfacenwT x = 0. Para tener un hiperplano que no pase por el origen basta con sumarle a los vectores de unhiperplano por el origen un vector de desplazamiento constante v. Por tanto los puntos de un hiperplanoperpendicular a un vector w cumpliran la ecuacion wT (x+v) = 0. Llamando b = wT v y H al hiperplano,tenemos que:

H = {x ∈ Rn /wT x + b = 0} (2)

siendo w un vector fijo perpendicular a H y b una constante. Notemos que los hiperplano dentro de unespacio vectorial de dimension n son todos los subespacios vectoriales de dimension n-1 ası como cualquiertraslacion de estos. Para fijar ideas, los hiperplanos en R2 son las rectas y en R3 son los planos. Todohiperplano tiene la propiedad de dividir el espacio en dos semiespacios. Llamaremos a estos H+ y H−,siendo:

H+ = {x ∈ Rn /wT x + b > 0}H− = {x ∈ Rn /wT x + b < 0}

4

Volvamos ahora al analisis de la performance de los Perceptrones cuando le entrada esta en Rn. Deacuerdo a la ecuacion que determina su salida (ecuacion 1) y al tipo de funciones que estamos utilizando,la salida de una neurona valdra:

y = 1 ⇔ x ∈ H+

y = 0 ⇔ x ∈ H−

Supongamos que el Perceptron sera excitado con entradas de dos conjuntos disjuntos: A y B. Supongamostambien que lo que se desea es que el Perceptron sea capaz de distinguir la entradas del conjunto A de lasdel conjunto B. Esto sera posible unicamente si existe un hiperplano H que separe a estos dos conjuntos.En caso positivo, se pueden elegir entonces los coeficientes de w y el coeficiente b de forma tal que:

y = 1 ⇔ x ∈ Ay = 0 ⇔ x ∈ B

Se dice que dos conjuntos son linealmente separables si existe un hiperplano que los separe. Podemos con-cluir entonces que un Perceptron es capaz de resolver el problema de clasificar puntos entre dos conjuntosunicamente si estos conjuntos son linealmente separables.

2.4 Ejemplo: la funcion EXOR

En la practica uno construye una RNA con el fin de lograr que se comporte como un cierto sistemadifıcil de estudiar. Por mas complejo que sea el sistema, si es determinıstico, debe existir una funcionque relacione las entradas con las salidas. Esto implica que deseamos que la RNA implemente una ciertafuncion aunque no sepamos cual. Supongamos que la funcion que debe implementar nuestra RNA es lafuncion EXOR (EXclusive OR), que tiene dos entradas y una salida.

x1 x2 y0 0 00 1 11 0 11 1 0

Intentemos resolver esto con una RNA compuesta por un solo Perceptron. Basicamente deberıamos lograrque la RNA distinga los elementos de A = {(0, 1); (1, 0)} de los elementos de B = {(0, 0); (1, 1)}. Como se

x1

x2

p1 p2

p4p3

r

Figura 4:

observa en la figura 4 , estos dos conjuntos no son linealmente separables. Estos es suficiente para poder

5

afirmar que no habra algoritmo de aprendizaje capaz de encontrar coeficientes tales que un Perceptronpueda implementar la funcion EXOR.Intentemos resolverlo ahora con una RNA de dos capas como se muestra en la figura 5. Esto si es posible.Lo que debemos lograr es que los Perceptrones N1 y N2 realicen un cambio de variable entre el plano

x1

x2

N1

N2

N3

z1

z2

y

Figura 5: Red de Perceptrones de dos capas

(x1, x2) y el plano (z1, z2) de forma tal que el Perceptron N3 resuelva un problema en las variables z1

y z2 que sea linealmente separable. Llamemos r1, r2 y r3 a las rectas (hiperplanos) que determinan elcomportamiento de la salidas de N1, N2 y N3 respectivamente. Ubicando las rectas como se muestra enla figura 6 se consigue el funcionamiento deseado.En este ejemplo las entradas de interes eran apenas cuatro. Se querıa distinguir entre dos subconjuntos

x1

x2

p1 p2

p4p3

p1

p4

p2

r1+

r1-

r2+

r2-

z2

z1

r3+

r3-

Figura 6:

que no eran linealmente separables y se logro. Imaginemos ahora que los puntos de interes son muchosmas. Esto puede suceder por tener mas entradas y por tanto aumentar la dimension, ası como por admitirmas valores posibles para cada entrada. Pongamos por ejemplo que procesamos imagenes de 600x800pixeles y que cada pixel toma 1 de 256 colores. Si cada entrada es un pixel tenemos aproximadamente 123millones de entradas diferentes posibles. Es bastante claro que lograr que dos subconjuntos de interes estenlinealmente separados es una meta difıcil. Con este problema en la cabeza abordaremos en la proximaseccion un nuevo tipo de RNA que incluyen una primera capa pensada para simplificar este problema.

6

2.5 Algunos resultados sobre Redes de Perceptrones Multicapa

La idea en esta seccion es nombrar algunos resultados sobre RNA de Perceptrones. En la seccion anterioranterior se estudio la utilidad de estas bajo el modelo de McCulloc-Pits. Existe un resultado llamadoTeorema de Aproximacion Universal que dice que se puede aproximar tanto como se desee cualquier funcionf con una RNA de una sola capa de Perceptrones cuyas salidas se conectan a un sumador ponderado2,siempre y cuando se tengan suficientes Perceptrones en dicha capa y se elijan de forma adecuada loscoeficientes. Las hipotesis necesarias son:

• f sea una funcion continua en el hipercubo [−p, p]n

• La funcion no lineal ϕ de los Perceptrones sea continua, no constante, acotada y monotona creciente.

Este resultado puede verse con mayor detalle en [1] o [7]. Un posible conjunto de funciones serıan lassigmoidales nombradas en 2.2.Otro resultado de interes para el estudio de RNA de Perceptrones es el algoritmo de aprendizaje Back-Propagation. Este algoritmo sirve para elegir los coeficientes optimos para una RNA de Perceptrones deM capas (una red de Perceptrones de M capas es una red de propagacion hacia adelante similar a la dela figura 1). La optimalidad que se tiene es en el sentido de minimizar la siguiente funcion de costo:

J [k] =12

NM∑i=1

|ei[k]|2 (3)

donde NM es el numero de salidas de la RNA, k indica el numero de iteracion y ei es la diferencia entrela salida que nos da la RNA y la deseada. Este algoritmo desarrollado para el caso en que las senales soncomplejas se encuentra en [1] y [7], y para el caso real tambien se puede ver [2] o [3]. Este algoritmo esvital en la practica pues las RNA de Perceptrones sin etapa de aprendizaje carecen de sentido.

2Un sumador ponderado es como un Perceptron que no aplica a la salida la funcion de umbral ϕ.

7

3 Redes RBF

3.1 Separacion de Patrones - Teorema de Cover

Al estudiar los Perceptrones se llego a la conclusion de que un punto importante para poder reconocer ele-mentos entre dos conjuntos es que estos sean linealmente separables. Una vez que se tiene esta propiedad,el reconocimiento se puede hacer de forma bastante sencilla. Sin embargo lo comun en un problema dereconocimiento es que esto no suceda. En esta seccion analizaremos como se puede hacer para transformarun problema no linealmente separable en uno que si lo sea.Sea S el conjunto de entradas de interes y n la dimension del espacio de entradas.

S = {s1, s2, . . . , sk} con si ∈ Rn

Supongamos que tenemos una dicotomıa en S,es decir , cada elemento pertenece a uno y solo uno de dossubconjuntos de S a los que llamaremos S1 y S2. Para cada s ∈ S definamos

ϕ(x) = [ϕ1(x), ϕ2(x), . . . ϕm1(x)]

donde ϕj : Rn 7→ R para j = 1 . . .m1. Se dice que {S1,S2} son ϕ-separables sii ϕ(S1) y ϕ(S2) sonlinealmente separables. Lo que se esta haciendo es un cambio de variable para intentar que nuestra ennueva variable tengamos separacion lineal. La idea es que cuanto mayor sea m1 la probabilidad de lograrlosera mas alta. Cover estudio este problema en 1965, obteniendo resultados probabilısticos para un ciertoconjunto de funciones ϕ (polinomios de grado r homogeneos) y para una dicotomıa aleatoria. El resultadoque obtuvo, conocido como Teorema de Cover es que la probabilidad de lograr separacion lineal crececomo una binomial. Esto implica que la probabilidad tendera factorialmente a uno.En las redes RBF, si bien no trabajaremos en las hipotesis del Teorema de Cover, extrapolaremos elrazonamiento del mismo. La primer capa de una red RBF llevara las entradas a un espacio de dimensionmayor, con la esperanza de obtener mejores resultados en el nuevo espacio.

3.2 Arquitectura de las redes RBF

Las redes neuronales RBF estan constituidas por dos capas: una capa oculta y una capa de salida. Lacapa oculta esta formada por neuronas que aplican sobre sus entradas una funcion del tipo radial, es decir,la salida de cada neurona es una funcion de la distancia entra las entradas y un punto llamado centro,que caracteriza a cada neurona. Supondremos sin perder generalidad que la RNA tiene una sola salida.En dicho caso la capa de salida esta constituida por una unidad que realiza una suma ponderada de lassalidas de las neuronas la capa oculta.Como siempre llamaremos n al numero de entradas, xi con i = 1 . . . n a las entradas e y a la salida de la

RNA. Llamaremos ademas m1 al numero de neuronas de la capa oculta y ϕ(‖ x− ti ‖) a la funcion queaplica la i-esima neurona, siendo ti el centro de dicha neurona. Los coeficientes de la combinacion seranwi. Ası dicho, la funcion que relaciona entradas a la RNA con la salida es:

y =m1∑i=1

wiϕ(‖ x− ti ‖) (4)

Las funciones radiales citadas como ejemplo en la bibliografıa son:

1. Multicuadricas:ϕ(‖ x− ti ‖) =

√‖ x− ti ‖2 +c2 para algun c > 0

2. Multicuadricas inversas

ϕ(‖ x− ti ‖) =1√

‖ x− ti ‖2 +c2para algun c > 0

8

x1

x2

xn

fi(x,t1)

fi(x,t2)

fi(x,tm)

w1

w2

wm

su y

Figura 7:

3. Thin-plate-spline

ϕ(‖ x− ti ‖) =(‖ x− ti ‖

σ

)2

ln

(‖ x− ti ‖

σ

)para algun σ > 0

4. Gaussiana

ϕ(‖ x− ti ‖) = e

(− ‖x−ti‖

2

2σ2

)para algun σ > 0

En la seccion 3.3 justificaremos el uso de funciones radiales y como caso particular la aparicion de lasfunciones gaussianas.Las redes neuronales de RBF suelen utilizarse bajo aprendizaje supervisado. Esto querıa decir que necesitade un entrenamiento para elegir la ubicacion de los centros ası como para elegir los coeficientes wi. En laseccion 3.4 se analizaran caminos para lograr esto.

3.3 Como elegir la base de funciones: Teorıa de Regularizacion

Consideremos un sistema de n entradas y una sola salida, del cual se tiene un a muestra de N parejasentrada-salida {xi, di}N

i=1. El hecho de considerar una sola salida no le quitara generalidad a los resultadosque se obtengan en esta seccion y le simplificara la notacion. Se quiere una funcion que aproxime en buenaforma la relacion entrada-salida del sistema. La primera idea que uno podrıa poner en practica es realizaruna interpolacion, es decir, buscar una funcion F tal que

F (xi) = di i = 1 . . . N

Implıcitamente se estrıa buscando una hipersuperficie en Rn+1 que pase por los puntos (xi, di). Esteno es en general un buen camino para resolver el problema. La dificultad que suele surgir al interpolares que al tener muchos puntos (N grande) la informacion se vuelve redundante, haciendo el problemasobredeterminado. Esto causa que la solucion se vuelva muy inestable, ya que tan solo un poco de ruidoen las muestras o agregar un punto causa grandes variaciones en la hipersuperficie, haciendo a esta pocosuave. Un ejemplo clasico de este problema fue presentado por Runge, al intentar aproximar la funcionf(x) = 1

1+25x2 en [−1, 1] con un polinomio. En este consideraba para interpolar los puntos xi = −1 + 2iN .

A mayor N, mayor era el grado del polinomio interpolante y peores los resultados. Esto se observa enla figura 8 Esto hace pensar en buscar una solucion que en lugar de ser una superficie que interpoleestrictamente las muestras, pase cerca de ellos pero sea suave. La teorıa de regularizacion propone que enel momento de elegir la funcion F (x) se tengan en cuenta las siguientes cantidades:

9

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−0.5

0

0.5

1

1.5

2

n=10

n=2

n=3

n=5

Figura 8: Fenomeno de Runge

• ES(F ) = 12

∑Ni=1(di − F (xi))2 que es una medida del error cuadratico.

• EC(F ) = 12 ‖ D(F ) ‖2 siendo D un operador diferencial lineal. En esta cantidad se pretende tener

en cuenta la suavidad de la funcion.

La cantidad E que se propone minimizar es:

E(F ) = ES(F ) + λEC(F ) (5)

Se suele llamar parametro de regularizacion a λ y a E(F ) como funcional de Tikhonov. Cuando λ es muychico, se estan priorizando las muestras, y aumentar λ es pedir mayor suavidad.

3.3.1 Obtencion de la solucion

A continuacion obtendremos la funcion F que minimice (5):

1. Definamos d(E(F, h)) = [ ddβE(F + βh)]β=0 como el diferencial de E(F ) en la direccion de h siendo

h una funcion h : Rn → R. Notemos que este diferencial como una derivada direccional. Lo que sedebe cumplir para estar frente a un mınimo en Fλ es que dE(Fλ, h) = 0 para cualquier h.

2. El diferencial del primer termino vale:

d(ES(F, h)) = 〈h,N∑

i=1

(di − F (xi))δxi〉 (6)

Se utiliza el producto interno 〈f, g〉 =∫

fg. La norma que induce este producto es la norma 2,‖ f ‖2=

∫f2.

10

Demostracion:

d(ES(F, h)) = [d

dβES(F + βh)]β=0 = [

1

2

d

dβ

N∑i=1

(di − F (xi) − βh(xi))2]β=0

= − [N∑

i=1

[di − F (xi) − βh(xi)]h(xi)]β=0 = −N∑

i=1

[di − F (xi)]h(xi)

=〈h,N∑

i=1

(di − F (xi))δxi 〉

3. El diferencial del segundo termino vale:

d(EC(F, h)) = 〈h, D(D(F ))〉 (7)

siendo D el operador adjunto3 de D.

Demostracion:

d(EC(F, h)) = [d

dβ

1

2‖ D(F + βh) ‖2]β=0 = [

1

2

d

dβ

∫Rn

[D(F + βh)]2dx]β=0

= [

∫Rn

D(F + βh)D(h)dx]β=0 =

∫Rn

D(F )D(h)dx

= 〈D(h),D(F )〉 = 〈h, D(D(F ))〉

4. Uniendo lo obtenido en 2 y 3, tenemos que:

d(E(F, h)) = d(ES(F, h)) + λd(EC(F, h))

= −〈h,

N∑i=1

(di − F (xi))δxi〉+ λ〈h, D(D(F ))〉

Como deseamos que d(E(Fλ, h)) = 0, se debera cumplir:

〈h, [λD(D(Fλ))−N∑

i=1

(di − Fλ(xi))δxi ]〉 = 0

Se desea que la ultima igualdad valga independientemente del valor del parametro de regularizacionλ se tome. La unica de que se satisfaga para cualquier h y para cualquier λ es que:

D(D(Fλ)) =1λ

N∑i=1

(di − Fλ(xi))δxi (8)

Esta es una condicion necesaria para que el funcional E presente un mınimo en Fλ.

5. Se llama funcion de Green de un operador L a una funcion G(x, ξ) tal que L(G) = δ(x − ξ). Si sedesea solucionar el problema L(F (x)) = ϕ(x), la solucion es la convolucion de ϕ con G, es decir:

F (x) =∫

G(x, ξ)ϕ(ξ)dξ = 〈G(x, ξ), ϕ(ξ)〉 (9)

La funcion de Green es como una funcion de transferencia de un sistema con entrada ϕ y salida F .Notemos que ası definida F se verifica:

L(F (x)) =∫

L(G(x, ξ))ϕ(ξ)dξ =∫

δ(x− ξ)ϕ(ξ)dξ = ϕ(x)

La funcion de Green satisface las siguientes propiedades:3Sea un operador T definido sobre un espacio vectorial V que tenga definido un producto interno. En caso que V sea

un espacio completo con la topologıa que induce el producto interno, existira una representacion de Riesz para T y comoconsecuencia un operador T que satisfaga 〈T(u), v〉 = 〈u, ˜T(v)〉∀u, v ∈ V . Al operador T se denomina operador adjunto deT.

11

(a) Si L es un operador autoadjunto entonces G(x, ξ) = G(ξ,x)

(b) Si L es un operador invariante bajo traslaciones entonces G(x, ξ) = G(x− ξ)

(c) Si L es un operador invariante bajo traslaciones y rotaciones entonces G(x, ξ) = G(‖ x− ξ ‖)

Se concluye de a), b) y c) que si L es un operador autoadjunto e invariante bajo traslaciones yrotaciones la solucion al problema L(F (x)) = ϕ(x) sera:

F (x) =∫

G(‖ x− ξ ‖)ϕ(ξ)dξ = 〈G(‖ x− ξ ‖), ϕ(ξ)〉 (10)

Demostraciones:

G(y,x) = 〈L(G(x, ξ)), G(y, ξ)〉 porque L(G(x, ξ) = δ(x− ξ)

G(x,y) = 〈L(G(y, ξ)), G(x, ξ)〉 por igual motivo

Si L es autoadjunta se cumplira L = L y por tanto:

〈L(G(x, ξ)), G(y, ξ)〉 = 〈G(x, ξ),L(G(y, ξ))〉

Esto sumado a las dos igualdades anteriores implica a)Si L es invariante bajo traslaciones entonces L(F (x + v)) = ϕ(x + v). Esto implicara que

F (x + v) = 〈G(x + v, ξ), ϕ(ξ)〉 y ademas

F (x + v) = 〈G(x, ξ), ϕ(ξ + v)〉 = 〈G(x, ξ − v), ϕ(ξ)〉

Como ϕ es cualquiera, se cumplira G(x, ξ − v) = G(x + v, ξ); y como v tambien es cualquiera, esto implica b).Si L es invariante bajo rotaciones entonces L(F (Rx)) = ϕ(Rx) siendo R una matriz ortogonal (matriz de rotacion).Tendremos entonces que:

F (Rx) = 〈G(Rx, ξ), ϕ(ξ)〉 y ademas

F (Rx) = 〈G(x, ξ), ϕ(Rξ)〉 = 〈G(x, R−1ξ), ϕ(ξ)〉

Como ϕ es cualquiera, se cumplira G(Rx, ξ) = G(x, R−1ξ). Por ser L invariante bajo traslaciones tendremos que

G(x− R−1ξ) = G(Rx− ξ) = G(R(x− R−1ξ)). Esto implica c).

6. Sea L = DD. Ası definido, L es un operador autoadjunto. El operador D era el operador diferenciallineal, con el cual se pretendıa tener en cuenta la suavidad de la funcion. Es natural entonces pedirlea D que sea invariante bajo traslaciones y bajo rotaciones, lo que implica que L tambien lo sea.Como se vio en el punto 4 para que el funcional E presente un mınimo en Fλ se debe cumplir laecuacion (8), que no es otra cosa que pedir:

L(Fλ) = ϕ(x) siendo

ϕ(x) =1λ

N∑i=1

(di − Fλ(xi))δxi

Dadas las propiedades del operador L, la ecuacion (10) nos brinda la solucion:

Fλ(x) = 〈G(‖ x− ξ ‖), ϕ(ξ)〉

= 〈G(‖ x− ξ ‖), 1λ

N∑i=1

(di − Fλ(xi))δxi〉

=1λ

N∑i=1

(di − Fλ(xi))G(‖ x− xi ‖)

Definamos wi = 1λ (di − Fλ(xi)) para i = 1, . . . , N . Tenemos entonces que

Fλ(x) =N∑

i=1

wiG(‖ x− xi ‖) (11)

12

Esta ecuacion es fundamental, ya que nos dice que la solucion al funcional de Tikhonov E es unacombinacion lineal de N funciones radiales centradas en las muestras, siempre y cuando se tome Dinvariante bajo traslaciones y rotaciones. Dicho con otras palabras, la solucion cae en un espacio dedimension N , pudiendo elegirse una base de funciones radiales.

7. Veamos ahora como determinar los coeficientes wi. Evaluando (11) en las muestras, se tiene:

Fλ(xj) =N∑

i=1

wiG(‖ xj − xi ‖) j = 1 . . . N

Utilizaremos la siguiente notacion:

Fλ = [Fλ(x1), Fλ(x2), . . . , Fλ(xN )]T

d = [d1, d2. . . . , dN ]T

G =

G(x1,x1) G(x1,x2) · · · G(x1,xN )G(x2,x1) G(x2,x2) · · · G(x2,xN )

......

. . ....

G(xN ,x1) G(xN ,x2) · · · G(xN ,xN )

w = [w1, w2, . . . , wN ]

Los coeficientes se determinan entonces resolviendo:{w = 1

λ (d− Fλ)Fλ = Gw

que implica que(G + λI)w = d (12)

Como G es simetrica, es diagonalizable y sus valores propios son reales. Como consecuencia estamosseguros de poder tomar λ de forma tal que la matriz G + λI sea definida positiva y por tantoinvertible. Luego,

w = (G + λI)−1d (13)

3.3.2 Eleccion del operador diferencial

Hasta aquı hemos visto como hallar el mınimo de E , siempre y cuando hallamos elegido el operador D yencontremos cual es la funcion de Green del operador L = DD. Veremos ahora un operador particular degran interes ya que la funcion de Green que inducira sera una exponencial. El operador en cuestion es:

D =∑

k

α12k (

∂

∂x1+

∂

∂x2+ · · ·+ ∂

∂xn)k

donde αk = σ2ki

k!2n . Es un operador que toma en cuenta las derivadas en todos los ordenes, ponderando maslas primeras. El operador L que induce es:

L =∑

k

(−1)kαk∇2k

siendo ∇2 = ∂2

∂x12 + ∂2

∂x22 + · · ·+ ∂2

∂xn2 el operador Laplaciano. La funcion de Green que le corresponde es:

G(x,xi) = e− ‖x−xi‖

2

2σ2i

La solucion finalmente sera:

Fλ(x) =n∑

i=1

wie− ‖x−xi‖

2

2σ2i (14)

13

3.3.3 Resumen de resultados de la Teorıa de Regularizacion

• La teorıa de regularizacion justifico el uso de las funciones radiales, ya que cualquier operadordiferencial razonable que uno pudiera elegir sera invariante por traslaciones y rotaciones. Tambiense justifico el nombre de las redes RBF, ya que se demostro que teoricamente la mejor solucion caeen un espacio de dimension N y una base de dicho espacio esta formada por funciones radiales.

• Se vio que para un operador en particular, que toma en cuenta todas las derivadas, la solucion esde forma gaussiana (ecuacion (14)).

• El calculo de los coeficientes wi implica invertir una matriz NxN .

• Se deben poner N neuronas en la primer etapa de la red. Esto no es muy bueno, ya que uno tiendea tomar el mayor numero de muestras que sea posible, y a mayor numero de muestras mas complejasera la red y mas costoso invertir la matriz G.

• En caso de conseguir nuevas muestras para entrenar la red se debe modificar la arquitectura de lamisma.

• Si se toma λ = 0 la eleccion de los coeficientes serıa w = G−1d, que es el mismo resultado que seobtendrıa por interpolacion directa.

3.3.4 Generalizacion de las redes RBF

Dado lo costoso que serıa tomar una base de N elementos, se pretende ajustar la teorıa al caso en que unotoma una base de m1 elementos, siendo en general m1 mucho menor que N . Se obtendra una solucionF ∗(x) sub-optima, proveniente de proyectar el problema en un espacio de menor dimension.Los resultados de las secciones anteriores nos incitan a trabajar con funciones radiales. Tomaremosentonces un conjunto de funciones

ϕi(x) = G(‖ x− ti ‖) i = 1, 2, . . . ,m1

y buscaremos F ∗(x) en el espacio generado por dichas funciones. El conjunto de centros {ti/i =1, 2, . . . ,m1} debe ser elegido previamente con algun criterio. Debemos elegir los coeficientes wi quenos den la mejor F ∗(x) de la forma

F ∗(x) =m1∑i=1

wiG(x, ti) =m1∑i=1

wiG(‖ x− ti ‖) (15)

Los elegiremos de forma tal de minimizar el nuevo funcional de costo

E(F ∗) =N∑

i=1

di −m1∑j=1

wjG(‖ x− tj ‖)

2

+ λ ‖ D(F ∗) ‖2 (16)

Redefiniendo la matriz G como

G =

G(x1, t1) G(x1, t2) · · · G(x1, tm1)G(x2, t1) G(x2, t2) · · · G(x2, tm1)

......

. . ....

G(xN , t1) G(xN , t2) · · · G(xN , tm1)

14

podemos expresar el primer termino como ‖ d−Gw ‖2. Para reescribir el segundo termino nos valdremosde que:

‖ D(F ∗) ‖2 = 〈D(F ∗),D(F ∗)〉

= 〈m1∑i=1

wiG(x, ti), D(D(m1∑j=1

wjG(x, tj)))〉

=m1∑i=1

m1∑j=1

wiwj〈G(x, ti),L(G(x, tj))〉

=m1∑i=1

m1∑j=1

wiwj〈G(x, ti), δ(x− tj)〉

=m1∑i=1

m1∑j=1

wiwjG(tj , ti)

= wT G0w

donde G0 es la matriz cuadrada m1xm1 dada por:

G0 =

G(t1, t1) G(t1, t2) · · · G(t1, tm1)G(t2, t1) G(t2, t2) · · · G(t2, tm1)

......

. . ....

G(tN , t1) G(tN , t2) · · · G(tm1 , tm1)

Finalmente debemos encontrar w para minimizar:

E(w) =‖ d−Gw ‖2 +λwT G0w

= dT d + wT GT Gw −wT GT d + λwT GT0 w

= wT (GT G + λGT0 )w −wT GT d + dT d

Derivando respecto a w tenemos que:

dEdw

= 2(GT G + λGT0 )w − 2GT d = 0

⇔ (GT G + λGT0 )w = GT d

El sistema a resolver para hallar los coeficientes ahora tiene dimension m1 y su solucion es:

w = (GT G + λGT0 )−1GT d (17)

En caso de tomar λ = 0 se llegarıa a quew = G+d (18)

siendo G+ = (GT G)−1GT la pseudoinversa de la matriz G.

3.4 Tecnicas de aprendizaje en las redes RBF

Veremos a continuacion 3 tecnicas diferentes de aprendizaje en RNA. Consideraremos como siempre unsistema de n entradas y una sola salida, del cual se tiene un a muestra de N parejas entrada-salida{xi, di}N

i=1. El numero de neuronas de la capa oculta es m1. Para elegir este valor, tenemos un compromiso:

• De acuerdo a lo expuesto en la seccion 3.1 es conveniente elegir m1 mucho mayor que el numero deentradas n.

• De acuerdo a la Teorıa de Regularizacion el ideal es tomar m1 = N , pero un valor grande de m1

aumenta la complejidad de la RNA.

Se suele tomar un valor intermedio entre n y N . Claro esta, si tomamos m1 = N podemos utilizar elmetodo que nos brinda la Teorıa de Regularizacion estudiada en la seccion 3.3.

15

3.4.1 Metodo de Centros Fijos

Este es un metodo basado en la practica, pero no tiene grandes fundamentos teoricos. Se utilizan funcionesradiales del tipo gaussiano. El procedimiento es el siguiente:

1. Se eligen de forma aleatoria m1 elementos del conjunto {xi}Ni=1. Estos seran los centros de las

funciones radiales de las neuronas de la capa oculta.

2. Se calcula la desviacion estandar de las gaussianas como

σ =dmax√2m1

(19)

donde dmax es la maxima distancia entre los centros. Todas las gaussianas tendran la misma des-viacion.

3. Para hallar los coeficientes se sugieren tres alternativas:

• Utilizar resultados de la teorıa de regularizacion generalizada. Esto implica elegir un valor paraλ y utilizar la ecuacion (17).

• Utilizar la pseudoinversa de G, siendo w = G+d (ver seccion 3.3.4).

• Utilizar algun metodo iterativo como ser el LMS o el RLS.

Para que este metodo funcione razonablemente bien, es necesario que las muestras sea representativas, yaque en funcion de ellas se toman los centros. Tambien se debe cumplir que la relacion entrada-salida realno presente grandes picos ni zonas demasiado planas. En dicha situacion se deberıa variar el valor de σen los diferentes centros.

3.4.2 Metodo Hıbrido

Este metodo pretende hacer uso de tecnicas diferentes: una no supervisada y una supervisada. Para hallarla ubicacion de los centros se utiliza una tecnica no supervisada. Para hallar los coeficientes se usa unatecnica supervisada.Se pretende ubicar los centros en las zonas del espacio de entrada que tengan mayor densidad. Para esto laidea es ubicar neurona en posiciones arbitrarias y luego, por algun algoritmo, lograr que estas se muevanhacia las zonas mas densas. Para ubicar las zonas mas densas se deben conocer valores de entradas a lared, pero no es necesario conocer las salidas. De aquı que sea un aprendizaje no supervisado. Un posiblealgoritmo para lograr esto es el siguiente:

1. Inicializacion: Se toman valores iniciales para los centros ti(0) con i = 1, . . . ,m1. Se requiere quesean todos diferentes.

2. Muestreo: Se obtiene una muestra aleatoria xj del espacio de entrada.

3. Competencia: Se halla el ındice kj correspondiente al centro cuya distancia al vector xj es menor,o sea, kj = ind mink ‖ xj − tk(j) ‖

4. Ajuste: Se reubican los centros segun la regla:

tk(j) ={

tk(j) + η1(xj − tk(j)) si k = kj

tk(j) en otro caso (20)

Esta regla acercar al centro ganador al vector de entrada xj y mantiene los demas quietos. Existenotras reglas que penalizan a los centros perdedores, haciendo tk(j+1) = tk(j)−η2(xj−tk(j)) si k 6=kj .

16

Los pasos 2, 3 y 4 se realizan tantas veces como numero de muestras del espacio de entrada se decidanutilizar para al aprendizaje de los centros. Este algoritmo es la base de las redes neuronales competitivas,en las que no se pretende simular un sistema sino clasificar generar una particion en un cierto espacio, esdecir, agrupar entradas segun caracterısticas comunes.Una vez ubicados los centros, se deben hallar los coeficientes wi. Para esto se pueden usar los metodospropuestos para el caso de los centros fijos. Tambien en caso de trabajar con exponenciales resta elegir ladesviacion estandar σi de cada funcion. Se aspira en este metodo tener una convergencia mas veloz en loscoeficientes que en el metodo anterior ya que los centros se eligieron con un metodo mas elaborado.

3.4.3 Metodo del Gradiente

La idea es proceder de forma similar a lo que se hace en el algoritmo LMS. Se define una funcion de costoE cuyo valor en el instante k es:

E(j) =12|e(j)|2

donde e(j) es la diferencia entre la salida deseada en el instante j y la salida de la red con los valores delos coeficientes en dicho instante:

e(j) = d(j)−m1∑i=1

wi(j)G(‖ x(j)− ti(j) ‖)

= d(j)−m1∑i=1

wi(j)e− ‖x(j)−ti(j)‖2

2σ2i(j)

=⇒ E(j) =12

(d(j)−

m1∑i=1


2σ2i(j)

)2

La funcion de costo depende de ti(j), wi(j) y de σi(j) para i = 1, 2, . . . ,m1. Las derivadas parcialesrespecto a dichas variables dan:

∂E∂ti(j)

= −

(d(j)−

m1∑i=1


σ2i(j)

)(wi(n)e

− ‖x(j)−ti(j)‖2

2σ2i(j)

)(x(j)− ti(j)

σ2i (j)

)= −e(j)wi(j)G(‖ x(j)− ti(j) ‖)

(x(j)− ti(j)

σ2i (j)

)∂E

∂wi(j)= −e(j)wi(j)G(‖ x(j)− ti(j) ‖)

∂E∂σ2

i (j)= −e(j)wi(j)G(‖ x(j)− ti(j) ‖)

‖ x(j)− ti(j) ‖2

σ2i (j)

El gradiente de nuestra funcion de costo sera:

∇E =[

∂E∂t1(j)

, . . . ,∂E

∂tm1(j),

∂E∂w1(j)

, . . . ,∂E

∂wm1(j),

∂E∂σ1(j)

, . . . ,∂E

∂σm1(j)

]Como todos los metodos basados en el gradiente, para buscar un mınimo se debe moverse en direccionopuesta al gradiente, ya que el gradiente indica el sentido de mayor crecimiento de una funcion. Separtira de un valor inicial, y se iran ajustando los parametros de acuerdo a la regla del gradiente. Es unmetodo de aprendizaje supervisado. Se realizaran N ajustes, siendo N el numero de parejas entrada-salidaconocidas. En algunos casos se suele tomar pasos adaptivos diferentes en cada tipo de parametro, o sea,

17

tomar ηt, ησ, ηw y ajustar los parametros ası:

ti(j + 1) = ti(j) + ηte(j)wi(j)G(‖ x(j)− ti(j) ‖)(

x(j)− ti(j)σ2

i (j)

)(21)

wi(j + 1) = wi(j) + ηwe(j)wi(j)G(‖ x(j)− ti(j) ‖) (22)

σ2i (j + 1) = σ2

i (j) + ησe(j)wi(j)G(‖ x(j)− ti(j) ‖)‖ x(j)− ti(j) ‖2

σ4i (j)

(23)

18

3.5 Aplicacion: Decision de sımbolo enviado en un Sistema de Comunicacion

Un sistema de comunicaciones esta formado basicamente por tres partes: transmisor, canal y receptor.Si el sistema es de tiempo continuo, la etapa de transmision consiste en muestrear la senal a transmitir,cuantificarla y codificarla. Por el canal se transmite la senal codificada y al llegar a la recepcion sedecodifica y luego se pasa por algun tipo de reconstructor. En la figura 9 se observa un esquema de unsistema de comunicacion.Si se tiene un cuantificador de n bits, al cuantificar una muestra, se obtiene un valor entre 2n posibles y

��

� ��

�

��

��

��

� �

��!��

��

Figura 9: Sistema de Comunicacion

se correspondera con una secuencia de n bits. Existen muchas formas de enviar la secuencia por el canal.Se puede enviar un sımbolo por cada bit o bien agrupar los bits a transmitir, enviandose un sımbolo porcada m bits. En el primer caso, hay solo dos sımbolos posibles a transmitir y se dice que el alfabeto esbinario. En el segundo caso hay 2m sımbolos posibles y el alfabeto es m-ario. El codificador toma cadasımbolo, lo codifica y lo envıa por el canal. A la salida del canal se decodifica y se deberıa obtener elsımbolo transmitido. En la practica esto no sucede ya que el canal introduce ruido y la decodificacionnunca es perfecta. El canal suele actuar como un filtro pasabajos y en la decodificacion se suele tenerpresencia de ISI (interferencia inter-simbolica). Como consecuencia a la salida del decodificador se debeponer algun tipo de elemento que decida a partir de la salida de este, cual de los sımbolos del alfabeto fueenviado. A este nuevo elemento lo llamaremos selector. Este selector tendra una cierta probabilidad deerror a la que llamaremos Pe. La performance del sistema de comunicacion se medira en funcion de Pe,que dependera de tres factores:

• Calidad del canal (ancho de banda y potencia del ruido que introduzca).

• Tipo de codificacion elegido.

• Tipo de selector elegido.

Notemos que una codificacion m-aria tendra a mayor m mayor tasa de bits por sımbolo, lo que implicaque cada sımbolo transmitido lleva consigo mas informacion. Como contraparte a mayor m mas difıcilsera tener una regla de decision con baja Pe.Un camino posible para la eleccion del selector es realizar un analisis de la distribucion de los ruidos intro-ducidos y posteriormente tomar una regla de seleccion de forma de minimizar Pe. Este camino tiene dosinconvenientes: es un trabajo teorico arduo encontrar un buen modelo para el ruido y ademas se agregauna cierta probabilidad de error por errores en dicho modelo. En [4] se profundiza sobre este camino.Tambien se profundiza sobre diferentes tipos de codificacion4. El modelo para el ruido suele ser aditivo,blanco y gaussiano.Se pretende en esta aplicacion crear un selector que sea una RNA. Requerira una etapa de aprendizaje.Tomaremos el caso de alfabeto binario, con el fin de que la RNA tenga una sola salida. Para poderdecidir en un alfabeto m-ario serıa necesario contar con log2(m) salidas. Trabajaremos con redes RBF yevaluaremos la performance de cada uno de los algoritmos de aprendizaje propuestos en la seccion 3.4.

4La codificacion se realiza a su vez en etapas: una primer etapa en la que se decide que se va a codificar y surgen tecnicascomo PCM diferencial (DPCM) y la modulacion delta(MD), una segunda etapa en que codifica los pulsos de forma unipolaro bipolar, con o sin retorno a cero, y una tercer etapa llamada conformacion, donde se le da una forma a los continua pulsos,como ser por ejemplo los pulsos de Nyquist.

19

3.5.1 Planteo del problema en terminos de RNA

Los sımbolos factibles de ingresar al codificador seran dos vectores de R2 a los que llamaremos µ1 y µ2

(el alfabeto sera A = {µ1, µ2}). Cada entrada x(i) a la RNA sera la salida del decodificador, sımboloα(i) codificado contaminado por un ruido η(i). Asumiremos que el ruido es aditivo, siendo por tantox(i) = α(i) + η(i). La salida y que se desea obtener en la RNA es:

y(i) ={

1 si α(i) = µ1

0 si α(i) = µ2(24)

Llamaremos H1 al suceso α = µ1 y H2 al suceso α = µ2. La probabilidad de que suceda H1 la llamaremosp1 y la de que suceda H2 la llamaremos p2. Como el alfabeto es binario p1 = 1 − p2. Asumiremos unadistribucion para el ruido, si bien no sera la misma para ambos sımbolos. Para ambos sımbolos asumiremosruido gaussiano de media nula, pero tendra varianzas σ1 y σ2. Se puede expresar entonces la distribucionde x condicionada al sımbolo enviado como:

fx(x|H1) =1

2πσ21

e− ‖x−µ1‖

2

2σ21 (25)

fx(x|H2) =1

2πσ22

e− ‖x−µ2‖

2

2σ22 (26)

Las figuras 10 y 11 nos muestran la forma de dichas distribuciones. Dado que estamos asumiendo una

−5

0

5

−5

0

50

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

Figura 10: Funcion de densidad de x|H1

cierta distribucion para el ruido, se puede realizar un analisis teorico sobre cual serıa la mejor forma detomar la decision. La forma de lograr esto es calcular la probabilidad de error Pe y minimizarla. Tomaruna regla de decision es decir {

decido H1 si x ∈ Z1

decido H2 si x ∈ Z2

siendo Z1 y Z2 dos regiones disjuntas cuya union es R2. La probabilidad de error valdra:

Pe = p1

∫Z2

fx(x|H1)dx + p2

∫Z1

fx(x|H2)dx

= p1(1−∫Z1

fx(x|H1)dx) + p2

∫Z1

fx(x|H2)dx

=⇒ Pe = p1 +∫Z1

[p2fx(x|H2)− p1fx(x|H1)] dx (27)

20

−5

0

5

−5

0

50

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

Figura 11: Funcion de densidad de x|H2

La forma optima de tomar la decision sera que Z1 este formada por todos aquellos puntos que satisfacenp2fx(x|H2)− p1fx(x|H1) < 0. Dicho de otra forma, la decision sera:

decido H1 si fx(x|H2)fx(x|H1)

< p1p2

decido H2 si fx(x|H2)fx(x|H1)

> p1p2

(28)

Utilizando las ecuaciones (25) y (26), tenemos que la frontera de decision se transforma en:

e− ‖x−µ1‖

2

2σ21

+‖x−µ2‖

2

2σ22 =

p1

p2

σ21

σ22

⇐⇒‖ x− µ2 ‖2 σ21− ‖ x− µ1 ‖2 σ2

2 = 2σ21σ2

2ln(p1

p2

σ21

σ22

)

⇐⇒‖ x ‖2 (σ21 − σ2

2)− ‖ µ1 ‖2 σ22+ ‖ µ2 ‖2 σ2

1 − 2〈x, σ21µ2 − σ2

2µ1〉 = 2σ21σ2

2ln(p1

p2

σ21

σ22

)

⇐⇒‖ x ‖2 −2〈x,σ2

1µ2 − σ22µ1

(σ21 − σ2

2)〉 =

2σ21σ2

2ln(p1p2

σ21

σ22)+ ‖ µ1 ‖2 σ2

2− ‖ µ2 ‖2 σ21

(σ21 − σ2

2)

⇐⇒‖ x− σ21µ2 − σ2

2µ1

(σ21 − σ2

2)‖2=

2σ21σ2

2ln(p1p2

σ21

σ22)+ ‖ µ1 ‖2 σ2

2− ‖ µ2 ‖2 σ21

(σ21 − σ2

2)+ ‖ σ2

1µ2 − σ22µ1

(σ21 − σ2

2)‖2

⇐⇒‖ x− σ21µ2 − σ2

2µ1

(σ21 − σ2

2)‖2= σ2

1σ22

σ21 − σ2

2

[‖ µ1 − µ2 ‖2

σ21 − σ2

2

+ 2ln(p1

p2

σ21

σ22

)]

La frontera de decision es entonces una circunferencia C(xc, r) siendo: centro xc = σ21µ2−σ2

2µ1

(σ21−σ2

2)

radio r2 = σ21σ2

2σ21−σ2

2

[‖µ1−µ2‖2

σ21−σ2

2+ 2ln(p1

p2

σ21

σ22)]

Hemos hallado de forma teorica cual es la region de decision optima. La gran diferencia entre este analisisteorica y el que realizaremos con RNA es que para poder decidir de forma optima fue necesario conocertodo sobre la distribucion de los sımbolos y su ruido, lo que implicarıa conocer a la perfeccion el canaly la forma de codificacion, mientras que trabajando con RNA no es necesario conocer nada mas que unconjunto de entradas y salidas.

21

Eleccion de valores para la simulacion

Los valores elegidos fueron:

Notacion Valor Descripcionµ1 (0, 0)T sımbolo del alfabetoµ2 (2, 0)T sımbolo del alfabetoσ2

1 1 varianza del ruido que afecta a µ1

σ22 4 varianza del ruido que afecta a µ2

p1 0.5 probabilidad de aparicion del sımbolo µ1

p2 0.5 probabilidad de aparicion del sımbolo µ2

Podemos calcular ahora centro y radio de la frontera de decision:{centro xc = (− 2

3 , 0)T

radio r ' 2.34

Tambien se puede calcular la probabilidad de error que se tendrıa en caso de que el selector decida de formaoptima, utilizando la ecuacion (27). Resolviendo la integral de forma numerica se tiene que Pe = 0.1849.En consecuencia la probabilidad de que decida correctamente es Pc = 0.8151.En la proxima seccion procederemos a simular las tecnicas de aprendizaje con estos valores. Buscaremospara cada tecnica averiguar cual es el porcentaje de aciertos y cual es la frontera de decision que adopta.Sabemos teoricamente por como se generaran los datos que una cota para el porcentaje de aciertos es el81.51%.

3.5.2 Simulaciones

La notacion que utilizaremos siempre sera

Notacion Descripcionm1 no de neuronas en la capa ocultaN no de muestras disponibles para el aprendizajeP no de muestras utilizadas para evaluar el resultado obtenidox vector de muestras de entrada (Nx2)d vector de muestras de salida (Nx1)

xP vector de muestras de entrada (Px2)dP vector de muestras de salida (Px1)λ parametro de regularizacionK no de ensambles considerados para promediar

Una descripcion de los programas utilizados para las simulaciones se encuentra en el apendice A.

Simulacion No1 :

Se brindan a continuacion los resultados y observaciones de simular los resultados de la Teorıa de Regu-larizacion(ver seccion 3.3).Se tomo siempre N = m1, pero se probo con diferentes valores de N y λ. Para la eleccion de σ se siguioel criterio de la ecuacion (19). Se tomo P = 1000 y K = 20.Resultados

Tabla de estimaciones de Pe

N\λ 0 0.05 0.1 0.2 0.3 0.5 120 0.443 0.373 0.366 0.361 0.363 0.371 0.40550 0.459 0.322 0.319 0.315 0.316 0.322 0.343100 0.472 0.300 0.294 0.293 0.294 0.298 0.314200 0.475 0.280 0.279 0.277 0.279 0.286 0.307

22

Observaciones

• Hay una gran dependencia con el parametro λ.

• Los resultados para λ = 0 son bastante pobres. Recordemos que este caso se corresponde con realizaruna interpolacion estricta.

• Un buen valor para λ serıa λ = 0.2.

• Respecto al numero de muestras N , la tabla parece indicar que a mayor N mejor seran los resultados,sin embargo se suelen presentar problemas en el numero de condicion de la matriz de funciones deGreen que se debe utilizar para calcular los coeficientes de la RNA, ademas de que el tiempo deprocesamiento crece en gran forma, ya que dicha matriz es de dimension N . Un valor razonableserıa tomar N = 100

• En el mejor caso, se esta teniendo un porcentaje de acierto apenas por encima del 70%. Se estaaproximadamente un 10% por debajo del optimo.

Simulacion No2 :

Se simula ahora utilizando el metodo de los Centros Fijos descrito en la seccion 3.4.1.Los valores de N , m1 y λ utilizados se muestran en la tabla. Para la eleccion de σ se siguio el criterio dela ecuacion (19). Se tomo P = 1000 y K = 20.Resultados

Tabla de estimaciones de Pe

N,m1\λ 0 0.1 0.2 0.3 0.5 120,4 0.371 0.372 0.375 0.378 0.384 0.39550,10 0.323 0.322 0.323 0.327 0.332 0.341100,20 0.271 0.268 0.271 0.274 0.280 0.293200,50 0.264 0.252 0.251 0.251 0.253 0.261500,50 0.238 0.237 0.238 0.238 0.238 0.2421000,50 0.238 0.238 0.238 0.238 0.239 0.2415000,50 0.226 0.226 0.227 0.227 0.228 0.229

Observaciones

• No hay grandes variaciones con λ.

• Si bien los mejores valores se dan para λ = 0.2, en caso de querer simplificar el problema, se podrıatomar λ = 0 sin mayores perdidas.

• A mayor N mejor seran los resultados.

• Dejando m1 = 50 se realiza aproximadamente la misma cantidad de operaciones independientementedel N elegido, ya que la mayor dificultad es la inversion de la matriz GT G + λGT

0 que tendradimension m1.

• Se alcanzan porcentajes de acierto del orden del 77%, muy cercanas al maximo teorico.

23

Simulacion No3 :

Se simula ahora utilizando el metodo hıbrido descrito en la seccion 3.4.2.Cada tabla corresponde a un valor de η1. Para la eleccion de σ se siguio el criterio de la ecuacion (19).Se tomo P = 1000 y K = 20. El no de centros tomado en cada caso es m1, el no de muestras tomadaspara la etapa competitiva fue N

2 −m1. Para la etapa del calculo de coeficientes se utilizan N2 muestras.

Resultados

Tabla de estimaciones de Pe para η1 = 0.1 :

N,m1\λ 0 0.1 0.2 0.3 0.4 0.5 1 220,4 0.407 0.409 0.414 0.420 0.426 0.429 0.455 0.47850,10 0.419 0.405 0.411 0.417 0.423 0.428 0.432 0.447100,20 0.321 0.315 0.317 0.320 0.323 0.326 0.344 0.379200,50 0.339 0.310 0.306 0.308 0.310 0.315 0.326 0.3461000,50 0.235 0.235 0.235 0.236 0.238 0.239 0.247 0.257


N,m1\λ 0 0.1 0.2 0.3 0.4 0.5 1 220,4 0.408 0.407 0.413 0.419 0.427 0.436 0.466 0.48150,10 0.360 0.353 0.359 0.365 0.367 0.372 0.389 0.423100,20 0.309 0.290 0.295 0.298 0.303 0.306 0.320 0.347200,50 0.322 0.274 0.275 0.278 0.282 0.285 0.301 0.3291000,50 0.244 0.246 0.249 0.252 0.254 0.256 0.260 0.273


N,m1\λ 0 0.1 0.2 0.3 0.4 0.5 1 220,4 0.438 0.474 0.489 0.497 0.498 0.501 0.508 0.51150,10 0.362 0.345 0.346 0.349 0.350 0.354 0.381 0.418100,20 0.326 0.319 0.317 0.318 0.323 0.328 0.347 0.380200,50 0.330 0.290 0.289 0.291 0.293 0.297 0.311 0.3411000,50 0.234 0.235 0.237 0.238 0.240 0.241 0.245 0.254


N,m1\λ 0 0.1 0.2 0.3 0.4 0.5 1 220,4 0.401 0.414 0.425 0.432 0.441 0.444 0.444 0.46350,10 0.318 0.328 0.335 0.343 0.352 0.358 0.378 0.411100,20 0.331 0.321 0.322 0.326 0.330 0.333 0.344 0.371200,50 0.304 0.274 0.276 0.279 0.280 0.283 0.292 0.3171000,50 0.241 0.242 0.244 0.246 0.247 0.248 0.254 0.262


N,m1\λ 0 0.1 0.2 0.3 0.4 0.5 1 220,4 0.421 0.418 0.422 0.427 0.431 0.436 0.458 0.49450,10 0.341 0.337 0.340 0.346 0.357 0.359 0.388 0.473100,20 0.331 0.319 0.316 0.318 0.320 0.324 0.338 0.372200,50 0.334 0.298 0.302 0.303 0.303 0.304 0.313 0.3451000,50 0.234 0.235 0.237 0.237 0.238 0.239 0.245 0.252

Observaciones

• No hay grandes variaciones con λ. Cuando η1 crece los mejores resultados se dan a menor λ.

24

• Para η1 chico, los resultados son muy similares a los del metodo de los centros fijos.

• A mayor N mejor seran los resultados.

• El numero de operaciones esta gobernado por el valor de m1.

• Los resultados son similares a los de la simulacion 2.

• Se alcanzan porcentajes de acierto del orden del 77%, muy cercanas al maximo teorico.

3.5.3 Conclusiones de la Aplicacion

Para implementar las RNA no fue necesario conocer ninguna propiedad estadıstica del ruido. Losresultados teoricos fueron un poco mejores que los de las RNA, pero en la realidad no se conoceraexactamente las propiedades del ruido, y cualquier modelo que uno realice para el mismo tendra uncierto error. En consecuencia los resultados obtenidos con las RNA seran probablemente superioresa los teoricos.El metodo de los centros fijos, pese a ser el mas simple, dio muy buenos resultados. Tiene la granventaja de poder trabajar con N muy grande sin aumentar mayormente el no de cuentas, siemprey cuando se mantenga m1 fijo. El parametro de regularizacion λ influyo de manera perceptibleunicamente en la simulacion de los resultados de la Teorıa de Regularizacion (Simulacion 1). Endicha simulacion, si se tomaba N muy grande, aparecıan con frecuencia matrices mal condicionadas.Cada simulacion implica un numero realmente grande de cuentas. Trabajando con un procesadorPentium II con 256MB de memoria RAM, fue necesario para algunas simulaciones hasta 15 minutos.Si bien en la implementacion de los algoritmos en Matlab no se intento minimizar el numero decuentas, y quizas sea posible implementarlos de forma un poco mas veloz, se puede concluir que eluso de los algoritmos de RNA son prohibitivos en caso de no disponer de una gran capacidad deprocesamiento.La aplicacion se realizo con codificacion binaria (2 sımbolos) con el fin de poder comparar resultadosteoricos y practicos. Realizar un analisis teorico de cual es la zona en la que se decide por uno uotro sımbolo con mas de 2 sımbolos es realmente complicado. Trabajando con redes neuronales estono implicarıa gran esfuerzo, bastarıa con tomar alguna salida mas.

25

4 Conclusiones

El objetivo que persigue el estudio de las RNA es poder trabajar con sistemas complejos, difıciles demodelar en forma teorica. Para implementar una RNA, es necesario conocer del sistema apenas unaconjunto de parejas entrada-salida. Como contrapartida, es necesario disponer de una gran capacidad deprocesamiento.Se han analizado dos modelos de RNA: las Redes de Perceptones y las Redes RBF. Las Redes de Perceptro-nes son el modelo mas simple de RNA, basados en el funcionamiento de las Redes Neuronales Biologicas.Las Redes RBF tienen una mayor capacidad para reslver problemas de clasificacion. Su arquitecturaesta basada en resultados de la Teorıa de Regularizacion, que pretende aproximar las muestras con unasuperficie suave.Los dos modelos estudiados son modelos de RNA en los que el aprendizaje se realiza de forma supervisaday la propagacion se realiza siempre hacia adelante. Queda pendiente el estudio de RNA de aprendizajeno supervisado y RNA recursivas.

26

A Programas de Matlab

Los programas se encuentran en un disco adjunto. Haciendo help xxx se obtendra una descripcion detalladade los parametros que recibe y devuelve la funcion xxx.

Programa Utilidadsimulacion1.m Realiza la simulacion 1simulacion2.m Realiza la simulacion 2simulacion3.m Realiza la simulacion 3

met0.m Metodo de T. de la Regularizacion.met1.m Metodo de Centros Fijosmet2.m Metodo Hıbrido

diametro.m Calcula el diametro de un conjunto de puntosF.m Halla la salida a la RBF en xP

muestras.m Genera muestras entrada-salidagreen.m Arma la matriz de Green

pdfnormmult.m Variable Normal Multivariadagraficas3d.m Graficas de las pdf de los sımbolos

runge.m Grafica del fenomeno de Runge

Referencias

[1] Haykin,S. : Adaptive Filter Theory (Prentice-Hall 1996)

[2] Haykin,S. : Neural Networks : A Comprensive Foundation (Prentice-Hall 1999)

[3] Freeman,J.A./Skapura,D.M. : Neural Networks: Algorithms, Aplications and Programming Techni-ques (Addison Wealey 1991)

[4] Bruce Carlson,A. : Communication Systems (McGraw-Hill 3edicion)

[5] Alberts,B./Bray,D./Lewis,J./Kaff,M./Roberts,K./Watson,J. : Biologıa Molecular de La Celula(Omega 1992 2edicion)

[6] Thiria/Lechevallier/Gascuel/Canu : Statistique et methodes neuronales (Dunod 1997)

[7] Grompone, R. :Redes Neuronales ([email protected] 2001)

[8] Facultad de Ciencias UABC : Curso Redes Neuronales Artificiales ([email protected])

27

Indice General

1 Introduccion 1

2 El primer modelo: El Perceptron 32.1 El modelo biologico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.2 El Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32.3 Capacidad de clasificacion de un Perceptron . . . . . . . . . . . . . . . . . . . . . . . . . . 42.4 Ejemplo: la funcion EXOR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.5 Algunos resultados sobre Redes de Perceptrones Multicapa . . . . . . . . . . . . . . . . . 7

3 Redes RBF 83.1 Separacion de Patrones - Teorema de Cover . . . . . . . . . . . . . . . . . . . . . . . . . . 83.2 Arquitectura de las redes RBF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83.3 Como elegir la base de funciones: Teorıa de Regularizacion . . . . . . . . . . . . . . . . . 9

3.3.1 Obtencion de la solucion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103.3.2 Eleccion del operador diferencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.3.3 Resumen de resultados de la Teorıa de Regularizacion . . . . . . . . . . . . . . . . 143.3.4 Generalizacion de las redes RBF . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.4 Tecnicas de aprendizaje en las redes RBF . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.4.1 Metodo de Centros Fijos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.4.2 Metodo Hıbrido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163.4.3 Metodo del Gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.5 Aplicacion: Decision de sımbolo enviado en un Sistema de Comunicacion . . . . . . . . . . 193.5.1 Planteo del problema en terminos de RNA . . . . . . . . . . . . . . . . . . . . . . 203.5.2 Simulaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223.5.3 Conclusiones de la Aplicacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4 Conclusiones 26

A Programas de Matlab 27

28

redes neuronales -...

Documents