variantes de backpropagation

SEPTIEMBRE DE 2002

ESCOM IPN 1

SEPTIEMBRE DE 2002

ESCOM IPN 2

Técnicas Heurísticas y de

optimización Numérica

SEPTIEMBRE DE 2002

ESCOM IPN 3

Técnicas de Acelerar el algoritmo de Retropropagación. Técnicas Heurísticas

– Momento– Razón de aprendizaje variable

Técnicas de optimización numérica– Algoritmo de gradiente conjugado– Algoritmo de Levenberg-Marquardt

SEPTIEMBRE DE 2002

ESCOM IPN 4

SEPTIEMBRE DE 2002

ESCOM IPN 5

Características del algoritmo de Retropropagación.

El mejor avance en RNA Permite entrenar redes multicapa Aproximación de un algoritmo de

Gradiente Descendente SDBP es una generalización de LMS SDBP es equivalente LMS para red lineal

monocapa SDBP Se utiliza entre 80% a 85%

SEPTIEMBRE DE 2002

ESCOM IPN 6

La superficie de error de una red monocapa lineal tiene un solo mínimo y una curvatura constante

La superficie de error en una multicapa puede tener varios mínimos locales y la curvatura puede variar ampliamente en diferentes regiones.

SEPTIEMBRE DE 2002

ESCOM IPN 7

Error cuadrático vs. w1

1,1 y w21,1

-5 0 5 10 15-5

w11,1w2

SEPTIEMBRE DE 2002

ESCOM IPN 8

Ejemplo de Convergencia

-5 0 5 10 15-5

SEPTIEMBRE DE 2002

ESCOM IPN 9

Inconvenientes del algoritmo Básico (SDBP)

Algoritmo de entrenamiento muy lento

Tiempo de entrenamiento grande (días e incluso semanas)

La razón de aprendizaje es pequeña. 0.05 < < 0.25 (max=1)

SEPTIEMBRE DE 2002

ESCOM IPN 10

Razón de aprendizaje muy grande

-5 0 5 10 15-5

SEPTIEMBRE DE 2002

ESCOM IPN 11

Recomendaciones para iniciar los parámetros del SDBP

1.- No ajustar los parámetros iniciales a cero. 2.- no ajustar los parámetros iniciales a

valores grandes. 3.- Escoger valores iniciales aleatorios

pequeños. 4.- Probar con diferentes valores iniciales

hasta alcanzar un mínimo global o un error mínimo.

SEPTIEMBRE DE 2002

ESCOM IPN 12

Alternativas para mejorar la convergencia del algoritmo SDBP Incrementar la velocidad de aprendizaje

en superficies planas y disminuirla conforme la pendiente aumente.

Suavizar la trayectoria de convergencia (a través de un filtro)

SEPTIEMBRE DE 2002

ESCOM IPN 13

Ejemplos BPEjemplos BP

Método del Gradiente Método del Gradiente DescendenteDescendente

SEPTIEMBRE DE 2002

ESCOM IPN 14

Ejemplo: 1 Aplique el algoritmo de Gradiente Descendente a

la siguiente función.

Los Valores iniciales son:

A) Realice 5 iteraciones. B) Dibuje la superficie de error en 2D. C) Grafique los punto obtenidos.

21 25)( xxxF

SEPTIEMBRE DE 2002

ESCOM IPN 15

SEPTIEMBRE DE 2002

ESCOM IPN 16

Técnicas HeurísticasTécnicas Heurísticas

Método del Momento Basado en suavizar las oscilaciones en

la trayectoria hacia la convergencia al usar un filtro pasabajas.

Al incrementar el momento () las oscilaciones de la salida filtrada se reducen.

SEPTIEMBRE DE 2002

ESCOM IPN 17

El El MomentoMomento

0 50 100 150 2000

y k y k 1– 1 – w k +=

Filtro

0 1Ejemplo

w k 12k16

--------- sin+=

0.9= 0.98=

SEPTIEMBRE DE 2002

ESCOM IPN 18

m 1–

T–= b

k 1– 1 – sma

m 1–

bmk bm

k 1– 1 – sm–=

Algoritmo de Retropropagación de Gradiente Descendente

(SDBP)

Retropropagación con Momento(MOBP)

SEPTIEMBRE DE 2002

ESCOM IPN 19

Método del Momento (MOBP)

-5 0 5 10 15-5

k 1– 1 – sma

m 1–

bmk bm

k 1– 1 – sm–=

SEPTIEMBRE DE 2002

ESCOM IPN 20

Ventajas del método del Momento (MOBP)

Permite una razón de aprendizaje mayor

Se acelera la convergencia cuando la trayectoria se este moviendo en una dirección constante.

Tiende a hacer la la trayectoria continua en la misma dirección.

SEPTIEMBRE DE 2002

ESCOM IPN 21

SEPTIEMBRE DE 2002

ESCOM IPN 22

Razón de Aprendizaje Razón de Aprendizaje Variable (LVBP)Variable (LVBP)

Incrementa la velocidad de convergencia al aumentar la velocidad de aprendizaje en superficies planas y diminuye esta razón cuando la pendiente aumenta.

SEPTIEMBRE DE 2002

ESCOM IPN 23

Reglas del algoritmoReglas del algoritmo VLBP (1) VLBP (1)

1.- Si el error cuadrático se incrementa mayor a un porcentaje establecido (1% a 5%) después de haber actualizado W; entonces se descarta la actualización;

se multiplica por 0 < < 1 se ajusta a cero (si se utiliza el

momento).

SEPTIEMBRE DE 2002

ESCOM IPN 24

Reglas de algoritmo Reglas de algoritmo VLBP (2)VLBP (2)

2.- si el error cuadrático disminuye después de haber actualizado W, entonces la actualización es aceptada.

es multiplicada por un factor >1. Si había sido ajusta a cero, este

regresa a su valor original.

SEPTIEMBRE DE 2002

ESCOM IPN 25

Reglas de AlgoritmoReglas de Algoritmo VLBP VLBP

Si el error cuadrático se incrementa en un valor menor a , entonces la actualización de W se acepta pero no cambia.

Si había sido ajusta a cero, este regresa a su valor original.

Valores típicos: = 1.05 = 0.7 =4%

SEPTIEMBRE DE 2002

ESCOM IPN 26

Cuando la trayectoria viaja en línea recta, y el tamaño del paso tienden a incrementarse con una disminución del error constante.

Cuando la trayectoria llega a un valle angosto disminuye rápidamente.

SEPTIEMBRE DE 2002

ESCOM IPN 27

-5 0 5 10 15-5

100 102 1040

Iteration Number100 102 1040

Iteration Number

Ejemplo

SEPTIEMBRE DE 2002

ESCOM IPN 28

Variantes del AlgoritmoVariantes del Algoritmo VLBP VLBP

Delta-bar-delta (R. A Jacobs)

Algoritmo de tolerancia SuperSAB (T. Tollenaere)

Quickprop (S.E. Fahlman)

SEPTIEMBRE DE 2002

ESCOM IPN 29

Método del Momento Método del Momento

( () y ) y variablevariable

SEPTIEMBRE DE 2002

ESCOM IPN 30

Ejemplo: 1 Aplique el algoritmo de Razón de

Aprendizaje Variable y Momento a la siguiente función.

Valores iniciales:

21 25)( xxxF

5.12.005.0

SEPTIEMBRE DE 2002

ESCOM IPN 31

Inconvenientes de losInconvenientes de losMétodos HeurísticosMétodos Heurísticos

Requiere de ajustar muchos parámetros (, , ) algunos pueden tener hasta 6 parámetros; a diferencia de

SDBP que solo requiere . Pueden fallar en la convergencia donde

el algoritmo SDBP encuentra solución.

SEPTIEMBRE DE 2002

ESCOM IPN 32

Técnicas de Técnicas de Optimización NuméricaOptimización Numérica

El Gradiente conjugado (CGBP)

Levenberg-Marquardt (LMBP)

SEPTIEMBRE DE 2002

ESCOM IPN 33

SEPTIEMBRE DE 2002

ESCOM IPN 34

Algoritmo de Gradiente Algoritmo de Gradiente Conjugado (CGBP)Conjugado (CGBP)

CGBP converge a un mínimo de una función cuadrática en un numero finito de iteraciones.

El procedimiento general para localizar un mínimo de una función en una dirección requiere:

Localizar el intervalo donde se encuentra Reducir el intervalo

SEPTIEMBRE DE 2002

ESCOM IPN 35

Algoritmo deAlgoritmo de

*** Gradiente *** *** Gradiente ***

ConjugadoConjugado

SEPTIEMBRE DE 2002

ESCOM IPN 36

1. La primera dirección de búsqueda es el gradiente descendente

2. Tomar un paso y escoger una razón de aprendizaje para minimizar la función a lo largo de la dirección búsqueda.

p0 g0–= gk F x x x k=

xk 1+ xk kpk+=

SEPTIEMBRE DE 2002

ESCOM IPN 37

3. Seleccione la siguiente dirección de búsqueda de acuerdo a:

Donde:

pk gk– kpk 1–+=

gk 1–Tg k 1–

-------------------------=

k F x T

x x k=pk

F x 2x xk=

------------------------------------------------– g k

pkTAkpk

--------------------–= =

SEPTIEMBRE DE 2002

ESCOM IPN 38

Si el algoritmo no ha convergido regrese al paso 2.

SEPTIEMBRE DE 2002

ESCOM IPN 39

Método del Gradiente Método del Gradiente Conjugado Conjugado

SEPTIEMBRE DE 2002

ESCOM IPN 40

Ejemplo: 1 Aplique el algoritmo de Gradiente

Conjugado a la siguiente función.

Los valores iniciales son:

21 25)( xxxF

SEPTIEMBRE DE 2002

ESCOM IPN 41

Inconvenientes del algoritmo de Gradiente Conjugado. El algoritmo GC nos puede aplicar

directamente al entrenamiento de RNA, dado que el índice de desempeño de las mismas no es cuadrático.

No se puede usar k para minimizar la función a lo largo de una línea.

No se alcanzara un mínimo exacto en un numero finito de iteraciones.

SEPTIEMBRE DE 2002

ESCOM IPN 42

Para localizar un mínimo de una función en una dirección especificada se requiere:– a) Localización del intervalo.– b) Reducción del intervalo.

El propósito del paso de localización del intervalo es encontrar un intervalo inicial que contenga un mínimo local.

SEPTIEMBRE DE 2002

ESCOM IPN 43

El paso de la reducción del intervalo, reduce el tamaño del intervalo hasta que el mínimo es localizado en la precisión deseada.

Para lo anterior se propuso: “El método de búsqueda de la Sección

de Oro”

SEPTIEMBRE DE 2002

ESCOM IPN 44

A) Localización del IntervaloA) Localización del Intervalo

Búsqueda de la sección de oroBúsqueda de la sección de oro

SEPTIEMBRE DE 2002

ESCOM IPN 45

B) Reducción delB) Reducción del Intervalo Intervalo

SEPTIEMBRE DE 2002

ESCOM IPN 46

Búsqueda de la Búsqueda de la sección de orosección de oro=0.618

Set c1 = a1 + (1-)(b1-a1), Fc=F(c1)

d1 = b1 - (1-)(b1-a1), Fd=F(d1)

For k=1,2, ... repeatIf Fc < Fd then

Set ak+1 = ak ; bk+1 = dk ; dk+1 = ck

c k+1 = a k+1 + (1-)(b k+1 -a k+1 )

Fd= Fc; Fc=F(c k+1 )

elseSet ak+1 = ck ; bk+1 = bk ; ck+1 = dk

d k+1 = b k+1 - (1-)(b k+1 -a k+1 )

Fc= Fd; Fd=F(d k+1 )

endend until bk+1 - ak+1 < tol

SEPTIEMBRE DE 2002

ESCOM IPN 47

Ejemplo: 1 Realice una iteración del algoritmo de

Gradiente Conjugado para la función:

Para la minimización lineal use la localización del intervalo mediante la evaluación de la función F(x); y para la reducción del intervalo por medio de Búsqueda de la Sección de Oro.

21)( xxxxxF

SEPTIEMBRE DE 2002

ESCOM IPN 48

Algoritmo de gradiente Algoritmo de gradiente ConjugadoConjugado

-5 0 5 10 15-5

Pasos Intermedios Trayectoria Completa

SEPTIEMBRE DE 2002

ESCOM IPN 49

SEPTIEMBRE DE 2002

ESCOM IPN 50

Método de NewtonMétodo de Newtonxk 1+ xk Ak

1– gk–=

Ak F x 2x xk=

gk F x x xk=

Si el índice de desempeño es una suma del cuadrado de la función:

F x v i2 x

vT x v x = =

Entonces el j-esimo elemento del gradiente es

F x jF x

x j--------------- 2 vi x

vi x x j

---------------

SEPTIEMBRE DE 2002

ESCOM IPN 51

Forma de la Matriz

F x 2JTx v x =

El gradiente se puede escribir en forma de matriz:

Donde J es la matriz Jacobiana:

v1 x x1

----------------v1 x

x2----------------

v1 x xn

----------------

v2 x x1

----------------v2 x

x2----------------

v2 x xn

----------------

x1-----------------

vN x x2

-----------------vN x

xn-----------------

SEPTIEMBRE DE 2002

ESCOM IPN 52

Hessiano

F x 2 k j2 F x

xk x j------------------ 2

vi x x k

---------------vi x

x j--------------- vi x

2v i x xk x j

------------------+

F x 2 2JT x J x 2S x +=

S x vi x v i x 2

SEPTIEMBRE DE 2002

ESCOM IPN 53

Método de Método de Gauss-NewtonGauss-Newton

F x 2 2JTx J x

xk 1+ xk 2JT xk J xk 1–2JT xk v xk –=

xk JT xk J xk 1–JT xk v xk –=

Aproximar la matriz Hessiana como:

El método de Newton se transforma:

SEPTIEMBRE DE 2002

ESCOM IPN 54

Algoritmo: Algoritmo: Levenberg-MarquardtLevenberg-Marquardt

H JTJ=

G H I+=

1 2 n z1 z2 zn

Gz i H I+ zi Hzi zi+ izi zi+ i + z i= = = =

Gauss-Newton aproxima el Hesiano por:

Esta matriz puede ser singular, pero puede ser invertible como sigue:

Si los eigenvalores y eigenvectores de H son:

entonces Eigenvalues of G

xk 1+ x k JT x k J x k kI+ 1–JT xk v xk –=

SEPTIEMBRE DE 2002

ESCOM IPN 55

Ajuste de k

Conforme Conforme kk0, LM se transforma0, LM se transforma

en Gauss-Newtonen Gauss-Newton..

x k 1+ xk JT xk J xk 1–JT x k v xk –=

Conforme Conforme kk, LM se transforma en Gradiente , LM se transforma en Gradiente

Descendente con razón de aprendizaje pequeñaDescendente con razón de aprendizaje pequeña.

x k 1+ xk1k-----JT xk v xk – x k

12k--------- F x –=

SEPTIEMBRE DE 2002

ESCOM IPN 56

Por lo tanto, comience con un valor pequeño de k para usar Gauss Newton y

velocidad Convergencia. Si un paso no permite una

pequeña F(x), entonces repetir el paso con un parámetro k mayor, hasta que F(x)

sea decrementada. F(x) debe decrementarse eventualmente, puesto que habremos tomado un muy pequeño paso en la dirección del Gradiente Descendente.

SEPTIEMBRE DE 2002

ESCOM IPN 57

Aplicación a las Redes Multicapa

F x tq aq– Ttq aq–

e j q 2

= = = =

El índice de desempeño para la red multicapa es:

El vector de error es:

El vector parámetro es:

v1 v2 vNe 1 1 e2 1 e

1e1 2 e

xTx 1 x2 x n w1 1

w1 12 b

N Q SM=

Las dimensiones de los dos vectores son:

R 1+ S2

SM 1–

1+ + + +=

SEPTIEMBRE DE 2002

ESCOM IPN 58

Matriz JacobianaMatriz Jacobiana

--------------e1 1

-------------- e1 1

1----------------

------------

--------------

1----------------

------------

---------------e

---------------ee

1----------------

----------------

--------------

1----------------

------------

SEPTIEMBRE DE 2002

ESCOM IPN 59

Calculo del JacobianoCalculo del Jacobiano

F̂ x x l

---------------eq

x l-----------------=

SDBP calcula terminos como:

J h lvhxl

--------e k q

xl------------= =

Para el Jacobiano se necesita calcular terminos como:

w i jm

------------F̂

---------

------------=

sim F̂

---------

Usando la regla de la cadena:

Donde la sensibilidad

Se calcula usando backpropagation.

SEPTIEMBRE DE 2002

ESCOM IPN 60

Sensibilidad de Sensibilidad de MarquardtMarquardt

Si se define una sensibilidad de Marquardt :

s̃i hm vh

------------ek q

------------= h q 1– SMk+=

Se puede calcular la Jacobiana como sigue:

J h lv h

x l--------

------------ek q

------------ni q

w i jm

------------ s̃i hm ni q

------------ s̃i hm

a j qm 1–

= = = = =

Pesos W

Umbral B

J h lvhxl

--------ek q

------------

------------ni q

------------ s̃i hm ni q

------------ s̃i hm

= = = = =

SEPTIEMBRE DE 2002

ESCOM IPN 61

Calculo de las Calculo de las SensibilidadesSensibilidades

s̃i hM vh

------------ek q

------------tk q ak q

--------------------------------ak q

------------–= = = =

s̃i hM

ni qM – for i k=

0 for i k

FÝMnq

M –=

FÝmnq

m( ) Wm 1+

m 1+= S̃

m S̃Q

Backpropagation

Iniciación

SEPTIEMBRE DE 2002

ESCOM IPN 62

Algoritmo LMBPAlgoritmo LMBP Presentar todas las entradas a la red y

calcular la salidas correspondiente y los errores. Calcular la suma de los errores cuadráticos en todas las entradas.

Calcular la matriz Jacobiana. Después de inicializar, calcule la sensibilidades con el algoritmo de retropropagación. Aumente la matrices en las sensibilidades de Marquardt. Calcule los elementos de la matriz Jacobiana.

SEPTIEMBRE DE 2002

ESCOM IPN 63

Solucione para obtener el cambio en los pesos.

Recalcule la suma del error cuadrático con los nuevos pesos. – Si esta nueva suma de cuadrados es mas

pequeña, que el calculado en el paso 1, entonces divida k en actualice los

pesos y regrese al paso 1.– Si la suma de los cuadrados no es

reducida, entonces multiplique k por y

regrese al paso 3.

SEPTIEMBRE DE 2002

ESCOM IPN 64

Ejemplo de LMBP Ejemplo de LMBP

-5 0 5 10 15-5

SEPTIEMBRE DE 2002

ESCOM IPN 65

Trayectoria del LMBPTrayectoria del LMBP

-5 0 5 10 15-5

SEPTIEMBRE DE 2002

ESCOM IPN 66

Método de Levenberg Método de Levenberg MarquardtMarquardt

SEPTIEMBRE DE 2002

ESCOM IPN 67

Ejemplo: 1 Encuentre la matriz Jacobina para el

primer paso del método de Levenberg Marquardt. Vea la figura siguiente.

1111 bpWfa 2222 baWfa

21 nnf nnf 2

SEPTIEMBRE DE 2002

ESCOM IPN 68

Los pares entrada / salida son:

Los paramentos iniciales son:

11 11 TP 22 22 TP

01 11 bW

12 22 bW

SEPTIEMBRE DE 2002

ESCOM IPN 69

El LMBP es el algoritmo mas rápido que se ha probado para entrenar redes neuronales multicapa de tamaño moderado.

Su principal inconveniente es los requerimientos de memoria; si la red tiene mas de unos cuantos cientos de parámetros el algoritmo se vuelve impráctico.

Conclusiones del Conclusiones del

LMBPLMBP

SEPTIEMBRE DE 2002

ESCOM IPN 70

Simulación en

Matlab / NNT

SEPTIEMBRE DE 2002

ESCOM IPN 71

trainbpx Entrena redes multicapa con

retropropagación rápida. Se puede usar para redes de una,dos o tres capas.

Ejemplo use la funcion trainbpx para una red de dos capas.

[W1,b1,W2,b2,epochs,tr] = trainbpx (W1,b1,’tansig’, W2,b2,’purelin’,p,t,tp)

Método del Momento y Aprendizaje Variable

SEPTIEMBRE DE 2002

ESCOM IPN 72

Valores por omisión para tpValores por omisión para tp tp= [disp-freq = 25 max-epoch= 100 err-goal= 0.02 lr= 0.01 momentum= 0.9 lr-inc= 1.05 lr-dec= 0.7 err-ratio= 1.04 ]

SEPTIEMBRE DE 2002

ESCOM IPN 73

%EJEMPLO: OR EXCLUSIVA clear;echo on;clc;NNTWARN OFF; P = [0 0 1 1 ;0 1 0 1]; T = [0 1 1 0 ];

[w1,b1,w2,b2]=initff(P,2,'tansig',1,'purelin')

[w1, b1,w2,b2,epochs]= trainbpx(w1,b1,'tansig',w2,b2,'purelin',P,T)

SEPTIEMBRE DE 2002

ESCOM IPN 74

[a1,a2]=simuff(P,w1,b1,'tansig',w2,b2,'purelin')

pause %Pulse una tecla para graficar la solución

plotpv(P,T); plotpc(w1,b1); plotpc(w2,b2); echo off

SEPTIEMBRE DE 2002

ESCOM IPN 75

trainlm Entrena redes feed forward con el

algoritmo de Levenberg Marquardt. Se puede usar para entrenar redes de

0, 1 y 2 capas ocultas. Este algoritmo es mucho mas rápido

que el de gradiente descendente tal como trainbp o trainbpx; sin embargo requiere de mas memoria.

Método de Levenverg-Marquart

SEPTIEMBRE DE 2002

ESCOM IPN 76

Ejemplo use la funcion trainlm para una red de dos capas.

[W1,b1,W2,b2,epochs,tr] = trainlm (W1,b1,’tansig’, W2,b2,’purelin’,P,T,tp)

Parámetros opcionales para tp= Frecuencia de muestreo = 25; # Máximo de épocas= 1000; Sumatoria del error cuadrático=0.02;

SEPTIEMBRE DE 2002

ESCOM IPN 77

Gradiente mínimo=0.0001; Valor inicial de =0.001; Multiplicador para Inc. =10 Multiplicador para dec. =0.1; Máximo valor de =1E10

SEPTIEMBRE DE 2002

ESCOM IPN 78

%EJEMPLO: OR EXCLUSIVA clear;echo on;clc;NNTWARN OFF; P = [0 0 1 1 ;0 1 0 1]; T = [0 1 1 0 ];

[w1,b1,w2,b2]=initff(P,2,'tansig',1,'purelin')

[w1, b1,w2,b2,epochs]= trainlm(w1,b1,'tansig',w2,b2,'purelin',P,T)

SEPTIEMBRE DE 2002

ESCOM IPN 79

[a1,a2]=simuff(P,w1,b1,'tansig',w2,b2,'purelin')

pause %Pulse una tecla para graficar la solución

plotpv(P,T); plotpc(w1,b1); plotpc(w2,b2); echo off

SEPTIEMBRE DE 2002

ESCOM IPN 80

Dudas ???

SEPTIEMBRE DE 2002

ESCOM IPN 81

Hasta la próxima !!!

variantes de backpropagation

Education

variantes coombs

variantes del espanol

redes neuronales parte i - catedras.facet.unt.edu.ar ·...

expres-sbot variantes

variantes de la lengua

backpropagation matlab

variantes del español

cap10 fuerzas variantes

backpropagation con momentum

ejercicios de variantes diatopicas

computación evolutiva: variantes

variantes del lenguaje

cortadora de tarjetas · acepta materiales de hasta 300grs...

variantes linguisticas

presentación proyecto variantes

variantes de un cuento

backpropagation -...

variantes lingüísticas

aplicación del algoritmo backpropagation de redes

variantes somaclonales