1. diferentes algoritmos de identificaciónmaterias.fi.uba.ar/6631/material/clase_06b_diferentes...9...

1

1. Diferentes Algoritmos de Identificación

1. Diferentes Algoritmos de Identificación _____________________________ 1

1.1. Aproximación Heurística ____________________________________________________________________________________________2 1.2. Error de Predicción A Priori y A Posteriori _____________________________________________________________________________4 1.3. Algoritmo de Proyección_____________________________________________________________________________________________6 1.4. Aproximación Estocástica____________________________________________________________________________________________9 1.5. Método del Gradiente ______________________________________________________________________________________________10 1.6. Mínimos Cuadrados Extendidos _____________________________________________________________________________________12 1.7. Mínimos Cuadrados Extendidos en Etapas ____________________________________________________________________________14 1.8. Máxima Verosimilitud Recursivo ____________________________________________________________________________________20 1.9. Error de Salida con Modelo de Predicción Extendido (ESMPE)___________________________________________________________22 1.10. Mínimos Cuadrados Generalizados (GLS)____________________________________________________________________________24 1.11. Variables Instrumentales __________________________________________________________________________________________26

1.11.1. Variable Instrumental con Modelo Auxiliar ___________________________________________________________________________________ 29 1.11.2. Variable Instrumental con Observaciones Retardadas ___________________________________________________________________________ 30 1.11.3. Variable Instrumental en Etapas ____________________________________________________________________________________________ 33

1.12. Error de Salida con Compensador Fijo ______________________________________________________________________________34 1.13. Métodos de Validación ____________________________________________________________________________________________35

1.13.1. Prueba de Blancura ______________________________________________________________________________________________________ 35 1.13.2. Prueba de Descorrelación _________________________________________________________________________________________________ 37

1.14. Referencias ______________________________________________________________________________________________________39

2

1.1. Aproximación Heurística

1k k ky ay bu+ = + (1.1)

a es conocido pero b no. Predicción de la salida:

1ˆˆk k k ky ay b u+ = + (1.2)

error de predicción:

1 1 1ˆk k ky yε + + += − (1.3)

Ensayo al escalón para corregir b de la forma

1 1ˆ ˆk k kb b f ε+ += + (1.4)

ganancia de adaptación 0f > .

(No funciona para escalones negativos)

1 1ˆ ˆ kk k k

k

ub b fu

ε+ += + (1.5)

Tomando las (1.1) y (1.2) se tiene

3

( )1 1 1ˆˆk k k k ky y b b u ε+ + +− = − = (1.6) ( )1 ˆk k kf b b fuε + = − (1.7)

para llegar a b

1k̂ kk

fb bfu

ε += + (1.8)

El factor de corrección (parte derecha de (1.4)) debería estar normalizado por la ampli-tud de la entrada, o sea:

1 12ˆ ˆ kk k k

k

fub bfu

ε+ += + (1.9)

para evitar divisiones por cero,

1 12ˆ ˆ

1k

k k kk

fub bfu

ε+ += + + (1.10)

4

1.2. Error de Predicción A Priori y A Posteriori

predicción a posteriori

1 1ˆ

k k k ky ay b u+ += + (1.11)

reemplazando 1k̂b + por su expresión,

1 12

2

1 12

ˆ1

ˆ1

kk k k k k

k

kk k

k

fuy ay b ufu

fuyfu

ε

ε

+ +

+ +

= + + +

= ++

(1.12)

definiendo el error de predicción a posteriori como

1 1 1k k ky yε + + += − (1.13) se deduce

5

2 2

1 1 1 1 1 12 2

12

ˆ1 1

1

k kk k k k k k

k k

k

k

fu fuy yfu fu

fu

ε ε ε ε

ε

+ + + + + +

+

= − − = −+ +

=+

(1.14)

con lo que se concluye que el error a posteriori es siempre menor o igual que el error a priori y la (1.10) se puede escribir

1 1ˆ ˆk k k kb b fu ε+ += + (1.15)

6

1.3. Algoritmo de Proyección

1ˆT

k k ky x θ+ = (1.16)

k̂θ estará sobre una superficie normal a kx .

Ejemplo: 1k k ky ay bu+ = + (1.17)

con

0

1 00

1 24

2 3k

k kk

y ay x

u bθ+

− = = = = =

(1.18)

0θ es solución de(1.16), pero también lo es 0 31 2Tθ ′ = − y todo punto que esté

sobre la recta perpendicular a kx que pasa por 0θ .

7

x

1

0θkx

x

0θ ′

a

b

Se elije el k̂θ más cercano a 1k̂θ − .

La corrección es una recta paralela a kx .

1ˆ ˆk k kxθ θ λ−= + (1.19)

Tomando (1.16) y (1.19)

1 1ˆ ˆT T T

k k k k k k kx x x x yθ θ λ− += + = (1.20)

( )11 ˆTk k kTk k

y xx x

λ θ −= − (1.21)

8

algoritmo final,

( )1 1ˆ ˆ ˆTkk k k k kTk k

x y xx x

θ θ θ− −= + − (1.22)

( )1 1ˆ ˆ ˆ0 2

0

Tkk k k k kT

k k

x y xx x

γθ θ θα

γα

− −= + −+

< <≥

(1.23)

2

1

0^

^

^

2

1

r

x

x

1

2

Para mínimos cuadrados

9

Para la actualización de k̂θ : 2n sumas y 2n multiplicaciones

Para la actualización de P: 1,5n(n+1) sumas, 1,5n(n+1) multiplicaciones y 0,5n(n+1) divisiones.

1.4. Aproximación Estocástica

La aproximación estocástica es similar al algoritmo de proyección de la siguiente manera:

( )1 1ˆ ˆ ˆTk k k k k k kp x y xθ θ θ− −= + − (1.24) donde kp es cualquier función escalar que decrece con el tiempo

10

1.5. Método del Gradiente Ahora los dos parámetros son desconocidos

1T

k k k ky ay bu xθ+ = + = (1.25)

T ab

θ

=

kk

k

yx

u

=

(1.26)

1ˆ ˆˆ ˆ Tk k k k k k ky a y b u xθ+ = + = (1.27)

Funcional 2

1 1k kJ ε+ += (1.28)

1mink

kJθ + mediante el método del gradiente.

11

ˆ ˆˆk

k kk

JFθ θθ+

+

∂= −

∂ (1.29)

donde F Iα= es la matriz ganancia de adaptación

11

1 11ˆ ˆ

k kk

k k

J ε εθ θ+ +

+

∂ ∂=

∂ ∂ (1.30)

1 1 1 1ˆˆ Tk k k k k ky y y xε θ+ + + += − = − (1.31)

1

ˆk

kk

xεθ+∂ = −

∂ (1.32)

el algoritmo resulta

1 1ˆ ˆk k k kFxθ θ ε+ += + (1.33)

lo mismo para a posteriori

12

1.6. Mínimos Cuadrados Extendidos Modelo

k k kAy Bu Ce= + (1.34)

1 1k k k k ky ay bu e ce+ += + + + (1.35)

1ˆk k k ky ay bu ce+ = + + (1.36)

este predictor minimiza la varianza del error de predicción

[ ]{ } [ ]{ }{ }[ ]{ }

2 21 1 1

21

1 1

ˆ ˆ

ˆ2

k k k k k k

k

k k k k k

E y y E ay bu ce y

E e

E ay bu ce y e

+ + +

+

+ +

− = + + − +

+ +

+ + + −

(1.37)

el tercer término es cero y el segundo no depende de la elección del predictor. Solo queda minimizar el primero.

13

Error de predicción es

1 1 1 1ˆk k k ky y eε + + + += − = (1.38)

1ˆT

k k k k k ky ay bu c xε θ+ = + + = (1.39)

abc

θ = ˆ

k

k k

k k k

yx u

y yε

= = −

(1.40)

se usa los MCR. El modelo del ruido es más lento. Depende de la realización del ruido.

La convergencia se asegura si 12Cλ

− es una función de transferencia estrictamen-

te real positiva.

14

1.7. Mínimos Cuadrados Extendidos en Etapas

1vFFv

ε

ε

=

= [1-41]

También se puede definir el error como B = y uA

ε − [1-42]

Si se premultiplica por F

( ) ( ) ( )( )F 1F = A y - B u = v = A F y - B F uA A

ε [1-43]

Con lo que el error incorrelado resulta

15

( )f ff f1 B = A - B = - = RBy yu uA Aε [1-44]

dos nuevas variables fy y fu

pasos a seguir

• calcular A y B con el método de mínimos cuadrados convencional • calcular el filtro F • filtrar u e y

16

• recalcular A y B con fy y fu .

¿Cómo calcular F? CF = D

[1-45]

con lo que el error kε pasaría a tener la siguiente ecuación: l l

k i k i i k i ki=1 i=1

v d v c ε ε− −= + +∑ ∑ [1-46] Tkk k = p +exε [1-47]

1

1

l

l

d

dp

c

c

=

1

1

k

k lk

k

k l

xe

e

ε

ε

−

−

−

−

=

[1-48]

17

Se podría utilizar esta última ecuación para calcular p por mínimos cuadrados ya que la ecuación [1-47] tiene la forma de un sistema lineal en donde ε es la salida y e su entrada. Pero no conocemos k ie − . De la ecuación [1-46] se desprende que e es la dife-rencia entre el ε real y el estimado es decir:

ˆk k ke ε ε= − [1-49]

Expresando el sistema de la siguiente manera: l l

i i k -i kk k-ii=1 i=1

- - = ey ya b u∑ ∑ [1-50]

recordando la expresión de v , l l

k i k-i i k -i ki=1 i=1

= + + v d v c ε ε∑ ∑ (1.51)

Despejando la salida y expresándola en forma vectorial tenemos: Tk kk = + y x θ ε (1.52)

siendo los vectores,

18

1

0

1

1

a

b

=c

d

θ

k-1

k-1

k k-1

k-1

y

u x

v

ε

=

(1.53)

Ahora se puede volver a preguntar qué es kv ? No es más que la diferencia entre la salida real y la estimada, es decir:

[ ]ˆ ik ik k k ii

a = - = - y y y yv ub

(1.54)

por lo tanto ε será T

k kk = - py xε (1.55)

19

Con esto, se tienen todos los datos para calcular por el método visto anteriormente el vector θ , ahora ampliado a los parámetros ic y id del filtro F .

20

1.8. Máxima Verosimilitud Recursivo

El vector x se filtra con 1Ĉ

. Elimina la necesidad de la condición de real positiva.

Acelerara la decorrelación entre muestras y error de predicción.

1 1k k k k ky ay bu e ce+ += + + + (1.56)

el predictor será

1ˆ ˆˆ ˆ ˆk k k k k k k k fky a y b u c xε θ+ = + + == (1.57)

con

ˆˆˆ

ˆ

k

k k

k

a

b

h

θ

=

ˆ1ˆ1

ˆ ˆ1 1ˆ

ˆˆ ˆ1 1

k

kk

kfk k

k kk k k

k k k

k k

ycy

ux uc c

y yy y

c c

εε

+ = = + + = − −

= + +

21

1ˆfk k fk kx c x x−= + (1.58)

se debe comenzar con MCER hasta asegurar la convergencia de Ĉ . Si esto se cumple es más rápido que MCER. La otra forma es tomar el filtro con un factor que tienda a 1 a medida que converja

Ĉ . 1ˆ ˆ1k kC c zα−= + (1.59)

con este factor se asegura que las raíces del polinomio estén siempre dentro del círculo unidad.

22

1.9. Error de Salida con Modelo de Predicción Extendido (ESMPE) Es similar al MCER (ELS) pero más rápido en el transitorio.

El vector x se filtra con 1Ĉ

. Elimina la necesidad de la condición de real positiva.

Acelerara la decorrelación entre muestras y error de predicción.

1 1k k k k k k ky ay bu e ce xθ+ += + + + = (1.60)

el predictor anterior era

1ˆˆ ˆ ˆk k k k k k ky a y b u c ε+ = + + (1.61)

ˆk k ky yε = − (1.62)

reescribiéndolo

( )( )

1ˆˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ

ˆˆ ˆ ˆ ˆˆ ˆ ˆˆ ˆ

k k k k k k k k k k k k

k k k k k k k

k k k k k k k k

y a y b u c y y a y a y

a y b u c a

a y b u h x

ε

ε θ

+ = + + − + − =

= − + + − =

= − + + =

(1.63)

23

nuevo predictor

1ˆ ˆ ˆˆ ˆ ˆk k k k k k k k ky a y b u h xε θ+ = − + + = (1.64)

con ˆˆˆ

ˆ

k

k k

k

a

b

h

θ

=

ˆ

ˆ

k

k k

k k k

yx u

y yε

= = −

(1.65)

como ajuste se utiliza el algoritmo de mínimos cuadrados pero con esta interpreta-ción de los vectores.

Se obtienen mejores estimaciones para horizontes cortos. El porqué está en que ˆky depende menos de las perturbaciones que ky .

24

1.10. Mínimos Cuadrados Generalizados (GLS) 1

k k kAy Bu eC= + (1.66)

11 11

kk k k

ey ay bucz+

+ −= + + + (1.67)

se crea una señal auxiliar

( )1 11 1 11 1k

k k keaz y bu

czα − ++ + −= − − = +

(1.68)

( )11 11k ke cz α−+ += + (1.69) si los parámetros son conocidos el predictor resulta

1ˆk k k ky ay bu cα+ = + − (1.70)

ya que la diferencia

1 1 1 1ˆk k k k ky y c eα α+ + + +− = + = (1.71)

25

si los parámetros son desconocidos, la predicción es

1ˆ ˆˆ ˆ ˆ Tk k k k k ky ay bu c xα θ+ = + − = (1.72)

ˆˆˆ

ˆk

a

bc

θ

=

k

k k

k

yx u

α

= −

(1.73)

( )1 1ˆˆ ˆ ˆ1k k k k k k kA y B u az y buα − −= − = − − (1.74)

La convergencia se asegura si 2

C λ− es una función de transferencia estrictamente

real positiva.

26

1.11. Variables Instrumentales Otra alternativa para evitar el sesgo en la estimación. Se basa en encontrar alguna

variable (llamada variable instrumental) fuertemente correlada con la salida del proceso pura, sin contaminación, y lo más incorrelada posible con la perturbación.

No interesa modelar el ruido sino obtener una estimación sin sesgo de A y B. Sea el sistema real:

Tk kk = + y x eθ ′ (1.75)

La estimación óptima de θ era:

ˆ-1

* TT kkkk k

= Y φθ φ φ

(1.76)

La esperanza de la estimación resulta:

ˆ lim-1T T

kk k kk kE [ ] = + E eθ φ φ φθ →∞

(1.77)

A los efectos de obtener el algoritmo se define la variable instrumental h y la matriz w tal que:

27

T

T

E e = 0w

E = Q w φ

(1.78)

con Q no singular y donde la matriz w es:

k-1 k-n k-n+m k-n

k

-1 -n -n+m -n

h h u u =w

h h u u

(1.79)

Se observa que w tiene la misma forma que φ excepto que en vez de y figura la nueva variable h. Multiplicando w por e se tiene:

T T T e = Y - w w w φ θ (1.80)

Ahora, se define el funcional de la siguiente manera: J T T = w ee w (1.81) Minimizando J se obtiene la estimación

ˆ-1

* TT kkk k k

= p w Y w φ

(1.82)

28

El problema es cómo elegir h. De acuerdo a lo anterior se debe cumplir • w y e deben ser incorrelados por (1.78) y • w y φ deben estar fuertemente correlados según (1.78) lo que implica que h e y de-

ben estar fuertemente correlados una elección obvia de h sería:

k kk = - yh e ′ (1.83)

pero no es accesible. Esto se refleja en la Ilustración 1-1.

Ilustración 1-1 Variables Instrumentales

29

1.11.1. Variable Instrumental con Modelo Auxiliar Existen por lo tanto muchas posibilidades para la elección de h. Por ejemplo

Young [1972] propone construir la variable instrumental de la siguiente manera:

i ik k -i k-iaux aux = + h a h b u∑ ∑ (1.84)

En donde los aaux y los baux corresponden a los elementos de un ˆkθ retardado o fil-trado, o sea:

( ) ˆik k-1i

auxaux aux k

aux

a = = 1 - + b

α αθ θ θ

(1.85)

El valor α se considera normalmente entre .03 y .05. Para evitar un transitorio con grandes variaciones en los parámetros conviene comenzar el cálculo con el método de mínimos cuadrados común y luego conmutar a éste.

30

1.11.2. Variable Instrumental con Observaciones Retardadas Se verá el método mediante un ejemplo:

1 1k k k k ky ay bu e ce+ += + + + (1.86)

el predictor ajustado por mínimos cuadrados será

1ˆ ˆˆ ˆ Tk k k k k k ky a y b u xθ+ = + = (1.87)

con ˆˆˆ

kk

k

a

bθ

=

kk

k

yx

u

=

(1.88)

La ecuación de la planta ser puede reescribir

1 1T

k k k ky x e ceθ+ += + + (1.89)

El error de predicción a posteriori será

1 1 1 1 1ˆˆk k k k k k ky y x e ceε θ θ+ + + + + = − = − + + (1.90)

La correlación entre muestras y error de predicción calculada para 1k̂θ θ += ,es

31

{ }{ }{ }

{ } ( )( ){ }

{ }

1 1 1 111

1

2 2

0 0

000

Tk k k k k k kk k

k kk k

k

E y E x e ce e ceE yE x

E u

cE e c

ε θεε

ε

σ

+ − − +++

+

+ + + = = =

≈ = ≠

(1.91)

si se toma un nuevo vector de muestras,

1kk

k

yx

u− =

(1.92)

y calculando la correlación entre muestras y error,

{ }{ }{ }

( )( ){ }1 1 2 1 2 11

1

00

Tk k k k k k k

k kk k

E y E x e ce e ceE x

E u

ε θε

ε− + − − − +

++

+ + + = = =

(1.93)

Se desplazan las muestras tantos instantes como grado tenga el ruido. El período de muestreo debe ser relativamente alto. Perturbaciones de alta frecuencia (ruido de medición)

32

Se inicia este método con mínimos cuadrados y luego se conmuta.

33

1.11.3. Variable Instrumental en Etapas Otra forma es estimar A y B en cuatro pasos del modo siguiente. Sea el sistema:

0

0

B Cy u vA D

= + (1.94)

el objetivo es estimar 0A y 0B . Se realiza una primera estimación por mínimos cua-drados obteniendo 1A y 1B .

El segundo paso es utilizar esta estimación para construir las variables instrumenta-les y de esta manera obtenemos 2A y 2B .

Con este segundo juego de parámetros se puede calcular el residuo o error de esti-mación

2 2w A y B u= − (1.95)

como w no será ruido blanco se puede encontrar un filtro tal que blanquee a esta señal.

Por último se utiliza este mismo filtro para filtrar las muestras y se recalcula la úl-tima estimación.

34

1.12. Error de Salida con Compensador Fijo Planta y perturbación

k k k k kAy Bu Ae Bu w= + = + (1.96)

por ejemplo

1 1k k k ky ay bu w+ += + + (1.97)

Si no hubiera perturbación, la predicción 1ˆky + tendería a cincidir con la salida 1ky + . Si esto se cumple, en el predictor se podría reemplazar la salida por su predicción.

1ˆˆ ˆˆk k ky ay bu+ = + (1.98)

obeniendo ˆˆˆ

kk

k

a

bθ

=

ˆkk

k

yx

u

=

(1.99)

Usando la predicción en lugar de la salida se logra una descorrelación entre pre-dicción y muestras.

35

1.13. Métodos de Validación Si el residuo es blanco es el mejor modelo que podemos extraer.

1.13.1. Prueba de Blancura se calcula la correlación

1

1 Ni k k i

kR

Nε ε −

=

= ∑ (1.100)

y se normaliza por la varianza lo elementos de la correlación deben ser más que los elementos del polinomio A. Nunca será ruido blanco porque tendrá incertidumbres como no linealidades, inex-

actitud en el orden, insuficientes muestras, etc. A su vez, se debe recordar que la ideas es encontrar un buen modelo pero lo más simple posible.

Una buena cota de correlación es

02,171 iR R N

= = (1.101)

36

considerando que el error es ruido blanco y que tiene una distribución Gaussiana con una desviación estándar

1N

σ = (1.102)

Para una señal gaussiana, la probabilidad de que iR sea mayor a 1,5% es menor a 2,17

N

37

1.13.2. Prueba de Descorrelación Esta prueba es para los métodos que no modelan la perturbación. En este caso se

debe asegurar la predicción de la salida y el error de predicción, es decir:

{ }1

1ˆ ˆ 0N

k k i k k ik

E y yN

ε ε− −=

= =∑ (1.103)

o definiendo

1

1 ˆN

i k k ik

R yN

ε −=

= ∑ (1.104)

se puede normalizar esta correlación haciendo,

11

22 2

1 1

1 ˆ

1 1ˆ

N

k k ik

NiN N

k i k ik k

yNR

yN N

ε

ε

−=

− −= =

=

∑

∑ ∑ (1.105)

una buena cota para la correlación es, igual que antes

38

2,17NiR N≤ (1.106)

39

1.14. Referencias 1. Ljung, Lennart : System Identification: Theory for the User, 2nd Edition, Prentice

Hall, Englewood Cliffs, N.J.,1999. p 313 2. Goodwin, G. Sin: Adaptive Filtering, Prediction and Control, Prentice Hall – 1984.

p 52 3. Äström, K., Wittenmark: Adaptive Control, Prentice Hall – 1989. p 69 4. Landau, Ioan Doré. System Identification and Control Design – Prentice Hall –

1990 5. Isermann, R.: Digital Control Systems, Springer Verlag – 1981. p 380

1. diferentes algoritmos de identificaciónmaterias.fi.uba.ar/6631/material/clase_06b_diferentes...9...

Documents