1. diferentes algoritmos de identificaciónmaterias.fi.uba.ar/6631/material/clase_06b_diferentes...9...
TRANSCRIPT
-
1
1. Diferentes Algoritmos de Identificación
1. Diferentes Algoritmos de Identificación _____________________________ 1
1.1. Aproximación Heurística ____________________________________________________________________________________________2 1.2. Error de Predicción A Priori y A Posteriori _____________________________________________________________________________4 1.3. Algoritmo de Proyección_____________________________________________________________________________________________6 1.4. Aproximación Estocástica____________________________________________________________________________________________9 1.5. Método del Gradiente ______________________________________________________________________________________________10 1.6. Mínimos Cuadrados Extendidos _____________________________________________________________________________________12 1.7. Mínimos Cuadrados Extendidos en Etapas ____________________________________________________________________________14 1.8. Máxima Verosimilitud Recursivo ____________________________________________________________________________________20 1.9. Error de Salida con Modelo de Predicción Extendido (ESMPE)___________________________________________________________22 1.10. Mínimos Cuadrados Generalizados (GLS)____________________________________________________________________________24 1.11. Variables Instrumentales __________________________________________________________________________________________26
1.11.1. Variable Instrumental con Modelo Auxiliar ___________________________________________________________________________________ 29 1.11.2. Variable Instrumental con Observaciones Retardadas ___________________________________________________________________________ 30 1.11.3. Variable Instrumental en Etapas ____________________________________________________________________________________________ 33
1.12. Error de Salida con Compensador Fijo ______________________________________________________________________________34 1.13. Métodos de Validación ____________________________________________________________________________________________35
1.13.1. Prueba de Blancura ______________________________________________________________________________________________________ 35 1.13.2. Prueba de Descorrelación _________________________________________________________________________________________________ 37
1.14. Referencias ______________________________________________________________________________________________________39
-
2
1.1. Aproximación Heurística
1k k ky ay bu+ = + (1.1)
a es conocido pero b no. Predicción de la salida:
1ˆˆk k k ky ay b u+ = + (1.2)
error de predicción:
1 1 1ˆk k ky yε + + += − (1.3)
Ensayo al escalón para corregir b de la forma
1 1ˆ ˆk k kb b f ε+ += + (1.4)
ganancia de adaptación 0f > .
(No funciona para escalones negativos)
1 1ˆ ˆ kk k k
k
ub b fu
ε+ += + (1.5)
Tomando las (1.1) y (1.2) se tiene
-
3
( )1 1 1ˆˆk k k k ky y b b u ε+ + +− = − = (1.6) ( )1 ˆk k kf b b fuε + = − (1.7)
para llegar a b
1k̂ kk
fb bfu
ε += + (1.8)
El factor de corrección (parte derecha de (1.4)) debería estar normalizado por la ampli-tud de la entrada, o sea:
1 12ˆ ˆ kk k k
k
fub bfu
ε+ += + (1.9)
para evitar divisiones por cero,
1 12ˆ ˆ
1k
k k kk
fub bfu
ε+ += + + (1.10)
-
4
1.2. Error de Predicción A Priori y A Posteriori
predicción a posteriori
1 1ˆ
k k k ky ay b u+ += + (1.11)
reemplazando 1k̂b + por su expresión,
1 12
2
1 12
ˆ1
ˆ1
kk k k k k
k
kk k
k
fuy ay b ufu
fuyfu
ε
ε
+ +
+ +
= + + +
= ++
(1.12)
definiendo el error de predicción a posteriori como
1 1 1k k ky yε + + += − (1.13) se deduce
-
5
2 2
1 1 1 1 1 12 2
12
ˆ1 1
1
k kk k k k k k
k k
k
k
fu fuy yfu fu
fu
ε ε ε ε
ε
+ + + + + +
+
= − − = −+ +
=+
(1.14)
con lo que se concluye que el error a posteriori es siempre menor o igual que el error a priori y la (1.10) se puede escribir
1 1ˆ ˆk k k kb b fu ε+ += + (1.15)
-
6
1.3. Algoritmo de Proyección
1ˆT
k k ky x θ+ = (1.16)
k̂θ estará sobre una superficie normal a kx .
Ejemplo: 1k k ky ay bu+ = + (1.17)
con
0
1 00
1 24
2 3k
k kk
y ay x
u bθ+
− = = = = =
(1.18)
0θ es solución de(1.16), pero también lo es 0 31 2Tθ ′ = − y todo punto que esté
sobre la recta perpendicular a kx que pasa por 0θ .
-
7
x
1
0θkx
x
0θ ′
a
b
Se elije el k̂θ más cercano a 1k̂θ − .
La corrección es una recta paralela a kx .
1ˆ ˆk k kxθ θ λ−= + (1.19)
Tomando (1.16) y (1.19)
1 1ˆ ˆT T T
k k k k k k kx x x x yθ θ λ− += + = (1.20)
( )11 ˆTk k kTk k
y xx x
λ θ −= − (1.21)
-
8
algoritmo final,
( )1 1ˆ ˆ ˆTkk k k k kTk k
x y xx x
θ θ θ− −= + − (1.22)
( )1 1ˆ ˆ ˆ0 2
0
Tkk k k k kT
k k
x y xx x
γθ θ θα
γα
− −= + −+
< <≥
(1.23)
2
1
0^
^
^
2
1
r
x
x
1
2
Para mínimos cuadrados
-
9
Para la actualización de k̂θ : 2n sumas y 2n multiplicaciones
Para la actualización de P: 1,5n(n+1) sumas, 1,5n(n+1) multiplicaciones y 0,5n(n+1) divisiones.
1.4. Aproximación Estocástica
La aproximación estocástica es similar al algoritmo de proyección de la siguiente manera:
( )1 1ˆ ˆ ˆTk k k k k k kp x y xθ θ θ− −= + − (1.24) donde kp es cualquier función escalar que decrece con el tiempo
-
10
1.5. Método del Gradiente Ahora los dos parámetros son desconocidos
1T
k k k ky ay bu xθ+ = + = (1.25)
T ab
θ
=
kk
k
yx
u
=
(1.26)
1ˆ ˆˆ ˆ Tk k k k k k ky a y b u xθ+ = + = (1.27)
Funcional 2
1 1k kJ ε+ += (1.28)
1mink
kJθ + mediante el método del gradiente.
11
ˆ ˆˆk
k kk
JFθ θθ+
+
∂= −
∂ (1.29)
donde F Iα= es la matriz ganancia de adaptación
-
11
1 11ˆ ˆ
k kk
k k
J ε εθ θ+ +
+
∂ ∂=
∂ ∂ (1.30)
1 1 1 1ˆˆ Tk k k k k ky y y xε θ+ + + += − = − (1.31)
1
ˆk
kk
xεθ+∂ = −
∂ (1.32)
el algoritmo resulta
1 1ˆ ˆk k k kFxθ θ ε+ += + (1.33)
lo mismo para a posteriori
-
12
1.6. Mínimos Cuadrados Extendidos Modelo
k k kAy Bu Ce= + (1.34)
1 1k k k k ky ay bu e ce+ += + + + (1.35)
1ˆk k k ky ay bu ce+ = + + (1.36)
este predictor minimiza la varianza del error de predicción
[ ]{ } [ ]{ }{ }[ ]{ }
2 21 1 1
21
1 1
ˆ ˆ
ˆ2
k k k k k k
k
k k k k k
E y y E ay bu ce y
E e
E ay bu ce y e
+ + +
+
+ +
− = + + − +
+ +
+ + + −
(1.37)
el tercer término es cero y el segundo no depende de la elección del predictor. Solo queda minimizar el primero.
-
13
Error de predicción es
1 1 1 1ˆk k k ky y eε + + + += − = (1.38)
1ˆT
k k k k k ky ay bu c xε θ+ = + + = (1.39)
abc
θ = ˆ
k
k k
k k k
yx u
y yε
= = −
(1.40)
se usa los MCR. El modelo del ruido es más lento. Depende de la realización del ruido.
La convergencia se asegura si 12Cλ
− es una función de transferencia estrictamen-
te real positiva.
-
14
1.7. Mínimos Cuadrados Extendidos en Etapas
1vFFv
ε
ε
=
= [1-41]
También se puede definir el error como B = y uA
ε − [1-42]
Si se premultiplica por F
( ) ( ) ( )( )F 1F = A y - B u = v = A F y - B F uA A
ε [1-43]
Con lo que el error incorrelado resulta
-
15
( )f ff f1 B = A - B = - = RBy yu uA Aε [1-44]
dos nuevas variables fy y fu
pasos a seguir
• calcular A y B con el método de mínimos cuadrados convencional • calcular el filtro F • filtrar u e y
-
16
• recalcular A y B con fy y fu .
¿Cómo calcular F? CF = D
[1-45]
con lo que el error kε pasaría a tener la siguiente ecuación: l l
k i k i i k i ki=1 i=1
v d v c ε ε− −= + +∑ ∑ [1-46] Tkk k = p +exε [1-47]
1
1
l
l
d
dp
c
c
=
1
1
k
k lk
k
k l
xe
e
ε
ε
−
−
−
−
=
[1-48]
-
17
Se podría utilizar esta última ecuación para calcular p por mínimos cuadrados ya que la ecuación [1-47] tiene la forma de un sistema lineal en donde ε es la salida y e su entrada. Pero no conocemos k ie − . De la ecuación [1-46] se desprende que e es la dife-rencia entre el ε real y el estimado es decir:
ˆk k ke ε ε= − [1-49]
Expresando el sistema de la siguiente manera: l l
i i k -i kk k-ii=1 i=1
- - = ey ya b u∑ ∑ [1-50]
recordando la expresión de v , l l
k i k-i i k -i ki=1 i=1
= + + v d v c ε ε∑ ∑ (1.51)
Despejando la salida y expresándola en forma vectorial tenemos: Tk kk = + y x θ ε (1.52)
siendo los vectores,
-
18
1
0
1
1
a
b
=c
d
θ
k-1
k-1
k k-1
k-1
y
u x
v
ε
=
(1.53)
Ahora se puede volver a preguntar qué es kv ? No es más que la diferencia entre la salida real y la estimada, es decir:
[ ]ˆ ik ik k k ii
a = - = - y y y yv ub
(1.54)
por lo tanto ε será T
k kk = - py xε (1.55)
-
19
Con esto, se tienen todos los datos para calcular por el método visto anteriormente el vector θ , ahora ampliado a los parámetros ic y id del filtro F .
-
20
1.8. Máxima Verosimilitud Recursivo
El vector x se filtra con 1Ĉ
. Elimina la necesidad de la condición de real positiva.
Acelerara la decorrelación entre muestras y error de predicción.
1 1k k k k ky ay bu e ce+ += + + + (1.56)
el predictor será
1ˆ ˆˆ ˆ ˆk k k k k k k k fky a y b u c xε θ+ = + + == (1.57)
con
ˆˆˆ
ˆ
k
k k
k
a
b
h
θ
=
ˆ1ˆ1
ˆ ˆ1 1ˆ
ˆˆ ˆ1 1
k
kk
kfk k
k kk k k
k k k
k k
ycy
ux uc c
y yy y
c c
εε
+ = = + + = − −
= + +
-
21
1ˆfk k fk kx c x x−= + (1.58)
se debe comenzar con MCER hasta asegurar la convergencia de Ĉ . Si esto se cumple es más rápido que MCER. La otra forma es tomar el filtro con un factor que tienda a 1 a medida que converja
Ĉ . 1ˆ ˆ1k kC c zα−= + (1.59)
con este factor se asegura que las raíces del polinomio estén siempre dentro del círculo unidad.
-
22
1.9. Error de Salida con Modelo de Predicción Extendido (ESMPE) Es similar al MCER (ELS) pero más rápido en el transitorio.
El vector x se filtra con 1Ĉ
. Elimina la necesidad de la condición de real positiva.
Acelerara la decorrelación entre muestras y error de predicción.
1 1k k k k k k ky ay bu e ce xθ+ += + + + = (1.60)
el predictor anterior era
1ˆˆ ˆ ˆk k k k k k ky a y b u c ε+ = + + (1.61)
ˆk k ky yε = − (1.62)
reescribiéndolo
( )( )
1ˆˆ ˆ ˆ ˆ ˆ ˆ ˆ ˆ
ˆˆ ˆ ˆ ˆˆ ˆ ˆˆ ˆ
k k k k k k k k k k k k
k k k k k k k
k k k k k k k k
y a y b u c y y a y a y
a y b u c a
a y b u h x
ε
ε θ
+ = + + − + − =
= − + + − =
= − + + =
(1.63)
-
23
nuevo predictor
1ˆ ˆ ˆˆ ˆ ˆk k k k k k k k ky a y b u h xε θ+ = − + + = (1.64)
con ˆˆˆ
ˆ
k
k k
k
a
b
h
θ
=
ˆ
ˆ
k
k k
k k k
yx u
y yε
= = −
(1.65)
como ajuste se utiliza el algoritmo de mínimos cuadrados pero con esta interpreta-ción de los vectores.
Se obtienen mejores estimaciones para horizontes cortos. El porqué está en que ˆky depende menos de las perturbaciones que ky .
-
24
1.10. Mínimos Cuadrados Generalizados (GLS) 1
k k kAy Bu eC= + (1.66)
11 11
kk k k
ey ay bucz+
+ −= + + + (1.67)
se crea una señal auxiliar
( )1 11 1 11 1k
k k keaz y bu
czα − ++ + −= − − = +
(1.68)
( )11 11k ke cz α−+ += + (1.69) si los parámetros son conocidos el predictor resulta
1ˆk k k ky ay bu cα+ = + − (1.70)
ya que la diferencia
1 1 1 1ˆk k k k ky y c eα α+ + + +− = + = (1.71)
-
25
si los parámetros son desconocidos, la predicción es
1ˆ ˆˆ ˆ ˆ Tk k k k k ky ay bu c xα θ+ = + − = (1.72)
ˆˆˆ
ˆk
a
bc
θ
=
k
k k
k
yx u
α
= −
(1.73)
( )1 1ˆˆ ˆ ˆ1k k k k k k kA y B u az y buα − −= − = − − (1.74)
La convergencia se asegura si 2
C λ− es una función de transferencia estrictamente
real positiva.
-
26
1.11. Variables Instrumentales Otra alternativa para evitar el sesgo en la estimación. Se basa en encontrar alguna
variable (llamada variable instrumental) fuertemente correlada con la salida del proceso pura, sin contaminación, y lo más incorrelada posible con la perturbación.
No interesa modelar el ruido sino obtener una estimación sin sesgo de A y B. Sea el sistema real:
Tk kk = + y x eθ ′ (1.75)
La estimación óptima de θ era:
ˆ-1
* TT kkkk k
= Y φθ φ φ
(1.76)
La esperanza de la estimación resulta:
ˆ lim-1T T
kk k kk kE [ ] = + E eθ φ φ φθ →∞
(1.77)
A los efectos de obtener el algoritmo se define la variable instrumental h y la matriz w tal que:
-
27
T
T
E e = 0w
E = Q w φ
(1.78)
con Q no singular y donde la matriz w es:
k-1 k-n k-n+m k-n
k
-1 -n -n+m -n
h h u u =w
h h u u
(1.79)
Se observa que w tiene la misma forma que φ excepto que en vez de y figura la nueva variable h. Multiplicando w por e se tiene:
T T T e = Y - w w w φ θ (1.80)
Ahora, se define el funcional de la siguiente manera: J T T = w ee w (1.81) Minimizando J se obtiene la estimación
ˆ-1
* TT kkk k k
= p w Y w φ
(1.82)
-
28
El problema es cómo elegir h. De acuerdo a lo anterior se debe cumplir • w y e deben ser incorrelados por (1.78) y • w y φ deben estar fuertemente correlados según (1.78) lo que implica que h e y de-
ben estar fuertemente correlados una elección obvia de h sería:
k kk = - yh e ′ (1.83)
pero no es accesible. Esto se refleja en la Ilustración 1-1.
Ilustración 1-1 Variables Instrumentales
-
29
1.11.1. Variable Instrumental con Modelo Auxiliar Existen por lo tanto muchas posibilidades para la elección de h. Por ejemplo
Young [1972] propone construir la variable instrumental de la siguiente manera:
i ik k -i k-iaux aux = + h a h b u∑ ∑ (1.84)
En donde los aaux y los baux corresponden a los elementos de un ˆkθ retardado o fil-trado, o sea:
( ) ˆik k-1i
auxaux aux k
aux
a = = 1 - + b
α αθ θ θ
(1.85)
El valor α se considera normalmente entre .03 y .05. Para evitar un transitorio con grandes variaciones en los parámetros conviene comenzar el cálculo con el método de mínimos cuadrados común y luego conmutar a éste.
-
30
1.11.2. Variable Instrumental con Observaciones Retardadas Se verá el método mediante un ejemplo:
1 1k k k k ky ay bu e ce+ += + + + (1.86)
el predictor ajustado por mínimos cuadrados será
1ˆ ˆˆ ˆ Tk k k k k k ky a y b u xθ+ = + = (1.87)
con ˆˆˆ
kk
k
a
bθ
=
kk
k
yx
u
=
(1.88)
La ecuación de la planta ser puede reescribir
1 1T
k k k ky x e ceθ+ += + + (1.89)
El error de predicción a posteriori será
1 1 1 1 1ˆˆk k k k k k ky y x e ceε θ θ+ + + + + = − = − + + (1.90)
La correlación entre muestras y error de predicción calculada para 1k̂θ θ += ,es
-
31
{ }{ }{ }
{ } ( )( ){ }
{ }
1 1 1 111
1
2 2
0 0
000
Tk k k k k k kk k
k kk k
k
E y E x e ce e ceE yE x
E u
cE e c
ε θεε
ε
σ
+ − − +++
+
+ + + = = =
≈ = ≠
(1.91)
si se toma un nuevo vector de muestras,
1kk
k
yx
u− =
(1.92)
y calculando la correlación entre muestras y error,
{ }{ }{ }
( )( ){ }1 1 2 1 2 11
1
00
Tk k k k k k k
k kk k
E y E x e ce e ceE x
E u
ε θε
ε− + − − − +
++
+ + + = = =
(1.93)
Se desplazan las muestras tantos instantes como grado tenga el ruido. El período de muestreo debe ser relativamente alto. Perturbaciones de alta frecuencia (ruido de medición)
-
32
Se inicia este método con mínimos cuadrados y luego se conmuta.
-
33
1.11.3. Variable Instrumental en Etapas Otra forma es estimar A y B en cuatro pasos del modo siguiente. Sea el sistema:
0
0
B Cy u vA D
= + (1.94)
el objetivo es estimar 0A y 0B . Se realiza una primera estimación por mínimos cua-drados obteniendo 1A y 1B .
El segundo paso es utilizar esta estimación para construir las variables instrumenta-les y de esta manera obtenemos 2A y 2B .
Con este segundo juego de parámetros se puede calcular el residuo o error de esti-mación
2 2w A y B u= − (1.95)
como w no será ruido blanco se puede encontrar un filtro tal que blanquee a esta señal.
Por último se utiliza este mismo filtro para filtrar las muestras y se recalcula la úl-tima estimación.
-
34
1.12. Error de Salida con Compensador Fijo Planta y perturbación
k k k k kAy Bu Ae Bu w= + = + (1.96)
por ejemplo
1 1k k k ky ay bu w+ += + + (1.97)
Si no hubiera perturbación, la predicción 1ˆky + tendería a cincidir con la salida 1ky + . Si esto se cumple, en el predictor se podría reemplazar la salida por su predicción.
1ˆˆ ˆˆk k ky ay bu+ = + (1.98)
obeniendo ˆˆˆ
kk
k
a
bθ
=
ˆkk
k
yx
u
=
(1.99)
Usando la predicción en lugar de la salida se logra una descorrelación entre pre-dicción y muestras.
-
35
1.13. Métodos de Validación Si el residuo es blanco es el mejor modelo que podemos extraer.
1.13.1. Prueba de Blancura se calcula la correlación
1
1 Ni k k i
kR
Nε ε −
=
= ∑ (1.100)
y se normaliza por la varianza lo elementos de la correlación deben ser más que los elementos del polinomio A. Nunca será ruido blanco porque tendrá incertidumbres como no linealidades, inex-
actitud en el orden, insuficientes muestras, etc. A su vez, se debe recordar que la ideas es encontrar un buen modelo pero lo más simple posible.
Una buena cota de correlación es
02,171 iR R N
= = (1.101)
-
36
considerando que el error es ruido blanco y que tiene una distribución Gaussiana con una desviación estándar
1N
σ = (1.102)
Para una señal gaussiana, la probabilidad de que iR sea mayor a 1,5% es menor a 2,17
N
-
37
1.13.2. Prueba de Descorrelación Esta prueba es para los métodos que no modelan la perturbación. En este caso se
debe asegurar la predicción de la salida y el error de predicción, es decir:
{ }1
1ˆ ˆ 0N
k k i k k ik
E y yN
ε ε− −=
= =∑ (1.103)
o definiendo
1
1 ˆN
i k k ik
R yN
ε −=
= ∑ (1.104)
se puede normalizar esta correlación haciendo,
11
22 2
1 1
1 ˆ
1 1ˆ
N
k k ik
NiN N
k i k ik k
yNR
yN N
ε
ε
−=
− −= =
=
∑
∑ ∑ (1.105)
una buena cota para la correlación es, igual que antes
-
38
2,17NiR N≤ (1.106)
-
39
1.14. Referencias 1. Ljung, Lennart : System Identification: Theory for the User, 2nd Edition, Prentice
Hall, Englewood Cliffs, N.J.,1999. p 313 2. Goodwin, G. Sin: Adaptive Filtering, Prediction and Control, Prentice Hall – 1984.
p 52 3. Äström, K., Wittenmark: Adaptive Control, Prentice Hall – 1989. p 69 4. Landau, Ioan Doré. System Identification and Control Design – Prentice Hall –
1990 5. Isermann, R.: Digital Control Systems, Springer Verlag – 1981. p 380