Download - 0. Notación - Instituto de Investigaciones en Materiales 2.6-2005-2.pdfEste sistema tiene solución y resulta que los valores de α1,!α2minimizan a χ. Tomando el punto de vista

1

2.6 Ajuste lineal por mínimos cuadrados(26_AL_T_v19;2005.w20.4; C22 & 1/2 C23)

0. Notación(•, •) producto interno de vectoresA matriz de diseño (rectangular; m x n); contiene por

columnas los vectores de las funciones del modeloAT A matriz de las ecuaciones normales (cuadrada; n x n)d vector error o diferenciaek vector de una basefk vector de la función fk (x) evaluada para el vector de las

abscisasm número de datos (dimensiones de espacio)n número de parámetros ajustables (dimensión del

subespacio)x vector con m abscisas o variable independiente del modeloxk abscisa del dato ky vector con m ordenadas o variable dependiente (ordenada)

del modeloya (vector) aproximación a yyk ordenada del dato kα vector de parámetros ajustablesαk parámetro ajustableαk

* valor óptimo o valor dado de un parámetro ajustableχ función escalar que representa la magnitud del vector error

(suma de residuales); depende de los parámetros ajustablesσk incertidumbre en la ordenada yk

σxk incertidumbre en la abscisa xk

σy varianza de residualesσαk incertidumbre en el parámetro αk

1. Introducción: aproximación de un vectorConsideremos la expansión de un vector y en términos de una base en el espacio de m-dimensiones. Si la base es e1, e2 , ... , em{ } , entonces

(0.1) y = α k ekk =1

m∑ .Para determinar los coeficientes αk, proyectamos el vector sobre cada uno de los vectoresbase y obtenemos m ecuaciones para m coeficientes. El sistema tiene solución única. Si labase es ortogonal, entonces

(0.2) y =y,ek( )ek ,ek( )ekk =1

m∑ .

Para una base ortonormal

2

(0.3) y = y,ek( )ekk =1

m∑ .

Ahora bien, ¿qué pasa si en vez de la base utilizamos un conjunto de n (< m) vectoresf1, f2 , ... , fn{ } LI? Si el vector y en una combinación lineal de los n vectores se

podrá hacer una expansión; sin embargo, en el caso más general, existirán vectores queno se podrán expresar en términos de f1, f2 , ... , fn{ } . En este caso podemos haceruna aproximación; podemos construir un vector(0.4) ya = α k fkk =1

n∑y preguntar que tan parecido (o que tan cercano) es este vector a y. Para cuantificar laaproximación definimos el vector error (o diferencia)(0.5) d ≡ y − ya

y escogemos los parámetros α1, α 2 , ... , α n{ } para que d sea lo más cercano a cero; dserá cero si y está en el subespacio de °m cubierto por los n vectores.

Considerando una aproximación con dos vectores en el espacio 3-D, tenemos que ya estáen el plano generado por f1, f2{ } ; si y está también en el plano entonces podemosescoger α1, α 2{ } tal que d = 0 yla aproximación es exacta (i.e. laaproximación se convierte en unaexpansión). Si y no está en elplano, d no puede ser cero; sinembargo, podemos escoger losparámetros para que la longitudde d sea mínima ( d* ) como semuestra en la figura.

La relación con mínimos cuadrados(lineales) se puede ver si pensamos enajustar un modelo de dos parámetros atres puntos. Considerando el ajuste deuna recta, el modelo sería y = α1 + α 2x(en este caso y representa la ordenada yno un vector). Si consideramos que lafunción a minimizar (χ) sea la suma delcuadrado de los residuales (diferenciaentre la ordenada yk y el modeloα1 + α 2xk como se muestra en lasiguiente figura), tenemos que

ya(1)

ya(2)

ya*

f2

f1

α2*

f2

α1*

f1

y

d*

d(2)

d(1)

x

y

y = α1 + α 2x

y2 − α1 + α 2x2( )

(x1, y1)

(x2, y2)

(x3, y3)

3

(0.6) χ = yk − (α1 + α 2xk )( )2

k =1

3∑ .La ecuación anterior se puede escribir como la multiplicación (matricial) de un vector filapor un vector columna; esto es

χ = y1 − (α1 + α 2x1) y2 − (α1 + α 2x2 ) y3 − (α1 + α 2x3)( )y1 − (α1 + α 2x1)y2 − (α1 + α 2x2 )y3 − (α1 + α 2x3)

.

Lo anterior se puede ver como el cuadrado de la norma de un vector; esto es

χ =y1 − (α1 + α 2x1)y2 − (α1 + α 2x2 )y3 − (α1 + α 2x3)

2

=y1

y2

y3

− (α1

111

+ α 2

x1

x2

x3

)

2

(0.7) χ = y − α1 f1 + α 2 f2( ) 2= y − ya

2 = d 2 .

El problema de mínimos cuadrados consiste en encontrar valores α1*, α 2

*{ } queminimizan la suma de residuales (χ) o, equivalentemente, la longitud del vector error (odiferencia) d.

Notas:1. Es importante no confundir y como ordenada (del modelo y = α1 + α 2x ) con y

como el vector de m componentes ( y =y1

y2

y3

).

2. El vector f1 =111

mientras que el vector f2 =

x1

x2

x3

. Equivalentemente, en el

modelo f1(x) = 1 , mientras que f2 (x) = x . Los m componentes de los vectores segeneran cuando se aplican las funciones a las m abscisas x1, x2 , ... , xm{ } .

3. En algunos textos se utiliza χ2 ó χ2 en vez de χ.4. La dimensión del espacio es el número de puntos (m).5. La dimensión del subespacio en donde se encuentra la aproximación ya es el

número de parámetros (o funciones) del modelo (n).6. Por lo general, n < m; si n = m, entonces la aproximación se convierte en una

expansión (d = 0) a menos que los vectores sean LD. Aun en el caso n < m,podemos obtener una expansión si resulta que d = 0 (i.e. podemos encontrar unarecta que pasa por más de dos puntos).

2. Solución: minimización utilizando la normaeuclideana

Regresando a la ecuación (6) ó (7) de la sección anterior tenemos que:

4

(0.8) χ(α1,α 2 ) = yk − (α1 + α 2xk )( )2

k =1

3∑ = y − ya (α1,α 2 ) 2 = d(α1,α 2 ) 2

Entonces, para encontrar puntos críticos, diferenciamos con respecto a α1,!α 2{ } .∂χ

∂α1

= 2 yk − (α1 + α 2xk )( )(−1) = −2k =1

3∑ yk − (α1 + α 2xk )( ) = 0k =1

3∑∂χ

∂α 2

= 2 yk − (α1 + α 2xk )( )(−xk ) = −2k =1

3∑ yk − (α1 + α 2xk )( ) xk = 0k =1

3∑Puesto que α1,!α 2 salen de la sumatoria y aparecen de manera lineal, podemos escribir unsistema para encontrar la solución al problema anterior:

1k =1

3∑ xkk =1

3∑xkk =1

3∑ xk2

k =1

3∑

α1

α 2

=ykk =1

3∑xk ykk =1

3∑

Este sistema tiene solución y resulta que los valores de α1,!α 2 minimizan a χ.Tomando el punto de vista de vectores, podemos usar un argumento geométrico paraencontrar α1,!α 2 . Sabemos que la longitud del vector d será mínima cuando éste seaperpendicular al plano; entonces, el producto interno entre d y ya es cero. Esto es,

d, ya( ) = 0 = (y − ya , ya ) = 0!!⇒ (y, ya ) − (ya , ya ) = 0Ahora bien,

ya = α1

111

+ α 2

x1

x2

x3

=

α1 + α 2x1

α1 + α 2x2

α1 + α 2x3

=

1 x1

1 x2

1 x3

α1

α 2

= Aα

Donde

A =1 x1

1 x2

1 x3

= f1 f2( )

es la matriz de diseño y tiene por columnas las funciones evaluadas para cada x; α es elvector de los parámetros α1,!α 2 . Del argumento geométrico tenemos que

(ya , ya ) = (y, ya ) = (ya , y)!⇒ yaT ya = Aα( )T (Aα ) = α T AT Aα = ya

T y = α T AT yy con esto

α T (AT Aα − AT y) = 0 .Puesto que αT no es el vector cero,

AT Aα − AT y = 0!⇒! AT A( )α = AT y .

Esta es la ecuación matricial que resuelve el problema de mínimos cuadrados utilizandolas ecuaciones normales (esto es, tenemos que invertir una matriz cuadrada de n x ndonde n es el número de parámetros ajustables).De la misma manera podemos pensar que puesto que AT no es cero podemos escribir

AT Aα − y( ) = 0!⇒! Aα = y .En este caso la ecuación es al parecer más sencilla excepto que ahora tenemos queinvertir una matriz rectangular de m x n donde hay m filas (de m datos) y n columnas (de

5

n parámetros ajustables); para resolver esta ecuación es necesario utilizarDescomposición por Valores Singulares (que no es parte del curso). Por tanto sóloutilizaremos las ecuaciones normales.

Ejemplo: recta (modelo y = α1 + α 2x ) que minimiza la distancia a los puntos

x y0 -11 1/22 1

En este caso la matriz de diseño es

A =1 01 11 2

,

el vector de ordenadas es

y =

−11

21

,

y las ecuaciones normales son

AT A( )α = AT y !⇒!1 1 10 1 2

1 01 11 2

α1

α 2

=1 1 10 1 2

−11

21

⇒!3 33 5

α1

α 2

=1

25

2

.

Invirtiendo la matriz normal tenemos que

α1

α 2

=!3 33 5

−1 12

52

=5

6 − 12

− 12

12

12

52

=−5

61

y con esto deducimos que la recta que pasa “más cerca” de los tres puntos esy = −

56

+ x .

3. Modelos con tres parámetros y forma generalizadadel modelo

Consideremos el ajuste de una parábola a cuatro o más puntos m; en este caso el modeloes(0.9) y = α1 + α 2x + α 3x

2

y la función a minimizar esχ(α1,!α 2 ,!α 3) = yk − (α1 + α 2xk + α 3xk

2 )( )2

k =1

m∑ .La minimización nos lleva a

6

1k =1

m∑ xkk =1

m∑ xk2

k =1

m∑xkk =1

m∑ xk2

k =1

m∑ xk3

k =1

m∑xk

2k =1

m∑ xk3

k =1

m∑ xk4

k =1

m∑

α1

α 2

α 3

=

ykk =1

m∑xk ykk =1

m∑xk

2ykk =1

m∑

Se puede ver que llegamos a las ecuaciones normalesAT A( )α = AT y

donde A es

A =

1 x1 x12

1 x2 x22

1 x3 x32

M M M1 xm xm

2

= f1 f2 f3( )

y las columnas son las funciones {1, x, x2} evaluadas para cada una de las abscisas xk.Con esto podemos generalizar a un modelo de tres funciones arbitrarias

y = α1 f1(x) + α 2 f2 (x) + α 3 f3(x)

lo cual nos lleva al mismo problema: AT A( )α = AT y ; en este caso la matriz de diseño es

A =

f1(x1) f2 (x1) f3(x1)f1(x2 ) f2 (x2 ) f3(x2 )f1(x3) f2 (x3) f3(x3)M M Mf1(xm ) f2 (xm ) f3(xm )

= f1 f2 f3( ) .

De hecho se puede ver que la matriz cuadrada (ATA) está dada por los productos internosde los vectores f1,! f2 ,! f3{ }

AT A( ) =

f12 ( f1, f2 ) ( f1, f3)

( f2 , f1) f22 ( f2 , f3)

( f3, f1) ( f3, f3) f32

y que es simétrica pues el producto interno lo es para el campo de los reales. Lasecuaciones normales son

AT A( )α = AT y !⇒!

f12 ( f1, f2 ) ( f1, f3)

( f2 , f1) f22 ( f2 , f3)

( f3, f1) ( f3, f3) f32

α1

α 2

α 3

=

( f1, y)( f2 , y)( f3, y)

.

De la desigualdad de Schwarz se puede demostrar que el problema tiene solución (i.e. lamatriz normal tiene inversa) siempre que los vectores sean linealmente independientes(LI); con esto se puede ver que se pueden considerar modelos más generales siempre ycuando sean lineales en los parámetros a minimizar. Esto es, podemos considerar varias

7

variables independientes y funciones (no-lineales) de las variables independientes y ladependiente. El único requisito es que se formen vectores LI.

Ejemplo: Ajustemos los parámetros {α1, α2, α3} del modelo y = α1 + α 2x2 + α 3x3

utilizando los datosx2 x3 y1 0 10 1 21 1 02 -1 -1

En este caso las columnas (vectores) de A son {1, x2, x3} y claramente se generan vectoresLI; la matriz de diseño es

A =

1 1 01 0 11 1 11 2 −1

,

el planteamiento del problema es

AT A( )α = AT y !⇒!4 4 14 6 −11 −1 3

α1

α 2

α 3

=

2−13

y la solución es

!α1

α 2

α 3

=

4 4 14 6 −11 −1 3

−1 2−13

=

176

136

−23

.

Queda claro que el modelo lineal más general de n parámetros —para dos variables x yy— es

f0 (x, y) = α1 f1(x, y) + α 2 f2 (x, y) + ... + α n fn (x, y) .Además, si tenemos un modelo con n parámetros y algunos de ellos los queremos fijar envalores dados, sólo pasamos esos sumandos al lado izquierdo de la ecuación yconsideramos un vector que depende de x y y. Considerando el modelo

y = α1 f1(x) + α 2 f2 (x) + α 3 f3(x) + α 4 f4 (x) + α 5 f5 (x)podemos tomar {α1, α3, α4} como fijos y ajustar {α2, α5} reacomodando

y − α1* f1(x) − α 3

* f3(x) − α 4* f4 (x) = α 2 f2 (x) + α 5 f5 (x)

y considerando el vector y − α1* f1(x) − α 3

* f3(x) − α 4* f4 (x) en vez del vector de ordenadas.

4. Linealización de algunos modelos no-linealesPara modelos como

8

y = α1eα2 x

no se pueden generar las ecuaciones normales pues α2 aparece de manera no-lineal. Eneste caso se pueden sacar el logaritmo del modelo y considerar

ln y = ln α1eα2 x( ) = lnα1 + α 2x .

Se puede utilizar la teoría expuesta para encontrar {lnα1, α2}. También se puedelinealizar y = α1 α 2

x( ) pero no así y = α1sen α 2x( ) .

5. Ajuste con errores (incertidumbres) en los datos

Suponiendo que las ordenadas están caracterizadas por desviaciones estándar σk

Nota : si se consideran incertidumbres en las abscisas el problema se vuelve no-lineal

El problema se trata en Press, Flannery, Teukolsky&Vetterling; Numerical Recipes in {Fortran, c, Pascal}

En este curso consideramos que no hay incertidumbre en las x´s

Esto es, los datos son de la forma:

x y

x1

± 0 y1

± σ1

x2

± 0 y2

± σ2

M Mx

m± 0 y

m± σ

m

Consideramos

χ α1,α

2( ) =y

k− (α

1+ α

2x

k)

σk

k =1

m

∑2

← le damos mayor peso a puntos con menor

incertidumbre

2σk

Modelo y = α1 + α 2xdatos

x yx1 y1±σ1x2 y2 ±σ2M M

xm ym ±σm

Modelo y = α1 + α 2xdatos

x yx1±σ x1 y1±σ1x2 ±σ x2 y2 ±σ2

M Mxm ±σ xm ym ±σm

9

∂χ∂α

1

= −2y

k− (α

1+ α

2x

k)

σk

∑ 1

σk

= 0

∂χ∂α

2

= −2y

k− (α

1+ α

2x

k)

σk

∑ x

k

σk

= 0

⇒

1

σk2∑ x

k

σk2∑

xk

σk2∑ x

k2

σk2∑

α1

α2

=

yk

σk2∑

xky

k

σk2∑

*( )

Si

σk

≡ σ i = 1,2,...m1∑

m

xk∑

xk∑ x

k2∑

α1

α2

=

yk∑

xky

k∑

, el problema queda igual

6. Incertidumbre en los parámetros

Propagación de errores: si z = f (x, y), dz =

∂f

∂xdx +

∂f

∂ydy

Suma (valor medio cuadrático; rms) para calcular incertidumbre en z

σz

≡∂f

∂x

2

σx2 +

∂f

∂y

2

σy2 ← Incertidumbre en z en términos de las incertidumbres

en x & y

σx,σ

y( )Regresamos al ajuste de una línea recta y = α1 + α 2x

con parámetros ajustables

α1, α

2{ } ; en este caso

A =

1

σ1

x1

σ1

1

σ2

M1

σm

x2

σ2

xm

σm

α =α

1

α2

y =

y1

σ1

y2

σ2

My

m

σm

AT Aα = AT y ⇒

1

σk2∑ x

k

σk2∑

xk

σk2∑ x

k2

σk2∑

α1

α2

=

yk

σk2∑

xky

k

σk2∑

10

Sea m* =

1

σk2∑ S

x=

xk

σk2∑ S

xx=

xk2

σk2∑ S

y=

yk

σk2∑ S

xy=

xky

k

σk2∑

⇒m* S

x

Sx

Sxx

α1

α2

=

Sy

Sxy

Si

∆ = m*Sxx

− Sx2 ,

m* Sx

Sx

Sxx

−1

=1

∆S

xx−S

x

−Sx

m*

≡ matriz de covarianzas

α1

α2

=

1

∆S

xx−S

x

−Sx

m*

Sy

Sxy

=

Sxx

Sy

− SxS

xy

∆m*S

xy− S

xS

y

∆

∴α1

=S

xxS

y− S

xS

xy

∆

α2

=m*S

xy− S

xS

y

∆

Suponiendo incertidumbre en yk solamente

yk

→ yk

± σk( )

∂α1

∂yk

=1

∆S

xx

∂Sy

∂yk

− Sx

∂Sxy

∂yk

=1

∆S

xx

1

σk2

− Sx

xk

σk2

Con esto podemos calcular la incertidumbre en α1

σ α12 = σ

k2

k∑ ∂α

1

∂yk

2

= σk2

k∑ 1

∆2S

xx

1

σk2

− Sx

xk

σk2

2

=1

∆2

1

σk2∑ S

xx− S

xx

k( )2=

1

∆2S

xx2 1

σk2

− 2Sxx

Sx

xk

σk2

+ Sx2 x

k2

σk2∑∑∑

=1

∆2S

xx2 m* − 2 S

xxS

x2 + S

x2S

xx{ } =S

xx

∆2S

xxm* − S

x2

∆1 24 34

σ α1

2 =S

xx

∆

De manera similar

σ α 22 =

m*

∆

11

Nótese que

m* Sx

Sx

Sxx

−1

=

Sxx

∆−S

x

∆−S

x

∆m*

∆

≡σ α1

2 cov α1,α

2( )cov α

1,α

2( ) σ α 22

Resultados del ajuste

↓

α1

± σ α1

α2

± σ α 2

Si consideramos el caso en que todas las incertidumbres de las ordenadas son iguales ono las hay (i.e. todas son iguales a uno), tenemos que modificar las fórmulas de lasincertidumbres:

σ α1

=S

xx

∆ ⇒ σ α1

=S

xx

∆σ

y=

Sxx

∆χ

m − n

σ α 2

=m*

∆ ⇒ σ α 2

=m*

∆σ

y=

m*

∆χ

m − n

Para propósito de exámenes en el curso de FMM, bastará con calcular Sxx

∆,! m*

∆

para obtener las incertidumbres en los parámetros (dejando indicado que éstas hay que

multiplicarlas por σ

y=

χm − n

.

7. El problema de la recta a través de tres puntos

Regresemos al modelo y = α1 + α 2x

con datos

x1

x2

x3

y1

± 1

y2

± 1

y3

± 1

; esto es, σ k≡ σ = 1 k = 1, 2, 3.

A =1 x

1

1

1

x2

x3

α =α

1

α2

y =

y1

y2

y3

R2 → R3

12

Considerando que la solución al problema de mínimos cuadrados está dada por

AT Aα = y ⇒1

x1

1

x2

1

x3

1 x1

1

1

x2

x3

α1

α2

=

1

x1

1

x2

1

x3

y1

y2

y3

∴3 x

1+ x

2+ x

3

x1

+ x2

+ x3

x12 + x

22 + x

32

α1

α2

=

y1

+ y2

+ y3

x1y

1+ x

2y

2+ x

3y

3

Simplificamos el problema suponiendo que las abscisas están dadas por {-δ, 0, δ}; con

esto obtenemos:

3 0

0 2δ 2

α1

α2

=

y1

+ y2

+ y3

δ ( y3

− y1)

.

La solución del problema es:

α1

α2

=

3 0

0 2δ 2

−1y

1+ y

2+ y

3

δ ( y3

− y1)

=

1

30

01

2δ 2

y1

+ y2

+ y3

δ ( y3

− y1)

=

y1

+ y2

+ y3

3y

3− y

1

2δ

α

1=

y1

+ y2

+ y3

3±

1

3σ

y⇐ intercepto de la recta es la altura promedio; incertidumbre

en el intercepto :

1

mσ

y

α

2=

y3

− y1

2δ±

δ2

σy

⇐ pendiente es la diferencia de las alturas laterales con

incertidumbre :

δ2

σy

=∆x

2σ

y=

∆xσ2

χ

Tenemos 2 casos extremos (recordemos que σ k= σ ≡ 1):

Incertidumbre en pendiente pequeña Incertidumbre en pendiente grande δ << 1 δ >> 1

modelo de 2 parámetros modelo de 1 parámetro: nos da laaltura pero nos dice que no tomemosen cuenta la pendiente

y =

y1

+ y2

+ y3

3±

1

3σ

y

+

y3

− y1

2δ±

δ2

σy

x

y =

y1

+ y2

+ y3

3±

1

3σ

y

13

8. Resumen• Ajuste de modelos utilizando mínimos cuadrados lineales es equivalente a

buscar una aproximación al vector y de m-dimensiones en un subespaciode n-dimensiones (modelo con n parámetros ajustables).

• La mejor aproximación utilizando la norma euclideana está dada por

AT Aα = y .

• Para el ajuste de la recta “más cercana” a m puntos utilizamosχ = yk − (α1 + α 2xk )( )2

k =1

m∑ .

• La inversa de

AT A( ) es la matriz de covarianzas y nos da las incertidum-bres en los parámetros (caso especial cuando no hay incertidumbres en lasordenadas o todas las incertidumbres son iguales: multiplicamos por

σ

y=

χm − n

).

• Modelos como y = α1eα2 x o y = α1 α 2

x( ) se pueden linealizar• Modelo lineal más general de n parámetros —para dos variables x y y— es

f0 (x, y) = α1 f1(x, y) + α 2 f2 (x, y) + ... + α n fn (x, y) ; en este caso,

AT A( )α = AT y !⇒!

f12 ( f1, f2 ) ( f1, f3)

( f2 , f1) f22 ( f2 , f3)

( f3, f1) ( f3, f3) f32

α1

α 2

α 3

=

( f1, y)( f2 , y)( f3, y)

.

Download - 0. Notación - Instituto de Investigaciones en Materiales 2.6-2005-2.pdfEste sistema tiene solución y resulta que los valores de α1,!α2minimizan a χ. Tomando el punto de vista

Top Related