1
2.6 Ajuste lineal por mínimos cuadrados(26_AL_T_v19;2005.w20.4; C22 & 1/2 C23)
0. Notación(•, •) producto interno de vectoresA matriz de diseño (rectangular; m x n); contiene por
columnas los vectores de las funciones del modeloAT A matriz de las ecuaciones normales (cuadrada; n x n)d vector error o diferenciaek vector de una basefk vector de la función fk (x) evaluada para el vector de las
abscisasm número de datos (dimensiones de espacio)n número de parámetros ajustables (dimensión del
subespacio)x vector con m abscisas o variable independiente del modeloxk abscisa del dato ky vector con m ordenadas o variable dependiente (ordenada)
del modeloya (vector) aproximación a yyk ordenada del dato kα vector de parámetros ajustablesαk parámetro ajustableαk
* valor óptimo o valor dado de un parámetro ajustableχ función escalar que representa la magnitud del vector error
(suma de residuales); depende de los parámetros ajustablesσk incertidumbre en la ordenada yk
σxk incertidumbre en la abscisa xk
σy varianza de residualesσαk incertidumbre en el parámetro αk
1. Introducción: aproximación de un vectorConsideremos la expansión de un vector y en términos de una base en el espacio de m-dimensiones. Si la base es e1, e2 , ... , em{ } , entonces
(0.1) y = α k ekk =1
m∑ .Para determinar los coeficientes αk, proyectamos el vector sobre cada uno de los vectoresbase y obtenemos m ecuaciones para m coeficientes. El sistema tiene solución única. Si labase es ortogonal, entonces
(0.2) y =y,ek( )ek ,ek( )ekk =1
m∑ .
Para una base ortonormal
2
(0.3) y = y,ek( )ekk =1
m∑ .
Ahora bien, ¿qué pasa si en vez de la base utilizamos un conjunto de n (< m) vectoresf1, f2 , ... , fn{ } LI? Si el vector y en una combinación lineal de los n vectores se
podrá hacer una expansión; sin embargo, en el caso más general, existirán vectores queno se podrán expresar en términos de f1, f2 , ... , fn{ } . En este caso podemos haceruna aproximación; podemos construir un vector(0.4) ya = α k fkk =1
n∑y preguntar que tan parecido (o que tan cercano) es este vector a y. Para cuantificar laaproximación definimos el vector error (o diferencia)(0.5) d ≡ y − ya
y escogemos los parámetros α1, α 2 , ... , α n{ } para que d sea lo más cercano a cero; dserá cero si y está en el subespacio de °m cubierto por los n vectores.
Considerando una aproximación con dos vectores en el espacio 3-D, tenemos que ya estáen el plano generado por f1, f2{ } ; si y está también en el plano entonces podemosescoger α1, α 2{ } tal que d = 0 yla aproximación es exacta (i.e. laaproximación se convierte en unaexpansión). Si y no está en elplano, d no puede ser cero; sinembargo, podemos escoger losparámetros para que la longitudde d sea mínima ( d* ) como semuestra en la figura.
La relación con mínimos cuadrados(lineales) se puede ver si pensamos enajustar un modelo de dos parámetros atres puntos. Considerando el ajuste deuna recta, el modelo sería y = α1 + α 2x(en este caso y representa la ordenada yno un vector). Si consideramos que lafunción a minimizar (χ) sea la suma delcuadrado de los residuales (diferenciaentre la ordenada yk y el modeloα1 + α 2xk como se muestra en lasiguiente figura), tenemos que
ya(1)
ya(2)
ya*
f2
f1
α2*
f2
α1*
f1
y
d*
d(2)
d(1)
x
y
y = α1 + α 2x
y2 − α1 + α 2x2( )
(x1, y1)
(x2, y2)
(x3, y3)
3
(0.6) χ = yk − (α1 + α 2xk )( )2
k =1
3∑ .La ecuación anterior se puede escribir como la multiplicación (matricial) de un vector filapor un vector columna; esto es
χ = y1 − (α1 + α 2x1) y2 − (α1 + α 2x2 ) y3 − (α1 + α 2x3)( )y1 − (α1 + α 2x1)y2 − (α1 + α 2x2 )y3 − (α1 + α 2x3)
.
Lo anterior se puede ver como el cuadrado de la norma de un vector; esto es
χ =y1 − (α1 + α 2x1)y2 − (α1 + α 2x2 )y3 − (α1 + α 2x3)
2
=y1
y2
y3
− (α1
111
+ α 2
x1
x2
x3
)
2
(0.7) χ = y − α1 f1 + α 2 f2( ) 2= y − ya
2 = d 2 .
El problema de mínimos cuadrados consiste en encontrar valores α1*, α 2
*{ } queminimizan la suma de residuales (χ) o, equivalentemente, la longitud del vector error (odiferencia) d.
Notas:1. Es importante no confundir y como ordenada (del modelo y = α1 + α 2x ) con y
como el vector de m componentes ( y =y1
y2
y3
).
2. El vector f1 =111
mientras que el vector f2 =
x1
x2
x3
. Equivalentemente, en el
modelo f1(x) = 1 , mientras que f2 (x) = x . Los m componentes de los vectores segeneran cuando se aplican las funciones a las m abscisas x1, x2 , ... , xm{ } .
3. En algunos textos se utiliza χ2 ó χ2 en vez de χ.4. La dimensión del espacio es el número de puntos (m).5. La dimensión del subespacio en donde se encuentra la aproximación ya es el
número de parámetros (o funciones) del modelo (n).6. Por lo general, n < m; si n = m, entonces la aproximación se convierte en una
expansión (d = 0) a menos que los vectores sean LD. Aun en el caso n < m,podemos obtener una expansión si resulta que d = 0 (i.e. podemos encontrar unarecta que pasa por más de dos puntos).
2. Solución: minimización utilizando la normaeuclideana
Regresando a la ecuación (6) ó (7) de la sección anterior tenemos que:
4
(0.8) χ(α1,α 2 ) = yk − (α1 + α 2xk )( )2
k =1
3∑ = y − ya (α1,α 2 ) 2 = d(α1,α 2 ) 2
Entonces, para encontrar puntos críticos, diferenciamos con respecto a α1,!α 2{ } .∂χ
∂α1
= 2 yk − (α1 + α 2xk )( )(−1) = −2k =1
3∑ yk − (α1 + α 2xk )( ) = 0k =1
3∑∂χ
∂α 2
= 2 yk − (α1 + α 2xk )( )(−xk ) = −2k =1
3∑ yk − (α1 + α 2xk )( ) xk = 0k =1
3∑Puesto que α1,!α 2 salen de la sumatoria y aparecen de manera lineal, podemos escribir unsistema para encontrar la solución al problema anterior:
1k =1
3∑ xkk =1
3∑xkk =1
3∑ xk2
k =1
3∑
α1
α 2
=ykk =1
3∑xk ykk =1
3∑
Este sistema tiene solución y resulta que los valores de α1,!α 2 minimizan a χ.Tomando el punto de vista de vectores, podemos usar un argumento geométrico paraencontrar α1,!α 2 . Sabemos que la longitud del vector d será mínima cuando éste seaperpendicular al plano; entonces, el producto interno entre d y ya es cero. Esto es,
d, ya( ) = 0 = (y − ya , ya ) = 0!!⇒ (y, ya ) − (ya , ya ) = 0Ahora bien,
ya = α1
111
+ α 2
x1
x2
x3
=
α1 + α 2x1
α1 + α 2x2
α1 + α 2x3
=
1 x1
1 x2
1 x3
α1
α 2
= Aα
Donde
A =1 x1
1 x2
1 x3
= f1 f2( )
es la matriz de diseño y tiene por columnas las funciones evaluadas para cada x; α es elvector de los parámetros α1,!α 2 . Del argumento geométrico tenemos que
(ya , ya ) = (y, ya ) = (ya , y)!⇒ yaT ya = Aα( )T (Aα ) = α T AT Aα = ya
T y = α T AT yy con esto
α T (AT Aα − AT y) = 0 .Puesto que αT no es el vector cero,
AT Aα − AT y = 0!⇒! AT A( )α = AT y .
Esta es la ecuación matricial que resuelve el problema de mínimos cuadrados utilizandolas ecuaciones normales (esto es, tenemos que invertir una matriz cuadrada de n x ndonde n es el número de parámetros ajustables).De la misma manera podemos pensar que puesto que AT no es cero podemos escribir
AT Aα − y( ) = 0!⇒! Aα = y .En este caso la ecuación es al parecer más sencilla excepto que ahora tenemos queinvertir una matriz rectangular de m x n donde hay m filas (de m datos) y n columnas (de
5
n parámetros ajustables); para resolver esta ecuación es necesario utilizarDescomposición por Valores Singulares (que no es parte del curso). Por tanto sóloutilizaremos las ecuaciones normales.
Ejemplo: recta (modelo y = α1 + α 2x ) que minimiza la distancia a los puntos
x y0 -11 1/22 1
En este caso la matriz de diseño es
A =1 01 11 2
,
el vector de ordenadas es
y =
−11
21
,
y las ecuaciones normales son
AT A( )α = AT y !⇒!1 1 10 1 2
1 01 11 2
α1
α 2
=1 1 10 1 2
−11
21
⇒!3 33 5
α1
α 2
=1
25
2
.
Invirtiendo la matriz normal tenemos que
α1
α 2
=!3 33 5
−1 12
52
=5
6 − 12
− 12
12
12
52
=−5
61
y con esto deducimos que la recta que pasa “más cerca” de los tres puntos esy = −
56
+ x .
3. Modelos con tres parámetros y forma generalizadadel modelo
Consideremos el ajuste de una parábola a cuatro o más puntos m; en este caso el modeloes(0.9) y = α1 + α 2x + α 3x
2
y la función a minimizar esχ(α1,!α 2 ,!α 3) = yk − (α1 + α 2xk + α 3xk
2 )( )2
k =1
m∑ .La minimización nos lleva a
6
1k =1
m∑ xkk =1
m∑ xk2
k =1
m∑xkk =1
m∑ xk2
k =1
m∑ xk3
k =1
m∑xk
2k =1
m∑ xk3
k =1
m∑ xk4
k =1
m∑
α1
α 2
α 3
=
ykk =1
m∑xk ykk =1
m∑xk
2ykk =1
m∑
Se puede ver que llegamos a las ecuaciones normalesAT A( )α = AT y
donde A es
A =
1 x1 x12
1 x2 x22
1 x3 x32
M M M1 xm xm
2
= f1 f2 f3( )
y las columnas son las funciones {1, x, x2} evaluadas para cada una de las abscisas xk.Con esto podemos generalizar a un modelo de tres funciones arbitrarias
y = α1 f1(x) + α 2 f2 (x) + α 3 f3(x)
lo cual nos lleva al mismo problema: AT A( )α = AT y ; en este caso la matriz de diseño es
A =
f1(x1) f2 (x1) f3(x1)f1(x2 ) f2 (x2 ) f3(x2 )f1(x3) f2 (x3) f3(x3)M M Mf1(xm ) f2 (xm ) f3(xm )
= f1 f2 f3( ) .
De hecho se puede ver que la matriz cuadrada (ATA) está dada por los productos internosde los vectores f1,! f2 ,! f3{ }
AT A( ) =
f12 ( f1, f2 ) ( f1, f3)
( f2 , f1) f22 ( f2 , f3)
( f3, f1) ( f3, f3) f32
y que es simétrica pues el producto interno lo es para el campo de los reales. Lasecuaciones normales son
AT A( )α = AT y !⇒!
f12 ( f1, f2 ) ( f1, f3)
( f2 , f1) f22 ( f2 , f3)
( f3, f1) ( f3, f3) f32
α1
α 2
α 3
=
( f1, y)( f2 , y)( f3, y)
.
De la desigualdad de Schwarz se puede demostrar que el problema tiene solución (i.e. lamatriz normal tiene inversa) siempre que los vectores sean linealmente independientes(LI); con esto se puede ver que se pueden considerar modelos más generales siempre ycuando sean lineales en los parámetros a minimizar. Esto es, podemos considerar varias
7
variables independientes y funciones (no-lineales) de las variables independientes y ladependiente. El único requisito es que se formen vectores LI.
Ejemplo: Ajustemos los parámetros {α1, α2, α3} del modelo y = α1 + α 2x2 + α 3x3
utilizando los datosx2 x3 y1 0 10 1 21 1 02 -1 -1
En este caso las columnas (vectores) de A son {1, x2, x3} y claramente se generan vectoresLI; la matriz de diseño es
A =
1 1 01 0 11 1 11 2 −1
,
el planteamiento del problema es
AT A( )α = AT y !⇒!4 4 14 6 −11 −1 3
α1
α 2
α 3
=
2−13
y la solución es
!α1
α 2
α 3
=
4 4 14 6 −11 −1 3
−1 2−13
=
176
136
−23
.
Queda claro que el modelo lineal más general de n parámetros —para dos variables x yy— es
f0 (x, y) = α1 f1(x, y) + α 2 f2 (x, y) + ... + α n fn (x, y) .Además, si tenemos un modelo con n parámetros y algunos de ellos los queremos fijar envalores dados, sólo pasamos esos sumandos al lado izquierdo de la ecuación yconsideramos un vector que depende de x y y. Considerando el modelo
y = α1 f1(x) + α 2 f2 (x) + α 3 f3(x) + α 4 f4 (x) + α 5 f5 (x)podemos tomar {α1, α3, α4} como fijos y ajustar {α2, α5} reacomodando
y − α1* f1(x) − α 3
* f3(x) − α 4* f4 (x) = α 2 f2 (x) + α 5 f5 (x)
y considerando el vector y − α1* f1(x) − α 3
* f3(x) − α 4* f4 (x) en vez del vector de ordenadas.
4. Linealización de algunos modelos no-linealesPara modelos como
8
y = α1eα2 x
no se pueden generar las ecuaciones normales pues α2 aparece de manera no-lineal. Eneste caso se pueden sacar el logaritmo del modelo y considerar
ln y = ln α1eα2 x( ) = lnα1 + α 2x .
Se puede utilizar la teoría expuesta para encontrar {lnα1, α2}. También se puedelinealizar y = α1 α 2
x( ) pero no así y = α1sen α 2x( ) .
5. Ajuste con errores (incertidumbres) en los datos
Suponiendo que las ordenadas están caracterizadas por desviaciones estándar σk
Nota : si se consideran incertidumbres en las abscisas el problema se vuelve no-lineal
El problema se trata en Press, Flannery, Teukolsky&Vetterling; Numerical Recipes in {Fortran, c, Pascal}
En este curso consideramos que no hay incertidumbre en las x´s
Esto es, los datos son de la forma:
x y
x1
± 0 y1
± σ1
x2
± 0 y2
± σ2
M Mx
m± 0 y
m± σ
m
Consideramos
χ α1,α
2( ) =y
k− (α
1+ α
2x
k)
σk
k =1
m
∑2
← le damos mayor peso a puntos con menor
incertidumbre
2σk
Modelo y = α1 + α 2xdatos
x yx1 y1±σ1x2 y2 ±σ2M M
xm ym ±σm
Modelo y = α1 + α 2xdatos
x yx1±σ x1 y1±σ1x2 ±σ x2 y2 ±σ2
M Mxm ±σ xm ym ±σm
9
∂χ∂α
1
= −2y
k− (α
1+ α
2x
k)
σk
∑ 1
σk
= 0
∂χ∂α
2
= −2y
k− (α
1+ α
2x
k)
σk
∑ x
k
σk
= 0
⇒
1
σk2∑ x
k
σk2∑
xk
σk2∑ x
k2
σk2∑
α1
α2
=
yk
σk2∑
xky
k
σk2∑
*( )
Si
σk
≡ σ i = 1,2,...m1∑
m
xk∑
xk∑ x
k2∑
α1
α2
=
yk∑
xky
k∑
, el problema queda igual
6. Incertidumbre en los parámetros
Propagación de errores: si z = f (x, y), dz =
∂f
∂xdx +
∂f
∂ydy
Suma (valor medio cuadrático; rms) para calcular incertidumbre en z
σz
≡∂f
∂x
2
σx2 +
∂f
∂y
2
σy2 ← Incertidumbre en z en términos de las incertidumbres
en x & y
σx,σ
y( )Regresamos al ajuste de una línea recta y = α1 + α 2x
con parámetros ajustables
α1, α
2{ } ; en este caso
A =
1
σ1
x1
σ1
1
σ2
M1
σm
x2
σ2
xm
σm
α =α
1
α2
y =
y1
σ1
y2
σ2
My
m
σm
AT Aα = AT y ⇒
1
σk2∑ x
k
σk2∑
xk
σk2∑ x
k2
σk2∑
α1
α2
=
yk
σk2∑
xky
k
σk2∑
10
Sea m* =
1
σk2∑ S
x=
xk
σk2∑ S
xx=
xk2
σk2∑ S
y=
yk
σk2∑ S
xy=
xky
k
σk2∑
⇒m* S
x
Sx
Sxx
α1
α2
=
Sy
Sxy
Si
∆ = m*Sxx
− Sx2 ,
m* Sx
Sx
Sxx
−1
=1
∆S
xx−S
x
−Sx
m*
≡ matriz de covarianzas
α1
α2
=
1
∆S
xx−S
x
−Sx
m*
Sy
Sxy
=
Sxx
Sy
− SxS
xy
∆m*S
xy− S
xS
y
∆
∴α1
=S
xxS
y− S
xS
xy
∆
α2
=m*S
xy− S
xS
y
∆
Suponiendo incertidumbre en yk solamente
yk
→ yk
± σk( )
∂α1
∂yk
=1
∆S
xx
∂Sy
∂yk
− Sx
∂Sxy
∂yk
=1
∆S
xx
1
σk2
− Sx
xk
σk2
Con esto podemos calcular la incertidumbre en α1
σ α12 = σ
k2
k∑ ∂α
1
∂yk
2
= σk2
k∑ 1
∆2S
xx
1
σk2
− Sx
xk
σk2
2
=1
∆2
1
σk2∑ S
xx− S
xx
k( )2=
1
∆2S
xx2 1
σk2
− 2Sxx
Sx
xk
σk2
+ Sx2 x
k2
σk2∑∑∑
=1
∆2S
xx2 m* − 2 S
xxS
x2 + S
x2S
xx{ } =S
xx
∆2S
xxm* − S
x2
∆1 24 34
σ α1
2 =S
xx
∆
De manera similar
σ α 22 =
m*
∆
11
Nótese que
m* Sx
Sx
Sxx
−1
=
Sxx
∆−S
x
∆−S
x
∆m*
∆
≡σ α1
2 cov α1,α
2( )cov α
1,α
2( ) σ α 22
Resultados del ajuste
↓
α1
± σ α1
α2
± σ α 2
Si consideramos el caso en que todas las incertidumbres de las ordenadas son iguales ono las hay (i.e. todas son iguales a uno), tenemos que modificar las fórmulas de lasincertidumbres:
σ α1
=S
xx
∆ ⇒ σ α1
=S
xx
∆σ
y=
Sxx
∆χ
m − n
σ α 2
=m*
∆ ⇒ σ α 2
=m*
∆σ
y=
m*
∆χ
m − n
Para propósito de exámenes en el curso de FMM, bastará con calcular Sxx
∆,! m*
∆
para obtener las incertidumbres en los parámetros (dejando indicado que éstas hay que
multiplicarlas por σ
y=
χm − n
.
7. El problema de la recta a través de tres puntos
Regresemos al modelo y = α1 + α 2x
con datos
x1
x2
x3
y1
± 1
y2
± 1
y3
± 1
; esto es, σ k≡ σ = 1 k = 1, 2, 3.
A =1 x
1
1
1
x2
x3
α =α
1
α2
y =
y1
y2
y3
R2 → R3
12
Considerando que la solución al problema de mínimos cuadrados está dada por
AT Aα = y ⇒1
x1
1
x2
1
x3
1 x1
1
1
x2
x3
α1
α2
=
1
x1
1
x2
1
x3
y1
y2
y3
∴3 x
1+ x
2+ x
3
x1
+ x2
+ x3
x12 + x
22 + x
32
α1
α2
=
y1
+ y2
+ y3
x1y
1+ x
2y
2+ x
3y
3
Simplificamos el problema suponiendo que las abscisas están dadas por {-δ, 0, δ}; con
esto obtenemos:
3 0
0 2δ 2
α1
α2
=
y1
+ y2
+ y3
δ ( y3
− y1)
.
La solución del problema es:
α1
α2
=
3 0
0 2δ 2
−1y
1+ y
2+ y
3
δ ( y3
− y1)
=
1
30
01
2δ 2
y1
+ y2
+ y3
δ ( y3
− y1)
=
y1
+ y2
+ y3
3y
3− y
1
2δ
α
1=
y1
+ y2
+ y3
3±
1
3σ
y⇐ intercepto de la recta es la altura promedio; incertidumbre
en el intercepto :
1
mσ
y
α
2=
y3
− y1
2δ±
δ2
σy
⇐ pendiente es la diferencia de las alturas laterales con
incertidumbre :
δ2
σy
=∆x
2σ
y=
∆xσ2
χ
Tenemos 2 casos extremos (recordemos que σ k= σ ≡ 1):
Incertidumbre en pendiente pequeña Incertidumbre en pendiente grande δ << 1 δ >> 1
modelo de 2 parámetros modelo de 1 parámetro: nos da laaltura pero nos dice que no tomemosen cuenta la pendiente
y =
y1
+ y2
+ y3
3±
1
3σ
y
+
y3
− y1
2δ±
δ2
σy
x
y =
y1
+ y2
+ y3
3±
1
3σ
y
13
8. Resumen• Ajuste de modelos utilizando mínimos cuadrados lineales es equivalente a
buscar una aproximación al vector y de m-dimensiones en un subespaciode n-dimensiones (modelo con n parámetros ajustables).
• La mejor aproximación utilizando la norma euclideana está dada por
AT Aα = y .
• Para el ajuste de la recta “más cercana” a m puntos utilizamosχ = yk − (α1 + α 2xk )( )2
k =1
m∑ .
• La inversa de
AT A( ) es la matriz de covarianzas y nos da las incertidum-bres en los parámetros (caso especial cuando no hay incertidumbres en lasordenadas o todas las incertidumbres son iguales: multiplicamos por
σ
y=
χm − n
).
• Modelos como y = α1eα2 x o y = α1 α 2
x( ) se pueden linealizar• Modelo lineal más general de n parámetros —para dos variables x y y— es
f0 (x, y) = α1 f1(x, y) + α 2 f2 (x, y) + ... + α n fn (x, y) ; en este caso,
AT A( )α = AT y !⇒!
f12 ( f1, f2 ) ( f1, f3)
( f2 , f1) f22 ( f2 , f3)
( f3, f1) ( f3, f3) f32
α1
α 2
α 3
=
( f1, y)( f2 , y)( f3, y)
.