m´etodo de m´ınimos cuadrados - zronyj.files.wordpress.com · 1 distancias 1. distancias para...

26
etodo de M´ ınimos Cuadrados Universidad de San Carlos de Guatemala Facultad de Ciencias Qu´ ımicas y Farmacia Matem´aticaV Rony Jos´ e Letona QQ 200960024 Jos´ e Roy Morales QQ 200717695

Upload: vothien

Post on 04-Apr-2018

229 views

Category:

Documents


2 download

TRANSCRIPT

Metodo de Mınimos Cuadrados

Universidad de San Carlos de Guatemala

Facultad de Ciencias Quımicas y Farmacia

Matematica VRony Jose Letona QQ 200960024

Jose Roy Morales QQ 200717695

INDICE INDICE

Indice

1. Distancias 1

1.1. R (Recta Real) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2. R

2 (Plano Cartesiano) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.3. R

3 (Espacio Tridimensional) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.4. Transformacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2. Vectores (Repaso) 5

2.1. Multiplicacion por una Constante . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.2. Suma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.3. Vector Unitario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.4. Producto Punto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3. Proyecciones 7

3.1. Proyeccion sobre una Recta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73.2. Proyeccion sobre un Plano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93.3. Matriz de Proyeccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

4. Metodo de Mınimos Cuadrados 11

4.1. Caso de una Recta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114.2. Generalizacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144.3. Resolucion Diferencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164.4. Resolucion Algebraica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184.5. Solucion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

5. Casos Especiales 22

5.1. Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225.2. Logarıtmica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

6. Bibliografıa 24

6.1. Literatura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246.2. Internet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246.3. Herramientas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

0

1 DISTANCIAS

1. Distancias

Para comenzar la deduccion del metodo de mınimos cuadrados, es conveniente que se hagaun breve repaso sobre la forma en la que se miden distancias. Eso por esto que esta seccionesta dedicada a ello.

1.1. R (Recta Real)

Figura 1: Recta real.

Para facilitar la comprension, se comienza con la Recta Real (ver Figura 1). En ella la medicionde distancias es relativamente sencilla y casi intuitiva: se calcula la diferencia de distancias haciael origen. Notese que en el caso de los numeros negativos, la distancia hay que tomarla en valorabsoluto. Es por esto que la formula general mas comun para la medicion de distancias en R es lasiguiente:

Sean A y B ∈ R. La distancia d entre A y B es entonces

d(A, B) = |B − A| (1)

Esta forma de medir distancias en muy practica, pero no es la unica. Existen varias formas demedir distancias, pero la que concierne al estudio del metodo de mınimos cuadrados es la que seve a continuacion.

Figura 2: Distancia entre puntos.

Considerando que el algebra al calcular con valores absolutos es relativamente complicada, laforma utilizada para medir distancias en el metodo de mınimos cuadrados es distinta. Esta enlugar de utilizar valores absolutos, eleva la expresion dentro del valor absoluto en la ecuacion (1)al cuadrado. De alli su nombre: Metodo de Mınimos Cuadrados. Entonces, la formula general es lasiguiente:

Sean A y B ∈ R. La distancia d entre A y B es entonces

d(A, B) = (B − A)2 (2)

1

1.2 R2 (Plano Cartesiano) 1 DISTANCIAS

1.2. R2 (Plano Cartesiano)

Figura 3: Plano cartesiano.

En el caso del plano cartesiano, ya no se tiene una sino dos rectas reales unidas mediante unProducto Cartesiano1. La ubicacion de cada punto esta dada por pares ordenados. En este caso laforma que se utiliza para medir distancias es la que ya se conoce.

Sean A y B puntos en R2 tal que A =

(

xa

ya

)

y B =

(

xb

yb

)

. La distancia d entre los dos

esta dada por

d(A, B) =

(∆x)2 + (∆y)2 =

(xb − xa)2 + (yb − ya)

2 (3)

Como se puede notar, esto tiene mucha similitud con el teorema de Pitagoras. Esto es porquela distancia entre un punto y el otro en R

2 es, de hecho, la hipotenusa de un triangulo rectangulo(ver Figura 4). En este caso los dos catetos son la distancia entre la las coordenadas en x y ladistancia entre la las coordenadas en y.

Figura 4: Distancia entre puntos (Pitgoras).

En el caso del metodo de mınimos cuadrados, esto no se utilizara de forma obvia, pero serecomienda tener en mente la forma de la medicion.

1Tambien llamado Producto Cruz. Este surgio en las formulaciones de Descartes sobre geometrıa analıtica. Elplano cartesiano es un ejemplo: (R × R).

2

1.3 R3 (Espacio Tridimensional) 1 DISTANCIAS

1.3. R3 (Espacio Tridimensional)

Figura 5: Espacio tridimensional.

Para complementar el repaso sobre las mediciones de distancia, se analizara un ultimo caso. R3

se construye mediante el triple producto cartesiano de R, es decir (R × R × R). Son 3 rectas realesque nos llevan a que la ubicacion de cada punto en el espacio este dada por una triada ordenada.La forma para medir distancias en este caso es la siguiente:

Sean A y B puntos en R3 tal que A =

xa

ya

za

y B =

xb

yb

zb

. La distancia d entre los dos

esta dada por

d(A, B) =

(∆x)2 + (∆y)2 + (∆z)2 =

(xb − xa)2 + (yb − ya)

2 + (zb − za)2 (4)

A esta distancia se le llama distancia Euclidiana. Notese que esta es semejante al teorema dePitagoras, sin embargo, no es lo mismo. Algo que si se debe de tomar en cuenta es que la distanciaen R

2 conserva la misma forma que en R3.

Figura 6: Distancia entre puntos (Distancia Euclidiana).

Esto se puede generalizar para todos los Rn si se conserva la forma observada en R

2 y en R3.

3

1.4 Transformacion 1 DISTANCIAS

1.4. Transformacion

Figura 7: Graficas de f(x) = x2 y g(x) = |x| en R2.

Si se piensa por un momento que de la forma de medir distancias vista al principio (Ecuacion1) y la siguiente (Ecuacion 2) no se obtiene el mismo resultado, se esta en lo cierto. Se puede argu-mentar que a la primera forma se le fue aplicada una transformacion (elevacion al cuadrado) queen cualquier momento puede ser revertida (raız cuadrada). La forma de la distancia transformadano varıa mucho de la forma de la distancia vista al principio (ver Figura 7). Es por esto que estatrasnformacion es valida. Tambien se hace mucho enfasis en que la trasformacion se hace con elfin de facilitar los calculos que se llevaran a cabo posteriormente.

4

2 VECTORES (REPASO)

2. Vectores (Repaso)

En esta seccion se intentara definir las operaciones que se pueden realizar entre vectores enR

2. Por supuesto, todas estas se pueden extender a los vectores en Rn. Solo se hara un repaso

de la multiplicacion por un escalar, suma, vector unitario y producto punto, ya que estas son laspertinentes para la comprension de este documento.

2.1. Multiplicacion por una Constante

La multiplicacion de un vector por una constante se realiza multiplicando esta por cada com-ponente del vector. Sea a un vector en el plano y c una constante real.

c · a = c ·

[

ax

ay

]

=

[

c · ax

c · ay

]

(5)

Geometricamente, la constante solo cambia la norma del vector. Aunque si esta es negativa, ladireccion del vector se vuelve totalmente la opuesta a su direccion original.

2.2. Suma

La suma de vectores se lleva a cabo sumando componente por componente de cada vector.Notese que la suma de vectores da como resultado otro vector. Sean a y b vectores en R

2, entoncesa + b se calcula de la forma siguiente.

a + b =

[

ax

ay

]

+

[

bx

by

]

=

[

ax + bx

ay + by

]

=

[

cx

cy

]

= c (6)

La interpretacion geometrica de esto es el metodo llamado de punta con cola. Este consiste encolocar un la cola de un vector en la punta del otro logrando ası que entre los dos apunten a unpunto que sera el resultado. En la Figura 8 se ve que al sumar el vector A con el vector AB elresultado es el vector B.

Figura 8: Suma de los vectores A y AB dando como resultado el vector B.

5

2.3 Vector Unitario 2 VECTORES (REPASO)

2.3. Vector Unitario

El vector unitario no es mas que un vector cuya norma es igual a 1. Para ello se toma un vectory se lo divide por su norma. Tomese el ejemplo siguiente. Sea a un vector en R

2. El vector unitariode a, el cual se representa por a, se calcula de la forma siguiente.

a =a

|a|(7)

La representacion geometrica de esto es un vector con la misma direccion que a, pero de longitudigual a 1.

2.4. Producto Punto

El producto punto o producto escalar es una operacion entre dos vectores que da como resultadoun escalar. Este se lleva a cabo multiplicando componente por componente de los vectores yposteriormente sumando todos los resultados. Sean pues a y b vectores en R

2.

a · b =

[

ax

ay

]

·

[

bx

by

]

= ax · bx + ay · by (8)

Esta operacion tiene relacion con la ortogonalidad de los vectores. Si dos vectores v1 y v2 sonortogonales, entonces el producto escalar entre los dos es igual a 0.

Esta operacion se puede escribir como la multiplicacion de un vector por la transpuesta delotro si estos se toman como matrices de m× 1. Una matriz ai,j tiene como transpuesta a la matrizaj,i. Para el caso de dos vectores a y b en R

2, el producto2 se verıa de la siguiente forma.

a · b = aTb =[

ax ay

]

[

bx

by

]

= ax · bx + ay · by (9)

Como se puede observar, el resultado es el mismo, por lo que ambas formas de escribir estaoperacion son equivalentes.

2La multiplicacion de matrices se realiza de la forma: Sumatoria de todos los productos de los elementos de cadafila por los elementos de cada columna.

6

3 PROYECCIONES

3. Proyecciones

En Algebra Lineal, una proyeccion no es mas que la representacion de un elemento de unespacio vectorial a un subespacio del mismo. Con esto se quiere decir que un vector a de unconjunto W es representado por otro vector α de un conjunto V mas pequeno, cuando el conjuntoV esta contenido en el conjunto W.

Figura 9: Proyeccion de un vector de un espacio a un subespacio.

Los casos mas comunes que se utilizan para ejemplificar esto, es el de un vector sobre una rectay el de un vector sobre un plano. La generalizacion de ambos casos termina siendo una matrizque realiza la proyeccion de un especio a otro. La matriz es particular para cada proyeccion, sinembargo, el concepto es el mismo en todos los casos. A esta matriz se le llama matriz de proyeccion.

3.1. Proyeccion sobre una Recta

Para ilustrar este tema, se utiliza siempre la proyeccion de un vector en R2 sobre una recta

tambien en R2. En este caso se realizara la deduccion completa, sin embargo no se tratara a ningun

ejemplo en particular.

Figura 10: Proyeccion de un vector b sobre una recta g.

Sea entonces b un vector en R2 y g: X = 0 + t · a, donde a es el vector sobre el que se proyec-

tara b. Notese que entre a y b se comprende un angulo θ. La proyeccion de b sobre a se denotacomo el vector p. La notacion para una proyeccion de este tipo es la siguiente: proyab y se leecomo la proyeccion de b sobre a.

Considerese entonces que la norma del vector p es igual a la norma de b por el coseno de θ.

|p| = |b| · cos (θ) (10)

7

3.1 Proyeccion sobre una Recta 3 PROYECCIONES

Y ademas, que el coseno de θ se define de la siguiente forma.

cos (θ) =a · b

|a| · |b|(11)

Ahora, si se sustituye la ecuacion (10) con la ecuacion (11), se obtiene la norma del vector p

expresada en terminos solo de a y b.

|p| = |b| ·a · b

|a| · |b|=

a · b

|a|(12)

Ahora, para obtener el vector p, se debe de dar direccion a su norma. Notese que a y p soncolineales, por lo que el vector unitario para ambos casos es el mismo. Entonces, tomando lasecuaciones (7) y (12), se calcula la proyeccion de b sobre a: el vector p.

proyab = p = |p| · a =a · b

|a|·

a

|a|=

a · b

|a| · |a|· a (13)

Ya se tiene entonces la proyeccion p de b sobre a. Si a b se le resta p, se obtendra un vectorortogonal a cualquier vector elemento de la recta g. Entonces puede decir que (b− proyab) ·v = 0para todo v ∈ g.

8

3.2 Proyeccion sobre un Plano 3 PROYECCIONES

3.2. Proyeccion sobre un Plano

En la seccion anterior se hizo la deduccion de la proyeccion de un vector en R2 a una recta, la

cual se puede considerar como un espacio unidimensional R. En el caso de una proyeccion sobreun plano, se tomara un vector de R

3 y se proyectara sobre un plano, el cual se puede considerarcomo un espacio bidimensional R

2.

Figura 11: Proyeccion de un vector v sobre un plano S.

Para este caso, no se conoce un vector sobre el que se pueda proyectar el vector v. Es por estoque en este caso la proyeccion se realizara utilizando varias poryecciones y luego suma de vectores.

Primero, se debe partir de la base ortogonal del plano. En este caso basta decir que se necesitandos vectores v1,v2 ∈ S tal que v1 · v2 = 0. El vector v se proyecta entonces sobre cada uno deellos y luego el resultado de esto se suma para obtener la proyeccion de v sobre S proySv.

proySv = proyv1v + proyv2

v =v1 · v

|v1| · |v1|· v1 +

v2 · v

|v2| · |v2|· v2 (14)

Figura 12: Proyeccion de un vector v sobre vectores ortogonales para llegar a la proyeccion sobre el plano.

Al igual que en el caso de una recta, el vector proyeccion pudo ser calculado. En el caso deun plano, tambien se cumple que si a v se le resta proySv, el vector resultante sera ortogonal acualquier vector que sea elemento del plano S, ⇒ (v − proySv) · vi = 0 ∀ vi ∈ S.

9

3.3 Matriz de Proyeccion 3 PROYECCIONES

3.3. Matriz de Proyeccion

Como se puede observar en las dos secciones anteriores, las proyecciones no son mas que trans-formaciones. Por lo tanto, estas pueden ser representadas tambien por una matriz: la matriz deproyeccion. En este caso se tiene una matriz A a la que se le puede multiplicar cualquier vector v

para obtener su proyeccion sobre un espacio W .

proyWv = Av (15)

En un caso general, se dice que el espacio W al que se esta proyectando es el espacio generadopor las columnas de la matriz, puesto que el vector proyeccion solo puede pertenecer a ese espacio.Para ejemplificar esto, considerese una matriz de m× n y un vector v ∈ R

n. La proyeccion estarıadada entonces por:

proyWv =

a1,1 a1,2 a1,3 . . . a1,m

a2,1 a2,2 a2,3 . . . a2,m

a3,1 a3,2 a3,3 . . . a3,m

......

.... . .

...an,1 an,2 an,3 . . . an,m

·

v1

v2

v3...vn

(16)

Al expandir esto se obtiene:

proyWv = v1

a1,1

a2,1

a3,1...

am,1

+ v1

a1,2

a2,2

a3,2...

am,2

+ v3

a1,3

a2,3

a3,3...

am,3

+ . . . + vn

a1,n

a2,n

a3,n

...am,n

(17)

Aqui se puede ver que si v es cualquier vector en Rn, entonces al espacio que se esta proyec-

tando es el generado por la combinacion lineal de las columnas de A. A este subespacio se le llamaespacio columna de A.

La matriz de proyeccion es especıfica para cada proyeccion y para el caso del Metodo deMınimos Cuadrados se hara la deduccion posteriormente. Sin embargo, en un caso general, lamatriz de proyeccion puede ser construida de la siguiente forma:

proyWv = UUTv (18)

Donde U es la matriz cuyas columnas son las bases ortonormales3 del espacio W .

3Bases Ortonormales: Vectores ortogonales de norma igual a 1 que generan a un espacio vectorial.

10

4 METODO DE MINIMOS CUADRADOS

4. Metodo de Mınimos Cuadrados

Figura 13: Regresion lineal y cuadratica.

El metodo de mınimos cuadrados es un metodo de extrapolacion para encontrar la curva quemejor se ajuste a una coleccion de puntos. Se le conoce tambien bajo el nombre de Regresion. Conel tiempo se le han dado otros nombres como Lineal o Cuadratica dependiendo de la curva quese desea aproximar. Para este caso en particular, se comenzara con la regresion lineal. Luego segeneralizara para cualquier curva que se desee.

4.1. Caso de una Recta

Se comenzara asumiendo que se tiene una cantidad n de puntos en el plano. Cada puntotendra una coordenada xi y una coordenada yi. Se quiere aproximar la tendencia de estos medianteuna recta de la forma:

g(x) = a + bx (19)

Se intentara hacer que todos los puntos pasen por la recta, por lo que se tendra n ecuaciones deuna recta expersadas de la siguiente forma:

a + bx1 = y1

a + bx2 = y2

a + bx3 = y3...

a + bxn = yn

(20)

Donde yi es una aproximacion de la coordenada en y de cada punto. Esto se puede reescribir deforma matricial de la siguiente manera:

a bx1

a bx2

a bx3...

...a bxn

=

y1

y2

y3...

yn

(21)

11

4.1 Caso de una Recta 4 METODO DE MINIMOS CUADRADOS

Que, reescribiendolo, es lo mismo que:

1 x1

1 x2

1 x3...

...1 xn

[

a

b

]

=

y1

y2

y3...yn

⇒ Ax = v (22)

La matriz que contiene a los xi se la ha identificado como A, al vector de incognitas (a y b) comox y al vector que contiene a las yi como v. Pero para todo xi habra un yi diferente de yi ya quela recta no pasara realmente por todos los puntos. Entonces se cuenta con cierto error para cadapunto (ver Figura 14).

Figura 14: Distancias de las que se compone el error.

El error se medira en forma de distancias entre yi y yi. Notese que en este caso se utilizara laforma vista con anterioridad. El error para cada xi estara dado por:

e2i = (yi − yi)

2 = (yi − (a + bxi))2 (23)

Y entonces, el error total ε2 en todo el metodo se puede expresar de la siguiente forma:

ε2 =

n∑

i=1

[

e2i

]

=

n∑

i=1

[yi − yi]2 =

n∑

i=1

[yi − (a + bxi)]2 (24)

La razon por la cual el error total ε y el error ei se escriben elevados al cuadrado se vera acontinuacion. Ahora, si se reescribe el error de forma vectorial, se obtiene un vector e de la formasiguiente:

e = |v − Ax| =

e1

e2

e3...en

=

y1 − (a + bx1)y2 − (a + bx2)y3 − (a + bx3)

...yn − (a + bxn)

(25)

12

4.1 Caso de una Recta 4 METODO DE MINIMOS CUADRADOS

Si se calcula la norma del vector de error en la ecuacion (25), se obtiene lo siguiente:

|e| =

e1

e2

e3...en

=√

e21 + e2

2 + e23 + . . . + e2

n =

n∑

i=1

[e2i ] = ε (26)

Notese que la norma |e| es igual a ε. Es por esto que ambos se escriben elevados al cuadrado.

Ahora, las ecuaciones (24) y (26) son practicamente lo mismo. Solo la ecuacion (22) sera laexcepcion, ya que de esta (igual que de las anteriores 2), se puede encontrar la solucion al problema.Por esto, la resolucion de estas se llevara a cabo de dos formas: Diferecial y Algebraica. Ambasseran presentadas en las secciones 4.3 y 4.4 con el fin de llegar a la solucion (seccion 4.5).

13

4.2 Generalizacion 4 METODO DE MINIMOS CUADRADOS

4.2. Generalizacion

En esta seccion se intentara generalizar el concepto que se vio en la seccion anterior. Para ellose considerara que la curva que describe la tendencia de la coleccion de puntos es un polinomio P

de grado m. Entonces la ecuacion sera la siguiente:

P (x) = β1 + β2x + β3x2 + . . . + βm+1x

m = y (27)

Entonces las n ecuaciones para los puntos dados se veran de la siguiente forma:

β1 + β2x1 + β3x21 + . . . + βm+1x

m1 = y1

β1 + β2x2 + β3x22 + . . . + βm+1x

m2 = y2

...β1 + β2xn + β3x

2n + . . . + βm+1x

mn = yn

(28)

Lo cual, de forma matricial, se puede representar ası:

1 x1 x21 . . . xm

1

1 x2 x22 . . . xm

2...

......

. . ....

1 xn x2n . . . xm

n

β1

β2

β3...

βm+1

=

y1

y2...

yn

⇒ Ax = v (29)

Notese que la ecuacion (22) y ecuacion (29) terminan de la misma forma. Por lo que el procedi-miento a partir de estas sera el mismo.

Ahora, se procedera a ver el error generalizado a polinomios. Para ello la ecuacion principalsera de la forma:

e2 = (yi − yi)2 =

(

yi −(

β1 + β2xi + β3x2i + . . . + βm+1x

mi

))2(30)

Entonces el error, al igual que en la seccion anterior, se puede expresar en forma vectorial ası:

e =

e1

e2...en

=

y1 − (β1 + β2x1 + β3x21 + . . . + βm+1x

m1 )

y2 − (β1 + β2x2 + β3x22 + . . . + βm+1x

m2 )

...yn − (β1 + β2xn + β3x

2n + . . . + βm+1x

mn )

(31)

Considerando la ecuacion (26), entonces el error total ε2 se puede expresar de la siguiente forma:

ε2 = |e|2 =

n∑

i=1

[ei]2 =

n∑

i=1

[yi − yi]2 =

n∑

i=1

[

yi −(

β1 + β2xi + β3x2i + . . . + βm+1x

mi

)]2(32)

Las ecuaciones (29) y (32) son equivalentes a las ecuaciones (22) y (24) de la seccion anterior,por lo que la resolucion de el sistema ya generalizado para cualquier polinomio, se puede llevar a

14

4.2 Generalizacion 4 METODO DE MINIMOS CUADRADOS

cabo de la misma manera que con una recta. Es por ello que la resolucion que se vera a continuacionsera para una recta. Cualquier aspecto que cambie entre este caso y el generalizado se indicara enlas siguientes secciones tambien.

15

4.3 Resolucion Diferencial 4 METODO DE MINIMOS CUADRADOS

4.3. Resolucion Diferencial

El problema de mınimos cuadrados intenta encontrar una curva que sea la que mejor se ajustea una coleccion de puntos. Siendo este el caso, se intenta minimizar4 el error entre la curva y todoslos puntos.

En esta seccion se intentara buscar este mınimo por medio del calculo diferencial. Para ello seoptimizara la funcion de error ε2, lo cual implica derivarla con respecto a cada una de las variablesa y b o en el caso de un polinomio mayor, con respecto a todos los βj donde j − 1 = m, el gradodel polinimo.

Se procede entonces a derivar la funcion de error ε2 (Ecuacion (24)):

∂ (ε2)

∂a=

∂a

(

n∑

i=1

[yi − (a + bxi)]2

)

=n∑

i=1

[

∂a(yi − (a + bxi))

2

]

(33)

∂ (ε2)

∂b=

∂b

(

n∑

i=1

[yi − (a + bxi)]2

)

=

n∑

i=1

[

∂b(yi − (a + bxi))

2

]

(34)

Notese que de la sumatoria se obtendrıa solo coeficientes de a o b sin potencia o elevados alcuadrado5. El cambio entre la sumatoria y la derivada parcial (Ecuaciones (33) y (34)) es posiblede realizar gracias a las propiedades de la derivada6.

Se continua entonces con las derivadas y se igualan estas a 0 con el fin de encontrar el maximoo mınimo.

∂ (ε2)

∂a= −2

n∑

i=1

[yi − (a + bxi)] = 0 (35)

∂ (ε2)

∂b= −2

n∑

i=1

[yi − (a + bxi)] xi = 0 (36)

Se distribuye la sumatoria y se reordenan los terminos de tal forma en que la ecuacion parezcala de una recta.

na + b

n∑

i=1

[xi] =

n∑

i=1

[yi] (37)

a

n∑

i=1

[xi] + b

n∑

i=1

[

x2i

]

=

n∑

i=1

[xiyi] (38)

4De aqui viene la otra parte del nombre del metodo: Mınimos Cuadrados.5Se puede pensar en parabolas de las que se busca el maximo o mınimo.6En este caso recurdese la propiedad que dicta que la derivada de una suma es la suma de las derivadas.

16

4.3 Resolucion Diferencial 4 METODO DE MINIMOS CUADRADOS

Esto se puede reescribir de forma matricial nuevamente:

[

na b∑n

i=1 [xi]a∑n

i=1 [xi] b∑n

i=1 [x2i ]

]

=

[ ∑n

i=1 [yi]∑n

i=1 [xiyi]

]

(39)

Que finalmente se convierte en:

[

n∑n

i=1 [xi]∑n

i=1 [xi]∑n

i=1 [x2i ]

] [

a

b

]

=

[ ∑n

i=1 [yi]∑n

i=1 [xiyi]

]

⇒ Bx = z (40)

En este punto, ya se ha llegado a una forma en la que el error ha sido minimizado y ambasecuaciones solo necesitan ser resueltas. Sin embargo el ultimo paso, la solucion a partir de laecuacion (40), se dejara para la seccion 4.5.

17

4.4 Resolucion Algebraica 4 METODO DE MINIMOS CUADRADOS

4.4. Resolucion Algebraica

Para la solucion de forma algebraica se parte de la ecuacion (25). Esta expresa el error de cadapunto con respecto al polinomio solucion. Supongase entonces que w es el vector solucion de ladistancia mınima que se busca y w es cualquier vector en R

2 si se considera el caso de una recta.El error de la recta solucion es menor al de cualquier otra recta.

|v − Aw| ≤ |v − Aw| (41)

Se considerara entonces a Aw como una proyeccion de v sobre el espacio columna de A, segunlo visto en la seccion 3.3. Notese que tanto v como Aw pertenecen al mismo espacio vectorial.

proycol(A)v = Aw (42)

El error de la recta solucion se puede reescribir entonces como:

ε = v − proycol(A)v (43)

Segun lo que se mostro en las secciones 3.1 y 3.2, se sabe que el error ε es un vector ortogonala cualquier vector elemento del espacio columna de A. Siendo esto ası, se puede aprovechar laortogonalidad para encontrar al vector solucion w. Sea r = Aw donde w es cualquier vector enR

2.

r ·(

v − proycol(A)v)

= 0⇓

Aw · (v − Aw) = 0(44)

El producto anterior se puede reescribir segun se vio en la seccion 2.4 como:

(Aw)T (v − Aw) = 0 (45)

wT AT (v − Aw) = 0 (46)

w · AT (v − Aw) = 0 (47)

Para pasar de (45) a (46) se utilizo propiedades de la transpuesta. Notese que en la ecuacion(47), AT (v − Aw) es otrtogonal a todo vector w. El unico vector ortogonal a todo vector en R

2

es el vector 0. Se procede entonces a resolver el sistema AT (v − Aw) = 0.

AT (v − Aw) = 0 (48)

ATv − AT Aw = 0 (49)

AT Ax = ATv (50)

Esto es lo mismo que:

1 x1

1 x2

1 x3...

...1 xn

T

1 x1

1 x2

1 x3...

...1 xn

[

a

b

]

=

1 x1

1 x2

1 x3...

...1 xn

T

y1

y2

y3...

yn

(51)

18

4.4 Resolucion Algebraica 4 METODO DE MINIMOS CUADRADOS

Al calcular la transpuesta, se obtiene lo siguiente:

[

1 1 1 . . . 1x1 x2 x3 . . . xn

]

1 x1

1 x2

1 x3...

...1 xn

[

a

b

]

=

[

1 1 1 . . . 1x1 x2 x3 . . . xn

]

y1

y2

y3...

yn

(52)

El resultado de la multiplicacion de matrices del lado izquierdo da como resultado una matriz de2×2, mientras que la del lado derecho da como resultado una matriz de 2×1. Se procede entoncesa hacer la multiplicacion de las matrices y el resultado es el siguiente:

[

n∑n

i=1 [xi]∑n

i=1 [xi]∑n

i=1 [x2i ]

] [

a

b

]

=

[ ∑n

i=1 [yi]∑n

i=1 [xiyi]

]

⇒ Bx = z (53)

Notese que la ecuacion (53) es exactamente igual a la ecuacion (40). El procedimiento algebraicoes mas comodo, sin embargo, cuando se trabaja con polinomios de grado > 1.

19

4.5 Solucion 4 METODO DE MINIMOS CUADRADOS

4.5. Solucion

Ahora, para concluir con la deduccion, se tomara las ecuaciones (40) y (53) y se resolvera estas.Para ello se utiliza a la matriz inversa. De esta forma se removera la matriz de sumatorias del lado

izquierdo, dejando ası al vector de coeficientes

[

a

b

]

despejado.

Primero se calculara la matriz inversa de (40). Existen 2 metodos para hacer esto: Por deter-minantes y por el metodo de Gauss-Jordan. La operatoria utilizada en el sengundo metodo es maslarga en comparacion al metodo por determinantes, por lo que se procedera a calcular la inversapor deternimantes.

El determinante de la matriz, se calcula entonces:

det |B| = det

n∑n

i=1 [xi]∑n

i=1 [xi]∑n

i=1 [x2i ]

= n

n∑

i=1

[

x2i

]

(

n∑

i=1

[xi]

)2

(54)

Ya con el determinante, la matriz inversa se puede expresar de la siguiente forma:

B−1 =

[

n∑n

i=1 [xi]∑n

i=1 [xi]∑n

i=1 [x2i ]

]

−1

=1

det |B|

[∑n

i=1 [x2i ] −

∑n

i=1 [xi]−∑n

i=1 [xi] n

]

(55)

Ahora, aplicando la inversa a ambos lados de la ecuacion se obtiene:

B−1Bx = B−1z

⇓x = B−1z

(56)

[

a

b

]

=

P

n

i=1[x2

i ]n

P

n

i=1[x2

i ]−(P

n

i=1[xi])

2

P

n

i=1[xi]

nP

n

i=1[x2

i ]−(P

n

i=1[xi])

2

P

n

i=1[xi]

nP

n

i=1[x2

i ]−(P

n

i=1[xi])

2

n

nP

n

i=1[x2

i ]−(P

n

i=1[xi])

2

[ ∑n

i=1 [yi]∑n

i=1 [xiyi]

]

(57)

Y de esto, al terminar de multiplicar se obtiene dos ecuaciones independientes:

a =

∑n

i=1 [xi]2∑n

i=1 [yi] −∑n

i=1 [xi]∑n

i=1 [xiyi]

n∑n

i=1 [x2i ] − (

∑n

i=1 [xi])2 (58)

b =n∑n

i=1 [xiyi] −∑n

i=1 [xi]∑n

i=1 [yi]

n∑n

i=1 [x2i ] − (

∑n

i=1 [xi])2 (59)

20

4.5 Solucion 4 METODO DE MINIMOS CUADRADOS

Ahora, si se considera que la media de una serie de datos w1, w2, . . . , wi se calcula de la siguienteforma:

w =

∑n

i=1 [wi]

n(60)

Entonces las ecuaciones (58) y (59), despues de un poco de manipulacion algebraica, se puedenreescribir de la siguiente forma:

a =y∑n

i=1 [xi]2 − x

∑n

i=1 [xiyi]∑n

i=1 [x2i ] − nx2

(61)

b =

∑n

i=1 [xiyi] − nxy∑n

i=1 [x2i ] − nx2

(62)

Y con estas dos ultimas ecuaciones se concluye la deduccion del metodo de mınimos cuadrados.Los escalares a y b se introducen en la ecuacion (19) y con ello se logra la recta que mejor aproximala tendencia de la coleccion de puntos que se tenıa al principio.

Para el caso generalizado la solucion se deduce de la misma forma, solo que la ecuacion con quese comienza (es decir, la ecuacion matricial obtenida de las secciones 4.3 y 4.4) serıa mas grande.De hecho, si la curva que se desea aproximar es un polinomio de grado m, entonces la matriz serıade (m + 1) × (m + 1).

21

5 CASOS ESPECIALES

5. Casos Especiales

Tomando en cuenta que no todas las curvas que se deseen aproximar son polinomios, se dedicauna seccion al caso de las curvas exponencial y logarıtmica. Despues de esto se espera haber dejadoclaro que a cualquier coleccion de puntos se le puede aproximadar cualquier curva si se aplica latransformacion correcta.

5.1. Exponencial

Figura 15: Regresion exponencial.

Para el caso de una coleccion de puntos que se comportan de forma exponencial, la mejoraproximacion serıa una curva de la forma:

f(x) = y = cedx (63)

En este caso, la deduccion hecha previamente aplicarıa si esta ecuacion se pudiera transformaren algun tipo de polinomio. Si a esta ecuacion se le aplica logarıtmo natural, notese que se puedellevar a un polinomio de grado 1.

ln(y) = ln(

cedx)

(64)

= ln(c) + ln(

edx)

(65)

= ln(c) + dx (66)

Ahora, si todos los puntos ln(y) se utilizan como un Y , y ln(c) se toma como una constante C,entonces la ecuacion (66) se transforma a un polinomio grado 1 de la forma:

Y = C + dx (67)

Esta ya se puede resolver con la misma deduccion planteada previamente. Una vez calculadosc = eC y d ya se pueden introducir estos a la ecuacion (63) y con esto obtener la curva deseada.

22

5.2 Logarıtmica 5 CASOS ESPECIALES

5.2. Logarıtmica

Figura 16: Regresion logarıtmica.

Para el caso de un comportamiento logarıtmico, la ecuacion general que se ajustarıa serıa dela forma:

f(x) = y = b logk(cx) (68)

Este caso es un poco diferente al anterior. En este caso no se aplicara ninguna transformacion,sino que se reordenara algunos terminos de la forma siguiente:

y = b logk(c) + b logk(x) (69)

Notese pues, que la ecuacion allı ya tiene la forma de un polinomio de grado 1. Para que esto sevuelva mas claro, considerese (b logk(c)) como una sola constante C y a logk(x) como X. Entoncesla ecuacion se verıa ası:

y = C + bX (70)

Se resuelve entonces el problema como si este fuera una recta y por ultimo se sustituyen lasconstantes c y b en la ecuacion (68). Notese que para obtener c se debe de realizar la siguienteoperacion:

c = kC

b (71)

23

6 BIBLIOGRAFIA

6. Bibliografıa

6.1. Literatura

Anderson et. al. 1999. Estadıstica para Administracion y Economıa. 7 ed. Thomson

Grossman S. 1984. Elementary Linear Algebra. 2 ed. Wadsworth

Poole D. 2004. Algebra Lineal: Una Introduccion Moderna. Thomson

6.2. Internet

Weisstein E. 2009. Least Squares Fitting. Wolfram MathWorld.http://mathworld.wolfram.com/LeastSquaresFitting.html

Weisstein E. 2009. Least Squares Fitting - Exponential. Wolfram MathWorld.http://mathworld.wolfram.com/LeastSquaresFittingExponential.html

Weisstein E. 2009. Least Squares Fitting - Logarithmic. Wolfram MathWorld.http://mathworld.wolfram.com/LeastSquaresFittingLogarithmic.html

Wiley Publishing Inc. 2009. Linear Algebra: Projection onto a Subspace. CliffsNotes.http://www.cliffsnotes.com/WileyCDA/CliffsReviewTopic/Projection-onto-a-Subspace.topicArticleId-20807,articleId-20792.html

6.3. Herramientas

GIMP: GNU Image Manipulation Program. Version 2.6.3. 2008.http://www.gimp.org/

OpenOffice.org: The Free and Open Productivity Suite. Version 3.0.1. 2008.http://www.openoffice.org/

SAGE: Open Source Mathematics Software. Version 3.1.4. 2008.http://www.sagemath.org/

TexMaker: Free LATEX Editor. Version 1.7. 2008.http://www.xm1math.net/texmaker/

24