ordenada al origen pendiente error i-ésimo valor de la variable independiente x observación de la...

27
Regresión Lineal Simple

Upload: mercedes-naranjo-roldan

Post on 24-Jan-2016

227 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Regresión Lineal Simple

Page 2: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Regresión lineal simple• Etapa exploratoria: gráficos de dispersión• Análisis de correlación

En algunos casos, de acuerdo a la naturaleza de las variables y la información disponible, puede suponerse una

relación funcional entre dos o más variables, que puede expresarse mediante una expresión matemática.

Considerando dos variables, si denominamos Y a la variable que se supone DEPENDIENTE, y X a la variable que se postula INDEPENDIENTE, resulta familiar utilizar el concepto de función:

“Y es función de X” indica que pueden predecirse los valores que tomará Y de acuerdo a los valores asignados a X. Dicho de otra manera, se puede conocer el comportamiento de Y a través de un modelo que relacione la variación de Y con la variación de X.

Page 3: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Regresión lineal simpleAnálisis de regresión: Objetivos

Identificar un modelo funcional que describa cómo se modifica la variable dependiente Y frente a cambios la variable independiente X

Estimar los parámetros del modelo (constantes) a partir de una muestra aleatoria de observaciones en Y y en X

Validar el modelo mediante contrastes de hipótesis que pongan a prueba la bondad de ajuste del mismo

Predecir el valor esperado de la variable dependiente Y cuando la variable independiente X toma un valor particular

Page 4: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

• β0 es la ORDENADA AL ORIGEN; indica el valor de

Y cuando xi=0

• β1 es la PENDIENTE de la recta; indica cuánto cambia

Y por cada incremento unitario en X.̵�β1 ˃ 0 crecimiento de Y por cada incremento

unitario en X̵�β1 ˂ 0 disminución de Y por cada incremento

unitario en X

Regresión lineal simple

Ordenada al origenPendiente

ii10i xy Erroriii yy ˆ

i-ésimo valor de la variable independiente X

Observación de la variable dependiente Y bajo el i-ésimo valor de X

Análisis de regresión: Modelo

Page 5: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

ii10i xy

1x 2xix 1nx nx

1y

2y

iy1ny

ny

ˆiy

yi

i

yVariabilidad

total Variabilidad explicada por el modelo

= Variabilidad no explicada

ORDENADA AL ORIGEN PENDIENTE

Erroriii yy ˆ

Regresión lineal simple

β1

β00

0

Page 6: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Ejemplo

Page 7: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Definición de variablesEn un cultivo de trigo se desea cuantificar la relación que

hay entre la disponibilidad de N (cantidad de nitrógeno en el suelo en ppm) y la cantidad de nitrógeno en la planta en ppm, relación que se supone lineal.

Biológicamente, se espera que la cantidad de N en las plantas sea explicada, al menos parcialmente, por la cantidad de N en suelo. Es por ello que se define como variable dependiente Y la cantidad de N en la planta y como variable independiente X el contenido de N del suelo.

Regresión lineal simple

X: Nitrógeno en el suelo (ppm)

4,2 4,5 5 5,5 6,8 6,9 7 7,3 8 9 9,2 9,4

Y: Nitrógeno por planta (ppm) 1,3 1,5 1,6 1,7 1,8 1,8 1,9 2 2 2,1 2,2 2,3

Los datos corresponden a 12 parcelas, en las que se registró el contenido de N en el suelo (X) y los valores promedio de N por planta (Y), este último calculado como promedio sobre todas las plantas de la parcela.

Page 8: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Gráfico de dispersión

Una vez identificadas la variable dependiente

Y: Nitrógeno por planta (ppm), y la variable independiente X: Nitrógeno en el suelo (ppm), se graficaron los datos obtenidos en un diagrama de dispersión.

Regresión lineal simple

3 4 5 6 7 8 9 100

0.5

1

1.5

2

2.5

Nitrógeno en el suelo (ppm)

Nit

róg

en

o p

or

pla

nta

(p

pm

)

Page 9: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Estimación de parámetros

Regresión lineal simple

Para todo conjunto de observaciones obtenidas sobre dos variables, existen potencialmente una infinidad de modelos que permitirían explicar la relación funcional entre ambas variables.

Como ya mencionamos, el análisis de regresión lineal simple permite identificar un modelo -una ecuación de la recta en este caso- que describe cómo varía la variable dependiente Y, frente a cambios en la variable independiente X.

Para la construcción de dicho modelo es necesaria la

estimación de sus parámetros β0 y β1, utilizando la

muestra aleatoria de datos disponibles.

ii10i xy ORDENADA AL ORIGEN PENDIENTE

Error

Page 10: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Estimación de parámetros

Regresión lineal simple

Se denominan coeficientes de regresión muestral a las estimaciones de β0 y β1, denotadas b0 y b1

respectivamente.Si no hubiese errores aleatorios, cualquier par de

puntos (x , y) podría usarse para encontrar los valores de b0 y b1 . De este modo todas las estimaciones serían

idénticas, independiente del par de valores utilizado.La presencia de errores hace necesaria la aplicación de

un método para la estimación, que permita combinar toda la información disponible en la muestra. El método de estimación que aplicaremos utiliza el término de error aleatorio presente en el modelo, y se denomina MÉTODO DE MÍNIMOS CUADRADOS.

Recordemos que el error aleatorio εi se define como

la distancia del valor observado respecto a la recta, medida sobre el eje de las ordenadas.

Page 11: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

3 4 5 6 7 8 9 100

0.5

1

1.5

2

2.5

Nitrógeno en el suelo (ppm)

Nit

róg

en

o p

or

pla

nta

(p

pm

)

Error aleatorio εi : distancias de los valores observados respecto a la recta, medidas sobre el eje de las ordenadas

0n

1ii

Considerando que la sumatoria de los errores aleatorios asociados a los valores originales es cero, este método utiliza la sumatoria de dichos errores elevados al cuadrado.

La recta de «mejor ajuste» se define como

aquella que posibilita que la sumatoria de los cuadrados de los errores sea lo más pequeña posible.

mínn

1i

2i

Page 12: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Estimación de parámetros

Regresión lineal simple

b0 = y – b1. x b1= xS

yxCov2

),(

b0 = y – b1. x b1= xS

yxCov2

),(

Fórmulas para el cálculo de los coeficientes de regresión muestral

b0 = 0,76

b1 = 0,16

Coeficientes de regresión muestral calculados a partir del ejemplo

Page 13: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Contrastes de hipótesis sobre los parámetros

Regresión lineal simple

Se presenta aquí la ecuación de la recta construida con las estimaciones de los parámetros:

3 4 5 6 7 8 9 100

0.5

1

1.5

2

2.5

Nitrógeno en el suelo (ppm)

Nit

rógeno p

or

pla

nta

(ppm

)

Y = 0,76 + 0,16 XLos contrastes de hipótesis, tanto para β0

como para β1

se ponen a prueba

mediante un test T. A continuación se presentan las hipótesis nulas y alternativas, así como los estadísticos de las pruebas T, para cada uno de los parámetros estimados.

Page 14: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

22

i2i

2

00

ˆn/xx

xn1

bT

Regresión lineal simpleContrastes de hipótesis sobre los parámetros

H0: β0 = 0

H1: β0 ≠ 0

H0: β1 = 0

H1: β1 ≠ 0

n/xx

ˆ

bT

2

i2i

2

11

Page 15: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

H0: β1 = 0

H1: β1 ≠ 0

Regresión lineal simple

Tobs ˃ Ttabla → Rechazo H0 → β1 ≠ 0

Esto indica que el modelo explica una parte significativa de la variación en Y en función de las variaciones en X.

Tobs ˃ Ttabla → Rechazo H0 → β0 ≠ 0De acuerdo al contexto del problema, esta prueba de hipótesis podría carecer de sentido biológico. En este caso, el resultado podría interpretarse de la siguiente manera: aún cuando existan concentraciones prácticamente nulas de N en suelo, las plantas obtendrían nitrógeno proveniente de otras fuentes.

Los estadísticos aquí calculados se distribuyen como una T con n-2 grados de libertad. En ambos casos, los valores obtenidos para el estadístico T se comparan con el valor de tabla, en función de lo cual se determina el rechazo o no de la H0.

Contrastes de hipótesis sobre los parámetros

H0: β0 = 0

H1: β0 ≠ 0

Tobs=

9,35Ttabla=

1,81

Tobs=

13,94Ttabla=

1,81

Page 16: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Evaluación de la regresión

Page 17: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Para evaluar el valor predictivo del modelo se calcula el coeficiente de determinación, R2. Se analizarán también los residuos obtenidos durante el análisis con el objetivo de corroborar el cumplimiento de los supuestos del modelo.

El resultado del análisis de regresión puede expresarse mediante una tabla de ANAVA (Análisis de la Varianza). Se

observa que la variación total en Y (SCT) puede

descomponerse en la variación de los datos explicada por la

regresión (SCβ) más la variación no explicada o residual (SCR). Si la variación explicada es sustancialmente mayor que la variación no explicada, el modelo propuesto será bueno para fines predictivos.

Evaluación de la regresión

Fuente de Variación

Suma de Cuadrados

Grados de

Libertad

Cuadrado

MedioF

Debida a β (explicada) SCβ 1 CMβ

Residual (NO explicada) SCR n-2 CMR  

Total SCT n-1    

Page 18: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

1x 2xix 1nx nx

1y

2y

iy1ny

ny

ˆiy

yi

i

yVariabilidad

total Variabilidad explicada por el modelo

= Variabilidad no explicada

Fuente de Variación

Suma de Cuadrados

Grados de

Libertad

Cuadrado Medio F

Debida a β(explicada)

SCβ 1 CMβ

Residual(NO explicada)

SCR n-2 CMR  

Total SCT n-1    

Page 19: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Coeficiente de determinación R2

Una medida de la capacidad predictiva del modelo es el

coeficiente de determinación R2, que relaciona la

variación explicada por el modelo (SCβ) con la variación total (SCT). Este coeficiente se calcula entonces como un cociente: 

Este coeficiente es a su vez el estimador muestral del parámetro ρ2. El contraste de hipótesis para evaluar la bondad de ajuste del modelo se resuelve mediante un estadístico de distribución F, ya que se trata de un cociente entre dos varianzas (las que a su vez tienen distribución χ2).

Evaluación de la regresión

H0: ρ2 = 0

H1: ρ2 ˃ 0

SCβ: suma de cuadrados de la regresión, representa la variabilidad explicada por el modelo.SCT: suma de cuadrados total, representa la variabilidad total.

0,95

Fobs=

194,32Ftabla=

4,84

Fobs ˃ Ftabla → Rechazo H0 → ρ2 ˃

0Esto indica que una gran proporción (95%) de la variabilidad total es explicada por el modelo.

Page 20: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Evaluación de la regresiónAnálisis de los residuos

Es necesario tener en cuenta que las pruebas de bondad de ajuste sólo son válidas si se cumplen los supuestos del modelo de regresión:

• La esperanza de la distribución de los errores es cero• La varianza de la distribución de los errores es constante• Los errores son variables aleatorias normales e

independientes

Recordemos el modelo

Estos supuestos, referidos al término de error εi , pueden

resumirse de la siguiente forma:

Para comprobarlos es necesario estudiar los residuos obtenidos al realizar el análisis de regresión, una vez ajustada la recta a los datos observados.

) , 0 ( ID I N ~ 2 i

ii10i xy

Page 21: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Evaluación de la regresiónAnálisis de los residuosLos supuestos para los errores pueden evaluarse mediante interpretaciones gráficas.

Verificar la

homogeneidad de

varianzas: residuos vs.

predichos

Verificar la distribución

normal de los errores: Q-

Q plot

Verificar la independencia de los

errores: residuos vs. orden de

observación de los datos

Page 22: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Volvamos al ejemplo

Page 23: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Ejemplo de aplicaciónSe estudió la

relación que hay entre la cantidad de nitrógeno en el suelo (X) y la cantidad de nitrógeno en la planta (Y).

Se observa la tabla de datos originales, la recta ajustada en el gráfico de dispersión, el valor de R2 y la ecuación con los valores estimados para β0 y β1.

X: Nitrógeno en el suelo (ppm)

4,2 4,5 5 5,5 6,8 6,9 7 7,3 8 9 9,2 9,4

Y: Nitrógeno por planta (ppm) 1,3 1,5 1,6 1,7 1,8 1,8 1,9 2 2 2,1 2,2 2,3

3 4 5 6 7 8 9 100

0.5

1

1.5

2

2.5

f(x) = 0.158509454949944 x + 0.756284760845384R² = 0.951056729699666

Nitrógeno en el suelo (ppm)

Nit

rógeno p

or

pla

nta

(ppm

)

Page 24: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Se realizó el análisis de regresión lineal utilizando el software estadístico Infostat. Se observa a continuación el resultado arrojado por el software.

Ejemplo de aplicación

Ordenada al origen Pendient

e

p-valor para las pruebas de hipótesis de los parámetros del modelo

Estos valores de R2 indica que el modelo tiene gran valor predictivo: un 95% de variación en Y puede ser explicada por la variación en X.

Page 25: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Ejemplo de aplicación

ANÁLISIS DE LOS RESIDUOS

Para verificar la

distribución normal de

los errores se graficaron los residuos vs. los cuantiles de la distribución normal (gráfico Q-Q plot). Se observa que los puntos se alinean sobre la recta, esto indica que la distribución de los errores es normal.

p-valor para la prueba de hipótesis del parámetro ρ2

Page 26: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Para verificar la

independencia de los

errores se graficaron los

valores de residuos vs. el orden

de observación. También se

observa aleatoriedad en la

nube de puntos, lo que sugiere

ausencia de correlación en la

información suministrada.

Ejemplo de aplicaciónPara verificar la homogeneidad

de varianzas se graficaron los

valores de los residuos vs. los valores

predichos. Se comprueba el supuesto:

hay aleatoriedad en la distribución de

los puntos e igual cantidad de residuos

negativos y positivos.

Page 27: Ordenada al origen Pendiente Error i-ésimo valor de la variable independiente X Observación de la variable dependiente Y bajo el i-ésimo valor de

Conclusiones

Se realizó un análisis de regresión lineal simple para detectar la relación existente entre la cantidad de N en el

suelo y la cantidad de N en plantas de trigo en ppm, en

parcelas de cultivo.

Se comprobó el cumplimiento de los supuestos relativos a

los errores del modelo, analizando los residuos obtenidos. El

valor de R2 obtenido indica que el modelo posee alto valor

predictivo, donde el 95% de la variación de Y = nitrógeno en

planta puede ser explicado por la variación en X = nitrógeno

en suelo. Finalmente, para realizar predicciones dentro del

sistema estudiado, puede utilizarse la ecuación de la recta

obtenida en el presente análisis, considerando que las

predicciones sólo serán válidas dentro del rango de valores en

estudio.

x16,076,0y

ii10i xy