template aplicadaiii.pdf

5
Universidad del Valle Estadística Aplicada III Cali, Agosto-Diciembre de 2012 Modelo de regresión lineal Rendimiento de la Gasolina (Millas/Galón) Angela Patricia Cadena a , Cristian Eduardo Garcia b Escuela de Estadística, Facultad de Ingeniería, Universidad del Valle, Cali, Colombia Resumen Con el fin de analizar si la variable X1: Cilindrada de 32 vehículos de diferentes marcas influye o se relaciona con el Y: Rendimiento de la gasolina en millas por galón, se realizó un análisis por medio de un modelo lineal, en donde se estimaron los parámetros correspondientes que van a influir en dicho caso. Para ello se utilizó la herramienta computacional R con la cual se realizaron los diferentes cálculos pertinentes para finalmente dar origen a las conclusiones acerca de la hipótesis que se tiene en cuanto a la influencia de dicha variable sobre el rendimiento de la gasolina al encontrar que el supuesto de homogeneidad de varianzas no se cumple en el modelo se plantea una transformación la cual cumple con todos los supuestos y de esta manera poder tener una buena estimación de los parámetros. 1. Introducción En la estadística aplicada se consideran los modelos de regresión lineal, como una herramienta precisa, y muy útil a la hora de dar explicación, o predecir el comportamiento a base de la dependencia de sucesos relacionados con la variable estudiada. Con el fin de ilustrar la aplicación de los modelos de regresión lineal, se observará la relación entre la variable Cilindrada (pulgadas cúbicas) y el Rendimiento medio de gasolina (Millas/Galón). 2. Metodología 2.1. Definición del Modelo Con el fin de analizar si el rendimiento medio de millas por galón (Y ) está influenciado por la variable (X 1 ) Cilindrada (pulgadas cubicas) se planteará el siguiente modelo de regresión lineal: Y = β 0 + β 1 X 1 + ε; ε N (02 ) a Estudiante. E-mail: [email protected] b Estudiante. E-mail: [email protected] 1

Upload: cristian-garcia

Post on 27-Oct-2015

28 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Template AplicadaIII.pdf

Universidad del Valle

Estadística Aplicada III

Cali, Agosto-Diciembre de 2012

Modelo de regresión lineal

Rendimiento de la Gasolina (Millas/Galón)

Angela Patricia Cadenaa, Cristian Eduardo Garciab

Escuela de Estadística, Facultad de Ingeniería, Universidad del Valle, Cali, Colombia

Resumen

Con el fin de analizar si la variable X1: Cilindrada de 32 vehículos de diferentes marcas influye o

se relaciona con el Y: Rendimiento de la gasolina en millas por galón, se realizó un análisis por medio

de un modelo lineal, en donde se estimaron los parámetros correspondientes que van a influir en

dicho caso. Para ello se utilizó la herramienta computacional R con la cual se realizaron los diferentes

cálculos pertinentes para finalmente dar origen a las conclusiones acerca de la hipótesis que se tiene

en cuanto a la influencia de dicha variable sobre el rendimiento de la gasolina al encontrar que el

supuesto de homogeneidad de varianzas no se cumple en el modelo se plantea una transformación

la cual cumple con todos los supuestos y de esta manera poder tener una buena estimación de los

parámetros.

1. Introducción

En la estadística aplicada se consideran los modelos de regresión lineal, como una herramienta precisa,y muy útil a la hora de dar explicación, o predecir el comportamiento a base de la dependencia de sucesosrelacionados con la variable estudiada. Con el fin de ilustrar la aplicación de los modelos de regresiónlineal, se observará la relación entre la variable Cilindrada (pulgadas cúbicas) y el Rendimiento medio degasolina (Millas/Galón).

2. Metodología

2.1. Definición del Modelo

Con el fin de analizar si el rendimiento medio de millas por galón (Y ) está influenciado por la variable(X1) Cilindrada (pulgadas cubicas) se planteará el siguiente modelo de regresión lineal:

Y = β0 + β1X1 + ε; ε ∼ N(0, σ2)

aEstudiante. E-mail: [email protected]. E-mail: [email protected]

1

Page 2: Template AplicadaIII.pdf

2 Angela Patricia Cadena & Cristian Eduardo Garcia

2.2. Supuestos del Modelo

• El error ε se distribuye normal con media 0: ǫ ∼ N(0, σ2I)

• El error ε tiene Varianza constante: V ar(ǫi) = σ2 < ∞

• No correlación del error: Cov(ǫi, ǫj) = 0

• La relación entre la variable de respuesta Y y la variable regresoraX1 es de forma lineal aproximadamente.

Para hacer mas precisa la estimación del modelo y que se ajuste correctamente se deben cumplirtodos los supuestos, ya que si alguno de estos no se cumple la estimación de la varianza no es correcta aldepender ésta de los residuales.

2.3. Ajuste del modelo, estimación de parámetros y Varianza de los errores

Cabe mencionar que para la estimación de los parámetros y la varianza de los errores se utilizarael método de los mínimos cuadrados . Ahora bien, se hará una descripción detallada de los cálculosempleados, como solo se tiene una variable regresora el calculo de los β esta dada de la siguiente manera:

β = (XTX)−1XT−→y (1)

β =

(n

∑xi∑

xi

∑xi

2

)−1 ( ∑

yi∑xiyi

)

β0 =

∑xi

∑yi −

∑xi

∑yixi

n∑

x2i − (

∑xi)2

= 33.490010

Donde β0 es el intercepto del modelo el cual se traduce como el valor fijo que tiene el rendimiento de lagasolina independientemente del valor que tome la variable regresora X1: Cilindrada (pulgadas cúbicas).Indica que el rendimiento medio de la gasolina de los automóviles es 33.490010 millas por galón cuandola variable regresora anteriormente mencionada vale cero.

β1 =n∑

yixi −∑

xi

∑yi

n∑

x2i − (

∑xi)2

= −0.047026

El coeficiente β1 corresponde al cambio absoluto en el rendimiento de la gasolina (Millas/galón) anteun cambio en una unidad de la variable Cilindrada (X1). Muestra que el incremento en una unidad dela variable Cilindrada, conlleva una reducción en el valor esperado del rendimiento de la gasolina (Y) de0, 0359478 unidades.

• Modelo Ajustado:

y = 33.490010− 0.047026x1

• Estimación de parámetros

σ2 =(∑

yi − yi)2

n− 2= 9.736062

V ar(β) = σ2(XTX)−1 =

(2.357687951 −0.007107765

−0.007107765 2.484827e−05

)

Estadistica Aplicada III (2012)

Page 3: Template AplicadaIII.pdf

Rendimiento de la Gasolina (Millas/Galón) 3

• NORMALIDAD:

Para comprobar si el modelo anteriormente planteado cumple con el supuesto de normalidad en losresiduales, se observa en la Figura1 “Normalidad ”, que la mayoría de los puntos se encuentran cercanos ala recta lo cual evidencia que el supuesto de normalidad se cumple. Para verificar la afirmación anterior,se realizo la prueba de bondad de ajuste de Shapiro Wilks al modelo donde se plantean las siguienteshipótesis:

Ho = Los datos distribuyen Normal Ha = Los datos no se distribuyen Normal

Con el valor P obtenido mediante la prueba realizada, el cual es de 0.8813 se puede afirmar que losresiduales se distribuyen normal ya que dicho valor es mayor al nivel de significancia asumiendo 5 %confirmando lo evidenciado en la Figura 1

• VARIANZA:

Para evaluar el supuesto de homogeneidad de varianzas, se graficó los residuales vs los valoresajustados; como se puede ver en la Figura 1 “Heterocedasticidad ”; aunque la mayoría de los puntos oscilanalrededor de cero y dentro de un rango definido para el eje de los residuales (entre 4 y -4), se encuentranalgunos puntos atípicos por lo cual no se puede afirmar con exactitud si existe homocedasticidad.

Con ánimo de corroborar y validar dicho supuesto (Homocedasticidad), se realizó la prueba deBreusch-Pagan asumiendo un nivel de confianza del 95%. Para la realización de dicha prueba se plantearonlas siguientes hipótesis:

Ho : Existe homocedasticidad de varianzas en los residuales

Ha : Existe heterocedasticidad de las varianzas en los residuales

Se encontró un el valor-p de 0.01878 el cual es menor al nivel de significancia con el que se trabajo(5%), por lo tanto con un 95% de confianza se rechaza la hipótesis nula planteada, es decir el supuestode homogeneidad de varianzas de los residuales para este modelo no se cumple.

• CORRELACIÓN:

En la Figura 1 “Correlación ”, se puede ver que no hay un patrón de comportamiento por lo tanto sepodría pensar que no existe correlación entre los residuales. Sin embargo para corroborar la conclusiónanteriormente dada, se realiza la prueba de Durbin Watson. Las hipótesis que se planteadas son lassiguientes:

Ho : No hay correlación entre las variables del modelo ajustado

Ha : Hay correlación entre las variables del modelo ajustado

Como el valor p obtenido, 0.205 es mayor al nivel de significancia (0.05) no se rechaza la hipótesisnula por lo tanto se puede confirmar que no hay correlación entre los residuales del modelo.

2.4. Resultados y Funciones utilizadas en R

2.4.1. prueba de los supuestos.

• FUNCIONES UTILIZADAS EN R:

Se utilizo la herramienta computacional R para realizar las estimaciones de los parámetros del modelo y loscálculos correspondientes. El ajuste a un modelo lineal de las variables asignadas se llevo a cabo mediantela función lm; con la opción summary(ajuste) se estimaron los parámetros del modelo, la varianza y el

Estadistica Aplicada III (2012)

Page 4: Template AplicadaIII.pdf

4 Angela Patricia Cadena & Cristian Eduardo Garcia

coeficiente de correlación para probar el supuesto de normalidad, con la prueba de bondad de ajuste deShapiro Wilk, se calculo el valor-p de dicha prueba utilizando el código shapiro.test(residuales)$p; paraobservar la homogeneidad de varianzas se utilizo el código bptest(ajuste)$p que corresponde al valor-pde la prueba de Breusch-Pagan con la función dwtest(ajuste)$p se calculo la prueba de Durbin-Watsonpara corroborar el supuesto de no correlación de los residuales.

−2 −1 0 1 2

−6

−4

−2

02

46

Ajuste de los Residuales a una Normal

1.NormalidadTheoretical Quantiles

Sam

ple

Qua

ntile

s

10 15 20 25 30

−10

−5

05

10

Diagnostico Varianza

2.HeterocedasticidadValores ajustados

Res

idua

les

0 5 10 15 20 25 30

−6

−4

−2

02

46

Autocorrelacion de los Residuales

3.CorrelacionIndex

resi

dual

es

Figura 1: Validación supuestos del modelo sin transformación

Se puede observar en la Figura 2 que después de realizar la transformación y‘ = ln(y) a los datos, lossupuestos planteados se satisfacen incluyendo el supuesto de homocedasticidad de la varianza que con elmodelo ajustado inicialmente no se cumplía.

−2 −1 0 1 2

−0.

2−

0.1

0.0

0.1

0.2

Ajuste de los Residuales a una Normal

1.NormalidadTheoretical Quantiles

Sam

ple

Qua

ntile

s

2.6 2.8 3.0 3.2 3.4

−1.

5−

1.0

−0.

50.

00.

51.

01.

5

Diagnostico Varianza

2.HomocedasticidadValores ajustados

Res

idua

les

0 5 10 15 20 25 30

−0.

2−

0.1

0.0

0.1

0.2

Autocorrelacion de los Residuales

3.CorrelacionIndex

Res

idTr

ans

Figura 2: Validación supuestos del modelo con transformación

El principal problema que presenta el modelo planteado es que el supuesto de homogeneidad devarianzas no se satisface; al ser éste un requisito básico del análisis de regresión, se debe tratar decontrolarlo ya que si no se elimina dicho problema, los estimadores de mínimos cuadrados seguirán siendo

Estadistica Aplicada III (2012)

Page 5: Template AplicadaIII.pdf

Rendimiento de la Gasolina (Millas/Galón) 5

insesgados, pero ya no tendrán la propiedad de la varianza mínima. Esto quiere decir que los coeficientesde regresión tendrán errores estándar mayores que lo necesario. El efecto de la transformación sueleproporcionar estimados más precisos de los parámetros del modelo y mayor sensibilidad para las pruebasestadísticas. (Montgomery & Peck 2005)

Para escoger la transformación adecuada, se probaron dos transformaciones que se consideraronpertinentes (Y1 = ln(y), Y2 = y(1/2)). Las dos transformaciones satisfacen el supuesto de varianzaconstante buscado; sin embargo, decidimos utilizar la transformación Y1 ya que ésta cuenta con uncoeficiente de determinación (R2

1 = 0.7855) mas alto que la transformación Y2(R22 = 0.7607), lo cual

indica que el modelo propuesto, explica 78.55 % de la variabilidad del Rendimiento de la gasolina en losautomóviles. Además, la variabilidad del modelo es mucho más pequeña en el modelo Y1 (σ2

1 = 0.10035)que en el modelo Y2 (σ2

2 = 0.01848396); finalmente se observó el comportamiento del diagrama dedispersión de las variables Rendimiento de la gasolina en los automóviles y Cilindraje con lo que seconcluyo que la aplicación de dicha transformación es valida.

El modelo ajustado de la transformación sera:

y‘ = 3.5847484− 0.0021995X

3. Conclusiones:

• Las variables Y: Rendimiento de la gasolina y X: Cilindrada presentan una relación inversamenteproporcional, es decir, cuando una de ellas se incrementa, la otra se reduce y viceversa.

• El modelo lineal general no cumple con el supuesto de homogeneidad de varianza, por lo cual serealizo una transformación a dicho modelo para que los supuestos básicos necesarios del análisis deregresión se cumplieran y de esta manera poder establecer una relación adecuada entre las variablesestudiadas.

• La transformación aplicada para lograr la homogeneidad de varianzas fue y‘ = ln(y).

• El modelo al que se le realizo la transformación, presenta un coeficiente de determinación de0.7855, lo cual significa que el 78.55 % de la variabilidad del modelo es explicado por la variable Y:Rendimiento de la gasolina en los automóviles.

Referencias

Faraday, J. J. (2004), Linear Models with R, Chapman & Hall/CRC, London.

Montgomery, D. & Peck, E. (2005), Introducción al Análisis de Regresión lineal, 1 edn, México.

Tusell, F. (2010), Análisis de Regresión. Introducción teórica y práctica basada en R.

Estadistica Aplicada III (2012)