regresion lineal multiple ejercicio resuelto

12
UNIVERSIDAD NACIONAL DE INGENIERIA FACULTAD DE INGENIERIA ECONOMICA Y CIENCIAS SOCIALES ESCUELA PROFESIONAL DE INGENIERIA ESTADISTICA TRABAJO DE ANALISIS DE REGRESION PROFESORA: AMELIDA PINEDO ALUMNO: ELVIS ARROYO ROJAS

Upload: glpi

Post on 25-Jul-2015

8.228 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Regresion Lineal Multiple Ejercicio Resuelto

UNIVERSIDAD NACIONAL DE INGENIERIAFACULTAD DE INGENIERIA ECONOMICA Y CIENCIAS SOCIALES

ESCUELA PROFESIONAL DE INGENIERIA ESTADISTICA

TRABAJO DE ANALISIS DE REGRESIONPROFESORA: AMELIDA PINEDOALUMNO: ELVIS ARROYO ROJAS

Page 2: Regresion Lineal Multiple Ejercicio Resuelto

PROBLEMA PLANTEADOLa siguiente tabla presenta el rendimiento de gasolina por milla en 25 automóviles (Fuente Motor Trend, 1975)Indice Automovil y x1 x2 x3 x4 x5 x6 x7 x8 x9 x10

1 Apollo 18,9 350 165 260 8 2,56 4 3 200,3 69,9 39102 Nova 20 250 105 185 8,25 2,73 1 3 196,7 72,2 35103 Monarch 18,25 351 143 255 8 3 2 3 199,9 74 38904 Duster 20,07 225 95 170 8,4 2,76 1 3 194,1 71,8 33655 Jenson 11,2 440 215 330 8,2 2,88 4 3 184,5 69 42156 Skyhawk 22,12 231 110 175 8 2,56 2 3 179,3 65,4 30207 Scirocco 34,7 89,7 70 81 8,2 3,9 2 4 155,7 64 19058 CorollaS 30,4 96,9 75 83 9 4,3 2 5 165,2 65 23209 Camaro 16,5 350 155 250 8,5 3,08 4 3 195,4 74,4 388510 Datsun 36,5 85,3 80 83 8,5 3,89 2 4 160,6 62,2 200911 Capri 21,5 171 109 146 8,2 3,22 2 4 170,4 66,9 265512 Pacer 19,7 258 110 195 8 3,08 1 3 171,5 77 337513 Granada 17,8 302 129 220 8 3 2 3 199,9 74 389014 ElDorado 14,39 500 190 360 8,5 2,73 4 3 224,1 79,8 529015 Imperial 14,89 440 215 330 8,2 2,71 4 3 231 79,7 518516 NovaLN 17,8 350 155 250 8,5 3,08 4 3 196,7 72,2 391017 Starfire 23,54 231 110 175 8 2,56 2 3 179,3 65,4 305018 Cordoba 21,47 360 180 290 8,4 2,45 2 3 214,2 76,3 425019 TransAM 16,59 400 185 205 7,6 3,08 4 3 196 73 385020 CorollaE 31,9 96,9 75 83 9 4,3 2 5 165,2 61,8 227521 MarkIV 13,27 460 223 366 8 3 4 3 228 79,8 543022 CelicaGT 23,9 133,6 96 120 8,4 3,91 2 5 171,5 63,4 253523 ChargerS 19,73 318 140 255 8,5 2,71 2 3 215,3 76,3 437024 Cougar 13,9 351 148 243 8 3,25 2 3 215,5 78,5 454025 Corvette 16,5 350 165 255 8,5 2,73 4 3 185,2 69 3660 Donde

Y=Millas/galónX1: Cilindraje (pulgadas cubicas) X8: Longitud total (pulgadas)X2: Caballos de fuerza (pie-lb) X9: Ancho (pulgadas)X3: Torca (pie-lb) X10: Peso (lb)X4: Razon de CompresiónX5: Razon del eje traseroX6: Carburador (gargantas)

Page 3: Regresion Lineal Multiple Ejercicio Resuelto

X7: Num de velocidad de transmisiónA)MOSTRAR EL MODELO, VERIFICAR SUS HIPÓTESIS MEDIANTE GRÁFICOS E INTERPRETAR SUS RESULTADOSCon el programa SPSS obtenemos los siguientes estimadores de los coeficientes de regresión

Coeficientesa

Modelo

Coeficientes no estandarizados

Coeficientes

tipificados

t Sig.B Error típ. Beta

1 (Constante) -17,315 30,977 -,559 ,585

x1 -,050 ,035 -,935 -1,412 ,180

x2 ,028 ,066 ,196 ,422 ,680

x3 ,056 ,051 ,727 1,089 ,295

x4 1,607 2,977 ,079 ,540 ,598

x5 4,979 3,447 ,411 1,445 ,171

x6 ,498 1,334 ,085 ,374 ,714

x7 -3,301 2,897 -,352 -1,139 ,274

x8 ,285 ,143 ,938 1,987 ,067

x9 ,095 ,366 ,084 ,260 ,798

x10 -,012 ,007 -1,818 -1,739 ,104

a. Variable dependiente: y

El modelo es el siguienteY=-17,315 - 0,05X1 + 0,028X2 +0,056X3 + 1,607X4 + 4,979X5 + 0,498X6 -3,301X7+0,285X8 + 0,095X9 - 0,012X10DondeY=Millas/galónX1: Cilindraje (pulgadas cubicas) X8: Longitud total (pulgadas)X2: Caballos de fuerza (pie-lb) X9: Ancho (pulgadas)X3: Torca (pie-lb) X10: Peso (lb)X4: Razón de CompresiónX5: Razón del eje trasero

Page 4: Regresion Lineal Multiple Ejercicio Resuelto

X6: Carburador (gargantas)X7: Num de velocidad de transmisiónMinitab nos muestra los siguientes gráficos de residuales

De acuerdo a la grafica de probabilidad normal podríamos decir que Los residuales siguen una distribución normal. Lo cual se comprueba con la prueba de Kolgomorov smirnov contrastando la hipótesis nula de que los residuales se distribuyen normalmente dado que el p value 0,867 es mayor que 0,05.No está muy clara la homocedasticidad de los residuales en el grafico 2.Se observa en la cuarta grafica que los puntos están dispersos de manera aleatoria y que no hay presencia de rachas con lo que se podría decir que son independientes.

B)SEGÚN EL ANALIS GRAFICO DE LOS RESIDUALES ¿SE REQUIERE UN ANALISIS DE INFLUENCIA? ¿POR QUÉ?

Page 5: Regresion Lineal Multiple Ejercicio Resuelto

Según las graficas nos muestran que habría datos atípicos (valores mayores a 30 millas por galón) que podrían influir en el modelo además la mayor parte de las observaciones se encuentra concentrada hasta valores de 25 millas por galón por lo que se recomienda realizar un análisis de influencia para saber si influyen o no en la predicción de los coeficientes de regresión y la matriz de covarianza.C)UTILICE EL ANALISIS DE RESIDUALES PARA CALCULAR LOS RESIDUOS ESTANDARIZADOS E INTERPRETE SUS RESULTADOS.

Si esta normalmente distribuido (como lo es en nuestro caso) es de esperarse que el 95% de estos residuos se encontrara en el rango de (-1,96, 1,96) lo cual permite identificar fácilmente casos de residuos grandes.En nuestro caso los valores son inferiores a estos el error estandarizado mas lato lo tiene 1,60113 que pertenece a la observación 14 que pertenece al automóvil El Dorado el cual está inflado respecto a las demás, podría ser una observación atípica.

D) SEGÚN LA PARTE C REALICE UN ANALISIS DE INFLUENCIA PARA DETECTAR SI EXISTEN PUNTOS DE BALANCEO.Teniendo en cuenta el punto de corte 2p/n P=11n=252p/n=0,88Solo hay un punto de balanceo la observación 19 (H19;19=0,905) es mayor a 0,88 Este valor corresponde a un valor muy diferente de la mayoría

E)ANALICE E INTERPRETE LA INFLUENCIA EN LOS COEFICIENTES DE REGRESION EN LOS VALORES

Page 6: Regresion Lineal Multiple Ejercicio Resuelto

AJUSTADOS Y SOBRE LA PRECISION DE LOS ESTIMADORESUsamos DFFITS para ver que observación es significativa (Valores ajustados)El valor critico de |DFFITS|=2√(K ¿¿n)¿ = 1,26491106Donde k=10 n=25La observación 5 (Jenson) es influyente dado que |DFFITS5| =|-1,96219|>1,26491106La observación 12 (Pacer) también es influyente dado que |DFFITS12 |=3,56996>1,26491106La observación 14(El dorado) es influyente dado que | DFFITS14|=3,68265> 1,26491106La observación 18(Córdova) es influyente dado que | DFFITS18|=2,31112 >1,26491106La observación 19(TransAM) es influyente dado que | DFFITS19|=5,89241>1,26491106La observación 22(Celica GT) es influyente dado que | DFFITS22|=|-1,49427|>1,26491106Usamos DFBETAS para ver la influencia en los coeficientes de regresiónEl valor critico de DFBETAS= 2/√n =0,4 Según los valores obtenidos

1,80958 -0,001 -0,00534 0,00313 -0,31487 -0,23364 0,17749 0,17699 0,00649 0,00485 -0,00020,22256 -0,00206 -0,00005 0,00286 -0,17792 0,05401 0,13986 0,07884 -0,0043 0,01894 -4E-05

1,91115 -0,01026 0,01255-

0,01576 0,49099 -0,90009 0,25142 -0,02466 -0,0461 0,00977 0,002472,54911 -0,00132 -0,00275 0,01011 -0,82137 0,25956 0,21234 0,44458 -0,0009 0,02917 -0,0006-17,4173 -0,00483 -0,04043 0,00007 -1,19914 -1,70843 1,29507 1,25335 0,08899 0,32869 -0,0024

4,48762 -0,00083 -0,00241-

0,00121 -0,13623 -0,22615 0,01968 -0,00025 -0,0056 -0,03418 0,000470,16336 -0,00649 -0,01228 0,02552 -1,19816 1,26538 0,39903 -0,58961 0,04346 0,09435 -0,0028

-1,44461 0,00031 0,00082-

0,00214 0,16325 -0,06051 0,00072 0,08996 -0,0044 0,007 0,00017

16,84835 0,00003 0,0132-

0,00905 -0,77218 -0,09421-

0,80717 0,51599 -0,0177 -0,2055 0,00225

Page 7: Regresion Lineal Multiple Ejercicio Resuelto

-2,41184 -0,01524 0,02714 0,00787 0,57427 2,31268-

0,10772 -2,42233 0,0412 -0,08612 -0,001

-1,12503 0,0084 -0,00651-

0,00462 0,9241 2,12495-

0,33988 -1,75393 0,02485 -0,1959 0,00059

8,34422 -0,01788 0,00489-

0,01333 -0,46002 -2,78211 0,07135 1,3511 -0,298 0,62861 0,0054

-2,55018 -0,00013 0,00519-

0,00144 0,27822 -0,24188 0,00862 0,11325 -0,0029 0,0173 -0,0001-9,89193 0,04737 -0,12674 0,02526 -0,24602 -1,53845 0,78361 3,8203 -0,0052 0,07719 -0,0011

-1,42455 -0,00367 0,00625-

0,00249 0,02841 -0,20586 0,0764 0,04469 -0,0007 0,0199 0,00026

4,13719 -0,00059 0,00736-

0,00249 -0,45326 -0,45949-

0,27883 0,61057 -0,0107 -0,00369 0,00044

16,54 -0,00417 -0,00724-

0,00696 -0,41508 -0,83668 0,07819 -0,02513 -0,0297 -0,12613 0,00219

-43,2657 0,00833 0,073 0,02075 2,08468 -0,64636-

1,34575 0,51749 0,14345 0,24925 -0,0089

-4,95982 0,0799 0,10233-

0,16023 -0,63621 -1,51214-

0,54864 1,37988 0,01726 0,13821 -0,001

-1,6856 0,00405 0,00235-

0,00917 0,75969 0,36439-

0,22296 -0,01201 -0,0078 -0,09454 0,001032,33153 -0,00547 0,00219 0,00287 -0,27348 0,22995 0,04865 -0,12199 -0,0043 -0,01201 0,00052

-8,45925 -0,00676 0,02255-

0,01347 2,01766 1,15771-

0,03158 -2,95712 -0,017 0,00256 0,00077

-1,09574 -0,00269 0,00133-

0,00241 0,26799 -0,14325-

0,00354 -0,10794 -0,0031 -0,00709 0,00054-6,24262 0,00004 -0,0002 0,01202 0,37565 -1,59876 0,34339 0,9809 0,00322 0,11587 -0,0021

1,63084 -0,00021 -0,00366 0,00392 -0,68776 0,44461-

0,12329 0,13348 0,01807 -0,004 -0,0003La observación 5 (jenson) , 18 (Córdoba )y 19 (trans AM) influye sobre el B4 B5 B6 y B7La observación 12 (Pacer) tiene influencia en el B4 B5 B7 B9 y B12La observación 14 (El Dorado) tiene influencia sobre el B5 B6 B7La observación 22 (Celica G )tiene influencia en B4 B5 y B7DCOOK nos indica la precisión de los estimadoresY el punto crítico es Fk;n-k=2,5437Las observaciones 1;3;5;6:8;15;20;21;23 tienen un Dcook superior a 2,5437Son consideradas influyentes.F)SEGÚN SU RESPUESTA EN EL PUNTO B REALICE UN ANÁLISIS DE RESIDUOS RETIRANDO LAS OBSERVACIONES QUE PODRÍA HABER ENCONTRADO EN E

Page 8: Regresion Lineal Multiple Ejercicio Resuelto

Se retira la observación 14 12 5 y 22

La normalidad es mas clara en este caso se puede observar aun presencia de Outsiders pero estos no influyen en nuestro modelo. No hay presencia de rachas por lo que se podría decir que son independientes los residuos.H)USE EL METODO DE STEPWISEY=B0X1 entra al modelo correlacion máxima con yFx1=SSR(X1)/CMR(X2)=837,171/8,510=98,377>F0,05;1;23=4,27Ninguna otra variable entra al modelo ya que sus correlaciones parciales no superan al punto de corte.Con lo cual nuestro modelo final es Y=34,364- 0,048x1H)CALCULAR LA ESTADISTICA APROPIADA PRESS(X1)=244,486

Page 9: Regresion Lineal Multiple Ejercicio Resuelto

PRESS(X1;….;X10)=866,357PRESS(X1;….;X10)> PRESS(X1)=El modelo de mejor predicción es Y=34,364- 0,048x1

I) CON EL MODELO ENCONTRADO EN G USE UNA VARIABLE QUE USTED CREA CONVENIENTE DE MANERA QUE TEGA UN MODELO SOBRE DEFINIFO La nueva variable a introducir es x6 ya que entre x1 y x6 tienen el menor Cp de Mallow -1,4 además de el mayor coeficiente de determinación 82,9 con lo cual nuestro modelo seria Y=33,499- 0,054x1+ 1,078x6 Mallows C C C C C C C C 1Vars R-Sq R-Sq(adj) Cp S 2 3 4 5 6 7 8 9 0 1 81,1 80,2 -1,5 2,9172 X 1 75,3 74,2 4,4 3,3315 X 1 67,8 66,4 12,1 3,8052 X 1 57,5 55,6 22,7 4,3693 X 2 82,9 81,3 -1,4 2,8337 X X 2 82,1 80,4 -0,6 2,9024 X X 2 82,0 80,4 -0,5 2,9072 X X 2 81,9 80,2 -0,4 2,9189 X X