prácticas y problemas de regresión lineal m[ltiple

23
Captulo 1 PrÆcticas y problemas de regresin lineal mœltiple. 1.1. Problemas de regresin lineal mœltiple con ordenador. Problema 5.1. El chero problema-5-1 contiene datos relativos a variables de coches. Se pide: 1. Ajustar un modelo de regresin mœltiple con variable respuesta millas por galn (inversa del consumo) y regresoras: precio, peso y desplazamiento. 2. ¿Son todas las variables signicativas (contraste invidual de la t)? 3. ¿CuÆl es el coeciente de determinacin?, ¿cuÆl es el coeciente de correlacin mœlti- ple? 4. Tabla ANOVA. ¿QuØ conclusiones se obtienen de esta tabla (contraste conjunto de la F )? ¿quØ indican los contrastes individuales de la F ? ¿estos contrastes tienen alguna relacin con los contrastes inviduales de la t? 5. Analizar los residuos del modelo ajustado: estudio descriptivo y grÆco de los resid- uos. ¿Se verican las hiptesis del modelo (homocedasticidad, normalidad)? ¿mejora el modelo si se introduce la variable aceleracin ? 6. ¿QuØ indican los grÆcos de efectos de las componentes? 7. Analizar la hiptesis de multicolinealidad. 8. Analizar la hiptesis de independencia. 9. Repetir este mismo problema pero utilizando solamente los datos relativos a coches de origen USA, ¿Cambian las conclusiones de los apartados anteriores? 1

Upload: dangkhue

Post on 27-Dec-2016

243 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Prácticas y problemas de regresión lineal m[ltiple

Capítulo 1

Prácticas y problemas de regresiónlineal múltiple.

1.1. Problemas de regresión lineal múltiple con ordenador.

Problema 5.1.�El �chero problema-5-1 contiene datos relativos a variables de coches. Se pide:

1. Ajustar un modelo de regresión múltiple con variable respuesta �millas por galón�(inversa del consumo) y regresoras: precio, peso y desplazamiento.

2. ¿Son todas las variables signi�cativas (contraste invidual de la t)?

3. ¿Cuál es el coe�ciente de determinación?, ¿cuál es el coe�ciente de correlación múlti-ple?

4. Tabla ANOVA. ¿Qué conclusiones se obtienen de esta tabla (contraste conjunto de laF )? ¿qué indican los contrastes individuales de la F? ¿estos contrastes tienen algunarelación con los contrastes inviduales de la t?

5. Analizar los residuos del modelo ajustado: estudio descriptivo y grá�co de los resid-uos. ¿Se veri�can las hipótesis del modelo (homocedasticidad, normalidad)? ¿mejorael modelo si se introduce la variable �aceleración�?

6. ¿Qué indican los grá�cos de efectos de las componentes?

7. Analizar la hipótesis de multicolinealidad.

8. Analizar la hipótesis de independencia.

9. Repetir este mismo problema pero utilizando solamente los datos relativos a cochesde origen USA, ¿Cambian las conclusiones de los apartados anteriores?�

1

Page 2: Prácticas y problemas de regresión lineal m[ltiple

2 Modelos estadísticos aplicados. Juan Vilar

Desarrollo del Problema 5.1.

Utilizando el Statgraphics se utiliza el siguiente módulo que proporciona un análisismuy completo con mucha información:

dependencia > regresion multiple

Los resultados del apartado resumen del procedimiento permite responder a laspreguntas de los cuatro primeros apartados de este problema:

? Proporciona el modelo estimado y la tabla ANOVA, se deduce que todas las variablesson signi�cativas y el contraste conjunto de la F indica que el modelo es signi�cativo.

? Calcula los coe�cientes de determinación y correlación.? Obtiene el contraste de Durbin-Watson que indica que la primera autocorrelación de

los residuos es cero.

En el apartado informes se obtienen los valores de las predicciones y de los residuos.Si se quieren calcular predicciones para un valor de ~x determinado se debe introducir estevector como un dato muestral (sin Y ).

En el apartado residuos atipicos se observa que las observaciones 145 y 147 presentanresiduos altos.

En el apartado puntos influyentes se pueden estudiar las observaciones que puedenser in�uyentes en el cálculo del modelo.

Este módulo proporciona muchos grá�cos de interés:? Los grá�cos de efectos de las componentes indican la importancia de las tres regre-

soras.? Los diferentes grá�cos de residuos permiten obtener conclusiones acerca de las hipóte-

sis del modelo.

La hipótesis de multicolinealidad puede estudiarse en:� El apartado matriz de correlaciones valores grandes de esta matriz (valores

fuera de la diagonal próximos a �1) indican la posible existencia de multicolinealidad.� La matriz de correlaciones de las variables regresoras R; puede calcularse en el

apartado (también se obtiene la matriz de correlaciones parciales y un grá�co matricial)descripcion > datos numericos > analisis multidimensional.� En todo caso es conveniente calcular la diagonal deR�1 y el índice de condicionamien-

to de R:

Se guardan las predicciones y los residuos estandarizados y/o estudentizados y sepueden estudiar las hipótesis de normalidad, homocedasticidad e independencia.

? Utilizando los residuos estandarizados la normalidad se estudia en el módulo:

descripcion > distribuciones > ajuste de distribuciones (datos nocensurados)

Page 3: Prácticas y problemas de regresión lineal m[ltiple

Prácticas y problemas de regresión lineal múltiple. 3

? También es de interés el grá�co de normalidad

graficos > graficos exploratorios > grafico probabilistico

La hipótesis de homocedasticidad se puede observar:? En el grá�co de residuos frente a predicciones.? Un estudio más completo sobre esta hipótesis se puede hacer como sigue: se ordena

el �chero según las predicciones de menor a mayor; se hacen clases (cada una de tamañoaproximado a diez) y se utiliza el modelo de diseño de experimentos de una vía siendo lavariable dependiente �los residuos� y el factor �las clases� creadas; entonces utilizar loscontrastes de homocedasticidad de este modelo.

? El ajuste de las desviaciones típicas de los residuos estandarizados en cada clasefrente a la media de las predicciones es útil para estudiar la homocedasticidad, ademásindica la forma de transformar el modelo si se supone que hay heterocedasticidad.

? Si se sospecha que la heterocedasticidad puede ser causada por una regresora sepuede repetir el análisis anterior pero haciendo residuos frente a regresora en lugar defrente a las predicciones.

La hipótesis de independecia se estudia en el módulo

avanzado > analisis series temporales > metodos descriptivos

Problema 5.2.�Con los datos del �chero problema-5-1 estudiar la regresión de la variable respuesta

�millas por galón�(inversa del consumo) respecto a las variables regresoras: precio, peso,desplazamiento, potencia (caballos de vapor) aceleración y número de cilindros.

1. Utilizando el algoritmo de �regresión paso a paso�obtener las regresoras que debenentrar en el modelo.

2. Utilizando diferentes medidas de bondad de ajuste indicar el mejor modelo de regre-sión.

3. Trabajando con el modelo de regresión lineal seleccionado en el apartado anterior¿los estimadores contraídos proporcionan mejores resultados que los estimadores pormínimos cuadrados?

4. Introduciendo algún término cuadrático ¿se puede mejorar el modelo de regresiónlineal?

5. Estudiar el modelo de regresión lineal simple de la variable respuesta �millas porgalón�respecto al �peso�pero teniendo en cuenta el �origen� (variables atributo odumping) �.

Page 4: Prácticas y problemas de regresión lineal m[ltiple

4 Modelos estadísticos aplicados. Juan Vilar

Desarrollo del Problema 5.2.

Utilizando el opciones del analisis se calcula la regresión �paso a paso�en el módulo

dependencia > regresion multiple

Para seleccionar un modelo de regresión utilizar el análisis

avanzado > regresion avanzada > seleccion del modelo de regresion

El estudio de la regresión contraída (ridge regression) se hace en el módulo

avanzado > regresion avanzada > regresion en cadena

El apartado 5 es un problema de regresión lineal con una variable regresora atributoy se estudia en el apartado

avanzado > regresion avanzada > comparacion de rectas de regresion

Introduciendo en el campo �codes level=origin� y en la ventana de resultados delopciones del analisis se puede elegir si las rectas ajustadas tienen igual pendiente y/oconstante según submuestra.

Problema 5.3. (Regresion No Lineal)�En el �chero Problema-5-3 contiene 44 datos de dos variables relativas a la cantidad

de cloro presente en unas muestras de agua sometidas a un proceso químico en relacióncon el tiempo transcurrido medido en semanas.

1. Dibujar el grá�co de la nube de observaciones y calcular el ajuste lineal o linealizableque explique la variable Y =�Cloro� como función de la variable X =�Semanas�(tiempo).

2. Utilizando el algoritmo iterativo de Kalman ajustar por mínimos cuadrados la fun-ción de regresión

Y = �1 +�0049� �1

�exp (��2 (X � 8)) ;

siendo los valores iniciales de los parámetros: �1 = 002 y �2 = 003, estos valores sonnecesarios para comenzar el algoritmo. Representar la nube muestral y la función deregresión no lineal estimada. ¿Es bueno el ajuste obtenido?�

Desarrollo del Problema 5.3.

Los problemas de regresión no lineal se estudian en el módulo

avanzado > regresion avanzada > regresion no lineal

Los resultados que calcula este módulo son similares a los que se obtienen en el ajustede un modelo de regresión lineal.

Page 5: Prácticas y problemas de regresión lineal m[ltiple

Prácticas y problemas de regresión lineal múltiple. 5

1.2. Problema resuelto de regresión lineal múltiple.

Problema 5.4. �Se quiere ajustar un modelo que permita estimar los gastos en al-imentación de una familia (Y ) en base a la información que proporcionan las variablesregresoras X1 =ingresos mensuales y X2 =número de miembros de la familia. Para ellose recoge una muestra aleatoria simple de 15 familias cuyos resultados son los de la tablaadjunta. (El gasto e ingreso está dado en cientos de miles de pesetas)�

Gasto Ingreso Tamaño Gasto Ingreso Tamaño0043 201 3 1029 809 3

0031 101 4 0035 204 2

0032 009 5 0035 102 4

0046 106 4 0078 407 3

1025 602 4 0043 305 2

0044 203 3 0047 209 3

0052 108 6 0038 104 4

0029 100 5

Solución Problema 5.4.

Los datos en forma matricial:

Y =

0BBBBBBBBBBBBBBBBBBBBBBBBBBBB@

0043

0031

0032

0046

1025

0044

0052

0029

1029

0035

0035

0078

0043

0047

0038

1CCCCCCCCCCCCCCCCCCCCCCCCCCCCA

= X~�+ ~" =

0BBBBBBBBBBBBBBBBBBBBBBBBBBBB@

1 201 3

1 101 4

1 009 5

1 106 4

1 602 4

1 203 3

1 108 6

1 100 5

1 809 3

1 204 2

1 102 4

1 407 3

1 305 2

1 209 3

1 104 4

1CCCCCCCCCCCCCCCCCCCCCCCCCCCCA

0B@ �0�1�2

1CA+ ~"

Con estos datos se obtiene

n = 15;Px1i = 42;

Px2i = 55;P

x21i = 188008;

Px1ix2i = 140

080;

Px22i = 219

000;

Pyi = 8

0070;

Pyix1i = 32

0063;

Pyix2i = 28

0960:

Page 6: Prácticas y problemas de regresión lineal m[ltiple

6 Modelos estadísticos aplicados. Juan Vilar

Por tanto

S = XtX =

0B@ 15 42000 55000

42 188008 140080

55 140080 219000

1CA T =

0B@ 80070

320063

280960

1CA :De donde

~� = S�1T =

0B@ 15 42000 55000

42 188008 140080

55 140080 219000

1CA�10B@ 80070

320063

280960

1CA =

~� = S�1T =

0B@ 10360 �00092 �00282�00092 00016 00013

�00282 00013 00067

1CA0B@ 80070

320063

280960

1CA =

0B@ �0016000149

00077

1CAEl modelo de regresión lineal que se obtiene es:

Gasto = �00160 + 00149 � Ingreso+ 00077 � Tama~no+ error:

A partir de esta ecuación se obtienen las predicciones y los residuos asociados a lasobservaciones muestrales.

Para la primera observación (x1 = 201; x2 = 3; y = 0043) se obtiene

y1 = �00160 + 00149 � 201 + 00077 � 3 = 003839;

e1 = y1 � y1 = 0043� 003839 = �000461:

Razonando así en todos los puntos muestrales se obtienen las siguientes prediccionesy residuos:

Predicciones0038 0041 0033

0031 0057 0077

0036 0037 0051

0039 1039 0050

1007 0035 0036

Residuos�00046 �00028 �0002400001 00048 �0001100038 00083 00084

�00075 00104 00032

�00180 00000 �00025

Se calcula la scRscR =

Xe2i = 0

00721

s2R = 000060) sR = 0

00775

Una forma más fácil de calcular la scR es la siguiente

~et~e = ~YtY � �tXtY =X

y2i � �0X

yi � �1X

yix1i � �2X

yix2i =

= 507733���00160

�� 80070� 00149 � 320063� 00077 � 280960:

Page 7: Prácticas y problemas de regresión lineal m[ltiple

Prácticas y problemas de regresión lineal múltiple. 7

Intervalos de con�anza de los parámetros del modelo al 90%,

Para la varianza �2;

(n� (k + 1)) s2R�2

� �2n�(k+1) )12 � 000060

�2� �212;

�212�0005

�= 502253 � 00072

�2� 2100298 = �212

�0095

�;

000034 =00072

2100298� �2 � 00072

502253= 000138:

Varianza de los estimadores del modelo,

V ar (�) = �2�XtX

��1 � 000060 �0B@ 10360 �00092 �00282�00092 00016 00013

�00282 00013 00067

1CA ;de donde

V ar (�0) = s2R q00 = 000060 � 10360 = 0000816) � (�0) = 0

00903;

V ar (�1) = s2R q11 = 000060 � 000166 = 00000099) � (�1) = 0

00099

V ar (�2) = s2R q22 = 000060 � 00067 = 0000040) � (�2) = 0

00201:

Intervalo de con�anza para �0;

�0 � �0sRpq00

� tn�(k+1) )�00160� �0000903

� t12;

t12�0005

�� 000903 � �00160� �0 � t12

�0095

�� 000903 = 10783 � 000903 = 00161;

�00321 = �00160� 00161 � �0 � �00160 + 00161 = 00001:

Intervalo de con�anza para �1 (ingreso),

�1 � �1sRpq11

� tn�(k+1) )00149� �1000099

� t12;

t12�0005

�� 000099 � 00149� �1 � t12

�0095

�� 000099 = 10783 � 000099 = 000176;

001314 = 00149� 000176 � �1 � 00149 + 000176 = 001666:

Page 8: Prácticas y problemas de regresión lineal m[ltiple

8 Modelos estadísticos aplicados. Juan Vilar

Contraste individual de la t; H0 � �1 = 0; �la variable ingreso no in�uye�.

t1 =�1

sRpq11

� tn�(k+1) ) t1 =00149

000099= 150050 � t12;

p1 = 00000) Se Rechaza H0:

Intervalo de con�anza para �2 (tamaño)

�2 � �2sRpq22

2 tn�(k+1) )00077� �2000201

;

t12�0005

�� 000201 � 00077� �2 � t12

�0095

�� 000201 = 10783 � 000201 = 000358;

000412 = 00077 + 000358 � �2 � 00077 + 000358 = 001128:

Contraste individual de la t; H0 � �2 = 0; �la variable tamaño no in�uye�.

t2 =�2

sRpq22

� tn�(k+1) ) t2 =00077

000201= 30831;

p2 = 000012) Se Rechaza H0:

Cálculo de la tabla ANOVA

scG =X

(yi � �y)2 = 104316;

de dondescE = scG� scR ==

X(yi � yi)2 = 103595:

Tabla ANOVA

Fuentes de Suma de Grados Varianzasvariación cuadrados libertad

scE (por el modelo) 103595 2 s2e = 006797

scR (Residual) 000721 12 s2R = 000060

scG ( Global) 104316 14 s2y = 001023

Contraste conjunto de la F, con estos datos se obtiene

FM =s2es2R=006797

000060= 113028 � F2;12 ) pc = 0

00000:

El contraste conjunto de la F indica claramente la in�uencia del modelo en la respues-ta. Por tanto, de los contrastes individuales y del conjunto se deduce la in�uenciade cada una de las dos regresoras y la in�uencia conjunta del modelo.

Page 9: Prácticas y problemas de regresión lineal m[ltiple

Prácticas y problemas de regresión lineal múltiple. 9

Contraste individual de la F:

Se calcula el contraste individual de la F respecto a la variable x2=�tamaño�, estecontraste es equivalente al contraste individual de la t.

Se obtiene la regresión de la variable gasto respecto a la variable ingreso,

gasto = �870124 + 10543 ingreso.

La tabla ANOVA de este modelo es

Tabla ANOVA

Fuentes de Suma de Grados de Varianzasvariación cuadrados libertad

scE (ingreso) 102716 1 s2e = 102716

scR (Residual) 001600 13 s2R (1) = 000123

scG (Global) 104316 14 s2y = 001022

La variabilidad incremental debida a la variable diámetro es

4V E (tama~no) = V E (2)� V E (ingreso) = 103595� 102716 = 000879;

este valor indica lo que aumenta la variabilidad explicada por el modelo al introducirla variable tamaño.

Para contrastar la in�uencia de esta variable se utiliza el estadístico

F2 =

4V E (x2)1

s2R (k)=000879

000060= 14065 � F1;12 ) p = 00001:

Este contraste proporciona el mismo p�valor que el contraste individual de la t salvoproblemas de redondeo.

Coe�cientes de correlación:

Coe�ciente de determinación,

R2 =scE

scG=103595

104316= 009496) 94096% de scG:

Coe�ciente de correlación múltiple,

R =p009496 = 009745:

Coe�ciente de determinación corregido por los grados de libertad,

�R2 = 1� s2Rs2Y

= 1� 000060

001023= 94013) 94013% de scG:

�R =p009413 = 009702:

Page 10: Prácticas y problemas de regresión lineal m[ltiple

10 Modelos estadísticos aplicados. Juan Vilar

Coe�ciente de correlación simple entre las variables gasto e ingreso,

� (gasto; ingreso) =Cov (gasto; ingreso)

� (gasto)� (ingreso)= 009424:

Este coe�ciente es una medida de la relación lineal existente entre las variables gastoe ingreso.

Este coe�ciente también se puede calcular a partir del coe�ciente de determinaciónde la siguiente regresión

gasto = �870124 + 10543 ingreso.

La tabla ANOVA del modelo es

Tabla ANOVA

Fuentes de Suma de Grados de Varianzasvariación cuadrados libertad

scE (ingreso) 102716 1 s2e = 102716

scR (Residual) 001600 13 s2R (1) = 000123

scG ( Global) 104316 14 s2y = 001022

R2 =scE

scG=102716

104316= 008882) R = � (gasto; ingreso) = 009424:

Análogamente el coe�ciente de correlación simple entre gasto y tamaño es,

� (gasto; tama~no) =Cov (gasto; tama~no)

� (gasto)� (tama~no)= �001265:

Coe�ciente de correlación parcial entre las variables gasto e ingreso�tingreso = t1

�.

r2 (gasto; ingreso; tama~no) =t2ingreso

t2ingreso + n� (k + 1)

=1500502

1500502 + 12= 009496

) r (gasto; ingreso; tama~no) = 00974:

Otra forma más compleja de calcular este coe�ciente es la siguiente: se calculan lassiguientes regresiones simple y se guardan los residuos egasto:tama~no y eingreso:tama~no:

Gasto = 006713� 000363 tamaño + egasto:tama~no:

Ingreso = 505923� 07615 tamaño + eingreso:tama~no:

Page 11: Prácticas y problemas de regresión lineal m[ltiple

Prácticas y problemas de regresión lineal múltiple. 11

El coe�ciente de correlación parcial entre las variables gasto e ingreso se obtiene comoel coe�ciente de correlación simple entre las variables egasto:tama~no y eingreso:tama~no

r (gasto; ingreso; tama~no) = � (egasto:tama~no; eingreso:tama~no)

=Cov (egasto:tama~no; eingreso:tama~no)

� (egasto:tama~no)� (eingreso:tama~no)= 009740:

Este coe�ciente mide la relación entre gasto e ingreso libres de la in�uencia de lavariable tamaño.

Análogamente se obtiene

r (gasto; tama~no; ingreso) = � (egasto:ingreso; e:tama~no:ingreso) = 007412:

Estimación de la media condicionada.

�Estimar el gasto medio en alimentación de una familia con unos ingresos dext1 = 3

00 y un tamaño de xt2 = 4: Esto es (~xt = (xt1; xt2) = (300; 4)) �.

Del modelo de regresión estimado se obtiene

m(300; 4) = mt = �0 + �1xt1 + �2xt2 =

= �00160 + 00149 � 300 + 00077 � 4 = 00595:

El valor de in�uencia asociado al dato ~xt = (xt1; xt2) = (300; 4) es

htt = ~xtt�XtX

��1~xt

=�1 300 4

�0B@ 10360 �00092 �00282�00092 00016 00013

�00282 00013 00067

1CA0B@ 1

300

4

1CA = 0007649

) nt =1

0007649= 130073:

La varianza del estimador mt es

V ar (mt) = s2R htt = 0

00060 � 0007649 = 0000046) � (mt) = 000214:

Y un intervalo de con�anza para mt al 90% es

mt 2 00595� t12�0095

�� 000214 = 00595� 00038 =

�00557; 00633

�:

Page 12: Prácticas y problemas de regresión lineal m[ltiple

12 Modelos estadísticos aplicados. Juan Vilar

Predicción de una observación.

�La familia Pérez que tiene unos ingresos de xt1 = 300 y un tamaño de xt2 = 4:Esto es (~xt = (xt1; xt2) = (300; 4)) ¿qué gasto en alimentación tendrá?�.

Utilizando el modelo de regresión estimado la predicción es

y(300; 4) = �0 + �1x1 + �2x2 = 00595:

La varianza de la predicción es

V ar (yt) = s2R � (1 + htt) = 000060 ��1 + 0007649

�= 000065

) � (yt) = 000803:

Un intervalo de predicción al 90% para yt es

yt 2 00595� t12�0095

�� 000803 = 00595� 00143 =

�00452; 00738

�:

Algunos grá�cos de interés que ayudan a resolver el problema son los grá�cos par-ciales de las componentes que sirven para observar la in�uencia de las regresoras (Figuras5.1. y 5.2.) y los grá�cos de residuos que se utilizan para chequar que se veri�can las hipóte-sis estructurales del modelo, dos de ellos (frente a ingreso y frente a índice) se representanen las Figuras 5.3. y 5.4.

Figura 5.1. Grá�co parcial de ingreso.

Page 13: Prácticas y problemas de regresión lineal m[ltiple

Prácticas y problemas de regresión lineal múltiple. 13

Figura 5.2. Grá�co parcial de tamaño.

Figura 5.3. Grá�co de residuos frente a ingreso.

Figura 5.4. Grá�co de residuos frente a índice.

Page 14: Prácticas y problemas de regresión lineal m[ltiple

14 Modelos estadísticos aplicados. Juan Vilar

1.3. Resumen de los modelos de regresión lineal.

Las principales fórmulas de los modelos de regresión lineal simple y múltiple se pre-sentan en la tabla adjunta.

R. L. Simple R. L. Múltiple

Modeloyi = �0 + �1xi + "i

~Y = �0~1+ �1 ~X+ ~"

yi = �0 + �1xi1 + �2xi2+

+ : : :+ �kxik + "i

~Y = X ~�+~"

Estimación

�1 =sXYs2X

�0 = �y � �1 �x� =

�XtX

��1XtY

Propiedades

�1 � N��1;

�2

ns2x

�0 � N��0;

�2

n

�1 +

�x2

s2x

��~� � N

�~�;�2

�XtX

��1�(normal multivariante)

�i � N��i; �

2qii�

Predicciónyi = �0 + �1xi

Y = �0~1+ �1 ~X

yi = �0 + �1xi1 + �2xi2+

+ : : :+ �kxik

Y = X �

Residuosei = yi � yi

~e = ~Y � Y

ei = yi � yi

~e = ~Y � Y

VarianzaEstimada

s2R =1

n� 2Pni=1 e

2i s2R =

1

n� (k + 1)Pni=1 e

2i

Propiedades n�2MV

�2� �2n�2 (n� (k + 1)) s2R

�2� �2n�(k+1)

Interv. deCon�anza

!0 =�0 � �0

sR

s1

n

�1 +

�x2

s2x

� � tn�2

!1 =�1 � �1sR

sxpn � tn�2

!i =�i � �isRpqii� tn�(k+1)

Contraste F FR =s2es2R� Fk;n�2 FM =

s2es2R� Fk;n�(k+1)

Page 15: Prácticas y problemas de regresión lineal m[ltiple

Prácticas y problemas de regresión lineal múltiple. 15

1.4. Problemas propuestos de regresión lineal múltiple.

Problema 5.5. �Se realiza un experimento para determinar la duración de vida deciertos circuitos electrónicos (Y ) en función de dos variables de fabricación (X1) y (X2),con los siguientes resultados:

Y 11 8 73 21 46 30

X1 �10 0 10 �10 0 10

X2 0 �5 5 0 5 �5

1. Ajustar un modelo de regresión lineal.

2. Calcular el coe�ciente de determinación y la varianza residual. ¿Es el ajuste adecua-do?

3. Construir un intervalo de con�anza al 90% para la predicción en el punto (0; 0).

Problema 5.6. �Los datos de la tabla adjunta indican la gravedad especí�ca (X1),contenido de humedad (X2) y fuerza (Y ) de diez vigas de madera. Encontrar el modelode regresión que mejor se ajusta a estos datos�.

Y 11014 12074 13013 11051 12038 12060 11013 11070 11002 11041

X1 0099 00558 00604 00441 00550 00528 00418 00480 00406 00467

X2 1101 809 808 809 808 909 1007 1005 1005 1007

Problema 5.7. �En la tabla adjunta se presenta un indicador provincial global deconsumo (Y ) el número de automóviles por mil habitantes (X1) y el número de teléfonospor mil habitantes (X2) en ocho provincias españolas. Estudiar un modelo explicativo querelacione el indicador global con los dos indicadores de consumo (datos de 1974)�.

Provincia Avila Palenc Segov Burgos Soria Vallad Logroño SantanY 64 778 83 88 89 99 101 102

X1 58 84 78 81 82 102 85 102

X2 111 131 158 147 121 165 174 169

Problema 5.8. �La demanda de un tipo de impresoras ha cambiado debido a unarápida variación en el precio. Se ha observado la demanda (Y ) en una amplia regióngeográ�ca y el precio unitario (X) (en unidades de diez mil pesetas). Los resultados sonlos de la tabla adjunta. Ajustar un polinomio de regresión a estos datos que explique elcomportamiento de la demanda�.

Y 360 305 230 242 180 172

X 808 907 909 1003 1100 1205

Y 121 83 122 91 105

X 1302 1408 1508 1704 1802

Page 16: Prácticas y problemas de regresión lineal m[ltiple

16 Modelos estadísticos aplicados. Juan Vilar

Problema 5.9. �El �chero problema-5-9 contiene datos relativos a veinticuatropaíses. El �chero consta de las siguientes variables referidas a cada país:

- Coches: Número de coches por persona.- Pob: Población en millones de personas.- Den: Densidad de población.- Ingresos: Ingresos per capita en dólares U.S.A.- Gasol: Precio de la gasolina en centavos U.S.A. por litro.- Consumo: Toneladas de gasolina consumida por coche al año.- Pasaj: Miles de pasajeros-kilómetros por persona que usan bús o tren.- País: País al que se re�eren los datos de la �la.Se quiere ajustar un modelo de regresión múltiple que explique la variable coches en

función de las variables explicativas: pob, den, ingresos, gasol, consumo y pasaj.�

Problema 5.10. �El �chero problemas-5-10 contiene datos relativos a partidos dela liga ACB de baloncesto. Los datos son de 62 jugadores al azar del total y han sidoobtenidos de la Guía O�cial de la Liga 1989-1990 de la ACB (Asociación de Clubs deBaloncesto). En base a esta muestra se desea estudiar si existe una relación lineal entre lavariable puntos por partido (punt�part) que es capaz de anotar un jugador de baloncestorespecto a las siguientes regresoras:

- La altura del jugador (altura).- Los minutos que juega por partido (min�part).- Los balones que pierde por partido (bp�part).- Las faltas personales cometidas por partido (fp�part).- El porcentaje en tiros de campo por partido (porcentaje obtenido de los tiros de dosy tres puntos conseguidos e intentados) (por_tc).En base a estos datos:

1. Ajustar un modelo de regresión sin excluir ninguna variable e interpretar el resultado.¿Es el ajuste bueno?

2. Analizar la hipótesis de multicolinealidad para el modelo anterior.

3. En el modelo ajustado ¿Cuáles son las observaciones atípicas y/o in�uyentes?

4. ¿Existe un modelo de regresión lineal más adecuado?

5. ¿Es aconsejable utilizar un ajuste no lineal? Justi�car la respuesta.

6. Analizar los residuos del modelo que se considere más adecuado.�

Problema 5.11. �El �chero problema-5-11 contiene datos relativos a 60 observa-ciones de datos del Mercado Financiero Canadiense (de septiembre del 77 a diciembre del80). Se han considerado las siguientes variables:

- Bankcan: activos del Banco de Canadá.- Trsbill: intereses de las Letras del Tesoro a 90 días.

Page 17: Prácticas y problemas de regresión lineal m[ltiple

Prácticas y problemas de regresión lineal múltiple. 17

- CPI: índice de precios al consumo.- Usspot: razón de cambio Canadá/USA.- Usforw: razón de cambio a un mes Canadá/USA.Se quiere estudiar el modelo de regresión lineal múltiple de la variable de interés Trsbill

frente a las otras cuatro variables regresoras. Se pide:

1. Calcular el modelo de regresión lineal múltiple.

2. Estudio de la multicolinealidad del modelo.

3. Estudio de las observaciones in�uyentes y atípicas.

4. Análisis de residuos. ¿Se veri�can las hipótesis del modelo?

5. Encontrar un ajuste que mejore al modelo de regresión lineal obtenido.�

Problema 5.12. (Observaciones in�uyentes y datos atípicos) �Con los datosde la tabla adjunta se construyen tres conjuntos de datos. El primero consta de los casos1 a 9 repetidos tres veces cada uno y añadiendo el caso 28(A). El segundo está formadopor los casos de 1 a 9 repetidos tres veces y, adicionalmente, el caso 28(B). Finalmente, eltercero se construye de igual manera pero con la observación adicional 28(C). Por tanto,estos tres conjuntos tienen 27 datos iguales y uno diferente. Estudiar las regresiones de lostres conjuntos y examinar las observaciones in�uyentes y atípicas�.

Caso 1 2 3 4 5 6 7 8 9 A B Cx1 �2 0 2 �4 3 1 �3 �1 4 0 �3 �3x2 6;5 7;3 8;3 6;0 8;8 8;0 5;9 6;9 9;5 7;2 9 7;3

y �1;5 0;5 1;6 �3;9 3;5 0;8 �2;7 �1;3 4;1 5 �1;5 4

Problema 5.13. �Se ha realizado un experimento para investigar como la resistenciadel corcho al rozamiento se ve afectada por la dureza del corcho y la fuerza tensorial. Paraello se han testado treinta muestras de corcho de las que se ha calculado la dureza (engrados Shore, a mayor número mayor dureza) y la fuerza tensorial (medidos en Kgr porcm2).

Las muestras de corcho eran sometidas a un rozamiento continuo por un período detiempo �jo y después se medía la pérdida de peso de corcho en gramos por hora. Los datosobtenidos en este experimento se encuentran en el �chero problema-5-13, en base aellos:

1. Analizar la relación lineal de la variable de interés, peso de corcho perdido, con lasdos variables explicativas.

2. Analizar las hipótesis del modelo �.

Page 18: Prácticas y problemas de regresión lineal m[ltiple

18 Modelos estadísticos aplicados. Juan Vilar

Problema 5.14. �El �chero problema-5-14 contiene datos de contaminación atmos-férica en 41 ciudades de EEUU en los años 1969-71 . La variable de interés es Y=�contenidode SO2 en el aire en microgramos por metro cúbico�. Se desea estudiar la relación de Ycon seis variables regresoras, dos relativas a ecología humana y cuatro al clima. Son lasiguientes:

X1=�temperatura media anual en grados Farenheit�.X2=�número de fábricas con más de 20 empleados�X3=�número de habitantes, en miles�X4=�Velocidad media del viento al año en millas por hora�X5=�precipitación media anual en litros por pulgada�X6=�número medio de días con lluvia al año�El objetivo del estudio es encontrar un modelo de regresión múltiple que explique

adecuadamente el comportamiento de la variable Y �.

Problema 5.15. �El �chero problema-5-15 contiene datos de seis variables de 22aviones de combate de EEUU. Las variables estudiadas son las siguientes:

FFD=��rst �ight date, fecha del primer vuelo en meses después de Enero de 1940�SPR=�speci�c power, potencia especí�ca proporcional a la potencia por unidad de

peso�RGF=��ight range factor, factor de rango de vuelo�PLF=�payload como una fracción del peso bruto del avión�SLF=�factor de carga sostenido�CAR=�una variable binaria que vale 1 si el avión puede aterrizar en un portaviones y

0 en otro caso�El objetivo del estudio es encontrar un modelo de regresión múltiple que explique el

comportamiento de la variable de interés FFD o una transformada de la misma (porejemplo, tomar logaritmos) como una función del resto de variables.

Tener en cuenta la presencia de la variable atributo CAR; interpretar el modelo resul-tante al introducir esta variable�.

Problema 5.16. �Algunas veces es necesario bajar la presión sanguínea de un pa-ciente durante una intervención quirúrgica utilizando un fármaco hipotensivo. El �cheroproblema-5-16 contiene datos relativos a la utilización de un determinado fármaco en 53enfermos. En cada uno de ellos se ha medido el tiempo en minutos antes de que la presiónsistólica sanguínea del paciente vuelva a los 100 mm (TR es el tiempo de recuperación), ellogaritmo de la dosis de fármaco en miligramos (LD) y la presión media sistólica sanguíneadel paciente mientras el fármaco hacía efecto (PM). ¿Qué relación existe entre la variableTR y las otras dos variables?�.

Problema 5.17. �El �chero problema-5-17 contiene datos del fósforo encontradoen 18 muestras de aceite tomadas a 20o. La variable X1 es el fósforo inorgánico, X2 elfósforo orgánico e Y es el fósforo de maíz en el aceite. Encontrar un modelo que expliquela variable Y como función de las otras dos regresoras�.

Page 19: Prácticas y problemas de regresión lineal m[ltiple

Prácticas y problemas de regresión lineal múltiple. 19

Problema 5.18. �Se está interesado en estudiar la temperatura mínima de una ciu-dad en relación con su longitud y latitud geográ�ca. Se ha tomado una muestra de 56ciudades de EEUU y se ha calculado la temperatura mínima (en grados Farenheit) en elmes de enero, el resultado obtenido es el promedio de 30 años (de 1931 a 1960). El �cheroproblema-5-18 contiene los datos de esta variable y de las regresoras: longitud y latitudde la ciudad.

En base a estos datos ajustar un modelo de regresión que explique el comportamientode la variable de interés en función de las dos regresoras. En un estudio previo se proponíaajustar la temperatura con una relación lineal respecto a la variable latitud y un ajustecúbico respecto a la variable longitud�.

Problema 5.19. �Se desea estudiar la relación entre el consumo de helados, medidoen pintas per capita, y las variables regresoras precio del helado, en doláres por pinta,el ingreso familiar por semana y la temperatura media medida en grados Farenheit. Paraello se obtuvieron datos de 30 meses, desde marzo de 1951 a julio de 1953. El �cheroproblema-5-19 contiene estos datos. Analizarlos y estudiar un modelo de regresión quese ajuste a los mismos�.

Problema 5.20. �El �chero problema-5-20 contiene datos relativos al número demuertes e intensidad de los terremotos ocurridos desde 1.900. También se proporciona elaño en que ocurrió el terremoto, en total, 40 datos. Se desea estudiar si existe una relaciónentre el número de muertes y la intensidad del terremoto. Analizar las hipótesis básicasdel modelo ajustado�.

Problema 5.21. �El �chero problema-5-21 contiene datos de 209 procesadores(CPU). De cada uno de ellos se han obtenido características y medidas de rendimientorelativo respecto a un procesador IBM 370/158-3. Las variables observadas las siguientes:

-Cycle time(ns), número de ciclos por segundo.

-Minimum memory (kb), memoria mínima en kb.

-Maximum memory (kb), memoria máxima en kb.

-Cache size (kb), tamaño del caché.

-Minimum channels, número mínimo de canales.

-Maximum channels, número máximo de canales.

-Relative performance, rendimiento relativo.

-Estimated relative performance, rendimiento relativo estimado.

El objetivo del estudio es conocer que variables in�uyen en el rendimiento relativo(en el relative performance y en el estimated relative performance). Ajustar el modelo deregresión en cada uno de los dos casos e indicar la bondad del ajuste�.

(Los datos proceden del trabajo de Ein-Dor,P. y Feldmesser,J. (1987) �Atributes ofthe performance of central processing units: a relative performance prediction model�,Communitaions of the ACM, 30,308-317).

Page 20: Prácticas y problemas de regresión lineal m[ltiple

20 Modelos estadísticos aplicados. Juan Vilar

Problema 5.22. �El �chero problema-5-22 contiene los resultados de 35 carrerasde montaña celebradas en Escocia en 1984. Se proporcionan datos sobre la distancia enmillas de la carrera, tiempo del vencedor en minutos y la altura total ganada en pies.

Se quiere estudiar un modelo de regresión que relacione el tiempo con las otras dosvariables. Al analizar los datos parece razonable transformar la variable respuesta perotambién se observa la aparición de observaciones in�uyentes�.

Problema 5.23. �El �chero problema-5-23 contiene datos de tres variables relativasa las 48 ciudades más grandes del mundo en 1991. Las variables consideradas son:

Horas de trabajo=�promedio ponderado de 12 ocupaciones�Nivel de precios=�coste de una cesta de la compra de 112 productos básicos, en base

al nivel de Zurich=100�Nivel de salarios=�nivel del salario de 12 ocupaciones diferentes ponderadas según la

distribución ocupacional, excluídas tasas a la seguridad social e impuestos, en base al nivelde Zurich=100�

El objetivo del estudio es encontrar una relación entre estas tres variables. Tiene par-ticular interés el estudio de los siguientes modelos de regresión:

1. Estudiar la variable respuesta nivel de precios respecto a la regresora nivel de salarios.

2. Estudiar la respuesta nivel de precios respecto a las otras dos regresoras.

3. Estudiar la respuesta nivel de salarios respecto a la regresora horas de trabajo�.

Problema 5.24. �Se está interesado en investigar el índice de criminalidad en relacióncon otras variables. Para ello se dispone de datos de 47 estados de EEUU relativos al año1960 (problema-5-24). Las variables estudiadas son las siguientes:

R=�índice de criminalidad, número de delitos conocidos por la policía por cada millónde habitantes�

Age=�distribución de la edad, número de varones de edad 14-24 por cada mil de todala población del estado�

S=�variable binaria que distingue entre estados del sur (S = 1) del resto�Ed=�nivel educativo, número medio de años de escolarización�Ex1=�gasto per cápita en protección policial relativa a 1960 �Ex2=�gasto per cápita en protección policial relativa a 1959 �LF=�proporción en participación en trabajos de fuerza por cada mil hombres con edad

14-24�M=�Número de varones por mil mujeres�N=�Tamaño de la población del estado en cin mil�NW=�El número de personas de raza no blanca por 1000 habitantes�U1=�Razón de desempleo entre hombres de edad 14-24, por cada mil�U2=�Razón de desempleo entre hombres de edad 35-39, por cada mil�W=�Riqueza medida por el ingreso familiar�

Page 21: Prácticas y problemas de regresión lineal m[ltiple

Prácticas y problemas de regresión lineal múltiple. 21

X=�Desigualdad en ingresos, el número de familias por mil que ganan por debajo dela mitad de la mediana de ingresos�

El objetivo del estudio es encontrar la mejor relación entre la variable de interés R conel resto de las variables regresoras. Analizar la in�uencia de la variable atributo S�.

Problema 5.25. �Los datos de este problema son clásicos en análisis de regresión(�chero problema-5-25), corresponden a la observación de 21 días de trabajo en unaplanta química para la oxidación del amonio como una etapa en la producción del ácidonítrico. Las variables observadas son:

X1 =��ujo de aire�X2 =�temperatura del ahua de refrigeración (oC)�X3 =�concentración de ácido (%)�Y =�pérdida acumulada, porcentage del amonio que escapa sin ser absorbido�El objetivo del estudio es ajustar un modelo de regresión a estos datos que explique el

comportamiento de la respuesta Y respecto a las tres regresoras�.

Problema 5.26. �En la tabla adjunta se presentan cuatro indicadores del tamañomedio de las empresas en 15 paises desarrolados. Estos indicadores son: (V ) ventas, (A)activos, (N) número de empleados y (R) recursos propios. Estudiar un modelo de regresiónque relacione la variable V con las restantes variables (se sugiere transformar los datostomando logaritmos)�.

Pais V A N R

España 249 454 3;358 166

EE.UU. 3;334 2;612 15;230 1;209

Alemania 707 542 7;391 119

Inglaterra 511 352 7;307 243

Francia 477 535 6;306 91

Suecia 142 137 2;075 34

Suiza 494 475 6;163 215

Holanda 301 227 3;517 70

Pais V A N R

Italia 109 100 874 16

Bélgica 167 124 1;267 37

Noruega 100 81 894 14

Dinamarca 84 67 978 20

Finlandia 119 100 1;350 15

Portugal 35 46 1;302 16

Irlanda 237 283 3;668 80

Problema 5.27. �En la tabla adjunta se indica la altura (H), longitudde las naves(L), anchura de la nave principal (A) y número de naves (N) de algunas iglesias románicasespañolas. Estudiar la relación entre la variable altura (H) y el resto de las variables�.

Page 22: Prácticas y problemas de regresión lineal m[ltiple

22 Modelos estadísticos aplicados. Juan Vilar

H L A N H L A N H L A N

6015 20000 6018 1 9020 17000 8020 1 9000 20050 7000 3

11060 19040 5020 3 9010 20060 9050 1 13000 26050 6040 3

22000 85000 8010 3 7075 12020 5040 1 11045 21075 7045 3

10020 24000 5050 3 8085 17090 6050 1 8050 10000 6070 1

8090 14030 6050 1 10000 28020 5045 1 6070 14060 6020 3

9050 11090 6040 1 10050 26078 8080 3 11060 13060 7060 1

12020 20000 6010 3 19000 35000 7070 3 10015 11060 4010 3

11040 19030 7050 1 8020 16000 9000 1

Problema 5.28. �El �chero problema-5-28 contiene datos de tres variables obser-vadas en cincuenta tipos de madera utilizados en la construcción. Las variables estudiadasson las siguientes:

X =�densidad de la madera en aire seco�Y =�módulo de rigidez�Z =�módulo de elasticidad�.El objetivo del estudio es ajustar un módelo de regresión que explique el compor-

tamiento de la variable elasticidad en función de las otras dos variables.Los datos están ordenados de forma creciente según la variable X�.

Y Z X Y Z X

1000 99 2503 1897 240 5003

1112 173 2802 1822 248 5103

1033 188 2806 2129 261 5107

1087 133 2901 2053 245 5208

1069 146 3007 1676 186 5308

925 91 3104 1621 188 5309

1306 188 3205 1990 252 5409

1306 194 3608 1764 222 5501

1323 195 3701 1909 244 5502

1379 177 3803 2086 274 5503

1332 182 3900 1916 276 5609

1254 110 3906 1889 254 5703

1587 203 4001 1870 238 5803

Y Z X Y Z X

1145 193 4003 2036 264 5806

1438 167 4003 2570 189 5807

1281 188 4006 1474 223 5905

1595 238 4203 2116 245 6008

1129 130 4204 2054 272 6103

1492 189 4205 1994 264 6105

1605 213 4300 1746 196 6302

1647 165 4300 2604 268 6303

1539 210 4607 1767 205 6801

1706 224 4900 2649 346 6809

1728 228 5002 2159 246 6809

1703 209 5003 2078 237;5 7008

Problema 5.29. �Se presentan dos problemas análogos. En una primera parte en el�chero problema-5-29A, se recogen las distancias en metros de los saltos obtenidos porlos ganadores de la medalla de oro en las Olimpíadas en las siguientes pruebas: salto dealtura, salto de pértiga, salto de longitud y triple salto, en las pruebas realizadas entre losaños 1896 y 1988.

Page 23: Prácticas y problemas de regresión lineal m[ltiple

Prácticas y problemas de regresión lineal múltiple. 23

Los datos de la segunda parte están en el �chero problema-5-29B que contiene lostiempos, en segundos, de los ganadores de las carreras de hombres de 100, 200, 400, 800 y1500 metros en los JJOO desde 1900 a 1988 (no hubo JJOO en 1916, 1940 y 1944).

En ambos casos el objetivo del estudio es el mismo:

1. Ajustar un modelo de regresión razonable a la nube de datos que permita predecirfuturos resultados.

2. Para una determinada variable (en ambos �cheros) ajustar un modelo de regresiónsimple donde la variable regresora es el tiempo (reescalado) o, dicho de otra forma,estimar la tendencia de la variable (serie de tiempo).

3. En ambos apartados estudiar la hipótesis de independencia. (Estas variables sonseries de tiempo y los modelos estadísticos ARIMA son, en muchos casos, adecuadospara hacer predicciones).

Problema 5.30. �El �chero problema-5-30 contiene datos de tres variables relativasa 35 carreras de montaña que tuvieron lugar en Escocia durante el año 1984. Las variablesestudiadas son:

- Distancia: recorrida en la carrera medida en millas.- Altura: alcanzada en la montaña en el ascenso efectuado, medida en pies.- Tiempo: que tardó el vencedor de la carrera.Se desea ajustar un modelo de regresión que explique el comportamiento de la variable

respuesta, tiempo, respecto a las dos regresoras distancia y altura. En principio, puede serrazonable hacer una transformación de la variable respuesta pero debe de estudiarse laexistencia de datos in�uyentes�.

Problema 5.31. �En este problema se presenta una colección de datos obtenidos enpruebas simuladas de accidentes de motos. Se observaban dos variables:

- X = tiempo transcurrido (en milisegundos) después del impacto.- Y = aceleración de la cabeza.Los datos se recogen en el �chero problema-5-31. En base a ellos se pide:

1. Representar los datos y ajustar un modelo de regresión que explique el compor-tamiento de la variable respuesta Y a partir de la variable regresora. ¿Se mejoranlos resultados si se transforma alguna de las dos variables o ambas?

2. Utilizando métodos de regresión no paramétrica ¿se obtienen mejores resultados?�

Problema 5.32. �El �chero problema-5-32 contiene datos de porcentajes de delitosde siete tipos (asesinato, violación, atraco, agresión, robo, latrocinio y robo de vehículos)en cincuenta estados de EEUU en el año 1986. Los datos que se presentan son el númerode delitos por cada 100.000 residentes.

Analizar analítica y grá�camente estas variables y estudiar si se puede ajustar unmodelo de regresión que explique el comportamiento de una de ellas en función de lasotras�.