ejemplo de multicolinealidad.pdf

4
Multicolinealidad en la regresión múltiple En el análisis de regresión múltiple, los coeficientes de regresión a menudo se vuelven menos confiables conforme aumenta el grado de correlación entre las variables independientes. Si existe un alto nivel de correlación entre algunas de las variables independientes, nos enfrentamos a un problema que los estadísticos llaman multicolinealidad. La multicolinealidad puede presentarse si deseamos estimar la recuperación de las ventas de una empresa y utilizamos tanto el número de vendedores empleados como sus salarios totales. Como los valores asociados con estas dos variables independientes tienen una correlación alta, necesitamos usar sólo un conjunto de ellos para realizar nuestra estimación. De hecho, al agregar una segunda va- riable que está correlacionada con la primera, se distorsionan los valores de los coeficientes de re- gresión. Sin embargo, a menudo podemos predecir bien Y, incluso cuando haya multicolinealidad. Consideremos un ejemplo donde existe multicolinealidad para ver cómo afecta a la regresión. Du- rante los 12 meses pasados, el gerente del restaurante Pizza Shack ha estado poniendo una serie de anuncios en el periódico local. Los anuncios se programan y pagan el mes anterior a que aparezcan. Un ejemplo de multicolinealidad Definición y efecto de la multicolinealidad 588 Capítulo 13 Regresión múltiple y modelado

Upload: kaprino3

Post on 26-Nov-2015

86 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Ejemplo de multicolinealidad.pdf

Multicolinealidad en la regresión múltipleEn el análisis de regresión múltiple, los coeficientes de regresión a menudo se vuelven menosconfiables conforme aumenta el grado de correlación entre las variables independientes. Siexiste un alto nivel de correlación entre algunas de las variables independientes, nos enfrentamos aun problema que los estadísticos llaman multicolinealidad.

La multicolinealidad puede presentarse si deseamos estimar la recuperación de las ventas de unaempresa y utilizamos tanto el número de vendedores empleados como sus salarios totales. Como losvalores asociados con estas dos variables independientes tienen una correlación alta, necesitamosusar sólo un conjunto de ellos para realizar nuestra estimación. De hecho, al agregar una segunda va-riable que está correlacionada con la primera, se distorsionan los valores de los coeficientes de re-gresión. Sin embargo, a menudo podemos predecir bien Y, incluso cuando haya multicolinealidad.

Consideremos un ejemplo donde existe multicolinealidad para ver cómo afecta a la regresión. Du-rante los 12 meses pasados, el gerente del restaurante Pizza Shack ha estado poniendo una serie deanuncios en el periódico local. Los anuncios se programan y pagan el mes anterior a que aparezcan.

Un ejemplo de multicolinealidad

Definición y efecto dela multicolinealidad

588 Capítulo 13 Regresión múltiple y modelado

Page 2: Ejemplo de multicolinealidad.pdf

Cada anuncio contiene un cupón que permite llevarse dos pizzas pagando solamente la de mayor pre-cio. El gerente recolectó los datos de la tabla 13-4 y le gustaría utilizarlos para predecir las ventas depizzas.

En las figuras 13-6 y 13-7, se dieron los resultados de Minitab para las regresiones respectivas delas ventas totales sobre el número de anuncios y sobre el costo.

Para la regresión sobre el número de anuncios, tenemos que el valor t observado es 3.95. Con 10grados de libertad y un nivel de significancia de � 0.01, se encontró que el valor t crítico (toma-do de la tabla 2 del apéndice) es 3.169. Como to � tc (o de manera equivalente, como p es menor que0.01), concluimos que el número de anuncios es una variable explicativa altamente significativa delas ventas totales. Note también que r2 � 61.0%, de modo que el número de anuncios explica apro-ximadamente el 61% de la variación en las ventas de pizzas.

Para la regresión sobre el costo de los anuncios, el valor t observado es 4.54, de modo que el costode los anuncios es una variable explicativa de las ventas totales todavía más significativa que el núme-ro de anuncios (para los que el valor t observado fue sólo 3.95). En esta regresión, r2 � 67.3%, así queel costo de los anuncios explica aproximadamente el 67% de la variación de las ventas de pizzas.

Como ambas variables explicativas son altamente significativas por sí mismas, intentamos utili-zar ambas en una regresión múltiple. El resultado se presenta en la figura 13-8.

La regresión múltiple es altamente significativa como un todo, ya que la p de ANOVA es 0.006.

Uso de ambas varia-bles explicativas enuna regresión múltiple

Dos regresiones simples

13.4 Inferencias sobre parámetros de población 589

Datos de ventas y anun-cios para el restaurantePizza Shack

Tabla 13-4 X1 X2 YNúmero Costo de anuncios Venta total

de anuncios publicados de pizzasMes publicados (cientos de dólares) (miles de dólares)

Mayo 12 13.9 43.6Junio 11 12.0 38.0Julio 9 9.3 30.1Agosto 7 9.7 35.3Septiembre 12 12.3 46.4Octubre 8 11.4 34.2Noviembre 6 9.3 30.2Diciembre 13 14.3 40.7Enero 8 10.2 38.5Febrero 6 8.4 22.6Marzo 8 11.2 37.6Abril 10 11.1 35.2

Análisis de regresiónLa ecuación de regresión esVENTAS = 16.9 + 2.08 ANUNCIOS

Pronosticador Coef DesvEst Cociente-t pConstante 16.937 4.982 3.40 0.007ANUNCIOS 2.0832 0.5271 3.95 0.003

s = 4.206 R-sq = 61.0%

Análisis de varianza

FUENTE GL SC MC F pRegresión 1 276.31 276.31 15.62 0.003Error 10 176.88 17.69Total 11 453.19

Figura 13-6

Regresión de lasventas sobre el número de anuncios con Minitab

Page 3: Ejemplo de multicolinealidad.pdf

590 Capítulo 13 Regresión múltiple y modelado

El coeficiente de determinación múltiple es R2 � 68.4%, de manera que las dos variables juntasexplican alrededor del 68% de la variación de las ventas totales.

Sin embargo, si observamos los valores p para las variables individuales de la regresión múltiple,vemos que, incluso al nivel � 0.1, ninguna de las variables es una variable explicativa significativa.

¿Qué sucedió? En la regresión simple, cada variable es altamente significativa, y en la re-gresión múltiple lo son de manera colectiva, pero no en forma individual.

Esta aparente contradicción se explica cuando observamos que el número de anuncios tiene unacorrelación alta con el costo de los mismos. De hecho, la correlación entre estas dos variables es r �0.8949, de modo que tenemos un problema de multicolinealidad en los datos. Podríamos preguntar-nos por qué estas dos variables no están perfectamente correlacionadas. La razón es que el costo deun anuncio varía ligeramente, dependiendo del lugar que ocupa en el periódico. Por ejemplo, el do-mingo, los anuncios colocados en la sección de televisión cuestan más que los de la sección de no-ticias, y el administrador de Pizza Shack ha colocado anuncios en cada una de estas secciones en di-ferentes ocasiones.

Como X1 y X2 tienen una relación estrecha, en efecto, cada una explica la misma parte de la va-riabilidad de Y. Ésta es la razón por la que obtenemos r2 � 61.0% en la primera regresión simple,r2 � 67.3% en la segunda regresión simple, y una r2 de sólo 68.4% en la regresión múltiple. Agre-

Ambas variables explican lo mismo

Correlación entre dosvariables explicativas

Pérdida de significancia individual

Análisis de regresión

La ecuación de regresión esVENTAS = 4.17 + 2.87 COSTO

Pronosticador Coef DesvEst Cociente-t pConstante 4.173 7.109 0.59 0.570ANUNCIOS 2.8725 0.6330 4.54 0.000

s = 3.849 R-sq = 67.3%

Análisis de varianza

FUENTE GL SC MC F pRegresión 1 305.04 305.04 20.59 0.000Error 10 148.15 14.81Total 11 453.19

Figura 13-7

Regresión de lasventas sobre elcosto de los anuncios con Minitab

Análisis de regresión

La ecuación de regresión esVENTAS = 6.58 + 0.62 ANUNCIOS + 2.14 COSTO

Pronosticador Coef DesvEst Cociente-t pConstante 6.584 8.542 0.77 0.461ANUNCIOS 0.625 1.120 0.56 0.591COSTO 2.139 1.479 1.45 0.180

s = 3.989 R-sq = 68.4%

Análisis de varianza

FUENTE GL SC MC F pRegresión 2 309.99 154.99 9.74 0.006Error 9 143.20 15.91Total 11 453.19

FIGURA 13-8

Regresión de Minitab para ventas sobre el número y el costode los anuncios

Page 4: Ejemplo de multicolinealidad.pdf

gar el número de anuncios como segunda variable explicativa, además del costo de los anuncios, ex-plica nada más alrededor del 1% adicional de la variación de las ventas totales.

En este punto, es justo preguntarse: ¿qué variable realmente explica la variación de las ventastotales en la regresión múltiple? La respuesta es que ambas la explican, pero no podemos separarsus contribuciones individuales, debido a que están altamente correlacionadas entre sí. Enconsecuencia, sus coeficientes en la regresión múltiple tienen errores estándar altos, valores tcalculados relativamente bajos y valores prob � | t | relativamente altos.

¿De qué manera nos afecta esta multicolinealidad? Todavía podemos hacer predicciones relativa-mente precisas cuando se encuentra presente: note que para la regresión múltiple (la salida se da enla figura 13-8), el error estándar de la estimación, que determina el ancho de los intervalos de con-fianza para las predicciones es 3.989, mientras que para la regresión simple con el costo de los anun-cios como variable explicativa (salida en la figura 13-7), tenemos se � 3.849. Lo que no podemoshacer es predecir con mucha precisión cómo cambiarán las ventas si aumentamos en uno el númerode anuncios. La regresión múltiple dice que b1 � 0.625 (esto es, cada anuncio aumenta las ventastotales de pizzas alrededor de $625), pero el error estándar de este coeficiente es 1.12 (es decir, apro-ximadamente $1,120).

Las contribucionesindividuales no pueden separarse

Sugerencia: el concepto de hacer infe-rencias respecto a una regresión múlti-ple es justo lo mismo que se hizo en elcapítulo 12, cuando hicimos inferencias

respecto a una recta de regresión, excepto que ahora se em-plean dos o más variables independientes. Advertencia: lamulticolinealidad es un problema que debe manejarse enla regresión múltiple y es necesario desarrollar una com-prensión con sentido común. Recuerde que todavía puedehacer predicciones precisas cuando está presente. Pero re-cuerde también que no puede decir con mucha precisión

cuánto cambiará la variable dependiente si “manipula” lasvariables independientes. Entonces, el objetivo debe serminimizar la multicolinealidad. Sugerencia: la mejor regre-sión múltiple es la que explica la relación entre los datos alseñalar la responsabilidad de la mayor proporción de la va-riación en la variable dependiente, con el menor número devariables independientes. Advertencia: no es una buenaidea incluir demasiadas variables independientes sólo por-que cuenta con una computadora y un paquete de softwarepara estadística.

SUGERENCIASY

SUPOSICIONES