Download - REGRESIÓN LINEAL MÚLTIPLE

REGRESIÓN LINEAL MÚLTIPLE

REGRESIÓN LINEAL MÚLTIPLELa regresión lineal múltiple consiste en la obtención de un modelo que relacione una v.a. dependiente “Y” con k variables explicativas o independientes.

UXXXY kk 22110

siendo U el término de error o perturbación. Tendremos que estimar (k+1) parámetros. Una vez estimados, tendremos una ecuación de la forma:

kkXXXY ˆˆˆˆˆ22110

0:

0:

1 i

io

H

H

Cuando los coeficientes han sido estimados, es necesario pasar a verificar la bondad del modelo obtenido. Se suele empezar contrastando la nulidad de cada coeficiente obtenido; en caso de aceptarse la hipótesis nula, estaremos asumiendo que la variable a la que acompaña dicho coeficiente no es significativa en el modelo de regresión (la distribución muestral sigue un modelo t-Student).

Contraste de nulidad de cada coeficiente

REGRESIÓN LINEAL MÚLTIPLEAnálisis de la varianza: Tabla ANOVA

Fuentes de variación

Sumas de cuadrados

g.l. Cuadrados medios

Fexp

Regresión

(Explicada)

SCE K SCE/k

Residual

(No explicada)

SCNE n-k-1 SCNE/(n-k-1)

Total SCT n-1

1 knSCNE

kSCE

A continuación, hay que verificar la bondad del modelo en su conjunto. SPSS o cualquier otro programa estadístico nos realiza una descomposición de la variabilidad total en la variabilidad explicada por la regresión y la residual o no explicada por la regresión.

SCESCNESCT

yyyyyy iiii

222 ˆˆ

REGRESIÓN LINEAL MÚLTIPLEAnálisis de la varianza: Tabla ANOVA

Teniendo en cuenta la descomposición anterior, se realiza un contraste de significación del modelo conjunto, teniendo en cuenta la variabilidad explicada por la regresión respecto a la no explicada (cuya distribución muestral sigue un modelo F-Snedecor).

0lg:

0:

1 i

io

únaH

iH

Fexp

1 knSCNE

kSCE

REGRESIÓN LINEAL MÚLTIPLECoeficiente de determinación

Usando la descomposición de la varianza, se obtiene un coeficiente que representa la proporción de la variabilidad de “Y” explicada por la regresión. Cuanto más se acerque a la unidad, mayor será esa proporción:

10 2

2

R

SCT

SCER

Coeficiente de determinación corregido

1

112

nSCTknSCR

R

Un número reducido de grados de libertad puede generar un R2 elevado, sin que la relación entre las variables sea estrecha. Este coeficiente tiene la ventaja de que no aumenta su valor al aumentar el número de variables explicativas.


El el menú “Analizar/ Regresión lineal”, introducimos la variable “Asimetría” como dependiente y las demás como independientes.

Ejemplo SPSS

Vamos a crear un modelo de regresión múltiple para explicar la asimetría de la hoja en función de la longitud de la misma, el año de medición y la parte del árbol: canopy (copa del árbol), sprouts (brotes inferiores). Esta última variable es cualitativa dicotómica por lo que la recodificamos con 0 y 1, respectivamente. Tenemos una muestra aleatoria de 15 datos.


Contrastes de nulidad para los coeficientes

Ejemplo SPSS

En primer lugar miramos la tabla de coeficientes (B) y escribimos el modelo estimado:

ParteAñoLongitudAsimetría 078,0017,0003,02,34

0:

0:

1 i

io

H

H

Los p-valores asociados a cada contraste de nulidad (sig), nos indican que la única variable significativa (al 5%) es la “Parte del árbol”, con un p-valor=0,046. Para el resto de coeficientes, no se puede rechazar la hipótesis de nulidad a este nivel de significación. Por tanto, parece que éstas variables no explican a la variable dependiente (asimetría).


Contrastes de nulidad para el modelo conjunto

Ejemplo SPSS

Observamos ahora en la tabla ANOVA, la descomposición de la variabilidad de la variable dependiente (asimetría):

El p-valor asociado a este contraste, nos indica que no es posible rechazar la hipótesis nula a un nivel de significación del 5%; esto lleva a pensar que este modelo de regresión no está bien planteado, es posible que no hayamos introducido variables importantes para explicar la asimetría de la hoja.

Como puede apreciarse, de la SCT=0.047 solamente 0.016 ha sido explicada por la regresión.

0lg:

0:

1 i

io

únaH

iH

REGRESIÓN LINEAL MÚLTIPLEEjemplo SPSS

Veamos el valor del coeficiente de determinación (R cuadrado):

Este coeficiente vale 0,349. Por tanto solamente hemos conseguido explicar un 34,9% de la variabilidad total. El R cuadrado corregido incluso es inferior (17,2%). Esto rearfirma la hipótesis de que el modelo no está bien planteado.

Regresión lineal simple

Ya que el modelo anterior no ha resultado como esperábamos, vamos a eliminar del mismo las variables que no han resultado explicativas de la variable “asimetría”. De esta forma, tendremos un modelo de regresión lineal simple (solamente una variable independiente o explicativa)


Los contrastes para el nuevo modelo muestran que ambos coeficientes son significativos al 5%. El R cuadrado muestra que solamente se ha conseguido explicar un 30% de la variabilidad total, por lo que aunque no sea un buen modelo, por lo menos no considera variables que no sirven para explicar la asimetría de la hoja y es mucho más sencillo. De todas formas, sería necesario replantear el modelo.


ParteAsimetría 077,0059,0


Si quisiéramos realizar una predicción con el modelo que hemos obtenido, basta con sustituir valores en el mismo:


ParteAsimetría 077,0059,0 ¿Cuál sería la asimetría de una hoja que se encuentra en la parte Canopy del árbol?

Sustituimos en la expresión del modelo “Parte=0” ya que recodificamos la Canopy con el valor 0:

059,00077,0059,0 Asimetría

Y por tanto, para obtener la asimetría de las hojas “Sprouts”, sustituimos en la expresión del modelo “Parte=1” ya que recodificamos las Sprouts con el valor 1:

136,01077,0059,0 Asimetría


El modelo de regresión debe verificar una serie de hipótesis previas relativas al término de perturbación o error U:

Hipótesis previas

Hipótesis:

UXXXY kk 22110

• Esperanza nula:

• Homocedasticidad:

• No autocorrelación:

• Distribución normal:

REGRESIÓN LINEAL MÚLTIPLEEjemplo SPSS Hipótesis previas

Se puede calcular el estadístico de Durbin-Watson para comprobar si los residuos son independientes (si está entre 1.5 y 2.5 se acepta la independencia)

Respecto al resto de condiciones, se puede recurrir entre otros, a los gráficos que proporciona SPSS (histograma de residuos y gráfico de probabilidad normal). También se pueden guardar los residuos y usar test de normalidad (Kolmogorov-Smirnov), de independencia, etc.

Download - REGRESIÓN LINEAL MÚLTIPLE

Top Related