Download - REGRESIÓN LINEAL MÚLTIPLE
REGRESIÓN LINEAL MÚLTIPLE
REGRESIÓN LINEAL MÚLTIPLELa regresión lineal múltiple consiste en la obtención de un modelo que relacione una v.a. dependiente “Y” con k variables explicativas o independientes.
UXXXY kk 22110
siendo U el término de error o perturbación. Tendremos que estimar (k+1) parámetros. Una vez estimados, tendremos una ecuación de la forma:
kkXXXY ˆˆˆˆˆ22110
0:
0:
1 i
io
H
H
Cuando los coeficientes han sido estimados, es necesario pasar a verificar la bondad del modelo obtenido. Se suele empezar contrastando la nulidad de cada coeficiente obtenido; en caso de aceptarse la hipótesis nula, estaremos asumiendo que la variable a la que acompaña dicho coeficiente no es significativa en el modelo de regresión (la distribución muestral sigue un modelo t-Student).
Contraste de nulidad de cada coeficiente
REGRESIÓN LINEAL MÚLTIPLEAnálisis de la varianza: Tabla ANOVA
Fuentes de variación
Sumas de cuadrados
g.l. Cuadrados medios
Fexp
Regresión
(Explicada)
SCE K SCE/k
Residual
(No explicada)
SCNE n-k-1 SCNE/(n-k-1)
Total SCT n-1
1 knSCNE
kSCE
A continuación, hay que verificar la bondad del modelo en su conjunto. SPSS o cualquier otro programa estadístico nos realiza una descomposición de la variabilidad total en la variabilidad explicada por la regresión y la residual o no explicada por la regresión.
SCESCNESCT
yyyyyy iiii
222 ˆˆ
REGRESIÓN LINEAL MÚLTIPLEAnálisis de la varianza: Tabla ANOVA
Teniendo en cuenta la descomposición anterior, se realiza un contraste de significación del modelo conjunto, teniendo en cuenta la variabilidad explicada por la regresión respecto a la no explicada (cuya distribución muestral sigue un modelo F-Snedecor).
0lg:
0:
1 i
io
únaH
iH
Fexp
1 knSCNE
kSCE
REGRESIÓN LINEAL MÚLTIPLECoeficiente de determinación
Usando la descomposición de la varianza, se obtiene un coeficiente que representa la proporción de la variabilidad de “Y” explicada por la regresión. Cuanto más se acerque a la unidad, mayor será esa proporción:
10 2
2
R
SCT
SCER
Coeficiente de determinación corregido
1
112
nSCTknSCR
R
Un número reducido de grados de libertad puede generar un R2 elevado, sin que la relación entre las variables sea estrecha. Este coeficiente tiene la ventaja de que no aumenta su valor al aumentar el número de variables explicativas.
REGRESIÓN LINEAL MÚLTIPLE
El el menú “Analizar/ Regresión lineal”, introducimos la variable “Asimetría” como dependiente y las demás como independientes.
Ejemplo SPSS
Vamos a crear un modelo de regresión múltiple para explicar la asimetría de la hoja en función de la longitud de la misma, el año de medición y la parte del árbol: canopy (copa del árbol), sprouts (brotes inferiores). Esta última variable es cualitativa dicotómica por lo que la recodificamos con 0 y 1, respectivamente. Tenemos una muestra aleatoria de 15 datos.
REGRESIÓN LINEAL MÚLTIPLE
Contrastes de nulidad para los coeficientes
Ejemplo SPSS
En primer lugar miramos la tabla de coeficientes (B) y escribimos el modelo estimado:
ParteAñoLongitudAsimetría 078,0017,0003,02,34
0:
0:
1 i
io
H
H
Los p-valores asociados a cada contraste de nulidad (sig), nos indican que la única variable significativa (al 5%) es la “Parte del árbol”, con un p-valor=0,046. Para el resto de coeficientes, no se puede rechazar la hipótesis de nulidad a este nivel de significación. Por tanto, parece que éstas variables no explican a la variable dependiente (asimetría).
REGRESIÓN LINEAL MÚLTIPLE
Contrastes de nulidad para el modelo conjunto
Ejemplo SPSS
Observamos ahora en la tabla ANOVA, la descomposición de la variabilidad de la variable dependiente (asimetría):
El p-valor asociado a este contraste, nos indica que no es posible rechazar la hipótesis nula a un nivel de significación del 5%; esto lleva a pensar que este modelo de regresión no está bien planteado, es posible que no hayamos introducido variables importantes para explicar la asimetría de la hoja.
Como puede apreciarse, de la SCT=0.047 solamente 0.016 ha sido explicada por la regresión.
0lg:
0:
1 i
io
únaH
iH
REGRESIÓN LINEAL MÚLTIPLEEjemplo SPSS
Veamos el valor del coeficiente de determinación (R cuadrado):
Este coeficiente vale 0,349. Por tanto solamente hemos conseguido explicar un 34,9% de la variabilidad total. El R cuadrado corregido incluso es inferior (17,2%). Esto rearfirma la hipótesis de que el modelo no está bien planteado.
Regresión lineal simple
Ya que el modelo anterior no ha resultado como esperábamos, vamos a eliminar del mismo las variables que no han resultado explicativas de la variable “asimetría”. De esta forma, tendremos un modelo de regresión lineal simple (solamente una variable independiente o explicativa)
REGRESIÓN LINEAL MÚLTIPLEEjemplo SPSS
Los contrastes para el nuevo modelo muestran que ambos coeficientes son significativos al 5%. El R cuadrado muestra que solamente se ha conseguido explicar un 30% de la variabilidad total, por lo que aunque no sea un buen modelo, por lo menos no considera variables que no sirven para explicar la asimetría de la hoja y es mucho más sencillo. De todas formas, sería necesario replantear el modelo.
Regresión lineal simple
ParteAsimetría 077,0059,0
REGRESIÓN LINEAL MÚLTIPLEEjemplo SPSS
Si quisiéramos realizar una predicción con el modelo que hemos obtenido, basta con sustituir valores en el mismo:
Regresión lineal simple
ParteAsimetría 077,0059,0 ¿Cuál sería la asimetría de una hoja que se encuentra en la parte Canopy del árbol?
Sustituimos en la expresión del modelo “Parte=0” ya que recodificamos la Canopy con el valor 0:
059,00077,0059,0 Asimetría
Y por tanto, para obtener la asimetría de las hojas “Sprouts”, sustituimos en la expresión del modelo “Parte=1” ya que recodificamos las Sprouts con el valor 1:
136,01077,0059,0 Asimetría
REGRESIÓN LINEAL MÚLTIPLEEjemplo SPSS
El modelo de regresión debe verificar una serie de hipótesis previas relativas al término de perturbación o error U:
Hipótesis previas
Hipótesis:
UXXXY kk 22110
• Esperanza nula:
• Homocedasticidad:
• No autocorrelación:
• Distribución normal:
REGRESIÓN LINEAL MÚLTIPLEEjemplo SPSS Hipótesis previas
Se puede calcular el estadístico de Durbin-Watson para comprobar si los residuos son independientes (si está entre 1.5 y 2.5 se acepta la independencia)
Respecto al resto de condiciones, se puede recurrir entre otros, a los gráficos que proporciona SPSS (histograma de residuos y gráfico de probabilidad normal). También se pueden guardar los residuos y usar test de normalidad (Kolmogorov-Smirnov), de independencia, etc.