modelos de regresiÓnocw.upm.es/pluginfile.php/1284/mod_label/intro/mod_lineal_3.pdf ·...
TRANSCRIPT
MODELOS DE REGRESIÓN
Prof. Susana Martín Fernández
REGRESIÓN SIMPLE
Objetivo
Sean x1 x2 ...xn, n valores de la variable numérica X. Sea Y=(y1, y2,..., yn) un vector aleatorio de n variables aleatorias independientes, el modelo de regresiel modelo de regresióón estudia la n estudia la dependencia lineal del vector dependencia lineal del vector YY, respecto a la variable , respecto a la variable XX..Cuando el conocimiento de una variable determina totalmente el valor de otra habrá una relación funcional entre ambas variables.Si el conocimiento de una variable no aporta información sobre el valor de otra, ambas variables son independientes.En general el conocimiento de una variable predice en mayor o menor grado el conocimiento de otra. Se dice que entre ellas hayuna relación estocástica.
Metodología1.Representación gráfica de los datos.2.Planteamiento del modelo.3.Estimación de los parámetros.4.Contraste de simplificación del modelo. 5.Comprobación de las hipótesis básicas por análisis de residuos.
6.Análisis del Coeficiente de Correlación7.Validación del modelo8.Aplicación del modelo
Representación gráfica de los datos.Ej. En una planta de producción de oxigeno, se cree que la pureza del oxígeno producido con un proceso de fraccionamiento está relacionada con el porcentaje de hidrocarburos en el condensador principal de la unidad de procesamiento.
%_Oxigeno
%_HCarburos
Planteamiento del modelo.
Las variables del vector ε=(ε1,ε2,...εn) representan la perturbación aleatoria, y se asume que cumplen que:
Son independientesSiguen un distribución normalTodas tienen la misma varianza homocedasticidad,
σ2.
n][1,i +x + =Y ii10i ∈∀εαα
0=]E[ iε
Planteamiento del modelo.De forma matricial el modelo quedaría de la siguiente forma :
Donde:
εβ +X =Y '
( )ααβ 10 =
=
nx
xx
X
1
11
2
1
LL
Planteamiento del modelo.En el ejemplo, para una muestra concretasería:
εβ +X =Y ' ),...,(
0.9810.9510.9911.0111.1511.411.5511.5511.5511.4611.0211.4310.8711.1110.9511.0111.1111.4311.1111.021
),(
90.5685.296.859587.3193.6596.0798.6699.4296.7389.8695.6191.8686.2987.3392.5886.3490.2889.8586.91
202110
'
εεεαα +
=
Estimación de los parámetros.
La función de verosimilitud para los parámetros α0, α1, σ2 , es la siguiente:
Se calculan los valores de α0, α1, que hacen máxima la función de verosimilitud:
e )x--y()(21 =) , , f(Y, i10i
2n
=1i2
1-nn/2
210 2 αα
σπσαα σ ∑
x - y =x - ny= ii
in
=1i0 ααα ˆˆˆ ∑
σ
XCov(Y,
)x-x(
)y-y)(x-x(=α
2xi
2n
1=i
ii
n
1=i1
)=∑
∑
Estimación de los parámetros.
El valor de σ2 que hace máxima la función de verosimilitud es:
El estimador resultante de la varianza o varianza residual es:
∑=∑ 2ie
n1)xα-α-y(
n1=σ i10i
2n
1=i
2
e2-n1=S i
2n
1=iR
2 ∑Los residuos tienen que cumplir dos restricciones que proceden del cálculo de los estimadores de máxima verosimilitud:
0 =ei∑ 0 =x e ii∑
Estimación de los parámetros
Estimación α0 Estimación α1
Estimación σ
Estimación de los parámetros
Gráfico del Modelo Ajustado
%_HCarburos
%_O
xige
no
0.87 1.07 1.27 1.47 1.6785
88
91
94
97
100
%_Oxigeno = 77.8633 + 11.801*%_HCarburos
Simplificación del Modelo
Los contrastes de simplificación del modelo son los siguientes:
1. El modelo no es lineal: H0: α1=0
2. El término independiente es cero: H0: α0=0
Simplificación del ModeloEl modelo no es lineal: H0: α1=0Bajo la hipótesis nula, los estimadores de los
parámetros son:
y =00α 0=ˆ 01α )y -y(n1 =σ i
2n
1=i
20 ∑
( )( ) ( )( )( )( )'X'βYX'βY
'X'βYX'βY'X'βYX'βYF 00 ))
))((
−−−−−−−
=
)x -x +y -y(
)x-x(
)x -x +y -y(
)x -x +y -y()y -y(=F
i11i2
n
=1i
i2
n
=1i12
i11i2
n
=1i
i11i2
n
=1ii
2n
=1i = -
αα
α
αα
αα
ˆˆ
ˆ
ˆˆ
ˆˆ
∑
∑
∑
∑∑
El estadístico (n-2)/1 F sigue una distribución F-snedecor con (1, n-2) grados de libertad
Simplificación del ModeloEl término independiente es 0: H0: α0=0
El estadístico (n-2)/1 F sigue una distribución F-snedecor con (1, n-2) grados de libertad
/
)x -x +y -y(
x)x -x(n=F
i11i2
n
=1i
i2
n
=1ii
2n
=1i0
2
αα
α
ˆˆ
ˆ
∑
∑∑
Simplificación del Modelo
Test α0=0 Test α1=0
Comprobación Hipótesis Básicas de los Residuos
Gráfico de Residuos
88 90 92 94 96 98
%_Oxigeno predicho
-2.4
-1.4
-0.4
0.6
1.6
2.6
Res
iduo
est
uden
tizad
o
Estadístico de Durbin-Watson = 1.91084 (P=0.3683)Autocorrelación residual en Lag 1 = 0.0226275
Este gráfico es muestra laheteroscedasticidad de los residuos. Su variabilidad cambiaal aumentar los valores de la variable dependiente.
Comprobación Hipótesis Básicas de los Residuos
Gráfico de Probabilidad Normal
-5 -2 1 4 7 10
RESIDUALS
0.115
2050809599
99.9
porc
enta
je
Comprobación Hipótesis Básicas de los Residuos
Tests de Bondad de Ajuste para RESIDUALS
Contraste Chi-cuadrado------------------------------------------------------------------ Límite Límite Frecuencia Frecuencia Inferior Superior Observada Esperada Ch------------------------------------------------------------------ menor o igual -3.3866 5 3.33 -3.3866 -1.50783 2 3.33 -1.50783 -4.4E-7 4 3.33 -4.4E-7 1.50783 2 3.33 1.50783 3.3866 4 3.33 mayor 3.3866 3 3.33 ------------------------------------------------------------------Chi-cuadrado = 2.20003 con 3 g.l. P-Valor = 0.531938
Estadístico DMAS de Kolmogorov = 0.115795Estadístico DMENOS de Kolmogorov = 0.0909808Estadístico DN global de Kolmogorov = 0.115795P-Valor aproximado = 0.951365
Se acepta normalidad
Análisis del Coeficiente de Correlación
El coeficiente de correlación mide la relación lineal existente entre dos variables.
Su valor varía entre -1 y 1.Si ρ=0, no existe relación lineal. Si las variables
son normales, además son independientes.La dependencia entre las variables es
completa cuando ρ=±1
SSX)cov(Y,=
Xyρ
Análisis del Coeficiente de Correlación
Contrastes de hipótesis sobre el coeficiente de correlación:
1. H0: ρ=0 frente a H1: ρ≠0
Estadístico: tn-2
2. H0: ρ=ρ0 ≠0 frente a H1: ρ≠ρ0
Estadístico: Normal
212
rrnt−
−=
−+
=rrz
11ln
21
( ))1(21
1ln
21 0
0
0
−+
−+
=n
zEρ
ρρ
( )3
1var−
=n
z
Análisis del Coeficiente de Correlación
Ej.Correlaciones
%_HCarburos %_Oxigeno ------------------------------------------------------------%_HCarburos 0.6238 ( 20) 0.0033
%_Oxigeno 0.6238 ( 20) 0.0033 ------------------------------------------------------------
Validación del modelo
Análisis de la VarianzaTest de Falta de AjusteDetección de Residuos AtípicosDeterminación de Puntos Influyentes
Validación del modelo- Análisis de la Varianza
La hipótesis nula es que el modelo no es válido.
La descomposición de la variabilidad es la siguiente:
( ) ( ) ( )∑∑∑===
−+−=−n
ii
n
iii
n
ii yyyyyy
1
2
1
2
1
2 ˆˆ
Validación del modelo- Test de Falta de Ajuste
Este test comprueba el ajuste de los datos al modelo de regresión lineal.
HH00: La regresi: La regresióón es linealn es lineal
Requisitos:
-Normalidad
-Independencia
-Varianza constante.
Observaciones reales duplicadas.
Ej. %_HCarb =1’02 aparece 2 veces.
Validación del modelo- Test de Falta de Ajuste
.El error residual los separa en 2 grupos:
error puro
error debido a la falta de ajuste( ) ( ) ( )∑ ∑ ∑∑∑∑
= = = ===
−+−=−m
i
m
i
m
i
n
jii
n
jiij
n
jiij
iii
yyyyyy1 1 1 1
2
1
2
1
2 ˆˆ
iy Valor medio de las ni observaciones en xi
Validación del modelo- Detección de Residuos Atípicos
•Valor atípico es una observación extrema.
• No son representativos del resto de datos.
• Método de Stefansky (1971) para detectarlos:
2e
e2i
i ≥∑
Validación del modelo- Detección de Residuos Atípicos
• Los residuos atípicos se pueden deber a:
1. Medición incorrecta
2. Análisis incorrecto
3.Registro incorrecto de datos
4.Observación extraordinaria factible
Se eliminan
Permanecen.Puede controlar propiedades clave del modelo
Validación del modelo- Detección de Residuos Atípicos
Gráfico del Modelo Ajustado
%_HCarburos
%_O
xige
no
0.87 1.07 1.27 1.47 1.6785
88
91
94
97
100
Validación del modelo - Puntos Influyentes
El punto influyente (Outlier) es aquél que tiene influencia sobre los coeficientes de regresión y/o las propiedades del modelo como R2, y los errores estándar de los coeficientes de regresión...
Pto. de balanceo Pto. influyente
Validación del modelo - Puntos Influyentes
Balanceo o Leverage (Apalancamiento)
Mide la influencia de cada observación en la determinación de los coeficientes de regresión.
Se detectan a partir de:
La diagonal de H es una medida de la distancia de la i-ésimaobservación al centro del espacio X. Hay apalancamiento si este valor es mayor que
HyyX'X)X(X'βXy 1 === −
n/h2n
1iii∑
=
Validación del modelo - Puntos Influyentes
DFFITS
Este método estudia la influencia de la eliminación de la i-ésima observación sobre la predicción.
es el valor ajustado de yi sin utilizar la i-ésima observación.
Un punto se analiza si:
1....ni hS
yyDFFITS
ii2(i)
(i)ii =
−=
(i)y
nh2DFFITS iii ∑>
Validación del modelo - Puntos Influyentes
DISTANCIA DE MAHALANOBIS
Distancia no euclídea que considera la correlación entre variables.
D2 (y) = (y – X)S-1 (y – X)`
D es la distancia al cuadrado desde cada punto y al conjunto de variables XS representa la matriz de covarianzas de X. X es el vector que contiene los valores medios de las variables independientes.
Transformación de una variable aleatoriaLos modelos de regresión suponen:
1. Los errores tienen media 0, varianza constante y no están correlacionados.
2. Los errores tienen distribución normal.
3. La forma del modelo es correcta.
Si no se cumple alguna de estas suposiciones se pueden TRANSFORMAR LOS DATOS. La transformación se realiza de forma empírica.
Transformación de una variable aleatoria. Estabilización de la varianza.
Y’= y-1 (recíproca)σ2 ~ E[y]4
Y’= y-1/2 (raíz cuadrdada recíproca)
σ2 ~ E[y]3Y’=ln(y) (logarítmica)σ2 ~ E[y]2
y’=1/sen(y1/2),(proporciones binomiales)
σ2 ~ E[y] [1-E[y]]
y’= y1/2 (Raíz cuadrada, datos de Poisson)
σ2 ~ E[y]
y’=yσ2 ~ Constante
TransformaciónRelación entre σ2 y E[y]
Transformación de una variable aleatoria. Linealización del Modelo
La no linealidad del modelo se detecta:
1.Con el test de falta de ajuste
2.Con el gráfico de dispersión
3.De forma empírica
Transformación de una variable aleatoria. Método Box-Cox.
Se transforma la variable y para corregir la no normalidad y/o la varianza no constante.
Es una transformación de potencia yλ
Se determinan los parámetros de la recta α0, α1y λ por el método de máxima verosimilitud.
Transformación de una variable aleatoria. Método Box-Cox.
Problema cuando λ=0.
Solución realizando el siguiente cambio:
Se ajusta el modelo y(λ)=βX’+ε
( )
=
≠
−
=
∑
∑
=
−
−
=
−
0λ lny,lny(1/n)ln
0λ ,
lny(1/n)lnλ
1y
yn
1ii
1
1λn
1ii
1
λ
λ
Transformación de una variable aleatoria. Método Box-Cox.
Aplicación del Modelo
Predicción de nuevas observaciones
Intervalos de confianza:De la respuesta media E(y)De nuevas predicciones
0100 xααy +=
Aplicación del Modelo
Intervalos de confianza de la respuesta media, E(y).Se fija un valor de interés x0, y se trata de encontrar int. de confianza de E(y/x0).Estimador de E(y/x0):Su varianza es:
0100 xαα)y/x(E +=
( )xx
202
2
010100
Sxxσ
nσ
))x(xαyvar()xααvar())y/x(var(E
−+=
=−+=+=
Aplicación del Modelo
Intervalos de confianza de la respuesta media, E(y), para un nivel de confianza 1-αes:
( )
−+±∈ −
xx
202
res
2res
2nα/2,x|y0 SxxS
nStµ)E(y/x
0
Intervalos de Confianza
Gráfico del Modelo Ajustado
%_HCarburos
%_O
xige
no
0.87 1.07 1.27 1.47 1.6785
88
91
94
97
100
%_Oxigeno = 77.8633 + 11.801*%_HCarburos
Aplicación del Modelo
Intervalos de confianza de nuevas prediccionesSi el valor de interés de la variable independiente es x0 entonces , es el valor estimado de y0.
0100 xααy +=
( )xx
202
22
00 Sxxσ
nσσ)y-var(y −
++=
Aplicación del Modelo
Intervalos de confianza de nuevas prediccionesY por tanto el intervalo de confianza, para un nivel de confianza 1-α, es
( )
−++±∈ −
xx
202
res
2res2
res2nα/2,00 SxxS
nSStyy
RegresiRegresióón n MMúúltipleltiple
El objetivo de la regresiEl objetivo de la regresióón mn múúltiple es ltiple es construir un modelo construir un modelo probabilprobabilíísticostico que que relacione un variable dependiente relacione un variable dependiente YY con con dos o mdos o máás variables matems variables matemááticas ticas independientes independientes xx11, , xx22, ..., ... xxkk,. La ,. La expresiexpresióón de dicho modelo es la n de dicho modelo es la siguiente:siguiente:
Donde:Donde:ββii, es el coeficiente que representa el efecto , es el coeficiente que representa el efecto sobre la variable dependiente al aumentar en sobre la variable dependiente al aumentar en una unidad el valor de la variable una unidad el valor de la variable independiente independiente xxii..εε, representa la perturbaci, representa la perturbacióón aleatoria. n aleatoria.
εββββ +++++= kk xxxY L22110
εε, verifica las siguientes hip, verifica las siguientes hipóótesis:tesis:Su media es 0. Su media es 0. Su varianza es constante, Su varianza es constante, σσ2.2.Las perturbaciones son independientes Las perturbaciones son independientes entre sentre síí..Siguen una distribuciSiguen una distribucióón Normaln Normal..
EstimaciEstimacióón de los parn de los paráámetrosmetros..Aplicando el mAplicando el méétodo de mtodo de míínimos cuadrados, nimos cuadrados, (n(núúmero de observaciones es mero de observaciones es n,)n,) la funcila funcióón a n a minimizar es:minimizar es:
Derivando respecto a Derivando respecto a ββ00, se verifica, si se llama , se verifica, si se llama eeii=y=yii--^y^yii, , la siguiente ecuacila siguiente ecuacióón:n:
Derivando respecto a Derivando respecto a ββi, se verifica:i, se verifica:
( )2`22110 )( kikiii xxxyM ββββ ++++−= ∑ L
∑ = 0ie
kjxe jii L,10 ==∑
El sistema de ecuaciones definido por las El sistema de ecuaciones definido por las expresiones anteriores se puede escribir expresiones anteriores se puede escribir de la siguiente manera:de la siguiente manera:
kikiii xxxny ∑∑∑∑∧∧∧∧
++++= ββββ L22110
ikikiiiiii xxxxxxxy 1`1222
11101 ∑∑∑∑∑∧∧∧∧
++++= ββββ L
M2
`22110 kikkiikiikikii xxxxxxxy ∑∑∑∑∑∧∧∧∧
++++= ββββ L
Las ecuaciones anteriores se pueden Las ecuaciones anteriores se pueden expresar de forma matricial:expresar de forma matricial:
=
∧
∧
∧
kknn
k
k
knkk
n
nknkk
n
xx
xxxx
xxx
xxx
y
yy
xxx
xxx
β
β
β
ML
MMMM
L
L
L
MMMM
L
L
M
L
MMMM
L
L
1
0
1
212
111
21
112112
1
21
11211
1
11111111
De la expresión anterior se puede despejar el valor de los parámetros buscados:
( ) YXXX ´´ 1−∧
−=β
Si la matriz de Si la matriz de covarianzascovarianzas es la siguiente:es la siguiente:
La expresiLa expresióón de cada parn de cada paráámetro metro ββi i con con iide de 1 a1 a k, k, es la siguiente:es la siguiente:
=
kkkk
k
k
xxxxyx
xxxxyx
yxyxyy
sss
ssssss
S
L
MMMM
L
L
1
1111
1
yy
yxi S
Si
−=
∧
β
Donde:Donde:|S|Syxiyxi|| es el determinante del mes el determinante del míínimo nimo complementario correspondiente a los complementario correspondiente a los óórdenes de las variables rdenes de las variables y y yy xxii. . En este En este caso, estos caso, estos óórdenes serrdenes seráán 1 para la n 1 para la variable variable yy e i+1 para la variable e i+1 para la variable xxii..El tEl téérmino independiente serrmino independiente seráá::
∑∧∧
−= ii xy ββ 0
La varianza de la perturbaciLa varianza de la perturbacióón aleatoria, n aleatoria, σσ22. se estima a partir de la varianza . se estima a partir de la varianza residual, estimador mresidual, estimador mááximoximo--verosverosíímil en la mil en la hiphipóótesis de normalidad. El ntesis de normalidad. El núúmero de mero de grados de libertad de los residuos es grados de libertad de los residuos es nn--kk--11, por haber , por haber k+1k+1 restricciones:restricciones:
1
22
−−= ∑
kne
s iR
DescomposiciDescomposicióón de la variabilidadn de la variabilidadLa variabilidad de la respuesta puede La variabilidad de la respuesta puede descomponerse de la siguiente manera:descomponerse de la siguiente manera:
que expresa la variacique expresa la variacióón total n total VTVT como suma de la como suma de la variacivariacióón explicada por el modelo n explicada por el modelo VEVE y la y la residual o no explicada residual o no explicada VNE.VNE.El contraste de regresiEl contraste de regresióón comprobarn comprobaráá que el que el modelo es vmodelo es váálido. La hiplido. La hipóótesis nula sertesis nula seráá la mla máás s sencilla y es que el vector de parsencilla y es que el vector de paráámetros de metros de regresiregresióón sea nulo. n sea nulo.
∑∑ ∑
−+
−=
−
∧−∧− 222
iiii yyyyyy
La tabla ADEVA es la siguiente:La tabla ADEVA es la siguiente:
∑
−
−∧ 2
yyi 2eS
∧ F= 2eS∧
/ 2RS
∧
∑
−
∧ 2
ii yy 2RS
∧
∑
−
− 2
yyi2
yS∧
n-1VT
n-k-1VNE
kVE
Contraste
VarianzaGrados de libertad
Suma de cuadrados
Fuente de variación
CorrelaciCorrelacióón en Regresin en Regresióón Mn MúúltipleltipleCoeficiente de determinaciCoeficiente de determinacióón o de n o de correlacicorrelacióón mn múúltipleltipleEste coeficiente mide la correlaciEste coeficiente mide la correlacióón entre la n entre la variable dependiente y el conjunto de las variable dependiente y el conjunto de las variables independientes:variables independientes:
VTVER =2
Inconvenientes:Inconvenientes:Al aumentar el nAl aumentar el núúmero de variables que mero de variables que intervienen en el modelo, su valor intervienen en el modelo, su valor aumenta, aunque el efecto de esta nueva aumenta, aunque el efecto de esta nueva variable no sea significativo. variable no sea significativo. Es muy sensible a la elecciEs muy sensible a la eleccióón de variable n de variable dependiente. Dos modelos formalmente dependiente. Dos modelos formalmente iguales, pueden tener diferente valor del iguales, pueden tener diferente valor del coeficiente de determinacicoeficiente de determinacióón.n.Se utiliza el coeficiente de determinaciSe utiliza el coeficiente de determinacióón n corregido, corregido,
ydeVarianzaresidualVarianzaR −=
−
12yyy S
SR 2
2 1σ
−=−
Coeficiente de correlaciCoeficiente de correlacióón parcialn parcialDado un conjunto de variables, Dado un conjunto de variables, xx11, , xx22, ..., ... xxkk, el , el coeficiente de correlacicoeficiente de correlacióón parcial entre dos n parcial entre dos cualesquiera de ellas, es una medida de su cualesquiera de ellas, es una medida de su relacirelacióón lineal, cuando se elimina de ambas el n lineal, cuando se elimina de ambas el efecto debido al resto de las variables. efecto debido al resto de las variables. Por ejemplo si se quiere calcular el coeficiente de Por ejemplo si se quiere calcular el coeficiente de correlacicorrelacióón parcial entre n parcial entre xx11 y y xx22, se calcular, se calcularááprimero los primero los hiperplanoshiperplanos de regreside regresióón de n de xx11respecto a respecto a xx33 xx44, ..., ... xxkk y de y de xx22, respecto a , respecto a xx33 xx44, ..., ...xxkk, , , , si llamamos si llamamos ee1.345...k1.345...k y y ee2.345...k2.345...k los residuos de los residuos de los dos ajustes anteriores, el coeficiente de los dos ajustes anteriores, el coeficiente de regresiregresióón parcial sern parcial seráá::
[ ]
2211
21
)()( ..34.2..34.1
..34.2...34.13.12
xxxx
xx
kk
kkk
SS
S
eveveeE
r−
==L
Supongamos que se estSupongamos que se estáán estudiando solamente n estudiando solamente 3 variables 3 variables xx11, x, x22 y xy x33.., se pueden relacionar los , se pueden relacionar los coeficientes de correlacicoeficientes de correlacióón simple y parcial a n simple y parcial a travtravéés de la siguiente expresis de la siguiente expresióón:n:
Donde Donde rrijij es el coeficiente de correlacies el coeficiente de correlacióón simple n simple entre las variables entre las variables xxii, , xxjj..
( )( )223
213
231321333.12
11 rr
rrrrr
−−
−=