modelos de regresiÓnocw.upm.es/pluginfile.php/1284/mod_label/intro/mod_lineal_3.pdf ·...

MODELOS DE REGRESIÓN

Prof. Susana Martín Fernández

REGRESIÓN SIMPLE

Objetivo

Sean x1 x2 ...xn, n valores de la variable numérica X. Sea Y=(y1, y2,..., yn) un vector aleatorio de n variables aleatorias independientes, el modelo de regresiel modelo de regresióón estudia la n estudia la dependencia lineal del vector dependencia lineal del vector YY, respecto a la variable , respecto a la variable XX..Cuando el conocimiento de una variable determina totalmente el valor de otra habrá una relación funcional entre ambas variables.Si el conocimiento de una variable no aporta información sobre el valor de otra, ambas variables son independientes.En general el conocimiento de una variable predice en mayor o menor grado el conocimiento de otra. Se dice que entre ellas hayuna relación estocástica.

Metodología1.Representación gráfica de los datos.2.Planteamiento del modelo.3.Estimación de los parámetros.4.Contraste de simplificación del modelo. 5.Comprobación de las hipótesis básicas por análisis de residuos.

6.Análisis del Coeficiente de Correlación7.Validación del modelo8.Aplicación del modelo

Representación gráfica de los datos.Ej. En una planta de producción de oxigeno, se cree que la pureza del oxígeno producido con un proceso de fraccionamiento está relacionada con el porcentaje de hidrocarburos en el condensador principal de la unidad de procesamiento.

%_Oxigeno

%_HCarburos

Planteamiento del modelo.

Las variables del vector ε=(ε1,ε2,...εn) representan la perturbación aleatoria, y se asume que cumplen que:

Son independientesSiguen un distribución normalTodas tienen la misma varianza homocedasticidad,

σ2.

n][1,i +x + =Y ii10i ∈∀εαα

0=]E[ iε

Planteamiento del modelo.De forma matricial el modelo quedaría de la siguiente forma :

Donde:

εβ +X =Y '

( )ααβ 10 =

=

nx

xx

X

1

11

2

1

LL

Planteamiento del modelo.En el ejemplo, para una muestra concretasería:

εβ +X =Y ' ),...,(

0.9810.9510.9911.0111.1511.411.5511.5511.5511.4611.0211.4310.8711.1110.9511.0111.1111.4311.1111.021

),(

90.5685.296.859587.3193.6596.0798.6699.4296.7389.8695.6191.8686.2987.3392.5886.3490.2889.8586.91

202110

'

εεεαα +

=

Estimación de los parámetros.

La función de verosimilitud para los parámetros α0, α1, σ2 , es la siguiente:

Se calculan los valores de α0, α1, que hacen máxima la función de verosimilitud:

e )x--y()(21 =) , , f(Y, i10i

2n

=1i2

1-nn/2

210 2 αα

σπσαα σ ∑

x - y =x - ny= ii

in

=1i0 ααα ˆˆˆ ∑

σ

XCov(Y,

)x-x(

)y-y)(x-x(=α

2xi

2n

1=i

ii

n

1=i1

)=∑

∑

Estimación de los parámetros.

El valor de σ2 que hace máxima la función de verosimilitud es:

El estimador resultante de la varianza o varianza residual es:

∑=∑ 2ie

n1)xα-α-y(

n1=σ i10i

2n

1=i

2

e2-n1=S i

2n

1=iR

2 ∑Los residuos tienen que cumplir dos restricciones que proceden del cálculo de los estimadores de máxima verosimilitud:

0 =ei∑ 0 =x e ii∑

Estimación de los parámetros

Estimación α0 Estimación α1

Estimación σ

Estimación de los parámetros

Gráfico del Modelo Ajustado

%_HCarburos

%_O

xige

no

0.87 1.07 1.27 1.47 1.6785

88

91

94

97

100

%_Oxigeno = 77.8633 + 11.801*%_HCarburos

Simplificación del Modelo

Los contrastes de simplificación del modelo son los siguientes:

1. El modelo no es lineal: H0: α1=0

2. El término independiente es cero: H0: α0=0

Simplificación del ModeloEl modelo no es lineal: H0: α1=0Bajo la hipótesis nula, los estimadores de los

parámetros son:

y =00α 0=ˆ 01α )y -y(n1 =σ i

2n

1=i

20 ∑

( )( ) ( )( )( )( )'X'βYX'βY

'X'βYX'βY'X'βYX'βYF 00 ))

))((

−−−−−−−

=

)x -x +y -y(

)x-x(

)x -x +y -y(

)x -x +y -y()y -y(=F

i11i2

n

=1i

i2

n

=1i12

i11i2

n

=1i

i11i2

n

=1ii

2n

=1i = -

αα

α

αα

αα

ˆˆ

ˆ

ˆˆ

ˆˆ

∑

∑

∑

∑∑

El estadístico (n-2)/1 F sigue una distribución F-snedecor con (1, n-2) grados de libertad

Simplificación del ModeloEl término independiente es 0: H0: α0=0

El estadístico (n-2)/1 F sigue una distribución F-snedecor con (1, n-2) grados de libertad

/

)x -x +y -y(

x)x -x(n=F

i11i2

n

=1i

i2

n

=1ii

2n

=1i0

2

αα

α

ˆˆ

ˆ

∑

∑∑

Simplificación del Modelo

Test α0=0 Test α1=0

Comprobación Hipótesis Básicas de los Residuos

Gráfico de Residuos

88 90 92 94 96 98

%_Oxigeno predicho

-2.4

-1.4

-0.4

0.6

1.6

2.6

Res

iduo

est

uden

tizad

o

Estadístico de Durbin-Watson = 1.91084 (P=0.3683)Autocorrelación residual en Lag 1 = 0.0226275

Este gráfico es muestra laheteroscedasticidad de los residuos. Su variabilidad cambiaal aumentar los valores de la variable dependiente.


Gráfico de Probabilidad Normal

-5 -2 1 4 7 10

RESIDUALS

0.115

2050809599

99.9

porc

enta

je


Tests de Bondad de Ajuste para RESIDUALS

Contraste Chi-cuadrado------------------------------------------------------------------ Límite Límite Frecuencia Frecuencia Inferior Superior Observada Esperada Ch------------------------------------------------------------------ menor o igual -3.3866 5 3.33 -3.3866 -1.50783 2 3.33 -1.50783 -4.4E-7 4 3.33 -4.4E-7 1.50783 2 3.33 1.50783 3.3866 4 3.33 mayor 3.3866 3 3.33 ------------------------------------------------------------------Chi-cuadrado = 2.20003 con 3 g.l. P-Valor = 0.531938

Estadístico DMAS de Kolmogorov = 0.115795Estadístico DMENOS de Kolmogorov = 0.0909808Estadístico DN global de Kolmogorov = 0.115795P-Valor aproximado = 0.951365

Se acepta normalidad

Análisis del Coeficiente de Correlación

El coeficiente de correlación mide la relación lineal existente entre dos variables.

Su valor varía entre -1 y 1.Si ρ=0, no existe relación lineal. Si las variables

son normales, además son independientes.La dependencia entre las variables es

completa cuando ρ=±1

SSX)cov(Y,=

Xyρ


Contrastes de hipótesis sobre el coeficiente de correlación:

1. H0: ρ=0 frente a H1: ρ≠0

Estadístico: tn-2

2. H0: ρ=ρ0 ≠0 frente a H1: ρ≠ρ0

Estadístico: Normal

212

rrnt−

−=

−+

=rrz

11ln

21

( ))1(21

1ln

21 0

0

0

−+

−+

=n

zEρ

ρρ

( )3

1var−

=n

z


Ej.Correlaciones

%_HCarburos %_Oxigeno ------------------------------------------------------------%_HCarburos 0.6238 ( 20) 0.0033

%_Oxigeno 0.6238 ( 20) 0.0033 ------------------------------------------------------------

Validación del modelo

Análisis de la VarianzaTest de Falta de AjusteDetección de Residuos AtípicosDeterminación de Puntos Influyentes

Validación del modelo- Análisis de la Varianza

La hipótesis nula es que el modelo no es válido.

La descomposición de la variabilidad es la siguiente:

( ) ( ) ( )∑∑∑===

−+−=−n

ii

n

iii

n

ii yyyyyy

1

2

1

2

1

2 ˆˆ

Validación del modelo- Test de Falta de Ajuste

Este test comprueba el ajuste de los datos al modelo de regresión lineal.

HH00: La regresi: La regresióón es linealn es lineal

Requisitos:

-Normalidad

-Independencia

-Varianza constante.

Observaciones reales duplicadas.

Ej. %_HCarb =1’02 aparece 2 veces.

Validación del modelo- Test de Falta de Ajuste

.El error residual los separa en 2 grupos:

error puro

error debido a la falta de ajuste( ) ( ) ( )∑ ∑ ∑∑∑∑

= = = ===

−+−=−m

i

m

i

m

i

n

jii

n

jiij

n

jiij

iii

yyyyyy1 1 1 1

2

1

2

1

2 ˆˆ

iy Valor medio de las ni observaciones en xi

Validación del modelo- Detección de Residuos Atípicos

•Valor atípico es una observación extrema.

• No son representativos del resto de datos.

• Método de Stefansky (1971) para detectarlos:

2e

e2i

i ≥∑


• Los residuos atípicos se pueden deber a:

1. Medición incorrecta

2. Análisis incorrecto

3.Registro incorrecto de datos

4.Observación extraordinaria factible

Se eliminan

Permanecen.Puede controlar propiedades clave del modelo



%_HCarburos

%_O

xige

no

0.87 1.07 1.27 1.47 1.6785

88

91

94

97

100

Validación del modelo - Puntos Influyentes

El punto influyente (Outlier) es aquél que tiene influencia sobre los coeficientes de regresión y/o las propiedades del modelo como R2, y los errores estándar de los coeficientes de regresión...

Pto. de balanceo Pto. influyente


Balanceo o Leverage (Apalancamiento)

Mide la influencia de cada observación en la determinación de los coeficientes de regresión.

Se detectan a partir de:

La diagonal de H es una medida de la distancia de la i-ésimaobservación al centro del espacio X. Hay apalancamiento si este valor es mayor que

HyyX'X)X(X'βXy 1 === −

n/h2n

1iii∑

=


DFFITS

Este método estudia la influencia de la eliminación de la i-ésima observación sobre la predicción.

es el valor ajustado de yi sin utilizar la i-ésima observación.

Un punto se analiza si:

1....ni hS

yyDFFITS

ii2(i)

(i)ii =

−=

(i)y

nh2DFFITS iii ∑>


DISTANCIA DE MAHALANOBIS

Distancia no euclídea que considera la correlación entre variables.

D2 (y) = (y – X)S-1 (y – X)`

D es la distancia al cuadrado desde cada punto y al conjunto de variables XS representa la matriz de covarianzas de X. X es el vector que contiene los valores medios de las variables independientes.

Transformación de una variable aleatoriaLos modelos de regresión suponen:

1. Los errores tienen media 0, varianza constante y no están correlacionados.

2. Los errores tienen distribución normal.

3. La forma del modelo es correcta.

Si no se cumple alguna de estas suposiciones se pueden TRANSFORMAR LOS DATOS. La transformación se realiza de forma empírica.

Transformación de una variable aleatoria. Estabilización de la varianza.

Y’= y-1 (recíproca)σ2 ~ E[y]4

Y’= y-1/2 (raíz cuadrdada recíproca)

σ2 ~ E[y]3Y’=ln(y) (logarítmica)σ2 ~ E[y]2

y’=1/sen(y1/2),(proporciones binomiales)

σ2 ~ E[y] [1-E[y]]

y’= y1/2 (Raíz cuadrada, datos de Poisson)

σ2 ~ E[y]

y’=yσ2 ~ Constante

TransformaciónRelación entre σ2 y E[y]

Transformación de una variable aleatoria. Linealización del Modelo

La no linealidad del modelo se detecta:

1.Con el test de falta de ajuste

2.Con el gráfico de dispersión

3.De forma empírica

Transformación de una variable aleatoria. Método Box-Cox.

Se transforma la variable y para corregir la no normalidad y/o la varianza no constante.

Es una transformación de potencia yλ

Se determinan los parámetros de la recta α0, α1y λ por el método de máxima verosimilitud.


Problema cuando λ=0.

Solución realizando el siguiente cambio:

Se ajusta el modelo y(λ)=βX’+ε

( )

=

≠

−

=

∑

∑

=

−

−

=

−

0λ lny,lny(1/n)ln

0λ ,

lny(1/n)lnλ

1y

yn

1ii

1

1λn

1ii

1

λ

λ

Aplicación del Modelo

Predicción de nuevas observaciones

Intervalos de confianza:De la respuesta media E(y)De nuevas predicciones

0100 xααy +=


Intervalos de confianza de la respuesta media, E(y).Se fija un valor de interés x0, y se trata de encontrar int. de confianza de E(y/x0).Estimador de E(y/x0):Su varianza es:

0100 xαα)y/x(E +=

( )xx

202

2

010100

Sxxσ

nσ

))x(xαyvar()xααvar())y/x(var(E

−+=

=−+=+=


Intervalos de confianza de la respuesta media, E(y), para un nivel de confianza 1-αes:

( )

−+±∈ −

xx

202

res

2res

2nα/2,x|y0 SxxS

nStµ)E(y/x

0

Intervalos de Confianza


%_HCarburos

%_O

xige

no

0.87 1.07 1.27 1.47 1.6785

88

91

94

97

100

%_Oxigeno = 77.8633 + 11.801*%_HCarburos


Intervalos de confianza de nuevas prediccionesSi el valor de interés de la variable independiente es x0 entonces , es el valor estimado de y0.

0100 xααy +=

( )xx

202

22

00 Sxxσ

nσσ)y-var(y −

++=


Intervalos de confianza de nuevas prediccionesY por tanto el intervalo de confianza, para un nivel de confianza 1-α, es

( )

−++±∈ −

xx

202

res

2res2

res2nα/2,00 SxxS

nSStyy

RegresiRegresióón n MMúúltipleltiple

El objetivo de la regresiEl objetivo de la regresióón mn múúltiple es ltiple es construir un modelo construir un modelo probabilprobabilíísticostico que que relacione un variable dependiente relacione un variable dependiente YY con con dos o mdos o máás variables matems variables matemááticas ticas independientes independientes xx11, , xx22, ..., ... xxkk,. La ,. La expresiexpresióón de dicho modelo es la n de dicho modelo es la siguiente:siguiente:

Donde:Donde:ββii, es el coeficiente que representa el efecto , es el coeficiente que representa el efecto sobre la variable dependiente al aumentar en sobre la variable dependiente al aumentar en una unidad el valor de la variable una unidad el valor de la variable independiente independiente xxii..εε, representa la perturbaci, representa la perturbacióón aleatoria. n aleatoria.

εββββ +++++= kk xxxY L22110

εε, verifica las siguientes hip, verifica las siguientes hipóótesis:tesis:Su media es 0. Su media es 0. Su varianza es constante, Su varianza es constante, σσ2.2.Las perturbaciones son independientes Las perturbaciones son independientes entre sentre síí..Siguen una distribuciSiguen una distribucióón Normaln Normal..

EstimaciEstimacióón de los parn de los paráámetrosmetros..Aplicando el mAplicando el méétodo de mtodo de míínimos cuadrados, nimos cuadrados, (n(núúmero de observaciones es mero de observaciones es n,)n,) la funcila funcióón a n a minimizar es:minimizar es:

Derivando respecto a Derivando respecto a ββ00, se verifica, si se llama , se verifica, si se llama eeii=y=yii--^y^yii, , la siguiente ecuacila siguiente ecuacióón:n:

Derivando respecto a Derivando respecto a ββi, se verifica:i, se verifica:

( )2`22110 )( kikiii xxxyM ββββ ++++−= ∑ L

∑ = 0ie

kjxe jii L,10 ==∑

El sistema de ecuaciones definido por las El sistema de ecuaciones definido por las expresiones anteriores se puede escribir expresiones anteriores se puede escribir de la siguiente manera:de la siguiente manera:

kikiii xxxny ∑∑∑∑∧∧∧∧

++++= ββββ L22110

ikikiiiiii xxxxxxxy 1`1222

11101 ∑∑∑∑∑∧∧∧∧

++++= ββββ L

M2

`22110 kikkiikiikikii xxxxxxxy ∑∑∑∑∑∧∧∧∧

++++= ββββ L

Las ecuaciones anteriores se pueden Las ecuaciones anteriores se pueden expresar de forma matricial:expresar de forma matricial:

=

∧

∧

∧

kknn

k

k

knkk

n

nknkk

n

xx

xxxx

xxx

xxx

y

yy

xxx

xxx

β

β

β

ML

MMMM

L

L

L

MMMM

L

L

M

L

MMMM

L

L

1

0

1

212

111

21

112112

1

21

11211

1

11111111

De la expresión anterior se puede despejar el valor de los parámetros buscados:

( ) YXXX ´´ 1−∧

−=β

Si la matriz de Si la matriz de covarianzascovarianzas es la siguiente:es la siguiente:

La expresiLa expresióón de cada parn de cada paráámetro metro ββi i con con iide de 1 a1 a k, k, es la siguiente:es la siguiente:

=

kkkk

k

k

xxxxyx

xxxxyx

yxyxyy

sss

ssssss

S

L

MMMM

L

L

1

1111

1

yy

yxi S

Si

−=

∧

β

Donde:Donde:|S|Syxiyxi|| es el determinante del mes el determinante del míínimo nimo complementario correspondiente a los complementario correspondiente a los óórdenes de las variables rdenes de las variables y y yy xxii. . En este En este caso, estos caso, estos óórdenes serrdenes seráán 1 para la n 1 para la variable variable yy e i+1 para la variable e i+1 para la variable xxii..El tEl téérmino independiente serrmino independiente seráá::

∑∧∧

−= ii xy ββ 0

La varianza de la perturbaciLa varianza de la perturbacióón aleatoria, n aleatoria, σσ22. se estima a partir de la varianza . se estima a partir de la varianza residual, estimador mresidual, estimador mááximoximo--verosverosíímil en la mil en la hiphipóótesis de normalidad. El ntesis de normalidad. El núúmero de mero de grados de libertad de los residuos es grados de libertad de los residuos es nn--kk--11, por haber , por haber k+1k+1 restricciones:restricciones:

1

22

−−= ∑

kne

s iR

DescomposiciDescomposicióón de la variabilidadn de la variabilidadLa variabilidad de la respuesta puede La variabilidad de la respuesta puede descomponerse de la siguiente manera:descomponerse de la siguiente manera:

que expresa la variacique expresa la variacióón total n total VTVT como suma de la como suma de la variacivariacióón explicada por el modelo n explicada por el modelo VEVE y la y la residual o no explicada residual o no explicada VNE.VNE.El contraste de regresiEl contraste de regresióón comprobarn comprobaráá que el que el modelo es vmodelo es váálido. La hiplido. La hipóótesis nula sertesis nula seráá la mla máás s sencilla y es que el vector de parsencilla y es que el vector de paráámetros de metros de regresiregresióón sea nulo. n sea nulo.

∑∑ ∑

−+

−=

−

∧−∧− 222

iiii yyyyyy

La tabla ADEVA es la siguiente:La tabla ADEVA es la siguiente:

∑

−

−∧ 2

yyi 2eS

∧ F= 2eS∧

/ 2RS

∧

∑

−

∧ 2

ii yy 2RS

∧

∑

−

− 2

yyi2

yS∧

n-1VT

n-k-1VNE

kVE

Contraste

VarianzaGrados de libertad

Suma de cuadrados

Fuente de variación

CorrelaciCorrelacióón en Regresin en Regresióón Mn MúúltipleltipleCoeficiente de determinaciCoeficiente de determinacióón o de n o de correlacicorrelacióón mn múúltipleltipleEste coeficiente mide la correlaciEste coeficiente mide la correlacióón entre la n entre la variable dependiente y el conjunto de las variable dependiente y el conjunto de las variables independientes:variables independientes:

VTVER =2

Inconvenientes:Inconvenientes:Al aumentar el nAl aumentar el núúmero de variables que mero de variables que intervienen en el modelo, su valor intervienen en el modelo, su valor aumenta, aunque el efecto de esta nueva aumenta, aunque el efecto de esta nueva variable no sea significativo. variable no sea significativo. Es muy sensible a la elecciEs muy sensible a la eleccióón de variable n de variable dependiente. Dos modelos formalmente dependiente. Dos modelos formalmente iguales, pueden tener diferente valor del iguales, pueden tener diferente valor del coeficiente de determinacicoeficiente de determinacióón.n.Se utiliza el coeficiente de determinaciSe utiliza el coeficiente de determinacióón n corregido, corregido,

ydeVarianzaresidualVarianzaR −=

−

12yyy S

SR 2

2 1σ

−=−

Coeficiente de correlaciCoeficiente de correlacióón parcialn parcialDado un conjunto de variables, Dado un conjunto de variables, xx11, , xx22, ..., ... xxkk, el , el coeficiente de correlacicoeficiente de correlacióón parcial entre dos n parcial entre dos cualesquiera de ellas, es una medida de su cualesquiera de ellas, es una medida de su relacirelacióón lineal, cuando se elimina de ambas el n lineal, cuando se elimina de ambas el efecto debido al resto de las variables. efecto debido al resto de las variables. Por ejemplo si se quiere calcular el coeficiente de Por ejemplo si se quiere calcular el coeficiente de correlacicorrelacióón parcial entre n parcial entre xx11 y y xx22, se calcular, se calcularááprimero los primero los hiperplanoshiperplanos de regreside regresióón de n de xx11respecto a respecto a xx33 xx44, ..., ... xxkk y de y de xx22, respecto a , respecto a xx33 xx44, ..., ...xxkk, , , , si llamamos si llamamos ee1.345...k1.345...k y y ee2.345...k2.345...k los residuos de los residuos de los dos ajustes anteriores, el coeficiente de los dos ajustes anteriores, el coeficiente de regresiregresióón parcial sern parcial seráá::

[ ]

2211

21

)()( ..34.2..34.1

..34.2...34.13.12

xxxx

xx

kk

kkk

SS

S

eveveeE

r−

==L

Supongamos que se estSupongamos que se estáán estudiando solamente n estudiando solamente 3 variables 3 variables xx11, x, x22 y xy x33.., se pueden relacionar los , se pueden relacionar los coeficientes de correlacicoeficientes de correlacióón simple y parcial a n simple y parcial a travtravéés de la siguiente expresis de la siguiente expresióón:n:

Donde Donde rrijij es el coeficiente de correlacies el coeficiente de correlacióón simple n simple entre las variables entre las variables xxii, , xxjj..

( )( )223

213

231321333.12

11 rr

rrrrr

−−

−=

modelos de regresiÓnocw.upm.es/pluginfile.php/1284/mod_label/intro/mod_lineal_3.pdf ·...

Documents