módulo 1. regresión lineal simple (2)
Post on 12-Apr-2016
62 Views
Preview:
DESCRIPTION
TRANSCRIPT
MÉTODOS ESTADÍSTICOS I – ESTADÍSTICA MATEMÁTICA II Módulo 1. Regresión Lineal Simple
Diana Marcela Pérez Valencia Departamento de Ingeniería Industrial Facultad de Ingeniería Universidad de Antioquia Marzo de 2015
MODELO DE REGRESIÓN LINEAL SIMPLE -------------------------------------------------------------------
2
Modelo de regresión lineal simple
• OBJETIVO: Determinar si existe alguna relación entre dos variables. A partir de esta relación
se desea poder predecir los valores de una variable a partir de los valores de otra variable
• Específicamente el modelo de regresión lineal simple nos permite construir un modelo para
explicar la relación entre dos variables:
— Y : Variable dependiente o de respuesta
— X : Variable independiente o explicativa
3
Modelo de regresión lineal simple
Las relaciones entre dos variables pueden ser de dos tipos:
1. Funcionales o determinísticas. Existe una ecuación matemática que permite calcular los
valores de una de las variables a partir de los valores que toma la otra.
2. Probabilísticas. No existe una expresión matemática que las relacione de forma exacta. La
relación es estadística (implica aleatoriedad) y no funcional.
4
Diagramas de dispersión y curvas de regresión
• Antes de comenzar con cualquier análisis es necesario representar los datos de manera
gráfica.
• Los gráficos nos pueden ayudar a identificar el tipo de modelo que estamos buscando, o
también ayudan a identificar posibles observaciones que puedan estar influenciando los
análisis
5
Diagramas de dispersión y curvas de regresión
1 2 3 4 5
12
34
5
x
y
1 2 3 4 5
-5-4
-3-2
-1
x
y0.5 1.0 1.5 2.0 2.5
6065
7075
80
x
y
-2.5 -2.0 -1.5 -1.0 -0.5
6065
7075
80x
y
0.5 1.0 1.5 2.0 2.5
6065
7075
80
x
y
6
Propósitos del análisis de regresión
• Descripción de los datos
• Estimación de parámetros
• Predicción y estimación
• Control
7
Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) y las cabezas de
lechones en precebo (x).
1. ¿Por qué sería interesante estudiar esta relación?
2. Grafique la relación entre las dos variables. ¿Cómo es su relación? ¿Qué valor esperaría que
tomara la correlación?
3. ¿Qué valor toma la correlación entre estas dos variables?
8
Ejemplo
# Gráfico de x en función de y
plot(L.prece,C.levante,pch=16)
# Correlación entre x y y
cor(L.prece,C.levante)
[1] 0.9120758
9
Modelo de regresión lineal simple
• Recta que mejor se ajusta a la nube de puntos.
• De manera formal el modelo queda representado por
𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝑒𝑖
Donde,
Yi: Valor de la variable respuesta en el i-ésimo ensayo
β0, β1: Parámetros
Xi: Constante conocida. Valor de la variable predictora en el i-ésimo ensayo
ei: Término del error aleatorio (ei~Normal(0,σ2) iid)
10
Modelo de regresión lineal simple
• Simple. Hay sólo una variable independiente, explicativa o predictora
• Lineal
— Lineal en los parámetros: Ningún parámetro aparece como exponente o está
multiplicado o dividido por otro parámetro
— Lineal en la variable predictora: Aparece sólo en la primera potencia
11
Modelo de regresión lineal simple
Yi es la suma de dos componentes:
1. β0+ β1Xi : término constante
2. ei: Término aleatorio
Así que,
𝐸 𝑌𝑖 = 𝐸 𝛽0 + 𝛽1𝑋𝑖 + 𝑒𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝐸 𝑒𝑖 = 𝛽0 + 𝛽1𝑋𝑖
𝑉𝑎𝑟 𝑌𝑖 = 𝑉𝑎𝑟 𝛽0 + 𝛽1𝑋𝑖 + 𝑒𝑖 = 𝑉𝑎𝑟 𝑒𝑖 = 𝜎2
Entonces Yi~Normal(β0+ β1Xi,σ2)
De esta forma, la recta de regresión estimada sería,
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖
12
Para cada observación (xi,yi) el error o
residuo de estimación, ei, se define como la
distancia vertical entre el punto (xi,yi) y la
recta, es decir:
iii YYe ˆ
Modelo de regresión lineal simple
13
Significado de los parámetros de la regresión (β0,β1)
1. β1: Es la pendiente e indica el
cambio en la media de Y por
unidad de incremento en X
2. β0: Es el intercepto. Cuando
X=0, β0 representa el valor
promedio de Y. Muchas veces
si X=0, β0 no tiene significado
14
Estimación de los parámetros de la regresión
• Para determinar los parámetros β0 y β1 del modelo de regresión, usaremos el método de los
mínimos cuadrados , el cual consiste en minimizar
• Los estimadores de β0 y β1 , serían , se hallan como
n
iii
n
iii XYYYQ
1
2
10
1
2
ˆˆˆ
10 ˆˆ y
i
n
iii
n
iii
n
iii
n
iii
XXYXY
XYXY
1
10
1
2
10
1
1
10
1
2
10
0
2
2
ˆˆˆˆˆ
ˆˆˆˆˆ
15
Estimación de los parámetros de la regresión
• Igualando a cero obtenemos el “sistema de ecuaciones normales”
• De donde las soluciones vienen dadas por:
0
0
1
10
1
10
i
n
iii
n
iii
XXY
XY
ˆˆ
ˆˆ
Nota. son estimadores
insesgados y de mínima varianza
n
ii
n
iii
XX
YYXX
yXY
1
2
1110 ˆˆˆ 10 ˆ y ˆ
16
Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) y las cabezas
de lechones en precebo (x).
1. Corra un modelo de regresión lineal de “y” en función de “x”. Escriba el modelo e
interprete los parámetros.
2. ¿Este modelo es igual si corre modelo de regresión lineal de “x” en función de “y”?
3. Grafique el ajuste de los dos modelos.
17
Ejemplo
# Modelo de C.levante en función de L.prece
model1 <- lm(C.levante ~ L.prece)
# Para sacar los estimadores del modelo
model1
Call:
lm(formula = C.levante ~ L.prece)
Coefficients:
(Intercept) L.prece
-82.769 2.079
# Modelo de L.prece en función de C.levante
model2 <- lm(L.prece ~ C.levante)
# Para sacar los estimadores del modelo
model2
Call:
lm(formula = L.prece ~ C.levante)
Coefficients:
(Intercept) C.levante
867.3288 0.4001
18
Ejemplo
par(mfrow=c(2,1))
# Gráfico del ajuste del model1
plot(L.prece,C.levante,pch=16)
abline(model1,col=2)
# Gráfico del ajuste del model2
plot(C.levante,L.prece,pch=16)
abline(model2,col=2)
19
Propiedades de la recta de regresión ajustada
1. La suma de residuales es cero,
2. es mínima
3. La suma de los valores observados es igual a la suma de valores ajustados o esperados,
4. La línea de regresión siempre pasa por el punto
n
iie
1
0
n
i
n
iii yy
1 1
ˆ
YX ,
20
Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) y las cabezas
de lechones en precebo (x).
1. Verifique las propiedades de la recta de regresión
21
Ejemplo
# Verificación de las propiedades de la recta de regresión del model1
# 1. suma(e_i)=0
sum(model1$res)
[1] 3.4035e-12
# 2. suma(e_i^2) es mínima.
# Esta propiedad se asume dado el método
# de estimación de parámetros
# 3. suma(y_i)=suma(y_i gorro)
sum(C.levante)
[1] 225157.7
sum(model1$fit)
[1] 225157.7
# 4. la recta pasa por (Xbar,Ybar)
plot(L.prece,C.levante,pch=16)
abline(model1,col=2)
abline(h=mean(C.levante),v=mean(L.prece),lty=2) 22
Estimación de la varianza del término del error (σ2)
• Se necesita estimar la varianza de los términos del error en el modelo de regresión para
obtener un indicador de la variabilidad de Y.
Sea
• Note que la suma de cuadrados de Y es la desviación de una observación Yi de su media .
Al dividir esta cantidad por n-1 se obtiene la varianza muestral de Y
• Donde n-1 son los grados de libertad (sólo se debe estimar un parámetro)
Y las de cuadrados de Suma:1
2
n
ii YY
Y
11
2
2
n
YY
S
n
ii
23
Estimación de la varianza del término del error (σ2)
• En el modelo de regresión lineal simple tenemos que
• Así que denotemos la suma de cuadrados del error SSE como
• La SSE tiene n-2 grados de libertad asociados, pues se deben estimar β0 y β1
• Al dividir la SSE por los grados de libertad, obtenemos los cuadrados medios del error
• De donde MSE es un estimador insesgado de σ2, es decir,
n
ii
n
ii YYeSSE
1
2
1
2 ˆ
2
ˆ
21
2
n
YY
n
SSEMSE
n
ii
iii YYe ˆ
2)( σMSEE 24
Inferencias en el análisis de regresión. Inferencias sobre β1
• Se desea verificar la hipótesis
• Si no se rechaza H0, entonces no hay asociación lineal entre X y Y, más aún, implica que no existe
ningún tipo de asociación entre X y Y.
• Para el modelo de regresión que asume normalidad en los errores,
• Al estandarizar a queda que,
00 110 :.: aHvsH
n
iii XX
MSESNormal
2
2
111
ˆ,~ˆ
12
11
1
nt
St ~
ˆ
25
Inferencias en el análisis de regresión. Inferencia s sobre β1
• De este modo un IC al (1-α)% para β1 es:
• De igual modo se puede construir una prueba de hipótesis para β1 donde el estadístico de
prueba es:
1
1
ˆ
ˆ*
St
12211 ˆ,/
ˆ St n
26
Inferencias en el análisis de regresión. Inferencias sobre β0
En este caso,
Y se procede de la misma forma que con β1
Sin embargo, no tiene mucho sentido hacer inferencias sobre β0 pues en la mayoría de las ocasiones
este parámetro no tiene interpretación
n
iii XX
X
nMSESNormal
2
22
00
1
0 ˆ,~ˆ
27
Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) y las cabezas
de lechones en precebo (x).
1. Escriba el modelo e interprete los parámetros
2. ¿Los parámetros de este modelo son significativos?
3. Calcule IC para β1 e interprételos
28
Ejemplo
# Resumen estadístico del modelo: Estimación de parámetros e inferencias sobre ellos
summary(model1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -82.769 1407.597 -0.059 0.954
L.prece 2.079 0.209 9.948 3.45e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4464 on 20 degrees of freedom
Multiple R-squared: 0.8319, Adjusted R-squared: 0.8235
F-statistic: 98.96 on 1 and 20 DF, p-value: 3.453e-09
29
Ejemplo
# IC al (1-alpha)% para beta1
n<-length(C.levante) # Tamaño de muestra
alpha<-0.05 # Nivel de significancia
beta1<- summary(model1)$coefficients[2,1]
sd.beta1<- summary(model1)$coefficients[2,2]
# Límite inferior del IC
LI.beta1<-beta1-qt(1-(alpha/2),n-2)*sd.beta1
LI.beta1
[1] 1.643232
# Límite superior del IC
LS.beta1<-beta1+qt(1-(alpha/2),n-2)*sd.beta1
LS.beta1
[1] 2.515191
30
Análisis de varianza (ANOVA)
El análisis de varianza se basa en la partición de la suma de cuadrados y grados de libertad asociados con
la variable respuesta Y
YYi ii YY ˆ YYi ˆ
Variación de las Y sin tener en cuenta
X. Desviación total.
Suma de cuadrados totales
Variación de las Y alrededor de la
línea de regresión.
Suma de cuadrados del error
Variación de las predicciones alrededor de
su valor medio.
Suma de cuadrados de la regresión
n
ii YYSSTO
1
2
n
iii YYSSE
1
2ˆ
n
ii YYSSR
1
2ˆ
31
Análisis de varianza (ANOVA). Sobre los grados de libertad (gl ó df)
• Los grados de libertad son un estimador del número de categorías independientes en una
prueba particular o experimento estadístico.
• Se calculan mediante la fórmula n − r, donde
— n=número de sujetos en la muestra (también pueden ser representados por k − r,
donde k=número de grupos, cuando se realizan operaciones con grupos y no con sujetos
individuales)
— r es el número de sujetos o grupos estadísticamente dependientes
• Los grados de libertad asociados con la SSTO son n-1 (asociados con )
• Los grados de libertad asociados con la SSE son n-2 (asociados con )
• La SSE tiene 1 gl asociado
Y
10 ˆˆ y
32
Análisis de varianza (ANOVA). Cuadrados medios
Se obtienen al dividir por los grados de libertad
Recuerde que los cuadrados medios del error son una estimación de 2 !!
Nota. Las sumas de cuadrados no son aditivas
regresión la de medios Cuadrados : 1
SSRSSR
MSR
error del medios Cuadrados : 2
n
SSEMSE
33
Prueba general del modelo. Prueba de bondad de ajuste
Sean:
• El modelo completo o “Full”
• El modelo reducido
Entonces,
• 00
• 00
Y se desea probar
Es decir, se desea verificar si el modelo es
significativo.
El estadístico de prueba será
Así, si , se rechaza H0
iii eXY 10
ii eY 0
SSEXYSSEn
iiiF
1
2
10 ˆˆ
SSTOYYYSSEn
ii
n
iiR
1
2
1
2
0
00 110 :.: aHvsH
MSE
MSRF *
FFR glglglαFF ;;1*
34
Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) y las cabezas
de lechones en precebo (x).
1. Calcule la tabla ANOVA para este modelo e interprétela
35
Ejemplo
# Para ver el ANOVA del modelo
anova(model1)
Analysis of Variance Table
Response: C.levante
Df Sum Sq Mean Sq F value Pr(>F)
L.prece 1 1971987713 1971987713 98.964 3.453e-09 ***
Residuals 20 398525242 19926262
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
36
Medidas descriptivas de asociación entre X & Y. Coeficiente de determinación R2
El R2 Mide el porcentaje de variación total de Y que está siendo explicada por X
10,
ˆ
2
1
2
1
2
2
RSSTO
SSR
YY
YY
Rn
i
i
n
i
i
37
Medidas descriptivas de asociación entre X & Y. Coeficiente de correlación
Mide el grado de asociación lineal entre X y Y
El signo de R depende de si 1 es positiva o negativa.
Notas.
i. Un R alto indica que la regresión lineal es un buen ajuste
ii. Un coeficiente de correlación cercano a cero indica que X y Y no están relacionadas
iii. R2 y R sólo miden el grado de asociación lineal entre X y Y
11,2 RRR
38
Medidas descriptivas de asociación entre X & Y. Coeficiente de correlación
0 10 20 30 40 50
05
00
10
00
15
00
20
00
25
00
x
y2
R=0.9522097
0 10 20 30 40 50
01
02
03
04
05
0
x
y
R=1
39
Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) y las cabezas
de lechones en precebo (x).
1. Calcule el R2 con base en el summary del modelo.
2. Calcule el R2 con base en el ANOVA del modelo.
3. Interprete el R2
40
Respuesta media e intervalos de confianza para la respuesta media
• La respuesta media cuando X=Xh, se denota por y se calcula de la siguiente forma
• Un IC al 100(1-α)% para es
• Donde
hYnαh stY ˆ2;2/1ˆ
hY
hY
hh XY 10 ˆˆˆ
2
22
)(
)(1ˆ XX
XX
nMSEs
h
h
hY
41
Predicción de una nueva observación e intervalos de predicción
• Se dice que se predice una nueva observación en Y cuando es vista como el resultado de un
nuevo ensayo, independiente de los ensayos en los que se basó el análisis de regresión.
• La predicción de una nueva observación cuando X=Xh, se denota por y se calcula como
• Un Intervalo de Predicción al 100(1-α)% para es
Yαnewh szY 2/1)(
ˆ
)(ˆ
newhY
)(ˆ
newhY
hnewh XY 10 ˆˆˆ)(
42
Diferencia entre la respuesta media y la predicción de una nueva observación
• Para estimamos la media de la distribución de Y.
• Para predecimos un resultado individual tomado de la distribución de Y. )(ˆ
newhY
hY
43
Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) y las cabezas
de lechones en precebo (x).
1. Calcule valores para la respuesta media con sus respectivos IC del 95%, grafíquelos e
interprételos.
2. Haga predicciones de nuevas observaciones y calcule sus respectivos intervalos de
predicción al 95%. Grafique e interprete
3. Qué diferencia hay entre los dos intervalos de los puntos (3) y (4)
44
Ejemplo
plot(L.prece,C.levante,pch=16)
abline(model1,col=2)
# Respuesta media e IC para la respuesta media
int.conf<-predict(model1,interval='confidence')
points(L.prece,int.conf[,2],col=3,pch=16) # IC inferior
points(L.prece,int.conf[,3],col=3,pch=16) # IC superior
# Predicción de observaciones individuales e Intervalos de predicción
int.pred<-predict(model1,interval='prediction')
points(L.prece,int.pred[,2],col=4,pch=16) # IP inferior
points(L.prece,int.pred[,3],col=4,pch=16) # IP superior
legend('topleft',c('Y',expression(hat(Y)),'IC del 95%','IP del
95%'),col=1:4,bty='n',cex=0.8,pch=16)
# Para predecir en puntos específicos donde el modelo no fue evaluado
new <- data.frame(L.prece = c(600,22000))
cbind(new,predict(model1, new, interval='prediction'))
L.prece fit lwr upr
1 600 1164.758 -8544.097 10873.61
2 22000 45659.880 33584.159 57735.60
45
Ejemplo
46
EL MODELO DE REGRESIÓN LINEAL SIMPLE ESTANDARIZADO -------------------------------------------------------------------
47
El modelo de regresión lineal simple estandarizado
• La forma estandarizada se usa para permitir comparaciones de los coeficientes de regresión
estimados en unidades comunes.
• Recordemos que estandarizar una variable, implica centrar y escalar la variable.
• Centrar implica tomar la diferencia entre cada observación y la media de todas las
observaciones para la variable, de tal forma que la media de la nueva variable sea 0.
• Escalar implica expresar las observaciones centradas en unidades de desviaciones estándar de
la variable, de tal forma que la desviación estándar de la nueva variable sea 1.
• Las estandarizaciones usuales de la variable respuesta Y y las variables predictoras X1,…,Xp son
),...,1(';' pk
s
XXX
s
YYY
kX
kik
Y
i
48
El modelo de regresión lineal simple estandarizado
• El modelo de regresión estandarizado queda:
• ¿Por qué cree que este modelo se presenta sin intercepto?
• Finalmente, β’1 medirá el tamaño del impacto o efecto que tiene X1 en Y en unidades de
desviaciones estándar (su utilidad se verá mejor representada en el modelo de regresión lineal
múltiple)
• Ojo!!! La estandarización sólo aplica para variables de tipo cuantitativo
iii eXY '''' 11
49
Ejemplo. Corra los modelos de regresión lineal simple estandarizados de las cabezas de cerdos en
levante (y) y las cabezas de lechones en precebo (x) y viceversa:
1. Verifique que la media y la varianza de las dos variables estandarizadas son 0 y 1,
respectivamente.
2. ¿Será que la correlación entre las variables estandarizadas y sin estandarizar son iguales?
3. Haga un paralelo de los modelos estandarizados y sin estandarizar. Compare también las
correlaciones y los R2 de la regresión
Nota: Para estandarizar una variable en R use la función scale()
50
Ejemplo
# Media y desviación estándar de las variables estandarizadas
C.levante.std<-scale(C.levante)
L.prece.std<-scale(L.prece)
mean(C.levante.std)
[1] 7.445019e-17
mean(L.prece.std)
[1] -1.071882e-17
sd(C.levante.std)
[1] 1
sd(L.prece.std)
[1] 1
# Correlación entre las variables estandarizadas y sin estandarizar
cor(C.levante,L.prece)
[1] 0.9120758
cor(C.levante.std,L.prece.std)
[,1]
[1,] 0.9120758
51
Ejemplo # Modelos C.levante vs L.prece
model1<-lm(C.levante~L.prece)
summary(model1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -82.769 1407.597 -0.059 0.954
L.prece 2.079 0.209 9.948 3.45e-09 ***
---
Residual standard error: 4464 on 20 degrees of freedom
Multiple R-squared: 0.8319, Adjusted R-squared: 0.8235
F-statistic: 98.96 on 1 and 20 DF, p-value: 3.453e-09
model1.1<-lm(C.levante.std~L.prece.std)
summary(model1.1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.908e-17 8.958e-02 0.000 1
L.prece.std 9.121e-01 9.168e-02 9.948 3.45e-09 ***
---
Residual standard error: 0.4201 on 20 degrees of freedom
Multiple R-squared: 0.8319, Adjusted R-squared: 0.8235
F-statistic: 98.96 on 1 and 20 DF, p-value: 3.453e-09
52
Ejemplo # Modelos L.prece vs C.levante
model2<-lm(L.prece~C.levante)
summary(model1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -82.769 1407.597 -0.059 0.954
L.prece 2.079 0.209 9.948 3.45e-09 ***
---
Residual standard error: 4464 on 20 degrees of freedom
Multiple R-squared: 0.8319, Adjusted R-squared: 0.8235
F-statistic: 98.96 on 1 and 20 DF, p-value: 3.453e-09
model2.1<-lm(L.prece.std~C.levante.std)
summary(model2.1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -5.424e-17 8.958e-02 0.000 1
C.levante.std 9.121e-01 9.168e-02 9.948 3.45e-09 ***
---
Residual standard error: 0.4201 on 20 degrees of freedom
Multiple R-squared: 0.8319, Adjusted R-squared: 0.8235
F-statistic: 98.96 on 1 and 20 DF, p-value: 3.453e-09 53
EL MODELO DE REGRESIÓN LINEAL SIMPLE CON VARIABLE INDEPENDIENTE CUALITATIVA -------------------------------------------------------------------
54
¿Cómo quedaría planteado el modelo si la variable independiente fuera categórica?
• El modelo de regresión lineal múltiple anteriormente expuesto, puede contener también
variables predictoras de tipo cualitativo, como la región a la cual pertenece el departamento, el
IDH, el Tamaño del departamento, entre otras.
• Se usan variables indicadoras (o dummies) que toman el valor de 0 y 1 para identificar las
categorías de la variable cualitativa
55
Modelo de regresión lineal simple. Variable predictora cualitativa con dos categorías
• Considere un análisis de regresión para predecir las cabezas de cerdos en levante (y) en función
del tamaño del departamento – Tamaño.pob (x)
• Definamos X como sigue
𝑋 = 1 𝑠𝑖 𝑇𝑎𝑚𝑎ñ𝑜. 𝑝𝑜𝑏 = 𝑃𝑒𝑞𝑢𝑒ñ𝑜0 𝑠𝑖 𝑇𝑎𝑚𝑎ñ𝑜. 𝑝𝑜𝑏 = 𝐺𝑟𝑎𝑛𝑑𝑒
• El modelo de regresión sería entonces 𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝑒𝑖
• Para departamentos donde 𝑇𝑎𝑚𝑎ñ𝑜. 𝑝𝑜𝑏 = 𝐺𝑟𝑎𝑛𝑑𝑒, Xi=0, y 𝐸 𝑌𝑖 = 𝑌 𝑖 = 𝛽0 = 𝜇𝐺𝑟𝑎𝑛𝑑𝑒
• Para departamentos donde 𝑇𝑎𝑚𝑎ñ𝑜. 𝑝𝑜𝑏 = 𝑃𝑒𝑞𝑢𝑒ñ𝑜, Xi=1, y 𝐸 𝑌𝑖 = 𝑌 𝑖 = 𝛽0 + 𝛽1 = 𝜇𝑃𝑒𝑞𝑢𝑒ñ𝑜
• Note que estas dos funciones respuesta representan el nivel promedio de la categoría i-ésima de
la variable “Tamaño.pob” y β1 mide el efecto diferencial entre las dos categorías.
56
Ejemplo. Considere un análisis de regresión para predecir las cabezas de cerdos en levante (y) en
función del tamaño del departamento – Tamaño.pob (x) .
i. Grafique la relación cabezas de cerdos en levante vs. tamaño del departamento –
Tamaño.pob. ¿Cuál es el gráfico adecuado en este caso?
ii. Corra el modelo de regresión asociado con estas dos variables. Interprete los coeficientes de
la regresión y evalúe si estos son significativos o no. Plantee hipótesis adecuadas para este
caso
iii. Calcule el número promedio de cabezas de cerdos en levante según el tamaño del
departamento – Tamaño.pob. Encuentre la relación entre las medias y el modelo de
regresión calculado.
iv. Interprete el ANOVA y el R2
v. Haga la validación de este modelo.
57
Ejemplo
# Para hacer un boxplot de y en función de x
boxplot(C.levante~Tamaño.pob,ylab='Cerdos en Levante')
58
Ejemplo
# Modelo de regresión y ANOVA
model2<-lm(C.levante~Tamaño.pob)
summary(model2)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9373 2790 3.359 0.00312 **
Tamaño.pobPequeño 2708 4946 0.548 0.59005
---
Residual standard error: 10810 on 20 degrees of freedom
Multiple R-squared: 0.01477, Adjusted R-squared: -0.03449
F-statistic: 0.2998 on 1 and 20 DF, p-value: 0.5901
anova(model2)
Df Sum Sq Mean Sq F value Pr(>F)
Tamaño.pob 1 35011740 35011740 0.2998 0.5901
Residuals 20 2335501215 116775061
# Calculando la media por grupos
by(C.levante,Tamaño.pob,mean)
Tamaño.pob: Grande
[1] 9372.657
-----------------------------------------------------------------------------------------------
Tamaño.pob: Pequeño
[1] 12081.12 59
Modelo de regresión lineal simple. Variable predictora cualitativa con más de dos categorías
En general, representamos una variable cualitativa con c categorías por medio de c-1 variables
indicadoras (o dummies)
60
Modelo de regresión lineal simple. Variable predictora cualitativa con más de dos categorías
Ejemplo. Considere un análisis de regresión para predecir las cabezas de cerdos en levante (y) en función de la
región del departamento (x con tres niveles: Andina, Caribe, Orinoquía)
• Grafique la relación entre estas dos variables. ¿Cuál es el gráfico adecuado en este caso?
• ¿Cuántas variables dummies debería definir? Defínalas
• ¿Cómo quedaría planteado el modelo de regresión?
• ¿Cómo quedaría escrito el modelo para cada una de las regiones?
• Interprete los coeficientes de la regresión y evalúe si estos son significativos o no. Plantee hipótesis
adecuadas para este caso
• Interprete el ANOVA y el R2
• Haga la validación de este modelo
Note que estas funciones respuesta representan el nivel promedio de la categoría i-ésima de la variable región y
β1, β2,… miden los efectos diferenciales entre las categorías de los niveles de región, siempre comparado con la
categoría para la cual X1=X2=…=Xc-1=0 61
Ejemplo
# Para hacer un boxplot de y en función de x
boxplot(C.levante~Región,ylab='Cerdos en levante')
62
Ejemplo
# Calculando la media por grupos
by(C.levante,Región,mean)
Región: Andina
[1] 10015.27
-----------------------------------------------------------------
Región: Caribe
[1] 10756.34
-----------------------------------------------------------------
Región: Orinoquía
[1] 9832.425
63
Ejemplo
# Para correr un modelo de regresión lineal simple
model3<-lm(C.levante~Región)
summary(model3)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 10015.3 3096.1 3.235 0.00436 **
RegiónCaribe 741.1 5233.3 0.142 0.88888
RegiónOrinoquía -182.8 8478.9 -0.022 0.98302
---
Residual standard error: 11160 on 19 degrees of freedom
Multiple R-squared: 0.001204, Adjusted R-squared: -0.1039
F-statistic: 0.01145 on 2 and 19 DF, p-value: 0.9886
anova(model3)
Df Sum Sq Mean Sq F value Pr(>F)
Región 2 2854355 1427178 0.0115 0.9886
Residuals 19 2367658600 124613611
64
EL MODELO DE REGRESIÓN POLINÓMICO -------------------------------------------------------------------
65
Modelo de regresión polinómico
• El modelo de regresión es un modelo general para ajustar cualquier relación
que es lineal.
• En el caso en el que la anterior afirmación no se cumple (la relación entre X y Y es no lineal), es
necesario considerar un modelo polinomial como el siguiente
• Esta clase de modelos tiene la propiedad de jerarquía. Es decir, deben contener todos los
términos de orden k o inferior.
• Ojo!!!... Este tipo de modelos no se consideran cuando la variable independiente es
cualitativa
ik
k eXXXY ...2
210
ieXY 10
66
Modelo de regresión polinómico
• Específicamente si consideramos el modelo
• Estaremos hablando del modelo de segundo orden o del modelo cuadrático
• Donde
– β1 representa el efecto lineal de X sobre Y
– β2 representa el cuadrático de X sobre Y
ieXXY 2
210
67
Modelo de regresión polinómico
Ejemplo. Considere un análisis de regresión para predecir las cabezas de cerdos en levante (y) en función de las
hembras vacías (x)
• Grafique la relación entre estas dos variables. Verifique si la relación entre las dos variables es lineal
• ¿Qué modelos de regresión plantearía?
• ¿Cómo quedarían escritos estos modelos?
• Evalúe si los coeficientes de los modelos son significativos. Plantee hipótesis adecuadas para este caso
• Interprete el ANOVA y el R2
68
Ejemplo
# Función de regresión no lineal
# Modelo lineal simple
model1<-lm(C.levante~H.vacías)
summary(model1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1918.3545 2954.4416 -0.649 0.524
H.vacías 4.7361 0.9749 4.858 9.53e-05 ***
---
Residual standard error: 7373 on 20 degrees of freedom
Multiple R-squared: 0.5413, Adjusted R-squared: 0.5184
F-statistic: 23.6 on 1 and 20 DF, p-value: 9.529e-05
69
Ejemplo
# Modelo polinómico de 2do orden (modelo cuadrático)
model2<-lm(C.levante~H.vacías+I(H.vacías^2))
summary(model2)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 5.324e+03 3.761e+03 1.416 0.1731
H.vacías -2.208e+00 2.752e+00 -0.802 0.4322
I(H.vacías^2) 1.151e-03 4.338e-04 2.654 0.0157 *
---
Residual standard error: 6461 on 19 degrees of freedom
Multiple R-squared: 0.6654, Adjusted R-squared: 0.6302
F-statistic: 18.89 on 2 and 19 DF, p-value: 3.041e-05
70
Ejemplo
# Modelo polinómico de 3er orden (modelo cúbico)
model3<-lm(C.levante~H.vacías+I(H.vacías^2)+I(H.vacías^3))
summary(model3)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -8.092e+02 4.202e+03 -0.193 0.8494
H.vacías 9.891e+00 5.561e+00 1.779 0.0922 .
I(H.vacías^2) -3.784e-03 2.072e-03 -1.826 0.0844 .
I(H.vacías^3) 5.203e-07 2.146e-07 2.425 0.0261 *
---
Residual standard error: 5763 on 18 degrees of freedom
Multiple R-squared: 0.7478, Adjusted R-squared: 0.7057
F-statistic: 17.79 on 3 and 18 DF, p-value: 1.279e-05
71
Ejemplo
# Relación no lineal gráficamente
plot(H.vacías,C.levante,pch=16)
points(H.vacías,model1$fit,pch=16,col=2)
points(H.vacías,model2$fit,pch=16,col=3)
points(H.vacías,model3$fit,pch=16,col=4)
legend('topleft',c('Modelo lineal','Modelo cuadrático','Modelo
cúbico'),col=2:4,pch=16,bty='n',cex=0.8)
72
Ejemplo
73
DIAGNÓSTICO Y MEDIDAS REMEDIALES (VALIDACIÓN DEL MODELO) -------------------------------------------------------------------
74
Diagnóstico y medidas remediales
• Objetivo. Probar la validez del modelo en función del cumplimiento de los supuestos
• Supuestos del modelo. Puesto que los valores de las observaciones en la variable respuesta
están en función de la variable predictora, entonces los diagnósticos del modelo se realizan a
través de los residuales, los cuales deben cumplir:
1. Los residuales son estadísticamente independientes
2. ei ~ Normal(0,σ2)
3. σ2 es constante
75
Diagnóstico y medidas remediales
A través del diagnóstico del modelo, también se pueden verificar los siguientes aspectos:
• La función de regresión no es lineal
• Influencia de datos atípicos o outliers en el modelo
76
77
Diagnóstico Hipótesis
H0: Corr(εi, εj )= 0
∀ i≠j
vs.
Ha: Corr(εi , εj ) ≠ 0
para algún i,j con i≠j
Pruebas analíticas
Durbin-Watson
Breusch-Godfrey
Pruebas gráficas
Residuales vs. secuencia
acf / pacf
Medida Remedial
SI
H0 S
E R
EC
HA
ZA
No lo vemos en este curso!!
Modelar la estructura de
correlación de los errores
Diagnóstico y medidas remediales. Independencia de los términos del error
NOTA: Validar este supuesto tiene sentido si los datos presentan alguna secuencia lógica (por lo general temporal)
Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) en función de
los lechones en precebo (x).
1. Verifique el supuesto de independencia de los términos del error
78
Ejemplo
# Para hacer la validación cargue estas librerías
install.packages(c('lmtest','car','nortest','tseries'))
require(lmtest)
require(car)
require(nortest)
require(tseries)
# Independencia de los términos del error
# Pruebas gráficas de independencia
par(mfrow=c(1,3))
plot(model1$res,pch=16,type='o')
abline(h=0,col=2)
acf(model1$res,ylim=c(-1,1))
pacf(model1$res,ylim=c(-1,1))
79
Ejemplo
80
Ejemplo
# Pruebas analíticas de independencia
dwtest(model1,alternative="two.sided")
Durbin-Watson test
data: model1
DW = 2.2464, p-value = 0.61
alternative hypothesis: true autocorrelation is not 0
bgtest(model1)
Breusch-Godfrey test for serial correlation of order up to 1
data: model1
LM test = 0.5445, df = 1, p-value = 0.4606
81
82
Diagnóstico Hipótesis
H0: ei ~ Normal
vs.
Ha: ei ~ f(e)
Pruebas analíticas
Shapiro Wilk
Anderson-Darling
Jarque-Bera
Pruebas gráficas
Histograma de residuales
Boxplot de residuales
QQ-plot de residuales
Medida Remedial
SI
H0 S
E R
EC
HA
ZA
Transformar la variable respuesta Y. Se sugiere verificar este
supuesto desde el comienzo de la
modelación
Diagnóstico y medidas remediales. Normalidad de los términos del error
Sacar puntos influenciales del
modelo
Familia de transformaciones de potencia de Box-Cox
Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) en función de
los lechones en precebo (x).
1. Verifique el supuesto de normalidad de los términos del error
2. ¿Necesita alguna transformación sobre la variable respuesta?
3. Verifique normalidad sobre la variable respuesta transformada. ¿Logró mejorar su
distribución?
83
Ejemplo
# Normalidad de los términos del error
# Pruebas analíticas de normalidad
shapiro.test(model1$res)
Shapiro-Wilk normality test
data: model1$res
W = 0.9678, p-value = 0.6592
jarque.bera.test(model1$res)
Jarque Bera Test
data: model1$res
X-squared = 0.5424, df = 2, p-value = 0.7625
ad.test(model1$res)
Anderson-Darling normality test
data: model1$res
A = 0.2187, p-value = 0.8152
cvm.test(model1$res)
Cramer-von Mises normality test
data: model1$res
W = 0.0298, p-value = 0.8416
84
Ejemplo
# Pruebas gráficas de normalidad
par(mfrow=c(1,3))
hist(model1$res)
boxplot(model1$res)
qqPlot(model1$res,pch=16)
85
Transformaciones de Potencia
• Si no se cumple el supuesto de normalidad o de homogeneidad de varianza, una alternativa
es considerar transformaciones de los datos.
• Las transformaciones no son más que una reexpresión de los datos en unidades diferentes.
• No es fácil la selección de una transformación adecuada. Una familia útil de
transformaciones es la familia de transformaciones de potencia, definida sólo para variables
positivas.
86
Transformaciones de Potencia
• La familia de transformaciones de potencia es indexada con el parámetro λ.
• Un valor dado de λ implica una transformación particular.
• Los valores de λ más usados son:
2
2
2
1
50
0
150
11
12
X
X
X
XLn
X
X
X
.
)(
.
87
Transformaciones de Potencia
• El método analítico de Box-Cox está disponible para elegir una adecuada transformación de
potencia
• Ellos consideran una ligera familia modificada de transformaciones de potencia
• λ se obtiene como el valor de λ que minimiza la suma de cuadrados
• donde es la media de la serie transformada usando λ
0
01
siXLn
siX
X
)(
)(
n
iiXS
1
2
ˆ)(
88
Ejemplo
# Transformaciones de potencia
summary(powerTransform(C.levante,family='yjPower'))
yjPower Transformation to Normality
Est.Power Std.Err. Wald Lower Bound Wald Upper Bound
C.levante 0.3458 0.1014 0.1471 0.5445
Likelihood ratio tests about transformation parameters
LRT df pval
LR test, lambda = (0) 19.10066 1 1.240018e-05
LR test, lambda = (1) 22.71072 1 1.883141e-06
# Guardando la variable transformada
C.levante.t<-C.levante^(0.5)
89
Ejemplo
# Verificando normalidad gráficamente sobre Y
par(mfrow=c(2,3))
with(trip,hist(CloudCover))
with(trip,boxplot(CloudCover))
with(trip,qqPlot(CloudCover))
# Verificando normalidad gráficamente sobre Y transformada
with(trip,hist(CloudCover.t))
with(trip,boxplot(CloudCover.t))
with(trip,qqPlot(CloudCover.t))
90
Ejemplo
91
92
Diagnóstico Hipótesis
H0: σ2 es constante (Homocedasticidad)
vs.
Ha: σ2 no es constante (Heterocedasticidad)
Pruebas analíticas
Breusch-Pagan
Score Test for Non-Constant Error
Variance
Pruebas gráficas Residuales vs. valores
ajustados
Medida Remedial
SI
H0 S
E R
EC
HA
ZA
Transformar la variable respuesta Y
Diagnóstico y medidas remediales. Varianza constante de los términos del error
Sacar puntos influenciales del
modelo
Familia de transformaciones de potencia de Box-Cox
Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) en función de
los lechones en precebo (x).
1. Verifique el supuesto de varianza constante de los términos del error
93
Ejemplo
# Varianza constante de los términos del error
# Pruebas analíticas de varianza constante
bptest(model1)
studentized Breusch-Pagan test
data: model1
BP = 0.1894, df = 1, p-value = 0.6634
ncvTest(model1)
Non-constant Variance Score Test
Variance formula: ~ fitted.values
Chisquare = 0.1336793 Df = 1 p = 0.7146473
# Pruebas gráficas de varianza constante
plot(model1$fit,model1$res,pch=16)
abline(h=0,col=2)
94
Ejemplo
95
96
Diagnóstico Hipótesis
H0: Hay presencia de observaciones influenciales
vs.
Ha: No hay presencia de observaciones
influenciales
Pruebas analíticas
Influencia en un valor ajustado particular -
DFFITS
Influencia en los coeficientes de
regresión - DFBETAS
Pruebas gráficas Boxplot de residuales
estandarizados
Medida Remedial
SI
H0 N
O S
E R
EC
HA
ZA
Diagnóstico y medidas remediales. Observaciones influenciales
Sacar puntos influenciales del
modelo Se sugiere verificar
este supuesto desde el comienzo de la
modelación
Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) en función de
los lechones en precebo (x).
1. Verifique si hay puntos influenciales en el modelo
2. Verifique gráficamente si hay puntos influenciales sobre la variable respuesta
transformada
3. ¿Cree que es necesario sacar algún punto de los datos y volver a modelar?
97
Ejemplo
# Presencia de observaciones influenciales
# Pruebas analíticas de datos influenciales
inflm.SR <- influence.measures(model1)
summary(inflm.SR)
Potentially influential observations of
lm(formula = C.levante ~ L.prece) :
dfb.1_ dfb.L.pr dffit cov.r cook.d hat
1 -1.07_* 1.95_* 2.03_* 2.48_* 1.93_* 0.64_*
98
Ejemplo
# Pruebas gráficas de datos influenciales
Boxplot(scale(model1$res))
abline(h=c(0,-3,3),col=2,lty=2)
99
Ejemplo
# Pruebas gráficas de datos influenciales sobre la variable respuesta transformada
Boxplot(scale(costo.exp.t))
abline(h=c(0,-3,3),col=2,lty=2)
100
101
Diagnóstico Hipótesis
H0: βi=0 ∀ i≠1 (Relación lineal)
vs.
Ha: βi≠0 para algún i≠1 (Relación no lineal)
Pruebas analíticas
Prueba t asociado con el coeficiente de
regresión
Prueba F del ANOVA
Pruebas gráficas Residuales vs. variable
predictora
Medida Remedial
SI
H0 S
E R
EC
HA
ZA
Diagnóstico y medidas remediales. Función de regresión no lineal
Trabajar con un modelo polinómico
Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) en función de
los lechones en precebo (x).
1. Verifique si la relación entre las dos variables es lineal
2. ¿Con cuál de los modelos se quedaría?
102
Ejemplo
# Función de regresión no lineal
# Modelo lineal simple
model1<-lm(costo.exp~time.exp)
summary(model1)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -82.769 1407.597 -0.059 0.954
L.prece 2.079 0.209 9.948 3.45e-09 ***
---
Residual standard error: 4464 on 20 degrees of freedom
Multiple R-squared: 0.8319, Adjusted R-squared: 0.8235
F-statistic: 98.96 on 1 and 20 DF, p-value: 3.453e-09
103
Ejemplo
# Modelo polinómico de 2do orden (modelo cuadrático)
model2<-lm(costo.exp~time.exp+I(time.exp^2))
summary(model2)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.829e+03 1.905e+03 0.960 0.3492
L.prece 1.348e+00 5.459e-01 2.469 0.0232 *
I(L.prece^2) 3.791e-05 2.624e-05 1.445 0.1649
---
Residual standard error: 4347 on 19 degrees of freedom
Multiple R-squared: 0.8485, Adjusted R-squared: 0.8326
F-statistic: 53.21 on 2 and 19 DF, p-value: 1.635e-08
104
Ejemplo
# Relación no lineal gráficamente
plot(L.prece,C.levante,pch=16)
points(L.prece,model1$fit,pch=16,col=2)
points(L.prece,model2$fit,pch=16,col=3)
legend('topleft',c('Modelo lineal',
'Modelo cuadrático'),col=2:3,
pch=16,bty='n',cex=0.8)
105
EL MODELO DE REGRESIÓN LINEAL SIMPLE PASO A PASO -------------------------------------------------------------------
106
1. VERIFIQUE NORMALIDAD SOBRE Y TRANSFORMACIÓN DE POTENCIA SOBRE Y
2. GRAFIQUE LA RELACIÓN ENTRE X & Y
3. CONSTRUYA SU MODELO DE REGRESIÓN LINEAL SIMPLE
4. VALIDE EL MODELO
4.1 INDEPENDENCIA
4.3 NORMALIDAD
4.2 VARIANZA CONSTANTE
4.4 DATOS INFLUENCIALES
SI
NO
SI
SI
SI
SI
SI
SI SI
NO
NO
NO
NO
FIN
ELIMINE OBSERVACIONES
NO
TA
. La v
aria
ble
Y s
ólo
se tra
nsfo
rma u
na v
ez
NOTA
• Si la variable independiente es cualitativa,
considere el modelo con variable dummie
• Si la relación es no- lineal, considere un
modelo polinomial
NOTA
• Su modelo es válido si se cumplen todos
los supuestos
• Su modelo no es válido si no se cumple al
menos uno de los supuestos incluso después
de haber aplicado una medida remedial
107
IDENTIFIQUE OBSERVACIONES QUE PUEDAN ESTAR AFECTANDO LA DISTRIBUCIÓN DE Y
SI
top related