módulo 1. regresión lineal simple (2)

MÉTODOS ESTADÍSTICOS I – ESTADÍSTICA MATEMÁTICA II Módulo 1. Regresión Lineal Simple

Diana Marcela Pérez Valencia Departamento de Ingeniería Industrial Facultad de Ingeniería Universidad de Antioquia Marzo de 2015

MODELO DE REGRESIÓN LINEAL SIMPLE -------------------------------------------------------------------

Modelo de regresión lineal simple

• OBJETIVO: Determinar si existe alguna relación entre dos variables. A partir de esta relación

se desea poder predecir los valores de una variable a partir de los valores de otra variable

• Específicamente el modelo de regresión lineal simple nos permite construir un modelo para

explicar la relación entre dos variables:

— Y : Variable dependiente o de respuesta

— X : Variable independiente o explicativa

Las relaciones entre dos variables pueden ser de dos tipos:

1. Funcionales o determinísticas. Existe una ecuación matemática que permite calcular los

valores de una de las variables a partir de los valores que toma la otra.

2. Probabilísticas. No existe una expresión matemática que las relacione de forma exacta. La

relación es estadística (implica aleatoriedad) y no funcional.

Diagramas de dispersión y curvas de regresión

• Antes de comenzar con cualquier análisis es necesario representar los datos de manera

gráfica.

• Los gráficos nos pueden ayudar a identificar el tipo de modelo que estamos buscando, o

también ayudan a identificar posibles observaciones que puedan estar influenciando los

análisis

Diagramas de dispersión y curvas de regresión

1 2 3 4 5

y0.5 1.0 1.5 2.0 2.5

-2.5 -2.0 -1.5 -1.0 -0.5

0.5 1.0 1.5 2.0 2.5

Propósitos del análisis de regresión

• Descripción de los datos

• Estimación de parámetros

• Predicción y estimación

• Control

Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) y las cabezas de

lechones en precebo (x).

1. ¿Por qué sería interesante estudiar esta relación?

2. Grafique la relación entre las dos variables. ¿Cómo es su relación? ¿Qué valor esperaría que

tomara la correlación?

3. ¿Qué valor toma la correlación entre estas dos variables?

Ejemplo

# Gráfico de x en función de y

plot(L.prece,C.levante,pch=16)

# Correlación entre x y y

cor(L.prece,C.levante)

[1] 0.9120758

• Recta que mejor se ajusta a la nube de puntos.

• De manera formal el modelo queda representado por

𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝑒𝑖

Donde,

Yi: Valor de la variable respuesta en el i-ésimo ensayo

β0, β1: Parámetros

Xi: Constante conocida. Valor de la variable predictora en el i-ésimo ensayo

ei: Término del error aleatorio (ei~Normal(0,σ2) iid)

• Simple. Hay sólo una variable independiente, explicativa o predictora

• Lineal

— Lineal en los parámetros: Ningún parámetro aparece como exponente o está

multiplicado o dividido por otro parámetro

— Lineal en la variable predictora: Aparece sólo en la primera potencia

Yi es la suma de dos componentes:

1. β0+ β1Xi : término constante

2. ei: Término aleatorio

Así que,

𝐸 𝑌𝑖 = 𝐸 𝛽0 + 𝛽1𝑋𝑖 + 𝑒𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝐸 𝑒𝑖 = 𝛽0 + 𝛽1𝑋𝑖

𝑉𝑎𝑟 𝑌𝑖 = 𝑉𝑎𝑟 𝛽0 + 𝛽1𝑋𝑖 + 𝑒𝑖 = 𝑉𝑎𝑟 𝑒𝑖 = 𝜎2

Entonces Yi~Normal(β0+ β1Xi,σ2)

De esta forma, la recta de regresión estimada sería,

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖

Para cada observación (xi,yi) el error o

residuo de estimación, ei, se define como la

distancia vertical entre el punto (xi,yi) y la

recta, es decir:

iii YYe ˆ

Significado de los parámetros de la regresión (β0,β1)

1. β1: Es la pendiente e indica el

cambio en la media de Y por

unidad de incremento en X

2. β0: Es el intercepto. Cuando

X=0, β0 representa el valor

promedio de Y. Muchas veces

si X=0, β0 no tiene significado

Estimación de los parámetros de la regresión

• Para determinar los parámetros β0 y β1 del modelo de regresión, usaremos el método de los

mínimos cuadrados , el cual consiste en minimizar

• Los estimadores de β0 y β1 , serían , se hallan como

iii XYYYQ

ˆˆˆ

10 ˆˆ y

ˆˆˆˆˆ

Estimación de los parámetros de la regresión

• Igualando a cero obtenemos el “sistema de ecuaciones normales”

• De donde las soluciones vienen dadas por:

Nota. son estimadores

insesgados y de mínima varianza

1110 ˆˆˆ 10 ˆ y ˆ

Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) y las cabezas

de lechones en precebo (x).

1. Corra un modelo de regresión lineal de “y” en función de “x”. Escriba el modelo e

interprete los parámetros.

2. ¿Este modelo es igual si corre modelo de regresión lineal de “x” en función de “y”?

3. Grafique el ajuste de los dos modelos.

Ejemplo

# Modelo de C.levante en función de L.prece

model1 <- lm(C.levante ~ L.prece)

# Para sacar los estimadores del modelo

model1

lm(formula = C.levante ~ L.prece)

Coefficients:

(Intercept) L.prece

-82.769 2.079

# Modelo de L.prece en función de C.levante

model2 <- lm(L.prece ~ C.levante)

# Para sacar los estimadores del modelo

model2

lm(formula = L.prece ~ C.levante)

Coefficients:

(Intercept) C.levante

867.3288 0.4001

Ejemplo

par(mfrow=c(2,1))

# Gráfico del ajuste del model1

abline(model1,col=2)

# Gráfico del ajuste del model2

plot(C.levante,L.prece,pch=16)

Propiedades de la recta de regresión ajustada

1. La suma de residuales es cero,

2. es mínima

3. La suma de los valores observados es igual a la suma de valores ajustados o esperados,

4. La línea de regresión siempre pasa por el punto

iii yy

1. Verifique las propiedades de la recta de regresión

Ejemplo

# Verificación de las propiedades de la recta de regresión del model1

# 1. suma(e_i)=0

sum(model1$res)

[1] 3.4035e-12

# 2. suma(e_i^2) es mínima.

# Esta propiedad se asume dado el método

# de estimación de parámetros

# 3. suma(y_i)=suma(y_i gorro)

sum(C.levante)

[1] 225157.7

sum(model1$fit)

[1] 225157.7

# 4. la recta pasa por (Xbar,Ybar)

abline(h=mean(C.levante),v=mean(L.prece),lty=2) 22

Estimación de la varianza del término del error (σ2)

• Se necesita estimar la varianza de los términos del error en el modelo de regresión para

obtener un indicador de la variabilidad de Y.

• Note que la suma de cuadrados de Y es la desviación de una observación Yi de su media .

Al dividir esta cantidad por n-1 se obtiene la varianza muestral de Y

• Donde n-1 son los grados de libertad (sólo se debe estimar un parámetro)

Y las de cuadrados de Suma:1

Estimación de la varianza del término del error (σ2)

• En el modelo de regresión lineal simple tenemos que

• Así que denotemos la suma de cuadrados del error SSE como

• La SSE tiene n-2 grados de libertad asociados, pues se deben estimar β0 y β1

• Al dividir la SSE por los grados de libertad, obtenemos los cuadrados medios del error

• De donde MSE es un estimador insesgado de σ2, es decir,

ii YYeSSE

SSEMSE

iii YYe ˆ

2)( σMSEE 24

Inferencias en el análisis de regresión. Inferencias sobre β1

• Se desea verificar la hipótesis

• Si no se rechaza H0, entonces no hay asociación lineal entre X y Y, más aún, implica que no existe

ningún tipo de asociación entre X y Y.

• Para el modelo de regresión que asume normalidad en los errores,

• Al estandarizar a queda que,

00 110 :.: aHvsH

iii XX

MSESNormal

ˆ,~ˆ

Inferencias en el análisis de regresión. Inferencia s sobre β1

• De este modo un IC al (1-α)% para β1 es:

• De igual modo se puede construir una prueba de hipótesis para β1 donde el estadístico de

prueba es:

12211 ˆ,/

ˆ St n

Inferencias en el análisis de regresión. Inferencias sobre β0

En este caso,

Y se procede de la misma forma que con β1

Sin embargo, no tiene mucho sentido hacer inferencias sobre β0 pues en la mayoría de las ocasiones

este parámetro no tiene interpretación

iii XX

nMSESNormal

0 ˆ,~ˆ

1. Escriba el modelo e interprete los parámetros

2. ¿Los parámetros de este modelo son significativos?

3. Calcule IC para β1 e interprételos

Ejemplo

# Resumen estadístico del modelo: Estimación de parámetros e inferencias sobre ellos

summary(model1)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -82.769 1407.597 -0.059 0.954

L.prece 2.079 0.209 9.948 3.45e-09 ***

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4464 on 20 degrees of freedom

Multiple R-squared: 0.8319, Adjusted R-squared: 0.8235

F-statistic: 98.96 on 1 and 20 DF, p-value: 3.453e-09

Ejemplo

# IC al (1-alpha)% para beta1

n<-length(C.levante) # Tamaño de muestra

alpha<-0.05 # Nivel de significancia

beta1<- summary(model1)$coefficients[2,1]

sd.beta1<- summary(model1)$coefficients[2,2]

# Límite inferior del IC

LI.beta1<-beta1-qt(1-(alpha/2),n-2)*sd.beta1

LI.beta1

[1] 1.643232

# Límite superior del IC

LS.beta1<-beta1+qt(1-(alpha/2),n-2)*sd.beta1

LS.beta1

[1] 2.515191

Análisis de varianza (ANOVA)

El análisis de varianza se basa en la partición de la suma de cuadrados y grados de libertad asociados con

la variable respuesta Y

YYi ii YY ˆ YYi ˆ

Variación de las Y sin tener en cuenta

X. Desviación total.

Suma de cuadrados totales

Variación de las Y alrededor de la

línea de regresión.

Suma de cuadrados del error

Variación de las predicciones alrededor de

su valor medio.

Suma de cuadrados de la regresión

ii YYSSTO

iii YYSSE

ii YYSSR

Análisis de varianza (ANOVA). Sobre los grados de libertad (gl ó df)

• Los grados de libertad son un estimador del número de categorías independientes en una

prueba particular o experimento estadístico.

• Se calculan mediante la fórmula n − r, donde

— n=número de sujetos en la muestra (también pueden ser representados por k − r,

donde k=número de grupos, cuando se realizan operaciones con grupos y no con sujetos

individuales)

— r es el número de sujetos o grupos estadísticamente dependientes

• Los grados de libertad asociados con la SSTO son n-1 (asociados con )

• Los grados de libertad asociados con la SSE son n-2 (asociados con )

• La SSE tiene 1 gl asociado

10 ˆˆ y

Análisis de varianza (ANOVA). Cuadrados medios

Se obtienen al dividir por los grados de libertad

Recuerde que los cuadrados medios del error son una estimación de 2 !!

Nota. Las sumas de cuadrados no son aditivas

regresión la de medios Cuadrados : 1

SSRSSR

error del medios Cuadrados : 2

SSEMSE

Prueba general del modelo. Prueba de bondad de ajuste

• El modelo completo o “Full”

• El modelo reducido

Entonces,

• 00

Y se desea probar

Es decir, se desea verificar si el modelo es

significativo.

El estadístico de prueba será

Así, si , se rechaza H0

iii eXY 10

ii eY 0

SSEXYSSEn

10 ˆˆ

SSTOYYYSSEn

00 110 :.: aHvsH

MSRF *

FFR glglglαFF ;;1*

1. Calcule la tabla ANOVA para este modelo e interprétela

Ejemplo

# Para ver el ANOVA del modelo

anova(model1)

Analysis of Variance Table

Response: C.levante

Df Sum Sq Mean Sq F value Pr(>F)

L.prece 1 1971987713 1971987713 98.964 3.453e-09 ***

Residuals 20 398525242 19926262

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Medidas descriptivas de asociación entre X & Y. Coeficiente de determinación R2

El R2 Mide el porcentaje de variación total de Y que está siendo explicada por X

Medidas descriptivas de asociación entre X & Y. Coeficiente de correlación

Mide el grado de asociación lineal entre X y Y

El signo de R depende de si 1 es positiva o negativa.

Notas.

i. Un R alto indica que la regresión lineal es un buen ajuste

ii. Un coeficiente de correlación cercano a cero indica que X y Y no están relacionadas

iii. R2 y R sólo miden el grado de asociación lineal entre X y Y

11,2 RRR

Medidas descriptivas de asociación entre X & Y. Coeficiente de correlación

0 10 20 30 40 50

R=0.9522097

0 10 20 30 40 50

1. Calcule el R2 con base en el summary del modelo.

2. Calcule el R2 con base en el ANOVA del modelo.

3. Interprete el R2

Respuesta media e intervalos de confianza para la respuesta media

• La respuesta media cuando X=Xh, se denota por y se calcula de la siguiente forma

• Un IC al 100(1-α)% para es

• Donde

hYnαh stY ˆ2;2/1ˆ

hh XY 10 ˆˆˆ

)(1ˆ XX

Predicción de una nueva observación e intervalos de predicción

• Se dice que se predice una nueva observación en Y cuando es vista como el resultado de un

nuevo ensayo, independiente de los ensayos en los que se basó el análisis de regresión.

• La predicción de una nueva observación cuando X=Xh, se denota por y se calcula como

• Un Intervalo de Predicción al 100(1-α)% para es

Yαnewh szY 2/1)(

hnewh XY 10 ˆˆˆ)(

Diferencia entre la respuesta media y la predicción de una nueva observación

• Para estimamos la media de la distribución de Y.

• Para predecimos un resultado individual tomado de la distribución de Y. )(ˆ

1. Calcule valores para la respuesta media con sus respectivos IC del 95%, grafíquelos e

interprételos.

2. Haga predicciones de nuevas observaciones y calcule sus respectivos intervalos de

predicción al 95%. Grafique e interprete

3. Qué diferencia hay entre los dos intervalos de los puntos (3) y (4)

Ejemplo

# Respuesta media e IC para la respuesta media

int.conf<-predict(model1,interval='confidence')

points(L.prece,int.conf[,2],col=3,pch=16) # IC inferior

points(L.prece,int.conf[,3],col=3,pch=16) # IC superior

# Predicción de observaciones individuales e Intervalos de predicción

int.pred<-predict(model1,interval='prediction')

points(L.prece,int.pred[,2],col=4,pch=16) # IP inferior

points(L.prece,int.pred[,3],col=4,pch=16) # IP superior

legend('topleft',c('Y',expression(hat(Y)),'IC del 95%','IP del

95%'),col=1:4,bty='n',cex=0.8,pch=16)

# Para predecir en puntos específicos donde el modelo no fue evaluado

new <- data.frame(L.prece = c(600,22000))

cbind(new,predict(model1, new, interval='prediction'))

L.prece fit lwr upr

1 600 1164.758 -8544.097 10873.61

2 22000 45659.880 33584.159 57735.60

Ejemplo

EL MODELO DE REGRESIÓN LINEAL SIMPLE ESTANDARIZADO -------------------------------------------------------------------

El modelo de regresión lineal simple estandarizado

• La forma estandarizada se usa para permitir comparaciones de los coeficientes de regresión

estimados en unidades comunes.

• Recordemos que estandarizar una variable, implica centrar y escalar la variable.

• Centrar implica tomar la diferencia entre cada observación y la media de todas las

observaciones para la variable, de tal forma que la media de la nueva variable sea 0.

• Escalar implica expresar las observaciones centradas en unidades de desviaciones estándar de

la variable, de tal forma que la desviación estándar de la nueva variable sea 1.

• Las estandarizaciones usuales de la variable respuesta Y y las variables predictoras X1,…,Xp son

),...,1(';' pk

El modelo de regresión lineal simple estandarizado

• El modelo de regresión estandarizado queda:

• ¿Por qué cree que este modelo se presenta sin intercepto?

• Finalmente, β’1 medirá el tamaño del impacto o efecto que tiene X1 en Y en unidades de

desviaciones estándar (su utilidad se verá mejor representada en el modelo de regresión lineal

múltiple)

• Ojo!!! La estandarización sólo aplica para variables de tipo cuantitativo

iii eXY '''' 11

Ejemplo. Corra los modelos de regresión lineal simple estandarizados de las cabezas de cerdos en

levante (y) y las cabezas de lechones en precebo (x) y viceversa:

1. Verifique que la media y la varianza de las dos variables estandarizadas son 0 y 1,

respectivamente.

2. ¿Será que la correlación entre las variables estandarizadas y sin estandarizar son iguales?

3. Haga un paralelo de los modelos estandarizados y sin estandarizar. Compare también las

correlaciones y los R2 de la regresión

Nota: Para estandarizar una variable en R use la función scale()

Ejemplo

# Media y desviación estándar de las variables estandarizadas

C.levante.std<-scale(C.levante)

L.prece.std<-scale(L.prece)

mean(C.levante.std)

[1] 7.445019e-17

mean(L.prece.std)

[1] -1.071882e-17

sd(C.levante.std)

sd(L.prece.std)

# Correlación entre las variables estandarizadas y sin estandarizar

cor(C.levante,L.prece)

[1] 0.9120758

cor(C.levante.std,L.prece.std)

[1,] 0.9120758

Ejemplo # Modelos C.levante vs L.prece

model1<-lm(C.levante~L.prece)

summary(model1)

Coefficients:

(Intercept) -82.769 1407.597 -0.059 0.954

L.prece 2.079 0.209 9.948 3.45e-09 ***

model1.1<-lm(C.levante.std~L.prece.std)

summary(model1.1)

Coefficients:

(Intercept) 5.908e-17 8.958e-02 0.000 1

L.prece.std 9.121e-01 9.168e-02 9.948 3.45e-09 ***

Residual standard error: 0.4201 on 20 degrees of freedom

Ejemplo # Modelos L.prece vs C.levante

model2<-lm(L.prece~C.levante)

summary(model1)

Coefficients:

(Intercept) -82.769 1407.597 -0.059 0.954

L.prece 2.079 0.209 9.948 3.45e-09 ***

model2.1<-lm(L.prece.std~C.levante.std)

summary(model2.1)

Coefficients:

(Intercept) -5.424e-17 8.958e-02 0.000 1

C.levante.std 9.121e-01 9.168e-02 9.948 3.45e-09 ***

Residual standard error: 0.4201 on 20 degrees of freedom

F-statistic: 98.96 on 1 and 20 DF, p-value: 3.453e-09 53

EL MODELO DE REGRESIÓN LINEAL SIMPLE CON VARIABLE INDEPENDIENTE CUALITATIVA -------------------------------------------------------------------

¿Cómo quedaría planteado el modelo si la variable independiente fuera categórica?

• El modelo de regresión lineal múltiple anteriormente expuesto, puede contener también

variables predictoras de tipo cualitativo, como la región a la cual pertenece el departamento, el

IDH, el Tamaño del departamento, entre otras.

• Se usan variables indicadoras (o dummies) que toman el valor de 0 y 1 para identificar las

categorías de la variable cualitativa

Modelo de regresión lineal simple. Variable predictora cualitativa con dos categorías

• Considere un análisis de regresión para predecir las cabezas de cerdos en levante (y) en función

del tamaño del departamento – Tamaño.pob (x)

• Definamos X como sigue

𝑋 = 1 𝑠𝑖 𝑇𝑎𝑚𝑎ñ𝑜. 𝑝𝑜𝑏 = 𝑃𝑒𝑞𝑢𝑒ñ𝑜0 𝑠𝑖 𝑇𝑎𝑚𝑎ñ𝑜. 𝑝𝑜𝑏 = 𝐺𝑟𝑎𝑛𝑑𝑒

• El modelo de regresión sería entonces 𝑌𝑖 = 𝛽0 + 𝛽1𝑋𝑖 + 𝑒𝑖

• Para departamentos donde 𝑇𝑎𝑚𝑎ñ𝑜. 𝑝𝑜𝑏 = 𝐺𝑟𝑎𝑛𝑑𝑒, Xi=0, y 𝐸 𝑌𝑖 = 𝑌 𝑖 = 𝛽0 = 𝜇𝐺𝑟𝑎𝑛𝑑𝑒

• Para departamentos donde 𝑇𝑎𝑚𝑎ñ𝑜. 𝑝𝑜𝑏 = 𝑃𝑒𝑞𝑢𝑒ñ𝑜, Xi=1, y 𝐸 𝑌𝑖 = 𝑌 𝑖 = 𝛽0 + 𝛽1 = 𝜇𝑃𝑒𝑞𝑢𝑒ñ𝑜

• Note que estas dos funciones respuesta representan el nivel promedio de la categoría i-ésima de

la variable “Tamaño.pob” y β1 mide el efecto diferencial entre las dos categorías.

Ejemplo. Considere un análisis de regresión para predecir las cabezas de cerdos en levante (y) en

función del tamaño del departamento – Tamaño.pob (x) .

i. Grafique la relación cabezas de cerdos en levante vs. tamaño del departamento –

Tamaño.pob. ¿Cuál es el gráfico adecuado en este caso?

ii. Corra el modelo de regresión asociado con estas dos variables. Interprete los coeficientes de

la regresión y evalúe si estos son significativos o no. Plantee hipótesis adecuadas para este

iii. Calcule el número promedio de cabezas de cerdos en levante según el tamaño del

departamento – Tamaño.pob. Encuentre la relación entre las medias y el modelo de

regresión calculado.

iv. Interprete el ANOVA y el R2

v. Haga la validación de este modelo.

Ejemplo

# Para hacer un boxplot de y en función de x

boxplot(C.levante~Tamaño.pob,ylab='Cerdos en Levante')

Ejemplo

# Modelo de regresión y ANOVA

model2<-lm(C.levante~Tamaño.pob)

summary(model2)

Coefficients:

(Intercept) 9373 2790 3.359 0.00312 **

Tamaño.pobPequeño 2708 4946 0.548 0.59005

Multiple R-squared: 0.01477, Adjusted R-squared: -0.03449

F-statistic: 0.2998 on 1 and 20 DF, p-value: 0.5901

anova(model2)

Tamaño.pob 1 35011740 35011740 0.2998 0.5901

Residuals 20 2335501215 116775061

# Calculando la media por grupos

by(C.levante,Tamaño.pob,mean)

Tamaño.pob: Grande

[1] 9372.657

-----------------------------------------------------------------------------------------------

Tamaño.pob: Pequeño

[1] 12081.12 59

Modelo de regresión lineal simple. Variable predictora cualitativa con más de dos categorías

En general, representamos una variable cualitativa con c categorías por medio de c-1 variables

indicadoras (o dummies)

Modelo de regresión lineal simple. Variable predictora cualitativa con más de dos categorías

Ejemplo. Considere un análisis de regresión para predecir las cabezas de cerdos en levante (y) en función de la

región del departamento (x con tres niveles: Andina, Caribe, Orinoquía)

• Grafique la relación entre estas dos variables. ¿Cuál es el gráfico adecuado en este caso?

• ¿Cuántas variables dummies debería definir? Defínalas

• ¿Cómo quedaría planteado el modelo de regresión?

• ¿Cómo quedaría escrito el modelo para cada una de las regiones?

• Interprete los coeficientes de la regresión y evalúe si estos son significativos o no. Plantee hipótesis

adecuadas para este caso

• Interprete el ANOVA y el R2

• Haga la validación de este modelo

Note que estas funciones respuesta representan el nivel promedio de la categoría i-ésima de la variable región y

β1, β2,… miden los efectos diferenciales entre las categorías de los niveles de región, siempre comparado con la

categoría para la cual X1=X2=…=Xc-1=0 61

Ejemplo

# Para hacer un boxplot de y en función de x

boxplot(C.levante~Región,ylab='Cerdos en levante')

Ejemplo

# Calculando la media por grupos

by(C.levante,Región,mean)

Región: Andina

[1] 10015.27

-----------------------------------------------------------------

Región: Caribe

[1] 10756.34

-----------------------------------------------------------------

Región: Orinoquía

[1] 9832.425

Ejemplo

# Para correr un modelo de regresión lineal simple

model3<-lm(C.levante~Región)

summary(model3)

Coefficients:

(Intercept) 10015.3 3096.1 3.235 0.00436 **

RegiónCaribe 741.1 5233.3 0.142 0.88888

RegiónOrinoquía -182.8 8478.9 -0.022 0.98302

Multiple R-squared: 0.001204, Adjusted R-squared: -0.1039

F-statistic: 0.01145 on 2 and 19 DF, p-value: 0.9886

anova(model3)

Región 2 2854355 1427178 0.0115 0.9886

Residuals 19 2367658600 124613611

EL MODELO DE REGRESIÓN POLINÓMICO -------------------------------------------------------------------

Modelo de regresión polinómico

• El modelo de regresión es un modelo general para ajustar cualquier relación

que es lineal.

• En el caso en el que la anterior afirmación no se cumple (la relación entre X y Y es no lineal), es

necesario considerar un modelo polinomial como el siguiente

• Esta clase de modelos tiene la propiedad de jerarquía. Es decir, deben contener todos los

términos de orden k o inferior.

• Ojo!!!... Este tipo de modelos no se consideran cuando la variable independiente es

cualitativa

k eXXXY ...2

ieXY 10

• Específicamente si consideramos el modelo

• Estaremos hablando del modelo de segundo orden o del modelo cuadrático

• Donde

– β1 representa el efecto lineal de X sobre Y

– β2 representa el cuadrático de X sobre Y

ieXXY 2

Ejemplo. Considere un análisis de regresión para predecir las cabezas de cerdos en levante (y) en función de las

hembras vacías (x)

• Grafique la relación entre estas dos variables. Verifique si la relación entre las dos variables es lineal

• ¿Qué modelos de regresión plantearía?

• ¿Cómo quedarían escritos estos modelos?

• Evalúe si los coeficientes de los modelos son significativos. Plantee hipótesis adecuadas para este caso

• Interprete el ANOVA y el R2

Ejemplo

# Función de regresión no lineal

# Modelo lineal simple

model1<-lm(C.levante~H.vacías)

summary(model1)

Coefficients:

(Intercept) -1918.3545 2954.4416 -0.649 0.524

H.vacías 4.7361 0.9749 4.858 9.53e-05 ***

Ejemplo

# Modelo polinómico de 2do orden (modelo cuadrático)

model2<-lm(C.levante~H.vacías+I(H.vacías^2))

summary(model2)

Coefficients:

(Intercept) 5.324e+03 3.761e+03 1.416 0.1731

H.vacías -2.208e+00 2.752e+00 -0.802 0.4322

I(H.vacías^2) 1.151e-03 4.338e-04 2.654 0.0157 *

Ejemplo

# Modelo polinómico de 3er orden (modelo cúbico)

model3<-lm(C.levante~H.vacías+I(H.vacías^2)+I(H.vacías^3))

summary(model3)

Coefficients:

(Intercept) -8.092e+02 4.202e+03 -0.193 0.8494

H.vacías 9.891e+00 5.561e+00 1.779 0.0922 .

I(H.vacías^2) -3.784e-03 2.072e-03 -1.826 0.0844 .

I(H.vacías^3) 5.203e-07 2.146e-07 2.425 0.0261 *

Ejemplo

# Relación no lineal gráficamente

plot(H.vacías,C.levante,pch=16)

points(H.vacías,model1$fit,pch=16,col=2)

legend('topleft',c('Modelo lineal','Modelo cuadrático','Modelo

cúbico'),col=2:4,pch=16,bty='n',cex=0.8)

Ejemplo

DIAGNÓSTICO Y MEDIDAS REMEDIALES (VALIDACIÓN DEL MODELO) -------------------------------------------------------------------

Diagnóstico y medidas remediales

• Objetivo. Probar la validez del modelo en función del cumplimiento de los supuestos

• Supuestos del modelo. Puesto que los valores de las observaciones en la variable respuesta

están en función de la variable predictora, entonces los diagnósticos del modelo se realizan a

través de los residuales, los cuales deben cumplir:

1. Los residuales son estadísticamente independientes

2. ei ~ Normal(0,σ2)

3. σ2 es constante

Diagnóstico y medidas remediales

A través del diagnóstico del modelo, también se pueden verificar los siguientes aspectos:

• La función de regresión no es lineal

• Influencia de datos atípicos o outliers en el modelo

Diagnóstico Hipótesis

H0: Corr(εi, εj )= 0

∀ i≠j

Ha: Corr(εi , εj ) ≠ 0

para algún i,j con i≠j

Pruebas analíticas

Durbin-Watson

Breusch-Godfrey

Pruebas gráficas

Residuales vs. secuencia

acf / pacf

Medida Remedial

No lo vemos en este curso!!

Modelar la estructura de

correlación de los errores

Diagnóstico y medidas remediales. Independencia de los términos del error

NOTA: Validar este supuesto tiene sentido si los datos presentan alguna secuencia lógica (por lo general temporal)

Ejemplo. Se desea estudiar la relación entre las cabezas de cerdos en levante (y) en función de

los lechones en precebo (x).

1. Verifique el supuesto de independencia de los términos del error

Ejemplo

# Para hacer la validación cargue estas librerías

install.packages(c('lmtest','car','nortest','tseries'))

require(lmtest)

require(car)

require(nortest)

require(tseries)

# Independencia de los términos del error

# Pruebas gráficas de independencia

par(mfrow=c(1,3))

plot(model1$res,pch=16,type='o')

abline(h=0,col=2)

acf(model1$res,ylim=c(-1,1))

pacf(model1$res,ylim=c(-1,1))

Ejemplo

# Pruebas analíticas de independencia

dwtest(model1,alternative="two.sided")

Durbin-Watson test

data: model1

DW = 2.2464, p-value = 0.61

alternative hypothesis: true autocorrelation is not 0

bgtest(model1)

Breusch-Godfrey test for serial correlation of order up to 1

data: model1

LM test = 0.5445, df = 1, p-value = 0.4606

H0: ei ~ Normal

Ha: ei ~ f(e)

Pruebas analíticas

Shapiro Wilk

Anderson-Darling

Jarque-Bera

Pruebas gráficas

Histograma de residuales

Boxplot de residuales

QQ-plot de residuales

Medida Remedial

Transformar la variable respuesta Y. Se sugiere verificar este

supuesto desde el comienzo de la

modelación

Diagnóstico y medidas remediales. Normalidad de los términos del error

Sacar puntos influenciales del

modelo

Familia de transformaciones de potencia de Box-Cox

1. Verifique el supuesto de normalidad de los términos del error

2. ¿Necesita alguna transformación sobre la variable respuesta?

3. Verifique normalidad sobre la variable respuesta transformada. ¿Logró mejorar su

distribución?

Ejemplo

# Normalidad de los términos del error

# Pruebas analíticas de normalidad

shapiro.test(model1$res)

Shapiro-Wilk normality test

data: model1$res

W = 0.9678, p-value = 0.6592

jarque.bera.test(model1$res)

Jarque Bera Test

data: model1$res

X-squared = 0.5424, df = 2, p-value = 0.7625

ad.test(model1$res)

Anderson-Darling normality test

data: model1$res

A = 0.2187, p-value = 0.8152

cvm.test(model1$res)

Cramer-von Mises normality test

data: model1$res

W = 0.0298, p-value = 0.8416

Ejemplo

# Pruebas gráficas de normalidad

par(mfrow=c(1,3))

hist(model1$res)

boxplot(model1$res)

qqPlot(model1$res,pch=16)

Transformaciones de Potencia

• Si no se cumple el supuesto de normalidad o de homogeneidad de varianza, una alternativa

es considerar transformaciones de los datos.

• Las transformaciones no son más que una reexpresión de los datos en unidades diferentes.

• No es fácil la selección de una transformación adecuada. Una familia útil de

transformaciones es la familia de transformaciones de potencia, definida sólo para variables

positivas.

• La familia de transformaciones de potencia es indexada con el parámetro λ.

• Un valor dado de λ implica una transformación particular.

• Los valores de λ más usados son:

• El método analítico de Box-Cox está disponible para elegir una adecuada transformación de

potencia

• Ellos consideran una ligera familia modificada de transformaciones de potencia

• λ se obtiene como el valor de λ que minimiza la suma de cuadrados

• donde es la media de la serie transformada usando λ

Ejemplo

# Transformaciones de potencia

summary(powerTransform(C.levante,family='yjPower'))

yjPower Transformation to Normality

Est.Power Std.Err. Wald Lower Bound Wald Upper Bound

C.levante 0.3458 0.1014 0.1471 0.5445

Likelihood ratio tests about transformation parameters

LRT df pval

LR test, lambda = (0) 19.10066 1 1.240018e-05

LR test, lambda = (1) 22.71072 1 1.883141e-06

# Guardando la variable transformada

C.levante.t<-C.levante^(0.5)

Ejemplo

# Verificando normalidad gráficamente sobre Y

par(mfrow=c(2,3))

with(trip,hist(CloudCover))

with(trip,boxplot(CloudCover))

with(trip,qqPlot(CloudCover))

# Verificando normalidad gráficamente sobre Y transformada

with(trip,hist(CloudCover.t))

with(trip,boxplot(CloudCover.t))

with(trip,qqPlot(CloudCover.t))

Ejemplo

H0: σ2 es constante (Homocedasticidad)

Ha: σ2 no es constante (Heterocedasticidad)

Pruebas analíticas

Breusch-Pagan

Score Test for Non-Constant Error

Variance

Pruebas gráficas Residuales vs. valores

ajustados

Medida Remedial

Transformar la variable respuesta Y

Diagnóstico y medidas remediales. Varianza constante de los términos del error

modelo

Familia de transformaciones de potencia de Box-Cox

1. Verifique el supuesto de varianza constante de los términos del error

Ejemplo

# Varianza constante de los términos del error

# Pruebas analíticas de varianza constante

bptest(model1)

studentized Breusch-Pagan test

data: model1

BP = 0.1894, df = 1, p-value = 0.6634

ncvTest(model1)

Non-constant Variance Score Test

Variance formula: ~ fitted.values

Chisquare = 0.1336793 Df = 1 p = 0.7146473

# Pruebas gráficas de varianza constante

plot(model1$fit,model1$res,pch=16)

abline(h=0,col=2)

Ejemplo

H0: Hay presencia de observaciones influenciales

Ha: No hay presencia de observaciones

influenciales

Pruebas analíticas

Influencia en un valor ajustado particular -

DFFITS

Influencia en los coeficientes de

regresión - DFBETAS

Pruebas gráficas Boxplot de residuales

estandarizados

Medida Remedial

Diagnóstico y medidas remediales. Observaciones influenciales

modelo Se sugiere verificar

este supuesto desde el comienzo de la

modelación

1. Verifique si hay puntos influenciales en el modelo

2. Verifique gráficamente si hay puntos influenciales sobre la variable respuesta

transformada

3. ¿Cree que es necesario sacar algún punto de los datos y volver a modelar?

Ejemplo

# Presencia de observaciones influenciales

# Pruebas analíticas de datos influenciales

inflm.SR <- influence.measures(model1)

summary(inflm.SR)

Potentially influential observations of

lm(formula = C.levante ~ L.prece) :

dfb.1_ dfb.L.pr dffit cov.r cook.d hat

1 -1.07_* 1.95_* 2.03_* 2.48_* 1.93_* 0.64_*

Ejemplo

# Pruebas gráficas de datos influenciales

Boxplot(scale(model1$res))

abline(h=c(0,-3,3),col=2,lty=2)

Ejemplo

# Pruebas gráficas de datos influenciales sobre la variable respuesta transformada

Boxplot(scale(costo.exp.t))

abline(h=c(0,-3,3),col=2,lty=2)

H0: βi=0 ∀ i≠1 (Relación lineal)

Ha: βi≠0 para algún i≠1 (Relación no lineal)

Pruebas analíticas

Prueba t asociado con el coeficiente de

regresión

Prueba F del ANOVA

Pruebas gráficas Residuales vs. variable

predictora

Medida Remedial

Diagnóstico y medidas remediales. Función de regresión no lineal

Trabajar con un modelo polinómico

1. Verifique si la relación entre las dos variables es lineal

2. ¿Con cuál de los modelos se quedaría?

Ejemplo

# Función de regresión no lineal

# Modelo lineal simple

model1<-lm(costo.exp~time.exp)

summary(model1)

Coefficients:

(Intercept) -82.769 1407.597 -0.059 0.954

L.prece 2.079 0.209 9.948 3.45e-09 ***

Ejemplo

# Modelo polinómico de 2do orden (modelo cuadrático)

model2<-lm(costo.exp~time.exp+I(time.exp^2))

summary(model2)

Coefficients:

(Intercept) 1.829e+03 1.905e+03 0.960 0.3492

L.prece 1.348e+00 5.459e-01 2.469 0.0232 *

I(L.prece^2) 3.791e-05 2.624e-05 1.445 0.1649

Ejemplo

# Relación no lineal gráficamente

points(L.prece,model1$fit,pch=16,col=2)

points(L.prece,model2$fit,pch=16,col=3)

legend('topleft',c('Modelo lineal',

'Modelo cuadrático'),col=2:3,

pch=16,bty='n',cex=0.8)

EL MODELO DE REGRESIÓN LINEAL SIMPLE PASO A PASO -------------------------------------------------------------------

1. VERIFIQUE NORMALIDAD SOBRE Y TRANSFORMACIÓN DE POTENCIA SOBRE Y

2. GRAFIQUE LA RELACIÓN ENTRE X & Y

3. CONSTRUYA SU MODELO DE REGRESIÓN LINEAL SIMPLE

4. VALIDE EL MODELO

4.1 INDEPENDENCIA

4.3 NORMALIDAD

4.2 VARIANZA CONSTANTE

4.4 DATOS INFLUENCIALES

ELIMINE OBSERVACIONES

. La v

se tra

• Si la variable independiente es cualitativa,

considere el modelo con variable dummie

• Si la relación es no- lineal, considere un

modelo polinomial

• Su modelo es válido si se cumplen todos

los supuestos

• Su modelo no es válido si no se cumple al

menos uno de los supuestos incluso después

de haber aplicado una medida remedial

IDENTIFIQUE OBSERVACIONES QUE PUEDAN ESTAR AFECTANDO LA DISTRIBUCIÓN DE Y

módulo 1. regresión lineal simple (2)

Documents

regresión lineal simple y correlación sergio alberto...

correlación lineal y regresión lineal simple

cheat sheet práctica 10: regresión lineal simple y...

teoría de la decisión regresión lineal simple

1 pronósticos, series de tiempo y regresión capítulo 3:...

tema 6 correlaciÓn y regresiÓn lineal simple...modelos de...

modelos de regresión: lineal simple y regresión...

modelo de regresión lineal simple: una solución para esmar

b regresiÓn y correlaciÓn lineal³n de coeficientes...

ajuste y diagnóstico de un modelo de regresión lineal...

práctica 10. regresión lineal simple y correlación en r

derivado de los coeficientes de regresiÓn lineal y x esta...

regresiÓn, correlaciÓn y anova. · (regresión simple)...

relaciÓn entre dos variables numÉricas. regresiÓn lineal...

análisis de diferentes representaciones en la regresión...

regresión y correlación lineal simple

econometría tema ii regresión lineal simple parte ii

tema 8: regresión lineal simple y múltiple · 2020. 5....

tema 8 regresión lineal simple y correlación

regresión lineal simple y correlación