departamento de estadística | uc3m - regresión lineal...
Post on 02-Aug-2020
10 Views
Preview:
TRANSCRIPT
1
Ignacio Cascos Depto. Estadística, Universidad Carlos III 1
Regresión lineal simpleTema 1
Ignacio Cascos Depto. Estadística, Universidad Carlos III 2
Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo
Linealidad, homogeneidad, homocedasticidad, independencia y normalidad
4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud
5. Propiedades de los estimadores Coeficientes de regresión, varianza residual
6. Inferencia y predicción7. Diagnosis e interpretación de los coeficientes
Ignacio Cascos Depto. Estadística, Universidad Carlos III 3
Objetivos Construcción de modelos de regresión Métodos de estimación para dichos modelos Inferencia acerca de los parámetros Aprendizaje de utilización de gráficos para
detectar el tipo de relación entre dos variables Cuantificación del grado de relación lineal
Ignacio Cascos Depto. Estadística, Universidad Carlos III 4
Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo
Linealidad, homogeneidad, homocedasticidad, independencia y normalidad
4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud
5. Propiedades de los estimadores Coeficientes de regresión, varianza residual
6. Inferencia y predicción7. Diagnosis e interpretación de los coeficientes
2
Ignacio Cascos Depto. Estadística, Universidad Carlos III 5
Introducción Estudio conjunto de dos variables Relación entre las variables Regresión lineal Historia del concepto de regresión lineal
uxy 10
Ignacio Cascos Depto. Estadística, Universidad Carlos III 6
Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo
Linealidad, homogeneidad, homocedasticidad, independencia y normalidad
4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud
5. Propiedades de los estimadores Coeficientes de regresión, varianza residual
6. Inferencia y predicción7. Diagnosis e interpretación de los coeficientes
Ignacio Cascos Depto. Estadística, Universidad Carlos III 7
Ejemplo: Pureza del oxígeno en un proceso de destilación
Ignacio Cascos Depto. Estadística, Universidad Carlos III 8
Ejemplo: Pureza del oxígeno en un proceso de destilación
3
Ignacio Cascos Depto. Estadística, Universidad Carlos III 9
El modelo de regresión simple n pares de la forma (xi,yi) Objetivo: valores aproximados de Y a partir de X X: variable independiente o explicativa Y: variable dependiente o respuesta (a explicar)
pendiente intercepto
regresión de escoeficient y
1
0
10
10
iii uxy
Ignacio Cascos Depto. Estadística, Universidad Carlos III 10
El modelo de regresión simple
Ignacio Cascos Depto. Estadística, Universidad Carlos III 11
Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo
Linealidad, homogeneidad, homocedasticidad, independencia y normalidad
4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud
5. Propiedades de los estimadores Coeficientes de regresión, varianza residual
6. Inferencia y predicción7. Diagnosis e interpretación de los coeficientes
Ignacio Cascos Depto. Estadística, Universidad Carlos III 12
Linealidad: datos con aspecto recto
Plot of Y1 vs X1
0 40 80 120 160 200
X1
0
200
400
600
800
Y1
Plot of Y2 vs X2
0 40 80 120 160 200 240
X2
0
100
200
300
400
500
600
Y2
4
Ignacio Cascos Depto. Estadística, Universidad Carlos III 13
Homogeneidad El valor promedio del error es cero,
0][ iuE
Ignacio Cascos Depto. Estadística, Universidad Carlos III 14
Homocedasticidad:Var[ui]=2 Varianza de errores constante
Ignacio Cascos Depto. Estadística, Universidad Carlos III 15
Independencia: Observaciones independientes, en particular E[uiuj]=
Ignacio Cascos Depto. Estadística, Universidad Carlos III 16
Normalidad: ui~N(0, 2)
5
Ignacio Cascos Depto. Estadística, Universidad Carlos III 17
Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo
Linealidad, homogeneidad, homocedasticidad, independencia y normalidad
4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud
5. Propiedades de los estimadores Coeficientes de regresión, varianza residual
6. Inferencia y predicción7. Diagnosis e interpretación de los coeficientes
Ignacio Cascos Depto. Estadística, Universidad Carlos III 18
Método de Mínimos Cuadrados
Valor observado Dato (y)
Recta de regresiónestimada
Valor observado Dato (y)
Recta de regresiónestimada
Ignacio Cascos Depto. Estadística, Universidad Carlos III 19
Mínimos Cuadrados (Gauss, 1809) Objetivo: Buscar los valores de y que
mejor se ajustan a nuestros datos. Ecuación:
Residuo:
Minimizar:
iiiii xyyye 10ˆˆˆ
n
iie
1
2
ii xy 10ˆˆˆ
Ignacio Cascos Depto. Estadística, Universidad Carlos III 20
Mínimos Cuadrados (Gauss, 1809) Resultado:
xS
Sy
X
YX2,
0ˆ
xxyy ii 1ˆ
2,
1ˆ
X
YX
SS
6
Ignacio Cascos Depto. Estadística, Universidad Carlos III 21
Ajuste regresión simple:Datos pureza oxígeno
Ignacio Cascos Depto. Estadística, Universidad Carlos III 22
Ajuste regresión simple:Datos pureza oxígeno
xy
xySS
SS
yxn
x
xy
xyx
95142874
28741961951416929514681017710
177106810
20
1021
2
..ˆ
..).(.ˆˆ ...ˆ
. .
92.16 1.196
Ignacio Cascos Depto. Estadística, Universidad Carlos III 23
Ajuste regresión simple:Datos pureza oxígeno
xy 95142874 ..ˆ
Ignacio Cascos Depto. Estadística, Universidad Carlos III 24
Ajuste regresión simple:Datos pureza oxígeno
0
7
Ignacio Cascos Depto. Estadística, Universidad Carlos III 25
Ajuste regresión simple:Datos pureza oxígeno
1
Ignacio Cascos Depto. Estadística, Universidad Carlos III 26
Método de Máxima Verosimilitud Mismo resultado. Estimación de la varianza:
INSESGADO 2
ˆ Residual Varianza
insesgado no EMV ˆ
22
22
ne
S
ne
iR
i
Ignacio Cascos Depto. Estadística, Universidad Carlos III 27
Ajuste regresión simple:Datos pureza oxígeno
2RS
Ignacio Cascos Depto. Estadística, Universidad Carlos III 28
Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo
Linealidad, homogeneidad, homocedasticidad, independencia y normalidad
4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud
5. Propiedades de los estimadores Coeficientes de regresión, varianza residual
6. Inferencia y predicción7. Diagnosis e interpretación de los coeficientes
8
Ignacio Cascos Depto. Estadística, Universidad Carlos III 29
Props. de los coeficientes de regresiónNormalidad
iiix
i ywynS
xx21
)( Combinación lineal de normales
),(~ 20 iii xNy
Estimador centrado
121
ix
i yEnS
xxE )(ˆ
Varianza del estimador
2
22
21x
ix
i
nSyVar
nSxxVar
)(ˆ
2
2
11xnS
N ,~ˆIgnacio Cascos Depto. Estadística, Universidad Carlos III 30
Props. de los coeficientes de regresiónNormalidad
ii ywx
nxy 1
10 ˆˆ Combinación lineal de normales
),(~ 20 iii xNy
Estimador centrado
001
ii yEwxn
E ˆ
Varianza del estimador
2
222
0 11
xii S
xn
yVarwxn
Var
2
22
00 1xS
xn
N ,~ˆ
Ignacio Cascos Depto. Estadística, Universidad Carlos III 31
Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo
Linealidad, homogeneidad, homocedasticidad, independencia y normalidad
4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud
5. Propiedades de los estimadores Coeficientes de regresión, varianza residual
6. Inferencia y predicción7. Diagnosis e interpretación de los coeficientes
Ignacio Cascos Depto. Estadística, Universidad Carlos III 32
Inferencia respecto a los parámetros IC
2
ˆ ˆEn general, si ~ , ( ) un I.C. para :
ˆ ˆ ( )
N Var
z Var
2 20
1
ˆˆ ( / 2, 2) 1 /
ˆˆ ( / 2, 2)
Rx
R
x
St n x SnSt n
S n
2
1 1 2
2 2
0 0 2
ˆ ~ ,
ˆ ~ , 1
x
x
NnS
xNn S
2ˆDesconocida RS
9
Ignacio Cascos Depto. Estadística, Universidad Carlos III 33
Inferencia respecto a los parámetrosContraste de Hipótesis
0 0 1 0
0 2 2
0 1 1 1
1
: 0 : 0
ˆ ˆ 1 /
: 0 : 0ˆ
ˆ
R x
x
R
H H
ntS x S
H H
S ntS
( / 2, 2)t n
Ignacio Cascos Depto. Estadística, Universidad Carlos III 34
Ajuste regresión simple:pureza oxígeno
0 1ˆ ˆ y
significativos
Ignacio Cascos Depto. Estadística, Universidad Carlos III 35
Descomposición de la variabilidad La variabilidad del modelo satisface: VT =VE+VNE
Comentario fuera de programa: Contraste de regresión
n
ii
n
iii
n
ii
n
ii
eyy
yy
yy
1
2
1
2
1
2
1
2
)ˆ(Explicada No adVariabilidVNE
)ˆ(Explicada adVariabilidVE
)(Total adVariabilidVT
2,11 ~2VNE
VE entonces 0, Si nF
n
Ignacio Cascos Depto. Estadística, Universidad Carlos III 36
Ajuste regresión simple:pureza oxígeno
VE
10
Ignacio Cascos Depto. Estadística, Universidad Carlos III 37
Ajuste regresión simple:pureza oxígeno
VNE
Ignacio Cascos Depto. Estadística, Universidad Carlos III 38
Coeficiente de determinación
22
2,
21
2
1
2
1
2
2)ˆ(
)(
)ˆ(
VTVE
YX
YX
Y
n
ii
n
ii
n
ii
SSS
nS
yy
yy
yyR
Expresado en %, obtenemos el porcentaje de variabilidad de la variable respuesta explicado por el modelo.
Ignacio Cascos Depto. Estadística, Universidad Carlos III 39
Predicción Dos tipos de predicción: Predecir un valor promedio de y para cierto
valor de x. Predecir futuros valores de la variable
respuesta.La predicción es la misma (a partir de la recta de regresión) pero la precisión de los estimadores es diferente.
Ignacio Cascos Depto. Estadística, Universidad Carlos III 40
Predicción (promedio)
2
202
12
00
010
)(1
)ˆ()()()ˆ(
)(ˆˆ
XnSxx
n
VarxxyVaryVar
xxyy
2
20
2/,20)(1ˆˆ
XRn nS
xxn
Sty
Intervalo de confianza para la media estimada
Estimación de la media de la distribución condicionada de y para x=x0:
11
Ignacio Cascos Depto. Estadística, Universidad Carlos III 41
Ajuste regresión simple:pureza oxígeno
,x y
La anchura del intervaloaumenta cuando aumenta
hx x
Ignacio Cascos Depto. Estadística, Universidad Carlos III 42
Predicción para futuros valores
2
20
2/,20)(11ˆˆ
XRn nS
xxn
Sty
Intervalo de predicción
Ignacio Cascos Depto. Estadística, Universidad Carlos III 43
Ajuste regresión simple:pureza oxígeno
Ignacio Cascos Depto. Estadística, Universidad Carlos III 44
Descripción breve del tema1. Introducción2. El modelo de regresión simple3. Hipótesis del modelo
Linealidad, homogeneidad, homocedasticidad, independencia y normalidad
4. Estimación de los parámetros Mínimos cuadrados, Máxima Verosimilitud
5. Propiedades de los estimadores Coeficientes de regresión, varianza residual
6. Inferencia y predicción7. Diagnosis e interpretación de los coeficientes
12
Ignacio Cascos Depto. Estadística, Universidad Carlos III 45
DiagnosisUna vez ajustado el modelo, hay que comprobar si se cumplen las hipótesis iniciales. Gráficos de residuos frente a valores
previstos. Si las hipótesis iniciales se satisfacen, este
gráfico no debe tener estructura alguna.
Ignacio Cascos Depto. Estadística, Universidad Carlos III 46
Ajuste regresión simple:Datos pureza oxígeno
Ignacio Cascos Depto. Estadística, Universidad Carlos III 47
Relaciones no lineales
Gráficos de residuos
Ignacio Cascos Depto. Estadística, Universidad Carlos III 48
LinealidadSoluciones a la falta de linealidad: Transformar las variables para intentar
conseguir linealidad. Introducir variable adicionales. Detectar la presencia de datos atípicos o
ausencia de otras variables importantes para explicar la variable respuesta.
13
Ignacio Cascos Depto. Estadística, Universidad Carlos III 49
Homocedasticidad
.y
Cuando la varianza de las perturbaciones es muy diferente para unos valores de la variable explicativa que para otros tenemos heterocedasticidad
e
Ignacio Cascos Depto. Estadística, Universidad Carlos III 50
HomocedasticidadSoluciones a la heterocedasticidad: Si la variabilidad de la respuesta aumenta con
x según la ecuación Var(y|x) = g(x), dividimos la ecuación de regresión (y) entre g(x).
Transformar la variable respuesta y puede que también x.
Si lo anterior no funciona, cambiar el método de estimación.
Ignacio Cascos Depto. Estadística, Universidad Carlos III 51
NormalidadLa falta de normalidad invalida resultados inferenciales.Comprobación mediante histogramas o gráficos
probabilísticos. En un gráfico probabilístico comparamos los
residuos ordenados con los cuantiles de la distribución Normal estándar.
Si la distribución de los residuos es normal, el gráfico ha de mostrar aproximadamente una recta.
Ignacio Cascos Depto. Estadística, Universidad Carlos III 52
Normalidad
14
Ignacio Cascos Depto. Estadística, Universidad Carlos III 53
Independencia y Datos influyentesIndependencia Conviene hacer una gráfica de residuos frente
a tiempo (residuos incorrelados).Datos influyentes Analizar la presencia de datos influyentes.
Los atípicos son datos muy grandes o muy pequeños. Estudiar su posible eliminación.
Ignacio Cascos Depto. Estadística, Universidad Carlos III 54
Transformaciones
y’ = lnyy’ = lny , x’ = lnxx’ = 1/xy’ = 1/y , x’ = 1/x
Exponencial: y = aexp{bx}Potencia: y = axb
Recíproca: y = a+b/xHiperbólica: y = x/(a+bx)
Transformación apropiadaForma funcional que relaciona y con x
Ignacio Cascos Depto. Estadística, Universidad Carlos III 55
Interpretación de los coeficientesUna vez estudiada la significatividad de los mismos: y=a+bx Un incremento de x en 1 unidad,
incrementaría y en b unidades . ln(y)=a+bx Un incremento de x en 1 unidad,
provocaría un incremento de y del 100b% . ln(y)=a+bln(x) Un incremento de x del 1%,
provocaría un incremento de y del b% . y=a+bln(x) Un incremento de x del 1%,
incrementaría y en b/100 unidades .
top related