regresion multiple lineal prediccion
Post on 17-Jan-2016
39 Views
Preview:
DESCRIPTION
TRANSCRIPT
Regresión lineal múltiple.Validación y predicción
Juan R González2002
El problema de la colinealidad
•De nuevo aparece (X’X) en este problema, si haycolinealidad no se puede invertir (matriz singular)
•Problema de colinealidad: X1=a+bX2
•Poco usual en la práctica pero si que aparece lacasi-colinealidad (e.d. b casi 1)
•En este caso (X’X) es casi singular y lasestimaciones son poco estables (puede darsegrandes cambios en las estimaciones
El problema de la colinealidad
•Detección 1: Factor de inflación de la varianza(FIV) y la tolerancia (T)
211
jRFIV
−= 211
jRFIV
T −==
•Regla empírica (Kleinbaum): Existen problemas decolinealidad si algun FIV es >10, e.d Ri
2=0,9 y Ti<0,1
El problema de la colinealidad
•Detección 2: Realizar un análisis de componentesprincipales y establecer el índice de condición (apartir de los valores propios)
•Regla empírica (Belsley): Indices de condición entre5 y 10 colinealidad débil. Entre 30 y 100 colinealidadmoderada o fuerte.
ΨΨ
de VAPMin de Máx VAP
nescorrelacio de matriz Ψ
El problema de la colinealidad
Con SPSS:Opción Regresión lineal, Estadísticos…
El problema de la colinealidad
Diagnósticos de colinealidada
3,985 1,000 ,00 ,00 ,00 ,008,389E-03 21,794 ,00 ,00 ,35 ,715,505E-03 26,903 ,03 ,29 ,51 ,221,540E-03 50,874 ,96 ,71 ,14 ,06
Dimensión1234
Modelo1
AutovalorIndice decondición (Constante) Altura (cm)
Presióndiastólica
inicial
Presiónsistólicainicial
Proporciones de la varianza
Variable dependiente: Peso en Kg.a.
El problema de la colinealidad
•Ejercicio: Con los datos de colesterol realizar unestudio de colinealidad usando los FIV y losíndices de condición
•Nota: Previamente valorar la necesidad detransformar variables
El problema de la autocorrelación
•Aparición cuando las variablesexplicativas son series temporales•P.e. si miro la altura a lo largo deltiempo 1’60 ⇒ siguiente medida >= 1’60
•Problemas (los de siempre):•Mala estimación•Varianza mal calculada•Predicciones no correctas
El problema de la autocorrelación
•Detección: Test de Durbin-Watson
∑
∑
=
=−−
= n
tt
n
ttt
e
eed
1
2
1
21)(
Tiene en cuenta el residuo de una observacióny el anterior (Datos ordenados!!!)Regla:
d~2 independenciad<2 autocorrelación positivad>2 autocorrelación negativa
Problema: d no tiene distribución (simulación)
El problema de la autocorrelación
Con SPSS:Opción Regresión lineal, Estadísticos…
El problema de la autocorrelación
•Ejercicio: Con el modelo sin colinealidad de losdatos de colesterol validar la hipótesis deindependencia (no autocorrelación)
PrediccionesTras elegir el mejor modelo y validarlo podemos hacerpredicciones puntuales
01
0120 XXXXsty pn−
−−± )'('ˆ ,/α
01
0120 1 XXXXsty pn−
−− +± )'('ˆ ,/α
1. IC predicción del valor medio de Y para unacombinación de X0=(1,X1,X2,…,Xp) observados
2. IC para un valor individual de Y dado x=X0 (intervalode predicción)
PrediccionesTras elegir el mejor modelo y validarlo podemos hacerpredicciones globales
3. IC predicción esperado
4. IC predicción dato observado
01
00 XXXXspnppFy −−± )'('),(ˆ α
01
00 1 XXXXspnppFy −+−± )'('),(ˆ α
Predicciones
•Ejercicio: Con los datos de colesterol y el modelosin colinealidad estimar cuál sería el nivel decolesterol medio para un individuo de 85 años.
•¿y para los que no hacen ejercicio?
Interacción y confusión
CONFUSIÓSituación en la que la relación entre una
determinada exposición y un determinadoresultado es debido a la influencia de una
tercera variable
Interacción y confusión
tercera variable
XVariable independiente
Variable dependiente
Interacción y confusión
Variable independiente
Variable dependiente
Factor de confusiónconfounder
confounding variable
Interacción y confusión
Tasa de mortalidad /1000 (1986) CRUDA AJUSTADA
Costa Rica 3.8 3.7Venezuela 4.4 4.6México 4.9 5.0Cuba 6.7 4.0Canadá 7.3 3.2Estados Unidos 8.7 3.6
Ejemplo intuitivo
Interacción y confusión
X es un confusor......
Y M
X
Y M
X
Y M
X
X NO es un confusor......
Y M
X
Y M
X
Y M
X
Interacción y confusión
CONTROL DE LA CONFUSIÓN
en el Diseño→ Apareamiento→ Restricción
en el Análisis→ Estratificación→ Ajuste (estandarización)→ Apareamiento→ Modelización
Interacción y confusión
Hay interacción cuando:“la relación entre 2 o más factores difiere del
resultados de los efectos individuales”
El efecto puede ser:* Mayor del esperado (interacción positiva o
sinergismo)* Menor del esperado (interacción negativa o
antagonismo)
Interacción y confusión
1. ¿Hay asociación?2. En ese caso: ¿es debida a confusión?3. ¿ Se mantiene la asociación (magnitud similar) enlos estratos formados por una tercera variable?
NO(Hay interacción)
SÍ(No hay interacción)
Interacción y confusión
Ejercicio: Con los datos de Presión arterial, tabaco ycafé, contrastar la existencia de interacción yconfusión y obtener la mejor estimación para el efectode ambos factores
Nota: Previamente debemos calcular la variable deinteracción tabaco y café
top related