2009 m.p.díaz1 introducción a los modelos lineales generalizados continuación …. algunos...
TRANSCRIPT
2009 M.P.Díaz 1
Introducción a los Modelos Lineales Generalizados
Continuación ….
Algunos ejemplos de motivación
2009 M.P.Díaz 2
Ejemplo 1.
Dieta y ganancia de peso: di xi
2 134 2 127 1 70
2 146 2 73 1 118
2 104 2 113 1 101
2 119 2 129 1 84
2 124 2 97 1 107
2 161 2 123 1 132
1 94
Datos de ganancia de peso bajo dos tratamientos
de dieta, duranteun período de tiempo
dado.
2009 M.P.Díaz 3
gpeso
70
80
90
100
110
120
130
140
150
160
170
di et a
1. 0 1. 1 1. 2 1. 3 1. 4 1. 5 1. 6 1. 7 1. 8 1. 9 2. 0
(1) Veamos su distribución…..
2009 M.P.Díaz 4
gpeso
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 1 1620.090226 1620.090226 3.62 0.1043
Error 17 7616.857143 448.050420
Corrected Total 18 9236.947368
R-Square Coeff Var Root MSE gpeso Mean
0.175392 18.74077 21.16720 112.9474
Source DF Type I SS Mean Square F Value Pr > F
dieta 1 1620.090226 1620.090226 3.62 0.1043
Ajuste de un modelo lineal (clásico): Anava.
2009 M.P.Díaz 5
Pear son Res i dual
- 50
- 40
- 30
- 20
- 10
0
10
20
30
40
50
Pr edi ct ed Val ue
100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121
Y los residuos..?
Indaguemos más sobre los componentes del modelo!!
2009 M.P.Díaz 6
Componentes del Modelo (cq. sea).
• Variable respuesta (parte estocástica)• Variables de clasificación o regresoras (parte
sistemática)• Necesidad de cambio de escala del valor esperado.
En qué pensar primero?
Por qué?
Desde dónde lo construimos?
2009 M.P.Díaz 7
Estadística Exploratoria: (DIETA 1) Variable: gpeso Moments N 7 Sum Weights 7 Mean 100.857143 Sum Observations 706 Std Deviation 20.2559515 Variance 430.809524 Skewness 0.0255939 Kurtosis -0.3258568 Uncorrected SS 73790 Corrected SS 2584.85714 Coeff Variation 20.0795553 Std Error Mean 7.84501228
(DIETA 2)
N 12 Sum Weights 12 Mean 119.166667 Sum Observations 1430 Std Deviation 23.0881053 Variance 533.060606 Skewness -0.1586624 Kurtosis 0.68027525 Uncorrected SS 176272 Corrected SS 5863.66667 Coeff Variation 19.3746338 Std Error Mean 6.6649619
2009 M.P.Díaz 8
Modelo Gama (anova, 1 vía,MLG, enlace identidad).
Criterion DF Value Value/DF Deviance 17 0.9783 0.0641 Scaled Deviance 17 19.1173 1.1245 Pearson Chi-Square 17 0.9670 0.0592 Log Likelihood -85.0779
En qué hacer incapié?Cómo es la formulación del componente aleatorio?
Está siendo respetado?
2009 M.P.Díaz 9
Modelo Gama (anova, 1 vía,MLG, enlace identidad).
Parameter Estimate Pr > ChiSq
________________________________________
Intercept 119.1667 <.0001
Dieta 1 -18.3015 0.0439
Dieta 2 0.0000 .
Scale 26.9912
2009 M.P.Díaz 10
Pear son Res i dual
- 0. 4
- 0. 3
- 0. 2
- 0. 1
0. 0
0. 1
0. 2
0. 3
0. 4
Pr edi ct ed Val ue
100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121
2009 M.P.Díaz 11
Ejemplo 2.
Tiempos de sobrevida (en unidades de 10 horas) de animales, sometidos a 3 tipos de veneno, y 4 tratamientos antitóxicos.
Antitóxico_____ __A B C D Veneno39 94 56 60 I34 79 58 5546 88 54 5751 77 60 5633 69 34 60 II24 71 41 5725 63 35 6226 64 27 6036 72 31 6415 48 29 27 III20 49 29 4119 43 10 36
Describir la influencia de ambos
factores en la sobrevida
2009 M.P.Díaz 12
1 2 3
Veneno
10
20
30
40
50
60
70
80
90
100
sob
rev
Antitoxico 1 Antitoxico 2 Antitoxico 3 Antitoxico 4
Descripción de valores medios.
2009 M.P.Díaz 13
Level of Column Estimate Standard Wald p
Intercept 1 3,788181 0,029967 15979,95 0,000000
Antitoxico 1 2 -0,401895 0,065202 37,99 0,000000
Antitoxico 2 3 0,414485 0,038954 113,22 0,000000
Antitoxico 3 4 -0,160917 0,055255 8,48 0,003588
Veneno 1 5 0,279909 0,036333 59,35 0,000000
Veneno 2 6 -0,008019 0,042163 0,04 0,849163
Antitoxico*Veneno 1 7 0,083310 0,078110 1,14 0,286167
Antitoxico*Veneno 2 8 -0,082430 0,093106 0,78 0,375977
Antitoxico*Veneno 3 9 -0,045823 0,047965 0,91 0,339403
Antitoxico*Veneno 4 10 0,006307 0,054552 0,01 0,907955
Antitoxico*Veneno 5 11 0,135878 0,065338 4,32 0,197559
Antitoxico*Veneno 6 12 -0,085558 0,078303 1,19 0,274543
Scale 7,867391 0,802962 96,00 0,000000
Estimación de Parámetros, modelo Normal.
2009 M.P.Díaz 14
Gamma probability plot of observed values
0 10 20 30 40 50 60 70 80 90 100 110
Observed values
0
2
4
6
8
10
12
14
Sta
nd
ard
ga
mm
a q
ua
ntit
le
0.01
0.15
0.30
0.50
0.70
0.85
0.95
0.99
2009 M.P.Díaz 15
Df Stat. Stat/Df
Deviance 36 2,673 0,074239
Scaled Deviance 36 48,441 1,345590
Pearson Chi² 36 2,365 0,065703
Scaled P. Chi² 36 42,872 1,190879
Loglikelihood -179,511
Level of Column Estimate Standard Wald p
Intercept 1 0,02448 0,000895 748,4988 0,000000
Antitoxico 1 2 0,01053 0,001947 29,2392 0,000000
Antitoxico 2 3 -0,00925 0,001163 63,2545 0,000000
Antitoxico 3 4 0,00334 0,001650 4,0875 0,043200
Veneno 1 5 -0,00686 0,001085 40,0469 0,000000
Veneno 2 6 0,00001 0,001259 0,0001 0,993341
Antitoxico*Veneno 1 7 -0,00461 0,002332 3,9072 0,048080
Antitoxico*Veneno 2 8 0,00202 0,002780 0,5296 0,466779
Antitoxico*Veneno 3 9 0,00347 0,001432 5,8751 0,015356
Antitoxico*Veneno 4 10 -0,00026 0,001629 0,0249 0,874583
Antitoxico*Veneno 5 11 -0,00340 0,001951 3,0456 0,050957
Antitoxico*Veneno 6 12 0,00137 0,002338 0,3454 0,556755
Scale 18,12523 3,666258 24,4411 0,000001
Estimaciónde
Parámetros
2009 M.P.Díaz 16
Histogram of Raw Residuals
-30 -25 -20 -15 -10 -5 0 5 10 15 20 25 30
Raw Residuals
0
2
4
6
8
10
12
14
16
18
20
Fre
qu
en
cy
Predicted values by Residuals
10 20 30 40 50 60 70 80 90 100
Predicted values
-30
-25
-20
-15
-10
-5
0
5
10
15
20
25
30
Ra
w R
esi
du
als
Antitoxico*Veneno Predicted Means
Wald X²(6)=15,462, p=,01695
1 2 3
Veneno
0
10
20
30
40
50
60
70
80
90
100
110
120
sob
rev
Antitoxico 1 Antitoxico 2 Antitoxico 3 Antitoxico 4
2009 M.P.Díaz 17
Tiempos de sobrevida de pacientes con cáncer avanzado de estómago, bronquio, colon, ovario o mama,
tratados con ascorbato (no hay datos sobre controles). Estóm. Bronq. colon ovario mama124 81 248 1234 123542 461 377 89 2425 20 189 201 158145 450 1843 356 1166412 246 180 2970 4051 166 537 456 7271112 63 519 380846 64 455 791103 155 406 1804876 859 365 3460146 151 942 719340 166 776396 37 372
223 163138 10172 20
245 283
2009 M.P.Díaz 18
est bron col ova mam
tumor
-400
-200
0
200
400
600
800
1000
1200
1400
1600
1800
2000
2200
2400
tiem
po
Mean Mean±0,95 Conf. Interval
2009 M.P.Díaz 19
SS Df MS F p
Intercept 23149151 1 23149151 51,64067 0,000000
tumor 11535761 4 2883940 6,43344 0,000229
Error 26448144 59 448274
0 200 400 600 800 1000 1200 1400 1600
Predicted Values
-2000
-1500
-1000
-500
0
500
1000
1500
2000
2500
3000
Ra
w R
esi
du
als
-500 0 500 1000 1500 2000 2500 3000
Abs(Residual)
0,0
0,5
1,0
1,5
2,0
2,5
3,0
De
via
tion
fro
m E
xpe
cte
d
,05
,25
,45
,65
,75
,85
,95
,99
Modelo normal con Enlace identidad
2009 M.P.Díaz 20
-2500 -2000 -1500 -1000 -500 0 500 1000 1500 2000 2500 3000
X <= Category Boundary
0
5
10
15
20
25
30
35
40
No
. o
f o
bs.
-500 0 500 1000 1500 2000 2500 3000 3500 4000 4500
Observed Values
0
200
400
600
800
1000
1200
1400
1600
Pre
dict
ed V
alue
s
Modelo normal con Enlace identidad
2009 M.P.Díaz 21
tiempo
No
of
ob
s
tumor: est
-5000
5001000
15002000
25003000
35004000
45000
2
4
6
8
10
12
14
16
18
tumor: bron
-5000
5001000
15002000
25003000
35004000
4500
tumor: col
-5000
5001000
15002000
25003000
35004000
4500
tumor: ova
-5000
5001000
15002000
25003000
35004000
45000
2
4
6
8
10
12
14
16
18
tumor: mam
-5000
5001000
15002000
25003000
35004000
4500
Distribución de frecuencias por grupo
2009 M.P.Díaz 22
tumorTiempo medio
Error Estandar
LI 95% LS 95% N
1 est 286,000 185,6949 -85,575 657,575 13
2 bron 211,588 162,3855 -113,344 536,521 17
3 col 457,412 162,3855 132,479 782,344 17
4 ova 884,333 273,3355 337,390 1431,276 6
5 mam 1395,909 201,8716 991,965 1799,853 11
Estadística Descriptiva por grupo
2009 M.P.Díaz 23
Df Stat. Stat/Df
Deviance 59 66,970 1,135078
Scaled Deviance 59 73,142 1,239702
Pearson Chi² 59 62,882 1,065799
Scaled P. Chi² 59 68,678 1,164038
Loglikelihood -452,901
Degr. of Wald p
Intercept 1 34,77640 0,000000
tumor 4 15,47810 0,003806
Modelo gama con Enlace identidad
2009 M.P.Díaz 24
Level Column Estimate SE Wald p
Intercept c 1 647,048 109,7222 34,77640 0,000000
tumor est 2 -361,048 124,4811 8,41248 0,003727
tumor bron 3 -435,460 116,1280 14,06123 0,000177
tumor col 4 -189,637 137,1138 1,91286 0,166646
tumor ova 5 237,285 289,2118 0,67314 0,411958
Scale 1,092 0,1713 40,64460 0,000000
Deviance residuals by predicted values
-3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5
Deviance residuals
-200
0
200
400
600
800
1000
1200
1400
1600
Pre
dic
ted
va
lue
s
2009 M.P.Díaz 25
Economic Data for Selected Countries
1INFLACIÓN
2DÉBITO
Algeria Australia Austria Belgium Britain Brazil China Czech Republic Denmark Egypt Ethiopia Finland France Germany Greece Haiti Hungary India Indonesia Ireland Italy Japan Kenia Korea Luxemburg Malaysia Mexico Netherlands Norway Peru Poland Portugal South Africa Spain Sri Lanka Sweden Switzerland Taiwan Thailand USA
11,9 19,72,6 4,31,9 3,23,0 10,24,0 1,9
11,1 16,88,0 12,75,9 7,02,5 2,3
16,5 22,218,9 20,1
3,6 3,51,4 2,91,2 2,1
10,2 9,820,2 23,1
7,8 4,912,2 18,9
6,1 11,16,7 4,57,3 8,32,0 1,0
15,7 23,46,0 8,00,8 1,18,2 13,46,7 12,63,7 3,02,0 3,1
13,4 25,46,9 6,99,1 5,9
12,9 14,36,8 3,0
12,4 17,61,7 3,61,9 2,93,3 8,87,1 6,91,4 3,4
Ejemplo:Relación entre nivel
de Inflación y Deuda (por cápita)
OBJETIVO:Construir un
Modelo para finespredictivos
2009 M.P.Díaz 26
0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 18,0 20,0 22,0 24,0 26,0 28,0
DÉBITO
0
2
4
6
8
10
12
14
16
18
20
22
INF
LA
CIÓ
N
1,0000 4,4857 7,9714 11,4571 14,9429 18,4286 21,9143 25,4000
DÉBITO
0
2
4
6
8
10
12
14
16
No
of
ob
s
0,8000 2,9556 5,1111 7,2667 9,4222 11,5778 13,7333 15,8889 18,0444 20,2000
INFLACIÓN
0
2
4
6
8
10
12
No
of
ob
s
2009 M.P.Díaz 27
Normal probability plot of observed vales
-2 0 2 4 6 8 10 12 14 16 18 20 22 24
Observed values
-3,0
-2,5
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
3,0
Sta
nd
ard
no
rma
l qu
an
tile
0.01
0.05
0.15
0.30
0.50
0.70
0.85
0.95
0.99
Predicted values by Residuals
0 2 4 6 8 10 12 14 16 18 20 22
Predicted values
-8
-6
-4
-2
0
2
4
6
8
Ra
w R
esi
du
als
Df Stat. Stat/Df
Deviance 38 243,0367 6,395703
Scaled Deviance 38 40,0000 1,052632
Pearson Chi² 38 243,0367 6,395703
Scaled P. Chi² 38 40,0000 1,052632
Loglikelihood -92,8442
Modelo NORMAL con
Enlace LOG
2009 M.P.Díaz 28
Level of Column Estimate Standard Wald p
Intercept 1 1,177671 0,124420 89,5915 0,00
DEBT 2 0,070617 0,006575 115,3543 0,00
Scale 2,464938 0,275588 80,0000 0,00
Prediced values by observed values
0 2 4 6 8 10 12 14 16 18 20 22
Predicted values
-2
0
2
4
6
8
10
12
14
16
18
20
22
24
Ob
serv
ed
va
lue
s )exp(
)log(
1
1
Deb
Deb
o
o
exp(ˆ
)0706.017.1exp(ˆ Deb
2009 M.P.Díaz 29
Df Stat. Stat/Df
Deviance 38 7,4068 0,194917
Scaled Deviance 38 41,1949 1,084075
Pearson Chi² 38 7,5462 0,198584
Scaled P. Chi² 38 41,9698 1,104468
Loglikelihood -89,9091
Level of Column Estimate Standard Wald p
Intercept 1 0,983284 0,375953 6,84054 0,008911
DÉBITO 2 0,667382 0,081687 66,74836 0,000000
Scale 5,561727 1,208184 21,19109 0,000004
Modelo GamaCon enlace Identidad
Deb6673.09832.0ˆ
2009 M.P.Díaz 30
1 1 0,291 1 0,331 2 0,331 2 0,321 3 0,341 3 0,312 1 0,402 1 0,402 2 0,432 2 0,362 3 0,422 3 0,403 1 0,403 1 0,353 2 0,383 2 0,32
3 3 0,383 3 0,334 1 0,904 1 1,304 2 0,904 2 1,104 3 0,904 3 0,905 1 0,445 1 0,445 2 0,455 2 0,455 3 0,425 3 0,46
Lab. Tanda Conc.
Lab. Tanda Conc. Ejemplo:Comportamiento de los
laboratorios que participan en ensayos
cooperativos de análisis químicos.
OBJETIVO:Evaluar componentes
de variación
2009 M.P.Díaz 31
1 2 3 4 5 6
Lab
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
Co
nc
Tanda 1 Tanda 2 Tanda 3
2009 M.P.Díaz 32
SS df MS F p
Intercept 9,292336 1 9,292336 1475,625 0,000000
Lab 1,890214 5 0,378043 60,033 0,000000
Tanda 0,009939 2 0,004969 0,789 0,469330
Lab*Tanda 0,194461 10 0,019446 3,088 0,078068
Error 0,113350 18 0,006297
0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2
Predicted Values
-0,3
-0,2
-0,1
0,0
0,1
0,2
0,3
Ra
w R
esi
du
als
Modelo Normal clásico, con predictor
correspondiente aun ANAVA
2009 M.P.Díaz 33
-0,04 -0,02 0,00 0,02 0,04 0,06 0,08 0,10 0,12 0,14 0,16 0,18 0,20 0,22
Abs(Residual)
0,0
0,5
1,0
1,5
2,0
2,5
3,0D
evi
atio
n f
rom
Exp
ect
ed
,05
,25
,45
,65
,75
,85
,95
,99
Case Numbers vs. Residuals
-5 0 5 10 15 20 25 30 35 40
Case Number
-0,3
-0,2
-0,1
0,0
0,1
0,2
0,3
Ra
w R
esi
du
als
Mal comportamiento delModelo normal
2009 M.P.Díaz 34
Df Stat. Stat/Df
Deviance 18 0,29982 0,016657
Scaled Deviance 18 36,00000 2,000000
Pearson Chi² 18 0,29641 0,016467
Scaled P. Chi² 18 35,59029 1,977238
Loglikelihood 76,48752
Modelo Normal Inverso, con enlace
identidad
Y va. NI(,2)E(Y)= =
2009 M.P.Díaz 35
Level of Column Estimate Standard Wald p
Intercept 1 0,508056 0,007453 4647,075 0,000000
Lab 1 2 -0,188056 0,009269 411,645 0,000000
Lab 2 3 -0,106389 0,010750 97,950 0,000000
Lab 3 4 -0,148056 0,009942 221,787 0,000000
Lab 4 5 0,491944 0,031614 242,151 0,000000
Lab 5 6 -0,064722 0,011671 30,755 0,000000
Tanda 1 7 -0,006389 0,010863 0,346 0,556432
Tanda 2 8 -0,016389 0,010297 2,533 0,111480
Lab*Tanda 1 9 -0,003611 0,013264 0,074 0,785430
Lab*Tanda 2 10 0,021389 0,012968 2,720 0,039071
Lab*Tanda 3 11 0,004722 0,015402 0,094 0,759154
Lab*Tanda 4 12 0,009722 0,014936 0,424 0,515085
Lab*Tanda 5 13 0,021389 0,014494 2,178 0,140034
Lab*Tanda 6 14 0,006389 0,013748 0,216 0,642129
Lab*Tanda 7 15 0,106389 0,047891 4,935 0,026318
Lab*Tanda 8 16 0,016389 0,044444 0,136 0,712311
Lab*Tanda 9 17 0,003056 0,016658 0,034 0,854460
Lab*Tanda 10 18 0,023056 0,016463 1,961 0,161368
Scale 0,091259 0,010755 72,000 0,000000
2009 M.P.Díaz 36
Lab*Tanda Predicted Means
1 2 3 4 5 6
Lab
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
1,3
1,4
Co
nc
Tanda 1 Tanda 2 Tanda 3
Deviance residuals by predicted values
-0,3 -0,2 -0,1 0,0 0,1 0,2
Deviance residuals
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
1,1
1,2
Pre
dict
ed v
alue
s
Inverse normal probability plot of observed values
0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6
Observed values
0
1
2
3
4
5
6
7
8
9
10
Sta
nd
ard
inve
rse
no
rma
l qu
an
tile
0.01
0.50
0.70
0.80
0.90
0.95
0.98
0.99