ii verano de las matem¶aticas del cimat iv verano de probabilidad y estad¶‡stica · 2011. 7....
TRANSCRIPT
-
II Verano de las Matemáticas del CIMAT
IV Verano de Probabilidad y Estad́ıstica
Pruebas Secuenciales de Hipótesis
Optimalidad en Estad́ıstica:
El Caso de Prueba de Hipótesis.
Nakamura-Villa-Ramos
Guanajuato, Gto. 11-22 de julio del 2011.
1
-
Pruebas Secuenciales de Hipótesis
Abraham Wald (1902-1950)
2
-
Recordar: Lema de Neyman-Pearson
Tenemos x1, · · · , xn i.i.d. f(x; θ). Para contrastarH0 : θ = θ0 vs H1 : θ = θ1 θ0 < θ1
La prueba más poderosa es: Rechazar H0 si
Λn > C, donde Λn =
∏ni=1 f(xi; θ1)∏ni=1 f(xi; θ0)
y el valor espećıfico de C se determina dependiendo del tamaño
de la prueba, i.e. C es tal que P0(Λn > C) = α.
• Rechazo H0—————————–>——————————–|——————————–
C
3
-
Prueba Secuencial de Razón de Probabilidades
Sean A < B ciertas constantes. Observo x1, entonces, si
• Λ1 < A acepto H0.
• Λ1 > B acepto H1.
• A ≤ Λ1 ≤ B tomo un nueva observación, calculo Λ2 y regresoal primer punto. Iteramos.
Acepto H0
————–|——————–|————–Continúo
4
-
Prueba Secuencial de Razón de Probabilidades
• ¿Cómo determino A y B?
• ¿Cómo tomo una decisión si pasara que siempre A ≤ Λn ≤ B?
• ¿Qué se gana con respecto a la prueba basada en el Lema deNeyman-Pearson?
Acepto H0
————–|——————–|————–Continúo
5
-
Determinación de A y B
Supongamos α y β con valores dados por el experto en el problema.
α = P (Rech.H0 | H0)= P (Rech. a la primera ó a la segunda ó · · · | H0)
=∞∑
j=1
P (Λj > B y A ≤ Λk ≤ B, k = 1, · · · , j − 1 | H0)
β = P (Acep.H0 | H1)= P (Acep. a la primera ó a la segunda ó · · · | H1)
=∞∑
j=1
P (Λj < A y A ≤ Λk ≤ B, k = 1, · · · , j − 1 | H1)
Hay resolver para A y B con este par de ecuaciones · · ·6
-
Determinación de A y B
Para darnos una idea del problema numérico involucrado, supon-gamos que x ∼ N(µ, σ2 = 1) y deseamos contrastar
H0 : µ = µ0 vs H1 : µ = µ1
α =∞∑
j=1
P (Λj > B y A ≤ Λk ≤ B, k = 1, · · · , j − 1 | H0)
= P0(Λ1 > B) + P0(Λ2 > B y A ≤ Λ1 ≤ B) + · · ·= P0(Λ1 > B) + P0(A ≤ Λ1 ≤ B) P0(Λ2 > B | A ≤ Λ1 ≤ B) + · · ·
y hay que resolver para A y B, pero, por ejemplo, sólo una de estasexpresiones es:
P0(A ≤ Λ1 ≤ B) = Φ(logB + (µ21 − µ20)/2
µ1 − µ0
)−Φ
(logA + (µ21 − µ20)/2
µ1 − µ0
)
y ya nos podemos imaginar que si esta complicado · · ·7
-
Cotas para A y B
Resultado: Para la prueba SPRT de Wald se tiene:
β
1− α ≤ A y B ≤1− β
α
Justificación: Sea x = (x1, · · · , xk)
Ek ={
x ∈ Rk | H1 se acepta}
Fk ={
x ∈ Rk | H0 se acepta}
Note que los Ek’s son mutuamente excluyentes y los Fk’s también.
Supongamos que la prueba secuencial termina en tiempo finito (lo
cual, veremos, no es un supuesto muy restrictivo). Entonces
P [ (∪Ek) ∪ (∪Fk) | H0 ] = 1P [ (∪Ek) ∪ (∪Fk) | H1 ] = 1
8
-
Cotas para A y B
Note que
Λk =
∏ki=1 f(xi; θ1)∏ki=1 f(xi; θ0)
≡ f1(x)f0(x)
y que, en Ek, se cumple que Λk > B, de modo que f1(x) > Bf0(x).Entonces
α = P ( Rech. H0 | H0 ) = P (∪Ek | H0 ) =∞∑
k=1
P ( Ek | H0 )
=∞∑
k=1
∫
Ekf0(x) dx ≤
1
B
∞∑
k=1
∫
Ekf1(x) dx =
1
B
∞∑
k=1
P ( Ek | H1 )
=1− β
Bde aqúı que
B ≤ 1− βα
9
-
Cotas para A y B
Procediendo en forma similar (hacerlo de ejercicio), se ve que
β = P ( Acep. H0 | H1 ) ≤ A(1− α)y, por lo tanto
β
1− α ≤ A
Resumiendo: Dados α y β, los valores de A y B que definen la
SPRT, satisfacen:
β
1− α ≤ A y B ≤1− β
α
10
-
Relación de α y β con A y B
Una forma equivalente de ver las cotas anteriores es: Dados A yB, los valores posibles para α y β satisfacen:
α +1
Aβ ≤ 1
Bα + β ≤ 1• Elección conservadora:
A = β y B = 1/α
• Frontera de Wald
A = β/(1−α) y B = (1−β)/α1/B 1
A
1
α
β
11
-
SPRT en el caso Bernoulli
Supongamos xi ∼ B(p) y consideremos el juego de hipótesisH0 : p = 0.5 vs H1 : p = 0.6
Sea Λ1 = f1(x1)/f0(x1), la SPRT nos dice que aceptemos H1 si
Λ1 > B, que aceptemos H0 si Λ1 < A y que continuemos muestre-
ando si A ≤ Λ1 ≤ B.
En el paso k:
Sk ≡ logΛk = log∏k
i=1 f1(xi)∏ki=1 f0(xi)
= Sk−1 + logf1(xk)
f0(xk)
Si definimos zj = log[f1(xj)/f0(xj)], entonces
Sk = z1 + z2 + · · ·+ zk−1 + zk = Sk−1 + zkNote que las zj’s son i.i.d., de aqui que Sk es una caminata aleato-
ria.12
-
SPRT en el caso Bernoulli
Note que f1(x) = px1(1 − p1)1−x y f0(x) = px0(1 − p0)1−x, con
p0 = 0.5 y p1 = 0.6.
zj = logf1(xj)
f0(xj)=
logp1p0si xj = 1
log1−p11−p0 si xj = 0=
{0.18232 si xj = 1
−0.22314 si xj = 0Aśı que, en el paso k:
si xk = 1 : Sk = Sk−1 + 0.18232 > logB ⇒ H1si xk = 0 : Sk = Sk−1 − 0.22314 < logA ⇒ H0
si logA ≤ Sk ≤ logB ⇒ ir al paso k + 1Si queremos α = 0.01 y β = 0.05 y usando los valores de Wald:
logA = logβ
1− α = −2.986 y logB = log1− β
α= 4.554
Este proceso es ilustrado en las gráficas siguientes.
13
-
0 50 100 150 200 250 300
−4
−2
02
46
Ejemplo SPRT bajo H0
Sk
14
-
0 50 100 150 200 250 300
−4
−2
02
46
Ejemplo SPRT bajo H1
Sk
15
-
Simulación anterior en R
# H0 : p = 0.5 vs H1 : p = 0.6graf
-
Ejercicio: SPRT en pruebas con la Normal
Supongamos xi ∼ N(µ, σ2 = 1) y consideremos el contraste de lashipótesis
H0 : µ = µ0 vs H1 : µ = µ1
a. Para valores de α y β dados, muestre que se puede tomar una decisión altiempo N , donde N es el primer valor de n tal que
n∑
i=1
xi /∈ (an, bn)
donde
an =logA
µ1 − µ0+ n
µ1 + µ02
bn =logB
µ1 − µ0+ n
µ1 + µ02
b. Para el caso particular µ0 = 4, µ1 = 5, simule este proceso de decisión.
c. Use simulación para estimar el tamaño de muestra esperado.
17
-
Tamaño Esperado de Muestra
Consideremos la prueba SPRT para el contraste
H0 : f(x) = f0(x) vs H1 : f(x) = f1(x)
Deseamos tener una idea del tamaño de muestra requerido bajoerrores tipos I y II dados. En otras palabras, queremos el tiempoesperado en el que la caminata SPRT alcanza ciertas barreras.
Resultado: Sea N el tiempo (aleatorio) de paro. Entonces
Ek(logΛN) = µkEk(N)
donde
µk = Ek
(log
f1(x)
f0(x)
)≡ Ek(z), k = 0,1
Usando este resultado, se tiene que
Ek(N) =Ek(logΛN)
µk, k = 0,1
18
-
Tamaño Esperado de Muestra
Justificación: Sea SN = logΛN =∑N
1 zi. Entonces (obviando
notación de con respecto a cual distribución se calculan las esperanzas) :
E(SN) = E
N∑
i=1
zi
= EN E
N∑
i=1
zi | N
= EN [ NE(z) ] = E(z) E(N)
Esto es,
Ek(logΛN) = µkEk(N), k = 0,1
19
-
Aproximación al Valor de Ek(logΛN)
Lo siguiente es un razonamiento heuŕıstico, para un argumento
formal ver Siegmund (1985).
Recuerde que para la SPRT, A, B, α y β están relacionados por
β
1− α ≤ A y B ≤1− β
α
La propuesta de Wald implica tomar A y B en la frontera. Estas
aproximaciones son buenas si, al tiempo de paro, SN = logΛN no
queda muy arriba de log(B) o muy por abajo de log(A). Esto
es, podemos pensar a SN , al tiempo de paro, como una variable
Bernoulli. Por lo tanto,
E(logΛN) ≈ log(A) P (SN < logA) + log(B) P (SN > logB)
20
-
Tamaño Esperado de Muestra de la SPRT
Como vimos Ek(N) = Ek(logΛN) / µk, k = 0,1, entonces
Ek(N) ≈1
µk{ log(A) Pk(SN < logA) + log(B) Pk(SN > logB) }
de aqúı que, bajo H0 y H1, los números esperados de observaciones
necesarias para tomar una decisión son, respectivamente:
E0(N) ≈1
E0(z){ log(A) (1− α) + log(B) α }
≈ 1E0(z)
{α log
(1− β
α
)+ (1− α) log
(β
1− α) }
E1(N) ≈1
E1(z){ log(A) β + log(B) (1− β) }
≈ 1E1(z)
{β log
(β
1− α)
+ (1− β) log(1− β
α
) }
21
-
Ejemplo: Comparación Wald vs Neyman-Pearson
Supongamos el caso Normal con varianza conocida y el contrasteH0 : µ = µ0 contra H1 : µ = µ1. El tamaño de muestra requeridopara la prueba más poderosa de tamaño α y con poder fijo en1− β, está dado por (suponiendo σ = 1):
nα,β =(z1−β − zα)2(µ1 − µ0)2
El porcentaje de ahorro en tamaño de muestra de la prueba secuen-cial con respecto al tamaño requerido por la prueba más poderosaes:
100
(1− Ek(N)
nα,β
)%
Para calcular Ek(N) se requieren E0(z) y E1(z). Para la Normales fácil ver que
E0(z) = −1
2(µ1 − µ0)2 y E1(z) =
1
2(µ1 − µ0)2
22
-
Ejemplo: Comparación Wald vs Neyman-Pearson
Bajo H0 la comparación arroja:
αβ .01 .02 .03 .04 .05
.01 58 54 51 49 47
.02 60 56 53 50 49
.03 61 57 54 51 50
.04 62 58 55 52 50
.05 63 59 55 53 51
y, bajo H1, los ahorros en tamaños de muestra son:
αβ .01 .02 .03 .04 .05
.01 58 60 61 62 63
.02 54 56 57 58 59
.03 51 53 54 55 55
.04 49 50 51 52 53
.05 47 49 50 50 51
23
-
Comparación Wald vs Neyman-Pearson
• Las buenas noticias:
– La prueba de Wald reduce sustancialmente el esfuerzo ex-
perimental necesario para tomar una decisión.
– En palabras de Wald: “While current tests cannot be car-
ried out without finding the probability distribution of the
statistic on which the test is based, there are no distribution
problems in connection with sequential tests”.
24
-
Comparación Wald vs Neyman-Pearson
• Las malas:
– Las propiedades óptimas (que veremos enseguida) de mini-
mización de tamaño esperado de muestra, son válidas para
hipótesis simples y no es claro que se extiendan automáticamente
a hipótesis compuestas.
– Si queremos hacer estimación puntual, algunas propiedades,
por ejemplo insesgamiento, no necesariamente se cumplen
cuando los datos provienen de un proceso de toma de de-
cisiones secuencial.
25
-
Resultados Preliminares para Optimalidad
Sea A ⊂ Rn, entonces∫
AΛn(x)f0(x) =
∫
A
f1(x)
f0(x)f0(x)dx =
∫
Af1(x)dx = P1(A)
Ahora, si N es un tiempo de paro, se tiene la Identidad de Waldpara Razones de Verosimilitudes:
∫
AΛN(x)f0(x)dx = P1(A)
donde interpretamos a A como su intersección con {ω|N es tiempo de paro}.
Sea g una función convexa, entonces, usando la desigualdad deJensen y la igualdad anterior (y recordando que N es un tiempode paro), se obtiene: (siguiente lámina)
Jensen : Si g es convexa, entonces E[g(x)] ≥ g[E(x)].26
-
Resultados Preliminares para Optimalidad
Denotemos por {D = H1} al evento que lleva a la decisión deaceptar H1 y similarmente definimos el evento {D = H0}.∫
Ωg(ΛN)f0(x)dx = α
[∫
D=H1
g(ΛN)1
αf0(x)dx
]+ (1− α)
[∫
D=H0
g(ΛN)1
1− αf0(x)dx]
≥ αg(∫
D=H1
ΛN1
αf0(x)dx
)+ (1− α)g
(∫
D=H0
ΛN1
1− αf0(x)dx)
= αg
(P1(D = H1)
α
)+ (1− α)g
(P1(D = H0)
1− α
)
= αg
(1− β
α
)+ (1− α)g
(β
1− α
)
En particular, para g(x) = −log(x), tenemos que∫
Ωlog(ΛN)f0(x)dx ≤ αlog
(1− β
α
)+ (1− α)log
(β
1− α)
Importante: Este resultado no depende de la SPRT, es general,
para cualquier procedimiento secuencial con la propiedad de que
sus probabilidades de los dos tipos de errores son α y β.
27
-
Optimalidad de la SPRT
Recuerde que
E0(N) =E0(logΛN)
E0(z)
note que (Jensen con g cóncava):
E0(z) = E0
(log
f1(x)
f0(x)
)≤ log
[E0
(f1(x)
f0(x)
)]= log(1) = 0
esto es, E0(z) es negativo. Entonces, de la desigualdad en lalámina anterior:
E0(N) ≥1
E0(z)
{αlog
(1− β
α
)+ (1− α)log
(β
1− α)}
El tamaño de muestra esperado de cualquier prueba secuen-cial con probabilidades de error α y β es mayor o igual queel tamaño de muestra esperado para la SPRT. Un argumentobasado en simetŕıa justifica que también es válida esta afirmaciónbajo H1.
28
-
Optimalidad de la SPRT
La prueba secuencial de Wald es óptima en el sentido de que
es la prueba secuencial con el ḿınimo tamaño de muestra
esperado, entre todas las pruebas secuenciales de tamaño α
y potencia 1− β.
29
-
Hipótesis Compuestas
Supongamos, por ejemplo, que estamos interesados en
H0 : θ ≤ θ∗ vs H1 : θ > θ∗en principio, podŕıamos considerar hipótesis auxiliares
H0 : θ = θ0 vs H1 : θ = θ1
donde θ0 ≤ θ∗ y θ1 > θ∗ y constrúır la función de potencia com-pleta. Existen procedimientos para hacer esto, (por supuesto sinnecesidad de efectuar las pruebas individuales) para algunos casos,e.g. para miembros de la familia exponencial de 1 parámetro. Eneste curso no cubriremos este tema pero recomendamos:
• Siegmund, D. (1985). Sequential Analysis. Springer.
• Wetherill, G.B. & Glazenbrook, K.D. (1986). Sequential Meth-ods in Statistics. Chapman and Hall.
30