ii verano de las matem¶aticas del cimat iv verano de probabilidad y estad¶‡stica · 2011. 7....

II Verano de las Matemáticas del CIMAT

IV Verano de Probabilidad y Estad́ıstica

Pruebas Secuenciales de Hipótesis

Optimalidad en Estad́ıstica:

El Caso de Prueba de Hipótesis.

Nakamura-Villa-Ramos

Guanajuato, Gto. 11-22 de julio del 2011.

1

Pruebas Secuenciales de Hipótesis

Abraham Wald (1902-1950)

2

Recordar: Lema de Neyman-Pearson

Tenemos x1, · · · , xn i.i.d. f(x; θ). Para contrastarH0 : θ = θ0 vs H1 : θ = θ1 θ0 < θ1

La prueba más poderosa es: Rechazar H0 si

Λn > C, donde Λn =

∏ni=1 f(xi; θ1)∏ni=1 f(xi; θ0)

y el valor espećıfico de C se determina dependiendo del tamaño

de la prueba, i.e. C es tal que P0(Λn > C) = α.

• Rechazo H0—————————–>——————————–|——————————–

C

3

Prueba Secuencial de Razón de Probabilidades

Sean A < B ciertas constantes. Observo x1, entonces, si

• Λ1 < A acepto H0.

• Λ1 > B acepto H1.

• A ≤ Λ1 ≤ B tomo un nueva observación, calculo Λ2 y regresoal primer punto. Iteramos.

Acepto H0

————–|——————–|————–Continúo

4

Prueba Secuencial de Razón de Probabilidades

• ¿Cómo determino A y B?

• ¿Cómo tomo una decisión si pasara que siempre A ≤ Λn ≤ B?

• ¿Qué se gana con respecto a la prueba basada en el Lema deNeyman-Pearson?

Acepto H0

————–|——————–|————–Continúo

5

Determinación de A y B

Supongamos α y β con valores dados por el experto en el problema.

α = P (Rech.H0 | H0)= P (Rech. a la primera ó a la segunda ó · · · | H0)

=∞∑

j=1

P (Λj > B y A ≤ Λk ≤ B, k = 1, · · · , j − 1 | H0)

β = P (Acep.H0 | H1)= P (Acep. a la primera ó a la segunda ó · · · | H1)

=∞∑

j=1

P (Λj < A y A ≤ Λk ≤ B, k = 1, · · · , j − 1 | H1)

Hay resolver para A y B con este par de ecuaciones · · ·6

Determinación de A y B

Para darnos una idea del problema numérico involucrado, supon-gamos que x ∼ N(µ, σ2 = 1) y deseamos contrastar

H0 : µ = µ0 vs H1 : µ = µ1

α =∞∑

j=1

P (Λj > B y A ≤ Λk ≤ B, k = 1, · · · , j − 1 | H0)

= P0(Λ1 > B) + P0(Λ2 > B y A ≤ Λ1 ≤ B) + · · ·= P0(Λ1 > B) + P0(A ≤ Λ1 ≤ B) P0(Λ2 > B | A ≤ Λ1 ≤ B) + · · ·

y hay que resolver para A y B, pero, por ejemplo, sólo una de estasexpresiones es:

P0(A ≤ Λ1 ≤ B) = Φ(logB + (µ21 − µ20)/2

µ1 − µ0

)−Φ

(logA + (µ21 − µ20)/2

µ1 − µ0

)

y ya nos podemos imaginar que si esta complicado · · ·7

Cotas para A y B

Resultado: Para la prueba SPRT de Wald se tiene:

β

1− α ≤ A y B ≤1− β

α

Justificación: Sea x = (x1, · · · , xk)

Ek ={

x ∈ Rk | H1 se acepta}

Fk ={

x ∈ Rk | H0 se acepta}

Note que los Ek’s son mutuamente excluyentes y los Fk’s también.

Supongamos que la prueba secuencial termina en tiempo finito (lo

cual, veremos, no es un supuesto muy restrictivo). Entonces

P [ (∪Ek) ∪ (∪Fk) | H0 ] = 1P [ (∪Ek) ∪ (∪Fk) | H1 ] = 1

8

Cotas para A y B

Note que

Λk =

∏ki=1 f(xi; θ1)∏ki=1 f(xi; θ0)

≡ f1(x)f0(x)

y que, en Ek, se cumple que Λk > B, de modo que f1(x) > Bf0(x).Entonces

α = P ( Rech. H0 | H0 ) = P (∪Ek | H0 ) =∞∑

k=1

P ( Ek | H0 )

=∞∑

k=1

∫

Ekf0(x) dx ≤

1

B

∞∑

k=1

∫

Ekf1(x) dx =

1

B

∞∑

k=1

P ( Ek | H1 )

=1− β

Bde aqúı que

B ≤ 1− βα

9

Cotas para A y B

Procediendo en forma similar (hacerlo de ejercicio), se ve que

β = P ( Acep. H0 | H1 ) ≤ A(1− α)y, por lo tanto

β

1− α ≤ A

Resumiendo: Dados α y β, los valores de A y B que definen la

SPRT, satisfacen:

β

1− α ≤ A y B ≤1− β

α

10

Relación de α y β con A y B

Una forma equivalente de ver las cotas anteriores es: Dados A yB, los valores posibles para α y β satisfacen:

α +1

Aβ ≤ 1

Bα + β ≤ 1• Elección conservadora:

A = β y B = 1/α

• Frontera de Wald

A = β/(1−α) y B = (1−β)/α1/B 1

A

1

α

β

11

SPRT en el caso Bernoulli

Supongamos xi ∼ B(p) y consideremos el juego de hipótesisH0 : p = 0.5 vs H1 : p = 0.6

Sea Λ1 = f1(x1)/f0(x1), la SPRT nos dice que aceptemos H1 si

Λ1 > B, que aceptemos H0 si Λ1 < A y que continuemos muestre-

ando si A ≤ Λ1 ≤ B.

En el paso k:

Sk ≡ logΛk = log∏k

i=1 f1(xi)∏ki=1 f0(xi)

= Sk−1 + logf1(xk)

f0(xk)

Si definimos zj = log[f1(xj)/f0(xj)], entonces

Sk = z1 + z2 + · · ·+ zk−1 + zk = Sk−1 + zkNote que las zj’s son i.i.d., de aqui que Sk es una caminata aleato-

ria.12

SPRT en el caso Bernoulli

Note que f1(x) = px1(1 − p1)1−x y f0(x) = px0(1 − p0)1−x, con

p0 = 0.5 y p1 = 0.6.

zj = logf1(xj)

f0(xj)=

logp1p0si xj = 1

log1−p11−p0 si xj = 0=

{0.18232 si xj = 1

−0.22314 si xj = 0Aśı que, en el paso k:

si xk = 1 : Sk = Sk−1 + 0.18232 > logB ⇒ H1si xk = 0 : Sk = Sk−1 − 0.22314 < logA ⇒ H0

si logA ≤ Sk ≤ logB ⇒ ir al paso k + 1Si queremos α = 0.01 y β = 0.05 y usando los valores de Wald:

logA = logβ

1− α = −2.986 y logB = log1− β

α= 4.554

Este proceso es ilustrado en las gráficas siguientes.

13

0 50 100 150 200 250 300

−4

−2

02

46

Ejemplo SPRT bajo H0

Sk

14

0 50 100 150 200 250 300

−4

−2

02

46

Ejemplo SPRT bajo H1

Sk

15

Simulación anterior en R

# H0 : p = 0.5 vs H1 : p = 0.6graf

Ejercicio: SPRT en pruebas con la Normal

Supongamos xi ∼ N(µ, σ2 = 1) y consideremos el contraste de lashipótesis

H0 : µ = µ0 vs H1 : µ = µ1

a. Para valores de α y β dados, muestre que se puede tomar una decisión altiempo N , donde N es el primer valor de n tal que

n∑

i=1

xi /∈ (an, bn)

donde

an =logA

µ1 − µ0+ n

µ1 + µ02

bn =logB

µ1 − µ0+ n

µ1 + µ02

b. Para el caso particular µ0 = 4, µ1 = 5, simule este proceso de decisión.

c. Use simulación para estimar el tamaño de muestra esperado.

17

Tamaño Esperado de Muestra

Consideremos la prueba SPRT para el contraste

H0 : f(x) = f0(x) vs H1 : f(x) = f1(x)

Deseamos tener una idea del tamaño de muestra requerido bajoerrores tipos I y II dados. En otras palabras, queremos el tiempoesperado en el que la caminata SPRT alcanza ciertas barreras.

Resultado: Sea N el tiempo (aleatorio) de paro. Entonces

Ek(logΛN) = µkEk(N)

donde

µk = Ek

(log

f1(x)

f0(x)

)≡ Ek(z), k = 0,1

Usando este resultado, se tiene que

Ek(N) =Ek(logΛN)

µk, k = 0,1

18

Tamaño Esperado de Muestra

Justificación: Sea SN = logΛN =∑N

1 zi. Entonces (obviando

notación de con respecto a cual distribución se calculan las esperanzas) :

E(SN) = E

N∑

i=1

zi

= EN E

N∑

i=1

zi | N

= EN [ NE(z) ] = E(z) E(N)

Esto es,

Ek(logΛN) = µkEk(N), k = 0,1

19

Aproximación al Valor de Ek(logΛN)

Lo siguiente es un razonamiento heuŕıstico, para un argumento

formal ver Siegmund (1985).

Recuerde que para la SPRT, A, B, α y β están relacionados por

β

1− α ≤ A y B ≤1− β

α

La propuesta de Wald implica tomar A y B en la frontera. Estas

aproximaciones son buenas si, al tiempo de paro, SN = logΛN no

queda muy arriba de log(B) o muy por abajo de log(A). Esto

es, podemos pensar a SN , al tiempo de paro, como una variable

Bernoulli. Por lo tanto,

E(logΛN) ≈ log(A) P (SN < logA) + log(B) P (SN > logB)

20

Tamaño Esperado de Muestra de la SPRT

Como vimos Ek(N) = Ek(logΛN) / µk, k = 0,1, entonces

Ek(N) ≈1

µk{ log(A) Pk(SN < logA) + log(B) Pk(SN > logB) }

de aqúı que, bajo H0 y H1, los números esperados de observaciones

necesarias para tomar una decisión son, respectivamente:

E0(N) ≈1

E0(z){ log(A) (1− α) + log(B) α }

≈ 1E0(z)

{α log

(1− β

α

)+ (1− α) log

(β

1− α) }

E1(N) ≈1

E1(z){ log(A) β + log(B) (1− β) }

≈ 1E1(z)

{β log

(β

1− α)

+ (1− β) log(1− β

α

) }

21

Ejemplo: Comparación Wald vs Neyman-Pearson

Supongamos el caso Normal con varianza conocida y el contrasteH0 : µ = µ0 contra H1 : µ = µ1. El tamaño de muestra requeridopara la prueba más poderosa de tamaño α y con poder fijo en1− β, está dado por (suponiendo σ = 1):

nα,β =(z1−β − zα)2(µ1 − µ0)2

El porcentaje de ahorro en tamaño de muestra de la prueba secuen-cial con respecto al tamaño requerido por la prueba más poderosaes:

100

(1− Ek(N)

nα,β

)%

Para calcular Ek(N) se requieren E0(z) y E1(z). Para la Normales fácil ver que

E0(z) = −1

2(µ1 − µ0)2 y E1(z) =

1

2(µ1 − µ0)2

22

Ejemplo: Comparación Wald vs Neyman-Pearson

Bajo H0 la comparación arroja:

αβ .01 .02 .03 .04 .05

.01 58 54 51 49 47

.02 60 56 53 50 49

.03 61 57 54 51 50

.04 62 58 55 52 50

.05 63 59 55 53 51

y, bajo H1, los ahorros en tamaños de muestra son:

αβ .01 .02 .03 .04 .05

.01 58 60 61 62 63

.02 54 56 57 58 59

.03 51 53 54 55 55

.04 49 50 51 52 53

.05 47 49 50 50 51

23

Comparación Wald vs Neyman-Pearson

• Las buenas noticias:

– La prueba de Wald reduce sustancialmente el esfuerzo ex-

perimental necesario para tomar una decisión.

– En palabras de Wald: “While current tests cannot be car-

ried out without finding the probability distribution of the

statistic on which the test is based, there are no distribution

problems in connection with sequential tests”.

24

Comparación Wald vs Neyman-Pearson

• Las malas:

– Las propiedades óptimas (que veremos enseguida) de mini-

mización de tamaño esperado de muestra, son válidas para

hipótesis simples y no es claro que se extiendan automáticamente

a hipótesis compuestas.

– Si queremos hacer estimación puntual, algunas propiedades,

por ejemplo insesgamiento, no necesariamente se cumplen

cuando los datos provienen de un proceso de toma de de-

cisiones secuencial.

25

Resultados Preliminares para Optimalidad

Sea A ⊂ Rn, entonces∫

AΛn(x)f0(x) =

∫

A

f1(x)

f0(x)f0(x)dx =

∫

Af1(x)dx = P1(A)

Ahora, si N es un tiempo de paro, se tiene la Identidad de Waldpara Razones de Verosimilitudes:

∫

AΛN(x)f0(x)dx = P1(A)

donde interpretamos a A como su intersección con {ω|N es tiempo de paro}.

Sea g una función convexa, entonces, usando la desigualdad deJensen y la igualdad anterior (y recordando que N es un tiempode paro), se obtiene: (siguiente lámina)

Jensen : Si g es convexa, entonces E[g(x)] ≥ g[E(x)].26

Resultados Preliminares para Optimalidad

Denotemos por {D = H1} al evento que lleva a la decisión deaceptar H1 y similarmente definimos el evento {D = H0}.∫

Ωg(ΛN)f0(x)dx = α

[∫

D=H1

g(ΛN)1

αf0(x)dx

]+ (1− α)

[∫

D=H0

g(ΛN)1

1− αf0(x)dx]

≥ αg(∫

D=H1

ΛN1

αf0(x)dx

)+ (1− α)g

(∫

D=H0

ΛN1

1− αf0(x)dx)

= αg

(P1(D = H1)

α

)+ (1− α)g

(P1(D = H0)

1− α

)

= αg

(1− β

α

)+ (1− α)g

(β

1− α

)

En particular, para g(x) = −log(x), tenemos que∫

Ωlog(ΛN)f0(x)dx ≤ αlog

(1− β

α

)+ (1− α)log

(β

1− α)

Importante: Este resultado no depende de la SPRT, es general,

para cualquier procedimiento secuencial con la propiedad de que

sus probabilidades de los dos tipos de errores son α y β.

27

Optimalidad de la SPRT

Recuerde que

E0(N) =E0(logΛN)

E0(z)

note que (Jensen con g cóncava):

E0(z) = E0

(log

f1(x)

f0(x)

)≤ log

[E0

(f1(x)

f0(x)

)]= log(1) = 0

esto es, E0(z) es negativo. Entonces, de la desigualdad en lalámina anterior:

E0(N) ≥1

E0(z)

{αlog

(1− β

α

)+ (1− α)log

(β

1− α)}

El tamaño de muestra esperado de cualquier prueba secuen-cial con probabilidades de error α y β es mayor o igual queel tamaño de muestra esperado para la SPRT. Un argumentobasado en simetŕıa justifica que también es válida esta afirmaciónbajo H1.

28

Optimalidad de la SPRT

La prueba secuencial de Wald es óptima en el sentido de que

es la prueba secuencial con el ḿınimo tamaño de muestra

esperado, entre todas las pruebas secuenciales de tamaño α

y potencia 1− β.

29

Hipótesis Compuestas

Supongamos, por ejemplo, que estamos interesados en

H0 : θ ≤ θ∗ vs H1 : θ > θ∗en principio, podŕıamos considerar hipótesis auxiliares

H0 : θ = θ0 vs H1 : θ = θ1

donde θ0 ≤ θ∗ y θ1 > θ∗ y constrúır la función de potencia com-pleta. Existen procedimientos para hacer esto, (por supuesto sinnecesidad de efectuar las pruebas individuales) para algunos casos,e.g. para miembros de la familia exponencial de 1 parámetro. Eneste curso no cubriremos este tema pero recomendamos:

• Siegmund, D. (1985). Sequential Analysis. Springer.

• Wetherill, G.B. & Glazenbrook, K.D. (1986). Sequential Meth-ods in Statistics. Chapman and Hall.

30

ii verano de las matem¶aticas del cimat iv verano de probabilidad y estad¶‡stica · 2011. 7....

Documents