interval os

Upload: ancianitico2

Post on 01-Mar-2016

1 views

Category:

Documents


0 download

DESCRIPTION

Intervalos de confianza

TRANSCRIPT

  • Captulo 5

    Intervalos de confianza

    5.1 Introduccion

    Hasta ahora se han calculado estimaciones puntuales de los parametros, en lasque se desconoca cual poda ser el error cometido, es decir. En este tema se va atratar de cuantificar como es de buena la estimacion encontrada. La estimacionpor intervalo va a dar lugar a un conjunto de posibles valores entre los que apriori se encuentra el verdadero valorcon cierta probabilidad.

    5.2 Intervalo de confianza

    Definicion 5.2.1. Un conjunto aleatorio es una familia de subconjuntos delespacio parametrico que son independientes del valor del parametro, es decir,S(~x) independiente de . Los valores que forman un conjunto aleatorio nodependen del parametro pero s su distribucion poblacional.

    Un intervalo aleatorio es un conjunto aleatorio que tiene forma de intervalo.

    Ejemplo 5.2.1. Si X N(, ), con = (, ). Un conjunto aleatorio seraS(~x) = (X 7,X + 7) = IR2.

    Por un lado se tiene que

    X 7 N(,

    n

    ) 7 = N

    ( 7,

    n

    )con lo que se ve que la distribucion de S(~x) depende de . Pero para una muestraconcreta, los valores no dependen de .

    Definicion 5.2.2. Sea X una v.a. con distribucion F, y consideremosuna m.a.s. (X1, . . . , Xn). Supongamos que existen dos estadsticos T1 y T2 tal

    1

  • 2 CAPITULO 5. INTERVALOS DE CONFIANZA

    que con probabilidad 1 se verifica que

    P(~x (X1, . . . , Xn)/T1(~x) g() T2(~x)) 1

    entonces para una muestra concreta ~x = (x1, . . . , xn), (T1(~x), T2(~x)) es el inter-valo de condianza de g() con coeficiente de confianza 1 .

    Si construyo un i.c. para el verdadero valor del parametro, con = 0.05,entonces

    P(~x (X1, . . . , Xn)/ [T1(~x), T2(~x)]) 1 = 0.95 ()

    Esto es una probabilidad a priori, es decir, que de cada 100 muestras que to-me del espacio muestral, solo se que en media 95 van a dar lugar a la construccionde un intervalo de confianza que contiene al verdadero valor del parametro.

    Esto supone una division del espacio muestral en dos partes pero no sabemosla forma de dicha division. Por tanto, una vez que tengo la muestra concreta

    ~x0 (X1, . . . , Xn) no se si pertenece a la zona del 5% donde no se cumple(*) o a la del 95% donde s se cumple (*), por lo que no es correcto aseverar que

    P( [T1(~x0), T2(~x0)]) 0.95

    , es decir, a posteriori solo tengo acierto ( [T1(~x0), T2(~x0)]) o fallo ( /[T1(~x0), T2(~x0)]).

    Para la construccion de intervalos de confianza se usaran distintos metodoscomo el de la funcion pivotal, que utiliza en la mayora de los casos pivotesbasados en estadsticos suficientes que sean funciones monotonas con respecto alparametro, aunque en el caso continuo tambien podra utilizarse el logaritmo dela funcion de distribucion.

    5.3 Metodo de la funcion pivotal

    Sea X una v.a. con distribucion F, .

    1. Consideramos T (x1, . . . , xn; ) una funcion de la muestra y el parametroque verifica que la distribucion de T es independiente de y conocida.

    2. Dados 1, 2 con i 0, i = 1, 2 y 1+2 = , se buscan constantes c1, c2tales que:

    P(~x X n/T (x1, . . . , xn; ) < c1) 1P(~x X n/T (x1, . . . , xn; ) c2) 1 2

  • 5.3. METODO DE LA FUNCION PIVOTAL 3

    Con lo que se tiene que

    P(~x X n/c1 T (x1, . . . , xn; ) c2) = P(~x X n/T (x1, . . . , xn; ) c2)

    P(~x X n/T (x1, . . . , xn; ) < c1) (1 2) 1 = 1

    3. Ahora intento despejar y expresar c1 T (x1, . . . , xn; ) c2 en funcion de.

    Por esta metodo, tenemos una ecuacion con dos incognitas 1 y 2 con1 +2 = , por lo que el i.c. no va a ser unico, dependera de como se eligen 1y 2. En muchas ocasiones se toma 1 = 2 = /2.

    Ejemplo 5.3.1. Si X N(, 1), para construir un i.c. para con 1 = 0.99a traves de una m.a.s. (X1, . . . , Xn), podemos considerar la media muestral X N

    (,

    1n

    ). Esta no es una funcion pivote pero si X = T (x1, . . . , xn; )

    N

    (0,

    1n

    ). Tomamos 1 = 2 = /2 = 0.005, con lo que buscaremos las

    constantes c1 y c2 que verifiquen

    P(~x X n/X < c1) 0.005P(~x X n/X c2) 0.995

    Para n = 25,

    P(X < c1) = P(25(X ) < 25c1) = P(N(0, 1) < 5c1) = 0.005

    P(X c2) = P(N(0, 1) 5c2) = 0.995

    y mirando en la tabla de la funcion de distribucion de la N(0, 1) tenemos c1 y c2que verifican

    P(~x X n/c1 X c2) = 1 = 0.99Pero,

    c1 X c2 X c2 X c1Con lo que un i.c. para viene dado por [X c2,X c1].

    Proposicion 5.1. Sea X una v.a. con distribucion F, absolutamentecontinua y consideremos una m.a.s. (X1, . . . , Xn). Entonces

    ni=1

    lnF(xi) (n, 1) se puede utilizar como funcion pivote.

  • 4 CAPITULO 5. INTERVALOS DE CONFIANZA

    Demostracion.

    Veamos que lnF(x) (1, 1) con lo que tendramos demostrado elresultado.

    F(x) = P(X x) F(X) (0, 1) lnF(X) (0,+)

    Si consideramos la transformacion de X, Y = lnF(X), veamos cual es sudistribucion.

    FY (y) = P(Y y) = P( lnF(X) y) = P(F(X) ey) = 1P(F(X) ey)

    Como F es estrictamente creciente por ser absolutamente continua, se tiene

    FY (y) = 1 P(X F1 (ey)) = 1 F(F1 (ey)) = 1 ey Y (1, 1)

    La obtencion de un intervalo de confianza dependera del estadstico elegido eincluso, para un mismo estadstico, de la eleccion de los extremos. Por ello parecenatural mostrar la necesidad de abordar algun criterio para comparar intervalos.Un metodo particularmente intuitivo es buscar intervalos de mnima amplitud o,cuando esta sea aleatoria, de mnima amplitud esperada.

    Este resultado da un metodo general para encontrar funciones pivotes. Nohay una unica funcion pivote por lo que tendremos que comparar y decidir cuandoun i.c. es mejor que otro.

    Ejemplo 5.3.2. Sea X U(0, ). Para construir un i.c. para con coeficientede confianza 1 a traves de una m.a.s. (X1, . . . , Xn), podemos considerar dosprocedimientos:

    1. Como F, es absolutamente continua, ni=1

    lnF(xi) = ni=1

    lnxi

    (n, 1) la podemos utilizar como funcion pivote.

    Tomamos 1, 2 0 tales que 1 + 2 = , y buscamos a, b que verifiquen

    P(~x X n/a ni=1

    lnxi b) = 1 ()

    para lo que recurriremos a la distribucion 2 haciendo las transformacionesoportunas.

    Una vez calculados a y b, se transformara () en un i.c. para el verdaderovalor del parametro .

    a ni=1

    lnxi b ea/n n

    xi eb/n n

    xi

  • 5.3. METODO DE LA FUNCION PIVOTAL 5

    2. Otra forma es tomar como punto de partida un buen estimador puntual delparametro . En el caso de la distribucion U(0, ), parece logico tomar X(n)que es el EMV, es suficiente, ...

    La distribucion de X(n) depende de , por lo que no sirve como funcionpivote, pero considerando la transformacion g(x) = x/ se tiene que U =X(n)/ sirve como funcion pivote ya que su distribucion es de la forma

    FU (u) =

    0 si u 0un si u (0, 1)1 si u 1

    Consideramos 1, 2 0 tales que 1 + 2 = , y buscamos a, b queverifiquen

    P(~x X n/a X(n)/ b) = 1 ()obteniendo como valores de a = n

    1 y b = n

    1 2. Transformando

    convenientemente () se obtiene un i.c. para :

    n1 X(n)/ n

    1 2

    X(n)n1 2

    X(n)n1

    Como los intervalos calculados no son unicos, para elegir los valores de 1 y2 mas adecuados se suele considerar el siguiente criterio de optimalidad:

    Manteniendo el mismo nivel de confianza 1 , se toman 1 y 2 talesque hagan mas pequena la amplitud del intervalo. Dicha amplitud en general esvariable segun el valor de la muestra , por lo que se intenta minimizar la amplitudesperada del intervalo.

    Ejemplo 5.3.3. En el ejemplo anterior, la amplitud del intervalo calculado porel segundo procedimiento es

    X(n)n1

    X(n)n1 2

    = X(n)

    [1

    n1

    1n1 2

    ]y su valor esperado,

    E(X(n))[

    1n1

    1n1 2

    ]=

    n

    n+ 1

    [1

    n1

    1n1 2

    ]que depende de n, 1 y 2. Fijando, por ejemplo, 1, como 1+2 = , se tieneque

    n

    n+ 1

    [1

    n1

    1n1 2

    ]es creciente en 2 por lo que la amplitud mnima se tendra para 2 = 0 y 1 = .

  • 6 CAPITULO 5. INTERVALOS DE CONFIANZA

    El metodo de Neyman permite construir regiones de confianza sin necesidadde trabajar con estadsticos monotonos, aunque cuando la distribucion es discretaeste metodo presenta algunas dificultades practicas.

    5.4 Metodo de Neyman

    Este metodo consiste en buscar un estadstico T (x1, . . . , xn) y dos funciones c1()y c2() tal que

    P(~x X n/c1() T (x1, . . . , xn) c2()) 1

    Como tenemos una ecuacion y dos incognitas, buscaremos 1, 2 con i 0, i = 1, 2 y 1 + 2 = , tales que:

    P(~x X n/T (x1, . . . , xn) < c1()) 1P(~x X n/T (x1, . . . , xn) c2()) 1 2

    Obtenida una realizacion muestral ~x, tenemos un valor del estadstico T (~x) =t, con lo que habra que transformar la condicion c1() t c2() en una del tipo1(t) 2(t), para lo que suele recurrirse a una interpretacion geometrica.Ejemplo 5.4.1. Sea X U(0, ). Para construir un i.c. para con coeficientede confianza 1 a traves de una m.a.s. (X1, . . . , Xn), podemos considerar comoestadstico a X(n) con funcion de distribucion:

    FX(n)(t) =

    0 si t 0(t

    )nsi t (0, )

    1 si t

    Consideramos 1, 2 0 tales que 1 + 2 = , y buscamos c1() y c2()que verifiquen

    P(~x X n/X(n) < c1()) 1 c1() = n1P(~x X n/X(n) c2()) 1 2 c2() = n

    1 2

    En este caso c1() y c2() son funciones lineales de . Tanto graficamentecomo analticamente se obtiene de forma inmediata un i.c. para :

    n1 X(n) n

    1 2

    X(n)n1 2

    X(n)n1

    Salvo en el caso de trabajar en poblaciones normales y alguna otra mas esmuy difcil encontrar i.c. exactos con lo que habra que recurrir a i.c. asintoticos.

  • 5.5. INTERVALOS DE CONFIANZA ASINTOTICOS 7

    5.5 Intervalos de confianza asintoticos

    En ocasiones es posible construir funciones pivote cuyas distribuciones no sonconocidas, pero que para tamanos de muestra suficientemente grandes converjana distribuciones completamente especificadas.

    Para muestras grandes, y bajo las condiciones habituales de regularidad, losestimadores maximo verosmiles o la funcion score convergen asintoticamente ala normal y son muy utiles para construir intervalos asintoticos. En este casose necesitan estimadores que converjan uniformemente (CUAN), puesto de otraforma no es posible deducir de forma sencilla intervalos de confianza.

    Por ejemplo los estimadores maximo verosmiles, bajo condiciones de regu-laridad bastante generales verifican la siguiente propiedad:

    n(Tn ) L N(0, v())

    A partir de este resultado es sencillo construir una funcion pivote de lasiguiente forma:

    nTn v()

    N(0, 1)

    Otra forma habitual de construir i.c. consiste en combinar el Teorema Cen-tral del Lmite y el metodo delta, que permite obtener intervalos de confianzaasintoticos basados en estimadores que sean funcion de la media muestral.

    Ejemplo 5.5.1. Sea X una v.a. con distribucion B(1, p) y (X1, . . . , Xn) unam.a.s. de tamano suficientemente grande (en general mayor o igual a 30).

    Aplicando el TCL o las propiedades del EMV sabemos que

    n

    X pp(1 p)

    L N(0, 1)

    Por lo tanto

    P(~x X n/z/2 n

    X pp(1 p) z/2) = 1 ' P(~x X

    n/z/2 N(0, 1) z/2)

    y se puede calcular de manera aproximada el valor de z/2.

    El siguiente paso sera expresar la anterior region como un intervalo de p:

    z/2 n

    X pp(1 p) z/2

    X pp(1 p) z/2n (X p)2p(1 p) z

    2/2

    n

  • 8 CAPITULO 5. INTERVALOS DE CONFIANZA

    expresandolo como una inecuacion de segundo grado en p, se calculan los puntosdonde se anula la expresion:

    p =2X +

    z2/2

    n z/2

    n

    z4/2

    n2+ 4X(1X)

    2(1 +

    z2/2

    n

    )Representando graficamente la anterior desigualdad se pueden obtener dos

    tipos de intervalos segun que las dos races sean menores que 1 o la raz mayorsupere el valor 1.

    Cuando el tamano de muestra sea suficientemente grande para despreciarlos terminos con denominador igual a n, el anterior intervalo toma la forma:

    p =2X + z/2

    n

    4X(1X)

    2= X +z/2

    n

    X(1X)

    Un problema que suele aparecer con bastante frecuencia es que el parametroa estimar a parece tambien en la varianza del estadstico; en estos casos es con-veniente realizar alguna transformacion que estabilice la varianza del nuevoestadstico.

    Ejemplo 5.5.2. Sea X una v.a. con distribucion P() y (X1, . . . , Xn) una m.a.s.de tamano suficientemente grande. Para calcular un i.c. de , consideramos el

    estimador X que verifica que E(X) = y Var(X) =

    ny ademas

    n(X ) L N(0, )

    Para estabilizar la varianza y obtener una nueva expresion cuya varianzasea constante, se puede emplear la transformacion g() =

    .

    Aplicando el metodo delta sabemos que

    n(g(X) g()) L N(0, (g())2)

    y como g() =1

    2, tenemos que

    (g())2 = 14

    =14

    con lo cual n(X

    ) ' N(0, 1

    2)

  • 5.6. INTERVALOS BOOTSTRAP 9

    y se puede emplear como pivote para calcular el intervalo.

    P(z/2 2n(X

    ) z/2) = 1

    Con lo que un i.c. para vendra dado por[(X z/2

    2n

    )2

    (X +

    z/2

    2n

    )2]

    5.6 Intervalos Bootstrap

    El bootstrap es un metodo de analisis disenado para aproximar la distribucionmuestral de un estadstico, dependiente de un parametro , considerando la mues-tra aleatoria (x1, . . . , xn) como una nueva poblacion cuya distribucion podra sercalculada de manera exacta o estimada empleando el metodo de Montecarlo.

    La idea basica es considerar la funcion de distribucion emprica Fn de lamuestra (x1, . . . , xn) como la funcion de distribucion teorica de la nueva poblaciony seleccionar muestras aleatorias, con reemplazamiento, de tamano n (x1, . . . , xn)que se denominan muestras bootstrap. A partir estas muestras bootstrap secalcula el estimador bootstrap T , que tiene la misma forma que el estimadorinicial T .

    La distribucion de T , que depende de Fn, se denomina distribucion boots-trap y el parametro de interes se denota por .

    Los metodos bootstrap suponen que se verifican alguna de las dos condicionessiguientes:

    1. La funcion de distribucion emprica Fn es una buena aproximacion a ladistribucion teorica F y por lo tanto la distribucion de T es similar a lade T .

    2. La distribucion de T es parecida a la de T .

    Bajo ambas hipotesis el problema de realizar inferencias sobre se reducea estudiar la distribucion bootstrap de T , utilizando en general el metodo deMontecarlo y obteniendo tantas muestras bootstrap como sea necesario.

    El metodo t bootstrap.Este metodo se basa en el empleo de un funcion pivote de tipo t, definidapor la expresion

    T (x1, . . . , xn) T

  • 10 CAPITULO 5. INTERVALOS DE CONFIANZA

    donde T (x1, . . . , xn) es un estimador del parametro y T un estimador dela varianza del estimador.

    Cuando la distribucion de la funcion pivote es desconocida se puede apro-ximar su comportamiento mediante el pivote bootstrap

    T (x1, . . . , xn) T (x1, . . . , xn)T

    de manera que se puedan calcular dos valores c1 y c2 tales que

    1 = PFn(c1 T

    (x1, . . . , xn) T (x1, . . . , xn)T

    c2)

    ' P(c1 T (x1, . . . , xn)

    T c2

    )En consecuencia el intervalo de confianza es de la forma(

    T (x1, . . . , xn) c2 T T (x1, . . . , xn) c1 T)

    Este procedimiento presenta un inconveniente importante ya que es nece-sario conocer una expresion explcita para la varianza del estimador.

    El metodo percentil.La justificacion teorica de este procedimiento para la construccion de inter-valos de confianza se basa en la hipotesis de que exista una funcion creciente tal que [T (x1, . . . , xn)] () siga una distribucion completamente es-pecificada para todo F (en particular para Fn), es decir,

    P

    ([T (x1, . . . , xn)] () x

    )= (x)

    donde (x) es continua, creciente y (x) = 1(x)El intervalo de confianza se obtiene de la siguiente forma

    1 = P( z/2 [T (x1, . . . , xn)] () z/2

    )= PFn

    ( z/2 [T (x1, . . . , xn)] [T (x1, . . . , xn)] z/2

    )Para calcular el extremo inferior del intervalo se plantea la igualdad

    2= PFn

    ([T (x1, . . . , x

    n)] [T (x1, . . . , xn)] z/2

    )= PFn

    ([T (x1, . . . , x

    n)] [T (x1, . . . , xn)] z/2

    )

  • 5.6. INTERVALOS BOOTSTRAP 11

    = PFn(T (x1, . . . , x

    n) 1

    ([T (x1, . . . , xn)] z/2

    ) )con lo cual se tiene que

    1([T (x1, . . . , xn)] z/2

    )= F1Boot

    (2

    )Utilizando el mismo razonamiento se obtiene el extremo superior del inter-valo

    1([T (x1, . . . , xn)] + z/2

    )= F1Boot

    (1

    2

    )A partir de estas expresiones se puede determinar el intervalo de confianzade sin necesidad de conocer las funciones y .

    P(z/2 [T (x1, . . . , xn)] () z/2)

    = P

    (1

    ([T (x1, . . . , xn)] z/2

    ) 1 ([T (x1, . . . , xn)] + z/2))

    = P

    (F1Boot

    (2

    ) F1Boot

    (1

    2

    ))

    Por lo tanto el intervalo de confianza buscado es

    IC() =

    (F1Boot

    (2

    ) F1Boot

    (1

    2

    ))