probabilidad e inferencia bayesiana3 1. el teorema de bayes dentro del marco bayesiano tenemos que x...

28
PROBABILIDAD E INFERENCIA BAYESIANA Índice 1. El teorema de Bayes 3 1.1. Distribución a priori uniforme truncada ................. 3 1.2. Usos de la función de verosimilitud ................... 5 2. Distribuciones conjugadas 7 2.1. Distribución binomial .......................... 7 2.2. Elicitación de los hiperparámetros de la distribución beta para propor- ciones .................................. 9 2.3. Distribución binomial negativa ..................... 10 2.4. Distribución geométrica ......................... 10 2.5. Distribución multinomial ........................ 10 2.6. Distribución de Poisson ......................... 11 2.7. Distribución exponencial ......................... 11 2.8. Distribución normal ........................... 12 3. Distribuciones no informativas 15 3.1. La a priori de Jeffreys .......................... 16 3.2. Otras alternativas ............................ 18 3.3. Problemas con las distribuciones impropias ............... 19 3.4. Marginalización ............................. 19 4. Inferencia bayesiana 21 4.1. Estimación puntual ........................... 21 4.2. Contraste de hipótesis .......................... 24 5. Inferencia predictiva 27 1

Upload: others

Post on 06-Oct-2020

12 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

PROBABILIDAD E INFERENCIABAYESIANA

Índice

1. El teorema de Bayes 31.1. Distribución a priori uniforme truncada . . . . . . . . . . . . . . . . . 31.2. Usos de la función de verosimilitud . . . . . . . . . . . . . . . . . . . 5

2. Distribuciones conjugadas 72.1. Distribución binomial . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2. Elicitación de los hiperparámetros de la distribución beta para propor-

ciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.3. Distribución binomial negativa . . . . . . . . . . . . . . . . . . . . . 102.4. Distribución geométrica . . . . . . . . . . . . . . . . . . . . . . . . . 102.5. Distribución multinomial . . . . . . . . . . . . . . . . . . . . . . . . 102.6. Distribución de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . 112.7. Distribución exponencial . . . . . . . . . . . . . . . . . . . . . . . . . 112.8. Distribución normal . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3. Distribuciones no informativas 153.1. La a priori de Jeffreys . . . . . . . . . . . . . . . . . . . . . . . . . . 163.2. Otras alternativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183.3. Problemas con las distribuciones impropias . . . . . . . . . . . . . . . 193.4. Marginalización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4. Inferencia bayesiana 214.1. Estimación puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . 214.2. Contraste de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . 24

5. Inferencia predictiva 27

1

Page 2: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

2

Apuntes para la asignatura Métodos Bayesianos del Grado en Estadística de laUniversidad de Extremadura.

Autor: Francisco José Clemente García

Curso: 2018/19

Escrito y compilado en TEX.

Page 3: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

3

1. El teorema de Bayes

Dentro del marco bayesiano tenemos que x será el conjunto de datos, „ seráun parámetro desconocido del que partimos con una distribución a priori g(„), y laverosimilitud f (x |„) = L(„) de los datos dado el parámetro „. Nuestro objetivo serállegar a una distribución a posteriori de g(„|x) condicionada a la la muestra x converosimilitud conocida es g(„|x)

Teorema 1.1. Sean X y „ variables aleatorias con funciones de densidad f (x |„) y g(„).

g(„|x) =L(„)g(„)RL(„)g(„) d„

La inferencia bayesiana es una consecuencia de esta distribución. El denominadores una constante normalizadora que garantiza que el valor de la integral sea 1. Enconsecuencia, lo anterior queda expresado como

g(„|x) ∝ L(„)g(„)

El aprendizaje bayesiano será una actualización de g(„) a g(„|x) según

g(„|x1) ∝ f (x1|„)g(„)

g(„|x1; x2) ∝ f (x2|„)f (x1|„)g(„) ∝ f (x2|„)g(„|x1)

: : :

g(„|x) ∝nYi=1

f (xi |„)g(„) = L(„)g(„)

Por lo tanto, el teorema de Bayes nos muestra cómo el conocimiento acerca delparámetro „ es continuamente modificado según adquirimos nuevos datos.

1.1. Distribución a priori uniforme truncada

Muchas veces somos capaces en un problema binomial de especificar claramentesobre qué región es imposible que esté el parámetro, pero no de especificar mejornuestro conocimiento sobre él. Podemos pensar en utilizar una distribución a priori querefleje esta ignorancia, para ello consideremos una uniforme truncada ı ∼ unif (ı0; ı1).Esto es g(ı|ı0; ı1) = 1

ı1−ı0si ı ∈ (ı0; ı1) ⊆ [0; 1].

La distribución a posteriori de ı|x es

g(ı|x; ı0; ı1) ∝ Γ(n + 2)

Γ(y + 1)Γ(n − y + 1)ı(y+1)−1(1− ı)(n−y+1)−1; y =

nXi=1

xi

Page 4: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

4

Notemos que el denominador de la función es p (W ∈ (ı0; ı1) |y + 1; n − y + 1) siW ∼ beta (y + 1; n − y + 1). Lo que puede resolverse computacionalmente en R.

La media y la varianza a posteriori son

E (ı|x; ı0; ı1) =y + 1

n + 2

p (W ∈ (ı0; ı1)|y + 2; n − y + 1)

p (W ∈ (ı0; ı1)|y + 1; n − y + 1)

Var (ı|x; ı0; ı1) =

=(y + 2)(y + 1)

(n + 3)(n + 2)

p(W ∈ (ı0; ı1)|y + 3; n − y + 1)

p(W ∈ (ı0; ı1)|y + 1; n − y + 1)− E (ı|x; ı0; ı1)

Ejemplo. Supongamos que creemos que la proporción de mujeres que actualmenteestudia en la universidad está entre el 0:35 y el 0:7, i.e.,

g (ı) =

(1

0:7− 0:35; ı ∈ (0:35; 0:7)

0; ı =∈ (0:35; 0:7)

Asumamos además que tomamos una muestra al azar de la población de 10 estu-diantes y encontramos que 6 son hombres y 4 son mujeres, o sea y = 4 y n = 10.El intervalo de confianza clásico basado en el teorema central del límite a pesar deltamaño muestral, dada la casi simetría de la distribución poblacional, se puede aplicar,y será

ı ± 1:96pı(1− ı)=n

lo que produce (0:0963; 0:703).

La aproximación bayesiana nos da una distribución posterior:

g(ı|n = 10; y = 4; ı0 = 0:35; ı1 = 0:70) =

Γ(12)Γ(5)Γ(7)

ı4(1− ı)6

k(0:70; 5; 7)− k(0:35; 5; 7)

donde

k(z; ¸; ˛) =

Z z

0

Γ(¸+ ˛)

Γ(¸)Γ(˛)x¸−1(1− ¸)˛−1 dx

Entonces

E (ı|n = 10; y = 4; ı0 = 0:35; ı1 = 0:7) = 0:4823673

y un intervalo de confianza de 0:95 es

I0:95(ı) = (0:35614; 0:66802)

Page 5: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

5

1.2. Usos de la función de verosimilitud

Berger et al. (1998) presentan diferentes usos para la función de verosimilitud L(„)dentro del mundo bayesiano:

1. Reporte científico: se considera una buena práctica de reporte presentar sepa-radamente L(„) y g(„|x), a menudo gráficamente, para indicar el efecto de ladistribución a priori. Esto le permite a otros investigadores utilizar sus propiasdistribuciones a priori.

2. Análisis de sensibilidad: es importante estudiar la sensibilidad a g(„), y tenerdisponible L(„) para este propósito es valioso.

3. Coste de elicitación: obtener distribuciones a priori subjetivas puede ser difícil,tanto en tiempo como en esfuerzo. Suele ser efectivo eliminar los parámetrosde molestia de una forma básica, produciendo L(„), y concentrar la elicitaciónsubjetiva a g(„).

4. Aunque la objetividad no se puede garantizar en ningún estudio, el presentarL(„) ayuda a dar esta impresión a muchos investigadores.

5. Combinación de verosimilitudes: si se obtiene información sobre „ de diferentesfuentes independientes, y vienen con sus respectivas verosimilitudes, digamosLi („), podemos resumir toda esa información como

QiLi („). Esta es la base del

metaanálisis. De hecho, no se pueden multiplicar a posterioris de esta forma.

6. A prioris impropias: se reducen los peligros de utilizar a prioris impropias.

Page 6: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

6

Page 7: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

7

2. Distribuciones conjugadas

La mayoría de situaciones no son sencillas de resolver. En este sentido, la conjuga-ción de distribuciones es un punto de apoyo de gran importancia a la hora de obtenerdistribuciones a posteriori. Resolver el mantra bayesiano

g(„|x) ∝ f (x |„)g(„)

es fácil cuando se usan densidades a priori conjugadas con las verosimilitudes.

Si una distribución a priori g(„) pertenece a una familia de distribuciones D, en-tonces diremos que es una distribución conjugada respecto a la verosimilitud f (x |„) sila distribución a posteriori g(„|x) también pertenece a la clase D.

La conjugación nos limita a la selección de una clase de a prioris limitada y lainformación a priori solo puede utilizarse para la selección de los hiperparámetros. Sila clase es lo suficientemente grande esto puede no ser un gran problema.

2.1. Distribución binomial

Sea x una muestra aleatoria simple de una distribución Be („), donde el valor de „es desconocido. También supondremos a priori que

„ ∼ beta (¸; ˛)

Entonces la distribución a posteriori para los datos obtenidos

„|x ∼ beta

¸+

nXi=1

xi ; ˛ + n −nXi=1

xi

!Si x es una muestra aleatoria simple obtenida de manera que xi ∼ Be („), la

verosimilitud seráL(„) ∝ „

Pn

i=1xi (1− „)

n−Pn

i=1xi

y con 0 ≤ „ ≤ 1, la distribución conjugada será

g(„) ∝ „¸−1 (1− „)˛−1

¸ y ˛ son los hiperparámetros del problema, que son los parámetros de la distri-bución a priori. Si comparamos la a priori con la verosimilitud vemos que podemosasociar ¸− 1!

Pn

i=1xi y ˛ − 1! n −

Pn

i=1xi . Por lo tanto, el experto que debe

expresar su información apriorística puede realizar la tarea mental de extraer una mues-tra imaginaria de 0 y 1 de tamaño ¸+ ˛ − 2 y distribuirlos como su experiencia se lodicte. El tamaño de esta muestra imaginaria puede asociarse con el nivel de confianza

Page 8: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

8

subjetiva que el experto tenga en sus asignaciones. Esta distribución a priori se puederesumir mediante

E („) =¸

¸+ ˛

moda („) =¸− 1

¸+ ˛ − 2

Var („) =¸˛

(¸+ ˛)2(¸+ ˛ + 1)

La esperanza de „ corresponde a la probabilidad marginal de obtener un éxito antesde obtener cualquier observación:

E („) =

Z„g(„) d„ =

Zp(X = 1|„)g(„) d„ = p(X = 1)

Ya que la varianza de „ es una función decreciente de ¸+˛ para una media dada, lasuma de los hiperparámetros, ¸+˛, es también llamada la precisión de la distribución.

La distribución posterior es

g(„|x) ∝ „¸+Pn

i=1xi−1

(1− „)˛+n−

Pn

i=1xi−1

que puede verse como beta`¸+

Pn

i=1xi ; ˛ + n −

Pn

i=1xi´, y así la precisión se in-

crementa por el tamaño muestral n.

La media posterior se puede expresar como:

¸+Pn

i=1xi

¸+ ˛ + n=

¸+ ˛

¸+ ˛ + n· ¸

¸+ ˛+

n

¸+ ˛ + n

Pn

i=1xi

n

lo que es una media ponderada:

E („|x; ¸; ˛) = !E („|¸; ˛) + (1− !)x ; ! =¸+ ˛

¸+ ˛ + n

Ejemplo. Este ejemplo es desarrollado por Draper (2000) y hace referencia a entradasde pacientes a un hospital universitario con infarto agudo de miocardio. Se considerala tasa de mortalidad de los pacientes en los treinta días posteriores a la admisión enel hospital. Se conoce que en Inglaterra esta tasa es 0.15 (no necesariamente paraeste hospital en particular). Para elicitar la distribución a priori sobre la proporción depacientes con este tipo de infarto que muere en los treinta días siguientes, se utilizaesta información como, digamos, el promedio. Ahora se necesita un poco más deinformación y el analista, tal vez usando el Teorema Central del Límite, piensa que el95% de las posibles tasas de mortalidad para este hospital deben estar entre el 5% y el

Page 9: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

9

30%. Debemos buscar por lo tanto una distribución beta (¸; ˛) que tenga una mediade 0.15 y el área bajo la curva entre los límites (0.05, 0.30) debe ser igual a 0.95.Mediante ensayo y error se encuentra que ¸ = 4:5 y ˛ = 25:5 se tiene una distribucióncon las características deseada.

Esto es:

Hiperparámetros: (¸; ˛) = (4:5; 25:5)

A priori : ffi|¸; ˛ ∼ beta (¸; ˛)

Verosimilitud: xi ∼ Be („)

La función de verosimilitud de los datos es:

L(ffi) = p(x |„) = „s(1− „)n−s ∝ beta (s + 1; n − s + 1)

donde s =P

ixi . Hemos observado 400 personas con esta dolencia en el hospital, de

los que 72 fallecieron en los siguientes treinta días, lo que produce una verosimilitudL(„) ∝ beta (73; 329). La distribución posterior será, por lo tanto,

g(„|s = 72; n = 400) ∝ beta (76:5; 353:5)

La información muestral equivalente en la distribución a priori se puede asociar conn′ = ¸+ ˛ = 4:5 + 25:5 = 30. La información muestral es muy superior a la a priori.

2.2. Elicitación de los hiperparámetros de la distribución beta para pro-porciones

1. Determinamos la probabilidad r de que un elemento sacado al azar sea un éxito.Esta probabilidad será considerada como la media de la beta (¸; ˛).

r =¸

¸+ ˛

2. Supuesto que la primera extracción ha sido un éxito, determinamos la probabi-lidad r+ de que el segundo elemento seleccionado sea otro éxito. La regla diceque la densidad actualizada es una beta (¸+ 1; ˛), luego:

r+ =¸

¸+ ˛ + 1

3. Resolvemos simultáneamente (¸ = r(1−r+)

r+−r

˛ = (1−r)(1−r+)r+−r

Page 10: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

10

4. Comprobamos la consistencia: preguntamos por la probabilidad que que la se-gunda extracción resulte un éxito bajo el supuesto de que la primera fue unfracaso, a la que denotaremos r−. Utilizando los valores de ¸ y ˛ ya calculados,obtenemos

r− =¸

¸+ ˛ + 1

y vemos si dichos valores concuerda,

5. Si no resulta satisfactorio, reajustamos r , r+ o r− hasta que tengamos un resul-tado consistente.

2.3. Distribución binomial negativa

Sea x una muestra aleatoria simple de una distribución binomial negativa de pará-metros r y „, donde el valor de r es conocido y el de „, desconocido. Si „ ∼ beta (¸; ˛)a priori, entonces la distribución a posteriori es

„|x ∼ beta

¸+ rn; ˛ +

nXi=1

xi

!

2.4. Distribución geométrica

Otra distribución discreta es la geométrica, que cuenta el número de fracasos antesde obtener el primer éxito. Su función de probabilidad viene dada como sigue:

px = f (x) = (1− „)„x ; x = 0; 1; 2; : : :

Su media es „=(1− „), su varianza es „=(1− „)2 y el sesgo es (1 + „)=√„.

2.5. Distribución multinomial

Definición 2.1. El vector aleatorio ~X de dimensión k se distribuye según una distribu-ción de Dirichlet con vector de parámetros ~ ∈ R con ¸i > 0 en cada índice i si setiene ~x tal que

Pixi = 1, entonces:

f (x |¸) =Γ(¸1 + : : :+ ¸k)

Γ(¸1) : : : Γ(¸k)x¸1−1

1 : : : x¸k−1k

La media en cada Xi es

E (Xi ) =¸i¸0

=¸iPk

i=1¸i

La varianza de Xi es

Var (Xi ) =¸i (¸0 − ¸i )¸2

0(¸0 + 1)

Page 11: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

11

y la covarianza, para i y j índices distintos

Cov (Xi ; Xj) =¸i¸j

¸20(¸0 + 1)

Teorema 2.1. Suponga que Y = (Y1; : : : ; Yk)′ tiene una distribución multinomial conparámetros n (fijo) y W = (W1; : : : ;Wk)′ desconocidos. Supongamos también que ladistribución a priori deW es una Dirichlet con vector de parámetros ¸ = (¸1; : : : ; ¸k)′.Entonces la distribución posterior de W cuando Yi = yi en cada índice i es unadistribución Dirichlet con vector de parámetros

¸∗ = (¸1 + y1; : : : ; ¸k + yk)′

2.6. Distribución de Poisson

Una variable aleatoria real X sigue una distribución de Poisson si su función deprobabilidad es

px = f (x) =„xe−„

x!; x = 0; 1; 2; : : :

Esta distribución satisface

E (X) = Var (X) = „

Si x es una muestra de tamaño n obtenida de x ∼ Poisson („), con „ desconocido,la función de verosimilitud del parámetro será

L(„) = f (x |„) =„

Pn

i=1xi e−n„Qn

i=1(xi !)

Además, consideraremos como distribución a priori del parámetro es „ ∼ gamma (¸; ˛),entonces

g(„|x) ∝ „Pn

i=1xi e−n„„¸−1e−˛„ = „

¸+Pn

i=1xi−1

e−„(˛+n)

Luego „|x ∼ gamma`¸+

Pn

i=1xi ; ˛ + n

´2.7. Distribución exponencial

Definición 2.2. Diremos que una variable aleatoria real X sigue una distribución ex-ponencial si su función de densidad es

f (x) = „ exp (−„x) ; x > 0

Teorema 2.2. Dada la muestra aleatoria x1; : : : ; xn de una distribución exponencial deparámetro „ desconocido, si la distribución a priori de „ es una gamma (¸; ˛), entonces

„|x ∼ gamma

¸+ n; ˛ +

nXi=1

xi

!

Page 12: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

12

2.8. Distribución normal

Definición 2.3. La variable continua X sigue una distribución normal X ∼ N`—; ff2

´donde — es la media ff2, varianza, si tiene función de densidad

f (x) =1√2ıff

exp

„−1

2

(x − —)2

ff2

«En inferencia, es común denotar la distribución normal como N (—; 1=r), donde el

valor de r es el inverso de la varianza y recibe el nombre de precisión de la variable.

r =1

ff2

En lo que sigue, vamos a plantear el problema para el caso de precisión conocida.

Teorema 2.3. Sea la muestra x obtenida de una distribución N (—; 1=r) y tamaño n.

La distribución a priori de — ∼ N (—0; 1=fi0), donde fi0 es la precisión.

La distribución a posteriori para una cierta muestra x es

—|x ∼ N (—1; fi1) = N“fi0—0 + nr x

fi0 + nr;

1

fi0 + nr

”donde x es la media muestral de las observaciones.

Demostración. Ejercicio.

Nota. La media posterior puede ser reescrita como

—1 =fi0—0 + nr x

fi0 + nr=

nr

fi0 + nrx +

fi0

fi0 + nr—0

Así, la media posterior es una media ponderada de la media a priori y la media muestral.

Visto lo cual, podemos dar paso al caso en el que la precisión es desconocida. Estetipo de problema surge en control de la calidad, cuando lo que interesa controlar es lavariabilidad de un proceso determinado.

Definición 2.4. Diremos que una variable aleatoria real X sigue una distribución degamma si su función de probabilidad es

f (x) =˛¸

Γ(¸)x¸−1e−˛x

Teorema 2.4. Supongamos una distribución normal de media m conocida y precisión„ > 0 desconocida.

Distribución a priori de „ ∼ gamma (¸0; ˛0).

Page 13: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

13

Distribución a posteriori para una cierta muestra x aleatoria de tamaño n:

„|x ∼ gamma (¸1; ˛1) = gamma

¸0 +

n

2; ˛0 +

1

2

nXi=1

(xi −m)2

!

Demostración. Ejercicio.

La más compleja de las situaciones es aquella en que la media y precisión sondesconocidas.

Teorema 2.5. Sea x1; : : : ; xn la muestra aleatoria para una N (ffi; 1=„) ambos pará-metros desconocidos.

Distribución a priori conjunta de ffi y „ es:

• La distribución condicional de ffi cuando „ = r es ffi ∼ N (ffi0; fi0r) dondefi0r es la precisión.

• La distribución marginal de „ es gamma (¸0; ˛0), para sendos valores posi-tivos.

La distribución a posteriori conjunta de ffi y „ para una cierta muestra x es

• La distribución condicional de — cuando „ = r es

ffi|x ∼ N (ffi1; fi1) = N“fi0ffi0 + nx

fi0 + n; (fi0 + n) r

”• La distribución marginal de „ es gamma (¸1; ˛1), donde

¸1 = ¸0 +n

2

˛1 = ˛0 +1

2

nXi=1

(xi − x)2 +fiffi(x − ffi0)2

2(fi + n)

Demostración. Ejercicio.

Page 14: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

14

Page 15: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

15

3. Distribuciones no informativas

El uso de distribuciones a priori no informativas busca que tengan un impactomínimo sobre la distribución posterior del parámetro de interés y que sea relativamenteplana en relación a la verosimilitud. Esto busca que sean los datos los que tengan unclaro dominio en la distribución posterior y, por tanto, en todas las inferencias que deellas se obtengan. También se conocen como vagas, difusas, planas o de referencia.Estas distribuciones no informativas se reúnen en dos grupos.

Definición 3.1. Una distribución de probabilidad no informativa es propia cuando in-tegra una constante finita.

Ejemplo. En el caso de una distribución binomial, su parámetro „ denota el porcentajede éxitos en la población. Asumimos como a priori la unif (0; 1), que refleja nuestraignorancia total al asumir que cualquier valor en este intervalo es igualmente posiblecomo valor.

Definición 3.2. Una distribución no informativa es impropia si es de la formaZg(„) d„ =∞

Nota. Una distribución a priori impropia puede dar lugar a una distribución posteriortambién impropia. En consecuencia, no se podrán hacer inferencias.

Nota. Una distribución a priori impropia puede dar lugar a una distribución posteriorpropia.

Ejemplo. Para una muestra xi ∼ N`„; ff2

´de tamaño n y varianza conocida, queremos

estimar la media. Asumimos g(„) ∝ 1 como a priori uniforme (impropia) sobre losnúmeros reales. Su función de verosimilitud es

L(„) = exp

„−n

2

(x − „)2

ff2

«y la distribución posterior es

„|x ∼ N`x ; ff2n−1

´que es una distribución propia.

Yang y Berger (1998) presentan varias razones por las que cuales es importanteconsiderar las distribuciones no informativas.

1. Con frecuencia la elicitación de las distribuciones a priori es imposible por razonescomo el coste o el tiempo, también por resistencia o falta de entrenamiento delos clientes

2. El análisis estadístico debe parecer objetivo.

Page 16: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

16

3. La elicitación subjetiva puede producir malas distribuciones subjetivas si la elici-tación es sesgada.

4. En problemas de alta dimensión, lo más que se puede esperar es obtener buenasdistribuciones subjetivas para algunos pocos parámetros mientras que a los otrosparámetros de perturbación se les asigna distribuciones no informativas.

5. El análisis bayesiano con distribuciones no informativas puede utilizarse paraobtener procedimientos clásicos buenos

Aun cuando un investigador tenga creencias a priori fuertes, puede ser más convin-cente analizar los datos desde una a priori dominada por la verosimilitud de los datos.También podemos automatizar el proceso de obtener a prioris.

3.1. La a priori de Jeffreys

Teorema 3.1. Si el espacio paramétrico es finito, se puede utilizar una distribución apriori uniforme para reflejar la ignorancia total.

La distribución a priori de Jeffreys satisface la propiedad local de uniformidad paradistribuciones no informativas. Se basa en la matriz de información de Fisher y estápropuesta como regla general para determinar distribuciones a priori. Puede calcularsede manera análoga para un parámetro unidimensional „ o para un parámetro vectorial„ = („1; : : : ; „p)t

I(„) = −E

„@2 log(f (x |„))

@„2

«; I(„) = −E

„@2 log(f (x |„))

@„i @„j

«Así, la distribución a priori de Jeffreys es

g(„) ∝p|I(„)|

Se trata de una distribución localmente uniforme y, por tanto, no informativa. Estapropiedad de importante ya que nos proporciona un esquema automatizado para hallardistribuciones a priori no informativas para cualquier modelo paramétrico (Ibrahim,2002). Esta distribución es impropia para muchos modelos, pero propia para otros.

Ejemplo. Sean x1; : : : ; xn observaciones tales que xi ∼ Be („). Vamos a obtener ladistribución a priori de Jeffreys para „.

Sabemos quep(x |„) = „x(1− „)1−x

Entonces, tenemos

log(p(x |„)) = x log(„) + (1− x) log(1− „)

Page 17: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

17

Y su derivada segunda para el parámetro „ será

@2 log(p(x |„))

@„2=−x„2− 1− x

(1− „)2

Calculamos ahora la información de Fisher según se ha definido

I(„) = −E

„@2 log(p(x |„))

@„2

«=

=E (x)

„2+

1− E (x)

(1− „)2=

„2+

1− „(1− „)2

=1

„+

1

1− „ =

=1

„(1− „)

Por tanto, la distribución a priori de Jeffreys es

g(„) ∝ (I(„))12 =

„1

„ (1− „)

« 12

=

= „−12 (1− „)−

12 = „

12−1 (1− „)

12−1

Luego, tenemos

„ ∼ beta“

1

2;

1

2

”Con lo que la distribución de Jeffreys es propia.

Ejemplo. Sean x1; : : : ; xn observaciones de una N`—; ff2

´, ambos parámetros desco-

nocidos. Vamos a obtener la distribución a priori de Jeffreys para (—; ff).Sabemos que

f (x |—; ff) =1√2ıff

exp“− 1

2ff2(x − —)2

”Entonces, tenemos

log (f (x |—; ff)) =−1

2log (2ı)− log (ff)− 1

2ff2(x − —)2

@2 log (f (x |—; ff))

@—2=−1

ff2

@2 log (f (x |—; ff))

@ff2=

1

ff2− 3

ff4(x − —)2

@2 log (f (x |—; ff))

@ff@—=−2

ff3(x − —)

Page 18: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

18

Tomamos esperanzas y obtenemos

I

„»—ff2

–«=

»1ff2 00 2

ff2

–Por tanto, la distribución a priori de Jeffreys es

g(—; ff) ∝˛I

„»—ff2

–«˛ 12

=“

1

ff2

2

ff2

” 12

∝ 1

ff2⇒

⇒ g(—; ff) ∝ 1

ff2

Con lo que la distribución de Jeffreys es impropia.

La distribución a priori de Jeffreys tiene la propiedad de invarianza, ya que paracualquier otra transformación biyectiva sigue siendo no informativa. Esto surge de larelación

I(„) = I (ffi(„))

„dffi(„)

d„

«2

donde ffi(„) es una transformación biyectiva de „. Así

(I(„))12 d„ = (I(ffi))

12 dffi

La a priori de Jeffreys preserva la escala en parametrizaciones.

Ejemplo. Sea x ∼ N („; 1). La a priori de Jeffreys para „ es g(„) ∝ 1. Sea ffi(„) = e„.Se trata de una transformación biyectiva de „. La correspondiente a priori de Jeffreyspara ffi(„) es

(I (ffi(„)))12 = I (ffi(„))

12

˛˛dffi(„)

d„

˛˛−1

= e−„

Así, la distribución a priori de Jeffreys para ffi(„) = e„ es

g(„) ∝ e−„

La propiedad de invarianza significa que si tenemos una distribución a priori local-mente uniforme en „, y si ffi(„)

3.2. Otras alternativas

Definición 3.3. Cuando „ es univariable y puede tener cualquier valor sobre la rectareal, y la media y la varianza a priori están especificadas, la distribución a priori es unaN`—; ff2

´para los hiperparámetros especificados.

Kass y Wasserman (1994) presentan la definición planteada Noviek y Hall:

Page 19: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

19

Definición 3.4. Una distribución a priori es indiferente si identificando una clase deconjugadas se selecciona una a priori de esta clase que sea impropia y una muestranecesaria mínima induzca una a posteriori propia.

Un ejemplo de la anterior definición es claro en el problema binomial con la claseconjugada de betas, la distribución a priori ı; (1− ı)−1 es indiferente.

Box y Tiao (1973) proponen el uso de distribuciones a priori localmente uniformes,las cuales consideran el comportamiento local de la a priori en una región donde laverosimilitud es apreciable, pero la a priori no se asume grande fuera de esa región.

3.3. Problemas con las distribuciones impropias

Kass y Wasserman (1994) comentan los problemas que pueden surgir con el usode distribuciones impropias:

1. Incoherencia e inconsistencias fuertes.

2. Efecto dominante de la distribución a priori.

3. Inadmisibilidad.

4. Paradojas en la marginalización.

5. Impropiedad de la distribución posterior.

3.4. Marginalización

En muchas situaciones tenemos un vector de parámetros, pero solo estamos intere-sados realmente en unos pocos. Debemos, en consecuencia, eliminar aquellos términosde molestia. Esto lo hacemos mediante la marginalización.

Ejemplo. Sea una muestra x de una N`„; ffi2

´, de modo que fi = ffi−2. Se especifica

una a priori no informativa de Jeffreys

g(„; ffi) ∝ fi

Ahora,

g(„; fi |x) ∝ fin2−1 exp

−fi

2

nXi=1

(xi − „)2

!Así, para eliminar el término de molestia fi , marginalizamos:

g(„|x) ∝Z ∞

0

fin2−1 exp

−fi

2

nXi=1

(xi − „)2

!dfi

Page 20: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

20

Con lo que no es difícil llegar a

g („|x) ∝Z ∞

0

fin2−1 exp

−fi

2

nXi=1

(xi − x)2

!exp“−nfi

2(x − „)2

”dfi

Sea s2 =`P

i(xi − x)2

´=(n − 1), entonces

g („|x) ∝Z ∞

0

fin2−1 exp

“−fi

2

`(n − 1)s2 + n(„ − x)2

´”dfi ∝

∝`

(n − 1)s2 + n(„ − x)2´−n

2 ∝

∝„

1 +n

(n − 1)s2(„ − x)2

«− n−1+12

Con esto, llegamos a que

„|x ∼ t„n − 1; x

s2

n

«Y finalmente

„ − xs√n

∼ tn−1

A pesar de haber llegado a un resultado que es de uso común en la estadísticaclásica, la interpretación es diferente.

Ejemplo. Supongamos el caso anterior, siendo la media el término de molestia. Debe-mos, por tanto, obtener g (fi |x).

g (fi |x) ∝Z ∞∞

fin2−1 exp

“−fi

2

`(n − 1)s2 + n(„ − x)2

´”d„

∝ fin−1

2−1 exp

“−fi

2

`(n − 1)s2

´”Con lo que

fi |x ∼ gamma

„n − 1

2;

(n − 1)s2

2

«Y podemos concluir que

(n − 1)s2fi ∼ ffl2n−1

Page 21: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

21

4. Inferencia bayesiana

4.1. Estimación puntual

Dada una distribución sobre un parámetro „, requerimos seleccionar un mecanismopara escoger un buen estimador „. Supongamos que „0 es el verdadero parámetro,desconocido. Sea d nuestra adivinanza de este valor. Debemos, de alguna forma, medirel error que cometemos al obtener „0 mediante d .

Un problema estadístico se resume en (Ω;Θ; D; –), donde Ω es el espacio muestraldel que toma valores X atendiendo a un cierto parámetro en el espacio paramétricoΘ, D es un espacio de decisiones y – una función de pérdida.

Una vez especificado el problema, nos interesa seleccionar una función de decisión,que nos describe la forma de tomar una decisión una vez obtenido el resultado muestral.

Definición 4.1. Una función de decisión es una aplicación f : S → D.

Definición 4.2. Sea D un espacio arbitrario de decisiones. Una función de pérdida esuna función no negativa – : Θ×D → R; (!; d) 7→ –(!; d).

Definición 4.3. Llamamos función de riesgo a E (–(„; d(X))), cuando „ es el verdaderovalor.

R („; d) = E (–(„; d(X))) =

Z–(„; d(X)) dp„(x)

La función de pérdida cuadrática es –(d; „) = (d − „)2. Para obtener la funciónde pérdida , llamamos b al promedio de la distribución a posteriori

b = Eg(„|x)(„) =

„g(„|x) d„

De lo que se sigue que

E (–(d; „)) =

Z–(d; „)g(„|x) d„ =

=

Z(d − b + b − „)2 g(„|x) d„ =

= (d − b)2 +

Z(b − „)2 g(„|x) d„ ≥

≥Z

(b − „)2 g(„|x) d„

para cualquier valor de d . La desigualdad anterior se convierte en igualdad cuandod = b. El estimador bayesiano bajo una función de pérdida cuadrática es la media dela distribución a posteriori.

Page 22: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

22

Definición 4.4. Se define la función de pérdida error absoluto como

–(d; „) = |d − „|

El riesgo es minimizado tomando d como la mediana de la distribución posterior,digamos d∗. O sea, la mediana es el estimador bayesiano cuando la función de pérdidaes el valor absoluto. Para mostrar esto, supongamos otra decisión tal que d > d∗, ental caso:

|„ − d | − |„ − d∗| =

8<:(d∗ − d); „ ≥ d(d + d∗ − 2„); d∗ ≤ „ ≤ d(d − d∗); „ ≤ d∗

Ya que (d + d∗ − 2„) > (d∗ − d) cuando d∗ < „ < d , entonces se tiene

E (|„ − d | − |„ − d∗|) =

= (d∗ − d)p(„ ≥ d) + (d∗ − d)p(d∗ < „ < d) + (d∗ − d)p(„ ≤ d∗) =

= (d − d∗)p(„ =∈ (d∗; d ]) ≥ 0

Esta última desigualdad se sigue del hecho de que d∗ es la mediana de la distribuciónde „. La primera desigualdad en este conjunto de ecuaciones será una igualdad si, ysólo si, p(d∗ < „ < d) = 0. La disgualdad final será una igualdad si, y sólo si,p(„ ≤ d∗) = p(„ > d∗) = 0:5.

Estas condiciones implican que d es también una mediana. En consecuencia, E (|„ − d |) ≥E (|„ − d∗|), y la igualdad se cumple si, y solo si, d es también una mediana. Una pruebasimilar puede hacerse si d < d∗.

Definición 4.5. Llamamos función de pérdida escalonada a

–(d; „) =

0; |d − „| ≤ ‹1; |d − „| > ‹

donde ‹ es un número prefijado, usualmente pequeño. En tal caso

E (–(d; „)) =

I(|d − „| > ‹)g(„|x) d„ =

=

I(1− (|d − „| ≤ ‹))g(„|x) d„ =

= 1−Z d+‹

d−‹g(„|x) d„ =

= 1− 2‹g(d |x)

Page 23: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

23

Para minimizar el riesgo, es necesario maximizar g(d |x) con respecto a d y elestimador bayesiano es el maximizador. Por lo tanto, el estimador bayesiano será elque maximiza la a posteriori, esto es, el valor model. Este estimador es llamado elestimador máximo a posteriori .

Una estimación que puede ser utilizada en una o más dimensiones, especialmentecuando la función de pérdida no ha sido definida explícitamente, es el valor del pará-metro en el cuál se maximiza la distribución posterior. Para cualquier observación dex , sea g(·|x), que denota la distribución a posteriori de W en el espacio paramétricoΘ. Sea w(x) el valor de w que satisface la relación.

Ejemplo. Estimación puntual de la media de una población normal con varianza co-nocida.

Sea x = (x1; : : : ; xn)t el vector de datos, que asumiremos tal que xi ∼ N`„; ff2

´.

Supondremos una distribución a priori de „

„ ∼ N`—0; ff

20

´; g(„) ∝ exp

„−1

2· („ − —0)2

ff20

«La verosimilitud de los datos será

f (x |„; ff2) =

nYi=1

1√2ıff

exp

„− (xi − „)2

2ff2

«∝ exp

nXi=1

(xi − „)2

2ff2

!La distribución a posteriori será

g(„|x) ∝ g(„)f (x |„)

∝ exp

„−1

2

(„ − —0)2

ff20

«exp

nXi=1

(xi − „)2

2ff2

!

∝ exp

−1

2

(„ − —0)2

ff20

+

nXi=1

(xi − „)2

ff2

!!Si llamamos

—n =

1ff2

0

—0 + nff2 x

1ff2

0

+ nff2

;1

ff2n

=1

ff20

+n

ff2

tenemos que„|x ∼ N

`—n; ff

2n

´El estimador bayesiano para la media será

„ = —n

Page 24: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

24

Ejemplo. Sea x una muestra de tamaño n de una Poisson („). Supondremos ademásque la distribución a priori de „ es „ ∼ gamma (1; 1). En consecuencia, su distribucióna posteriori será

„|x ∼ gamma

1 +

Xi

xi ; n + 1

!

4.2. Contraste de hipótesis

Bayarri y Berger en la reunión anual que se celebra en Valencia presentaron elsiguiente caso de psicoquinesia:

Ejemplo. Tres investigadores en 1987 utilizaron un generador cuántico que recibe unafila de partículas y que desvía cada partícula, independientemente de las otras, haciauna luz roja o una verde con igual probabilidad (p = q = 0:5). Se le pidió a un sujetoque alegaba tener poderes psicoquinéticos que tratara de de influir en el generador detal suerte que las partículas se desviaran hacia la luz roja.

Se generaron n = 100490000 partículas y se contaron x = 52263470 partículasque fueron hacia la luz roja. ¿Hay suficientes evidencias para determinar que el sujetotiene tales poderes?

Formalizamos el problema en

X ∼ B (n; „)

Se necesita probar H0 : „ = 0:5

H1 : „ 6= 0:5

El p-valor obtenido es pH0 (|X − 0:5| ≥ |x − 0:5|) < 0:0004, que nos lleva a concluirque hay una fuerte evidencia contra la hipótesis alternativa.

Si pensamos bayesianamente, necesitamos una distribución a priori, pero ahoradefinida sobre las hipótesis en juego. Denotamos como g(Hi ) a la probabilidad a prioride que Hi sea cierta, para i = 0; 1.

Bajo H1 : „ 6= 0:5, sea g(„) la densidad a priori sobre „. El objetivo de Bayesselecciona

p(H0) = p(H1) = 0:5

con g(„) = 1La probabilidad a posteriori de la hipótesis es la probabilidad de que la hipótesis

nula sea cierta dados los datos de x , y lo expresamos como

p(H0|x) =f (x |„ = 0:5)p(H0)

p(H0)f (x |„ = 0:5) + p(H1)Rf (x |„)g(„) d„

Page 25: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

25

La a priori objetiva es

p(H0|x = 52263470) = 0:92 : : :

La densidad a posteriori en H1 es

g(„|x;H1) ∝ g(„)f (x |„) ∝ „x(1− „)n−x

Luego, concluimos que „|x;H1 ∼ beta (x; n − x).

La aproximación bayesiana a las pruebas de hipótesis está basada en el cálculo de laprobabilidad condicional de una hipótesis H0 dada la información disponible, digamosI0, esto es p(H0|I0). Cuando ambas hipótesis son formuladas como H0 : „ ∈ Θ0 yH1 : „ ∈ Θ1, de modo que Θ0 ∩ Θ1 = ∅, podemos tenemos creencias a priori deambas, i.e., g(H0|I0) y g(H1|I1), satisfaciendo

g(H0|I0) + g(H1|I0) = 1

Según el teorema de la probabilidad total llegamos a

g(„|I0) = g(„;H0; I0)g(H0|I0) + g(„;H1; I0)g(H1|I0)

La información muestral será utilizada para calcular los odds a priori :

g(H0|I0)

g(H1|I0)

Page 26: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

26

Page 27: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

27

5. Inferencia predictiva

Muchas situaciones aplicadas implican inferencias sobre una observación futura deuna variable aleatoria, cuya distribución depende de un número finito de parámetrosdesconocidos, que llamaremos distribución predictiva. Smith (1998) argumenta queafirmaciones predictivas sobre variables aleatorias no observadas tienen más sentidoque la estimación tradicional de los parámetros.

Definición 5.1. Asumiendo que g(„) es la distribución a priori y que g(„|x) es la la aposteriori, la distribución predictiva bayesiana se calcula como

p(z |x) =p(z; x)

p(x)=

=

RΘp(z; x; „) d„R

Θp(x; „) d„

=

=

RΘp(z; x |„)g(„) d„R

Θp(x |„) d„

=

=

RΘp(z |„)p(x |„)g(„) d„R

Θp(x |„) d„

=

=

p(z |„)p(x |„)g(„)R

Θp(x„)g(„) d„

d„ =

=

p(z |„)g(„|x) d„

Es decir,

p(z |x) =

p(z |„)g(„|x) d„ = E„|x(p(z |„))

Proposición 5.1. La función p(z |„) es la función de verosimilitud de „ evaluada en z .

Ejemplo. Sea la muestra x de tamaño n de modo que xi ∼ Be („) y supongamos quela distribución a priori es „ ∼ beta (¸; ˛). La distribución predictiva de una observaciónfutura z será:

En principio tenemos que p(z |x) =Rp(z |x)g(„|x) d„.

Tenemos en cuenta que

p(z |„) = „z(1− „)1−z ; z = 0; 1

g(„|x) ∝ „Pn

i=1xi+¸−1

(1− „)n−Pn

i=1xi+˛−1

Por comodidad, denotaremos ¸∗ =Pn

i=1xi +¸ y ˛∗ = n−

Pn

i=1xi +˛ y sustituimos

en la primera ecuación.

Page 28: PROBABILIDAD E INFERENCIA BAYESIANA3 1. El teorema de Bayes Dentro del marco bayesiano tenemos que x será el conjunto de datos, será un parámetro desconocido del que partimos con

28

p(z |x) =

Z 1

0

Γ(n + ¸+ ˛)

Γ(¸∗)Γ(˛∗)„z+¸∗−1(1− „)˛

∗+1−z−1 d„ =

=Γ(n + ¸+ ˛)

Γ(¸∗)Γ(˛∗)· Γ(z + ¸∗)Γ(1− z + ˛∗)

Γ(n + ¸+ ˛ + 1)

Así, llegamos a

z = 0 p(z |x) =Γ(n + ¸+ ˛)

Γ(˛∗)· Γ(1 + ˛∗)

Γ(n + ¸+ ˛ + 1)=

˛∗

¸∗ + ˛∗

z = 1 p(z |x) =¸∗

¸∗ + ˛∗= E („|x)

Ejemplo. Sea x una muestra aleatoria de tamaño n y función de densidad

f (xi ) = „e−„xi ; x > 0

Sea Z la variable que denota la observación futura de la misma densidad. Estamosinteresados en la probabilidad predictiva de que Z > z para algún nivel dado z .Cuando „ es conocido, esto está dado por

ffi = ffi(z |„) = e−„z

Si asumimos que la distribución a priori de „ es

g(„) = „a−1e−b„

es decir, que es proporcional a la gamma. La distribución a posteriori de „ es tambiénuna gamma, de parámetros

„|x ∼ gamma (a + n; b + x1 + : : :+ xn)

y la esperanza a posteriori de „ es

E („|x) =“

b + x1 + : : :+ xnb + x1 + : : :+ xn + z

”a+n

En el caso a = b = 0, se tiene una a priori de Jefrreys y la esperanza se reduce a

E („|x) =“

x1 + : : :+ xnx1 + : : :+ xn + z

”n