1 teoria decision presentacion

53
Contenido Introducci´ on El concepto de probabilidad La Aproximaci´ on Bayesiana a la Estad´ ıstica Comparaci´ on de modelos Propiedades cl´ asicas de la aproximaci´ on Bayesiana Discusi´ on Teor´ ıa de la decisi´ on robusta Teor´ ıa de la Decisi´ on Alvaro J. Riascos Villegas Universidad de los Andes y Quantil Enero 30 de 2012 etodos Bayesianos - Banco de Guatemala Alvaro Riascos

Upload: kharen-yackeline-andrade

Post on 04-Jul-2015

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1 teoria decision presentacion

ContenidoIntroduccion

El concepto de probabilidadLa Aproximacion Bayesiana a la Estadıstica

Comparacion de modelosPropiedades clasicas de la aproximacion Bayesiana

DiscusionTeorıa de la decision robusta

Teorıa de la Decision

Alvaro J. Riascos VillegasUniversidad de los Andes y Quantil

Enero 30 de 2012

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Page 2: 1 teoria decision presentacion

ContenidoIntroduccion

El concepto de probabilidadLa Aproximacion Bayesiana a la Estadıstica

Comparacion de modelosPropiedades clasicas de la aproximacion Bayesiana

DiscusionTeorıa de la decision robusta

1 Introduccion

2 El concepto de probabilidad

3 La Aproximacion Bayesiana a la EstadısticaTeorıa de la decisionRiesgo frecuentistaRiesgo BayesianoFamilias ConjugadasEstimadoresPrueba de hipotesisPredicciones

4 Comparacion de modelos

5 Propiedades clasicas de la aproximacion Bayesiana

6 Discusion

7 Teorıa de la decision robusta

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Page 3: 1 teoria decision presentacion

ContenidoIntroduccion

El concepto de probabilidadLa Aproximacion Bayesiana a la Estadıstica

Comparacion de modelosPropiedades clasicas de la aproximacion Bayesiana

DiscusionTeorıa de la decision robusta

Introduccion

La teorıa clasica utiliza la informacion muestral para hacerinferencias sobre los parametros de interes.La importancia de la informacion muestral se pone demanifiesto en este ejemplo de Savage (1961).

Example (Savage (1961))

Uso de la informacion muestral.

1 Una mujer adiciona te a una tasa de leche y afirma poder diferenciaque ingrediente se utilizo primero. En 10 experimentos acierta entodos.

2 Un musico afirma poder diferenciar entre un partitura de Mozart yuna de Hayden. En 10 experimentos siempre acierta.

3 Un amigo borracho afirma poder predecir el lado que cae unamoneda lanzada al aire. En 10 experimentos acierta siempre.

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Page 4: 1 teoria decision presentacion

Introduccion

Usualmente existe informacion incial sobre los parametros deun modelo estructural.

Probabilidad = Incertidumbre. En la teorıa Bayesiana elconcepto de probabilidad tiene una interpretacion distinta a lateorıa clasica o frecuentista. El concepto de probabilidad esuna medida de la incertidumbre sobre la ocurrencia de unevento. A diferencia de la teorıa clasica es posible darinterpetaciones sobre la incertidumbre de un parametro queno estan basadas en la repeticion bajo condiciones iguales deun experimento (intervalos de confianza). Por ejemplo esposible cuantificar en terminos probabilısticos el grado deincertidubre con la cual se hace un pronostico.

Page 5: 1 teoria decision presentacion

Introduccion

Permite condicionar a los datos observados. En el analisisclasico se promedia sobre los los datos, aun los no observados.

Distribuciones exactas. La teorıa clasica se basa en muchasocasiones en teorıa asintotica.

Coherencia y racionalidad: La teorıa Bayesiana es unaaproximacion general al problema de inferencia consistentecon la teorıa de la decision.

Las reglas de decision en un contexto Bayesiano son optimasdesde un punto de vista clasico.

Mecanica Bayesiana: Siempre se sabe que hacer.

Computacionalmente es difıcil.

Page 6: 1 teoria decision presentacion

Introduccion

Razones tecnicas:1 Permite hacer inferenecia estadıstca en modelos no regulares.2 Permite introducir incertidumbre en los parametros para hacer

prediciciones.3 Permite hacer pruebas de modelos no anidados.4 Se pueden analizar modelos jerarquicos de forma

conceptualmente muy coherente.

Page 7: 1 teoria decision presentacion

ContenidoIntroduccion

El concepto de probabilidadLa Aproximacion Bayesiana a la Estadıstica

Comparacion de modelosPropiedades clasicas de la aproximacion Bayesiana

DiscusionTeorıa de la decision robusta

El concepto de probabilidad

Existen por lo menos tres interpretaciones del concepto:objetiva (Fermat, Pascal, Huygens, etc), subjetiva (Ramsey,de Finetti, Savage), logica.

Axiomas de Kolmogorov.

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Page 8: 1 teoria decision presentacion

El concepto de probabilidad

Riesgo e incertidumbre: La paradoja de Ellsberg: Una urnacontiene 90 bolas donde 30 son rojas. El resto de las bolas sonamarillas o negras y su distribucion es desconocida. Algunaspersonas fueron sometidas a una apuesta. Apuesta A: Quiensaque una bola roja gana una cantidad monetaria, lasamarillas y las negras pierden. Apuesta B: Quien saque unabola amarilla gana, el resto pierde. La mayorıa de las personasoptan por la A. Despues cambiamos las apuestas de unamanera que en ambos casos, las bolas negras son desde ahoraganadoras. Apuesta C: Quien saque una bola roja o negragana, las amarillas pierden. Apuesta D: Quien saque una bolaamarilla o negra gana, las rojas pierden. En este caso, lamayorıa de las personas escogen la D. Lo cual entra encontradiccion con la desicion anterior de escoger la apuesta A,a pesar de que la bola negra es ganadora en ambas C y D, locual no aporta diferencia alguna.

Page 9: 1 teoria decision presentacion

El concepto de probabilidad

Ellsberg explica este resultado en terminos de la diferenciaentre el riesgo e incertidumbre. Las personas sometidas aestas escogencias suponen prudentemente que la distribuciondesconocida entre bolas rojas y amarillas pueden traerlesdesventaja y por lo tanto escogen en ambas ocasiones bajo elriesgo conocido (1/3 en la primera prueba, 2/3 en la segunda).

Llama la atencion sobre la necesidad de una teorıa paramodelar la incertidumbre.

Page 10: 1 teoria decision presentacion

El concepto de probabilidad

Una forma de interpretar el concepto de probabilidad desde unpunto de vista logico es de acuerdo al concepto derazonamiento plausible (Jaymes): cuano en el mundo realobservamos un evento B que tıpicamente es consecuencia deun evento A, decimos que A es plausible pero usalmente no esposible deducir que A ha sucedido. La idea predominante esque A es plausible dado que observamos B. La logica es que siB ha ocurrido, esto arroja evidencia en favor de A.

Al fundamentar la teorıa de la probabilidad de esta forma seobtiene una formalizacion de la idea del grado deincertidumbre sobre la ocurrencia de un evento (plausibilidaddel evento).

Page 11: 1 teoria decision presentacion

El concepto de probabilidad

Luego la interpretacion de la probabilidad de un evento noesta relacionada con la frecuencia de un evento repetido sinocon el grado de incertidumbre del evento. Esta es lainterpreatcion subjetivista del concepto de probabilidad.

Para de Finetti la probabiidad (objetiva) de un evento noexiste. Es algo tan ficticio y en contradicion con laevidenciacuanto la existencia del eter.

Cual es la probabilidad de cada numero cuando se lanza undado al aire?

La idea de aprendizaje en un ambiente incierto puede ser sutil.

Page 12: 1 teoria decision presentacion

El concepto de probabilidad

La paradoja del gato I. Una persona esta frente a tres puertascerradas. Se sabe que detras de alguna de las puertas hay ungato. La persona se le pide escoger una puerta. Antes de abrircualquier puerta, una segunda persona que sabe exactamenteque hay detras de cada puerta y conoce tambien cual fue lapuerta elegida por la primera persona, este abre una de laspuertas que sea la elegida por la primera persona y en la queno este el gato. Ahora, con una puerta abierta en la que noesta el gato, se le pregunta a la primera persona si desearıacambiar de puerta.

Page 13: 1 teoria decision presentacion

El concepto de probabilidad

El sentido comun dice que no hace diferencia. Pero la teorıade la probabilidad dice otra cosa. La probabilidad de encontrarel gato en alguna de las dos puertas al cambiar la eleccionoriginal es mayor que la probabilidad de que el gato este en laprimera puerta elegida.

Page 14: 1 teoria decision presentacion

El concepto de probabilidad

Definicion probabiidad condicional. Dados dos evento A y B,tal que P(B) > 0 definimos la probabilidad condicional de Adado B como:

P(A |B) =P(A ∩ B)

P(B). (1)

El teorema de Bayes (o regla de Bayes) afirma que:

P(A |B) =P(B |A)× P(A)

P(B). (2)

Este resultado es la base de toda la estadıstica Bayesiana.

Page 15: 1 teoria decision presentacion

El concepto de probabilidad

La paradoja del gato II: Para formalizar este problema,supongamos que la primera eleccion fue la tercera puerta.Sean A1,A2 y A3 los eventos en los cuales el gato esta detrasde la puerta 1, 2 o 3 respectivamente. Sean B1 y B2 loseventos en los cuales el segundo jugador abre la puerta 1 o 2reespectivamente. Nuetro objetivo es calcular P (Ai |Bj) .Entonces dada la informacion del problema es natural suponer:

P(Ai ) =1

3,P (B1 |A1) = P (A2 |B2) = 0

P(B1 |A2) = P(B2 |A1) = 1

y

P(B1 |A3) = P(B2 |A3) =1

2.

Entonces si la segunda persona abre la puerta 2 es facilcalcular, usando la regla de Bayes, P

(A1 |B2) = 2

3 .

Page 16: 1 teoria decision presentacion

ContenidoIntroduccion

El concepto de probabilidadLa Aproximacion Bayesiana a la Estadıstica

Comparacion de modelosPropiedades clasicas de la aproximacion Bayesiana

DiscusionTeorıa de la decision robusta

Teorıa de la decisionRiesgo frecuentistaRiesgo BayesianoFamilias ConjugadasEstimadoresPrueba de hipotesisPredicciones

La Aproximacion Bayesiana a la Estadıstica

Sea Θ un espacio de parametros o estados de la naturaleza yΞ un espacio de datos observables.En terminos de funciones de densidad el teorema se puedeexpresar como:

f(θ |y) = f (y |θ)f (θ)f (y)

donde f (y) es la distribucion marginal de la variable aleatoriaY (o distribucion marginal de los datos):

f (y) =

∫Θ

f (y |θ)f (θ)dθ,

f (θ |y) es la distribucion expost (posteriori) del parametro θdado los datos observados y , f (y |θ) es la distribucionmuestral.

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Page 17: 1 teoria decision presentacion

La Aproximacion Bayesiana a la Estadıstica

La funcion L(θ|y )= f (y |θ) , como funicion de θ se llama lafuncion de verosimilitud.

f (θ) es la distribucion inicial (prior) sobre los parametros.

Page 18: 1 teoria decision presentacion

La Aproximacion Bayesiana a la Estadıstica

Observese que no se ha hecho ninguna hipotesis sobre laforma de la distribucion muestral. En general suponemos quey es un vector de obsrevaciones y f (y |θ) es la distribucionconjunta o distribucion del vector aleatorio Y .

En pocas palabras la estadıstica Bayesiana es un modeloformal de aprendizaje en un ambiente incierto aplicado a lainferencia estadıstica.

La mecanica Bayesiana es siempre la misma. Formule undistribucion inicial para lo parametros y calcule la distribucionexpost.

El resultado final del analisis Bayesiano es la distribucionexpost. En el analisis clasico, el obejetivo final es un estimadorque si bien es una variable aleatoria es, conceptualmente, muydistinto.

Page 19: 1 teoria decision presentacion

ContenidoIntroduccion

El concepto de probabilidadLa Aproximacion Bayesiana a la Estadıstica

Comparacion de modelosPropiedades clasicas de la aproximacion Bayesiana

DiscusionTeorıa de la decision robusta

Teorıa de la decisionRiesgo frecuentistaRiesgo BayesianoFamilias ConjugadasEstimadoresPrueba de hipotesisPredicciones

Teorıa de la decision

En la teorıa de decision la idea es combinar la informacionmuestral con informacion no muestral con el objeto tomar unadecison optima.

El analisis Bayesiano comparte con la teorıa de la decision eluso de informacion no muestral.

Recordemos que Θ es el espacio de parametros o estados de lanaturaleza. θ ∈ Θ es un estado de la naturaleza.

Sea A el espacio de acciones del tomador de decisiones. a ∈ Aes una accion.

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Page 20: 1 teoria decision presentacion

Teorıa de la decision

Un problema de decision es una funcion D : A× θ → C ,donde C es un espacion de consecuencias. Suponemos que elagente tiene preferencias sobre el conjunto de consecuenciasque las representamos mediante una funcion de (des)utilidad.

A continuacion definimos la funcion de perdida como lacomposicion de la funcion D y la funcion de (des)utilidad.

Page 21: 1 teoria decision presentacion

Teorıa de la decision

Un problema de desicion esta bien puesto cuando el conjuntola especificacion del conjunto de acciones, estados de lanaturaleza y consecuencias son tales que las preferencias deltomador de decisiones sobre las consecuencias son totalmenteindependientes de las acciones o estados de la naturaleza.

Page 22: 1 teoria decision presentacion

Teorıa de la decision

Sea L(θ, a) una funcion de perdida.

Definimos la perdida esperada expost o perdidad esperadaBayesiana cuando se toma una decision a ∈ A como:

ρ(a |y) =

∫Θ

L(θ, a)f (θ |y)dθ

Dada una funcion de perdida y una distribucion expost,definimos el estimador Bayesiano de θ como:

θB(y) = argmina∈Aρ(a |y)

Page 23: 1 teoria decision presentacion

Teorıa de la decision

Example (Funciones de perdida)

Algunas funciones de perdida estandar son:

1 Perdida cuadratica.

2 Error absoluto.

Los respectivos estimadores son el valor esperado y la medianaexpost del parametro respectivamente. Verificar el primer caso esinmediato.

Page 24: 1 teoria decision presentacion

Teorıa de la decision

Example (Distribucion inicial y muestral normal)

Supongamos que tenemos una muestra de n observacionesy1, ..., yn, yi vi .i .d N(µ, 1) entonces la distribucion muestral(funcion de verosimilitud) es:

p(y |µ) = (2π)−n2σ−nexp(− 1

2σ2

∑i

(yi − µ)2) (3)

Ahora supongamos que la distribucion inicial p(µ) v N(µ0, σ

20

)donde los parametros de esta distribucion son conocidos (estos sedenominan hiperparametros). Observese que antes de observar losdatos, si el agente tiene una funcion de perdida que es cuadratica,entonces el estimador Bayesiano (exante) de µ es µ0.

Page 25: 1 teoria decision presentacion

Teorıa de la decision

La distribucion expost es:

p(µ |y) ∝ p(y |µ) p(µ) (4)

∝ exp(− 1

2σ2

∑(µ− µ)2) (5)

µ =

nσ2 y + 1

σ20µ0

nσ2 + 1

σ20

(6)

σ2 =1

nσ2 + 1

σ20

(7)

Page 26: 1 teoria decision presentacion

Teorıa de la decision

Cuando la funcion de perdida es la funcion de errorcuadratico. Entonces el estimador Bayesiano (expost) es:

E [µ |y ] = µ (8)

Es decir, el valor esperado expost de µ es una combinacionconvexa del estimador clasico y de los datos observados y lamedia inicial.

Cuando el numero de observaciones es grande o laincertidumbre de la distribucion inicial es grande, el estimadorBayesiano se aproxima al estimador clasico.

Page 27: 1 teoria decision presentacion

Teorıa de la decision

δ : Ξ→ A es una regla de decisicion.

Un tipo de reglas de decision importante son las reglas dedecision aleatorias.

Para un problema sin datos, una regla de decisicion essimplemente una accion.

Page 28: 1 teoria decision presentacion

ContenidoIntroduccion

El concepto de probabilidadLa Aproximacion Bayesiana a la Estadıstica

Comparacion de modelosPropiedades clasicas de la aproximacion Bayesiana

DiscusionTeorıa de la decision robusta

Teorıa de la decisionRiesgo frecuentistaRiesgo BayesianoFamilias ConjugadasEstimadoresPrueba de hipotesisPredicciones

Riesgo frecuentista

Definition (Funcion de Riesgo Clasica)

Dada una regla de decision δ y una funcion de perdida definimos lafuncion de riesgo (clasica) como:

R(θ, δ) = EY [L(θ, δ)] =

∫L(θ, δ(y))dF (y |θ) (9)

Observese que la funcion de riesgo clasica promedia sobretodas las realizaciones posibles de los datos (aun aquellas queno han ocurrido!).Esta es una funcion del estado y la regla de decision (la reglade desicion es tıpicamente un estimador).

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Page 29: 1 teoria decision presentacion

ContenidoIntroduccion

El concepto de probabilidadLa Aproximacion Bayesiana a la Estadıstica

Comparacion de modelosPropiedades clasicas de la aproximacion Bayesiana

DiscusionTeorıa de la decision robusta

Teorıa de la decisionRiesgo frecuentistaRiesgo BayesianoFamilias ConjugadasEstimadoresPrueba de hipotesisPredicciones

A diferencia de la perdida esperada Bayesiana que es unnumero, el riegso frecuentista depende del estado. Estodificulta el problema de escoger una regla de decision paraminimizar el riesgo ya que esta va depender del estado.

La siguiente definicion acota el universo razonable de reglas dedecision.

Definition (Admisibilidad)

Dada una funcion de peridida. Decimos que una regla de decision δes inadmisible si existe otra regla de decision que la (dominadebilmente) para toda realizacion posible de los estados. De locontrario se llama admisible.

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Page 30: 1 teoria decision presentacion

Riesgo frecuentista

Bajo condiciones debiles se puede mostrar que los estimadoresBayesianos son admisibles. Existe un teorema conversollamado teorema de completo de clases.

En la teorıa clasica estadıstica existen algunas formas deresolver el problema de decision:

1 Maxima verosimilitud.2 Mınima varianza.3 Mınimos cuadrados ordinarios.4 Sesgo nulo.5 Solucion minimax.

Page 31: 1 teoria decision presentacion

Riesgo frecuentista

Una regla de decision δM satisface el principio minimax si:

supθ∈ΘR(θ, δM) = infδ∈∆(D)supθ∈ΘR(θ, δ) (10)

donde ∆(D) denota e conjunto de reglas de decisionaleatorias (que tienen como rango las acciones mixtas).Intuitivamente, una regla de decision satisface el principiominimax si permite asegurar el mınimo riesgo en el pero de loscasos (peor estado).

Invarianza: Este principio afirma que las reglas de decisiondeben ser las mismas cuando los problmeas de decision tienenla misma estructura.

Page 32: 1 teoria decision presentacion

ContenidoIntroduccion

El concepto de probabilidadLa Aproximacion Bayesiana a la Estadıstica

Comparacion de modelosPropiedades clasicas de la aproximacion Bayesiana

DiscusionTeorıa de la decision robusta

Teorıa de la decisionRiesgo frecuentistaRiesgo BayesianoFamilias ConjugadasEstimadoresPrueba de hipotesisPredicciones

Riesgo Bayesiano

Definition (Riesgo Bayesiano)

Dada una regla de decision δ, una funcion de peridida L y unadistribucion inicial de los parametros p definimos la funcion deriesgo Bayesiana como:

r(δ, p) = Ep[R(θ, δ)] =

∫Θ

R(θ, δ)dp(θ) (11)

Observese que el riesgo Bayesiano promedia sobre el espaciode parametros y es una funcion unicamente de la regla dedecision y la idstribucion inicial de los parametros.

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Page 33: 1 teoria decision presentacion

Riesgo Bayesiano

Asociado a el riesgo Bayesiano hay un principio de decision.

Una regla de decision δB es una regla de decision Bayesiana si:

r(θ, δB) = infδ∈DR(θ, δ) (12)

donde D es el espacio de reglas de decision.

Page 34: 1 teoria decision presentacion

Riesgo Bayesiano

En la teorıa de la decision, la forma estandar de resolver elproblema de decision es usando el principio condicional deBayes. Una regla de decision condicional Bayesiana δCB esuna regla de decision tal que:

ρ(θ, δCB(y)) = infa∈Aρ(θ, a) (13)

Observese que en un problema sin datos, la regla de decisioncondicional coincide con la regla de desicion de Bayes.

En general se cumple que la decision usando la reglacondicional es igual a decision usando la regla de Bayes.

Page 35: 1 teoria decision presentacion

ContenidoIntroduccion

El concepto de probabilidadLa Aproximacion Bayesiana a la Estadıstica

Comparacion de modelosPropiedades clasicas de la aproximacion Bayesiana

DiscusionTeorıa de la decision robusta

Teorıa de la decisionRiesgo frecuentistaRiesgo BayesianoFamilias ConjugadasEstimadoresPrueba de hipotesisPredicciones

Familias Conjugadas

Dada una familia de de distribuciones muestrales F, decimosque una familia de distribuciones iniciales P es una familiaconjugada para F si la distribucion expost es siempre unelemento de P. Decimos que natural conjugada si esconjugada y si esta en la familia de distribuciones muestrales.

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Page 36: 1 teoria decision presentacion

ContenidoIntroduccion

El concepto de probabilidadLa Aproximacion Bayesiana a la Estadıstica

Comparacion de modelosPropiedades clasicas de la aproximacion Bayesiana

DiscusionTeorıa de la decision robusta

Teorıa de la decisionRiesgo frecuentistaRiesgo BayesianoFamilias ConjugadasEstimadoresPrueba de hipotesisPredicciones

Estimadores

El estimador de maximaverosimilitud generalizado de es aquelque maximiza la distribucion expost.

Este es el el valor mas probable dado la idstribucion inical delparametro y la muestra y .

El error de un estimador se define como la desviacioncuadratica promedio de los parametros con respecto alestimador utilizando la distribucion expost.

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Page 37: 1 teoria decision presentacion

ContenidoIntroduccion

El concepto de probabilidadLa Aproximacion Bayesiana a la Estadıstica

Comparacion de modelosPropiedades clasicas de la aproximacion Bayesiana

DiscusionTeorıa de la decision robusta

Teorıa de la decisionRiesgo frecuentistaRiesgo BayesianoFamilias ConjugadasEstimadoresPrueba de hipotesisPredicciones

Prueba de hipotesis

Un subconjunto C de Θ es creible con un nivel de confianza1− α (condicional a y) si:

1− α ≤ P(C |y) (14)

Un conjunto creible tiene un significado probabilıstico (aunquesubjetivo). Esto no ocurre siempre en la teorıa clasica.

Un problema con la nocion Bayesiana de conjunto creıble (ointervalo de confianza) es que pueden existir mucho onjuntocreıbles. Una forma, adhoc, de selecionar uno es calculandoconjunto creıble de mayor densidad de expost.

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Page 38: 1 teoria decision presentacion

Prueba de hipotesis

Sea kα el mayor k tal que:

P(θ ∈ Θ : f (θ |y) ≥ k |y) ≥ 1− α (15)

Entonces definimos el conjunto creıble CHPD con un nivel deconfianza 1− α como:

CHPD = {θ ∈ Θ : f (θ |y) ≥ kα} (16)

Page 39: 1 teoria decision presentacion

Prueba de hipotesis

La prueba de hipotesis en estadıstica clasica consiste enestudiar los errores tipo I y II (probabilidad que la muestraobservada resulte en la hipotesis incorrecta siendo aceptada).

En estadıstica Bayesiana la prueba de hipotesis esconceptualmente sencillo: comparar la probabilidad expostP(Θ1 |y) y P(Θ2 |y) donde las pruebas de hipotesis son:H0 : θ ∈ Θ0 y H1 : θ ∈ Θ1.

La razon entre estas dos probabilidades se llama posteriorodds ratio. La misma razon pero con las probabilidadesiniciales se llama prior odd ratios.

La razon entre el posterior y el prior odds se llama factor deBayes (Berger).

Cuando las hipotesis son simples, el factor de Bayes essimplemente la razon de las funciones de verosimilitud.

Page 40: 1 teoria decision presentacion

ContenidoIntroduccion

El concepto de probabilidadLa Aproximacion Bayesiana a la Estadıstica

Comparacion de modelosPropiedades clasicas de la aproximacion Bayesiana

DiscusionTeorıa de la decision robusta

Teorıa de la decisionRiesgo frecuentistaRiesgo BayesianoFamilias ConjugadasEstimadoresPrueba de hipotesisPredicciones

Predicciones

Supongams que queremos pronosticar una variable z basadoen la variable bservable y . En estadıstica Bayesiana el objeivoes determinar p(z |y) .Esto se puede escribir:

p(z |y) =

∫Θ

p (z , θ |y) dθ (17)

p(z |y) =

∫Θ

p (z |y , θ)p(θ |y) dθ (18)

p(z |y) se denomina la densidad predictiva de z dado los datosobservables y .El analisis Bayesiano trata de forma simetrica, parametros,observables y predicciones: son todas variables aleatorias.

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Page 41: 1 teoria decision presentacion

ContenidoIntroduccion

El concepto de probabilidadLa Aproximacion Bayesiana a la Estadıstica

Comparacion de modelosPropiedades clasicas de la aproximacion Bayesiana

DiscusionTeorıa de la decision robusta

Comparacion de modelos

Un modelo se define formalmente como una distribucioninicial y una distribucion muestral.Supongamos que tenemos m modelos que buscan explicar losdatos observado y .Usando la distribucion inicial y muestral de cada modelocalculamos la distribucion expost de los datos.

P(θ |y ,M) =P(y |θ,M) P(θ |M)

p(y |M)(19)

donde p(y |M) es la distribucion marginal de los datoscondicional al modelo. Esta tambien se denomina laverosimilitud marginal y se puede obtener mediante laintegracion obvia.

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Page 42: 1 teoria decision presentacion

Comparacion de modelos

Ahora podemos tener una distribucion inicial de cada uno delos modelos (grado de confianza que tenemos en el modelo) yesto nos permite calcular la distribcuion expost sobre nuestraconfianza en el modelo condicional a los datos observados:

P(M |y) =P(y |M)P(M)

p(y)(20)

donde P(M) el la distribucion inicial del modelo.

Observese que la verosimilitud marginal se obtiene medianteintegraciony en principio, con esta, se puede calcular ladistribucion expost del modelo (dados la distribucion inical delos modelos y la distribucion marginal de los datos).

Page 43: 1 teoria decision presentacion

Comparacion de modelos

Como usualmente es dificil determinar la distribucion marginalde los datos lo que se hace es comparar la razon entre lasdistribuciones expost:

POij =P(M i |y)

P(M j |y)(21)

denominado posterior odds ratio.

Page 44: 1 teoria decision presentacion

Comparacion de modelos

Cuando la prior sobre cada modelo es la misma, el posteriorodds ratio se reduce a la razon entre las verosimilitudesmarginales.

BFij =P(y

∣∣M i)

P(y |M j)(22)

El caso de comparar dos modelos lineales bajor normalidad esposibels hacerlo a mano.

Page 45: 1 teoria decision presentacion

ContenidoIntroduccion

El concepto de probabilidadLa Aproximacion Bayesiana a la Estadıstica

Comparacion de modelosPropiedades clasicas de la aproximacion Bayesiana

DiscusionTeorıa de la decision robusta

Propiedades clasicas de la aproximacion Bayesiana

Consideremos el problema de consistencia.

Supongamos que existe una distribucion poblacional f (y).

Sea p(y |θ) la distribucion muestral.

Definamos la distancia entre ambas distribuciones como ladistancia de Kullback - Leibler.

Sea θ∗ el valor que minimiza la distancia entre la distribucionpoblacional y la distribucion muestral. Uno puede mostrar quesi existe un parametro verdadero tal que la distribucionmuestral es igual a la distribucion poblacional entonces θ∗ esel parametro verdadero. En este caso decimos que el modelomuestral esta bien especificado.

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Page 46: 1 teoria decision presentacion

Propiedades clasicas de la aproximacion Bayesiana

Theorem (Consistencia)

Supongamos que es espacio de estados Θ es compacto y sea Θ0

una vecindad del verdadero parametro θ0 con probabilidad inicialdifeerente de cero. Entonces,

p(θ ∈ Θ0|y)→ 1

cuando el tamano de la muestra crece hacia el infinito.

Es decir, si el modelo esta bien especificado (distribucionmuestral es igual a la poblacional para algun parametro)entonces la distribucion expost se va concetrarasintoticamente alrededor del verdadero parametro siempre elverdadero parametro este en el soporte de la distribucioninicial.

Page 47: 1 teoria decision presentacion

ContenidoIntroduccion

El concepto de probabilidadLa Aproximacion Bayesiana a la Estadıstica

Comparacion de modelosPropiedades clasicas de la aproximacion Bayesiana

DiscusionTeorıa de la decision robusta

Discusion

Observese que la principal diferencia entre el analisis clasico yel Bayesiano se deriva de la forma radicalmente de intepretarlos parametros, modelos y pronosticos de un modelo. Estostres se intepretan como variable aleatorias y en ese sentido seles da un tratamiento simetrico con los datos observados.La diferencia fundamental entre ambas aproximaciones es eluso de informacion inicial en el proceso de inferencia. Lateorıa clasica responde

1 Antes de observar los datos, que podemos esperar.2 Antes de observar los datos, que tan precisos son los

estimadores.3 Dado que la hipotesis a estudiar es verdadera, que probabilidad

existe de que los datos indiquen que es verdadera.

La aproximacion Bayesiana considera que las preguntasanteriores son relevantes unicamente cuando se condiciona alos datos observados.

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos

Page 48: 1 teoria decision presentacion

Discusion

Example (Distribucion inicial y muestral normal)

Considere la distribucion expost cuando la distribucion inical no esinformativa. Es facil mostrar que el estimador Bayesiano mas omenos una distribucion estandar (de la distribucion expost) es:

µ = y ± σ√n

(23)

Ahora la distribucion del estimador clasico y mas o menos unadesviacion estandar es igual. Sin embargo, la intepretacion escompletamente distinta. En el primer caso la interpretacion es:Que tan preciso es la estimacion de mu dado que hemos observadociertos datos.

Page 49: 1 teoria decision presentacion

Discusion

Una crıtica estandard al analisis Bayesiano es la necesidad dedefinir una distribucion inicial de los estados.Bajo condiciones debiles, siempre existe una prior natural.Decimos que la distribucion marginal conjunta de los datos esintercambiable si es invariante frente a permutaciones de lossubındices de los datos.Suponga que los datos toman valores cero o uno unicamente.Entonces el Teorema de deFinetti afirma que los datos sepueden interpeetar como distribuidos condicional i.i.d con yiθdistribuido Bernoulli con parametro θ. Ademas caracteriza ladistribucion asintotica del parametro θ en terminos del lamedia muestral. El converso tambien vale.Luego la intercambiabilidad es una hipotesis natural en ciertascircunstancias que racionaliza la escogencia de un modelo demixtura de Bernoulli dejando como grado de libertad ladistribucion asintotica del θ para lo cal basta con expresarnuestra distribucion inicial sobre la distribucion de la mediamuestral.Una crıtica tradicional al analisis clasico es que toma enconsideracion datos que podrıan haber sido observados perono han sido observados.Jeffreys: a hyphotesis that may be true may be rejectedbecause it has not predicted observable results that have notocurred.

Page 50: 1 teoria decision presentacion

Discusion

Example (Laboratorios)

Una sustancia debe ser analizada y existen dos laboratoriosigualmente buenos para hacerlo. Para tomar una decision se lanzauna moneda al aire. Al recibir los resultados del laboratorioescogido el agente se pregunta: Deberıamos de llevar enconsideracion que estos resultados dependen de que se lanzo al aireuna moneda que hubiera podido indicar que fuera el otrolaboratorio el que hiciera el examen? De acuerdo a la vision clasicadeberıamos de promediar sobre todos los posibles resultadosincluyendo los del laboratorio que no hizo la prueba.

Page 51: 1 teoria decision presentacion

Discusion

Example (Diferentes distribuciones muestrales)

Suponga que se lanza de forma independiente 12 monedas al aire yse obervan 9 caras y 3 sellos. Esta informacion no especificacompletamente el experimento puesto que pudo ser el resultado dedos procedimientos: (1) Se fijo en 12 el nuemro de lanzamientos yse lanzo la moneda y (2). La moneda se lanzo hasta que apareciola tercer sello. En ambos casos la distribucion muestral escompletamente distinta. En el primer caso es Binomial y el elsegundo es Negativa Binomial. Ahora suponga que queremosprobar la hipotesis de que la probabilidad de que salga cara es 1

2contra la hipotesis de que sea mayor que 1

2 . Se disena una pruebaque es de la siguinete forma, si el nuemro de caras observadas essuperior a algun umbral c , entonces se se rechaza la hipotesis deque estados (probabilidad de que salga) sea 1

2 . Por definicion elp-valor de esta hipotesis es la probabilidad de observar 9 o mascaras en el experimento. Si calculamos el p-valor bajo para los dosprocedimientos en el primero aceptamos la hipotesis nula y en elsegundo la rechazamos.El problema es que en el segundo caso la prueba de hipotesispermite utilizar informacion de lo que hubiera podido pasar peronunca paso para rechazar la hipotesis nula. Sin embargo, dada lainformacion del problema, no existe razon para usar uno modelo uotro.

Page 52: 1 teoria decision presentacion

Discusion

La forma como en la teorıa clasica se eliminan parametros esmediante la sustitucion de los mismos por un parametro. En elanalisis Bayesiano se promedia sobre todos sus posiblesvalores.

Page 53: 1 teoria decision presentacion

ContenidoIntroduccion

El concepto de probabilidadLa Aproximacion Bayesiana a la Estadıstica

Comparacion de modelosPropiedades clasicas de la aproximacion Bayesiana

DiscusionTeorıa de la decision robusta

Teorıa de la decision robusta

Metodos Bayesianos - Banco de Guatemala Alvaro Riascos