universidad nacional mayor de san marcossisbib.unmsm.edu.pe/bibvirtualdata/tesis/basic/... ·...

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS Fundada en 1551

FACULTAD DE CIENCIAS MATEMÁTICAS

E.A.P. DE ESTADÍSTICA

“INTRODUCCIÓN A LA ESTADÍSTICA BAYESIANA (CASO DE COMPARACIÓN DE MEDIAS)”

MONOGRAFÍA

Para optar el Título Profesional de:

LICENCIADO EN ESTADÍSTICA

ROSALYNN MILUSKA YUPANQUI PACHECO

LIMA – PERÚ 2005

AGRADECIMIENTO

Al profesor Antonio Bravo Quiroz quien con su constante apoyo y

dedicación contribuyo a la realización del presente trabajo.

Al Profesor Jorge Chue Gallardo quien me inspiro para la

realización del presente trabajo, como también a su invalorable

apoyo en mi desarrollo académico.

DEDICADA

A mis padres y hermanas, en especial a mi madre por su constante

apoyo y aliento.

A Papá Rubén que desde el cielo nos ilumina y bendice.

INDICE

I. Introducción

II. Materiales y equipos

III. Revisión de literatura

3.1.Comparación de medias poblacionales cuando se conocen las varianzas poblacionales 3.2.Comparación de medias poblacionales cuando no se conocen las varianzas poblacionales 3.2.1 Comparación de medias poblacionales varianzas iguales 3.2.2 Comparación de medias poblacionales varianzas distintas

IV. Marco teórico

4.1. Estadística Bayesiana

4.1.1 Inferencia Estadística

4.1.2 Inferencia Bayesiana

4.2. Conceptos Básicos

4.2.1. Teorema de Bayes

4.2.2. Naturaleza secuencial del Teorema de Bayes

4.2.3. Distribución a priori difusa o no informativa

4.2.4. Distribución a priori conjugada

4.3. Inferencia Bayesiana

4.3.1. Estimación puntual

4.3.2. Intervalos de credibilidad o regiones veraces

4.3.3. Prueba de Hipótesis de una media

4.3.4. Prueba de Hipótesis de dos medias

V. Aplicaciones

VI. Conclusiones y recomendaciones

VII. Bibliografía

Introducción a la Estadística Bayesiana (Caso Comparación de medias). Yupanqui Pacheco, Rosalynn Miluska.

Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de la UNMSM

I. INTRODUCCION

En algunas situaciones de toma de decisiones, la gente necesita

determinar si los parámetros de dos poblaciones se parecen o son

diferentes. Una compañía quizá quiera probar, por ejemplo, si las

empleadas reciben sueldos más bajos que los varones por realizar el

mismo trabajo. Es posible que un director de capacitación desee

determinar si la producción de empleados promovibles en una

instalación gubernamental difiere de la proporción de otra instalación. Un

fabricante de productos farmacéuticos quizá necesita saber si un nuevo

medicamento ocasiona una reacción en un grupo de animales de

experimentación, no así en otro grupo.

En todos los ejemplos citados, los que toman las decisiones se ocupan de

los parámetros de dos poblaciones. En tales situaciones, les interesa

menos el valor verdadero de los parámetros que la relación existente

entre los valores de los parámetros, o sea en que difieren estos últimos.

¿Ganan menos las empleadas que los empleados por el mismo trabajo?

¿Es la proporción de empleadas promovibles en una instalación diferente

de la proporción que hay en otra instalación? ¿Reaccionó un grupo de

animales de experimentación en forma distinta a como lo hizo otro?

La prueba de hipótesis para diferencia de medias se puede dar para

los siguientes casos:

• Cuando se conocen las varianzas

• Cuando no se conocen las varianzas

• Varianzas Iguales

• Varianzas Distintas

El presente trabajo de investigación brinda una alternativa al análisis de

la Prueba de Hipótesis para diferencias entre medias utilizando el

enfoque Bayesiano para el proceso de inferencia estadística, lo que nos

permitirá obtener resultados más precisos y confiables al incorporar en el

modelo información auxiliar tal como la experiencia del investigador u

otro conocimiento de relevancia para el análisis.

El enfoque Bayesiano se basa en la interpretación subjetiva de la

probabilidad, la cual considera a esta como un grado de creencia con

respecto a al incertidumbre. El punto de vista Bayesiano considera un

parámetro desconocido como una característica con respecto a la cual

puede expresarse un grado de creencia que puede modificarse con base

en la información muestral. Una inferencia con respecto al parámetro se

formula con base en el grado de creencia existente. En otras palabras, un

parámetro es visto como una variable a la que, antes de la evidencia

muestral, se le asigna una distribución a priori con base al grado de

creencia con respecto al comportamiento del parámetro aleatorio. Cuando

se obtiene la evidencia muestral, la distribución a priori es modificada y

entonces surge una distribución a posteriori. Es esta distribución a

posteriori la que se emplea para formular inferencias con respecto al

parámetro.

El objetivo del presente trabajo es:

• Presentar una metodología de Análisis Estadístico utilizando el

enfoque Bayesiano.

II. MATERIALES Y EQUIPOS

Para la elaboración del presente trabajo se necesito de la ayuda

primordial de la computadora y el método para obtener la información

de algunos casos fue capturada vía Internet, así como la utilización de

diferentes software que a continuación se detallan:

* Microsoft Windows XP 2000

* Microsoft Excel 2000

* Microsoft Word 2000 (Editor de ecuaciones, texto).

* Minitab 13

* Globalink Power Traslator Pro (Traductor).

* English – Spanish Interpreter Profesional

Materiales de Internet:

• Pagina web google (Buscador)

• Pagina web altavista (Buscador)

• Pagina web shef.ac.uk/ ≈st190/1b.html (Estadistica Bayesiana -

Firts Bayes)

III. REVISION DE LITERATURA

COMPARACION DE MEDIAS POBLACIONALES

La inferencia estadística comprende dos partes principales, a saber: la

estimación de parámetros y la docimasia de hipótesis. En este trabajo

estudiaremos la segunda de ellas, con el objeto de describir métodos

generales para la docimasia de hipótesis y su aplicación a algunos

problemas.

En la investigación experimental se pretende a veces simplemente estimar

un parámetro; por ejemplo puede que se interese estimar la producción

de un nuevo híbrido de maíz. Muchas veces, el objetivo final es la

utilización de dicha estimación. Así ocurre cuando se quiere comparar la

producción del nuevo híbrido con la correspondiente a una variedad

conocida, a fin de recomendar la sustitución de esta por aquel, en el caso

de que parezca superior. Esto sucede corrientemente en la investigación;

puede ocurrir que interese determinar si un método nuevo para cerrar

lámparas aumenta la vida de estas; si un nuevo germicida resulta más

efectivo en el tratamiento de cierta infección; si un método de

conservación de alimentos es preferible a otros, en lo que se refiere a la

conservación de vitaminas, etc.

La prueba de hipótesis comienza con una suposición, denominada

hipótesis, que hacemos en torno a un parámetro de la población. Después

reunimos datos muestrales, producimos estadísticos de la muestra y nos

servimos de esta información para decidir la probabilidad de que el

parámetro supuesto de la población sea correcto. Pongamos el caso de

que suponemos cierto valor de una media de la población.

Para verificar la validez de nuestra suposición obtenemos los datos

muestrales y determinamos la diferencia entre el valor supuesto y el valor

real de la media muestral. A continuación juzgamos si la diferencia es

significativa. Cuanto menor sea la diferencia, mayores probabilidades

habrá de que sea correcto el valor supuesto de la media. Y a una

diferencia más amplia corresponderá una menor probabilidad.

Por desgracia, la diferencia entre el parámetro supuesto de la población y

el verdadero estadístico suele ser ni tan grande que automáticamente

rechacemos la hipótesis ni tan pequeño que de inmediato la aceptemos.

Por ello, en la prueba de hipótesis como en las decisiones más

trascendentes de la vida real, las soluciones bien definidas constituyen la

excepción, no la regla.

POBLACIONES INDEPENDIENTES 3.1. CUANDO SE CONOCEN LAS VARIANZAS POBLACIONES

Si las medias muéstrales 1x y 2x están basadas en dos muestras aleatorias

independientes de tamaño 1n y 2n respectivamente, obtenidas de dos

poblaciones con distribución de probabilidad normal, con medias 1u y 2u ;

y con varianzas 21σ y 2

2σ respectivamente entonces:

( ) ( )Z

−−−

σσ~ )1,0(N

donde:

El error estándar de la diferencia de medias muéstrales es:

21 nnxxEE

σσ+=−

Entonces el intervalo de confianza, al ( )α−1 de nivel de confianza para la

diferencia de medias poblacionales ( )21 uu − esta dado por:

( ) ( ) 2/12121 α−−±− ZxxEExx

Para docimar las hipótesis:

≠−=−

ββββ

Se usa la estadística:

−−

σσ~ )1,0(N

Al nivel de significación, la región critica esta dada por:

Rechazar 0H si el valor α de la estadística Z es menor o igual que - 2/1 α−Z

o es mayor que 2/1 α−Z .

3.2. CUANDO NO SE CONOCE LAS VARIANZAS POBLACIONALES

3.2.1 VARIANZAS IGUALES

independientes de tamaños 1n y 2n respectivamente, obtenidas de dos

poblaciones con distribución de probabilidad normal, con medias 1u y 2u

; y con varianzas desconocidas tal que 22

21 σσ = , entonces:

( ) ( )T

−−−

11~ ( )221 −+nnt

donde:

( ) ( )2

−+−+−

SnSnSp

es la varianza combinada y el error estándar de la diferencia de medias

poblacionales es:

SxxEE p +=−

El intervalo de confianza, al ( )α−1 de nivel de confianza para la diferencia

de medias poblacionales ( )21 uu − esta dado por:

( ) ( ) ( ) 2/122121 21 α−−+−±− nntxxEExx

Para docimar la hipótesis:

≠−=−

( ) ( )T

−−−

11~ ( )221 −+nnt

Al nivel de significación α , la región critica esta dada por :

Rechazar 0H si el valor de la estadística T es menor o igual que - 2/1 α−t o es

mayor que 2/1 α−t .

3.2.2 VARIANZAS DIFERENTES

independientes de tamaños 1n y 2n respectivamente, obtenidas de dos

poblaciones con distribución de probabilidad normal, con medias 1u y 2u ;

con varianzas desconocidas 21σ y 2

2σ ; y diferentes, entonces:

( ) ( )T

−−−

2121 ~ ( )vt

donde:

Cuando los tamaños de muestra son razonablemente grandes, donde el

error estándar de la diferencia de medias muestrales es:

SxxEE +=−

El intervalo de confianza, al ( )α−1 de nivel de confianza para la diferencia

de medias poblacionales ( )21 uu − esta dado por:

( ) ( ) ( ) 212121 α−−±−

vtxxEExx

Para docimar la hipótesis:

≠−=−

( ) ( )T

−−−

2121 ~ ( )vt

Al nivel de significación α , la región critica esta dada por :

Rechazar 0H si el valor de la estadística T es menor o igual que - ( )vt o es

mayor que ( )vt .

IV. MARCO TEORICO

4.1. ESTADISTICA BAYESIANA

El interés por el teorema de Bayes trasciende esta aplicación clásica,

especialmente cuando se amplía a otro contexto en el que la probabilidad

no se entiende exclusivamente como la frecuencia relativa de un suceso a

largo plazo, sino como el grado de convicción personal acerca de que el

suceso ocurra o pueda ocurrir (definición subjetiva de la probabilidad).

Afirmaciones del tipo "es muy probable que el partido X gane las

próximas elecciones", "es improbable que Juan haya sido quien llamó por

teléfono" o "es probable que se encuentre un tratamiento eficaz para el

sida en los próximos 5 años", normales en el lenguaje común, no pueden

cuantificarse formalmente; resultan ajenas, por tanto, a una metodología

que se desenvuelva en un marco frecuentista. Una cuantificación sobre

base subjetiva resulta, sin embargo, familiar y fecunda para el enfoque

bayesiano. Al admitir un manejo subjetivo de la probabilidad, el analista

bayesiano podrá emitir juicios de probabilidad sobre una hipótesis H y

expresar por esa vía su grado de convicción al respecto, tanto antes como

después de haber observado los datos. En su versión más elemental y en

este contexto, el teorema de Bayes asume la forma siguiente:

P (H | datos) = [P (datos | H) / P (datos)] . P (H)

La probabilidad a priori de una hipótesis, P(H), se ve transformada en

una probabilidad a posteriori, P(H | datos), una vez incorporada la

evidencia que aportan los datos. El caso considerado se circunscribe a la

situación más simple, aquella en que P(H) representa un número único;

sin embargo, si se consiguiera expresar nuestra convicción inicial (y

nuestra incertidumbre) mediante una distribución de probabilidades.

Entonces una vez observados los datos, el teorema nos "devuelve" una

nueva distribución, que no es otra cosa que la percepción probabilística

original actualizada por los datos.

Esta manera de razonar de la inferencia Bayesiana, radicalmente diferente

a la inferencia clásica o frecuentista (que desdeña en lo formal toda

información previa de la realidad que examina), es sin embargo muy

cercana al modo de proceder cotidiano, e inductivo. Debe subrayarse que

esta metodología, a diferencia del enfoque frecuentista, no tiene como

finalidad producir una conclusión dicotómica (significación o no

significación, rechazo o aceptación, etc.) sino que cualquier información

empírica, combinada con el conocimiento que ya se tenga del problema

que se estudia, "actualiza" dicho conocimiento, y la trascendencia de

dicha visión actualizada no depende de una regla mecánica.

Los métodos bayesianos han sido cuestionados argumentando que, al

incorporar las creencias o expectativas personales del investigador,

pueden ser caldo de cultivo para cualquier arbitrariedad o manipulación.

Podemos argüir, por una parte, que el enfoque frecuentista no está exento

de decisiones subjetivas (nivel de significación, usar una o dos colas,

importancia que se concede a las diferencias, etc.); de hecho, la

subjetividad (algo bien diferente de la arbitrariedad o el capricho) es un

fenómeno inevitable, especialmente en un marco de incertidumbre como

en el que operan las ciencias biológicas y sociales. Por otra parte, las

"manipulaciones" son actos de deshonestidad, que pueden producirse en

cualquier caso (incluyendo la posibilidad de que se inventen datos) y que

no dependen de la metodología empleada sino de la honradez de los

investigadores.

Aunque las bases de la estadística Bayesiana datan de hace más de 2

siglos, no es hasta fechas recientes cuando empieza a asistirse a un uso

creciente de este enfoque en el ámbito de la investigación. Una de las

razones que explican esta realidad y que a la vez anuncian un impetuoso

desarrollo futuro es la absoluta necesidad de cálculo computarizado para

la resolución de algunos problemas de mediana complejidad. Hoy ya

existe software disponible (BUGS, macros para MINITAB, próxima

versión de EPIDAT y First Bayes, entre otros) que hace posible operar con

estas técnicas y augura el "advenimiento de una era Bayesiana".

El proceso intelectual asociado a la inferencia Bayesiana es mucho más

coherente con el pensamiento usual del científico que el que ofrece el

paradigma frecuentista. Los procedimientos bayesianos constituyen una

tecnología emergente de procesamiento y análisis de información para la

que cabe esperar una presencia cada vez más intensa en el campo de la

aplicación de la estadística a la investigación clínica y epidemiológica.

4.1.1 ¿QUÉ ES LA INFERENCIA ESTADÍSTICA?

La inferencia estadística es la ciencia de extraer conclusiones a partir de

una muestra aleatoria para ser aplicadas a cantidades desconocidas de la

población de la cual la muestra fue seleccionada. Este proceso origina

muchas preguntas, como por ejemplo: ¿qué es una población?, ¿cómo la

muestra se relaciona con la población?, ¿cómo debe seleccionarse la

muestra si todos tienen la opción de ser elegidos?.

Ejemplo. Supóngase que un ingeniero forestal desea estimar la

proporción de árboles en un bosque de la selva que sufren una

determinada enfermedad. Examinar a todos los árboles es impráctico, por

lo que el ingeniero decide seleccionar una muestra de n árboles elegidos

aleatoriamente de acuerdo a un diseño muestral previamente definido. La

aleatoriedad debe entenderse en el sentido que si θ es la proporción de

árboles que tienen la enfermedad en el bosque, entonces cada árbol en la

muestra tendrá la enfermedad, independientemente de lo que suceda con

los otros árboles en la muestra, con probabilidad θ . Sea X la variable

aleatoria que corresponde al número de árboles enfermos en la muestra,

el ingeniero usará el valor observado de xX = para realizar una

inferencia acerca del parámetro poblacional θ . Esta inferencia podría

tomar la forma de un estimado puntual ( 1.0ˆ =θ ); un intervalo de

confianza (95 % de confianza que θ se encuentre en el intervalo (0.08,

0.12); una prueba de hipótesis (rechazar la hipótesis que θ <0.07 a un

nivel α=0.05), una predicción (sostener que 15% de los árboles serán

afectados por la enfermedad el próximo año); o una decisión (decidir

identificar y remover todos los árboles infectados). En cada caso, el

conocimiento del valor muestral observado es usado para realizar

inferencias acerca de una característica de la población (parámetro).

Más aún, estas inferencias son realizadas mediante un modelo de

probabilidad, que determina cómo, para un valor de θ, las probabilidades

de los diferentes valores de x son distribuidos.

Por ejemplo, bajo las suposiciones del muestreo aleatorio, el modelo para

el problema anterior podría ser:

X | θ ~ b(n, θ)

La inferencia estadística se realiza en base a un valor observado X=x, y

estamos interesados en conocer los valores de θ que tienen la más alta

probabilidad de haber generado el valor x en comparación con aquellos

que tienen la más baja probabilidad de haberlo hecho. (Principio de

máxima verosimilitud).

Antes de estudiar la inferencia Bayesiana en particular es necesario

realizar algunas aclaraciones puntuales respecto de la aproximación

clásica con la Bayesiana. El punto más importante es que el parámetro,

mientras no es conocido, es tratado como una constante en lugar de una

variable aleatoria. Esta es la idea fundamental de la teoría clásica pero

que conduce a problemas de interpretación. Por ejemplo, sostener que

con 95% de confianza el intervalo [.08, 0.12] incluye a la proporción

poblacional de los árboles enfermos es incongruente desde que θ no es

aleatorio. θ está en el intervalo o no lo está. El único elemento aleatorio en

este modelo de probabilidad es el dato, por lo tanto la correcta

interpretación del intervalo es que si aplicamos el procedimiento

estadístico de construcción de intervalos un gran número de veces,

entonces “a la larga” los intervalos construidos incluirán a θ en el 95% de

dichos intervalos.

Todas las inferencias basadas en la teoría clásica son forzadas a tener este

tipo de interpretación de frecuencia “a la larga”; a pesar de que como en

el ejemplo de los árboles, solamente se tiene un intervalo (0.08, 0.12) para

realizar el análisis.

El supuesto de la “intercambiabilidad” es útil en inferencia estadística,

que significa que los n valores observados xi en la muestra pueden ser

intercambiados, es decir, que la distribución conjunta p(x1, x2, ...xn) debe

ser invariante a las permutaciones de los índices. Generalmente, los datos

de una distribución “intercambiable” es útil modelarlos como

independientementes e idénticamente distribuidas (iid) dado algún

vector de parámetros desconocidos θ con distribución p(θ).

4.1.2. ¿QUÉ ES LA INFERENCIA BAYESIANA?

El marco teórico en que se aplica la inferencia Bayesiana es similar a la

clásica: hay un parámetro poblacional respecto al cual se desea realizar

inferencias y se tiene un modelo que determina la probabilidad de

observar diferentes valores de X, bajo diferentes valores de los

parámetros. Sin embargo, la diferencia fundamental es que la inferencia

Bayesiana considera al parámetro como una variable aleatoria. Esto

parecería que no tiene demasiada importancia, pero realmente si lo tiene

pues conduce a una aproximación diferente para realizar el

modelamiento del problema y la inferencia propiamente dicha.

Algunos ejemplos que justifican lo anterior son: la verdadera proporción

de artículos defectuosos que produce un proceso de manufactura puede

fluctuar ligeramente pues depende de numerosos factores, la verdadera

proporción de casas que se pierden por concepto de hipoteca varia

dependiendo de las condiciones económicas, la demanda promedio

semanal de automóviles también fluctuara como una función de varios

factores incluyendo la temporada.

En esencia, la inferencia Bayesiana esta basada en la distribución de

probabilidad del parámetro dado los datos (distribución a posteriori de

probabilidad p(θθ /y) ) , en lugar de la distribución de los datos dado el

parámetro. Esta diferencia conduce a inferencias mucho más naturales, lo

único que se requiere para el proceso de inferencia Bayesiana es la

especificación previa de una distribución a priori de probabilidad p(θθ ),

la cual representa el conocimiento acerca del parámetro antes de obtener

cualquier información respecto a los datos.

La noción de la distribución a priori para el parámetro es el corazón del

pensamiento Bayesiano. El análisis Bayesiano hace uso explícito de las

probabilidades para cantidades inciertas (parámetros) en inferencias

basadas en análisis estadístico de datos.

El análisis Bayesiano la podemos dividir en las siguientes etapas:

Primero: Elección de un modelo de probabilidad completo. Elección de

una distribución de probabilidad conjunta para todas las cantidades

observables y no observables. El modelo debe ser consistente con el

conocimiento acerca del problema fundamental y el proceso de

recolección de la información.

Segundo: Condicionamiento de los datos observados. Calcular e

interpretar la distribución a posteriori apropiada que se define como la

distribución de probabilidad condicional de las cantidades no

observadas de interés, dados los datos observados.

Tercero: Evaluación del ajuste del modelo y las implicancias de la

distribución a posteriori resultante. ¿Es el modelo apropiado a los

datos?, ¿Son las conclusiones razonables?, ¿Qué tan sensibles son los

resultados a las suposiciones de modelamiento de la primera etapa?. Si

fuese necesario, alterar o ampliar el modelo, y repetir las tres etapas

mencionadas.

4.2. CONCEPTOS BAYESIANOS BASICOS

4.2.1 TEOREMA DE BAYES

Sea '21 ),...,( nyyyY = un vector de n observaciones cuya distribución de

probabilidad ( )θ/yp depende de k parámetros involucrados en el vector

21 ,..., kθθθθ = . Supóngase también que θ tiene una distribución de

probabilidades ( )θp . Entonces, la distribución de conjunta de θ e Y es:

( ) ( ) ( ) ( ) ( )ypyppypyp ././, θθθθ ==

de donde la distribución de probabilidad condicional de θ dado el vector

de observaciones y resulta:

( ) ( ) ( )( )yp

θθθ .// = con ( ) 0≠yp (1)

A esta ecuación se lo conoce como el Teorema de Bayes, donde ( )yp es la

distribución de probabilidad marginal de y y puede ser expresada como:

=∑∫

)()./(

).()./()(

θθθ

dpypyp

si θθ

es discreto

continuo

donde la suma o integral es tomada sobre el espacio paramétrico de θ . De

este modo, el Teorema de Bayes puede ser escrito como:

)()./()()./(.)/( θθθθθ pyppypcyp ≈= (2)

En esta expresión:

• ( )θp representa lo que es conocido de θ antes de recolectar los datos y

es llamada la distribución a priori de θ .

• ( )yp /θ representa lo que se conoce de θ después de recolectar los

datos y es llamada la distribución posterior de θ dado y .

• c es una constante normalizadota necesaria para que ( )yp /θ sume o

integre uno.

Dado que el vector de datos y es conocido a través de la muestra, ( )θ/yp

es una función de θ y no de y . En este caso a ( )θ/yp se le denomina

función de verosimilitud de θ dado y y se le denota por ( )yl /θ . Entonces

la formula de Bayes puede ser expresada como sigue:

)()./()/( θθθ pylyp ≈ (3)

Ejemplo. Sea el parámetro θ que a priori tiene una distribución uniforme

en el intervalo [0,1] y la variable aleatoria Y que tiene una distribución de

probabilidades Binomial con parámetros m y θ , m conocido por

conveniencia. Entonces se tienen las siguientes funciones de distribución:

1)( =θp 10 ≤≤ θ

myp −−

= )1()/( θθθ my .....1,0=

Ahora, para una muestra aleatoria de tamaño n la función de

verosimilitud estará dada por:

∑−∑

=∏ ii ynmy

myl )1()/(

θθθ myi ,....1,0= i∀

y aplicar el Teorema de Bayes dado en (2), la distribución a posteriori de

θ dada la muestra y queda expresada como:

∑−∑

−= −

==∏∏

ii ymny

ii ymy

mncyp )1(

)!()/(

θθθ

Esta expresión puede escribirse de la siguiente manera:

( ) ( ) 1111

)1()!(!

)!()/( −+−−+

∑−∑

∏∏ii ynmy

ii ymy

mncyp θθθ

que tiene la forma de una distribución Beta con parámetros ( )∑ +1iy y

( )∑ +− 1iynm .

Luego el valor adecuado de la constante normalizadota c será:

( )( ) ( )

( )( )!

∏∏∑∑

+−Γ+Γ+Γ

Nótese que es a través de ( )yl /θ que los datos (información muestral)

modifican el conocimiento previo de θ dado por ( )θp . Este proceso de

revisión de las probabilidades iniciales, dada la información muestral, se

ilustra en la siguiente figura:

Por ultimo, es conveniente señalar que la información muestral y por lo

general será introducida en el modelo a través de estadísticas suficientes

para θ , dado que estas contienen toda la información referente a los

datos. Así, dado un conjunto de estadísticas suficientes t para los

parámetros en θ , ( )θ/yp podrá ser intercambiada por ( )θ/tp , para lo cual

bastara con calcular la distribución condicional de t dado θ .

Información Inicial

Información nueva

Dist. a Priori

Func. de Verosimilitud

)/( yl θ

Teorema de

Dist. a

Posteriori

4.2.2 NATURALEZA SECUENCIAL DEL TEOREMA DE BAYES

Supóngase que se tiene una muestra inicial 1y . Entonces, por la fórmula

de Bayes dada anteriormente se tiene:

)()./()/( 11 θθθ pylyp ∝

Ahora supóngase que se tiene una segunda muestra 2y independiente de

la primera muestra, entonces:

)()./()/()().,/(),/( 212121 θθθθθθ pylylpyylyyp =∝

)/()/(),/( 1221 ypylyyp θθθ ∝

De esta manera, la distribución a posteriori obtenida con la primera

muestra se convierte en la nueva distribución a priori para ser corregida

por la segunda muestra.

En este proceso puede repetirse indefinidamente. Así, si se tienen r

muestras independientes, la distribución a posteriori puede ser

recalculada secuencialmente para cada muestra de la siguiente manera:

),...,/()./(),...,/( 111 −∝ mmm yypylyyp θθθ para rm ,...,2=

Nótese que ),...,/( 1 myyp θ podría también ser obtenido partiendo de ( )θp y

considerando al total de las r muestras como una sola gran muestra.

La naturaleza secuencial del Teorema de Bayes, es tratada por Bernardo

como un proceso de aprendizaje en términos de probabilidades, el cual

permite incorporar al análisis de un problema de decisión, la información

proporcionada por los datos experimentales relacionados con los sucesos

(parámetros) inciertos relevantes.

4.2.3. DISTRIBUCIÓN A PRIORI DIFUSA O NO INFORMATIVA

Como ya se habrá podido notar, la distribución a priori cumple un papel

importante en el análisis Bayesiano ya que mide el grado de conocimiento

inicial que se tiene de los parámetros en estudio. Si bien su influencia

disminuye a medida que más información muestral es disponible, el uso

de una u otra distribución a priori determinara ciertas diferencias en la

distribución a posteriori.

Si se tiene un conocimiento previo sobre los parámetros, este se traducirá

en una distribución a priori. Así, será posible plantear tantas

distribuciones a priori como estados iniciales de conocimiento existan y

los diferentes resultados obtenidos en la distribución a posteriori bajo

cada uno de los enfoques, adquirirán una importancia en relación con la

convicción que tenga el investigador sobre cada estado inicial. Sin

embargo, cuando nada es conocido sobre los parámetros, la selección de

una distribución a priori adecuada adquiere una connotación especial

pues será necesario elegir una distribución a priori que no influya sobre

ninguno de los posibles valores de los parámetros en cuestión.

Estas distribuciones a priori reciben el nombre de difusas o no

informativas y en esta sección se tratara algunos criterios para su

selección:

Método de Jeffreys

En situaciones generales, para un parámetro θ el método mas usado es el

de Jeffreys (1961) que sugiere que, si un investigador es ignorante con

respecto a un parámetro θ , entonces su opinión a cerca de θ dado las

evidencias ~X debe ser la misma que el de una parametrización para θ o

cualquier transformación 1 a 1 de θ , )(θg , una priori invariante sería:

[ ] 21

)()( θθ Ip ∝

donde )(θI es la matriz de información de Fisher:

∂−= 2

2 )/()(

yLnfEI

Si '1 ),...,( pθθθ = es un vector, entonces:

[ ] 21

)(det)( θθ Ip ∝ (4)

donde )(θI es la matriz de información de Fisher de orden pxp . El

elemento )(ij de esta matriz es:

∂∂∂

−=ji

yLnfEI

θθθ)/(2

Por transformación de variables, la densidad a priori ( )θp es equivalente

a la siguiente densidad a priori para φ .

φθφθφ

dhpp ))(()( 1−== (5)

El principio general de Jeffreys consiste en que al aplicar el método para

determinar la densidad a priori ( )θp , debe obtenerse un resultado

equivalente en )(φp si se aplica la transformación del parámetro para

calcular )(φp a partir de ( )θp en la ecuación (5) o si se obtiene )(φp

directamente a partir del método inicial. Es decir, se debe cumplir la

siguiente igualdad:

[ ] [ ]φθθφ

1)()( =

Ejemplo. Sea la variable y con una distribución ( )θ,nB

( ) ( ) ( ) yny

nyPyf −−

== θθθθ 1//

( ) )1log(loglog)/(log θθθ −−++

y n ylog ( / )θθ θ θ

= −−−1

y n y2

2 2 21

log ( / )

θθ θ θ

= − +−−

( )( )

( )Ey n y n E n y

− +−−

= − − +

θθ θ2 2 2 21 1

( ) ( )Ey n y n

− +−−

−θ θ θ θ2 21 1

θ θ1−

Si dejamos de lado el n, obtenemos que la distribución a priori de θ es

( ) ( )P θ θ θ∝ −− −1 2 1 21/ /

esto es, )5.0,5.0(Beta≈θ

Ejemplo. Se aplicara el método de Jeffreys para calcular una distribución

conjunta a priori para los parámetros de un modelo Normal.

Sea y ~ ),( 2σµN , ambos parámetros desconocidos. Entonces:

−−= 2

πσσµ

1ln),/(ln

σµσ

πσσµ −

−−=y

y la matriz de información de Fisher estará dada por:

∂∂∂

∂∂

−=),/(ln

),/(ln

σµµσ

σµµ

∂∂

∂∂∂

),/(ln

σµσ

σµσµ

−−

−−=

−−

1)( 2σθI

Ahora, según la ecuación (4), la distribución a priori no informativa para

),( σµθ = será:

σσσµ ∝∝p

Nótese que aplicando las reglas anteriores, dado que µ es un parámetro

de posición y σ un parámetro de escala, las distribuciones a priori para

µ y σ serian 1)( =µp y 1)( −= σσp , por lo que si se supone independencia

entre ambos parámetros se tendría 1)().(),( −== σσµσµ ppp en vez de 2−σ .

Jeffreys resolvió este problema estableciendo que µ y σ deberían ser

tratados a priori independientemente y por separado. Así, cuando el

método de Jeffreys es aplicado al modelo Normal con σ fijo, resulta una a

priori uniforme para µ y cuando es aplicado con µ fijo, se obtiene la a

priori 1)( −= σσp lo cual conduce a:

1),( −= σσµp

que es lo mas deseable.

4.2.4. DISTRIBUCIÓN A PRIORI CONJUGADA

En este caso, la distribución a priori es determinada completamente por

una función de densidad conocida. Berger presenta la siguiente definición

para una familia conjugada:

Definición: Una clase P de distribuciones a priori es denominada una

familia conjugada para la clase de funciones de densidad F, si )/( yp θ está

en la clase P para todo Fyf ∈)/( θ y Pp ∈)(θ .

En este caso, la distribución inicial dominará a la función de

verosimilitud y )/( yp θ tendrá la misma forma de )(θp , con los

parámetros corregidos por la información muestral.

Ejemplo. Sea el parámetro θ que a priori tiene una distribución Beta con

parámetros α y β la variable aleatoria y que tiene una distribución de

probabilidades Binomial con parámetros m y θ , m conocido por

conveniencia. Entonces se tienen las siguientes funciones de distribución:

( )( ) ( ) ( ) )()1()( 1,0

11 θθθβαβαθ βα Ip −− −

ΓΓ+Γ

myp −−

= )1()/( θθθ my ,....1,0=

Ahora para una muestra aleatoria de tamaño n la función de

verosimilitud estará dada por:

∑−∑

= −∏ ii ymny

myl )1()/(

θθθ myi ,....1,0= i∀

y al aplicar el Teorema de Bayes , la distribución posterior de θ dada la

muestra y queda expresada de la siguiente manera:

11 )1()/( −−+−+ ∑−∑∝ ii ynmyyp

βα θθθ

que tiene la forma de una distribución Beta con parámetros ( )∑+ iyα y

( )∑−+ iynmβ . Luego, la distribución tiene la misma forma que la

distribución a priori por lo que la clase de distribuciones a priori Beta es

una familia conjugada para la clase de funciones de densidad Binomial.

Otro caso importante es el de la Distribución Normal

Sea el parámetro θ con una distribución ),( 200 τµN , donde 0µ y 2

0τ son

parámetros conocidos y la variable x con una distribución ),( 2σθN donde

2σ es un parámetro conocido. Entonces tenemos las siguientes funciones

de distribución:

τµθ

τπθ −

σπθ −

y al aplicar el Teorema de Bayes , la distribución posterior de θ dada la

muestra x queda expresada de la siguiente manera: (Demostración

anexo )

τµθ

τπθ −

−=xp

donde:

σττ+=

Luego )/( xp θ ~ ),( 211 τµN de donde podemos sacar conclusiones:

Precisiones de las distribuciones a priori y a posteriori:

Varianzaecisión

Precisión a

posteriori =

Precisión a

priori +

Precisión de

los datos

σττ+=

Otro caso importante es el de la Distribución Normal con Múltiples

Observaciones:

Sea '21 ),...,( nxxxx = un vector de n observaciones, ix son observaciones

idénticamente distribuidos.

θ~ ),( 200 τµN

ix ~ ),( 2σθN

Entonces al aplicar el Teorema de Bayes , la distribución posterior de θ

dada la muestra ix queda expresada de la siguiente manera:

)/().../()/()()/()()/( 21 θθθθθθθ nxpxpxppxppxp =∝

iixppxppxp

)/()()/()()/( θθθθθ

−∝n

1exp)/(

τµθ

−+−

−∝ ∑=

20 )()(

1exp)/( θ

στµθ

)/( xp θ depende de x únicamente a través de nxxn

= ; es decir, x es

una estadística suficiente del modelo.

Desde que, θ/x ~ )/,( 2 nN σθ y considerando a x como una simple

observación, se aplican los resultados anteriores, luego:

)/(),...,,/( 21 xpxxxp n θθ = ~ ),/( 2nnN τµθ

donde:

σττn

Si 220 στ = , entonces la distribución a priori tiene el mismo peso como una

observación extra con el valor 0µ . Es decir, si ∞→0τ con n fijo, o

conforme ∞→n con 20τ fijo, entonces:

)/( xp θ ~ ),/(2

4.3. INFERENCIA BAYASIANA

Dado que la distribución posterior, contiene toda la información

concerniente al parámetro de interés θ (información a priori y muestral),

cualquier inferencia con respecto a θ consistirá en afirmaciones hechas a

partir de dicha distribución.

4.3.1. ESTIMACION PUNTUAL

La distribución posterior reemplaza la función de verosimilitud como una

expresión que incorpora toda la información.

)/( yθΠ es un resumen completo de la información acerca del parámetro

θ . Sin embargo, para algunas aplicaciones es deseable (o necesario)

resumir esta información en alguna forma. Especialmente, si se desea

proporcionar un simple “mejor” estimado del parámetro desconocido.

(Nótese la distinción con la estadística clásica en que los estimados

puntuales de los parámetros son la consecuencia natural de una

inferencia).

Por lo tanto, en el contexto Bayesiano, ¿Cómo se puede reducir la

información en una )/( yθΠ a un simple “mejor” estimado? ¿Qué debemos

entender por “mejor”?

Existen dos formas de enfrentar el problema:

a) Estimador de Bayes posterior

b) Aproximación de Teoría de decisión

♦ ESTIMADOR DE BAYES POSTERIOR

El estimador de Bayes posterior se define de la siguiente manera:

Sean 1x , 2x ,…, nx una muestra aleatoria de )/( θxf , donde θes un valor de

la v.a. θcon función de densidad (.)θg . El estimador de Bayes posterior

de )(θτ con respecto a la priori (.)θg es definida como ).,...,,/)(( 21 nxxxE θτ

Ejemplo. Sean 1x , 2x ,…, nx una m.a. de xxxf −−= 1)1()/( θθθ 0,1=x y

)()( )1,0( θθθ Ig = . ¿Cuáles son los estimadores de θ y )1( θθ − ?

∫ ∏

)/()(),...,,/(

θθθ

xfgxxxf

∫ ∑−∑

∑−∑=

)1,0(21

)()1(),...,,/(

θθθ

θθθθ

∫∑−∑

∑−∑

),...,,/(

θθθ

θθθθθ

xxxEii

)1,2(),...,,/( 21 ∑ ∑

∑ ∑+−++−+

iin xnxB

xnxBxxxE θ

1),...,,/( 21 +

+= ∑

xxxxE i

Luego el estimador a posteriori de Bayes de θ es 2

xi es un estimador

sesgado. El estimador máximo verosímil de θ es n

xi∑ que un estimador

insesgado.

∫∑−∑

∑−∑−=−

)1()1(

),...,,/)1((

θθθ

θθθθθθθ

xxxEii

( ) ( )( )

( )( ) ( )∑∑

∑∑+−Γ+Γ

+Γ+−Γ+Γ

=−11

22),...,,/)1(( 21

iin xnx

xnxxxxE θθ

( )( )( )( )23

11),...,,/)1(( 21 ++

+−+=− ∑∑

xnxxxxE ii

estimador de ( )θθ −1 con respecto a la priori uniforme.

♦ APROXIMACION DE TEORIA DE DECISIÓN

Se especifica una función de perdida ( )aL ,θ que cuantifica las posibles

penalidades en estimar θ por a .

Hay muchas funciones perdida que se puede usar, la elección en

particular de una de ellas dependerá de contexto del problema.

Las más usadas son:

1) Perdida cuadrática: ( ) ( )2, aaL −= θθ

2) Perdida error absoluto: ( ) aaL −= θθ,

3) Perdida 0,1: ( )

0,aL θ si

>∈−

≤∈−

4) Perdida lineal: para 0, >hg

( ) ( )( )

−−

θ, si θθ

En cada uno de los casos anteriores, por la minimización de la perdida

esperada posterior, se obtienen formas simples para la regla de decisión

de Bayes, que es considerado como el estimado punto de θ para la

elección en particular de la función perdida.

• ( )aL ,θ es la perdida incurrida en adoptar la acción a cuando el

verdadero estado de la naturaleza es θ .

• ( )xa,ρ es la perdida esperada posterior

Luego ( ) ( )( ) ( ) ( ) ( )∫=== θθθρθθ dxpaLxaaLERa /,,,

• Regla de decisión de Bayes (estimador de Bayes): )(xd es la acción

que minimiza a ( )xa,ρ .

• Riesgo de Bayes es ( ) ( )∫= dxxpxxddBR )(),(ρ

Ejemplo.

Sean 1x , 2x ,…, nx una muestra aleatoria de una ( )1,θN . Sea ( ) ( )2, aaL −= θθ ,

sea θ~ ( )1,oN µ .

a) El estimador de Bayes posterior es la media de la distribución

posterior de θ .

( )∫

=θθθ

θθθdxff

)/()(/

( )( )

( )∫ ∑

∑∞

∞− =

−−

θµθπ

µθπ

θπθ

Considerando 00 µ=x

( )∫ ∑

∑∞

∞− =

−−

θπθ

= ∑=

xf θπ

( ) ∑= +

021 1,...,,/θ ( )

1,...,,/ 21 +

xxxVar nθ

b) Aproximación Bayesiana:

R1 Cuando ( ) ( )2, aaL −= θθ , la regla de Bayes (o estimador de Bayes )

es la media de ( ) ( )xx // θρθ =Π

Por lo tanto; el estimador de Bayes o regla de Bayes con respecto a la

perdida cuadrado del error es:

+ ∑∑ =

R2 Si ( ) ( )( )2, awaL −= θθθ , la regla de Bayes es:

[ ][ ])(

θθθ

∫∫=

θθθ

θθθθ

dxfwxd

)/()()(

R3 Si ( ) 2, aaL −= θθ , cualquier mediana de ( )x/θΠ es un estimador de

Bayes de θ .

R4 Si ( ) ( )( )

0, si 0

<−≥−

cualquier 10

+ fractil de

( )x/θΠ es un estimador de Bayes deθ .

RESUMEN

En el contexto Bayesiano, un estimado puntual de un parámetro es una

simple estadística descriptiva de la distribución posterior ( )x/θΠ .

Utilizando la calidad de un estimador a través de la función perdida, la

metodología de la teoría de decisión conduce a elecciones optimas de

estimados puntuales. En particular, las elecciones más naturales de

función perdida conducen respectivamente a la media posterior, mediana

y moda como estimadores puntuales óptimos.

4.3.2. INTERVALOS DE CREDIBILIDAD O REGIONES VERACES

La idea de una región veraz es proporcionar el análogo de un intervalo de

confianza en estadística clásica.

El razonamiento es que los estimados puntuales nos proporcionan una

medida de la precisión de la estimación. Esto causa problemas en la

estadística clásica desde que los parámetros no son considerados como

aleatorios, por lo tanto no es posible dar un intervalo con la

interpretación que existe una cierta probabilidad que el parámetro este en

el intervalo.

En la teoría Bayesiana, no hay dificultad para realizar esta aproximación

porque los parámetros son tratados como aleatorios.

Definición: Un conjunto veraz 100(1-á) para θ es un subconjunto C de θ

tal que:

∫ ∑

Π==≤−

θθθα

)()/(1 )/( (

)discreto

continuo

Un aspecto importante con los conjuntos veraces (y lo mismo sucede con

los intervalos de confianza) es que ellos no son únicamente definidos.

Cualquier región con probabilidad )1( α− cumple la definición. Pero

solamente se desea el intervalo que contiene únicamente los valores “mas

posibles” del parámetro, por lo tanto es usual imponer una restricción

adicional que indica que el ancho del intervalo debe ser tan pequeño

como sea posible.

Para hacer esto, uno debe considerar solo aquellos puntos con ( )x/θΠ

mas grandes. Esto conduce a un intervalo (o región) de la forma:

γθθα ≥== )/(:)( xfxcc

donde γ es elegido para asegurar que ∫ −=c

dxf αθθ 1)/( .

La región c que cumple las anteriores condiciones es denominada

“regiones de densidad posterior mas grande” (HPD).

Generalmente, un HPD es encontrado por métodos numéricos, aunque

para muchas distribuciones univariadas a posteriori, los valores de v.a.

correspondientes son tabulados para un rango de valores de α .

Ejemplo: (Media de una normal) Sean 1x , 2x ,…, nx variables aleatorias

independientes de ),( 2σθN ( 2σ conocido)con una a priori para θ de la

θ ~ ),( 2dbN

Se sabe que

x/θ ~

Desde que, la normal es unimodal y simétrica, entonces el 100(1-α )%

HPD para θ es:

σα n

Si ∞→n , entonces n

± , luego el conjunto veraz es igual al de

estadística clásica. Pero sus interpretaciones son distintas.

4.3.3. PRUEBA DE HIPOTESIS PARA UNA MUESTRA

Pruebas de hipótesis son decisiones de la forma en que se deben elegir

entre dos diferentes hipótesis:

00 : Ω∈θH vs 11: Ω∈θH .

Se considera el caso simple donde 0Ω y 1Ω consisten de puntos simples,

por lo tanto la prueba es de la forma:

θθθθ

Aproximación Clásica

Ejecutar la prueba utilizando la razón de verosimilitud:

θθλ

Si λ asume valores grandes significa que los datos observados x son mas

probables que hayan ocurrido si θ , es el verdadero valor de θ en lugar de

Aproximación Bayesiana

La aproximación natural es realizar la prueba bajo las consideraciones en

las probabilidades a posteriori relativas de los valores formulados en las

hipótesis. Es decir:

θθθθ

θθλ

xfB ==

Razón de

apuestas a

posteriori

= Razón de

apuestas a priori *

Razón de

verosimilitud

Si Bλ asume valores grandes significa que hay preferencia por 1H .

Definición: La razón )/(

= es la razón de apuestas a posteriori de

1H a 0H , y 0

ΠΠ es la razón de apuestas a priori. La cantidad:

prioriaapuestasdeRazón

posterioriaapuestasdeRazónB

⋅⋅⋅⋅⋅⋅⋅⋅

)/()/(

θθλ

θθθθ

fxfB ==

es denominada el Factor de Bayes en favor de 1Θ .

B es una medida del peso de la información que contienen los datos en

favor de 1H sobre 0H . Si B es grande, este anula cualquier preferencia a

priori por 0H . La preferencia a posteriori es 1H .

4.3.4. PRUEBA DE HIPOTESIS PARA DOS MUESTRAS

A continuación trataremos el caso de dos muestras donde aplicaremos la

prueba de hipótesis para dos muestras, la forma general para tratar este

tema es generalizando el Factor de Bayes para el caso de dos muestras

esto quiere decir en vez de tomar una distribución de probabilidad para

una muestra ahora tomaremos para dos muestras es decir una

distribución conjunta:

Dadas las hipótesis:

µµµµ

Sean nxxx ,....,, 211 =µ y nyyy ,....,, 212 =µ dos muestras independientes,

entonces la distribución a posteriori será para el caso discreto:

∑∑=

),/(),(

),/(),()/,(

212121 µµµµ

µµµµµµ

la distribución a posteriori será para el caso continuo:

212121

),/(),(

),/(),()/,(

µµµµµµµµµµµµ

∫∫=

Y se procederá de manera similar que el caso de una muestra.

Nosotros teniendo como premisa que trabajamos con poblaciones

normales tomaremos otra forma de tomar la prueba de hipótesis todo con

fines prácticos:

Suponiendo que nuestras varianzas poblacionales son conocidas

El problema de dos pruebas normales

Ahora se considerara la situación de dos muestras independientes con

distribución normal:

nxxx ,....,, 21 ~ ),( φλN

nyyy ,....,, 21 ~ ),( ψµN

Que son independientes, aunque realmente el valor de interés es la

distribución a posteriori de:

µλδ −=

El problema se da en situaciones comparativas, por ejemplo, en comparar

el logro en la prueba de geometría entre niños y niñas.

Combinaciones pareadas

Antes de continuar, nosotros deberíamos ser advertidos en contra de una

posible mala aplicación del modelo. Si nm = y cada una de las xs esta de

algún sentido emparejados con las ys, es decir que ix y iy deben estar

definidos:

iii yxw −=

Y entonces investiga los ws como una muestra

nwww ,....,, 21 ~ ),( ωδN

Para algún ω . Esto es conocido como el método de comparaciones

pareadas. Podría tener problemas si, por ejemplo, La comparación de

desempeño de niños y niñas estuviera restringida para pares de gemelos

de sexos contrarios. La razón de tal una situación es de no ser tratado

como un problema de dos pruebas en el sentido descrito al principio es

decir no son independientes, es que habrá un efecto común para

cualquier par de gemelos, a fin de que las observaciones en los niños y en

las chicas no serán completamente independientes. Es una técnica, valiosa

que a menudo puede dar una medida mas precisa de un efecto, pero es

importante distinguirla en los casos donde las dos pruebas son

independientes, en ese caso no hay dificultad particular en analizar los

resultados de un experimento pues ahora se tratara como comparación de

medias de unas sola muestra ambas con una distribución normal.

El caso cuando las varianzas son conocidas

En el caso del problema de dos muestras, se tiene tres casos:

i. Cuando φ y ψ son conocidos;

ii. Es conocido que ψφ = pero sus valores son desconocidos;

iii. Cuando φ y ψ son desconocidos.

Por los demás, de acuerdo a la naturaleza del trabajo, restringiremos

nuestro trabajo al caso (i). La razón principal para discutir este caso, es

que el problema de la prueba de una distribución normal, implica menos

complejidades en el caso donde las varianzas son conocidas.

Si λ y µ tienen como referencia unas a prioris independientes (constante)

1)()( ∝= µλ pp entonces como se hemos visto anteriormente con varias

observaciones normales con una a priori normal, la distribución a

posteriori para λ será )/,( mxN φ y de forma similar la distribución a

posteriori para µ será )/,( nyN ψ que es independientemente de λ . De lo

cual deducimos:

µλδ −= ~ )//,( nmyxN ψφ +−

Información a priori importante

El método se generaliza para este caso cuando la información a priori

importante esta disponible. Cuando la distribución a priori para λ es

),( 00 φλN entonces la distribución a posteriori es λ~ ),( 11 φλN donde (como

fue enseñado anteriormente en varias observaciones normales con una

distribución a priori normal).

φφλφλ

φφφ

+=−−−

De modo semejante si la distribución a priori para µ es ),( 00 ψµN

entonces la distribución a posteriori para µ es ),( 11 ψµN donde 1ψ y 1µ

están definidos de modo semejante. Como sigue:

µλδ −= ~ ),( 1111 ψφµλ +−N

Y las inferencias se proceden al igual que antes.

V. APLICACIÓN

EJEMPLO APLICATIVO

El hotel Best Inn con 100 habitaciones (20 simples, 50 dobles y 30 triples)

ha registrado las siguientes variables para cada uno de los últimos 10

meses:

X1 Número total mensual de huéspedes

X2 Consumo de agua mensual (en cientos de m3)

X1 132 133 135 138 143 165 173 188 137 199

X2 8 7 4 4 3 8 7 6 6 10

Descriptive Statistics: X1, X2

Variable N Mean Median TrMean StDev SE Mean

X1 10 154,30 140,50 151,50 24,98 7,90

X2 10 6,40 6,50 6,37 2,06 0,65

El gerente del hotel es una persona con 15 años de experiencia en la

administración de hoteles y posee un postgrado en estadística. El gerente

piensa que:

♦ El numero mensual de huéspedes tiene una distribución normal con µ

y 252 =σ ; µ tiene un promedio 140 y varianza 16.

♦ El consumo de agua se distribuye exponencialmente con 0>θ . La

6)( =θE y varianza 4.

Preguntas con respecto a la variable X1:

1) Estimador posterior de Bayes

3675.152

3.15425

2020 =

×+×=

4625.025

=+=+=σττn

1621.22 =nτ

2) Regla de Bayes (función de perdida cuadrática)

La regla de Bayes para 2)(),( aaL −= θθ es 3675.152)/( =xE θ

3) HPD del 90%

)470429.1(449.1367.152 ±

)785708.154,948291.149(

4) ¿Cuál es la probabilidad a posteriori de que el promedio de

huéspedes sea mayor que 150?

>=>470429.1

367567.152150)150( zpxp µ

( )6101199.1)150( −>=> zpxp µ

0537.01)150( −=> xp µ

9463.0)150( => xp µ

Preguntas con respecto a la variable X2:

Pruebe la hipótesis: 6:

∑∈= − ixnLθθθ)(

)64(610

1 1093037.95

−−

×=∈∈

∑∈

∑∈==

θλλ

El valor 50 =θ es mucho mas probable que 61 =θ . (Se rechaza 1H ).

EJEMPLO.

El peso que se obtiene (en gramos) entre los 28 días y 84 días de edad de

ratas, recibiendo una dieta de alta proteína de 12=m ratas fue como

sigue:

Ratas i 1 2 3 4 5 6 7 8 9 10 11 12

Peso ix

Ganado 134 146 104 119 124 161 107 83 113 129 97 123

Mientras el peso que ganan 7=n ratas con una dieta de baja proteína fue:

Ratas i 1 2 3 4 5 6 7

Peso iy

Ganado 70 118 101 85 107 132 94

La media de la muestra y la suma de cuadrados del grupo de alta

proteína es 120=x y 5032, lo que implica que tiene una varianza de

5032/11=457. Para el grupo de baja proteína la media y la suma de

cuadrados son y =101 y 2552 que implica una varianza de la muestra

2552/6=425. Aunque los valores de la varianza fueron derivados de la

muestra, el método que se utilizara es como si fueran conocidos (quizá

después de la experiencia).

Entonces:

=m 12 =n 7 =x 120 =y 101 =φ 457 =ψ 425

de lo cual la distribución a posteriori del parámetro δ que mide el efecto

de usar una dieta con una alta proteína en vez de una dieta de baja

proteína es:

)7/42512/457,101120( +−N i.e. )99,19(N

INTERVALOS DE CREDIBILIDAD O REGIONES VERACES

( ) ( ) 21

2// nmZyx ψφα +±−

Ahora es posible concluir en el ejemplo a un 90% HDR para δ es

996449.119 ± i.e. )35,3( .

PRUEBA DE HIPOTESIS

≠−=−

µµµµ

Entonces la probabilidad:

−−>=>

)(0)0(

yxzpxp

ψφδ

( ))91.1(

190)0(

21 −>=

−>=> zpzpxp δ

9719.00281.01)91.1(1)0( =−=−<−=> zpxp δ

La probabilidad a posteriori de 0>δ es 9719.0)91.1()99/19( =Φ=Φ es

aproximadamente %97 . Considerando que se tomo como a priori una

función no informativa o impropia con distribución normal.

VI. CONCLUSIONES Y RECOMENDACIONES

♦ Una manera alternativa al análisis de la inferencia estadística es el uso

de las técnicas de la inferencia bayesiana, donde el interés de la

estimación y la prueba de hipótesis están en los datos de la muestra

sino, además, la información a priori acerca del parámetro.

♦ En el análisis estadístico clásico es indispensable conocer la

distribución de la variable de interés, en el análisis bayesiano, además,

se parte del hecho que el parámetro de la distribución también es una

variable aleatoria y por lo tanto el interés no son las estadísticas sino la

distribución a posteriori del parámetro.

♦ Si se realizan mediciones sucesivas de la variable de interés estas son

consideradas de manera secuencial en la distribución a posteriori

como nuevos promedios ponderados por la información actual

(actualizaciones).

♦ Una recomendación que se podría hacer seria que en la curricula

actual se deba considerar cursos de Estadística Bayesiana, dado que en

el análisis de datos el análisis es crucial y de allí su importancia.

VII. BIBLIOGRAFÍA

♦ Bernardo, J. M. (1981). Bioestadística una Perspectiva Bayesiana,

primera edición. Vinces – Vives, Barcelona.

♦ Berger J.O. (1988). Statistical Decision Theory and Bayesian Analysis,

segunda edición. Springer –Verlag, New York

♦ Migon H. (1988). Introducao a Inferencia Bayesiana

♦ Berry D. (1996). Statistics a Bayesian Perspectiva

♦ Lee M. Peter (1989). Bayesin Statistics, segunda edición.

Elaboración y diseño en formato PDF por la Oficina General del Sistema de Bibliotecas y Biblioteca Central de la UNMSM 1

VIII. ANEXO

Sea θ una distribución a priori con una distribución ),( 2

00 τµN con parámetros conocidos, sea la variable aleatoria x con una distribución

),( 2σθN con 2σ conocido, entonces aplicando el Teorema de Bayes la distribución a posteriori de θ dado x es:

θ~ ),( 200 τµN )/( θxp ~ ),( 2σθN

−−= 2

σπθ

∫∫== ∞

∞−

θθθ

θθθdxp

)/()()/(

∫∞

∞−

=θτµσθ

τµσθθdNN

),(),(

),(),()/(

σπτµθ

τπθ −

−×−

−= 2

τµθ

πστθ

20 )()(

τµθ x

+−++−= 2

στµ

τθµ

τθ xx

στµ

στµθ

στθ xx

στµ

ρθθρ xx

donde 20

τστσ

στρ +

=+= y 20

τστσρ+

στµ

ρστµ

στµ

ρστµ

θρxxxx

στµ

ρστµ xx

−+= 220

τστµσ

σττσ

στµ xx

++−++=

)2())((

τστσµτστµστστσµ xxx

τσµ

τστσµµτσ

++−=

0 τσµ

στµ

ρθρ

πστθ

+−−=

Entonces:

θστ

θρρπρτσ

µστπ

θ dxx

+−−

−=∫ ∫∞

∞−

ρστµ

∫∞

∞− +−

−=)(

1),( 2

0 τσµ

στρπθ

∫∞

∞− +−

2 τσµ

σττστσπ

θ xxp

∫∞

∞− +−

2 τσµ

τσπθ x

x ~ ),( 2

0 τσµ +N

θθθθ

),()/(

τσµ

στρπ

τσµ

στµ

ρθρ

πστθ

+−−

ρστµ

+−−=

x/θ ~

ρστµ

x/θ ~ ( )2

11,τuN

σττ+=

universidad nacional mayor de san marcossisbib.unmsm.edu.pe/bibvirtualdata/tesis/basic/... ·...

Documents

universidad nacional mayor de san...

universidad nacional mayor de san...

universidad nacional mayor de san...

universidad nacional mayor de san...

cdigital.dgb.uanl.mxcdigital.dgb.uanl.mx/la/1020120154/1020120154_013.pdfla...

relaciones interculturales€¦ · o reconocer cómo las...

unidad acadÉmica de ciencias quÍmicas y de...

reporte avalúo en líneareporte: #45 valor estimado...

universidad nacional mayor de san...

costos 2. los costos son vitales. con ellos determinamos...

procesador en alto nivel cosultas -...

universidad nacional mayor de san...

universidad nacional mayor de san...

universidad nacional mayor de san...

universidad nacional mayor de san...

universidad nacional mayor de san...

universidad nacional mayor de san...

anarosahf.files.wordpress.com · web viewa partir de mi...

electricidad y magnetismo - cartagena99.com€¦ ·...

universidad nacional mayor de san...