definición de variables aleatorias · 2011-04-18 · ... podemos inferir que el estadístico de...

Estadística2011

Clase 5

Maestría en FinanzasUniversidad del CEMA

Profesor: Alberto Landro

Asistente: Julián R. Siri

Clase 5

1. Test de Hipótesis: Generalización

2. Ejemplos

1. Test de Hipótesis

1. Test de Hipótesis: Método del intervalo de confianza

1. Test de Hipótesis: Terminología y errores (tipo I y II)

3. Ejercicios

4. Anexo

• Insesgamiento

– Un estimador es insesgado si el valor esperado del mismo es igual al parámetro a estimar,

es decir,

• Mínima Varianza

– Se dice que un estimador es de mínima varianza del parámetro, si la varianza del mismo es

menor igual que la del resto de los estimadores.

• Linealidad

– Un estimador es lineal con respecto al parámetro, si es una función lineal de las

observaciones muestrales. Así, por ejemplo la media muestral definida como

es un estimador lineal de X.

0E E

1

1 1...i nX X x x

n n

4. Anexo: Propiedades de muestras pequeñas

• Mejor estimador lineal insesgado

– Si es lineal, es insesgado y tiene mínima varianza entre todos los estimadores lineales e

insesgados de , entonces se denomina MELI.

• Error Medio Cuadrático (EMC)

– Definimos al EMC de un estimador como

Haciendo contraste con la varianza de , la cual está definida como

Esta última mide la dispersión de la distribución de alrededor de su media, mientras que

EMC mide la dispersión alrededor del verdadero valor del parámetro. El criterio es

buscar un estimador cuyo EMC sea el menor en un conjunto de estimadores comparables.

2

( )EMC E

2

var( ) E E

( )

4. Anexo: Propiedades de muestras pequeñas

• Insesgamiento asintótico

– Un estimador es asintóticamente insesgado si

• Consistencia

– Se dice que es un estimador consistente si se aproxima al verdadero valor de a medida que el tamaño de la muestra aumenta.

• Eficiencia asintótica

– Si es consistente y su varianza asintótica es menor que la varianza asintótica de todos los demás estimadores consistentes de , entonces es llamado asintóticamente eficiente.

• Normalidad asintótica

– Se dice que un estimador está normalmente distribuido asintóticamente si su distribución muestral tiende a aproximarse a la distribución normal a medida que el tamaño de la muestra aumenta de manera indefinida

lim 1 >0n

P

lim nn

E

plimn

4. Anexo: Propiedades de muestras grandes


• Existen 3 técnicas básicas dentro de la inferencia estadística clásica:

1. Estimación puntual.

2. Estimación por intervalos.

3. Test de hipótesis.

• Habiendo ya trabajado con la estimación puntual y por intervalos, vamos a pasar ala aplicación de los tests de hipótesis. Estos últimos también contribuirán a nuestroobjetivo último, el cual es obtener conclusiones sobre determinados parámetrospoblacionales.

• Un test de hipótesis puede ser entendido como un procedimiento estadístico simple cuya finalidad es corroborar o desmentir alguna afirmación que se hace con relación a un parámetro poblacional. En definitiva, es una regla de decisión sobre determinadas características de los parámetros poblacionales de nuestro interés.

• Recordemos entonces los principales elementos que se relacionan en la construcción de un test de hipótesis.

-> Hipótesis nula: Se llama así a una suposición inicial sobre el parámetropoblacional bajo estudio que sirve para iniciar el procedimiento de prueba o verificación. Generalmente se usa el símbolo H0 para denotar a dicha hipótesis.

-> Hipótesis alternativa: Es la hipótesis que se establece como alternativade la hipótesis nula; si la H0 es rechazada, entonces será la hipótesisalternativa la que se tomará tentativamente como válida (y viceversa).

•Se usa el símbolo H1 o HA para denotar la hipótesis alternativa.


• Problema: Nuevamente tenemos una v.a. X con una FDP conocida . Después de

obtener una muestra aleatoria n, obtenemos el estimador puntual, . Pero este

estimador que obtuvimos, ¿es compatible con algún valor específico de bajo

hipótesis?

• Para comprobar la hipótesis nula, utilizamos la información muestral y así obtenemos el

estadístico de prueba, un estimador puntual del parámetro desconocido. Entonces

pasamos a averiguar la distribución muestral de dicho estadístico de prueba y utilizamos

el método de intervalos de confianza para probar la hipótesis nula.

;f x

TEST

de

HIPOTESIS

*

0

*

1

: Hipótesis nula

: Hipótesis alternativa

H

H

Simples Compuestas


Dado que tenemos a , podemos inferir que el estadístico de prueba está

distribuido como

Entonces, si conocemos la distribución de probabilidades de , ¿cómo establecemos si un

intervalo de confianza de para , basado en este último, contiene al

planteo de nuestra hipótesis nula? Veamos los pasos a seguir:

1. Puesto que , se cumple que:

2. Entonces, de la tabal de distribución normal se sabe que:

2,X N n

X

2,iX N

100 1

0,1i

XZ N

n

2,X N n

2 2 100 1 %iP Z Z Z


3. Reordenando y sustituyendo términos da:

Éste es un intervalo de confianza al para . Lo único que se

debe hacer es ver si se encuentra en este intervalo. Si se

encuentra no podemos rechazar la hipótesis nula, en caso contrario sí.

2 2Pr 100 1 %X Z X Zn n

*

100 1


Terminología: el intervalo de confianza que se construye se denomina la región de

aceptación y el o las áreas por fuera de ella se conocen como regiones críticas, o de

rechazo. Por último, los límites inferior y superior de la región de aceptación se denominan

valores críticos.

Deseable: minimizar los errores tipo I y tipo II. Pero, para cualquier tamaño de muestra dado,

no es posible minimizar ambos simultáneamente. Es preferible tener baja probabilidad de

cometer un error de tipo I y luego tratar de minimizar al máximo la probabilidad de incurrir en

un error de tipo II.

ERRORES TIPO I y TIPO II

Decisión H0 es verdadera H0 es falsa

Rechazar Error tipo I No hay error

No rechazar No hay error Error tipo II

Estado de la naturaleza


• Un test de hipótesis debe ser construido de forma tal que la hipótesis nula sea o no

rechazada. Se dice entonces que H0 es la hipótesis a ser probada. Sin embargo,

con la inclusión de la hipótesis alternativa, puede ser mas descriptivo decir que

probar una hipótesis estadística es proporcionar una regla de decisión entre H0 y H1.

Por ello, se debe ejercer una precaución extrema al establecer las hipótesis nula y

alternativa.

• Recurramos a una analogía. En un proceso judicial, un acusado es inocente hasta

que no se demuestre lo contrario. Si la hipótesis nula es “inocente”, entonces, con

toda seguridad, la hipótesis alternativa es “culpable”. El rechazo de la hipótesis nula,

implicaría que el juicio ha sido capaz de proporcionar suficiente evidencia para

garantizar un veredicto culpable. Por otro lado, si el juicio no presenta evidencia

sustancial, el veredicto será inocente. Esta decisión no implica necesariamente que

el acusado sea inocente, más bien hace énfasis en la falta de evidencia sustancial

necesaria para condenar al acusado.


• Por lo tanto, en cierto sentido, un veredicto de culpabilidad ante un inocente (el

rechazo de H0 cuando ésta es verdadera) debe considerarse como una decisión

más fuerte que un veredicto de inocencia a un culpable (equivocarse al no rechazar

H0 cuando es falsa), lo cual surge del principio judicial generalmente aceptado de

que es peor condenar a una persona inocente que dejar libre a una culpable.

• Si el veredicto es culpable, se deseará tener un grado muy alto de seguridad de

que no se va a condenar a una persona inocente. Por lo tanto, en muchas

situaciones, el error del tipo I se considera como un error mucho más grave

que el error de tipo II.


0 0

1 0

:

:

H

H

0

0

Distribución muestral de

cuando es verdadera y

=

x

H

0

0

Distribución muestral de

cuando es falsa y

< a

x

H

La distribución estándar

de ambas distribuciones

es la misma:

x

n


Terminología:

• Nivel de significancia : probabilidad de cometer un error de tipo I.

• Potencia de la prueba: dado que la probabilidad de un error tipo II está representada

por , la probabilidad de no cometerlo se denomina de esta última forma (entiéndase

como “la capacidad de no rechazar una hipótesis nula falsa”).

P-value de un estadístico de prueba:

• También conocido como nivel exacto de significancia, es el nivel más bajo de

significancia al cual puede rechazarse una hipótesis nula.

• Un test de hipótesis se llama bilateral (o de dos colas) cuando la hipótesis alternativa involucra el signo “≠” para el parámetro que se somete a prueba.

• Un test de hipótesis se llama unilateral (o de una cola) cuando la hipótesis alternativa involucra el signo “<” (test unilateral izquierdo) o bien el signo “>” (test unilateral derecho).


• A fin de realizar un test de hipótesis sobre un parámetro poblacional, es recomendable seguir los siguientes 5 pasos:

1. Emitir una hipótesis nula (H0) relativa a algún parámetro de la población. La hipótesis debe involucrar alguno de los signos “=”, “≥” o “≤”, pero no puede involucrar ninguno de los signos “<”, “>”, ni tampoco “≠”.

2. Especificar un nivel de significación α a emplear. Lo convencional es emplear los niveles del 5% ( α = 0,05) o del 1% ( α = 0,01).

3. Extraer de la población una muestra aleatoria de tamaño n, y calcular el estadístico de prueba apropiado (Z, t, etc.).

4. Comparar el valor numérico obtenido para el estadístico de prueba con un valor tabulado (valor crítico - Z*, t*, etc. -) de la distribución estadística teórica correspondiente.

5. Decidir si se rechaza o no la hipótesis nula.

1. Test de Hipótesis: Generalización

• Veamos tres casos de tests para la media poblacional

1- Los paquetes de harina marca XYZ de medio kilogramo afirman contener en su etiqueta un contenido neto de 500 gr. Supongamos que deseamos evaluar dicha afirmación a partir de nuestra creencia de que los paquetes contienen menor cantidad de harina. Para ello, se eligen al azar 50 paquetes y se los pesa con una balanza de precisión, obteniendo los siguientes datos muestrales:

= 492 gr.

S = 34,4 gr.

Planteamos entonces las hipótesis nula y alternativa:

H0 : {µ ≥ 500 gr.}

H1 : {µ < 500 gr.}

Para la realización del test, usaremos un nivel de significación del α = 0,05.

X

2. Ejemplos

Aunque desconocemos cómo se distribuye el peso de los paquetes, por tratarse de una muestra grande (n > 30) usaremos la distribución normal estándar a fin de hallar nuestro valor crítico. Para un nivel de significación de 0,05 la tabla correspondiente arroja un valor de Z* = -1,645.

2. Ejemplos

5% del área

bajo la curva

0

zona de rechazo

de la hipótesis H

El estadístico que utilizaremos es:

Reemplazando en el mismo por los datos del ejercicio se obtiene que:

Z = (492 - 500) / (34,4 / 7,07) = -1,644

Dado que -1,645 < -1,6444 el valor calculado del estadístico de prueba no alcanza a

caer en zona de rechazo. Por lo tanto, al nivel de significación del 5% no se

puede rechazar la hipótesis nula. Es decir, no existen argumentos para afirmar

que los paquetes de harina XYZ contienen (en promedio) menos que lo

anunciado en sus etiquetas.

x m

n

2. Ejemplos

2- En cierto país se estableció que hace 20 años el promedio de vida de una persona era de 71,4 años. Recientemente, se tomó una muestra aleatoria de 100 muertes, y se obtuvo que:

= 73,8 años.

S = 9,8 años.

¿Se puede argumentar que actualmente la gente vive, en promedio, más que hace 20 años?

Planteamos entonces la hipótesis nula y alternativa:

H0 : {µ ≤ 71,4 años}

H1 : {µ > 71,4 años}

Para la realización del test, usaremos un nivel de significación del α =0,05.

X

2. Ejemplos

Para un nivel de significación de 0,05 la tabla correspondiente arroja un valor de

Z* = 1,645. El estadístico que utilizaremos es, nuevamente:


Z = (73,8 - 71,4) / (9,8 / 10) = 2,448

Dado que 2,448 > 1,645 el valor calculado del estadístico de prueba cae en zona de

rechazo. Por lo tanto, al nivel de significación del 5% se puede rechazar la hipótesis

nula. Es decir, se rechaza H0 y se concluye que los resultados de la muestra

son altamente significativos para argumentar que actualmente las personas

viven, en promedio, más que hace 20 años.

x m

n

2. Ejemplos

3- El departamento de seguridad de una fábrica desea saber si el tiempo promedio

real que requiere un sereno para realizar su ronda nocturna es de 30 minutos. Se

tomó una muestra al azar de 32 rondas y el sereno promedió 30,8 minutos con una

desviación estándar de 1,7 minutos.

= 30,8 minutos.

S = 1,7 minutos.

Realicemos un test de hipótesis con α = 0,01, que permita averiguar si hay

evidencia suficiente para rechazar la hipótesis nula:

H0: {µ = 30 minutos}

en favor de la hipótesis alternativa:

H1: {µ ≠ 30 minutos}

X

2. Ejemplos

A diferencia de los dos ejemplos anteriores, el test es un ensayo bilateral o a dos colas. Los valores de z críticos son aquellos con respectivas áreas de 0,005 en sendas esquinas bajo la curva, es decir, Z* ± 2.576. El estadístico de prueba es nuevamente:


Z = (30,8 - 30) / (1,7 / 5,65) = 2,662

Este valor cae en zona de rechazo ya que es mayor que 2,576. Por lo tanto, se rechaza la hipótesis de que el tiempo promedio real que hace el sereno en sus rondas es de 30 minutos, en favor de la alternativa, por lo que concluimos que es muy probable que el sereno haga un tiempo promedio diferente a 30 minutos.

x m

n

2. Ejemplos

• Al igual que en los casos de estimación por intervalos, para muestras pequeñas

con varianza poblacional desconocida y población supuestamente normal, se

emplean las tablas de valores críticos de la distribución t de Student con n−1 grados

de libertad.

• Veamos un ejemplo. Supongamos que deseamos analizar el tiempo promedio para

entregar pizzas en un barrio determinado ya que se cree que el responsable de la

sucursal miente al decir que sus repartidores tardan, a lo sumo 40 minutos para

cualquier entrega dentro de la zona de operaciones. Para realizar el test, se obtiene

una muestra aleatoria de 10 pedidos de pizza (redondeados al minuto más

cercano): 38, 48, 37, 39, 46, 46, 43, 42, 44 y 40 minutos.

2. Ejemplos

Si se supone distribución normal y deseamos realizar el test de hipótesis con α = 0,01, ensayaremos la hipótesis nula:

H0:{µ ≤ 40}

contra la hipótesis alternativa

H1:{µ > 40}

A partir de los datos, se sabe que:

= 42,3 minutos

S = 3,743 minutos

Reemplazando en el estadístico de prueba por los datos del ejercicio se obtiene que:

t = (42,3 - 40) / (3,743 / 3,162) = 1,943

El valor crítico en la distribución t de Student con ν = 10 − 1 = 9 grados es igual a 2,821. Como 1.943 es menor al t*, no se puede rechazar la afirmación del responsable del local a un nivel de α = 0,01.

X

2. Ejemplos

• Supongamos que ahora deseamos realizar un test de hipótesis relativo a la varianza o la desviación estándar poblacionales. Para ello, deberemos usar el estadístico de prueba llamado chi−cuadrado muestral, definido como sigue:

• En un test unilateral a la derecha (o de cola derecha), la hipótesis nula será:

H0:{σ2 ≤ σ2

0} o bien H0:{σ2 = σ2

0}

y la hipótesis alternativa será:

H1:{σ2 > σ2

0}

• Para un nivel de significación α, la región de rechazo se busca en tablas de la distribución chi−cuadrada con ν = n −1 grados de libertad.

2. Ejemplos

2

2

2

1n S

• En cambio, en un test unilateral a la izquierda (o de cola izquierda), la hipótesis nula es:

H0:{σ2 ≥ σ2

0} o bien H0:{σ2 = σ2

0},

y la hipótesis alternativa es:

H1:{σ2 < σ2

0}

Por último, para un test bilateral (o de dos colas), se tiene:

H0:{σ2 = σ2

0 },

y la hipótesis alternativa es:

H1:{σ2

0 ≠ σ20}

2. Ejemplos

• Veamos un ejemplo. Supongamos que estamos analizando el tiempo (en minutos) de espera de los clientes en la ventanilla de un banco.

Antes de un curso de capacitación para los empleados de atención al público se sabía que la desviación estándar era 2,3 minutos. Luego del curso de capacitación, el tiempo de espera de 10 clientes tomados al azar fue de: 1,8; 5,2; 4,3; 6,6; 2,5; 3,4; 2,6; 5,6; 4,7 y 4,0.

Por lo tanto:

H0:{σ2 ≥ (2,3)2}

H1:{σ2 < (2,3)2}

con α = 0,05. ¿Sirvió el curso de capacitación para disminuir la varianza de los tiempos de espera?

2. Ejemplos

De los datos muestrales, hallamos que S = 1,5166 minutos. A primera vista podríamos sospechar que el curso sí sirvió, pero veamos: el valor crítico para la distribución chi−cuadrado con 9 grados de libertad es de 3,32.

Si reemplazamos en el estadístico de prueba por los datos del ejercicio, obtendremos que:

c =[9 * (1,5166)2 ] / 2,32 = 3,913 > 3,32

Por lo tanto, no existe suficiente evidencia estadística en contra de la hipótesis H0, así que se concluye que probablemente el curso de capacitación no sirvió para disminuir la varianza de manera perceptible (o significativa).

2. Ejemplos

Ejercicio 1:

Con el fin de estimar la rentabilidad diaria promedio del activo XXX se tomó una muestra compuesta de 400 observaciones sobre sus precios de cierre, obteniéndose los siguientes resultados:

Rentabilidad promedio = 0,1563

Volatilidad muestral = 0,4795

Teniendo en cuenta las condiciones de mercado eficiente, se supone que las variables que componen la población son independientes y todas con distribución de probabilidades del tipo N(µ, σ2), siendo µ y σ2 desconocidos para el observador.

a) Se pide construir el intervalo de confiabilidad para la rentabilidad diaria del activo XXX con un nivel de significación del 90%.

b) La consultora A asegura a sus clientes que la rentabilidad diaria del activo XXX es en promedio 0,2, contra la opinión de la consultora B que asegura que la rentabilidad diaria promedio es menor que dicho valor. A partir de los resultados vistos, testear la hipótesis de la consultora A contra la de la consultora B con un nivel de significación del 95%.

3. Ejercicios

c) La consultora A asegura a sus clientes que XXX tiene volatilidad y rentabilidad promedio diaria similar a YYY, contra la opinión de la consultora B que asegura que la rentabilidad diaria promedio de YYY es mayor que la de XXX.

Con este fin se toma una muestra diaria de tamaño 900 sobre las rentabilidades de YYY, obteniéndose una rentabilidad diaria promedio igual a 0,1701 y una volatilidad de las rentabilidades diarias igual a 0,4924. Suponiendo que las variables que corresponden a las rentabilidades de YYY se distribuyen una normal N(µ, σ2), testear la hipótesis de la consultora A con un nivel de significación del 90%.

3. Ejercicios

Ejercicio 2:

Se tomó una muestra de 15 observaciones sobre la evolución de la acción ZZZ, cuyas rentabilidades son variables independientes con distribución N(µ, σ2) de la que se obtuvo que la varianza de las rentabilidades es igual a 0,234.

a) Se pide construir el intervalo de confianza para la volatilidad diaria de ZZZ con un nivel de significación del 90%.

b) La consultora A asegura a sus clientes que la varianza del activo ZZZ es igual a 0,17 contra la opinión de la consultora B que asegura que dicha varianza es mayor a 0,17. A partir de los resultados de la muestra, testear la hipótesis de la consultora A, con un nivel de significación del 95%.

3. Ejercicios

3. Ejercicios

Ejercicio 3:

Se realizó un estudio para comparar el promedio del número de llamadas de emergencia a la policia por turno de 8 hs, en dos distritos de una ciudad. Se seleccionaron al azar muestras de los registros policiacos para cada una de las regiones, y se registro el numero de llamadas en cada turno. Las estadísticas muestrales son las siguientes:

a) Verifique la hipotesis nula de que el promedio del numero de llamadas de emergencia por turno es igual en los dos distritos de la ciudad con una significacion del 5%

Región 1 Región 2

Tamaño muestral 100 100

Media muestral 2,4 3,1

Varianza muestral 1,44 2,64

Ejercicio 4:

Un investigador ha preparado el nivel de dosificación de un fármaco que afirma provocará sueño en por lo menos el 80% de las personas que padecen insomnio. Despues de examinar la dosificación, se considera que su afirmación acerca de la efectividad del fármaco es exagerada. En un intento de refutar su afirmación se administra la dosificación prescrita a 20 personas que padecen insomnio, y se observa Y, el numero de personas que se adormecen debido al fármaco. Se desea probar la hipotesis H0: p = 0,08 frente a la alternativa H1: p < 0,8 Suponga que se utiliza la región de rechazo (Y<12)

a) Encuentre α.

b) Encuentre β para p = 0,6

3. Ejercicios

Ejercicio 5:

Una agencia gubernamental recibe reclamos de algunos consumidores sobre ciertas botellas de amaretto vendidas por una empresa que contienen menos de los 20 grados de alcohol de producto publicados. Para verificar el reclamo de los consumidores, la agencia compra 9 botellas y encuentra que la media es de 18 grados y la desviación estándar de 3 grados.

¿Cómo realizaría el test esta agencia, con un 5% de significación?

3. Ejercicios

Ejercicio 6:

Un gran comprador de lámparas de luz quiere decidir cual de dos marcas de igual precio va a comprar. Para ello, toma una muestra aleatoria de 100 lamparas de cada marca y encuentra que la marca A tiene una duración media de 980 hs y un desvío estándar de la muestra de 80 hs. Para la marca B, la media es de 1010 hs y el desvío estándar de 120 hs.

¿Qué marca debería comprar si quiere tomar la decision a un nivel de significacion del 5%?

¿Y si el nivel de sifnificación fuera del 1%?

3. Ejercicios

Me pueden escribir a:

[email protected]

Las presentaciones estarán colgadas en:

www.cema.edu.ar/u/jrs06

FIN

definición de variables aleatorias · 2011-04-18 · ... podemos inferir que el estadístico de...

Documents