definición de variables aleatorias · 2011-04-18 · ... podemos inferir que el estadístico de...
TRANSCRIPT
Estadística2011
Clase 5
Maestría en FinanzasUniversidad del CEMA
Profesor: Alberto Landro
Asistente: Julián R. Siri
Clase 5
1. Test de Hipótesis: Generalización
2. Ejemplos
1. Test de Hipótesis
1. Test de Hipótesis: Método del intervalo de confianza
1. Test de Hipótesis: Terminología y errores (tipo I y II)
3. Ejercicios
4. Anexo
• Insesgamiento
– Un estimador es insesgado si el valor esperado del mismo es igual al parámetro a estimar,
es decir,
• Mínima Varianza
– Se dice que un estimador es de mínima varianza del parámetro, si la varianza del mismo es
menor igual que la del resto de los estimadores.
• Linealidad
– Un estimador es lineal con respecto al parámetro, si es una función lineal de las
observaciones muestrales. Así, por ejemplo la media muestral definida como
es un estimador lineal de X.
0E E
1
1 1...i nX X x x
n n
4. Anexo: Propiedades de muestras pequeñas
• Mejor estimador lineal insesgado
– Si es lineal, es insesgado y tiene mínima varianza entre todos los estimadores lineales e
insesgados de , entonces se denomina MELI.
• Error Medio Cuadrático (EMC)
– Definimos al EMC de un estimador como
Haciendo contraste con la varianza de , la cual está definida como
Esta última mide la dispersión de la distribución de alrededor de su media, mientras que
EMC mide la dispersión alrededor del verdadero valor del parámetro. El criterio es
buscar un estimador cuyo EMC sea el menor en un conjunto de estimadores comparables.
2
( )EMC E
2
var( ) E E
( )
4. Anexo: Propiedades de muestras pequeñas
• Insesgamiento asintótico
– Un estimador es asintóticamente insesgado si
• Consistencia
– Se dice que es un estimador consistente si se aproxima al verdadero valor de a medida que el tamaño de la muestra aumenta.
• Eficiencia asintótica
– Si es consistente y su varianza asintótica es menor que la varianza asintótica de todos los demás estimadores consistentes de , entonces es llamado asintóticamente eficiente.
• Normalidad asintótica
– Se dice que un estimador está normalmente distribuido asintóticamente si su distribución muestral tiende a aproximarse a la distribución normal a medida que el tamaño de la muestra aumenta de manera indefinida
lim 1 >0n
P
lim nn
E
plimn
4. Anexo: Propiedades de muestras grandes
1. Test de Hipótesis
• Existen 3 técnicas básicas dentro de la inferencia estadística clásica:
1. Estimación puntual.
2. Estimación por intervalos.
3. Test de hipótesis.
• Habiendo ya trabajado con la estimación puntual y por intervalos, vamos a pasar ala aplicación de los tests de hipótesis. Estos últimos también contribuirán a nuestroobjetivo último, el cual es obtener conclusiones sobre determinados parámetrospoblacionales.
• Un test de hipótesis puede ser entendido como un procedimiento estadístico simple cuya finalidad es corroborar o desmentir alguna afirmación que se hace con relación a un parámetro poblacional. En definitiva, es una regla de decisión sobre determinadas características de los parámetros poblacionales de nuestro interés.
• Recordemos entonces los principales elementos que se relacionan en la construcción de un test de hipótesis.
-> Hipótesis nula: Se llama así a una suposición inicial sobre el parámetropoblacional bajo estudio que sirve para iniciar el procedimiento de prueba o verificación. Generalmente se usa el símbolo H0 para denotar a dicha hipótesis.
-> Hipótesis alternativa: Es la hipótesis que se establece como alternativade la hipótesis nula; si la H0 es rechazada, entonces será la hipótesisalternativa la que se tomará tentativamente como válida (y viceversa).
•Se usa el símbolo H1 o HA para denotar la hipótesis alternativa.
1. Test de Hipótesis
• Problema: Nuevamente tenemos una v.a. X con una FDP conocida . Después de
obtener una muestra aleatoria n, obtenemos el estimador puntual, . Pero este
estimador que obtuvimos, ¿es compatible con algún valor específico de bajo
hipótesis?
• Para comprobar la hipótesis nula, utilizamos la información muestral y así obtenemos el
estadístico de prueba, un estimador puntual del parámetro desconocido. Entonces
pasamos a averiguar la distribución muestral de dicho estadístico de prueba y utilizamos
el método de intervalos de confianza para probar la hipótesis nula.
;f x
TEST
de
HIPOTESIS
*
0
*
1
: Hipótesis nula
: Hipótesis alternativa
H
H
Simples Compuestas
1. Test de Hipótesis
Dado que tenemos a , podemos inferir que el estadístico de prueba está
distribuido como
Entonces, si conocemos la distribución de probabilidades de , ¿cómo establecemos si un
intervalo de confianza de para , basado en este último, contiene al
planteo de nuestra hipótesis nula? Veamos los pasos a seguir:
1. Puesto que , se cumple que:
2. Entonces, de la tabal de distribución normal se sabe que:
2,X N n
X
2,iX N
100 1
0,1i
XZ N
n
2,X N n
2 2 100 1 %iP Z Z Z
1. Test de Hipótesis: Método del intervalo de confianza
3. Reordenando y sustituyendo términos da:
Éste es un intervalo de confianza al para . Lo único que se
debe hacer es ver si se encuentra en este intervalo. Si se
encuentra no podemos rechazar la hipótesis nula, en caso contrario sí.
2 2Pr 100 1 %X Z X Zn n
*
100 1
1. Test de Hipótesis: Método del intervalo de confianza
Terminología: el intervalo de confianza que se construye se denomina la región de
aceptación y el o las áreas por fuera de ella se conocen como regiones críticas, o de
rechazo. Por último, los límites inferior y superior de la región de aceptación se denominan
valores críticos.
Deseable: minimizar los errores tipo I y tipo II. Pero, para cualquier tamaño de muestra dado,
no es posible minimizar ambos simultáneamente. Es preferible tener baja probabilidad de
cometer un error de tipo I y luego tratar de minimizar al máximo la probabilidad de incurrir en
un error de tipo II.
ERRORES TIPO I y TIPO II
Decisión H0 es verdadera H0 es falsa
Rechazar Error tipo I No hay error
No rechazar No hay error Error tipo II
Estado de la naturaleza
1. Test de Hipótesis: Terminología y errores (tipo I y II)
• Un test de hipótesis debe ser construido de forma tal que la hipótesis nula sea o no
rechazada. Se dice entonces que H0 es la hipótesis a ser probada. Sin embargo,
con la inclusión de la hipótesis alternativa, puede ser mas descriptivo decir que
probar una hipótesis estadística es proporcionar una regla de decisión entre H0 y H1.
Por ello, se debe ejercer una precaución extrema al establecer las hipótesis nula y
alternativa.
• Recurramos a una analogía. En un proceso judicial, un acusado es inocente hasta
que no se demuestre lo contrario. Si la hipótesis nula es “inocente”, entonces, con
toda seguridad, la hipótesis alternativa es “culpable”. El rechazo de la hipótesis nula,
implicaría que el juicio ha sido capaz de proporcionar suficiente evidencia para
garantizar un veredicto culpable. Por otro lado, si el juicio no presenta evidencia
sustancial, el veredicto será inocente. Esta decisión no implica necesariamente que
el acusado sea inocente, más bien hace énfasis en la falta de evidencia sustancial
necesaria para condenar al acusado.
1. Test de Hipótesis: Terminología y errores (tipo I y II)
• Por lo tanto, en cierto sentido, un veredicto de culpabilidad ante un inocente (el
rechazo de H0 cuando ésta es verdadera) debe considerarse como una decisión
más fuerte que un veredicto de inocencia a un culpable (equivocarse al no rechazar
H0 cuando es falsa), lo cual surge del principio judicial generalmente aceptado de
que es peor condenar a una persona inocente que dejar libre a una culpable.
• Si el veredicto es culpable, se deseará tener un grado muy alto de seguridad de
que no se va a condenar a una persona inocente. Por lo tanto, en muchas
situaciones, el error del tipo I se considera como un error mucho más grave
que el error de tipo II.
1. Test de Hipótesis: Terminología y errores (tipo I y II)
0 0
1 0
:
:
H
H
0
0
Distribución muestral de
cuando es verdadera y
=
x
H
0
0
Distribución muestral de
cuando es falsa y
< a
x
H
La distribución estándar
de ambas distribuciones
es la misma:
x
n
1. Test de Hipótesis: Terminología y errores (tipo I y II)
Terminología:
• Nivel de significancia : probabilidad de cometer un error de tipo I.
• Potencia de la prueba: dado que la probabilidad de un error tipo II está representada
por , la probabilidad de no cometerlo se denomina de esta última forma (entiéndase
como “la capacidad de no rechazar una hipótesis nula falsa”).
P-value de un estadístico de prueba:
• También conocido como nivel exacto de significancia, es el nivel más bajo de
significancia al cual puede rechazarse una hipótesis nula.
• Un test de hipótesis se llama bilateral (o de dos colas) cuando la hipótesis alternativa involucra el signo “≠” para el parámetro que se somete a prueba.
• Un test de hipótesis se llama unilateral (o de una cola) cuando la hipótesis alternativa involucra el signo “<” (test unilateral izquierdo) o bien el signo “>” (test unilateral derecho).
1. Test de Hipótesis: Terminología y errores (tipo I y II)
• A fin de realizar un test de hipótesis sobre un parámetro poblacional, es recomendable seguir los siguientes 5 pasos:
1. Emitir una hipótesis nula (H0) relativa a algún parámetro de la población. La hipótesis debe involucrar alguno de los signos “=”, “≥” o “≤”, pero no puede involucrar ninguno de los signos “<”, “>”, ni tampoco “≠”.
2. Especificar un nivel de significación α a emplear. Lo convencional es emplear los niveles del 5% ( α = 0,05) o del 1% ( α = 0,01).
3. Extraer de la población una muestra aleatoria de tamaño n, y calcular el estadístico de prueba apropiado (Z, t, etc.).
4. Comparar el valor numérico obtenido para el estadístico de prueba con un valor tabulado (valor crítico - Z*, t*, etc. -) de la distribución estadística teórica correspondiente.
5. Decidir si se rechaza o no la hipótesis nula.
1. Test de Hipótesis: Generalización
• Veamos tres casos de tests para la media poblacional
1- Los paquetes de harina marca XYZ de medio kilogramo afirman contener en su etiqueta un contenido neto de 500 gr. Supongamos que deseamos evaluar dicha afirmación a partir de nuestra creencia de que los paquetes contienen menor cantidad de harina. Para ello, se eligen al azar 50 paquetes y se los pesa con una balanza de precisión, obteniendo los siguientes datos muestrales:
= 492 gr.
S = 34,4 gr.
Planteamos entonces las hipótesis nula y alternativa:
H0 : {µ ≥ 500 gr.}
H1 : {µ < 500 gr.}
Para la realización del test, usaremos un nivel de significación del α = 0,05.
X
2. Ejemplos
Aunque desconocemos cómo se distribuye el peso de los paquetes, por tratarse de una muestra grande (n > 30) usaremos la distribución normal estándar a fin de hallar nuestro valor crítico. Para un nivel de significación de 0,05 la tabla correspondiente arroja un valor de Z* = -1,645.
2. Ejemplos
5% del área
bajo la curva
0
zona de rechazo
de la hipótesis H
El estadístico que utilizaremos es:
Reemplazando en el mismo por los datos del ejercicio se obtiene que:
Z = (492 - 500) / (34,4 / 7,07) = -1,644
Dado que -1,645 < -1,6444 el valor calculado del estadístico de prueba no alcanza a
caer en zona de rechazo. Por lo tanto, al nivel de significación del 5% no se
puede rechazar la hipótesis nula. Es decir, no existen argumentos para afirmar
que los paquetes de harina XYZ contienen (en promedio) menos que lo
anunciado en sus etiquetas.
x m
n
2. Ejemplos
2- En cierto país se estableció que hace 20 años el promedio de vida de una persona era de 71,4 años. Recientemente, se tomó una muestra aleatoria de 100 muertes, y se obtuvo que:
= 73,8 años.
S = 9,8 años.
¿Se puede argumentar que actualmente la gente vive, en promedio, más que hace 20 años?
Planteamos entonces la hipótesis nula y alternativa:
H0 : {µ ≤ 71,4 años}
H1 : {µ > 71,4 años}
Para la realización del test, usaremos un nivel de significación del α =0,05.
X
2. Ejemplos
Para un nivel de significación de 0,05 la tabla correspondiente arroja un valor de
Z* = 1,645. El estadístico que utilizaremos es, nuevamente:
Reemplazando en el mismo por los datos del ejercicio se obtiene que:
Z = (73,8 - 71,4) / (9,8 / 10) = 2,448
Dado que 2,448 > 1,645 el valor calculado del estadístico de prueba cae en zona de
rechazo. Por lo tanto, al nivel de significación del 5% se puede rechazar la hipótesis
nula. Es decir, se rechaza H0 y se concluye que los resultados de la muestra
son altamente significativos para argumentar que actualmente las personas
viven, en promedio, más que hace 20 años.
x m
n
2. Ejemplos
3- El departamento de seguridad de una fábrica desea saber si el tiempo promedio
real que requiere un sereno para realizar su ronda nocturna es de 30 minutos. Se
tomó una muestra al azar de 32 rondas y el sereno promedió 30,8 minutos con una
desviación estándar de 1,7 minutos.
= 30,8 minutos.
S = 1,7 minutos.
Realicemos un test de hipótesis con α = 0,01, que permita averiguar si hay
evidencia suficiente para rechazar la hipótesis nula:
H0: {µ = 30 minutos}
en favor de la hipótesis alternativa:
H1: {µ ≠ 30 minutos}
X
2. Ejemplos
A diferencia de los dos ejemplos anteriores, el test es un ensayo bilateral o a dos colas. Los valores de z críticos son aquellos con respectivas áreas de 0,005 en sendas esquinas bajo la curva, es decir, Z* ± 2.576. El estadístico de prueba es nuevamente:
Reemplazando en el mismo por los datos del ejercicio se obtiene que:
Z = (30,8 - 30) / (1,7 / 5,65) = 2,662
Este valor cae en zona de rechazo ya que es mayor que 2,576. Por lo tanto, se rechaza la hipótesis de que el tiempo promedio real que hace el sereno en sus rondas es de 30 minutos, en favor de la alternativa, por lo que concluimos que es muy probable que el sereno haga un tiempo promedio diferente a 30 minutos.
x m
n
2. Ejemplos
• Al igual que en los casos de estimación por intervalos, para muestras pequeñas
con varianza poblacional desconocida y población supuestamente normal, se
emplean las tablas de valores críticos de la distribución t de Student con n−1 grados
de libertad.
• Veamos un ejemplo. Supongamos que deseamos analizar el tiempo promedio para
entregar pizzas en un barrio determinado ya que se cree que el responsable de la
sucursal miente al decir que sus repartidores tardan, a lo sumo 40 minutos para
cualquier entrega dentro de la zona de operaciones. Para realizar el test, se obtiene
una muestra aleatoria de 10 pedidos de pizza (redondeados al minuto más
cercano): 38, 48, 37, 39, 46, 46, 43, 42, 44 y 40 minutos.
2. Ejemplos
Si se supone distribución normal y deseamos realizar el test de hipótesis con α = 0,01, ensayaremos la hipótesis nula:
H0:{µ ≤ 40}
contra la hipótesis alternativa
H1:{µ > 40}
A partir de los datos, se sabe que:
= 42,3 minutos
S = 3,743 minutos
Reemplazando en el estadístico de prueba por los datos del ejercicio se obtiene que:
t = (42,3 - 40) / (3,743 / 3,162) = 1,943
El valor crítico en la distribución t de Student con ν = 10 − 1 = 9 grados es igual a 2,821. Como 1.943 es menor al t*, no se puede rechazar la afirmación del responsable del local a un nivel de α = 0,01.
X
2. Ejemplos
• Supongamos que ahora deseamos realizar un test de hipótesis relativo a la varianza o la desviación estándar poblacionales. Para ello, deberemos usar el estadístico de prueba llamado chi−cuadrado muestral, definido como sigue:
• En un test unilateral a la derecha (o de cola derecha), la hipótesis nula será:
H0:{σ2 ≤ σ2
0} o bien H0:{σ2 = σ2
0}
y la hipótesis alternativa será:
H1:{σ2 > σ2
0}
• Para un nivel de significación α, la región de rechazo se busca en tablas de la distribución chi−cuadrada con ν = n −1 grados de libertad.
2. Ejemplos
2
2
2
1n S
• En cambio, en un test unilateral a la izquierda (o de cola izquierda), la hipótesis nula es:
H0:{σ2 ≥ σ2
0} o bien H0:{σ2 = σ2
0},
y la hipótesis alternativa es:
H1:{σ2 < σ2
0}
Por último, para un test bilateral (o de dos colas), se tiene:
H0:{σ2 = σ2
0 },
y la hipótesis alternativa es:
H1:{σ2
0 ≠ σ20}
2. Ejemplos
• Veamos un ejemplo. Supongamos que estamos analizando el tiempo (en minutos) de espera de los clientes en la ventanilla de un banco.
Antes de un curso de capacitación para los empleados de atención al público se sabía que la desviación estándar era 2,3 minutos. Luego del curso de capacitación, el tiempo de espera de 10 clientes tomados al azar fue de: 1,8; 5,2; 4,3; 6,6; 2,5; 3,4; 2,6; 5,6; 4,7 y 4,0.
Por lo tanto:
H0:{σ2 ≥ (2,3)2}
H1:{σ2 < (2,3)2}
con α = 0,05. ¿Sirvió el curso de capacitación para disminuir la varianza de los tiempos de espera?
2. Ejemplos
De los datos muestrales, hallamos que S = 1,5166 minutos. A primera vista podríamos sospechar que el curso sí sirvió, pero veamos: el valor crítico para la distribución chi−cuadrado con 9 grados de libertad es de 3,32.
Si reemplazamos en el estadístico de prueba por los datos del ejercicio, obtendremos que:
c =[9 * (1,5166)2 ] / 2,32 = 3,913 > 3,32
Por lo tanto, no existe suficiente evidencia estadística en contra de la hipótesis H0, así que se concluye que probablemente el curso de capacitación no sirvió para disminuir la varianza de manera perceptible (o significativa).
2. Ejemplos
Ejercicio 1:
Con el fin de estimar la rentabilidad diaria promedio del activo XXX se tomó una muestra compuesta de 400 observaciones sobre sus precios de cierre, obteniéndose los siguientes resultados:
Rentabilidad promedio = 0,1563
Volatilidad muestral = 0,4795
Teniendo en cuenta las condiciones de mercado eficiente, se supone que las variables que componen la población son independientes y todas con distribución de probabilidades del tipo N(µ, σ2), siendo µ y σ2 desconocidos para el observador.
a) Se pide construir el intervalo de confiabilidad para la rentabilidad diaria del activo XXX con un nivel de significación del 90%.
b) La consultora A asegura a sus clientes que la rentabilidad diaria del activo XXX es en promedio 0,2, contra la opinión de la consultora B que asegura que la rentabilidad diaria promedio es menor que dicho valor. A partir de los resultados vistos, testear la hipótesis de la consultora A contra la de la consultora B con un nivel de significación del 95%.
3. Ejercicios
c) La consultora A asegura a sus clientes que XXX tiene volatilidad y rentabilidad promedio diaria similar a YYY, contra la opinión de la consultora B que asegura que la rentabilidad diaria promedio de YYY es mayor que la de XXX.
Con este fin se toma una muestra diaria de tamaño 900 sobre las rentabilidades de YYY, obteniéndose una rentabilidad diaria promedio igual a 0,1701 y una volatilidad de las rentabilidades diarias igual a 0,4924. Suponiendo que las variables que corresponden a las rentabilidades de YYY se distribuyen una normal N(µ, σ2), testear la hipótesis de la consultora A con un nivel de significación del 90%.
3. Ejercicios
Ejercicio 2:
Se tomó una muestra de 15 observaciones sobre la evolución de la acción ZZZ, cuyas rentabilidades son variables independientes con distribución N(µ, σ2) de la que se obtuvo que la varianza de las rentabilidades es igual a 0,234.
a) Se pide construir el intervalo de confianza para la volatilidad diaria de ZZZ con un nivel de significación del 90%.
b) La consultora A asegura a sus clientes que la varianza del activo ZZZ es igual a 0,17 contra la opinión de la consultora B que asegura que dicha varianza es mayor a 0,17. A partir de los resultados de la muestra, testear la hipótesis de la consultora A, con un nivel de significación del 95%.
3. Ejercicios
3. Ejercicios
Ejercicio 3:
Se realizó un estudio para comparar el promedio del número de llamadas de emergencia a la policia por turno de 8 hs, en dos distritos de una ciudad. Se seleccionaron al azar muestras de los registros policiacos para cada una de las regiones, y se registro el numero de llamadas en cada turno. Las estadísticas muestrales son las siguientes:
a) Verifique la hipotesis nula de que el promedio del numero de llamadas de emergencia por turno es igual en los dos distritos de la ciudad con una significacion del 5%
Región 1 Región 2
Tamaño muestral 100 100
Media muestral 2,4 3,1
Varianza muestral 1,44 2,64
Ejercicio 4:
Un investigador ha preparado el nivel de dosificación de un fármaco que afirma provocará sueño en por lo menos el 80% de las personas que padecen insomnio. Despues de examinar la dosificación, se considera que su afirmación acerca de la efectividad del fármaco es exagerada. En un intento de refutar su afirmación se administra la dosificación prescrita a 20 personas que padecen insomnio, y se observa Y, el numero de personas que se adormecen debido al fármaco. Se desea probar la hipotesis H0: p = 0,08 frente a la alternativa H1: p < 0,8 Suponga que se utiliza la región de rechazo (Y<12)
a) Encuentre α.
b) Encuentre β para p = 0,6
3. Ejercicios
Ejercicio 5:
Una agencia gubernamental recibe reclamos de algunos consumidores sobre ciertas botellas de amaretto vendidas por una empresa que contienen menos de los 20 grados de alcohol de producto publicados. Para verificar el reclamo de los consumidores, la agencia compra 9 botellas y encuentra que la media es de 18 grados y la desviación estándar de 3 grados.
¿Cómo realizaría el test esta agencia, con un 5% de significación?
3. Ejercicios
Ejercicio 6:
Un gran comprador de lámparas de luz quiere decidir cual de dos marcas de igual precio va a comprar. Para ello, toma una muestra aleatoria de 100 lamparas de cada marca y encuentra que la marca A tiene una duración media de 980 hs y un desvío estándar de la muestra de 80 hs. Para la marca B, la media es de 1010 hs y el desvío estándar de 120 hs.
¿Qué marca debería comprar si quiere tomar la decision a un nivel de significacion del 5%?
¿Y si el nivel de sifnificación fuera del 1%?
3. Ejercicios
Me pueden escribir a:
Las presentaciones estarán colgadas en:
www.cema.edu.ar/u/jrs06
FIN