ef_11_ene

5
Estad´ ıstica II Examen Final - 21 de Enero 2011 Responde las siguientes preguntas en los cuadernillos de la Universidad. No olvides poner tu nombre y el n´ umero del Grupo de clase en cada hoja. Usa diferentes hojas para cada ejercicio. Ejercicio 1. Una empresa se est´ a planteando la opci´ on de que sus comerciales sigan un curso de t´ ecnicas de venta para tratar de aumentar su facturaci´ on. Con el fin de probar su eficacia, dado que supone un elevado coste econ´ omico, selecciona aleatoriamente a 9 de sus comerciales para que lo sigan. Despu´ es de haber seguido satisfactoriamente el curso y de aplicar lo aprendido en el mismo, las ventas medias obtenidas por estos 9 empleados fueron de 115 unidades, con una cuasidesviaci´ on t´ ıpica de 20 unidades. La empresa considerar´ a que el curso es rentable si se superan unas ventas promedio de 100 unidades por empleado. Asume que la variable bajo estudio sigue una distribuci´ on normal y que el nivel de significaci´ on es el 5%. Se pide contrastar la rentabilidad del curso, completando los siguientes pasos: 1. Define las hip´ otesis nula y alternativa. 2. Especifica el estad´ ıstico del contraste, estableciendo las hip´ otesis necesarias. 3. Determina la regi´ on cr´ ıtica del contraste y justifica las conclusiones del mismo. 4. Obt´ en el p-valor de la muestra y da una recomendaci´ on sobre la realizaci´ on del curso en funci´ on del nivel de significaci´ on. Soluci´ on. Sea X la variable de estudio: n´ umero de unidades vendidas por empleado. En el enunciado nos indican que supongamos una distribuci´ on normal para la variable X , por tanto asumiremos que X es una variable aleatoria con distribuci´ on N (μ, σ 2 ), de media y varianza desconocidas. 1. Dado que la empresa ha establecido que el curso resultar´ a rentable si se alcanza el objetivo especificado (μ> 100), para estudiar si podemos concluir que el curso resultar´ a rentable el contraste que debemos plantear es: H 0 :μ 100 H 1 :μ> 100 La probabilidad de cometer un error de tipo I (enviar a todos los empleados al curso y no alcanzar el objetivo especificado) estar´ a acotada por el nivel de significaci´ on indicado. 2. Como asumimos que se trata de una poblaci´ on normal, de media y varianza desconocidas y que estamos trabajando con una muestra aleatoria simple de tama˜ no n = 9, el estad´ ıstico del contraste es: T = X - 100 s 9 H 0 t 8 3. La regi´ on cr´ ıtica del contraste para un nivel de significaci´ on del 5 % es: R 0.05 = n T>t 8;0.05 =1.86 o El valor observado del estad´ ıstico ha sido: t = 115 - 100 20 3 = 9 4 =2.25 > 1.86 Luego, a un nivel de significaci´ on del 5 % ı se tiene evidencia estad´ ıstica suficiente como para rechazar H 0 , lo que nos llevar´ ıa a recomendar al empresario mandar a todos sus comerciales al curso de t´ ecnicas de venta.

Upload: mateo-banhakeia

Post on 12-Dec-2015

214 views

Category:

Documents


0 download

DESCRIPTION

estadistica2 ade

TRANSCRIPT

Page 1: EF_11_ene

Estadıstica IIExamen Final - 21 de Enero 2011

Responde las siguientes preguntas en los cuadernillos de la Universidad.• No olvides poner tu nombre y el numero del Grupo de clase en cada hoja.• Usa diferentes hojas para cada ejercicio.

Ejercicio 1. Una empresa se esta planteando la opcion de que sus comerciales sigan un curso de tecnicasde venta para tratar de aumentar su facturacion. Con el fin de probar su eficacia, dado que supone unelevado coste economico, selecciona aleatoriamente a 9 de sus comerciales para que lo sigan. Despues dehaber seguido satisfactoriamente el curso y de aplicar lo aprendido en el mismo, las ventas medias obtenidaspor estos 9 empleados fueron de 115 unidades, con una cuasidesviacion tıpica de 20 unidades. La empresaconsiderara que el curso es rentable si se superan unas ventas promedio de 100 unidades por empleado.Asume que la variable bajo estudio sigue una distribucion normal y que el nivel de significacion es el 5 %.Se pide contrastar la rentabilidad del curso, completando los siguientes pasos:

1. Define las hipotesis nula y alternativa.

2. Especifica el estadıstico del contraste, estableciendo las hipotesis necesarias.

3. Determina la region crıtica del contraste y justifica las conclusiones del mismo.

4. Obten el p-valor de la muestra y da una recomendacion sobre la realizacion del curso en funcion delnivel de significacion.

Solucion. Sea X la variable de estudio: numero de unidades vendidas por empleado. En el enunciado nosindican que supongamos una distribucion normal para la variable X, por tanto asumiremos que X es unavariable aleatoria con distribucion N(µ, σ2), de media y varianza desconocidas.

1. Dado que la empresa ha establecido que el curso resultara rentable si se alcanza el objetivo especificado(µ > 100), para estudiar si podemos concluir que el curso resultara rentable el contraste que debemosplantear es:

H0 :µ ≤ 100H1 :µ > 100

La probabilidad de cometer un error de tipo I (enviar a todos los empleados al curso y no alcanzar elobjetivo especificado) estara acotada por el nivel de significacion indicado.

2. Como asumimos que se trata de una poblacion normal, de media y varianza desconocidas y que estamostrabajando con una muestra aleatoria simple de tamano n = 9, el estadıstico del contraste es:

T =X − 100

s√9

∼H0 t8

3. La region crıtica del contraste para un nivel de significacion del 5 % es:

R0.05 ={T > t8;0.05 = 1.86

}El valor observado del estadıstico ha sido:

t =115− 100

203

=94

= 2.25 > 1.86

Luego, a un nivel de significacion del 5 % sı se tiene evidencia estadıstica suficiente como para rechazarH0, lo que nos llevarıa a recomendar al empresario mandar a todos sus comerciales al curso de tecnicasde venta.

Page 2: EF_11_ene

4. El p-valor de la muestra viene dado por la probabilidad de que una distribucion t8 tome un valor mayoro igual que 2.25. Si consultamos las tablas de la t de Student con 8 grados de libertad, encontramosque el p-valor de la muestra cumple:

0.025 < P{t8 ≥ 2.25} < 0.05

De hecho, podrıamos aproximarlo por 0.025. No se trata de un p-valor concluyente en general. Paraniveles de significacion inferiores al 2.5 % no rechazamos la hipotesis nula, y rechazamos para nivelesde significacion superiores al 5 %.

El nivel de significacion, α, con el que se trabaje dependera de la consecuencias que tenga el cometererror de tipo I. Por ejemplo, si el curso de formacion encarece sus precios serıa razonable reducir α, yaumentarlo, si por el contrario, los precios se abaratan (o nos proponen alguna oferta).

Ejercicio 2. En un estudio realizado sobre 40 espanoles con edades entre 35 y 44 anos, el 35 % de ellosdijo que nunca habıan comido queso cottage. Se realizo la misma pregunta a un grupo de 60 espanoles conedad entre 45 y 54 anos. En este grupo, el porcentaje correspondiente fue del 40 %. Se desea averiguar si, conun nivel de significacion de 0.1, se dispone de suficiente evidencia muestral para rechazar que la proporcionde personas del grupo de edad entre 35 y 44 anos que no comen queso cottage sea mayor o igual que en elgrupo de edad entre 45 y 54 anos.

1. Define las variables aleatorias de interes y las hipotesis acerca de la poblaciones/muestras que permitenllevar a cabo un contraste de hipotesis adecuado

2. Realiza dicho contrate de hipotesis indicando claramente:H0, H1, el estadıstico observado del contraste,la region de rechazo o el p-valor del contraste. Proporciona una respuesta lo mas completa posible ala pregunta planteada.

Solucion.

1. Este es un problema con dos poblaciones cuya variable de interes es la proporcion poblacional.

a) Variables aleatorias:Sea X = 1 si un espanol con edad entre 35-44 no come queso cottage, y 0 en caso contrario.X ∼ Bernoulli(p1), donde p1 es la proporcion poblacional de personas que no comen quesocottage con edad entre 35-44.Ası mismo, sea Y = 1 si un espanol con edad entre 45-54 no come queso cottage, y 0 en casocontrario. Y ∼ Bernoulli(p2), donde p2 es la proporcion poblacional de personas que no comenqueso cottage con edad entre 45-54.Supuestos:

Ambas son muestras aleatorias simples.Ambas son muestras independientesAmbos tamanos muestrales son grandes.

b) Realizacion del test:

Hipotesis nula y alternativa:

H0 : p1 − p2 ≥ 0 versus H1 : p1 − p2 < 0

Calculo del estadıstico del contraste: las proporciones muestrales y la proporcion comun son:

p1 = 0.35p2 = 0.4

p0 =n1p1 + n2p2

n1 + n2=

40(0.35) + 60(0.4)40 + 60

= 0.38

Page 3: EF_11_ene

El estadıstico del contraste sigue una distribucion N(0, 1) bajo la hipotesis nula. El valorobservado del estadıstico es:

z =p1 − p2√

p0(1− p0)(1/n1 + 1/n2)=

0.35− 0.4√0.38(1− 0.38)(1/40 + 1/60)

= −0.505.

Region de rechazo y p-valor:

RRα=0.1 = {z : z < −zα} = {z : z < −1.28}

El estadıstico observado esta fuera de la region de rechazo. El p-valor es:

p-value = P (Z < −0.505) = 0.307

El p-valor es mayor que el nivel de significacion del 0.1.Conclusion: No hay suficiente evidencia muestral para rechazar la afirmacion que la propor-cion poblacional de personas de entre 35-44 anos que no comen queso cottage es mayor oigual a la proporcion de personas entre 45-54 que no comen este queso.

Ejercicio 3. Los siguientes datos muestran la estatura (en cm) y el peso (en Kg) para una muestra decinco alumnos de una clase:

estatura (cms.) peso (kgs.)154 60158 62162 61171 66176 84

1. Calcula estimadores puntuales para los parametros (pendiente y constante) de la recta de regresiondel peso en funcion de la estatura, ası como para la varianza del error de la respuesta. ¿En cuantosKg aumenta el peso, en promedio, por cada 10 cm adicionales de estatura?

2. ¿Aportan los datos evidencia significativa al 10 % para concluir que el peso depende linealmente dela estatura? Plantea y resuelve el contraste de hipotesis correspondiente, y acota su P-valor. ¿Paraque niveles de significacion puedes asegurar que el peso depende de la estatura?

3. A partir de los datos dados, ¿cual es el peso medio estimado de los alumnos que miden 174 cm? Da unintervalo de confianza al 95 % para el peso medio de los alumnos que miden 174 cm. Supongamos quecierto alumno de la clase mide 174 cm. Calcula un intervalo de prediccion al 95 % de confianza parasu peso.

Solucion.

1. Las estimaciones puntuales de la pendiente y la constante del modelo de regresion lineal simple de ysobre x son:

β1 =cov(x,y)

s2x= 0.930, β0 = y − β1x = −86.055.

En promedio, podemos estimar el aumento de peso por cada 10 cm adicionales de estatura en 10β1 = 9.3Kg.

Para estimar la varianza del error de la respuesta, σ2, tenemos que calcular la suma de cuadrados delos residuos ei = yi − yi = yi − (β0 + β1xi). Haciendo los calculos, obtenemos que

∑ni=1 e

2i = 111.555.

Por tanto, la estimacion puntual de la varianza del error esta dada por el valor de la varianza residual:

s2R =∑n

i=1 e2i

n− 2= 37.18.

Page 4: EF_11_ene

2. El contraste de hipotesis relevante es H0 : β1 = 0 vs. H1 : β1 6= 0. El estadıstico del contraste es

T =β1√s2R

(n−1)s2x

.

Bajo H0, T ∼ tn−2. El contraste rechazara H0 con un nivel de significacion α si |T | > tn−2;α/2. Como|T | = |2.781| = 2.781 no es mayor que t3;0.025 = 3.182, mantendremos la hipotesis nula H0 paraα = 0.05. Ademas, como t3;0.05 = 2.353 < |T |, se sigue que: 0.05 < P-valor < 0.10. Podemos asegurarque rechazaremos H0 para niveles de significacion α ≥ 0.10.

3. y0 = β0 + β1x0 = β0 + β1174 = 75.71Kg.

El IC a nivel 1− α para el peso medio de los alumnos que miden 174 cm es:

y0 ± tn−2;α/2

√s2R

[1n

+(x0 − x)2

(n− 1)s2x

].

Sustituyendo, obtenemos el intervalo 75.71± 13.56, es decir, de 62.15 a 89.27 Kg.

El IC a nivel 1− α para la prediccion del peso de un alumno determinado que mide 174 cm es:

y0 ± tn−2;α/2

√s2R

[1 +

1n

+(x0 − x)2

(n− 1)s2x

].

Sustituyendo, obtenemos el intervalo 75.71± 23.67, es decir, de 52.04 a 99.38 Kg.

Ejercicio 4. Se ha obtenido una muestra con 20 observaciones {x, z, y} de valores que asumen tresvariables, X, Y y Z. De esta muestra se sabe que

20∑i=1

y2i = 10.08, y = 0.488

Se han calculado los estimadores MC (mınimo cuadrados) para un modelo de regresion y = β0 + β1x+β2z + u. Los valores obtenidos son:

β0 = 0.065, β1 = −0.358, β2 = 0.104, s(β1) = 0.152, s(β2) = 0.028,20∑i=1

e2i = 2.878

Si se acepta que se cumplen los supuestos del modelo de regresion, responde las siguientes preguntas:

1. Calcula el coeficiente de determinacion multiple (R2) para el modelo y comenta su valor.

2. Realiza un test para verificar si el modelo es globalmente significativo para explicar los valores de Ycomo funcion lineal de X y Z, a un nivel de significacion del 1 %.

3. Realiza un test para verificar si tienes suficiente evidencia para concluir que incrementos en el valorde la variable X implican decrecimientos en los valores de la variable Y , a un nivel de significacion del5 %.

Solucion.

1. Teniendo en cuenta que SCT =∑

i y2i − ny2, el coeficiente de determinacion multiple viene dado por:

R2 =SCM

SCT=SCT − SCR

SCT=

2.4395.317

= 0.459

Este valor es bastante pequeno, lo que implica una relacion lineal debil entre las variables del modelo.Las variables x y z explican solo un 46 % de la varianza de la variable dependiente y.

Page 5: EF_11_ene

2. Para contrastar la significacion global del modelo, llevamos a cabo el siguiente contraste de hipotesis:

H0 : β1 = β2 = 0H1 : β1 6= 0 or β2 6= 0

El estadıstico del contraste es el cociente de la F, que en este caso toma el valor:

F =SCM/k

SCR/(n− k − 1)=

2.439/22.878/17

= 7.203.

La region crıtica es la dada por

R = {F > F2,17;0.01} = {F > 6.11}

Como el valor del estadıstico pertenece a la region crıtica, rechazamos la hipotesis nula y concluimosque tenemos evidencia suficiente para creer que el modelo es globalmente significativo (algun coeficientede las variables independientes es diferente de cero), para un nivel de significacion del 1 %.

3. Se nos pide comprobar si contamos con suficiente evidencia para afirmar que el coeficiente de la variablex tiene signo negativo en el modelo. Formalmente, el test que deseamos realizar es

H0 : β1 ≥ 0H1 : β1 < 0

El estadıstico bajo hipotesis nula es

T =β1

s(β1)

y su valor para esta muestra es T = −0.358/0.152 = −2.355. La region crıtica para el test es

R = {T < t17;0.95} = {T < −1.740}.

El valor de nuestro estadıstico esta dentro de la region crıtica por lo que rechazamos la hipotesis nulay concluimos que cambios positivos en el valor de x parecen implicar cambios negativos en y a un 5 %de significacion.