estadistica2
TRANSCRIPT
-
1
Estudios Profesionales para Ejecutivos - EPE
CURSO : Estadstica para Ingeniera 2 REA : Ciencias TIPO DE MATERIAL : Separata del curso
AUTORES : Enit Huamn Cotrina
Enver Tarazona
COORDINADOR DEL : Enit Huamn Cotrina CURSO CICLO : 2013-1 VERSIN : 01
Copyright : Universidad Peruana de Ciencias Aplicadas - UPC
-
2
Captulo 1
Muestreo y distribuciones muestrales
1.1 Introduccin
En este captulo se indicara como usar el muestreo aleatorio simple para seleccionar una
muestra a partir de una poblacin y como se pueden emplear los datos obtenidos para
calcular las estimaciones puntuales para una media, variancia y proporcin
poblacionales. Se describe el concepto de distribucin muestral, el teorema del lmite
central y los diferentes mtodos de muestreo probabilsticos y no probabilsticos.
1.2 Muestreo aleatorio simple
Existen diferentes mtodos para seleccionar una muestra a partir de una poblacin; uno
de los ms comunes es el muestreo aleatorio simple. La definicin de este mtodo y el
proceso de seleccin de la muestra dependen de si la poblacin es finita o infinita.
Muestreo para poblaciones finitas
Una muestra aleatoria simple de tamao n de una poblacin finita de tamao N , es una
muestra seleccionada de tal manera que cada muestra posible de tamao n tenga la
misma probabilidad de ser seleccionada.
Para seleccionar una muestra aleatoria simple de una poblacin finita es necesario
enumerar los elementos de la poblacin. Los elementos se eligen usando nmeros
aleatorios generados a partir de una tabla o computadora hasta completar el tamao de
muestra requerido.
Al elegir una muestra aleatoria simple es posible que se repitan algunos de los nmeros
aleatorios generados. Si se decide elegir solamente una vez cada elemento en la
muestra, todos los nmeros aleatorios ya utilizados no se vuelven a tomar en cuenta. La
seleccin de la muestra en esta forma se conoce como muestreo sin reemplazo. Si se
decide seleccionar los elementos de la muestra incluyndolos ms de una vez se
realizara un muestreo con reemplazo. El muestreo con reemplazo es una forma vlida
de identificar una muestra aleatoria simple. Sin embargo lo que se usa con mayor
frecuencia es el muestreo sin reemplazo. Cuando se mencione muestreo aleatorio simple
se asumir que el muestreo se hizo sin reemplazo.
-
3
Muestreo para poblaciones infinitas
Si la poblacin es infinita no es posible usar un procedimiento de seleccin con
nmeros aleatorios por que es imposible hacer una lista de sus elementos. En este caso
se debe determinar un procedimiento de seleccin para seleccionar los elementos en
forma independiente y evitar que algunos elementos tengan mayores probabilidades de
ser elegidos.
Una muestra aleatoria simple de una poblacin infinita es aquella que se selecciona de
tal forma que se satisfacen las siguientes condiciones:
Cada elemento seleccionado proviene de la misma poblacin.
Cada elemento se selecciona en forma independiente.
1.3 Estimacin puntual
Para estimar el valor de un parmetro poblacional se utiliza una caracterstica
correspondiente en la muestra que se denomina estadstico.
Ejemplo 6.1: Los ingenieros A y B desean evaluar cierta marca de dispositivos electrnicos por lo que seleccionaron, de forma separada, muestras aleatorias simples de
100 dispositivos electrnicos. La duracin (en horas) de los dispositivos seleccionados
se muestra en la hoja Dispositivos.
Suponga que los ingenieros desean estimar la duracin promedio de todos los
dispositivos electrnicos de esta marca (media poblacional ), una medida de
dispersin para la duracin de estos dispositivos (por ejemplo la variancia poblacional 2 ) y la proporcin de dispositivos electrnicos con una duracin menor a las 25 horas
(proporcin poblacional p ). En este caso deben utilizar los estadsticos: x la media
muestral, 2s la variancia muestral y p la proporcin muestral, respectivamente. Los
resultados obtenidos por el ingeniero A son:
Duracin A
Media 39.7 Varianza de la muestra 73.1941414
Proporcin 0.04
Tamao de muestra 100
Los valores numricos obtenidos para x , 2s y p se les llama estimaciones puntuales
de los parmetros. Es de esperar que ninguna de las estimaciones puntuales sea
exactamente igual al parmetro correspondiente. El valor absoluto de la diferencia entre
una estimacin puntual insesgada y el parmetro poblacional correspondiente se llama
error de muestreo.
-
4
Ejemplo 6.2: Para la media, varianza y proporcin muestral los errores de muestreo
son x , 2 2s y p p , respectivamente.
1.4 Introduccin a las distribuciones muestrales
Ejemplo 6.3: Las estimaciones puntuales obtenidas por el ingeniero B son:
Duracin B
Media 37.05 Varianza de la muestra 62.085443
Proporcin 0.075
Tamao de muestra 100
Estos resultados indican que se han obtenido diferentes valores para las estimaciones
puntuales utilizando los datos obtenidos por el ingeniero B. Suponga que se lleva a cabo
el mismo proceso de seleccin de una nueva muestra aleatoria simple de 100
dispositivos electrnicos, una y otra vez, calculando en cada ocasin las estimaciones
puntuales de la media, varianza y proporcin. De este modo se puede empezar a
identificar la variedad de valores que pueden tener estas estimaciones.
En el curso anterior se defini una variable aleatoria como una descripcin numrica del
resultado de un experimento. Si se considera que un experimento es el proceso de elegir
una muestra aleatoria simple, la media muestral x es la descripcin numrica del
resultado del experimento. En consecuencia x es una variable aleatoria y por lo tanto
tiene valor esperado, variancia y una distribucin de probabilidad. A la distribucin de
x se le conoce como distribucin muestral de la media. El conocimiento de esta
distribucin muestral y de sus propiedades permitir realizar afirmaciones
probabilsticas acerca de lo cercano que se encuentre la media muestral de la media
poblacional.
1.5 Distribucin muestral de la media
El objetivo de esta seccin es describir las propiedades de la distribucin muestral de la
media incluyendo el valor esperado, desviacin estndar y la forma de su distribucin.
Tal como se menciono, el conocimiento de la distribucin muestral de x permitir
hacer afirmaciones probabilsticas acerca del error de muestreo incurrido cuando se
utiliza x para estimar .
Valor esperado:
Desviacin estndar:
Poblacin finita Poblacin infinita
1
N n
Nn
n
El factor 1
N n
N
se conoce como factor de correccin para poblacin finita.
-
5
Teorema central del lmite
Cuando se desconoce la distribucin de la poblacin se utiliza uno de los teoremas ms
importantes de la estadstica: el teorema del lmite central. La distribucin muestral del
a media se puede aproximar mediante una distribucin de probabilidad normal siempre
que el tamao de muestra sea grande. Se puede suponer que la condicin de muestra
grande se cumple para muestras aleatorias simples de por lo menos 30 elementos. Sin
embargo, si la poblacin tiene distribucin normal, la distribucin muestral de x tiene
una distribucin de probabilidad normal para cualquier tamao de muestra.
En resumen, si se utiliza una muestra aleatoria simple grande, 30n , el teorema del
lmite central permite considerar que la distribucin muestral de x se puede aproximar
con una distribucin de probabilidad normal. Cuando la muestra aleatoria simple es
pequea, 30n , solo se puede considerar que la distribucin muestral de la media es normal si se supone que la poblacin tiene una distribucin de probabilidad normal.
1.6 Distribucin muestral de la proporcin
Para determinar lo cercano que esta la proporcin muestral p de la proporcin
poblacional p es necesario comprender las propiedades de la distribucin muestral de
la proporcin p , se valor esperado, desviacin estndar y la forma de su distribucin.
Valor esperado: p
Desviacin estndar:
Poblacin finita Poblacin infinita
11
p p N n
n N
1p pn
Como en el caso de x se observa que la diferencia entre las ecuaciones para
poblaciones finitas e infinitas se hace despreciable si el tamao de la poblacin finita es
grande con respecto al tamao de muestra por lo que se sigue la misma regla general
mencionada para la media muestral en la seccin anterior.
Para conocer la forma de la distribucin muestral de la proporcin se debe aplicar el
teorema del lmite central para aproximar la distribucin muestral con una distribucin
de probabilidad normal, siempre que el tamao de muestra sea grande. En el caso de p
se puede considerar que el tamao de la muestra es grande cuando 50n .
1.7 Otros mtodos de muestreo
Se ha descrito el procedimiento para el muestreo aleatorio simple y las propiedades de
las distribuciones muestrales de x y p cuando se usa ese muestreo. Sin embargo, el
muestreo aleatorio simple no es el nico mtodo de muestreo con el que se cuenta.
Existen otras alternativas que en algunos casos presentan ventajas sobre ste.
-
6
Muestreo aleatorio estratificado
En este tipo de muestreo primero se divide a los elementos de la poblacin en grupos
llamados estratos, de tal manera que cada elemento de la poblacin pertenece a uno y
solo un estrato. La base de formacin de los estratos, por ejemplo, gnero, nivel socio
econmico, grado de instruccin, etc., queda a discrecin de quien disea la muestra.
Sin embargo los mejores resultados se obtienen cuando los elementos de cada estrato
son tan semejantes como sea posible. Despus de formar los estratos se toma una
muestra aleatoria simple de cada uno de ellos.
Muestreo por conglomerados
En este tipo de muestreo se divide primero a los elementos de la poblacin en conjuntos
separados llamados conglomerados. Cada elemento de la poblacin pertenece a uno y
solo a un grupo. A continuacin se toma una muestra aleatoria simple de los
conglomerados. Todos los elementos dentro de cada conglomerado muestreado forma la
muestra. El muestreo por conglomerados tiende a proporcionar los mejores resultados
cuando sus elementos son heterogneos o diferentes. Una de las principales aplicaciones
del muestreo por conglomerados es el muestre por reas, en el que los conglomerados
son las manzanas de un distrito u otras reas bien definidas.
Muestreo sistemtico
En algunos casos, en especial cuando es hay grandes poblaciones, puede ser difcil la
eleccin de una muestra aleatoria simple cuando se determina primero un nmero
aleatorio y despus se busca en la lista de elementos de la poblacin hasta encontrar el
elemento correspondiente. Una alternativa al muestreo aleatorio simple es el muestreo
sistemtico.
Suponga que se desea elegir una muestra de tamao 50 de una poblacin con 5000
elementos, se podra muestrear un elemento de cada 5000 50 100 en la poblacin.
Una muestra sistemtica en este caso implica seleccionar al azar uno de los primeros
100 elementos de la lista de la poblacin. Se identifican los dems elementos de la
muestra comenzando por el primero obtenido al azar y a continuacin seleccionando
cada 100 elemento. Como que el primer elemento se seleccion de manera aleatoria,
generalmente se asume que un muestreo sistemtico tiene las propiedades de una
muestra aleatoria simple.
Muestreo por conveniencia
Los mtodos de muestreo que se han descrito se llaman tcnicas de muestreo
probabilstico. Los elementos seleccionados de la poblacin tienen una probabilidad
conocida de ser incluidos en la muestra. La ventaja del muestreo probabilstico es que la
distribucin del estadstico se puede identificar. Se pueden usar frmulas para
determinar las propiedades de la distribucin muestral que pueden ser usadas para
-
7
establecer afirmaciones probabilsticas acerca de posibles errores de muestreo asociados
con los resultados de la muestra.
El muestreo por conveniencia es una tcnica de muestreo no probabilstico. Como su
nombre lo indica, la muestra se identifica principalmente por conveniencia. Se
incorporan elementos en la muestra sin probabilidades preestablecidas o conocidas de
seleccin. Un profesor que lleva a cabo una investigacin universitaria puede usar
alumnos voluntarios para formar una muestra, tan solo porque dispone fcilmente de
ellos y participan como elementos a un costo pequeo o nulo.
Muestreo por juicio
Otra tcnica de muestreo no probabilstico es el muestreo por juicio. En este mtodo la
persona ms capaz en el tema del estudio selecciona a los elementos de la poblacin que
se siente son los ms representativos de esa poblacin. Con frecuencia, este mtodo es
una manera relativamente fcil de seleccionar una muestra. Un reportero puede
muestrear a dos o tres congresistas si considera que ellos reflejan la opinin general de
todos los dems congresistas. Sin embargo la calidad de los datos muestrales depende
del juicio de la persona que eligi la muestra.
-
8
Captulo 2
Estimacin por intervalos
2.1 Introduccin
Una estimacin por intervalo de un parmetro poblacional se construye al restar y
sumar un valor, denominado margen de error, a una estimacin puntual. Todas las
estimaciones por intervalo que se desarrollan en este captulo sern de la forma:
Estimacin puntual Margen de error
La inclusin del margen de error proporciona la informacin de precisin acerca de la
estimacin. Las distribuciones muestrales de x y p que se presentaron en el captulo
anterior son importantes en la obtencin de la estimacin respectiva por intervalo para
la media y proporcin poblacionales.
2.2 Error muestral
En general, la diferencia en valor absoluto de entre un estimador puntual insesgado y el
parmetro al cual estima se conoce como error de muestreo. Para el caso de la media
muestral x que estima a y la proporcin muestral p que estima a p , los errores de
muestreo se definen como:
Error de muestreo = x
Error de muestreo = p p
En la prctica no se puede determinar el valor del error muestral por que no se conoce
exactamente el valor del parmetro poblacional. Sin embargo, la distribucin de
muestreo del estadstico se puede usar para hacer declaraciones de probabilidad acerca
de este error.
2.3 Nivel de confianza
El nivel de confianza es la probabilidad a priori de que el intervalo a calcular contenga
al verdadero valor del parmetro. Si un procedimiento de estimacin por intervalos es
tal que en el 95% de los intervalos construidos se encuentra el parmetro poblacional, se
dice que la estimacin por intervalo est determinada con un 95% de confianza. El nivel
de confianza expresado como un valor decimal recibe el nombre de coeficiente de
confianza.
-
9
2.4 Estimacin por intervalo de una media poblacional
Caso 1: Variancia poblacional conocida
El procedimiento para estimar por intervalo una media poblacional suponiendo que la
poblacin tiene distribucin normal y que se conoce la variancia poblacional 2 es:
Poblacin infinita
1 2 1 2x z x zn n
( ) ( )
Poblacin finita
1 2 1 21 1
N n N nx z x z
N Nn n
( ) ( )
donde x es la media muestral, 1 es el coeficiente de confianza, la desviacin
estndar poblacional, n el tamao de muestra, N el tamao de la poblacin y 1 2z es
el valor de distribucin normal estndar que deja una probabilidad acumulada de
1 2 .
Ejemplo 2.1: Un proceso de produccin es implementado de tal forma que el tiempo de produccin por artculo es una variable aleatoria con desviacin estndar 1.41
minutos. Suponga que se decide hacer algunos cambios de modo que el tiempo medio
de produccin disminuya; la variancia sin embargo, se sabe que permanecer constante.
Hechos los cambios, se toma una muestra aleatoria de 20 artculos y se registran sus
tiempos de produccin con los cuales se obtiene un tiempo medio muestral de 9.45
minutos. Estime mediante un intervalo de confianza del 95% el tiempo medio de
produccin por artculo.
Se tiene: 1.41 , 40n , 9.45x y 1 0.95 .
0.975 0.975x z x zn n
1.41 1.419.45 1.96 9.45 1.96
20 20
8.83 10.07
-
10
El intervalo anterior brinda un 95% de confianza de contener el tiempo medio de
produccin por artculo.
Caso 2: Variancia poblacional desconocida
Si no existe base suficiente para suponer que se conoce la desviacin estndar de la
poblacin , se utiliza la desviacin estndar muestral s . En estas condiciones el procedimiento de estimacin por intervalo se basa en una distribucin de probabilidad
conocida como distribucin t.
La distribucin t es una familia de distribuciones de probabilidad que depende de un
parmetro conocido como los grados de libertad. A medida que aumentan la cantidad
de grados de libertad, la diferencia entre la distribucin t y la distribucin de
probabilidad normal estndar se hace ms y ms pequea.
El procedimiento para estimar por intervalo una media poblacional suponiendo que la
poblacin tiene distribucin normal y que se conoce la variancia poblacional 2 es:
Poblacin infinita
1, 2 1, 2n n
s sx t x t
n n
( ) ( )
Poblacin finita
1, 2 1, 21 1
n n
s N n s N nx t x t
N Nn n
( ) ( )
donde x es la media muestral, 1 es el coeficiente de confianza, s la desviacin
estndar muestral, n el tamao de muestra, N el tamao de la poblacin y 1, 2nt es el
valor de la distribucin t con 1n grados de libertad que deja una probabilidad de 2
hacia la derecha.
Ejemplo 2.2: Cuando funciona correctamente, un proceso produce frascos de champ
cuyo contenido promedio es 200 gramos. Los datos en la hoja Champ corresponden al
contenido, en gramos, de una muestra aleatoria de 9 frascos seleccionadas a partir de un
lote. Asumiendo que la distribucin del contenido de los frascos de champ tiene
distribucin normal calcule un intervalo de confianza del 98% para el contenido medio
de champ por frasco.
-
11
Se tiene: 9n y 1 0.98 . Con los datos de la muestra: 203.56x y 6.1260s .
8,0.01 8,0.01
s sx t x t
n n
6.1260 6.1260203.56 2.896 203.56 2.896
9 9
197.64 209.47
El intervalo anterior brinda un 98% de confianza para el contenido medio de champ
por frasco. El intervalo de confianza para una media poblacional tambin se puede
obtener directamente con Excel y Minitab.
Contenido
Media 203.555556
Nivel de confianza (98.0%) 5.91456245
Lmite Inferior 197.640993
Lmite Superior 209.470118
T de una muestra: Contenido Media del
Error
Variable N Media Desv.Est. estndar IC de 98%
Contenido 9 203.56 6.13 2.04 (197.64, 209.47)
Determinacin del tamao de la muestra
Si se ha seleccionado un margen de error deseado antes de realizar el proceso de
muestreo, se pueden aplicar los procedimientos de esta seccin para determinar el
tamao de muestra necesario. Sea E el error mximo de muestreo, es decir
1 2E z
n
Despejando n se obtiene la siguiente frmula para el tamao de muestra:
2 2
1 2
2E
zn
En la ecuacin anterior el valor de E es el margen de error que el usuario est dispuesto
a aceptar y el valor de 1 2z se obtiene del nivel de confianza usado para construir el
intervalo. Aunque se debe tomar en cuenta la preferencia del usuario, lo que se elige con
mayor frecuencia es un 95% de confianza.
-
12
Por ltimo, para aplicar la frmula del tamao de muestra se requiere conocer el valor
de la desviacin estndar poblacional, lo que en la mayora de casos no se cumple. Sin
embargo, podemos aplicar dicha frmula si contamos con un valor preliminar o valor de
planeacin de . En la prctica se puede optar por uno de los siguientes procedimientos:
Usar la desviacin estndar calculada en una muestra elegida anteriormente de la
misma poblacin.
Llevar a cabo un estudio piloto para seleccionar una muestra preliminar de
elementos. La desviacin estndar muestral de ella se puede usar como el valor de
planeacin de . Dividir el rango muestral entre cuatro y usar el resultado como una aproximacin
de la desviacin estndar poblacional.
Ejemplo 2.3: Un fabricante produce anillos para los pistones de un motor de automvil. Se sabe que el dimetro de estos anillos tiene distribucin aproximadamente
normal con una desviacin estndar igual a 0.01 mm. Suponga que se desea realizar una
estimacin del dimetro promedio de los anillos producidos al 98% de confianza y con
un margen de error de 0.005 mm. Qu tamao de muestra se requiere para cumplir con
las condiciones anteriores?
222 2
0.99
2 2
2.33 0.0121.7156 22
E 0.005
zn
anillos
2.5 Estimacin por intervalo de una proporcin poblacional
El empleo de la distribucin normal como aproximacin de la distribucin muestral de
p se basa en la condicin de muestras grandes. Se usar la distribucin muestral de p
para hacer aseveraciones probabilsticas acerca del error muestral siempre que se use
esta proporcin muestral para estimar la proporcin poblacional. El intervalo de
confianza para una proporcin poblacional es:
1 2 1 2
1 1
p p p pp z p p z
n n
( ) ( ) ( )
donde p es la proporcin muestral, 1 es el coeficiente de confianza, n el tamao
de muestra y 1 2z es el valor de distribucin normal estndar que deja una
probabilidad acumulada de 1 2 .
-
13
Ejemplo 2.4: Las compaas de seguros automovilsticos estn analizando la posibilidad de aumentar las tarifas para las personas de gnero masculino que usan
telfonos mientras conducen. Una compaa especializada asegura que los conductores
de sexo masculino tienen esta actitud en mayor proporcin que los conductores de sexo
femenino. Una muestra aleatoria de 350 conductores hombres permiti observar que 70
hombres usaban telfonos mientras conducan. Con un nivel de confianza del 99%,
Qu puede afirmarse sobre la proporcin de hombres que usan telfonos mientras
conducen?
Se tiene: 350n , 70
0.2350
p y 1 0.99 .
n
ppZpp
n
ppZp
1
1 995,0995,0
0.2 1 0.2 0.2 1 0.20.2 2.575 0.2 2.575
350 350p
0.145 0.255p
El intervalo anterior brinda un 99% de confianza de contener la proporcin de hombres
que usan telfonos mientras conducen. El intervalo de confianza para una proporcin
poblacional tambin se puede obtener directamente con Minitab.
Prueba e IC para una proporcin Muestra X N Muestra p IC de 99%
1 70 350 0.200000 (0.144926, 0.255074)
Uso de la aproximacin normal.
Determinacin del tamao de la muestra
Para determinar el tamao de muestra necesario para obtener una estimacin de una
proporcin poblacional con determinado margen de error o nivel de precisin. Los
argumentos usados son muy parecidos a los utilizados en la determinacin del tamao
de muestra con el cual se estima una media poblacional. Sea E el margen de error
deseado, es decir
1 2
1E
p pz
n
Despejando n se obtiene la siguiente frmula para el tamao de muestra:
21 22
1
E
z p pn
-
14
En esta ecuacin el usuario debe especificar el margen de error deseado E y el nivel de
confianza. Como se desconoce la proporcin poblacional, la frmula requiere de un
valor de plantacin para p . En la prctica este valor se puede elegir mediante uno de
los siguientes procedimientos:
Usar la proporcin calculada en una muestra elegida anteriormente de la misma
poblacin.
Llevar a cabo un estudio piloto para seleccionar una muestra preliminar de
elementos. La proporcin muestral de ella se puede usar como el valor de
planeacin para p .
Usar el juicio para elegir el mejor valor de p .
Si no se aplica ninguna de las alternativas anteriores, usar 0.5p .
Ejemplo 2.5: Uno de los resultados de un sondeo de opinin indica que el 35% de limeos est de acuerdo con que se firme el TLC con Estados Unidos de Norteamrica.
Suponga que se decide realizar un nuevo sondeo cuyos resultados tenga un margen de
error mximo del 3% y que el nivel de confianza sea del 92%. De qu tamao deber
ser la muestra de la investigacin para que cumpla con las condiciones planteadas?
2 20.962 2
1 1.7507 0.35 0.65774.75 775
E 0.03
z p pn
limeos.
2.6 Estimacin por intervalo de una variancia poblacional
En muchas situaciones reales, como el control de calidad en procesos de produccin, se
necesita estimar el valor de la variancia o desviacin estndar poblacional. El
procedimiento para realizar la estimacin por intervalo, suponiendo que la poblacin
tiene distribucin normal, es:
Variancia poblacional
2 222 2
1; 2 1;1 2
1 1
n n
n s n s
Desviacin estndar poblacional
2 22 2
1; 2 1;1 2
1 1
n n
n s n s
donde n es el tamao de muestra, 2s la variancia poblacional, s la desviacin estndar
poblacional, 1 es el coeficiente de confianza, 2 1; 2n y 2
1;1 2n son los valores de
la distribucin Chi-cuadrado con 1n grados de libertad que dejan una probabilidad
hacia la derecha de 2 y 1 2 respectivamente.
Ejemplo 2.6: Suponga que en el Ejemplo 7.2 se desea obtener un intervalo para la desviacin estndar del contenido de los frascos de champ al 98% de confianza.
Entonces:
-
15
2 22 2
8;0.01 8;0.99
1 1n s n s
2 29 1 6.1260 9 1 6.126020.0902 1.6465
3.8657 13.5033
El intervalo anterior brinda un 98% de confianza de contener para la desviacin
estndar del contenido de los frascos de champ. El intervalo de confianza para una
desviacin estndar poblacional tambin se puede obtener directamente con Minitab.
Prueba e IC para una desviacin estndar: Contenido Mtodo
El mtodo estndar se utiliza slo para la distribucin normal.
El mtodo ajustado se utiliza para cualquier distribucin continua.
Estadsticas
Variable N Desv.Est. Varianza
Contenido 9 6.13 37.5
Intervalos de confianza de 98%
IC para IC para
Variable Mtodo Desv.Est. varianza
Contenido Estndar (3.87, 13.50) (14.9, 182.3)
Ajustado (4.26, 10.52) (18.2, 110.7)
2.7 Intervalo de confianza para el cociente de varianzas poblacionales
2
2
2
1 /
Si S21 y S
22 son las varianzas de muestras independientes de tamao n1 y n2 de
poblaciones normales respectivamente, entonces un intervalo de confianza para 2
2
2
1 / con un nivel de confianza del ( 1 ) 100%:
)2/,1,1(2
2
2
1
2
2
2
1
)2/,1,1(
2
2
2
1
12
211
.1
.
nnnn
FS
S
FS
S
Ejemplo:
Una compaa tiene una poltica singular relativa a los bonos de fin de ao
destinados al personal gerencial de bajo rango (los bonos son expresados como
un porcentaje del salario anual). El director de personal considera que el sexo del
empleado influye en los bonos recibidos, para esto toma muestras de 16 mujeres
y 25 hombres que desempean cargos gerenciales y registra los porcentajes del
salario anual percibido obtenindose los datos siguientes:
-
16
Mujeres Hombres
9,8 11,9 9,0 6,9 10,4 9,6 12,0 8,9 9,8
8,0 6,7 9,3 8,7 9,7 10,4 7,9 12,0 10,1
8,4 7,7 9,0 7,6 8,7 11,2 9,7 9,4 9,4
7,7 6,2 8,4 9,2 9,3 8,8 9,0 10,0 9,2
8,9 10,2 8,7 9,2 9,0
Calcule un intervalo de confianza del 95% para la razn de varianzas de los
porcentajes de salario anual de las mujeres y los hombres.
Solucin:
Calculamos los estadsticos:
Mujeres Hombres
x 8,4063 9,660 F(15, 24, 0.025) = 2.4374
s 1,3718 0,9883 F(24, 15, 0.025) = 2.7007
n 16 25
Reemplazando los valores en la frmula:
)7007.2()9883.0(
)3718.1(
4374,2
1
)9883.0(
)3718.1(2
2
2
2
2
1
2
2
2
1
2
2
0.7905 5.2033
Interpretacin: Con 95% de confianza, de 0,7905 a 5,2033 se encontrar el
cociente de las varianzas de los porcentajes de salario anual de las mujeres y
los hombres.
2.8 Intervalo de confianza para diferencia de medias poblacionales (1-2) con muestras
independientes
Sean 1 2x y x las medias de muestras aleatorias independientes de tamaos n1 y
n2 tomadas de poblaciones con varianzas poblacionales conocidas. Cuando las
muestras son grandes las poblaciones son normales, un intervalo de confianza
para la diferencia de medias poblacionales (1 - 2) puede ser calculado segn cada uno de los siguientes casos:
Caso 1: Cuando las muestras provienen de poblaciones Normales y
las varianzas poblacionales 21 y 2
2 son conocidas
Si 21 xyx son las medias de muestras aleatorias independientes de tamao n1 y
n2 de poblaciones con varianzas conocidas 2
1 y 2
2 , respectivamente, un
intervalo de confianza de ( 1 ). 100% para 21 est dado por:
-
17
2
2
2
1
2
12/12121
2
2
2
1
2
12/121
nnzxx
nnzxx
Si el muestreo es sin reemplazo y las poblaciones finitas de tamaos N1 y N2, el
intervalo de confianza ser:
11)(
2
22
2
2
2
1
11
1
2
12/12121
N
nN
nN
nN
nzxxIC
Ejemplo: Para comparar dos mtodos de ventas, se aplicaron a 200 vendedores elegidos al azar el
mtodo tradicional y a otra muestra de 250 vendedores el mtodo nuevo resultando las
calificaciones promedio respectiva de 13 y 15 (cientos de soles). Suponga que las
varianzas poblacionales respectivas son 9 y 16 (cientos de soles2). Halle un intervalo de
confianza del 95% para la diferencia de las medias.
Solucin:
La estimacin puntual de 21 es 2151321 xx . Con 0,05 se encuentra el
valor z, que deja un rea de 0,025 a la derecha y por lo tanto un rea de 0,975 a la
izquierda, es 96,1975,0
z . De aqu que el intervalo de confianza del 96% es:
250
16
200
996,12
250
16
200
996,12
21
efectuando las operaciones indicadas se tiene: 3529,16471,2 21
Interpretacin:
Con 95% de confianza entre -2,6 y -1,4 se encontrar la diferencia de niveles medios de ventas obtenidos con los mtodos evaluados.
Caso 2: Cuando las muestras provienen de poblaciones Normales,
las varianzas poblacionales 21 y 2
2 son desconocidas
Caso 2.1 Pero Iguales ( 21 = 2
2 )
Si 21 xyx son las medias de muestras aleatorias independientes de tamao n1
y n2 respectivamente, de poblaciones aproximadamente normales con varianzas
iguales pero desconocidas, un intervalo de confianza de (1 ).100% para
21 est dado por:
21
2
2/,22121
21
2
2/,221
11112121 nn
Stxxnn
Stxx pnnpnn
21
2
2/,22121
11)(
21 nnStxxIC pnn
donde : 2nn
S)1n(S)1n(S
21
2
22
2
112
p
donde 2/,221 nnt con (n1 + n2 2) grados de libertad, deja un rea de /2 a la
derecha.
-
18
Si el muestreo es sin reemplazo y las poblaciones finitas de tamaos N1 y N2, el
intervalo de confianza ser:
1
1
1
1)(
2
22
21
11
1
2
2/,22121 21 N
nN
nN
nN
nStxxIC pnn
Ejemplo:
Los siguientes datos, registrados en minutos, representan el tiempo de atencin por
ventanilla de dos terminalistas:
Terminalista 1 Terminalista 2
5,1
17
14
2
1
1
1
s
x
n
8,1
19
16
2
2
2
2
s
x
n
Encuentre un intervalo de confianza de 99% para la diferencia 21 del
tiempo promedio de atencin para los dos terminalistas, suponga poblaciones
normales con varianzas iguales.
Solucin:
La estimacin puntual de 21 es 2191721 xx .
La estimacin de la varianza comn, S2
p, es
6607,121614
)8,1)(116()5,1)(114(2
pS
Al tomar la raz cuadrada obtenemos Sp = 1,2887. Con el uso de 01,0 , encontramos
que t(28,0.005) =2,763 para v = 14 + 16 - 2 = 28 grados de libertad, y por lo tanto el
intervalo de confianza del 99% es:
16
1
14
1)2887,1(763,22
16
1
14
1)2887,1(763,22 12
efectuando las operaciones indicadas se tiene: 6969,03031,3 12
Interpretacin:
Con 99% de confianza entre -3.3 y -0,7 minutos se encontrar la diferencia de tiempos promedios de atencin para los dos terminalistas.
Caso 2.2 Pero Diferentes ( 21 2
2 )
Si 2222
11 Syxy,Syx son las medias y varianzas de muestras pequeas e
independientes de distribuciones aproximadamente normales con varianzas
desconocidas y diferentes, un intervalo de confianza de (1 ).100% para
21 est dado por:
2 2 2 2
1 2 1 21 2 1 21 2, / 2 , 2
1 2 1 2
v v
S S S Sx x t x x t
n n n n
-
19
( ) ( ) ( )
Donde )2/,( vt es el valor t con
11 2
2
1
2
2
2
2
2
1
2
1
2
22
1
21
nn
n
S
n
S
v
n
S
n
S
grados de libertad, que
deja un rea de / 2 a la derecha. v es un valor entero por redondeo simple.
Si el muestreo es sin reemplazo y las poblaciones finitas de tamaos N1 y N2, el
intervalo de confianza ser:
11)(
2
22
2
2
2
1
11
1
2
12/,2121
N
nN
n
S
N
nN
n
StxxIC v
Ejemplo: El gerente de una compaa de taxis trata de decidir si comprar neumticos de la marca
A o de la B para su flotilla de taxis. Se lleva a cabo un experimento utilizando 12 de
cada marca. Los neumticos se utilizaron hasta que se gastan. Los resultados son:
Marca A
kilomtros0005s
kilmetros30036x
2
1
1
Marca B
kilomtros1006s
kilmetros10038x
2
2
2
Calcule un intervalo de confianza de confianza de 90% para la diferencia de
rendimiento promedio de ambas marcas de neumticos. Suponga que la diferencia de
kilmetros de rendimiento se distribuyen de forma aproximadamente normal con
varianzas distintas.
Solucin:
Representamos con 21 y las medias poblacionales, respectivamente, para los
tiempos promedios de duracin de los neumticos que producen las compaa A y B.
La estimacin puntual de 21 es 80011003830036xx 21 .
Como las varianzas son desconocidas y diferentes, debemos encontrar un intervalo de
confianza de 90% aproximado basado en la distribucin t con v grados de libertad,
donde
2279.21
112112
12
6100
12
5000
v2
12
61002
12
5000
2
Con el uso de 10.0 , encontramos que t(22,0.05) = 1.717 para v = 22 grados de libertad, y por lo tanto el intervalo de confianza del 90% es:
-
20
12
6100
12
5000717.11800
12
6100
12
5000717.11800 21
efectuando las operaciones indicadas se tiene: 8.17472.1852 21
Interpretacin:
Con 90% de confianza entre -1852 y -1748 das se encontrar la diferencia de rendimiento promedio de ambas marcas de neumticos.
2.9 Intervalo de confianza para la diferencia de proporciones poblacionales (p1-p2)
Si 21 pyp son las proporciones de xitos en muestras aleatorias de tamao n1 y
n2, respectivamente, un intervalo de confianza aproximado de ( 1 ) . 100% para la diferencia de proporciones poblacionales p1 p2, est dado por:
2
22
1
11
2/12121
2
22
1
11
2/121
)1.()1.(
)1.()1.(
n
pp
n
ppzpppp
n
pp
n
ppzpp
2
22
1
11
2/12121
)1.()1.()(
n
pp
n
ppzppppIC
Si el muestreo es sin reemplazo y las poblaciones finitas de tamaos N1 y N2, el
intervalo de confianza ser:
1
)1.(
1
)1.()(
2
22
2
22
1
11
1
11
2/12121N
nN
n
pp
N
nN
n
ppzppppIC
Dado que la distribucion muestral de la diferencia de proporciones no es Normal
para aproximarla a dicha distribucion se requiere tamaos de muestras grandes
(n1>50 y n2>50)
Ejemplo:
Una empresa realiza un estudio para determinar si el ausentismo de los
trabajadores en el turno de da es diferente al de los trabajadores en el turno
nocturno. Se realiza una comparacin de 100 trabajadores de cada turno. Los
resultados muestran que 27 trabajadores diurnos han faltado por lo menos cinco
veces durante el ao anterior, mientras que 49 trabajadores nocturnos han faltado
por lo menos cinco veces. Halle un intervalo del 98% de confianza, para la
diferencia de proporciones de trabajadores de los turnos que faltaron cinco veces
o ms al ao.
-
21
Solucin:
p1: proporcin de trabajadores diurnos que han faltado por lo menos cinco veces
durante el ao anterior
p2: proporcin de trabajadores nocturnos que han faltado por lo menos cinco
veces durante el ao anterior
27,01 p 49,0 2 p Z0.99 = 2,33
100
)51.0(49.0
100
)73.0(27.033.249.027.0)( 21 ppIC
0642.03758.0 21 pp
Interpretacin: Con 95% de confianza, de -0.3758 a -0.0642 se encontrar la
diferencia de proporcin de trabajadores que faltaron por lo menos cinco veces
durante el ao anterior de ambos turnos de trabajo. En el turno nocturno
faltaron ms.
Ejercicios
1. Un ingeniero realiza el control de calidad del proceso de envasado de un producto, Por resultados obtenidos de estudios anteriores, se puede considerar que el
contenido del volumen de llenado en el envase tiene aproximadamente una
distribucin normal Los contenidos de una muestra aleatoria de 10 envases del
producto de 500 ml, se muestran en la hoja Proceso,
a. Uno de los criterios para decidir si el proceso de envasado est bajo control indica el contenido promedio debe ser precisamente 500 ml, Con un nivel de
confianza del 90%, se podra decir que el proceso de envasado est bajo
control?
b. Un segundo criterio para indicar que el proceso se encuentra bajo control es verificar que la desviacin estndar no sea mayor de 10 ml, Calcule el intervalo
de confianza del 95% para la desviacin estndar del contenido de los envases,
Si el ingeniero a afirmado que la variabilidad del proceso est bajo control, qu
se podra concluir al contrastar la afirmacin del ingeniero con el intervalo de
confianza?
2. Una muestra de los sueldos de 61 profesionales en ejercicio que viven en Enigma City dio como promedio y desviacin estndar 3465 y 124 nuevos soles
respectivamente, Enigma City es un poblado pequeo y cuenta actualmente con
8740 profesionales en ejercicio, Con un nivel de confianza del 90%:
a. Calcule e intrprete un intervalo de confianza para el sueldo promedio de los profesionales en ejercicio de Enigma City,
b. Calcule e intrprete un intervalo de confianza para la desviacin estndar de los sueldos de los profesionales en ejercicio de Enigma City,
-
22
3. Un fabricante de reproductores de discos compactos utiliza un conjunto de pruebas para evaluar la funcin elctrica de su producto, Todos los reproductores de discos
compactos deben pasar todas las pruebas antes de venderse, Una muestra aleatoria
de 500 reproductores tiene como resultado 15 que fallan en una o ms pruebas,
Encuentre un intervalo de confianza de 90% para la proporcin de los reproductores
de discos compactos de la poblacin que fallan en una o ms pruebas,
4. Una empresa investigadora de mercados desea determinar la preferencia del electorado hacia cierto candidato a la alcalda durante el mes de septiembre, Para
esto selecciona una muestra de 500 electores del distrito de los cuales 300 dijeron
votar por el mencionado candidato,
a. Segn la empresa, la proporcin de electores en el mes de septiembre a favor del candidato se encuentra en el intervalo [0,5571 , 0,6429], Cul es el nivel de
confianza usado?
b. Cul es el tamao de muestra a utilizar si se desea estimar esta misma proporcin durante el mes de octubre usando un nivel de confianza del 98% y un
error de estimacin no mayor del 5%?
5. Un ingeniero de control de calidad quiere estimar la proporcin de elementos defectuosos en un lote de lmparas, Cul es el tamao de la muestra si se quiere
estimar la proporcin real, con un margen de error del 1%, utilizando un nivel de
confianza de 95%?
6. El departamento de control de calidad de una empresa inform a la gerencia que en un primer estudio realizado al proceso de fabricacin de un componente para
telfonos celulares de 900 componentes inspeccionados, se haba estimado que el
porcentaje de productos no adecuados a la norma de calidad era de 11% 3,1%, Sin embargo, en el informe presentado no se precis el nivel de confianza respectivo,
a. Calcule el nivel de confianza utilizado en el primer estudio realizado por el departamento de control de calidad,
b. Si se considera que el nivel de confianza utilizado en este primer estudio es adecuado pero que para realizar un segundo estudio el error no debe superar el
2,1%, Cuntos productos deben ser inspeccionados?,
-
23
Captulo 3
Prueba de hiptesis.
3.1 Introduccin
La prueba de hiptesis involucra una suposicin elaborada sobre algn parmetro de la
poblacin. A partir de la informacin proporcionada por la muestra, se verificar la
suposicin sobre el parmetro estudiado. La hiptesis que se contrasta se llama hiptesis
nula (Ho).
Partiendo de los resultados obtenidos de la muestra, o bien rechazamos la hiptesis nula
a favor de la hiptesis alterna, o bien no rechazamos la hiptesis nula y suponemos que
nuestra estimacin inicial del parmetro poblacional podra ser correcto.
El hecho de no rechazar la hiptesis nula no implica que sta sea cierta. Significa
simplemente que los datos de la muestra son insuficientes para inducir un rechazo de la
hiptesis nula.
3.2 Conceptos generales
La hiptesis que se contrasta es rechazada o no en funcin de la informacin muestral.
La hiptesis alternativa se especifica como opcin posible si se rechaza la nula.
Tipos de errores
Informacin muestral
Aceptar H0 Rechazar H0
La
realidad
H0 es cierta No hay error Error I
H0 es falsa Error II No hay error
Error Tipo I
Ocurre cuando se rechaza una hiptesis H0 que es verdadera. La probabilidad de error
tipo I viene a ser la probabilidad de rechazar H0 cuando sta es cierta.
)IError(P
El valor (nivel de significacin) es fijado por la persona que realiza la investigacin (por lo general vara entre 1% -10%)
-
24
Error Tipo II
Ocurre cuando se acepta una hiptesis H0 que es falsa, la probabilidad de error tipo II es
la probabilidad de aceptar H0 cuando sta es falsa.
)IIError(P
Debido a que el valor real del parmetro es desconocido este error no puede ser fijado.
Potencia de prueba o Poder de Prueba
Es la probabilidad de rechazar una hiptesis planteada cuando esta es falsa.
1pruebadePotencia
Pasos a seguir en una Prueba de Hiptesis
Paso 1: Planteo de hiptesis.
Paso 2: Nivel de significacin.
Paso 3: Prueba estadstica.
Paso 4: Suposiciones.
Paso 5: Regiones crticas. Criterios de decisin.
Paso 6: Realizacin de la prueba.
Paso 7: Resultados y conclusiones.
Procedimiento general en una Prueba de Hiptesis
Sea el parmetro que representa: )/,pp,,p,,(2
2
2
2121
21
1. Planteo de las hiptesis.
01
00
01
00
01
00
:
:
:
:
:
:
H
H
H
H
H
H
2. Fijar el nivel de significacin
3. Pruebas estadsticas
4. Supuestos
)F,( positiva asimtrica nDistribuci
t) (Z, simtrica nDistribuciE
2
-
25
a) Supuestos para: )/,,,( 222
21
21
Poblacin(es) normalmente distribuida(s).
Muestra(s) tomada(s) al azar.
b) Supuestos para: 21 pp,p
Muestra(s) tomada(s) al azar.
Muestra(s) grande(s)
5. Regiones crticas
6. Estadstico de prueba.
7. Resultados y conclusiones.
3.3 Prueba de hiptesis para una media poblacional
()
Caso 1: Cuando muestra proviene de una poblacin Normal y la
varianza poblacional (2) es conocida
Hiptesis: Caso 1
Unilateral izquierda
Caso 2
Bilateral
Caso 3
Unilateral derecha
00 :H 00 :H 00 :H
01 :H 01 :H 01 :H
Estadstico de prueba:
n
XZ
/
0
Normal(0,1)
donde:
X : Es la media muestral.
0 : Es el valor supuesto de la media poblacional en la hiptesis nula. : Es la desviacin estndar de la poblacin. n: Es el tamao de la muestra.
N(0,1): Es la distribucin normal estndar.
Si la poblacin es finita (de tamao N) y la fraccin de muestreo n/N es
mayor que 0.05, entonces se debe agregar el factor de correccin para
poblaciones finitas en el clculo del estadstico de prueba con lo cual se
obtiene:
Bilateral
Unilateral Unilateral
-
26
0c
1
XZ
N n
Nn
Normal(0,1)
Regiones de rechazo de H0: Caso 1
Unilateral izquierda
Caso 2
Bilateral
Caso 3
Unilateral derecha
)(c zz )2/1(c zz )1(c zz
donde es el nivel de significacin de la prueba, y z(), z(1-/2) y z(1-) son los cuantiles de la distribucin normal estndar.
Caso 2: Cuando la muestra proviene de una poblacin Normal, la
varianza poblacional (2) es desconocida
Hiptesis: Caso 1
Unilateral izquierda
Caso 2
Bilateral
Caso 3
Unilateral derecha
00 :H 00 :H 00 :H
01 :H 01 :H 01 :H
Estadstico de prueba:
nS
XT
/
0 t(n-1)
donde:
X : Es la media muestral.
0 : Es el valor supuesto de la media poblacional en la hiptesis nula. S : Es la desviacin estndar de la muestra.
n: Es el tamao de la muestra.
t(n-1): Es la distribucin t de Student con n 1 grados de libertad.
Si la poblacin es finita (de tamao N) y la fraccin de muestreo n/N es
mayor que 0.05, entonces se debe agregar el factor de correccin para
poblaciones finitas en el clculo del estadstico de prueba con lo cual se
obtiene:
0c
1
XT
S N n
Nn
t(n-1)
Regiones de rechazo de H0: Caso 1
Unilateral izquierda
Caso 2
Bilateral
Caso 3
Unilateral derecha
),1(c ntt )2/,1(c ntt ),1(c ntt
donde es el nivel de significacin de la prueba, y ( ) y ( ) son los cuantiles de la distribucin t de Student con n 1 grados de libertad.
-
27
Ejemplo
Una empresa elctrica fabrica focos cuya duracin se distribuye de forma
aproximadamente normal con media de 800 horas y desviacin estndar de 40 horas.
Pruebe la hiptesis de que 800 horas contra la alternativa 800 horas si una
muestra aleatoria de 28 focos tiene una duracin promedio de 784 horas. Utilice un
nivel de significancia de 0.05.
Solucin.
Sea X: Duracin de los focos (horas)
X~ Normal(800 , 402)
1. Planteo de hiptesis.
800:H
800:H
1
0
2. Nivel de significacin.
05.0
3. Prueba estadstica
)1.0(~/
_
Nn
xZ
4. Supuestos. Poblacin normal. Muestra tomada al azar.
5. Regiones crticas. Criterios de decisin. La hiptesis alternante define la(s) zona(s) de rechazo.
reas
Criterios
Si -1.96 Zc 1.96 No se rechaza H0 Si Zc < -1.96 o Zc > 1.96 Se
rechaza H0
6. Clculos
12.228/40
800784Zc
7. Conclusiones. Con 5% de nivel de significacin y a partir de la informacin muestral, el tiempo
promedio de duracin de los focos es diferente de 800 horas.
0.025 0.025
1.96 -1.96
0.95
-
28
3.4 Prueba de hiptesis para la varianza poblacional
(2)
Hiptesis: Caso 1
Unilateral izquierda
Caso 2
Bilateral
Caso 3
Unilateral derecha 2
0
2
0 :H 2
0
2
0 :H 2
0
2
0 :H 2
0
2
1 :H 2
0
2
1 :H 2
0
2
1 :H
Estadstico de prueba:
2
0
22 )1(
Sn 2 )1( n
donde:
n : Es el tamao de la muestra.
S 2 : Es la variancia de la muestra.
2
0 : Es el valor supuesto de la variancia poblacional en la hiptesis nula. 2
)1( n : Es la distribucin Chi-cuadrado con n 1 grados de libertad.
Regiones de rechazo de H0: Caso 1
Unilateral izquierda
Caso 2
Bilateral
Caso 3
Unilateral derecha 2
)1,1(
2
0 n 2
)2/1,1(
2
0 n 2
)2/,1(
2
0 n
2
),1(
2
0 n
donde es el nivel de significacin de la prueba, y 2 )1,1( n , 2
)2/1,1( n , 2
)2/,1( n y 2
),1( n son los cuantiles de la distribucin Chi-cuadrado con n
1 grados de libertad.
Ejemplo
Se reporta que la desviacin estndar de la resistencia al rompimiento de ciertos cables
producidos por una compaa es 240 lb. Despus de que se introdujo un cambio en el
proceso de produccin de estos cables, la resistencia al rompimiento de una muestra de
8 cables mostr una desviacin estndar de 300 lb. Investigue la significancia del
aumento aparente en la variacin usando un nivel de significancia de 0.05. Asuma
normalidad.
Solucin.
Sea X: Resistencia al rompimiento de cierto tipo de cable
X~ Normal( , 2402)
1. Planteo de hiptesis.
22
1
22
0
240:H
240:H
-
29
2. Nivel de significacin.
05.0
3. Prueba estadstica
2
)1(2
22 ~
)1(
n
sn
4. Supuestos. Poblacin normal. Muestra tomada al azar.
5. Regiones crticas. Criterios de decisin. La hiptesis alternante define la(s) zona(s) de rechazo.
reas
Criterios
Si 07.142c No se rechaza
H0 Si 07.142c Se rechaza H0
6. Clculos
938.10240
300)18(2
22
c
7. Conclusiones. Con 5% de nivel de significacin y la informacin muestral es insuficiente para
afirmar que la variacin de la resistencia al rompimiento ha aumentado.
3.5 Prueba de hiptesis para la proporcin poblacional (p)
Hiptesis: Caso 1
Unilateral izquierda
Caso 2
Bilateral
Caso 3
Unilateral derecha
00 :H pp 00 :H pp 00 :H pp
01 :H pp 01 :H pp 01 :H pp
Estadstico de prueba:
n
pp
pPZ
)1(
00
0
N(0,1)
0.05 0.95
-
30
donde:
P : Es la proporcin muestral.
p0 : Es el valor supuesto de la proporcin poblacional en la hiptesis nula.
n: Es el tamao de la muestra.
N(0,1): Es la distribucin normal estndar.
Si la poblacin es finita (de tamao N) y la fraccin de muestreo n/N es
mayor que 0.05, entonces se debe agregar el factor de correccin para
poblaciones finitas en el clculo del estadstico de prueba con lo cual se
obtiene:
0c
0 0
(1 )
1
P pZ
p p N n
n N
Normal(0,1)
Regiones de rechazo de H0: Caso 1
Unilateral izquierda
Caso 2
Bilateral
Caso 3
Unilateral derecha
)(c zz )2/1(c zz )1(c zz
donde es el nivel de significacin de la prueba, y z(), z(1-/2) y z(1-) son los cuantiles de la distribucin normal estndar.
Ejemplo
RRS, el minorista de electrodomsticos, anunci que vende el 21% de todos los
computadores caseros. Esta afirmacin se confirma si 120 de los 700 propietarios de
computadores caseros se los compraron a RRS? Tome 05.0 .
Solucin.
Sea p: Proporcin de propietarios de computadores caseros que compraron en RRS.
1 Planteo de hiptesis.
21.0p:H
21.0p:H
1
0
2 Nivel de significacin. 05.0
3 Prueba estadstica
)1.0(~)1(
Normal
n
pp
ppZ
4 Supuestos. Muestra tomada al azar. Muestra grande.
-
31
5 Regiones crticas. Criterios de decisin. La hiptesis alternante define la(s) zona(s) de rechazo.
reas
Criterios
Si -1.96 Zc 1.96 No se rechaza H0 Si Zc < -1.96 o Zc >
1.96 Se rechaza H0
6 Clculos
505.2
700
)21.01(21.0
21.0700
120
Zc
7 Conclusiones. Con 5% de nivel de significacin y a partir de la informacin muestral, RRS no
vende el 21% de todos los computadores caseros.
3.6 Pruebas de hiptesis para dos varianzas
poblacionales 2
1 y 2
2
Para esta prueba de hiptesis solo se desarrollar el caso bilateral debido a que
esta prueba indicar si dos muestras independientes provienen de poblaciones
con varianzas homogneas o heterogneas
Hiptesis: Caso nico
Bilateral
22
2
10 :H
22
2
11 :H
Estadstico de prueba:
2
2
2
1c
S
SF 1,1 21 nnF
donde:
n1 : Es el tamao de la muestra proveniente de la poblacin 1.
n2 : Es el tamao de la muestra proveniente de la poblacin 2. 2
1S : Es la varianza de la muestra de la poblacin 1. 2
2S : Es la varianza de la muestra de la poblacin 2.
1,1 21 nnF : Es la distribucin F con n11 y n21 grados de libertad.
0.025 0.025
1.96 -1.96
0.95
-
32
Regiones de rechazo de H0: Caso nico
Bilateral
2/1,1,1 21 nnc FF
2/,1,1 21 nnc FF
donde es el nivel de significacin de la prueba, y 2/1,1,1 21 nnF y
2/,1,1 21 nnF son los cuantiles de la distribucin F con n1 1 y n2 1 grados
de libertad.
Ejemplo
Diecisiete latas de CROC Aid presentan una media de 17.2 onzas, con una desviacin
estndar de 3.2 onzas, y 13 latas de Energy Pro producen una media de 18.1 onzas y s =
2.7 onzas. Asumiendo varianzas iguales y distribuciones normales en los pesos de la
poblacin, Se puede afirmar con 5% de significacin que las varianzas de los pesos son
iguales?
Solucin.
Sean
X1: Contenido de una lata de gaseosa CROC Aid (onzas) X1 ~ Normal( 1 , 2
1 )
X2: Contenido de una lata de gaseosa Energy Pro (onzas) X2 ~ Normal( 2 , 2
2 )
1. Planteo de hiptesis.
2
2
2
11
2
2
2
10
:H
:H
2. Nivel de significacin. 05.0
3. Prueba estadstica
)1,1(
2
2
2
1
2
2
2
1
21~
1 nnc F
S
SF
Bajo H0, que las varianzas son iguales, se tiene,
)1,1(2
2
2
1
21~ nnc F
S
SF
4. Supuestos. Poblaciones normales. Muestras tomadas al azar.
5. Regiones crticas. Criterios de decisin. La hiptesis alternante define la(s) zona(s) de rechazo.
-
33
reas
Criterios
Si 0.346 Fc 3.152 No se rechaza H0 Si Fc < 0.346 o Fc > 3.152 Se rechaza H0
6. Clculos
405.1)7.2(
)2.3(2
2
2
2
2
1 S
SFc
7. Conclusiones. Con 5% de nivel de significacin la informacin muestral es insuficiente para rechazar
que las varianzas de los pesos son iguales.
3.7 Pruebas de hiptesis para dos medias
poblacionales (1 y 2)
Caso 1: Cuando las muestras provienen de poblaciones Normales y
las varianzas poblacionales 21 y 2
2 son conocidas
Hiptesis: Caso 1
Unilateral izquierda
Caso 2
Bilateral
Caso 3
Unilateral derecha
k 210 :H k 210 :H k 210 :H
k 211 :H k 211 :H k 211 :H
Estadstico de prueba:
2
2
2
1
2
1
21
nn
kXXZ c
Normal(0,1)
donde:
1X : Es la media muestral para la muestra 1.
2X : Es la media muestral para la muestra 2. 2
1 : Es la varianza de la poblacin 1. 2
2 : Es la varianza de la poblacin 2.
n1 : Es el tamao de la muestra 1.
n2 : Es el tamao de la muestra 2.
k : Es el valor supuesto para la diferencia entre las medias poblacionales en
la hiptesis nula.
Normal(0,1): Es la distribucin normal estndar.
Si las poblaciones son finitas (de tamaos N1 y N2) y las fracciones de
muestreo n1/N1 y n2/N2 son mayores que 0.05, entonces se debe agregar el
0.025 0.025
3.152 0.346
-
34
factor de correccin para poblaciones finitas en el clculo del estadstico de
prueba con lo cual se obtiene:
1 2c
2 2
1 1 1 2 2 2
1 1 2 21 1
X X kZ
N n N n
n N n N
Normal(0,1)
Regiones de rechazo de H0: Caso 1
Unilateral izquierda
Caso 2
Bilateral
Caso 3
Unilateral derecha
)(c zz )2/1(c zz )1(c zz
donde es el nivel de significacin de la prueba, y z(), z(1-/2) y z(1-) son los cuantiles de la distribucin normal estndar.
Caso 2: Muestras independientes, varianzas poblacionales desconocidas y homogneas
Hiptesis: Caso 1
Unilateral izquierda
Caso 2
Bilateral
Caso 3
Unilateral derecha
k 210 :H k 210 :H k 210 :H
k 211 :H k 211 :H k 211 :H
Estadstico de prueba:
2
2
1
2
21
n
S
n
S
kXXT
pp
c
221 nnt
con
2
11
21
2
22
2
112
nn
SnSnS p
donde:
1X : Es la media de la muestra 1.
2X : Es la media de la muestra 2. 2
1S : Es la varianza de la muestra 1. 2
2S : Es la varianza de la muestra 2. 2
pS : Es la varianza muestral ponderada.
n1 : Es el tamao de la muestra 1.
n2 : Es el tamao de la muestra 2.
k : Es el valor supuesto para la diferencia entre las medias poblacionales en
la hiptesis nula.
221 nnt : Es la distribucin t de Student con n1 + n2 1 grados de libertad.
-
35
Si las poblaciones son finitas (de tamaos N1 y N2) y las fracciones de
muestreo n1/N1 y n2/N2 son mayores que 0.05, entonces se debe agregar el
factor de correccin para poblaciones finitas en el clculo del estadstico de
prueba con lo cual se obtiene:
1 2c
2 2
1 1 1 1
1 1 2 11 1
p p
X X kT
S SN n N n
n N n N
221 nnt
Regiones de rechazo de H0: Caso 1
Unilateral izquierda
Caso 2
Bilateral
Caso 3
Unilateral derecha
),2(c 21 nntt )2/,2(c 21 nntt ),2(c 21
nntt
donde es el nivel de significacin de la prueba, y ),2( 21 nnt y )2/,2( 21 nnt
son los cuantiles de la distribucin t de Student con n1 + n2 1 grados de libertad.
Ejemplo
Diecisiete latas de CROC Aid presentan una media de 17.2 onzas, con una desviacin
estndar de 3.2 onzas, y 13 latas de Energy Pro producen una media de 18.1 onzas y s =
2.7 onzas. Asumiendo varianzas iguales y distribuciones normales en los pesos de la
poblacin, Se puede afirmar con 5% de significacin que los pesos promedio son
iguales?
Solucin.
Sean
X1: Contenido de una lata de gaseosa CROC Aid (onzas) X1 ~ Normal( 1 , 2 )
X2: Contenido de una lata de gaseosa Energy Pro (onzas) X2 ~ Normal( 2 , 2 )
1. Planteo de hiptesis.
211
210
:H
:H
2. Nivel de significacin. 05.0
3. Prueba estadstica
)2(
21
2
21
_
2
_
1
21~
11
)()(
nn
p
c t
nnS
xxt
donde:
2nn
s)1n(s)1n(S
21
2
22
2
112
p
4. Supuestos. Poblaciones normales. Muestras tomadas al azar.
-
36
5. Regiones crticas. Criterios de decisin. La hiptesis alternante define la(s) zona(s) de rechazo.
reas
Criterios
Si -2.048 tc 2.048 No se rechaza H0 Si tc < -2.048 o tc > 2.048 Se rechaza
H0
6. Clculos
815.0
13
1
17
1976.8
)0()1.182.17(tc
7. Conclusiones. Con 5% de nivel de significacin la informacin muestral es insuficiente para
rechazar que los pesos promedios de los dos tipos de gaseosas son iguales.
Caso 2: Muestras independientes, varianzas poblacionales desconocidas y heterogneas
Hiptesis: Caso 1
Unilateral izquierda
Caso 2
Bilateral
Caso 3
Unilateral derecha
k 210 :H k 210 :H k 210 :H
k 211 :H k 211 :H k 211 :H
Estadstico de prueba:
2
2
2
1
2
1
21
n
S
n
S
kXXT
vt
con
11 2
2
2
2
2
1
2
1
2
1
2
2
2
2
1
2
1
n
n
S
n
n
S
n
S
n
S
v
donde:
1X : Es la media de la muestra 1.
0.025 0.025
t(28, 0.025) = 2.048 -2.048
0.95
-
37
2X : Es la media de la muestra 2. 2
1S : Es la varianza de la muestra 1. 2
2S : Es la varianza de la muestra 2.
n1 : Es el tamao de la muestra 1.
n2 : Es el tamao de la muestra 2.
k : Es el valor supuesto para la diferencia entre las medias poblacionales en
la hiptesis nula.
vt : Es la distribucin t de Student con v grados de libertad.
Si las poblaciones son finitas (de tamaos N1 y N2) y las fracciones de
muestreo n1/N1 y n2/N2 son mayores que 0.05, entonces se debe agregar el
factor de correccin para poblaciones finitas en el clculo del estadstico de
prueba con lo cual se obtiene:
1 2c
2 2
1 1 1 2 1 1
1 1 2 11 1
X X kT
S N n S N n
n N n N
vt
Regiones de rechazo de H0: Caso 1
Unilateral izquierda
Caso 2
Bilateral
Caso 3
Unilateral derecha
),(c vtt )2/,(c vtt ),(c vtt
donde es el nivel de significacin de la prueba, y ),( vt y )2/,( vt son los
cuantiles de la distribucin t de Student con v grados de libertad.
Ejemplo 8.6.- Diecisiete latas de CROC Aid presentan una media de 17.2 onzas, con una
desviacin estndar de 3.2 onzas, y 13 latas de Energy Pro producen una media de 18.1
onzas y s = 1.1 onzas. Asumiendo varianzas diferentes y distribuciones normales en los
pesos de la poblacin, Se puede afirmar con 5% de significacin que los pesos promedio
son iguales?
Solucin.
Sean X1: Contenido de una lata de gaseosa CROC Aid (onzas) X1 ~ Normal( 1 , 2 )
X2: Contenido de una lata de gaseosa Energy Pro (onzas) X2 ~ Normal( 2 , 2 )
1. Planteo de hiptesis.
211
210
:H
:H
2. Nivel de significacin. 05.0
-
38
3. Prueba estadstica
)(
2
2
2
1
2
1
21
_
2
_
1 ~)()(
vc t
n
S
n
S
xxt
donde
1n1n
n
S
n
S
v
2
2
n
S
1
2
n
S
2
2
2
2
1
2
1
2
22
1
21
4. Supuestos. Poblaciones normales. Muestras tomadas al azar.
5. Regiones crticas. Criterios de decisin. Antes de hallar las regiones se debe determinar el valor de v:
2166.20
113117
13
1.1
17
2.3
2
13
1.12
17
2.3
222
22
v
La hiptesis alternante define la(s) zona(s) de rechazo.
reas
Criterios
Si -2.080 tc 2.048 No se rechaza H0 Si tc < -2.080 o tc > 2.048 Se rechaza H0
6. Clculos
079.1
13
1.1
17
2.3
)0()1.182.17(
22
ct
7. Conclusiones. Con 5% de nivel de significacin la informacin muestral es insuficiente para
rechazar que los pesos promedios de los dos tipos de gaseosas son iguales.
3.8 Prueba de hiptesis para la diferencia de dos proporciones poblacionales (p1-p2).
Hiptesis: Caso 1
Unilateral izquierda
Caso 2
Bilateral
Caso 3
Unilateral derecha
0 1 2H : p p 0 1 2H : p p 0 1 2H : p p
1 1 2H : p p 1 1 2H : p p 1 1 2H : p p
0.025 0.025
t(21, 0.025) = 2.080 -2.088
0.95
-
39
Estadstico de prueba:
( ) (
)
( )
con
1 1 2 2
1 2
n P n PP
n n
donde:
1P : Es la proporcin de la muestra 1.
2P : Es la proporcin de la muestra 2.
n1: Es el tamao de la muestra 1.
n2: Es el tamao de la muestra 2.
N(0,1): Es la distribucin normal estndar.
Si las poblaciones son finitas (de tamaos N1 y N2) y las fracciones de
muestreo n1/N1 y n2/N2 son mayores que 0.05, entonces se debe agregar el
factor de correccin para poblaciones finitas en el clculo del estadstico de
prueba con lo cual se obtiene:
( ) (
)
( )
Regiones de rechazo de H0: Caso 1
Unilateral izquierda
Caso 2
Bilateral
Caso 3
Unilateral derecha
)(c zz )2/1(c zz )1(c zz
donde es el nivel de significacin de la prueba, y z(), z(1-/2) y z(1-) son los cuantiles de la distribucin normal estndar.
Ejemplo:
En una prueba de calidad de dos comerciales de televisin se pas cada uno en
un rea de prueba seis veces, durante un perodo de una semana. La semana
siguiente se llev a cabo una encuesta telefnica para identificar a quines
haban visto esos comerciales. A las personas que los vieron se les pidi
definieran el principal mensaje en ellos. Se obtuvieron los siguientes resultados:
Comercial Personas que lo
vieron
Personas que recordaron el
mensaje principal
A
B
150
200
63
60
-
40
Use = 0.05 para probar la hiptesis de que no hay diferencia en las proporciones que recuerdan los dos comerciales.
Solucin:
Sea p1: Proporcin de personas que recordaron el mensaje principal del
comercial A.
Sea p2: Proporcin de personas que recordaron el mensaje principal del
comercial B.
Hiptesis:
211
210
pp:H
pp:H
Nivel de significacin: 05.0
Estadstico de prueba:
( )(
) ( )
Supuestos: Muestras tomada al azar.
Muestras grandes.
Valores crticos y regiones de rechazo y no rechazo:
Criterios
Si -1.96 Zc 1.96 no se rechaza H0 Si Zc < -1.96 o Zc > 1.96 se rechaza
H0
Clculos:
63 60
150 200 2.3281 1
(0.351)(0.649)150 200
cZ
Conclusin: Existe suficiente evidencia estadstica, con un
nivel de significacin del 5% de que las
proporciones de recordacin son diferentes.
0.95
-1.96 1.96
0.025 0.025
-
41
Ejercicios
1. Debido al tiempo excesivo que demanda trasladarse hacia el sitio de trabajo, la oficina en donde usted trabaja en el centro de la ciudad est considerando espaciar
las horas de trabajo para sus empleados. El gerente considera que los empleados
demoran en promedio 50 minutos para llegar al trabajo. Para una muestra aleatoria
de setenta empleados, resulta que en promedio demoran 47,2 minutos con una
desviacin estndar de 18.9 minutos. Fije en 5% y pruebe la hiptesis.
2. Una escuela de negocios local afirma que sus estudiantes graduados obtienen trabajos mejor remunerados que el promedio nacional. Los salarios pagados a todos
los graduados de las escuelas de negocios en su primer trabajo mostraron una
media de 20 soles la hora. Una muestra aleatoria de 10 alumnos graduados del
ltimo ao de la mencionada escuela mostr los siguientes salarios por hora en su
primer trabajo:
16,50 ; 19,00 ; 22,00 ; 21,50 ; 21,00 ; 16,50 ; 17,00 ; 21,00 ; 21,50 ; 22,00
Como usted no cree en la afirmacin de dicha escuela, evale el salario de los
graduados de esta escuela de comercio con un nivel de significacin del 5%.
3. Una muestra aleatoria de 64 bolsas de palomitas de maz con queso pesan, en
promedio, 5,23 onzas con una desviacin estndar de 0,24 onzas. Pruebe la hiptesis
de que 5.5 onzas contra la hiptesis alternativa, 5.5 onzas en el nivel de
significancia de 0.05
4. Usando una muestra de nueve das durante los ltimos 9 meses, un dentista ha tenido las siguientes cantidades de pacientes: 22, 25, 20, 18, 15, 22, 24, 19 y 26. Si
la cantidad de pacientes atendidos por da tiene una distribucin normal,
a. con estos datos se rechazara la hiptesis de que el promedio de pacientes
atendido por da durante los ltimos seis meses no es superior a 22? Use un nivel
de significacin del 5%. Interprete el resultado.
b. con estos datos se rechazara la hiptesis de que la varianza en la cantidad de pacientes atendidos por da en los ltimos seis meses es igual a 10? Use un nivel
de significacin del 10%. Interprete el resultado.
5. En cierta universidad se estima que el 25% de los estudiantes van en bicicleta a la universidad. Esta parece ser una estimacin vlida si, en una muestra aleatoria de
90 estudiantes universitarios, se encuentra que 28 van en bicicleta a la universidad?
Utilice un nivel de significancia de 0,05.
6. Un investigador desea verificar si existe evidencia de una diferencia en la resistencia media entre dos tipos de material para embalaje. La descripcin de las lecturas en
pie-libra de la resistencia al impacto de los dos tipos de embalaje se muestra a
continuacin.
Caractersticas Embalaje A Embalaje B
Media 1,2367 0,9778
Varianza 0,0042 0,0024
Observaciones 9 9
-
42
a. Cul es la hiptesis planteada?, Es una hiptesis unilateral o bilateral? b. A partir de los datos obtenidos compruebe la hiptesis y concluya con 2% de
nivel de significacin. Asuma poblaciones normales.
7. Dos encuestas independientes sobre salarios, realizados en dos reas metropolitanas muy distintas entre si, revelaron la siguiente informacin con respecto a los sueldos
promedios de los operadores de equipo pesado.
rea A B
Media $6,50 / h. $7,00 / h.
Desviacin Estndar $4,50 /h. $ 2,00 / h.
Tamao de la muestra 15 24
Suponga que los datos provienen de poblaciones normales. Se puede concluir que
los sueldos promedios son diferentes con un %5
8. Una agencia de seguros local desea comparar los gastos medios ocasionados por daos en accidentes similares en dos modelos de automviles. Nueve ejemplares del
primer modelo y siete del segundo modelo son sometidos a una colisin controlada
obteniendo los siguientes gastos, en dlares, por daos sufridos:
Colisin 1 2 3 4 5 6 7 8 9
Modelo 1 345 310 305 345 355 375 320 310 305
Modelo 2 340 325 345 310 315 280 290
Si se supone que los gastos por daos en ambos modelos de automviles siguen una
distribucin normal, a un nivel de significacin del 5%:
a. Se puede afirmar que la variabilidad de los gastos por daos para cada modelo de auto son iguales?
b. Parece haber alguna diferencia en el gasto medio ocasionado por las colisiones de cada modelo de auto?
9. Un patrocinador de un programa especial de televisin afirma que el programa representa un atractivo mayor para los televidentes hombres que para las mujeres,
pero el personal de produccin del programa piensa que es igual el porcentaje de
televidentes hombres y mujeres que ven el programa especial. Si una muestra
aleatoria de 300 hombres y otra de 400 mujeres revel que 120 hombres y 120
mujeres estaban viendo el programa especial de televisin. Al nivel de significacin
del 5%, se podra decir que el patrocinador tiene la razn?
10. Se cree que la portada y la naturaleza de la primera pregunta de encuestas por correo influyen en la tasa de respuesta. El artculo The Impact of Cover Design and First Questions on Response Rates for a Mail Survey of Skydivers (Leisure Sciences, 1991, pp. 67-76) prob esta teora al experimentar con diferentes diseos de
portadas. Una portada era sencilla; la otra utiliz la figura de un paracaidista. Los
investigadores especularon que la tasa de devolucin sera menor para la portada
sencilla.
-
43
Portada Nmero enviado Nmero devuelto
Sencilla 207 104
Paracaidista 213 109
Apoya esta informacin la hiptesis de los investigadores? Pruebe las hiptesis
pertinentes usando un nivel de significacin del 5%.
11. El empleo de equipo de cmputo en las empresas est creciendo con una rapidez vertiginosa. Un estudio reciente, en la que participaron 15 empresas del sector
industrial, revel que 184 de 616 adultos trabajan utilizando con regularidad una
computadora personal, una microcomputadora, un terminal de computadora o un
procesador de texto en su trabajo. Se seleccion otra muestra de 450 adultos, de 10
empresas del sector salud, en la muestra se obtuvo que 105 adultos utilizan con
regularidad una computadora persona, una microcomputadora, un terminal de
computadora o un procesador de texto en su trabajo Existe diferencias
significativas entre los porcentajes de adultos, de las empresas del sector industria y
de salud, que utilizan algn equipo de cmputo en su trabajo? Use un nivel de
significacin del 5%.
-
44
Captulo 4
Prueba Chi Cuadrado
Una de las mayores utilidades de la distribucin Ji-Cuadrado est en que permite
comparar frecuencias observadas (frecuencias obtenidas en un experimento o
muestreo) con frecuencias esperadas segn un modelo supuesto (hiptesis nula).
Esta caracterstica de la distribucin Ji-cuadrado permite efectuar las siguientes
pruebas:
1. Prueba de independencia.
2. Prueba de homogeneidad de subpoblaciones.
3. Pruebas de bondad de ajuste a una distribucin de probabilidades.
La metodologa en cada uno de los tres casos es muy similar. La diferencia principal
est en la forma en que se calculan las frecuencias esperadas, ya que estas
dependern de la hiptesis nula en cuestin.
Prueba de Independencia.
Esta prueba permite evaluar si dos variables son independientes entre s. Suponga
que la primera variable permite clasificar a cada observacin en una de r categoras
y que la segunda variable permite clasificar a cada observacin en una de c
categoras. A la tabla que muestra ambas variables y las frecuencias observadas en
cada una de las rc categoras resultantes se le conoce como tabla de contingencia
rc.
Variable 2
Columna
1
Columna
2 . . .
Columna
c
Variable
1
Fila 1
Fila 2
.
.
.
Fila r
Esta prueba es especialmente til cuando se trata de analizar la independencia entre
dos variables en escala nominal. Cuando las variables estn en escala ordinal,
intervalo o razn, existen otros procedimientos ms adecuados, como por ejemplo
mediante el clculo de coeficientes de correlacin (en un captulo posterior se ver
el caso del coeficiente de correlacin de Pearson, til para analizar asociacin lineal
entre dos variables cuantitativas).
-
45
Ejemplo.
Para determinar si existe una relacin entre la calificacin de un empleado en el
programa de capacitacin y su rendimiento real en el trabajo, se tom una muestra
de 400 casos de los archivos y se obtuvo las frecuencias observadas que se presentan
en la siguiente tabla de contingencia 33.
Calificacin en el programa de
capacitacin Total
Debajo del
promedio Promedio
Sobre el
promedio
Rendimiento real en
el trabajo
(calificacin del
empleador)
Deficiente 23 60 29 112
Promedio 28 79 60 167
Muy bueno 9 49 63 121
Total 60 188 152 400
Con el nivel de significacin 0,01, La calificacin del rendimiento del trabajador
est asociada con la calificacin en el programa de capacitacin?
Solucin
Las variables que se muestran en la tabla son:
Variable 1: Calificacin del rendimiento real en el trabajo, con 3 categoras:
Deficiente, promedio y muy bueno.
Variable 2: Calificacin en el programa de entrenamiento, con 3 categoras: Debajo
del promedio, promedio o sobre el promedio.
La prueba de independencia compara las frecuencias observadas frente a las
frecuencias esperadas bajo el supuesto de que ambas variables sean independientes.
Para calcular las frecuencias esperadas se utiliza la siguiente frmula:
tablalla de Total
fila) la de(Totalxcolumna)lade(Totalesperada Frecuencia
La siguiente tabla muestra tanto las frecuencias observadas como las esperadas
(entre parntesis)
Calificacin en el programa de
capacitacin Total
Debajo del
promedio Promedio
Sobre el
promedio
Rendimiento real en
el trabajo
(calificacin del
empleador)
Deficiente 23 (16,80) 60 (52,64) 29 (42,56) 112
Promedio 28 (25,05) 79 (78,49) 60 (63,46) 167
Muy bueno 9 (18,15) 49 (56,87) 63 (45,98) 121
Total 60 188 152 400
-
46
Pasos para realizar la prueba de independencia
1) Formulacin de las hiptesis
H0: La calificacin del rendimiento real de un empleado en el trabajo es
independiente de la calificacin en el programa de capacitacin.
H1: La calificacin del rendimiento real de un empleado en el trabajo no es
independiente de la calificacin en el programa de capacitacin.
2) Fijacin del nivel de significacin: 0,01.
3) Estadstico de prueba
gl)1)(1(con~)( 2
1
2
2
c
crve
eok
i i
ii
4) reas y criterio de decisin.
Los grados de libertad para el estadstico Ji-cuadrado son (3-1)(3-1) = 4.
Criterio:
Si 2c > 13,277 se rechaza H0
Si 2c 13,277 no se rechaza H0.
5) Clculos previos
18,2098,45
)98,4563(...
05,25
)05,2528(
80,16
)80,1623( 2222c
6) Conclusin: Con nivel de significacin 0,01 se rechaza la hiptesis nula. Por lo
tanto hay evidencia estadstica suficiente para aceptar que la calificacin del
rendimiento real de un empleado en el trabajo depende de la calificacin en el
programa de entrenamiento.
Nota. (Correccin de Yates) Cuando la muestra es menor de 50, cuando algunas frecuencias esperadas son
menores que 5, o cuando el grado de libertad del estadstico de prueba es igual a 1,
es recomendable aplicar la correccin de Yates; con esta correccin, el estadstico
de prueba es el siguiente:
k
i i
iicrv
e
,eo
1
2
2
2
c gl)1)(1(con50
0,01
2 0,01
= 13,277
-
47
Salida de MINITAB:
Chi-Square Test: Debajo del promedio, Promedio, Sobre el promedio Expected counts are printed below observed counts
Chi-Square contributions are printed below expected counts
Debajo del Sobre el
promedio Promedio promedio Total
1 23 60 29 112
16.80 52.64 42.56
2.288 1.029 4.320
2 28 79 60 167
25.05 78.49 63.46
0.347 0.003 0.189
3 9 49 63 121
18.15 56.87 45.98
4.613 1.089 6.300
Total 60 188 152 400
Chi-Sq = 20.179, DF = 4, P-Value = 0.000
Prueba de Homogeneidad de Proporciones
Esta prueba permite analizar si la distribucin de probabilidades de una variable
categrica es la misma en r poblaciones.
Ejemplo.
Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura,
produjeron los resultados que se muestran en la siguiente tabla:
Material A Material B Material C Total
Desintegrados 41 27 22 90
Permanecieron intactos 79 53 78 210
Total 120 80 100 300
Use un nivel de significacin de 0,05 para probar si, en las condiciones establecidas,
la probabilidad de desintegracin es la misma para los tres tipos de materiales.
Pasos para realizar la prueba de homogeneidad de proporciones
1) Formulacin de las hiptesis
H0: p1 = p2 = p3, donde pi corresponde a la probabilidad de desintegracin con el
material i.
H1: No todas las proporciones son iguales.
2) Fijacin del nivel de significacin: 0,05.
-
48
3) Estadstico de prueba
gl)1)(1(con~)( 2
1
2
2
c
crve
eok
i i
ii
4) reas y criterios de decisin.
Los grados de libertad para el estadstico Ji-cuadrado son (2-1)(3-1) = 2.
Criterios:
Si 2c > 5,991 se rechaza H0
Si 2c 5,991 no se rechaza H0
5) Clculos previos
Material A Material B Material C Total
Desintegrados 41 (36) 27 (24) 22 (30) 90
Permanecieron intactos 79 (84) 53 (56) 78 (70) 210
Total 120 80 100 300
575,470
)7078(...
84
)8479(
36
)3641( 2222c
6) Con nivel de significacin de 0,05 no se rechaza la hiptesis nula; los datos son
insuficientes para rechazar que la probabilidad de desintegracin es la misma
para los tres tipos de materiales.
Salida de MINITAB:
Chi-Square Test: Material A, Material B, Material C Expected counts are printed below observed counts
Chi-Square contributions are printed below expected counts
Material A Material B Material C Total
1 41 27 22 90
36.00 24.00 30.00
0.694 0.375 2.133
2 79 53 78 210
84.00 56.00 70.00
0.298 0.161 0.914
Total 120 80 100 300
Chi-Sq = 4.575, DF = 2, P-Value = 0.101
0,05
2 0,05
= 5,991
-
49
Ejercicios
1) Un criminalista realiz una investigacin para determinar si la incidencia de ciertos tipos de crmenes varan de una parte a otra en una ciudad grande. Los crmenes
particulares de inters son asalto, robo, hurto y homicidio. La siguiente tabla
muestra el nmero de delitos cometidos en tres reas de la ciudad durante el ao
pasado:
Frecuencias observadas Frecuencias esperadas
Tipo de
delito
Distrito Tipo de
delito
Distrito
I II III I II III
Asalto 162 310 258 Asalto 171,1 348,9 210,0
Robo 118 196 193 Robo 118,9 242,3 145,8
Secuestro 451 996 458 Secuestro 446,6 910,5 547,9
Homicidio 18 25 10 Homicidio 12,4 25,3 15,2
Se puede concluir a partir de estos datos con un nivel de significacin de 0,01 que
la ocurrencia de estos tipos de crimen no es independiente del distrito de la ciudad?
2) De acuerdo con un estudio de la Universidad Johns Hopkins publicado en el American Journal of Public Health, las viudas viven ms que los viudos. Considere
los siguientes datos de sobrevivencia de 100 viudas y 100 viudos despus de la
muerte del cnyuge:
Aos vividos Viuda Viudo
Menos de 5
De 5 a 10
Ms de 10
25
42
33
39
40
21
Se puede concluir con un nivel de significacin de 0,05 que las proporciones de
viudas y viudos son iguales con respecto a los diferentes perodos que un cnyuge
sobrevive a la muerte de su compaero?
3) Un estudio de la relacin entre las condiciones de las instalaciones en gasolineras y la agresividad en el precio de la gasolina, reporta los siguientes datos basados en una
muestra de 441 gasolineras. Al nivel de significacin del 1%,