estadistica2

Upload: aldo-rodriguez

Post on 14-Oct-2015

280 views

Category:

Documents


8 download

TRANSCRIPT

  • 1

    Estudios Profesionales para Ejecutivos - EPE

    CURSO : Estadstica para Ingeniera 2 REA : Ciencias TIPO DE MATERIAL : Separata del curso

    AUTORES : Enit Huamn Cotrina

    Enver Tarazona

    COORDINADOR DEL : Enit Huamn Cotrina CURSO CICLO : 2013-1 VERSIN : 01

    Copyright : Universidad Peruana de Ciencias Aplicadas - UPC

  • 2

    Captulo 1

    Muestreo y distribuciones muestrales

    1.1 Introduccin

    En este captulo se indicara como usar el muestreo aleatorio simple para seleccionar una

    muestra a partir de una poblacin y como se pueden emplear los datos obtenidos para

    calcular las estimaciones puntuales para una media, variancia y proporcin

    poblacionales. Se describe el concepto de distribucin muestral, el teorema del lmite

    central y los diferentes mtodos de muestreo probabilsticos y no probabilsticos.

    1.2 Muestreo aleatorio simple

    Existen diferentes mtodos para seleccionar una muestra a partir de una poblacin; uno

    de los ms comunes es el muestreo aleatorio simple. La definicin de este mtodo y el

    proceso de seleccin de la muestra dependen de si la poblacin es finita o infinita.

    Muestreo para poblaciones finitas

    Una muestra aleatoria simple de tamao n de una poblacin finita de tamao N , es una

    muestra seleccionada de tal manera que cada muestra posible de tamao n tenga la

    misma probabilidad de ser seleccionada.

    Para seleccionar una muestra aleatoria simple de una poblacin finita es necesario

    enumerar los elementos de la poblacin. Los elementos se eligen usando nmeros

    aleatorios generados a partir de una tabla o computadora hasta completar el tamao de

    muestra requerido.

    Al elegir una muestra aleatoria simple es posible que se repitan algunos de los nmeros

    aleatorios generados. Si se decide elegir solamente una vez cada elemento en la

    muestra, todos los nmeros aleatorios ya utilizados no se vuelven a tomar en cuenta. La

    seleccin de la muestra en esta forma se conoce como muestreo sin reemplazo. Si se

    decide seleccionar los elementos de la muestra incluyndolos ms de una vez se

    realizara un muestreo con reemplazo. El muestreo con reemplazo es una forma vlida

    de identificar una muestra aleatoria simple. Sin embargo lo que se usa con mayor

    frecuencia es el muestreo sin reemplazo. Cuando se mencione muestreo aleatorio simple

    se asumir que el muestreo se hizo sin reemplazo.

  • 3

    Muestreo para poblaciones infinitas

    Si la poblacin es infinita no es posible usar un procedimiento de seleccin con

    nmeros aleatorios por que es imposible hacer una lista de sus elementos. En este caso

    se debe determinar un procedimiento de seleccin para seleccionar los elementos en

    forma independiente y evitar que algunos elementos tengan mayores probabilidades de

    ser elegidos.

    Una muestra aleatoria simple de una poblacin infinita es aquella que se selecciona de

    tal forma que se satisfacen las siguientes condiciones:

    Cada elemento seleccionado proviene de la misma poblacin.

    Cada elemento se selecciona en forma independiente.

    1.3 Estimacin puntual

    Para estimar el valor de un parmetro poblacional se utiliza una caracterstica

    correspondiente en la muestra que se denomina estadstico.

    Ejemplo 6.1: Los ingenieros A y B desean evaluar cierta marca de dispositivos electrnicos por lo que seleccionaron, de forma separada, muestras aleatorias simples de

    100 dispositivos electrnicos. La duracin (en horas) de los dispositivos seleccionados

    se muestra en la hoja Dispositivos.

    Suponga que los ingenieros desean estimar la duracin promedio de todos los

    dispositivos electrnicos de esta marca (media poblacional ), una medida de

    dispersin para la duracin de estos dispositivos (por ejemplo la variancia poblacional 2 ) y la proporcin de dispositivos electrnicos con una duracin menor a las 25 horas

    (proporcin poblacional p ). En este caso deben utilizar los estadsticos: x la media

    muestral, 2s la variancia muestral y p la proporcin muestral, respectivamente. Los

    resultados obtenidos por el ingeniero A son:

    Duracin A

    Media 39.7 Varianza de la muestra 73.1941414

    Proporcin 0.04

    Tamao de muestra 100

    Los valores numricos obtenidos para x , 2s y p se les llama estimaciones puntuales

    de los parmetros. Es de esperar que ninguna de las estimaciones puntuales sea

    exactamente igual al parmetro correspondiente. El valor absoluto de la diferencia entre

    una estimacin puntual insesgada y el parmetro poblacional correspondiente se llama

    error de muestreo.

  • 4

    Ejemplo 6.2: Para la media, varianza y proporcin muestral los errores de muestreo

    son x , 2 2s y p p , respectivamente.

    1.4 Introduccin a las distribuciones muestrales

    Ejemplo 6.3: Las estimaciones puntuales obtenidas por el ingeniero B son:

    Duracin B

    Media 37.05 Varianza de la muestra 62.085443

    Proporcin 0.075

    Tamao de muestra 100

    Estos resultados indican que se han obtenido diferentes valores para las estimaciones

    puntuales utilizando los datos obtenidos por el ingeniero B. Suponga que se lleva a cabo

    el mismo proceso de seleccin de una nueva muestra aleatoria simple de 100

    dispositivos electrnicos, una y otra vez, calculando en cada ocasin las estimaciones

    puntuales de la media, varianza y proporcin. De este modo se puede empezar a

    identificar la variedad de valores que pueden tener estas estimaciones.

    En el curso anterior se defini una variable aleatoria como una descripcin numrica del

    resultado de un experimento. Si se considera que un experimento es el proceso de elegir

    una muestra aleatoria simple, la media muestral x es la descripcin numrica del

    resultado del experimento. En consecuencia x es una variable aleatoria y por lo tanto

    tiene valor esperado, variancia y una distribucin de probabilidad. A la distribucin de

    x se le conoce como distribucin muestral de la media. El conocimiento de esta

    distribucin muestral y de sus propiedades permitir realizar afirmaciones

    probabilsticas acerca de lo cercano que se encuentre la media muestral de la media

    poblacional.

    1.5 Distribucin muestral de la media

    El objetivo de esta seccin es describir las propiedades de la distribucin muestral de la

    media incluyendo el valor esperado, desviacin estndar y la forma de su distribucin.

    Tal como se menciono, el conocimiento de la distribucin muestral de x permitir

    hacer afirmaciones probabilsticas acerca del error de muestreo incurrido cuando se

    utiliza x para estimar .

    Valor esperado:

    Desviacin estndar:

    Poblacin finita Poblacin infinita

    1

    N n

    Nn

    n

    El factor 1

    N n

    N

    se conoce como factor de correccin para poblacin finita.

  • 5

    Teorema central del lmite

    Cuando se desconoce la distribucin de la poblacin se utiliza uno de los teoremas ms

    importantes de la estadstica: el teorema del lmite central. La distribucin muestral del

    a media se puede aproximar mediante una distribucin de probabilidad normal siempre

    que el tamao de muestra sea grande. Se puede suponer que la condicin de muestra

    grande se cumple para muestras aleatorias simples de por lo menos 30 elementos. Sin

    embargo, si la poblacin tiene distribucin normal, la distribucin muestral de x tiene

    una distribucin de probabilidad normal para cualquier tamao de muestra.

    En resumen, si se utiliza una muestra aleatoria simple grande, 30n , el teorema del

    lmite central permite considerar que la distribucin muestral de x se puede aproximar

    con una distribucin de probabilidad normal. Cuando la muestra aleatoria simple es

    pequea, 30n , solo se puede considerar que la distribucin muestral de la media es normal si se supone que la poblacin tiene una distribucin de probabilidad normal.

    1.6 Distribucin muestral de la proporcin

    Para determinar lo cercano que esta la proporcin muestral p de la proporcin

    poblacional p es necesario comprender las propiedades de la distribucin muestral de

    la proporcin p , se valor esperado, desviacin estndar y la forma de su distribucin.

    Valor esperado: p

    Desviacin estndar:

    Poblacin finita Poblacin infinita

    11

    p p N n

    n N

    1p pn

    Como en el caso de x se observa que la diferencia entre las ecuaciones para

    poblaciones finitas e infinitas se hace despreciable si el tamao de la poblacin finita es

    grande con respecto al tamao de muestra por lo que se sigue la misma regla general

    mencionada para la media muestral en la seccin anterior.

    Para conocer la forma de la distribucin muestral de la proporcin se debe aplicar el

    teorema del lmite central para aproximar la distribucin muestral con una distribucin

    de probabilidad normal, siempre que el tamao de muestra sea grande. En el caso de p

    se puede considerar que el tamao de la muestra es grande cuando 50n .

    1.7 Otros mtodos de muestreo

    Se ha descrito el procedimiento para el muestreo aleatorio simple y las propiedades de

    las distribuciones muestrales de x y p cuando se usa ese muestreo. Sin embargo, el

    muestreo aleatorio simple no es el nico mtodo de muestreo con el que se cuenta.

    Existen otras alternativas que en algunos casos presentan ventajas sobre ste.

  • 6

    Muestreo aleatorio estratificado

    En este tipo de muestreo primero se divide a los elementos de la poblacin en grupos

    llamados estratos, de tal manera que cada elemento de la poblacin pertenece a uno y

    solo un estrato. La base de formacin de los estratos, por ejemplo, gnero, nivel socio

    econmico, grado de instruccin, etc., queda a discrecin de quien disea la muestra.

    Sin embargo los mejores resultados se obtienen cuando los elementos de cada estrato

    son tan semejantes como sea posible. Despus de formar los estratos se toma una

    muestra aleatoria simple de cada uno de ellos.

    Muestreo por conglomerados

    En este tipo de muestreo se divide primero a los elementos de la poblacin en conjuntos

    separados llamados conglomerados. Cada elemento de la poblacin pertenece a uno y

    solo a un grupo. A continuacin se toma una muestra aleatoria simple de los

    conglomerados. Todos los elementos dentro de cada conglomerado muestreado forma la

    muestra. El muestreo por conglomerados tiende a proporcionar los mejores resultados

    cuando sus elementos son heterogneos o diferentes. Una de las principales aplicaciones

    del muestreo por conglomerados es el muestre por reas, en el que los conglomerados

    son las manzanas de un distrito u otras reas bien definidas.

    Muestreo sistemtico

    En algunos casos, en especial cuando es hay grandes poblaciones, puede ser difcil la

    eleccin de una muestra aleatoria simple cuando se determina primero un nmero

    aleatorio y despus se busca en la lista de elementos de la poblacin hasta encontrar el

    elemento correspondiente. Una alternativa al muestreo aleatorio simple es el muestreo

    sistemtico.

    Suponga que se desea elegir una muestra de tamao 50 de una poblacin con 5000

    elementos, se podra muestrear un elemento de cada 5000 50 100 en la poblacin.

    Una muestra sistemtica en este caso implica seleccionar al azar uno de los primeros

    100 elementos de la lista de la poblacin. Se identifican los dems elementos de la

    muestra comenzando por el primero obtenido al azar y a continuacin seleccionando

    cada 100 elemento. Como que el primer elemento se seleccion de manera aleatoria,

    generalmente se asume que un muestreo sistemtico tiene las propiedades de una

    muestra aleatoria simple.

    Muestreo por conveniencia

    Los mtodos de muestreo que se han descrito se llaman tcnicas de muestreo

    probabilstico. Los elementos seleccionados de la poblacin tienen una probabilidad

    conocida de ser incluidos en la muestra. La ventaja del muestreo probabilstico es que la

    distribucin del estadstico se puede identificar. Se pueden usar frmulas para

    determinar las propiedades de la distribucin muestral que pueden ser usadas para

  • 7

    establecer afirmaciones probabilsticas acerca de posibles errores de muestreo asociados

    con los resultados de la muestra.

    El muestreo por conveniencia es una tcnica de muestreo no probabilstico. Como su

    nombre lo indica, la muestra se identifica principalmente por conveniencia. Se

    incorporan elementos en la muestra sin probabilidades preestablecidas o conocidas de

    seleccin. Un profesor que lleva a cabo una investigacin universitaria puede usar

    alumnos voluntarios para formar una muestra, tan solo porque dispone fcilmente de

    ellos y participan como elementos a un costo pequeo o nulo.

    Muestreo por juicio

    Otra tcnica de muestreo no probabilstico es el muestreo por juicio. En este mtodo la

    persona ms capaz en el tema del estudio selecciona a los elementos de la poblacin que

    se siente son los ms representativos de esa poblacin. Con frecuencia, este mtodo es

    una manera relativamente fcil de seleccionar una muestra. Un reportero puede

    muestrear a dos o tres congresistas si considera que ellos reflejan la opinin general de

    todos los dems congresistas. Sin embargo la calidad de los datos muestrales depende

    del juicio de la persona que eligi la muestra.

  • 8

    Captulo 2

    Estimacin por intervalos

    2.1 Introduccin

    Una estimacin por intervalo de un parmetro poblacional se construye al restar y

    sumar un valor, denominado margen de error, a una estimacin puntual. Todas las

    estimaciones por intervalo que se desarrollan en este captulo sern de la forma:

    Estimacin puntual Margen de error

    La inclusin del margen de error proporciona la informacin de precisin acerca de la

    estimacin. Las distribuciones muestrales de x y p que se presentaron en el captulo

    anterior son importantes en la obtencin de la estimacin respectiva por intervalo para

    la media y proporcin poblacionales.

    2.2 Error muestral

    En general, la diferencia en valor absoluto de entre un estimador puntual insesgado y el

    parmetro al cual estima se conoce como error de muestreo. Para el caso de la media

    muestral x que estima a y la proporcin muestral p que estima a p , los errores de

    muestreo se definen como:

    Error de muestreo = x

    Error de muestreo = p p

    En la prctica no se puede determinar el valor del error muestral por que no se conoce

    exactamente el valor del parmetro poblacional. Sin embargo, la distribucin de

    muestreo del estadstico se puede usar para hacer declaraciones de probabilidad acerca

    de este error.

    2.3 Nivel de confianza

    El nivel de confianza es la probabilidad a priori de que el intervalo a calcular contenga

    al verdadero valor del parmetro. Si un procedimiento de estimacin por intervalos es

    tal que en el 95% de los intervalos construidos se encuentra el parmetro poblacional, se

    dice que la estimacin por intervalo est determinada con un 95% de confianza. El nivel

    de confianza expresado como un valor decimal recibe el nombre de coeficiente de

    confianza.

  • 9

    2.4 Estimacin por intervalo de una media poblacional

    Caso 1: Variancia poblacional conocida

    El procedimiento para estimar por intervalo una media poblacional suponiendo que la

    poblacin tiene distribucin normal y que se conoce la variancia poblacional 2 es:

    Poblacin infinita

    1 2 1 2x z x zn n

    ( ) ( )

    Poblacin finita

    1 2 1 21 1

    N n N nx z x z

    N Nn n

    ( ) ( )

    donde x es la media muestral, 1 es el coeficiente de confianza, la desviacin

    estndar poblacional, n el tamao de muestra, N el tamao de la poblacin y 1 2z es

    el valor de distribucin normal estndar que deja una probabilidad acumulada de

    1 2 .

    Ejemplo 2.1: Un proceso de produccin es implementado de tal forma que el tiempo de produccin por artculo es una variable aleatoria con desviacin estndar 1.41

    minutos. Suponga que se decide hacer algunos cambios de modo que el tiempo medio

    de produccin disminuya; la variancia sin embargo, se sabe que permanecer constante.

    Hechos los cambios, se toma una muestra aleatoria de 20 artculos y se registran sus

    tiempos de produccin con los cuales se obtiene un tiempo medio muestral de 9.45

    minutos. Estime mediante un intervalo de confianza del 95% el tiempo medio de

    produccin por artculo.

    Se tiene: 1.41 , 40n , 9.45x y 1 0.95 .

    0.975 0.975x z x zn n

    1.41 1.419.45 1.96 9.45 1.96

    20 20

    8.83 10.07

  • 10

    El intervalo anterior brinda un 95% de confianza de contener el tiempo medio de

    produccin por artculo.

    Caso 2: Variancia poblacional desconocida

    Si no existe base suficiente para suponer que se conoce la desviacin estndar de la

    poblacin , se utiliza la desviacin estndar muestral s . En estas condiciones el procedimiento de estimacin por intervalo se basa en una distribucin de probabilidad

    conocida como distribucin t.

    La distribucin t es una familia de distribuciones de probabilidad que depende de un

    parmetro conocido como los grados de libertad. A medida que aumentan la cantidad

    de grados de libertad, la diferencia entre la distribucin t y la distribucin de

    probabilidad normal estndar se hace ms y ms pequea.

    El procedimiento para estimar por intervalo una media poblacional suponiendo que la

    poblacin tiene distribucin normal y que se conoce la variancia poblacional 2 es:

    Poblacin infinita

    1, 2 1, 2n n

    s sx t x t

    n n

    ( ) ( )

    Poblacin finita

    1, 2 1, 21 1

    n n

    s N n s N nx t x t

    N Nn n

    ( ) ( )

    donde x es la media muestral, 1 es el coeficiente de confianza, s la desviacin

    estndar muestral, n el tamao de muestra, N el tamao de la poblacin y 1, 2nt es el

    valor de la distribucin t con 1n grados de libertad que deja una probabilidad de 2

    hacia la derecha.

    Ejemplo 2.2: Cuando funciona correctamente, un proceso produce frascos de champ

    cuyo contenido promedio es 200 gramos. Los datos en la hoja Champ corresponden al

    contenido, en gramos, de una muestra aleatoria de 9 frascos seleccionadas a partir de un

    lote. Asumiendo que la distribucin del contenido de los frascos de champ tiene

    distribucin normal calcule un intervalo de confianza del 98% para el contenido medio

    de champ por frasco.

  • 11

    Se tiene: 9n y 1 0.98 . Con los datos de la muestra: 203.56x y 6.1260s .

    8,0.01 8,0.01

    s sx t x t

    n n

    6.1260 6.1260203.56 2.896 203.56 2.896

    9 9

    197.64 209.47

    El intervalo anterior brinda un 98% de confianza para el contenido medio de champ

    por frasco. El intervalo de confianza para una media poblacional tambin se puede

    obtener directamente con Excel y Minitab.

    Contenido

    Media 203.555556

    Nivel de confianza (98.0%) 5.91456245

    Lmite Inferior 197.640993

    Lmite Superior 209.470118

    T de una muestra: Contenido Media del

    Error

    Variable N Media Desv.Est. estndar IC de 98%

    Contenido 9 203.56 6.13 2.04 (197.64, 209.47)

    Determinacin del tamao de la muestra

    Si se ha seleccionado un margen de error deseado antes de realizar el proceso de

    muestreo, se pueden aplicar los procedimientos de esta seccin para determinar el

    tamao de muestra necesario. Sea E el error mximo de muestreo, es decir

    1 2E z

    n

    Despejando n se obtiene la siguiente frmula para el tamao de muestra:

    2 2

    1 2

    2E

    zn

    En la ecuacin anterior el valor de E es el margen de error que el usuario est dispuesto

    a aceptar y el valor de 1 2z se obtiene del nivel de confianza usado para construir el

    intervalo. Aunque se debe tomar en cuenta la preferencia del usuario, lo que se elige con

    mayor frecuencia es un 95% de confianza.

  • 12

    Por ltimo, para aplicar la frmula del tamao de muestra se requiere conocer el valor

    de la desviacin estndar poblacional, lo que en la mayora de casos no se cumple. Sin

    embargo, podemos aplicar dicha frmula si contamos con un valor preliminar o valor de

    planeacin de . En la prctica se puede optar por uno de los siguientes procedimientos:

    Usar la desviacin estndar calculada en una muestra elegida anteriormente de la

    misma poblacin.

    Llevar a cabo un estudio piloto para seleccionar una muestra preliminar de

    elementos. La desviacin estndar muestral de ella se puede usar como el valor de

    planeacin de . Dividir el rango muestral entre cuatro y usar el resultado como una aproximacin

    de la desviacin estndar poblacional.

    Ejemplo 2.3: Un fabricante produce anillos para los pistones de un motor de automvil. Se sabe que el dimetro de estos anillos tiene distribucin aproximadamente

    normal con una desviacin estndar igual a 0.01 mm. Suponga que se desea realizar una

    estimacin del dimetro promedio de los anillos producidos al 98% de confianza y con

    un margen de error de 0.005 mm. Qu tamao de muestra se requiere para cumplir con

    las condiciones anteriores?

    222 2

    0.99

    2 2

    2.33 0.0121.7156 22

    E 0.005

    zn

    anillos

    2.5 Estimacin por intervalo de una proporcin poblacional

    El empleo de la distribucin normal como aproximacin de la distribucin muestral de

    p se basa en la condicin de muestras grandes. Se usar la distribucin muestral de p

    para hacer aseveraciones probabilsticas acerca del error muestral siempre que se use

    esta proporcin muestral para estimar la proporcin poblacional. El intervalo de

    confianza para una proporcin poblacional es:

    1 2 1 2

    1 1

    p p p pp z p p z

    n n

    ( ) ( ) ( )

    donde p es la proporcin muestral, 1 es el coeficiente de confianza, n el tamao

    de muestra y 1 2z es el valor de distribucin normal estndar que deja una

    probabilidad acumulada de 1 2 .

  • 13

    Ejemplo 2.4: Las compaas de seguros automovilsticos estn analizando la posibilidad de aumentar las tarifas para las personas de gnero masculino que usan

    telfonos mientras conducen. Una compaa especializada asegura que los conductores

    de sexo masculino tienen esta actitud en mayor proporcin que los conductores de sexo

    femenino. Una muestra aleatoria de 350 conductores hombres permiti observar que 70

    hombres usaban telfonos mientras conducan. Con un nivel de confianza del 99%,

    Qu puede afirmarse sobre la proporcin de hombres que usan telfonos mientras

    conducen?

    Se tiene: 350n , 70

    0.2350

    p y 1 0.99 .

    n

    ppZpp

    n

    ppZp

    1

    1 995,0995,0

    0.2 1 0.2 0.2 1 0.20.2 2.575 0.2 2.575

    350 350p

    0.145 0.255p

    El intervalo anterior brinda un 99% de confianza de contener la proporcin de hombres

    que usan telfonos mientras conducen. El intervalo de confianza para una proporcin

    poblacional tambin se puede obtener directamente con Minitab.

    Prueba e IC para una proporcin Muestra X N Muestra p IC de 99%

    1 70 350 0.200000 (0.144926, 0.255074)

    Uso de la aproximacin normal.

    Determinacin del tamao de la muestra

    Para determinar el tamao de muestra necesario para obtener una estimacin de una

    proporcin poblacional con determinado margen de error o nivel de precisin. Los

    argumentos usados son muy parecidos a los utilizados en la determinacin del tamao

    de muestra con el cual se estima una media poblacional. Sea E el margen de error

    deseado, es decir

    1 2

    1E

    p pz

    n

    Despejando n se obtiene la siguiente frmula para el tamao de muestra:

    21 22

    1

    E

    z p pn

  • 14

    En esta ecuacin el usuario debe especificar el margen de error deseado E y el nivel de

    confianza. Como se desconoce la proporcin poblacional, la frmula requiere de un

    valor de plantacin para p . En la prctica este valor se puede elegir mediante uno de

    los siguientes procedimientos:

    Usar la proporcin calculada en una muestra elegida anteriormente de la misma

    poblacin.

    Llevar a cabo un estudio piloto para seleccionar una muestra preliminar de

    elementos. La proporcin muestral de ella se puede usar como el valor de

    planeacin para p .

    Usar el juicio para elegir el mejor valor de p .

    Si no se aplica ninguna de las alternativas anteriores, usar 0.5p .

    Ejemplo 2.5: Uno de los resultados de un sondeo de opinin indica que el 35% de limeos est de acuerdo con que se firme el TLC con Estados Unidos de Norteamrica.

    Suponga que se decide realizar un nuevo sondeo cuyos resultados tenga un margen de

    error mximo del 3% y que el nivel de confianza sea del 92%. De qu tamao deber

    ser la muestra de la investigacin para que cumpla con las condiciones planteadas?

    2 20.962 2

    1 1.7507 0.35 0.65774.75 775

    E 0.03

    z p pn

    limeos.

    2.6 Estimacin por intervalo de una variancia poblacional

    En muchas situaciones reales, como el control de calidad en procesos de produccin, se

    necesita estimar el valor de la variancia o desviacin estndar poblacional. El

    procedimiento para realizar la estimacin por intervalo, suponiendo que la poblacin

    tiene distribucin normal, es:

    Variancia poblacional

    2 222 2

    1; 2 1;1 2

    1 1

    n n

    n s n s

    Desviacin estndar poblacional

    2 22 2

    1; 2 1;1 2

    1 1

    n n

    n s n s

    donde n es el tamao de muestra, 2s la variancia poblacional, s la desviacin estndar

    poblacional, 1 es el coeficiente de confianza, 2 1; 2n y 2

    1;1 2n son los valores de

    la distribucin Chi-cuadrado con 1n grados de libertad que dejan una probabilidad

    hacia la derecha de 2 y 1 2 respectivamente.

    Ejemplo 2.6: Suponga que en el Ejemplo 7.2 se desea obtener un intervalo para la desviacin estndar del contenido de los frascos de champ al 98% de confianza.

    Entonces:

  • 15

    2 22 2

    8;0.01 8;0.99

    1 1n s n s

    2 29 1 6.1260 9 1 6.126020.0902 1.6465

    3.8657 13.5033

    El intervalo anterior brinda un 98% de confianza de contener para la desviacin

    estndar del contenido de los frascos de champ. El intervalo de confianza para una

    desviacin estndar poblacional tambin se puede obtener directamente con Minitab.

    Prueba e IC para una desviacin estndar: Contenido Mtodo

    El mtodo estndar se utiliza slo para la distribucin normal.

    El mtodo ajustado se utiliza para cualquier distribucin continua.

    Estadsticas

    Variable N Desv.Est. Varianza

    Contenido 9 6.13 37.5

    Intervalos de confianza de 98%

    IC para IC para

    Variable Mtodo Desv.Est. varianza

    Contenido Estndar (3.87, 13.50) (14.9, 182.3)

    Ajustado (4.26, 10.52) (18.2, 110.7)

    2.7 Intervalo de confianza para el cociente de varianzas poblacionales

    2

    2

    2

    1 /

    Si S21 y S

    22 son las varianzas de muestras independientes de tamao n1 y n2 de

    poblaciones normales respectivamente, entonces un intervalo de confianza para 2

    2

    2

    1 / con un nivel de confianza del ( 1 ) 100%:

    )2/,1,1(2

    2

    2

    1

    2

    2

    2

    1

    )2/,1,1(

    2

    2

    2

    1

    12

    211

    .1

    .

    nnnn

    FS

    S

    FS

    S

    Ejemplo:

    Una compaa tiene una poltica singular relativa a los bonos de fin de ao

    destinados al personal gerencial de bajo rango (los bonos son expresados como

    un porcentaje del salario anual). El director de personal considera que el sexo del

    empleado influye en los bonos recibidos, para esto toma muestras de 16 mujeres

    y 25 hombres que desempean cargos gerenciales y registra los porcentajes del

    salario anual percibido obtenindose los datos siguientes:

  • 16

    Mujeres Hombres

    9,8 11,9 9,0 6,9 10,4 9,6 12,0 8,9 9,8

    8,0 6,7 9,3 8,7 9,7 10,4 7,9 12,0 10,1

    8,4 7,7 9,0 7,6 8,7 11,2 9,7 9,4 9,4

    7,7 6,2 8,4 9,2 9,3 8,8 9,0 10,0 9,2

    8,9 10,2 8,7 9,2 9,0

    Calcule un intervalo de confianza del 95% para la razn de varianzas de los

    porcentajes de salario anual de las mujeres y los hombres.

    Solucin:

    Calculamos los estadsticos:

    Mujeres Hombres

    x 8,4063 9,660 F(15, 24, 0.025) = 2.4374

    s 1,3718 0,9883 F(24, 15, 0.025) = 2.7007

    n 16 25

    Reemplazando los valores en la frmula:

    )7007.2()9883.0(

    )3718.1(

    4374,2

    1

    )9883.0(

    )3718.1(2

    2

    2

    2

    2

    1

    2

    2

    2

    1

    2

    2

    0.7905 5.2033

    Interpretacin: Con 95% de confianza, de 0,7905 a 5,2033 se encontrar el

    cociente de las varianzas de los porcentajes de salario anual de las mujeres y

    los hombres.

    2.8 Intervalo de confianza para diferencia de medias poblacionales (1-2) con muestras

    independientes

    Sean 1 2x y x las medias de muestras aleatorias independientes de tamaos n1 y

    n2 tomadas de poblaciones con varianzas poblacionales conocidas. Cuando las

    muestras son grandes las poblaciones son normales, un intervalo de confianza

    para la diferencia de medias poblacionales (1 - 2) puede ser calculado segn cada uno de los siguientes casos:

    Caso 1: Cuando las muestras provienen de poblaciones Normales y

    las varianzas poblacionales 21 y 2

    2 son conocidas

    Si 21 xyx son las medias de muestras aleatorias independientes de tamao n1 y

    n2 de poblaciones con varianzas conocidas 2

    1 y 2

    2 , respectivamente, un

    intervalo de confianza de ( 1 ). 100% para 21 est dado por:

  • 17

    2

    2

    2

    1

    2

    12/12121

    2

    2

    2

    1

    2

    12/121

    nnzxx

    nnzxx

    Si el muestreo es sin reemplazo y las poblaciones finitas de tamaos N1 y N2, el

    intervalo de confianza ser:

    11)(

    2

    22

    2

    2

    2

    1

    11

    1

    2

    12/12121

    N

    nN

    nN

    nN

    nzxxIC

    Ejemplo: Para comparar dos mtodos de ventas, se aplicaron a 200 vendedores elegidos al azar el

    mtodo tradicional y a otra muestra de 250 vendedores el mtodo nuevo resultando las

    calificaciones promedio respectiva de 13 y 15 (cientos de soles). Suponga que las

    varianzas poblacionales respectivas son 9 y 16 (cientos de soles2). Halle un intervalo de

    confianza del 95% para la diferencia de las medias.

    Solucin:

    La estimacin puntual de 21 es 2151321 xx . Con 0,05 se encuentra el

    valor z, que deja un rea de 0,025 a la derecha y por lo tanto un rea de 0,975 a la

    izquierda, es 96,1975,0

    z . De aqu que el intervalo de confianza del 96% es:

    250

    16

    200

    996,12

    250

    16

    200

    996,12

    21

    efectuando las operaciones indicadas se tiene: 3529,16471,2 21

    Interpretacin:

    Con 95% de confianza entre -2,6 y -1,4 se encontrar la diferencia de niveles medios de ventas obtenidos con los mtodos evaluados.

    Caso 2: Cuando las muestras provienen de poblaciones Normales,

    las varianzas poblacionales 21 y 2

    2 son desconocidas

    Caso 2.1 Pero Iguales ( 21 = 2

    2 )

    Si 21 xyx son las medias de muestras aleatorias independientes de tamao n1

    y n2 respectivamente, de poblaciones aproximadamente normales con varianzas

    iguales pero desconocidas, un intervalo de confianza de (1 ).100% para

    21 est dado por:

    21

    2

    2/,22121

    21

    2

    2/,221

    11112121 nn

    Stxxnn

    Stxx pnnpnn

    21

    2

    2/,22121

    11)(

    21 nnStxxIC pnn

    donde : 2nn

    S)1n(S)1n(S

    21

    2

    22

    2

    112

    p

    donde 2/,221 nnt con (n1 + n2 2) grados de libertad, deja un rea de /2 a la

    derecha.

  • 18

    Si el muestreo es sin reemplazo y las poblaciones finitas de tamaos N1 y N2, el

    intervalo de confianza ser:

    1

    1

    1

    1)(

    2

    22

    21

    11

    1

    2

    2/,22121 21 N

    nN

    nN

    nN

    nStxxIC pnn

    Ejemplo:

    Los siguientes datos, registrados en minutos, representan el tiempo de atencin por

    ventanilla de dos terminalistas:

    Terminalista 1 Terminalista 2

    5,1

    17

    14

    2

    1

    1

    1

    s

    x

    n

    8,1

    19

    16

    2

    2

    2

    2

    s

    x

    n

    Encuentre un intervalo de confianza de 99% para la diferencia 21 del

    tiempo promedio de atencin para los dos terminalistas, suponga poblaciones

    normales con varianzas iguales.

    Solucin:

    La estimacin puntual de 21 es 2191721 xx .

    La estimacin de la varianza comn, S2

    p, es

    6607,121614

    )8,1)(116()5,1)(114(2

    pS

    Al tomar la raz cuadrada obtenemos Sp = 1,2887. Con el uso de 01,0 , encontramos

    que t(28,0.005) =2,763 para v = 14 + 16 - 2 = 28 grados de libertad, y por lo tanto el

    intervalo de confianza del 99% es:

    16

    1

    14

    1)2887,1(763,22

    16

    1

    14

    1)2887,1(763,22 12

    efectuando las operaciones indicadas se tiene: 6969,03031,3 12

    Interpretacin:

    Con 99% de confianza entre -3.3 y -0,7 minutos se encontrar la diferencia de tiempos promedios de atencin para los dos terminalistas.

    Caso 2.2 Pero Diferentes ( 21 2

    2 )

    Si 2222

    11 Syxy,Syx son las medias y varianzas de muestras pequeas e

    independientes de distribuciones aproximadamente normales con varianzas

    desconocidas y diferentes, un intervalo de confianza de (1 ).100% para

    21 est dado por:

    2 2 2 2

    1 2 1 21 2 1 21 2, / 2 , 2

    1 2 1 2

    v v

    S S S Sx x t x x t

    n n n n

  • 19

    ( ) ( ) ( )

    Donde )2/,( vt es el valor t con

    11 2

    2

    1

    2

    2

    2

    2

    2

    1

    2

    1

    2

    22

    1

    21

    nn

    n

    S

    n

    S

    v

    n

    S

    n

    S

    grados de libertad, que

    deja un rea de / 2 a la derecha. v es un valor entero por redondeo simple.

    Si el muestreo es sin reemplazo y las poblaciones finitas de tamaos N1 y N2, el

    intervalo de confianza ser:

    11)(

    2

    22

    2

    2

    2

    1

    11

    1

    2

    12/,2121

    N

    nN

    n

    S

    N

    nN

    n

    StxxIC v

    Ejemplo: El gerente de una compaa de taxis trata de decidir si comprar neumticos de la marca

    A o de la B para su flotilla de taxis. Se lleva a cabo un experimento utilizando 12 de

    cada marca. Los neumticos se utilizaron hasta que se gastan. Los resultados son:

    Marca A

    kilomtros0005s

    kilmetros30036x

    2

    1

    1

    Marca B

    kilomtros1006s

    kilmetros10038x

    2

    2

    2

    Calcule un intervalo de confianza de confianza de 90% para la diferencia de

    rendimiento promedio de ambas marcas de neumticos. Suponga que la diferencia de

    kilmetros de rendimiento se distribuyen de forma aproximadamente normal con

    varianzas distintas.

    Solucin:

    Representamos con 21 y las medias poblacionales, respectivamente, para los

    tiempos promedios de duracin de los neumticos que producen las compaa A y B.

    La estimacin puntual de 21 es 80011003830036xx 21 .

    Como las varianzas son desconocidas y diferentes, debemos encontrar un intervalo de

    confianza de 90% aproximado basado en la distribucin t con v grados de libertad,

    donde

    2279.21

    112112

    12

    6100

    12

    5000

    v2

    12

    61002

    12

    5000

    2

    Con el uso de 10.0 , encontramos que t(22,0.05) = 1.717 para v = 22 grados de libertad, y por lo tanto el intervalo de confianza del 90% es:

  • 20

    12

    6100

    12

    5000717.11800

    12

    6100

    12

    5000717.11800 21

    efectuando las operaciones indicadas se tiene: 8.17472.1852 21

    Interpretacin:

    Con 90% de confianza entre -1852 y -1748 das se encontrar la diferencia de rendimiento promedio de ambas marcas de neumticos.

    2.9 Intervalo de confianza para la diferencia de proporciones poblacionales (p1-p2)

    Si 21 pyp son las proporciones de xitos en muestras aleatorias de tamao n1 y

    n2, respectivamente, un intervalo de confianza aproximado de ( 1 ) . 100% para la diferencia de proporciones poblacionales p1 p2, est dado por:

    2

    22

    1

    11

    2/12121

    2

    22

    1

    11

    2/121

    )1.()1.(

    )1.()1.(

    n

    pp

    n

    ppzpppp

    n

    pp

    n

    ppzpp

    2

    22

    1

    11

    2/12121

    )1.()1.()(

    n

    pp

    n

    ppzppppIC

    Si el muestreo es sin reemplazo y las poblaciones finitas de tamaos N1 y N2, el

    intervalo de confianza ser:

    1

    )1.(

    1

    )1.()(

    2

    22

    2

    22

    1

    11

    1

    11

    2/12121N

    nN

    n

    pp

    N

    nN

    n

    ppzppppIC

    Dado que la distribucion muestral de la diferencia de proporciones no es Normal

    para aproximarla a dicha distribucion se requiere tamaos de muestras grandes

    (n1>50 y n2>50)

    Ejemplo:

    Una empresa realiza un estudio para determinar si el ausentismo de los

    trabajadores en el turno de da es diferente al de los trabajadores en el turno

    nocturno. Se realiza una comparacin de 100 trabajadores de cada turno. Los

    resultados muestran que 27 trabajadores diurnos han faltado por lo menos cinco

    veces durante el ao anterior, mientras que 49 trabajadores nocturnos han faltado

    por lo menos cinco veces. Halle un intervalo del 98% de confianza, para la

    diferencia de proporciones de trabajadores de los turnos que faltaron cinco veces

    o ms al ao.

  • 21

    Solucin:

    p1: proporcin de trabajadores diurnos que han faltado por lo menos cinco veces

    durante el ao anterior

    p2: proporcin de trabajadores nocturnos que han faltado por lo menos cinco

    veces durante el ao anterior

    27,01 p 49,0 2 p Z0.99 = 2,33

    100

    )51.0(49.0

    100

    )73.0(27.033.249.027.0)( 21 ppIC

    0642.03758.0 21 pp

    Interpretacin: Con 95% de confianza, de -0.3758 a -0.0642 se encontrar la

    diferencia de proporcin de trabajadores que faltaron por lo menos cinco veces

    durante el ao anterior de ambos turnos de trabajo. En el turno nocturno

    faltaron ms.

    Ejercicios

    1. Un ingeniero realiza el control de calidad del proceso de envasado de un producto, Por resultados obtenidos de estudios anteriores, se puede considerar que el

    contenido del volumen de llenado en el envase tiene aproximadamente una

    distribucin normal Los contenidos de una muestra aleatoria de 10 envases del

    producto de 500 ml, se muestran en la hoja Proceso,

    a. Uno de los criterios para decidir si el proceso de envasado est bajo control indica el contenido promedio debe ser precisamente 500 ml, Con un nivel de

    confianza del 90%, se podra decir que el proceso de envasado est bajo

    control?

    b. Un segundo criterio para indicar que el proceso se encuentra bajo control es verificar que la desviacin estndar no sea mayor de 10 ml, Calcule el intervalo

    de confianza del 95% para la desviacin estndar del contenido de los envases,

    Si el ingeniero a afirmado que la variabilidad del proceso est bajo control, qu

    se podra concluir al contrastar la afirmacin del ingeniero con el intervalo de

    confianza?

    2. Una muestra de los sueldos de 61 profesionales en ejercicio que viven en Enigma City dio como promedio y desviacin estndar 3465 y 124 nuevos soles

    respectivamente, Enigma City es un poblado pequeo y cuenta actualmente con

    8740 profesionales en ejercicio, Con un nivel de confianza del 90%:

    a. Calcule e intrprete un intervalo de confianza para el sueldo promedio de los profesionales en ejercicio de Enigma City,

    b. Calcule e intrprete un intervalo de confianza para la desviacin estndar de los sueldos de los profesionales en ejercicio de Enigma City,

  • 22

    3. Un fabricante de reproductores de discos compactos utiliza un conjunto de pruebas para evaluar la funcin elctrica de su producto, Todos los reproductores de discos

    compactos deben pasar todas las pruebas antes de venderse, Una muestra aleatoria

    de 500 reproductores tiene como resultado 15 que fallan en una o ms pruebas,

    Encuentre un intervalo de confianza de 90% para la proporcin de los reproductores

    de discos compactos de la poblacin que fallan en una o ms pruebas,

    4. Una empresa investigadora de mercados desea determinar la preferencia del electorado hacia cierto candidato a la alcalda durante el mes de septiembre, Para

    esto selecciona una muestra de 500 electores del distrito de los cuales 300 dijeron

    votar por el mencionado candidato,

    a. Segn la empresa, la proporcin de electores en el mes de septiembre a favor del candidato se encuentra en el intervalo [0,5571 , 0,6429], Cul es el nivel de

    confianza usado?

    b. Cul es el tamao de muestra a utilizar si se desea estimar esta misma proporcin durante el mes de octubre usando un nivel de confianza del 98% y un

    error de estimacin no mayor del 5%?

    5. Un ingeniero de control de calidad quiere estimar la proporcin de elementos defectuosos en un lote de lmparas, Cul es el tamao de la muestra si se quiere

    estimar la proporcin real, con un margen de error del 1%, utilizando un nivel de

    confianza de 95%?

    6. El departamento de control de calidad de una empresa inform a la gerencia que en un primer estudio realizado al proceso de fabricacin de un componente para

    telfonos celulares de 900 componentes inspeccionados, se haba estimado que el

    porcentaje de productos no adecuados a la norma de calidad era de 11% 3,1%, Sin embargo, en el informe presentado no se precis el nivel de confianza respectivo,

    a. Calcule el nivel de confianza utilizado en el primer estudio realizado por el departamento de control de calidad,

    b. Si se considera que el nivel de confianza utilizado en este primer estudio es adecuado pero que para realizar un segundo estudio el error no debe superar el

    2,1%, Cuntos productos deben ser inspeccionados?,

  • 23

    Captulo 3

    Prueba de hiptesis.

    3.1 Introduccin

    La prueba de hiptesis involucra una suposicin elaborada sobre algn parmetro de la

    poblacin. A partir de la informacin proporcionada por la muestra, se verificar la

    suposicin sobre el parmetro estudiado. La hiptesis que se contrasta se llama hiptesis

    nula (Ho).

    Partiendo de los resultados obtenidos de la muestra, o bien rechazamos la hiptesis nula

    a favor de la hiptesis alterna, o bien no rechazamos la hiptesis nula y suponemos que

    nuestra estimacin inicial del parmetro poblacional podra ser correcto.

    El hecho de no rechazar la hiptesis nula no implica que sta sea cierta. Significa

    simplemente que los datos de la muestra son insuficientes para inducir un rechazo de la

    hiptesis nula.

    3.2 Conceptos generales

    La hiptesis que se contrasta es rechazada o no en funcin de la informacin muestral.

    La hiptesis alternativa se especifica como opcin posible si se rechaza la nula.

    Tipos de errores

    Informacin muestral

    Aceptar H0 Rechazar H0

    La

    realidad

    H0 es cierta No hay error Error I

    H0 es falsa Error II No hay error

    Error Tipo I

    Ocurre cuando se rechaza una hiptesis H0 que es verdadera. La probabilidad de error

    tipo I viene a ser la probabilidad de rechazar H0 cuando sta es cierta.

    )IError(P

    El valor (nivel de significacin) es fijado por la persona que realiza la investigacin (por lo general vara entre 1% -10%)

  • 24

    Error Tipo II

    Ocurre cuando se acepta una hiptesis H0 que es falsa, la probabilidad de error tipo II es

    la probabilidad de aceptar H0 cuando sta es falsa.

    )IIError(P

    Debido a que el valor real del parmetro es desconocido este error no puede ser fijado.

    Potencia de prueba o Poder de Prueba

    Es la probabilidad de rechazar una hiptesis planteada cuando esta es falsa.

    1pruebadePotencia

    Pasos a seguir en una Prueba de Hiptesis

    Paso 1: Planteo de hiptesis.

    Paso 2: Nivel de significacin.

    Paso 3: Prueba estadstica.

    Paso 4: Suposiciones.

    Paso 5: Regiones crticas. Criterios de decisin.

    Paso 6: Realizacin de la prueba.

    Paso 7: Resultados y conclusiones.

    Procedimiento general en una Prueba de Hiptesis

    Sea el parmetro que representa: )/,pp,,p,,(2

    2

    2

    2121

    21

    1. Planteo de las hiptesis.

    01

    00

    01

    00

    01

    00

    :

    :

    :

    :

    :

    :

    H

    H

    H

    H

    H

    H

    2. Fijar el nivel de significacin

    3. Pruebas estadsticas

    4. Supuestos

    )F,( positiva asimtrica nDistribuci

    t) (Z, simtrica nDistribuciE

    2

  • 25

    a) Supuestos para: )/,,,( 222

    21

    21

    Poblacin(es) normalmente distribuida(s).

    Muestra(s) tomada(s) al azar.

    b) Supuestos para: 21 pp,p

    Muestra(s) tomada(s) al azar.

    Muestra(s) grande(s)

    5. Regiones crticas

    6. Estadstico de prueba.

    7. Resultados y conclusiones.

    3.3 Prueba de hiptesis para una media poblacional

    ()

    Caso 1: Cuando muestra proviene de una poblacin Normal y la

    varianza poblacional (2) es conocida

    Hiptesis: Caso 1

    Unilateral izquierda

    Caso 2

    Bilateral

    Caso 3

    Unilateral derecha

    00 :H 00 :H 00 :H

    01 :H 01 :H 01 :H

    Estadstico de prueba:

    n

    XZ

    /

    0

    Normal(0,1)

    donde:

    X : Es la media muestral.

    0 : Es el valor supuesto de la media poblacional en la hiptesis nula. : Es la desviacin estndar de la poblacin. n: Es el tamao de la muestra.

    N(0,1): Es la distribucin normal estndar.

    Si la poblacin es finita (de tamao N) y la fraccin de muestreo n/N es

    mayor que 0.05, entonces se debe agregar el factor de correccin para

    poblaciones finitas en el clculo del estadstico de prueba con lo cual se

    obtiene:

    Bilateral

    Unilateral Unilateral

  • 26

    0c

    1

    XZ

    N n

    Nn

    Normal(0,1)

    Regiones de rechazo de H0: Caso 1

    Unilateral izquierda

    Caso 2

    Bilateral

    Caso 3

    Unilateral derecha

    )(c zz )2/1(c zz )1(c zz

    donde es el nivel de significacin de la prueba, y z(), z(1-/2) y z(1-) son los cuantiles de la distribucin normal estndar.

    Caso 2: Cuando la muestra proviene de una poblacin Normal, la

    varianza poblacional (2) es desconocida

    Hiptesis: Caso 1

    Unilateral izquierda

    Caso 2

    Bilateral

    Caso 3

    Unilateral derecha

    00 :H 00 :H 00 :H

    01 :H 01 :H 01 :H

    Estadstico de prueba:

    nS

    XT

    /

    0 t(n-1)

    donde:

    X : Es la media muestral.

    0 : Es el valor supuesto de la media poblacional en la hiptesis nula. S : Es la desviacin estndar de la muestra.

    n: Es el tamao de la muestra.

    t(n-1): Es la distribucin t de Student con n 1 grados de libertad.

    Si la poblacin es finita (de tamao N) y la fraccin de muestreo n/N es

    mayor que 0.05, entonces se debe agregar el factor de correccin para

    poblaciones finitas en el clculo del estadstico de prueba con lo cual se

    obtiene:

    0c

    1

    XT

    S N n

    Nn

    t(n-1)

    Regiones de rechazo de H0: Caso 1

    Unilateral izquierda

    Caso 2

    Bilateral

    Caso 3

    Unilateral derecha

    ),1(c ntt )2/,1(c ntt ),1(c ntt

    donde es el nivel de significacin de la prueba, y ( ) y ( ) son los cuantiles de la distribucin t de Student con n 1 grados de libertad.

  • 27

    Ejemplo

    Una empresa elctrica fabrica focos cuya duracin se distribuye de forma

    aproximadamente normal con media de 800 horas y desviacin estndar de 40 horas.

    Pruebe la hiptesis de que 800 horas contra la alternativa 800 horas si una

    muestra aleatoria de 28 focos tiene una duracin promedio de 784 horas. Utilice un

    nivel de significancia de 0.05.

    Solucin.

    Sea X: Duracin de los focos (horas)

    X~ Normal(800 , 402)

    1. Planteo de hiptesis.

    800:H

    800:H

    1

    0

    2. Nivel de significacin.

    05.0

    3. Prueba estadstica

    )1.0(~/

    _

    Nn

    xZ

    4. Supuestos. Poblacin normal. Muestra tomada al azar.

    5. Regiones crticas. Criterios de decisin. La hiptesis alternante define la(s) zona(s) de rechazo.

    reas

    Criterios

    Si -1.96 Zc 1.96 No se rechaza H0 Si Zc < -1.96 o Zc > 1.96 Se

    rechaza H0

    6. Clculos

    12.228/40

    800784Zc

    7. Conclusiones. Con 5% de nivel de significacin y a partir de la informacin muestral, el tiempo

    promedio de duracin de los focos es diferente de 800 horas.

    0.025 0.025

    1.96 -1.96

    0.95

  • 28

    3.4 Prueba de hiptesis para la varianza poblacional

    (2)

    Hiptesis: Caso 1

    Unilateral izquierda

    Caso 2

    Bilateral

    Caso 3

    Unilateral derecha 2

    0

    2

    0 :H 2

    0

    2

    0 :H 2

    0

    2

    0 :H 2

    0

    2

    1 :H 2

    0

    2

    1 :H 2

    0

    2

    1 :H

    Estadstico de prueba:

    2

    0

    22 )1(

    Sn 2 )1( n

    donde:

    n : Es el tamao de la muestra.

    S 2 : Es la variancia de la muestra.

    2

    0 : Es el valor supuesto de la variancia poblacional en la hiptesis nula. 2

    )1( n : Es la distribucin Chi-cuadrado con n 1 grados de libertad.

    Regiones de rechazo de H0: Caso 1

    Unilateral izquierda

    Caso 2

    Bilateral

    Caso 3

    Unilateral derecha 2

    )1,1(

    2

    0 n 2

    )2/1,1(

    2

    0 n 2

    )2/,1(

    2

    0 n

    2

    ),1(

    2

    0 n

    donde es el nivel de significacin de la prueba, y 2 )1,1( n , 2

    )2/1,1( n , 2

    )2/,1( n y 2

    ),1( n son los cuantiles de la distribucin Chi-cuadrado con n

    1 grados de libertad.

    Ejemplo

    Se reporta que la desviacin estndar de la resistencia al rompimiento de ciertos cables

    producidos por una compaa es 240 lb. Despus de que se introdujo un cambio en el

    proceso de produccin de estos cables, la resistencia al rompimiento de una muestra de

    8 cables mostr una desviacin estndar de 300 lb. Investigue la significancia del

    aumento aparente en la variacin usando un nivel de significancia de 0.05. Asuma

    normalidad.

    Solucin.

    Sea X: Resistencia al rompimiento de cierto tipo de cable

    X~ Normal( , 2402)

    1. Planteo de hiptesis.

    22

    1

    22

    0

    240:H

    240:H

  • 29

    2. Nivel de significacin.

    05.0

    3. Prueba estadstica

    2

    )1(2

    22 ~

    )1(

    n

    sn

    4. Supuestos. Poblacin normal. Muestra tomada al azar.

    5. Regiones crticas. Criterios de decisin. La hiptesis alternante define la(s) zona(s) de rechazo.

    reas

    Criterios

    Si 07.142c No se rechaza

    H0 Si 07.142c Se rechaza H0

    6. Clculos

    938.10240

    300)18(2

    22

    c

    7. Conclusiones. Con 5% de nivel de significacin y la informacin muestral es insuficiente para

    afirmar que la variacin de la resistencia al rompimiento ha aumentado.

    3.5 Prueba de hiptesis para la proporcin poblacional (p)

    Hiptesis: Caso 1

    Unilateral izquierda

    Caso 2

    Bilateral

    Caso 3

    Unilateral derecha

    00 :H pp 00 :H pp 00 :H pp

    01 :H pp 01 :H pp 01 :H pp

    Estadstico de prueba:

    n

    pp

    pPZ

    )1(

    00

    0

    N(0,1)

    0.05 0.95

  • 30

    donde:

    P : Es la proporcin muestral.

    p0 : Es el valor supuesto de la proporcin poblacional en la hiptesis nula.

    n: Es el tamao de la muestra.

    N(0,1): Es la distribucin normal estndar.

    Si la poblacin es finita (de tamao N) y la fraccin de muestreo n/N es

    mayor que 0.05, entonces se debe agregar el factor de correccin para

    poblaciones finitas en el clculo del estadstico de prueba con lo cual se

    obtiene:

    0c

    0 0

    (1 )

    1

    P pZ

    p p N n

    n N

    Normal(0,1)

    Regiones de rechazo de H0: Caso 1

    Unilateral izquierda

    Caso 2

    Bilateral

    Caso 3

    Unilateral derecha

    )(c zz )2/1(c zz )1(c zz

    donde es el nivel de significacin de la prueba, y z(), z(1-/2) y z(1-) son los cuantiles de la distribucin normal estndar.

    Ejemplo

    RRS, el minorista de electrodomsticos, anunci que vende el 21% de todos los

    computadores caseros. Esta afirmacin se confirma si 120 de los 700 propietarios de

    computadores caseros se los compraron a RRS? Tome 05.0 .

    Solucin.

    Sea p: Proporcin de propietarios de computadores caseros que compraron en RRS.

    1 Planteo de hiptesis.

    21.0p:H

    21.0p:H

    1

    0

    2 Nivel de significacin. 05.0

    3 Prueba estadstica

    )1.0(~)1(

    Normal

    n

    pp

    ppZ

    4 Supuestos. Muestra tomada al azar. Muestra grande.

  • 31

    5 Regiones crticas. Criterios de decisin. La hiptesis alternante define la(s) zona(s) de rechazo.

    reas

    Criterios

    Si -1.96 Zc 1.96 No se rechaza H0 Si Zc < -1.96 o Zc >

    1.96 Se rechaza H0

    6 Clculos

    505.2

    700

    )21.01(21.0

    21.0700

    120

    Zc

    7 Conclusiones. Con 5% de nivel de significacin y a partir de la informacin muestral, RRS no

    vende el 21% de todos los computadores caseros.

    3.6 Pruebas de hiptesis para dos varianzas

    poblacionales 2

    1 y 2

    2

    Para esta prueba de hiptesis solo se desarrollar el caso bilateral debido a que

    esta prueba indicar si dos muestras independientes provienen de poblaciones

    con varianzas homogneas o heterogneas

    Hiptesis: Caso nico

    Bilateral

    22

    2

    10 :H

    22

    2

    11 :H

    Estadstico de prueba:

    2

    2

    2

    1c

    S

    SF 1,1 21 nnF

    donde:

    n1 : Es el tamao de la muestra proveniente de la poblacin 1.

    n2 : Es el tamao de la muestra proveniente de la poblacin 2. 2

    1S : Es la varianza de la muestra de la poblacin 1. 2

    2S : Es la varianza de la muestra de la poblacin 2.

    1,1 21 nnF : Es la distribucin F con n11 y n21 grados de libertad.

    0.025 0.025

    1.96 -1.96

    0.95

  • 32

    Regiones de rechazo de H0: Caso nico

    Bilateral

    2/1,1,1 21 nnc FF

    2/,1,1 21 nnc FF

    donde es el nivel de significacin de la prueba, y 2/1,1,1 21 nnF y

    2/,1,1 21 nnF son los cuantiles de la distribucin F con n1 1 y n2 1 grados

    de libertad.

    Ejemplo

    Diecisiete latas de CROC Aid presentan una media de 17.2 onzas, con una desviacin

    estndar de 3.2 onzas, y 13 latas de Energy Pro producen una media de 18.1 onzas y s =

    2.7 onzas. Asumiendo varianzas iguales y distribuciones normales en los pesos de la

    poblacin, Se puede afirmar con 5% de significacin que las varianzas de los pesos son

    iguales?

    Solucin.

    Sean

    X1: Contenido de una lata de gaseosa CROC Aid (onzas) X1 ~ Normal( 1 , 2

    1 )

    X2: Contenido de una lata de gaseosa Energy Pro (onzas) X2 ~ Normal( 2 , 2

    2 )

    1. Planteo de hiptesis.

    2

    2

    2

    11

    2

    2

    2

    10

    :H

    :H

    2. Nivel de significacin. 05.0

    3. Prueba estadstica

    )1,1(

    2

    2

    2

    1

    2

    2

    2

    1

    21~

    1 nnc F

    S

    SF

    Bajo H0, que las varianzas son iguales, se tiene,

    )1,1(2

    2

    2

    1

    21~ nnc F

    S

    SF

    4. Supuestos. Poblaciones normales. Muestras tomadas al azar.

    5. Regiones crticas. Criterios de decisin. La hiptesis alternante define la(s) zona(s) de rechazo.

  • 33

    reas

    Criterios

    Si 0.346 Fc 3.152 No se rechaza H0 Si Fc < 0.346 o Fc > 3.152 Se rechaza H0

    6. Clculos

    405.1)7.2(

    )2.3(2

    2

    2

    2

    2

    1 S

    SFc

    7. Conclusiones. Con 5% de nivel de significacin la informacin muestral es insuficiente para rechazar

    que las varianzas de los pesos son iguales.

    3.7 Pruebas de hiptesis para dos medias

    poblacionales (1 y 2)

    Caso 1: Cuando las muestras provienen de poblaciones Normales y

    las varianzas poblacionales 21 y 2

    2 son conocidas

    Hiptesis: Caso 1

    Unilateral izquierda

    Caso 2

    Bilateral

    Caso 3

    Unilateral derecha

    k 210 :H k 210 :H k 210 :H

    k 211 :H k 211 :H k 211 :H

    Estadstico de prueba:

    2

    2

    2

    1

    2

    1

    21

    nn

    kXXZ c

    Normal(0,1)

    donde:

    1X : Es la media muestral para la muestra 1.

    2X : Es la media muestral para la muestra 2. 2

    1 : Es la varianza de la poblacin 1. 2

    2 : Es la varianza de la poblacin 2.

    n1 : Es el tamao de la muestra 1.

    n2 : Es el tamao de la muestra 2.

    k : Es el valor supuesto para la diferencia entre las medias poblacionales en

    la hiptesis nula.

    Normal(0,1): Es la distribucin normal estndar.

    Si las poblaciones son finitas (de tamaos N1 y N2) y las fracciones de

    muestreo n1/N1 y n2/N2 son mayores que 0.05, entonces se debe agregar el

    0.025 0.025

    3.152 0.346

  • 34

    factor de correccin para poblaciones finitas en el clculo del estadstico de

    prueba con lo cual se obtiene:

    1 2c

    2 2

    1 1 1 2 2 2

    1 1 2 21 1

    X X kZ

    N n N n

    n N n N

    Normal(0,1)

    Regiones de rechazo de H0: Caso 1

    Unilateral izquierda

    Caso 2

    Bilateral

    Caso 3

    Unilateral derecha

    )(c zz )2/1(c zz )1(c zz

    donde es el nivel de significacin de la prueba, y z(), z(1-/2) y z(1-) son los cuantiles de la distribucin normal estndar.

    Caso 2: Muestras independientes, varianzas poblacionales desconocidas y homogneas

    Hiptesis: Caso 1

    Unilateral izquierda

    Caso 2

    Bilateral

    Caso 3

    Unilateral derecha

    k 210 :H k 210 :H k 210 :H

    k 211 :H k 211 :H k 211 :H

    Estadstico de prueba:

    2

    2

    1

    2

    21

    n

    S

    n

    S

    kXXT

    pp

    c

    221 nnt

    con

    2

    11

    21

    2

    22

    2

    112

    nn

    SnSnS p

    donde:

    1X : Es la media de la muestra 1.

    2X : Es la media de la muestra 2. 2

    1S : Es la varianza de la muestra 1. 2

    2S : Es la varianza de la muestra 2. 2

    pS : Es la varianza muestral ponderada.

    n1 : Es el tamao de la muestra 1.

    n2 : Es el tamao de la muestra 2.

    k : Es el valor supuesto para la diferencia entre las medias poblacionales en

    la hiptesis nula.

    221 nnt : Es la distribucin t de Student con n1 + n2 1 grados de libertad.

  • 35

    Si las poblaciones son finitas (de tamaos N1 y N2) y las fracciones de

    muestreo n1/N1 y n2/N2 son mayores que 0.05, entonces se debe agregar el

    factor de correccin para poblaciones finitas en el clculo del estadstico de

    prueba con lo cual se obtiene:

    1 2c

    2 2

    1 1 1 1

    1 1 2 11 1

    p p

    X X kT

    S SN n N n

    n N n N

    221 nnt

    Regiones de rechazo de H0: Caso 1

    Unilateral izquierda

    Caso 2

    Bilateral

    Caso 3

    Unilateral derecha

    ),2(c 21 nntt )2/,2(c 21 nntt ),2(c 21

    nntt

    donde es el nivel de significacin de la prueba, y ),2( 21 nnt y )2/,2( 21 nnt

    son los cuantiles de la distribucin t de Student con n1 + n2 1 grados de libertad.

    Ejemplo

    Diecisiete latas de CROC Aid presentan una media de 17.2 onzas, con una desviacin

    estndar de 3.2 onzas, y 13 latas de Energy Pro producen una media de 18.1 onzas y s =

    2.7 onzas. Asumiendo varianzas iguales y distribuciones normales en los pesos de la

    poblacin, Se puede afirmar con 5% de significacin que los pesos promedio son

    iguales?

    Solucin.

    Sean

    X1: Contenido de una lata de gaseosa CROC Aid (onzas) X1 ~ Normal( 1 , 2 )

    X2: Contenido de una lata de gaseosa Energy Pro (onzas) X2 ~ Normal( 2 , 2 )

    1. Planteo de hiptesis.

    211

    210

    :H

    :H

    2. Nivel de significacin. 05.0

    3. Prueba estadstica

    )2(

    21

    2

    21

    _

    2

    _

    1

    21~

    11

    )()(

    nn

    p

    c t

    nnS

    xxt

    donde:

    2nn

    s)1n(s)1n(S

    21

    2

    22

    2

    112

    p

    4. Supuestos. Poblaciones normales. Muestras tomadas al azar.

  • 36

    5. Regiones crticas. Criterios de decisin. La hiptesis alternante define la(s) zona(s) de rechazo.

    reas

    Criterios

    Si -2.048 tc 2.048 No se rechaza H0 Si tc < -2.048 o tc > 2.048 Se rechaza

    H0

    6. Clculos

    815.0

    13

    1

    17

    1976.8

    )0()1.182.17(tc

    7. Conclusiones. Con 5% de nivel de significacin la informacin muestral es insuficiente para

    rechazar que los pesos promedios de los dos tipos de gaseosas son iguales.

    Caso 2: Muestras independientes, varianzas poblacionales desconocidas y heterogneas

    Hiptesis: Caso 1

    Unilateral izquierda

    Caso 2

    Bilateral

    Caso 3

    Unilateral derecha

    k 210 :H k 210 :H k 210 :H

    k 211 :H k 211 :H k 211 :H

    Estadstico de prueba:

    2

    2

    2

    1

    2

    1

    21

    n

    S

    n

    S

    kXXT

    vt

    con

    11 2

    2

    2

    2

    2

    1

    2

    1

    2

    1

    2

    2

    2

    2

    1

    2

    1

    n

    n

    S

    n

    n

    S

    n

    S

    n

    S

    v

    donde:

    1X : Es la media de la muestra 1.

    0.025 0.025

    t(28, 0.025) = 2.048 -2.048

    0.95

  • 37

    2X : Es la media de la muestra 2. 2

    1S : Es la varianza de la muestra 1. 2

    2S : Es la varianza de la muestra 2.

    n1 : Es el tamao de la muestra 1.

    n2 : Es el tamao de la muestra 2.

    k : Es el valor supuesto para la diferencia entre las medias poblacionales en

    la hiptesis nula.

    vt : Es la distribucin t de Student con v grados de libertad.

    Si las poblaciones son finitas (de tamaos N1 y N2) y las fracciones de

    muestreo n1/N1 y n2/N2 son mayores que 0.05, entonces se debe agregar el

    factor de correccin para poblaciones finitas en el clculo del estadstico de

    prueba con lo cual se obtiene:

    1 2c

    2 2

    1 1 1 2 1 1

    1 1 2 11 1

    X X kT

    S N n S N n

    n N n N

    vt

    Regiones de rechazo de H0: Caso 1

    Unilateral izquierda

    Caso 2

    Bilateral

    Caso 3

    Unilateral derecha

    ),(c vtt )2/,(c vtt ),(c vtt

    donde es el nivel de significacin de la prueba, y ),( vt y )2/,( vt son los

    cuantiles de la distribucin t de Student con v grados de libertad.

    Ejemplo 8.6.- Diecisiete latas de CROC Aid presentan una media de 17.2 onzas, con una

    desviacin estndar de 3.2 onzas, y 13 latas de Energy Pro producen una media de 18.1

    onzas y s = 1.1 onzas. Asumiendo varianzas diferentes y distribuciones normales en los

    pesos de la poblacin, Se puede afirmar con 5% de significacin que los pesos promedio

    son iguales?

    Solucin.

    Sean X1: Contenido de una lata de gaseosa CROC Aid (onzas) X1 ~ Normal( 1 , 2 )

    X2: Contenido de una lata de gaseosa Energy Pro (onzas) X2 ~ Normal( 2 , 2 )

    1. Planteo de hiptesis.

    211

    210

    :H

    :H

    2. Nivel de significacin. 05.0

  • 38

    3. Prueba estadstica

    )(

    2

    2

    2

    1

    2

    1

    21

    _

    2

    _

    1 ~)()(

    vc t

    n

    S

    n

    S

    xxt

    donde

    1n1n

    n

    S

    n

    S

    v

    2

    2

    n

    S

    1

    2

    n

    S

    2

    2

    2

    2

    1

    2

    1

    2

    22

    1

    21

    4. Supuestos. Poblaciones normales. Muestras tomadas al azar.

    5. Regiones crticas. Criterios de decisin. Antes de hallar las regiones se debe determinar el valor de v:

    2166.20

    113117

    13

    1.1

    17

    2.3

    2

    13

    1.12

    17

    2.3

    222

    22

    v

    La hiptesis alternante define la(s) zona(s) de rechazo.

    reas

    Criterios

    Si -2.080 tc 2.048 No se rechaza H0 Si tc < -2.080 o tc > 2.048 Se rechaza H0

    6. Clculos

    079.1

    13

    1.1

    17

    2.3

    )0()1.182.17(

    22

    ct

    7. Conclusiones. Con 5% de nivel de significacin la informacin muestral es insuficiente para

    rechazar que los pesos promedios de los dos tipos de gaseosas son iguales.

    3.8 Prueba de hiptesis para la diferencia de dos proporciones poblacionales (p1-p2).

    Hiptesis: Caso 1

    Unilateral izquierda

    Caso 2

    Bilateral

    Caso 3

    Unilateral derecha

    0 1 2H : p p 0 1 2H : p p 0 1 2H : p p

    1 1 2H : p p 1 1 2H : p p 1 1 2H : p p

    0.025 0.025

    t(21, 0.025) = 2.080 -2.088

    0.95

  • 39

    Estadstico de prueba:

    ( ) (

    )

    ( )

    con

    1 1 2 2

    1 2

    n P n PP

    n n

    donde:

    1P : Es la proporcin de la muestra 1.

    2P : Es la proporcin de la muestra 2.

    n1: Es el tamao de la muestra 1.

    n2: Es el tamao de la muestra 2.

    N(0,1): Es la distribucin normal estndar.

    Si las poblaciones son finitas (de tamaos N1 y N2) y las fracciones de

    muestreo n1/N1 y n2/N2 son mayores que 0.05, entonces se debe agregar el

    factor de correccin para poblaciones finitas en el clculo del estadstico de

    prueba con lo cual se obtiene:

    ( ) (

    )

    ( )

    Regiones de rechazo de H0: Caso 1

    Unilateral izquierda

    Caso 2

    Bilateral

    Caso 3

    Unilateral derecha

    )(c zz )2/1(c zz )1(c zz

    donde es el nivel de significacin de la prueba, y z(), z(1-/2) y z(1-) son los cuantiles de la distribucin normal estndar.

    Ejemplo:

    En una prueba de calidad de dos comerciales de televisin se pas cada uno en

    un rea de prueba seis veces, durante un perodo de una semana. La semana

    siguiente se llev a cabo una encuesta telefnica para identificar a quines

    haban visto esos comerciales. A las personas que los vieron se les pidi

    definieran el principal mensaje en ellos. Se obtuvieron los siguientes resultados:

    Comercial Personas que lo

    vieron

    Personas que recordaron el

    mensaje principal

    A

    B

    150

    200

    63

    60

  • 40

    Use = 0.05 para probar la hiptesis de que no hay diferencia en las proporciones que recuerdan los dos comerciales.

    Solucin:

    Sea p1: Proporcin de personas que recordaron el mensaje principal del

    comercial A.

    Sea p2: Proporcin de personas que recordaron el mensaje principal del

    comercial B.

    Hiptesis:

    211

    210

    pp:H

    pp:H

    Nivel de significacin: 05.0

    Estadstico de prueba:

    ( )(

    ) ( )

    Supuestos: Muestras tomada al azar.

    Muestras grandes.

    Valores crticos y regiones de rechazo y no rechazo:

    Criterios

    Si -1.96 Zc 1.96 no se rechaza H0 Si Zc < -1.96 o Zc > 1.96 se rechaza

    H0

    Clculos:

    63 60

    150 200 2.3281 1

    (0.351)(0.649)150 200

    cZ

    Conclusin: Existe suficiente evidencia estadstica, con un

    nivel de significacin del 5% de que las

    proporciones de recordacin son diferentes.

    0.95

    -1.96 1.96

    0.025 0.025

  • 41

    Ejercicios

    1. Debido al tiempo excesivo que demanda trasladarse hacia el sitio de trabajo, la oficina en donde usted trabaja en el centro de la ciudad est considerando espaciar

    las horas de trabajo para sus empleados. El gerente considera que los empleados

    demoran en promedio 50 minutos para llegar al trabajo. Para una muestra aleatoria

    de setenta empleados, resulta que en promedio demoran 47,2 minutos con una

    desviacin estndar de 18.9 minutos. Fije en 5% y pruebe la hiptesis.

    2. Una escuela de negocios local afirma que sus estudiantes graduados obtienen trabajos mejor remunerados que el promedio nacional. Los salarios pagados a todos

    los graduados de las escuelas de negocios en su primer trabajo mostraron una

    media de 20 soles la hora. Una muestra aleatoria de 10 alumnos graduados del

    ltimo ao de la mencionada escuela mostr los siguientes salarios por hora en su

    primer trabajo:

    16,50 ; 19,00 ; 22,00 ; 21,50 ; 21,00 ; 16,50 ; 17,00 ; 21,00 ; 21,50 ; 22,00

    Como usted no cree en la afirmacin de dicha escuela, evale el salario de los

    graduados de esta escuela de comercio con un nivel de significacin del 5%.

    3. Una muestra aleatoria de 64 bolsas de palomitas de maz con queso pesan, en

    promedio, 5,23 onzas con una desviacin estndar de 0,24 onzas. Pruebe la hiptesis

    de que 5.5 onzas contra la hiptesis alternativa, 5.5 onzas en el nivel de

    significancia de 0.05

    4. Usando una muestra de nueve das durante los ltimos 9 meses, un dentista ha tenido las siguientes cantidades de pacientes: 22, 25, 20, 18, 15, 22, 24, 19 y 26. Si

    la cantidad de pacientes atendidos por da tiene una distribucin normal,

    a. con estos datos se rechazara la hiptesis de que el promedio de pacientes

    atendido por da durante los ltimos seis meses no es superior a 22? Use un nivel

    de significacin del 5%. Interprete el resultado.

    b. con estos datos se rechazara la hiptesis de que la varianza en la cantidad de pacientes atendidos por da en los ltimos seis meses es igual a 10? Use un nivel

    de significacin del 10%. Interprete el resultado.

    5. En cierta universidad se estima que el 25% de los estudiantes van en bicicleta a la universidad. Esta parece ser una estimacin vlida si, en una muestra aleatoria de

    90 estudiantes universitarios, se encuentra que 28 van en bicicleta a la universidad?

    Utilice un nivel de significancia de 0,05.

    6. Un investigador desea verificar si existe evidencia de una diferencia en la resistencia media entre dos tipos de material para embalaje. La descripcin de las lecturas en

    pie-libra de la resistencia al impacto de los dos tipos de embalaje se muestra a

    continuacin.

    Caractersticas Embalaje A Embalaje B

    Media 1,2367 0,9778

    Varianza 0,0042 0,0024

    Observaciones 9 9

  • 42

    a. Cul es la hiptesis planteada?, Es una hiptesis unilateral o bilateral? b. A partir de los datos obtenidos compruebe la hiptesis y concluya con 2% de

    nivel de significacin. Asuma poblaciones normales.

    7. Dos encuestas independientes sobre salarios, realizados en dos reas metropolitanas muy distintas entre si, revelaron la siguiente informacin con respecto a los sueldos

    promedios de los operadores de equipo pesado.

    rea A B

    Media $6,50 / h. $7,00 / h.

    Desviacin Estndar $4,50 /h. $ 2,00 / h.

    Tamao de la muestra 15 24

    Suponga que los datos provienen de poblaciones normales. Se puede concluir que

    los sueldos promedios son diferentes con un %5

    8. Una agencia de seguros local desea comparar los gastos medios ocasionados por daos en accidentes similares en dos modelos de automviles. Nueve ejemplares del

    primer modelo y siete del segundo modelo son sometidos a una colisin controlada

    obteniendo los siguientes gastos, en dlares, por daos sufridos:

    Colisin 1 2 3 4 5 6 7 8 9

    Modelo 1 345 310 305 345 355 375 320 310 305

    Modelo 2 340 325 345 310 315 280 290

    Si se supone que los gastos por daos en ambos modelos de automviles siguen una

    distribucin normal, a un nivel de significacin del 5%:

    a. Se puede afirmar que la variabilidad de los gastos por daos para cada modelo de auto son iguales?

    b. Parece haber alguna diferencia en el gasto medio ocasionado por las colisiones de cada modelo de auto?

    9. Un patrocinador de un programa especial de televisin afirma que el programa representa un atractivo mayor para los televidentes hombres que para las mujeres,

    pero el personal de produccin del programa piensa que es igual el porcentaje de

    televidentes hombres y mujeres que ven el programa especial. Si una muestra

    aleatoria de 300 hombres y otra de 400 mujeres revel que 120 hombres y 120

    mujeres estaban viendo el programa especial de televisin. Al nivel de significacin

    del 5%, se podra decir que el patrocinador tiene la razn?

    10. Se cree que la portada y la naturaleza de la primera pregunta de encuestas por correo influyen en la tasa de respuesta. El artculo The Impact of Cover Design and First Questions on Response Rates for a Mail Survey of Skydivers (Leisure Sciences, 1991, pp. 67-76) prob esta teora al experimentar con diferentes diseos de

    portadas. Una portada era sencilla; la otra utiliz la figura de un paracaidista. Los

    investigadores especularon que la tasa de devolucin sera menor para la portada

    sencilla.

  • 43

    Portada Nmero enviado Nmero devuelto

    Sencilla 207 104

    Paracaidista 213 109

    Apoya esta informacin la hiptesis de los investigadores? Pruebe las hiptesis

    pertinentes usando un nivel de significacin del 5%.

    11. El empleo de equipo de cmputo en las empresas est creciendo con una rapidez vertiginosa. Un estudio reciente, en la que participaron 15 empresas del sector

    industrial, revel que 184 de 616 adultos trabajan utilizando con regularidad una

    computadora personal, una microcomputadora, un terminal de computadora o un

    procesador de texto en su trabajo. Se seleccion otra muestra de 450 adultos, de 10

    empresas del sector salud, en la muestra se obtuvo que 105 adultos utilizan con

    regularidad una computadora persona, una microcomputadora, un terminal de

    computadora o un procesador de texto en su trabajo Existe diferencias

    significativas entre los porcentajes de adultos, de las empresas del sector industria y

    de salud, que utilizan algn equipo de cmputo en su trabajo? Use un nivel de

    significacin del 5%.

  • 44

    Captulo 4

    Prueba Chi Cuadrado

    Una de las mayores utilidades de la distribucin Ji-Cuadrado est en que permite

    comparar frecuencias observadas (frecuencias obtenidas en un experimento o

    muestreo) con frecuencias esperadas segn un modelo supuesto (hiptesis nula).

    Esta caracterstica de la distribucin Ji-cuadrado permite efectuar las siguientes

    pruebas:

    1. Prueba de independencia.

    2. Prueba de homogeneidad de subpoblaciones.

    3. Pruebas de bondad de ajuste a una distribucin de probabilidades.

    La metodologa en cada uno de los tres casos es muy similar. La diferencia principal

    est en la forma en que se calculan las frecuencias esperadas, ya que estas

    dependern de la hiptesis nula en cuestin.

    Prueba de Independencia.

    Esta prueba permite evaluar si dos variables son independientes entre s. Suponga

    que la primera variable permite clasificar a cada observacin en una de r categoras

    y que la segunda variable permite clasificar a cada observacin en una de c

    categoras. A la tabla que muestra ambas variables y las frecuencias observadas en

    cada una de las rc categoras resultantes se le conoce como tabla de contingencia

    rc.

    Variable 2

    Columna

    1

    Columna

    2 . . .

    Columna

    c

    Variable

    1

    Fila 1

    Fila 2

    .

    .

    .

    Fila r

    Esta prueba es especialmente til cuando se trata de analizar la independencia entre

    dos variables en escala nominal. Cuando las variables estn en escala ordinal,

    intervalo o razn, existen otros procedimientos ms adecuados, como por ejemplo

    mediante el clculo de coeficientes de correlacin (en un captulo posterior se ver

    el caso del coeficiente de correlacin de Pearson, til para analizar asociacin lineal

    entre dos variables cuantitativas).

  • 45

    Ejemplo.

    Para determinar si existe una relacin entre la calificacin de un empleado en el

    programa de capacitacin y su rendimiento real en el trabajo, se tom una muestra

    de 400 casos de los archivos y se obtuvo las frecuencias observadas que se presentan

    en la siguiente tabla de contingencia 33.

    Calificacin en el programa de

    capacitacin Total

    Debajo del

    promedio Promedio

    Sobre el

    promedio

    Rendimiento real en

    el trabajo

    (calificacin del

    empleador)

    Deficiente 23 60 29 112

    Promedio 28 79 60 167

    Muy bueno 9 49 63 121

    Total 60 188 152 400

    Con el nivel de significacin 0,01, La calificacin del rendimiento del trabajador

    est asociada con la calificacin en el programa de capacitacin?

    Solucin

    Las variables que se muestran en la tabla son:

    Variable 1: Calificacin del rendimiento real en el trabajo, con 3 categoras:

    Deficiente, promedio y muy bueno.

    Variable 2: Calificacin en el programa de entrenamiento, con 3 categoras: Debajo

    del promedio, promedio o sobre el promedio.

    La prueba de independencia compara las frecuencias observadas frente a las

    frecuencias esperadas bajo el supuesto de que ambas variables sean independientes.

    Para calcular las frecuencias esperadas se utiliza la siguiente frmula:

    tablalla de Total

    fila) la de(Totalxcolumna)lade(Totalesperada Frecuencia

    La siguiente tabla muestra tanto las frecuencias observadas como las esperadas

    (entre parntesis)

    Calificacin en el programa de

    capacitacin Total

    Debajo del

    promedio Promedio

    Sobre el

    promedio

    Rendimiento real en

    el trabajo

    (calificacin del

    empleador)

    Deficiente 23 (16,80) 60 (52,64) 29 (42,56) 112

    Promedio 28 (25,05) 79 (78,49) 60 (63,46) 167

    Muy bueno 9 (18,15) 49 (56,87) 63 (45,98) 121

    Total 60 188 152 400

  • 46

    Pasos para realizar la prueba de independencia

    1) Formulacin de las hiptesis

    H0: La calificacin del rendimiento real de un empleado en el trabajo es

    independiente de la calificacin en el programa de capacitacin.

    H1: La calificacin del rendimiento real de un empleado en el trabajo no es

    independiente de la calificacin en el programa de capacitacin.

    2) Fijacin del nivel de significacin: 0,01.

    3) Estadstico de prueba

    gl)1)(1(con~)( 2

    1

    2

    2

    c

    crve

    eok

    i i

    ii

    4) reas y criterio de decisin.

    Los grados de libertad para el estadstico Ji-cuadrado son (3-1)(3-1) = 4.

    Criterio:

    Si 2c > 13,277 se rechaza H0

    Si 2c 13,277 no se rechaza H0.

    5) Clculos previos

    18,2098,45

    )98,4563(...

    05,25

    )05,2528(

    80,16

    )80,1623( 2222c

    6) Conclusin: Con nivel de significacin 0,01 se rechaza la hiptesis nula. Por lo

    tanto hay evidencia estadstica suficiente para aceptar que la calificacin del

    rendimiento real de un empleado en el trabajo depende de la calificacin en el

    programa de entrenamiento.

    Nota. (Correccin de Yates) Cuando la muestra es menor de 50, cuando algunas frecuencias esperadas son

    menores que 5, o cuando el grado de libertad del estadstico de prueba es igual a 1,

    es recomendable aplicar la correccin de Yates; con esta correccin, el estadstico

    de prueba es el siguiente:

    k

    i i

    iicrv

    e

    ,eo

    1

    2

    2

    2

    c gl)1)(1(con50

    0,01

    2 0,01

    = 13,277

  • 47

    Salida de MINITAB:

    Chi-Square Test: Debajo del promedio, Promedio, Sobre el promedio Expected counts are printed below observed counts

    Chi-Square contributions are printed below expected counts

    Debajo del Sobre el

    promedio Promedio promedio Total

    1 23 60 29 112

    16.80 52.64 42.56

    2.288 1.029 4.320

    2 28 79 60 167

    25.05 78.49 63.46

    0.347 0.003 0.189

    3 9 49 63 121

    18.15 56.87 45.98

    4.613 1.089 6.300

    Total 60 188 152 400

    Chi-Sq = 20.179, DF = 4, P-Value = 0.000

    Prueba de Homogeneidad de Proporciones

    Esta prueba permite analizar si la distribucin de probabilidades de una variable

    categrica es la misma en r poblaciones.

    Ejemplo.

    Muestras de tres tipos de materiales, sujetos a cambios extremos de temperatura,

    produjeron los resultados que se muestran en la siguiente tabla:

    Material A Material B Material C Total

    Desintegrados 41 27 22 90

    Permanecieron intactos 79 53 78 210

    Total 120 80 100 300

    Use un nivel de significacin de 0,05 para probar si, en las condiciones establecidas,

    la probabilidad de desintegracin es la misma para los tres tipos de materiales.

    Pasos para realizar la prueba de homogeneidad de proporciones

    1) Formulacin de las hiptesis

    H0: p1 = p2 = p3, donde pi corresponde a la probabilidad de desintegracin con el

    material i.

    H1: No todas las proporciones son iguales.

    2) Fijacin del nivel de significacin: 0,05.

  • 48

    3) Estadstico de prueba

    gl)1)(1(con~)( 2

    1

    2

    2

    c

    crve

    eok

    i i

    ii

    4) reas y criterios de decisin.

    Los grados de libertad para el estadstico Ji-cuadrado son (2-1)(3-1) = 2.

    Criterios:

    Si 2c > 5,991 se rechaza H0

    Si 2c 5,991 no se rechaza H0

    5) Clculos previos

    Material A Material B Material C Total

    Desintegrados 41 (36) 27 (24) 22 (30) 90

    Permanecieron intactos 79 (84) 53 (56) 78 (70) 210

    Total 120 80 100 300

    575,470

    )7078(...

    84

    )8479(

    36

    )3641( 2222c

    6) Con nivel de significacin de 0,05 no se rechaza la hiptesis nula; los datos son

    insuficientes para rechazar que la probabilidad de desintegracin es la misma

    para los tres tipos de materiales.

    Salida de MINITAB:

    Chi-Square Test: Material A, Material B, Material C Expected counts are printed below observed counts

    Chi-Square contributions are printed below expected counts

    Material A Material B Material C Total

    1 41 27 22 90

    36.00 24.00 30.00

    0.694 0.375 2.133

    2 79 53 78 210

    84.00 56.00 70.00

    0.298 0.161 0.914

    Total 120 80 100 300

    Chi-Sq = 4.575, DF = 2, P-Value = 0.101

    0,05

    2 0,05

    = 5,991

  • 49

    Ejercicios

    1) Un criminalista realiz una investigacin para determinar si la incidencia de ciertos tipos de crmenes varan de una parte a otra en una ciudad grande. Los crmenes

    particulares de inters son asalto, robo, hurto y homicidio. La siguiente tabla

    muestra el nmero de delitos cometidos en tres reas de la ciudad durante el ao

    pasado:

    Frecuencias observadas Frecuencias esperadas

    Tipo de

    delito

    Distrito Tipo de

    delito

    Distrito

    I II III I II III

    Asalto 162 310 258 Asalto 171,1 348,9 210,0

    Robo 118 196 193 Robo 118,9 242,3 145,8

    Secuestro 451 996 458 Secuestro 446,6 910,5 547,9

    Homicidio 18 25 10 Homicidio 12,4 25,3 15,2

    Se puede concluir a partir de estos datos con un nivel de significacin de 0,01 que

    la ocurrencia de estos tipos de crimen no es independiente del distrito de la ciudad?

    2) De acuerdo con un estudio de la Universidad Johns Hopkins publicado en el American Journal of Public Health, las viudas viven ms que los viudos. Considere

    los siguientes datos de sobrevivencia de 100 viudas y 100 viudos despus de la

    muerte del cnyuge:

    Aos vividos Viuda Viudo

    Menos de 5

    De 5 a 10

    Ms de 10

    25

    42

    33

    39

    40

    21

    Se puede concluir con un nivel de significacin de 0,05 que las proporciones de

    viudas y viudos son iguales con respecto a los diferentes perodos que un cnyuge

    sobrevive a la muerte de su compaero?

    3) Un estudio de la relacin entre las condiciones de las instalaciones en gasolineras y la agresividad en el precio de la gasolina, reporta los siguientes datos basados en una

    muestra de 441 gasolineras. Al nivel de significacin del 1%,