iv dr. rer. nat. humberto llinas´ · 2016-03-04 · supongamos que el muestreo se hace con...

111
iv Dr. rer. nat. Humberto Llin´ as

Upload: others

Post on 26-Apr-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

iv Dr. rer. nat. Humberto Llinas

Page 2: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Contenido

1 Distribuciones fundamentales de muestreo 3

1.1 Errores y tecnicas de muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.1.1 Errores muestrales y no muestrales . . . . . . . . . . . . . . . . . . . 4

1.1.2 Tecnicas de muestreo aleatorio . . . . . . . . . . . . . . . . . . . . . . 9

1.2 Estadısticos y distribuciones muestrales . . . . . . . . . . . . . . . . . . . . . 18

1.3 Distribucion muestral de la media . . . . . . . . . . . . . . . . . . . . . . . . 24

1.3.1 El caso para muestras grandes . . . . . . . . . . . . . . . . . . . . . . 28

1.3.2 El caso para muestras pequenas . . . . . . . . . . . . . . . . . . . . . 31

1.4 Distribucion muestral de una proporcion muestral . . . . . . . . . . . . . . . 42

1.5 Distribucion muestral de diferencia de dos proporciones muestrales . . . . . . 49

1.6 Distribucion muestral de diferencia de medias . . . . . . . . . . . . . . . . . 52

1.6.1 Datos pareados (muestras dependientes) . . . . . . . . . . . . . . . . 53

1.6.2 Muestras independientes . . . . . . . . . . . . . . . . . . . . . . . . . 55

1.7 Distribucion muestral de la varianza y razon de varianzas muestrales . . . . . 64

1.7.1 Distribucion muestral de la varianza muestral . . . . . . . . . . . . . 64

1.7.2 Distribucion muestral de la razon de dos varianzas . . . . . . . . . . . 69

✍ Ejercicios complementarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

v

Page 3: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 1

3 Pruebas de hipotesis 79

3.1 Conceptos de la prueba de hipotesis . . . . . . . . . . . . . . . . . . . . . . . 80

3.1.1 Comentarios acerca de los terminos “aceptar” y “rechazar” . . . . . . 86

3.2 Prueba para la media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

3.2.1 El caso de muestras grandes . . . . . . . . . . . . . . . . . . . . . . . 87

3.2.2 Caso de muestra pequenas . . . . . . . . . . . . . . . . . . . . . . . . 89

3.3 Pruebas para la proporcion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

3.4 Prueba para la diferencia de dos proporciones . . . . . . . . . . . . . . . . . 92

3.5 Prueba para la diferencia de dos medias . . . . . . . . . . . . . . . . . . . . 95

3.5.1 Primer caso: varianzas poblacionales conocidas o desconocidas y

muestras grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

3.5.2 Segundo caso: varianzas poblacionales iguales, desconocidas y mues-

tras pequenas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

3.5.3 Tercer caso: varianzas poblacionales diferentes, desconocidas y mues-

tras pequenas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

3.6 Prueba para la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

3.7 Prueba para la razon de dos varianzas . . . . . . . . . . . . . . . . . . . . . 105

Indice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

CONTENIDO

Page 4: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

2 Dr. rer. nat. Humberto Llinas

CONTENIDO

Page 5: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

CAPITULO 1

Distribuciones fundamentales de

muestreo

Contenido

1.1 Errores y tecnicas de muestreo . . . . . . . . . . . . . . . . . . . 4

1.1.1 Errores muestrales y no muestrales . . . . . . . . . . . . . . . . . 4

1.1.2 Tecnicas de muestreo aleatorio . . . . . . . . . . . . . . . . . . . 9

1.2 Estadısticos y distribuciones muestrales . . . . . . . . . . . . . . 18

1.3 Distribucion muestral de la media . . . . . . . . . . . . . . . . . 24

1.3.1 El caso para muestras grandes . . . . . . . . . . . . . . . . . . . 28

1.3.2 El caso para muestras pequenas . . . . . . . . . . . . . . . . . . . 31

1.4 Distribucion muestral de una proporcion muestral . . . . . . . 42

1.5 Distribucion muestral de diferencia de dos proporciones mues-

trales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

1.6 Distribucion muestral de diferencia de medias . . . . . . . . . . 52

1.6.1 Datos pareados (muestras dependientes) . . . . . . . . . . . . . . 53

1.6.2 Muestras independientes . . . . . . . . . . . . . . . . . . . . . . . 55

1.7 Distribucion muestral de la varianza y razon de varianzas

muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

1.7.1 Distribucion muestral de la varianza muestral . . . . . . . . . . . 64

1.7.2 Distribucion muestral de la razon de dos varianzas . . . . . . . . 69

✍ Ejercicios complementarios . . . . . . . . . . . . . . . . . . . . . . . 73

3

Page 6: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

4 Dr. rer. nat. Humberto Llinas

☞ Objetivos del capıtulo

1. Desarrollar el concepto de distribucion muestral.

2. Examinar el teorema central del lımite.

3. Analizar la distribucion muestral de la media, proporcion, diferencia de dos medias, dife-

rencia de dos proporciones, varianza y razon de dos varianzas.

☞ Empleo de la estadıstica

≪Un fabricante de neumaticos ha desarrollado un nuevo producto que,

segun cree, tendra una mayor duracion en relacion con las millas recorri-

das comparado con la lınea actual de neumaticos. Para evaluar el nuevo

neumatico, los gerentes necesitan un estimado (o una estimacion) de la me-

dia de las millas que dura el nuevo producto. Selecciona una muestra de

120 neumaticos para probarlos. El resultado de la prueba es una media

de la muestra de 36.500 millas. En consecuencia, se obtuvo 36.500 como

estimado de la media para la poblacion de neumaticos nuevos.≫

Introduccion

En este capıtulo, dedicaremos gran parte de nuestra atencion a analizar problemas que

tienen por objeto averiguar algo acerca de las propiedades de una poblacion a partir de

la informacion proporcionada por una muestra de dicha poblacion. Este es el objetivo

de la estadıstica inferencial. La razon principal para observar una muestra en lugar de la

poblacion completa es el hecho de que la recogida de toda la informacion sera, en la mayorıa

de las ocasiones, exageradamente cara. Incluso en los casos en que se dispone de recursos

suficientes para analizar la poblacion completa, puede resultar preferible dedicar esos re-

cursos a un subconjunto pequeno de la poblacion, con la esperanza que tal concentracion

de esfuerzos produzca medidas mas precisas.

1.1 Errores y tecnicas de muestreo

1.1.1 Errores muestrales y no muestrales

Cuando nos interesa estudiar las caracterısticas de poblaciones grandes, utilizamos muestras

por muchas razones. Una enumeracion completa de poblacion, llamada censo, puede ser

economicamente imposible; o puede no haber tiempo suficiente para examinar a la poblacion

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 7: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 5

completa. En algunas situaciones, el censo puede ser imposible. Por ejemplo, un censo de

la poblacion marina que vive en el oceano Atlantico es imposible.

Ejemplo 1.1.1 A continuacion veremos los usos del muestreo en diversos campos:

• Polıtica. Las muestras de las opiniones de los votantes se usan para que los candidatos

midan la opinion publica y el apoyo en las elecciones.

• Sociologıa. El sociologo que desea conocer las actitudes de los adolescentes frente al aborto,

no emprende la tarea de entrevistar a todos los adolescentes que hay en el paıs sino elige

una muestra de ellos y los entrevista.

• Educacion. Las muestras de las calificaciones de los examenes de estudiantes se usan para

determinar la eficiencia de una tecnica o programa de ensenanza.

• Industria. Muestras de los productos de una lınea de ensamblaje sirve para el proposito de

controlar la calidad.

• Medicina. Un fabricante de drogas que desea saber los resultados de algun medicamento

para bajar la tension en la sangre y compararlo con una droga de la competencia, no lleva

a cabo un experimento con todos los pacientes conocidos que sufran de hipertension.

• Agricultura. Las muestras del maız cosechado en una parcela proyectan en la produccion

los efectos de un fertilizante nuevo.

• Gobierno. Una muestra de opiniones de los votantes se usarıa para determinar los criterios

del publico sobre cuestiones relacionadas con el bienestar y la seguridad nacionales.

Cuando se usan valores muestrales (o estadısticos) para estimar valores poblacionales (o

parametros), pueden ocurrir dos tipos generales de errores: el error muestral y el error no

muestral (o sistematico).

Errores muestrales

Es improbable, por ejemplo, que la media de la muestra fuera identica a la media de la

poblacion. Asimismo, tal vez la desviacion estandar u otra medicion que se calcule con base

en la muestra no sea exactamente igual al valor correspondiente de la poblacion. Ası, es

posible que existan cierta ciertas diferencias entre las estadısticas de la muestra, como la

media o la desviacion estandar de la muestra, y los parametros de la poblacion correspon-

dientes.

1.1. Errores y tecnicas de muestreo

Page 8: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

6 Dr. rer. nat. Humberto Llinas

Definicion 1.1.2 El error muestral es la diferencia entre un estadıstico de la muestra

y el parametro correspondiente de la poblacion.

En general, el error muestral se refiere a la variacion natural existente entre muestras tomadas de

la misma poblacion, cuando una muestra no es copia exacta de la poblacion.

Ejemplo 1.1.3 Se toman muestras de tamano 2 de una poblacion consistente en tres valores:

2, 4 y 6. Supongamos que el muestreo se hace con reemplazo (es decir, el numero elegido se

reemplaza antes de escoger el siguiente) y que se seleccionan muestras ordenadas.1 Halle la media

poblacional, todas las muestras, la media de cada muestra y los errores muestrales.

SOLUCION:

La media poblacional es igual a µ = (2+4+6)/3 = 4. La tabla 1.1 contiene una lista de todas las

muestras ordenadas de tamano 2 que es posible escoger con reemplazo de la poblacion de valores

2, 4 y 6. Tambien contiene las medias muestrales y los correspondientes errores muestrales.

Tabla 1.1: Muestras ordenadas de tamano 2 de la poblacion de valores 2, 4 y 6. ◭

Muestras ordenadas Media muestral x Error muestral e = x − µ

(2,2) 2 2 − 4 = −2

(2,4) 3 3 − 4 = −1

(2,6) 4 4 − 4 = 0

(4,2) 3 3 − 4 = −1

(4,4) 4 4 − 4 = 0

(4,6) 5 5 − 4 = 1

(6,2) 4 4 − 4 = 0

(6,4) 5 5 − 4 = 1

(6,6) 6 6 − 4 = 2

Aun si hemos tenido gran cuidado para asegurar que dos muestras del mismo tamano sean

representativas de una cierta poblacion, no esperarıamos que las dos sean idenditcas en

todos sus detalles. El error es un concepto importante que nos ayudara a entender mejor

la naturaleza de la estadıstica inferencial.

1En una muestra ordenada, el orden en que se escogen las observaciones es importante. Por ejemplo, la

muestra ordenada (2,4) es distinta de la muestra ordenada (4,2). En la muestra (4,2), se escogio primero 4

y luego 2.

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 9: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 7

Errores no muestrales o sistematicos

En los analisis practicos, existe la posibilidad de que aparezca un error que no este rela-

cionado con el procedimiento de muestreo usado. Estos errores aparecerıan tambien si se

tomara un censo de la poblacion completo. Se conocen como errores no muestrales

o sistematicos. En un estudio particular, existen potenciales errores no muestrales por

varias causas, como se muestran los ejemplos 1.1.4, 1.1.5 y 1.1.7.

Ejemplo 1.1.4 (La poblacion de la que realmente se muestrea no es la relevante) Un

celebre ejemplo es el estudio de las actitudes de varios millones de personas, realizado por el

Literary Digest, un periodico popular en ese entonces, para predecir al ganador de la presidencia

en 1936, cuando el republicano Alfred Landon competıa contra el democrata Franklin Rooselvelt.

Los nombres de las personas que se incluyeron en la encuesta los obtuvo el Digest del directorio

telefonico y de otras listas, tales como la de suscriptores de la revista y los registros de automoviles.

Estas fuentes no representaban en absoluto a las clases mas pobres, puesto que mucha gente que

preferıa votar por Roosolvelt no tenıa telefono y no se suscribıa a periodicos. La mayorıa de

los entrevistados mostraron su preferencia por Landon, y el periodico predijo que este candidato

ganarıa por un gran margen. Pero, Landon perdio. La moraleja de la historia es que si uno

quiere realizar inferencia sobre una poblacion (en este caso, el electorado de Estados Unidos), es

importante muestrear de la poblacion y no de algun subgrupo de ella, aunque la segunda opcion

parezca conveniente. ◭

Ejemplo 1.1.5 (Los individuos bajo estudio dan respuestas inexactas o inciertas) Esto

podrıa pasar si las preguntas se redactasen de manera que fuesen difıciles de entender o de forma

que parezca que una respuesta particular es mas aceptable o mas deseable. Ademas, muchas

preguntas que uno desearıa formular pueden ser delicadas y serıa temerario esperar respuestas

uniformemente sinceras. Supongamos, por ejemplo, que el director de una fabrica quiere valorar

las perdidas anuales de la companıa debidas a robos de los empleados. En principio, podrıa se-

leccionarse una muestra aleatoria de empleados y preguntarles: “¿Que ha robado usted de esta

fabrica en los ultimos doce meses?” Claramente, ¡esta no es la mejor forma de proceder para

obtener la informacion deseada! De hecho, ya hemos hablado de una posibilidad para abordar

este problema. Para obtener una descripcion y una ilustracion de este procedimiento (llamado el

metodo de respuesta aleatorizada) se puede acudir a los ejemplos ?? y ??. ◭

El sesgo de las muestras es un tipo de error no muestral.

Definicion 1.1.6 El sesgo muestral es la tendencia sistematica a favorecer la seleccion

de ciertos elementos de una muestra en lugar de otros.

Ejemplo 1.1.7 (Otra posibilidad surge de la no respuesta) Si esta es importante, puede

inducir a errores muestrales y sistematicos adicionales. Los errores muestrales surgen como conse-

cuencia de que el tamano muestral conseguido sea mucho menor de lo que se esperaba. Los errores

1.1. Errores y tecnicas de muestreo

Page 10: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

8 Dr. rer. nat. Humberto Llinas

sitematicos pueden presentarse si la poblacion que ha sido muestreada no es la poblacion de in-

teres. Los resultados obtenidos pueden considerarse como una muestra aleatoria de la poblacion

de los individuos que responderıan. Estas personas pueden ser distintas de la poblacion general

en algun sentido importante. Si esto es ası, inducira un sesgo en las estimaciones resultantes.

Si se sospecha que el sesgo de la no respuesta presumiblemente sera molesto, hay tres posibil-

idades abiertas. Primero, el investigador puede solicitar informacion mediante un mecanismo del

que se sepa que produce una proporcion de respuestas altas. Segundo, hasta donde sea posible,

deben compararse las caracterısticas de los individuos que responden y de los que no, en aspec-

tos tales como sexo, edad y raza, para comprobar si hay diferencias obvias entre los dos grupos.

Finalmente, se debe intentar entrar en contacto con los individuos que no respondieron, algunos

de los cuales pueden estar bien dispuestos para contestar a unas pocas preguntas claves. Si sus

respuestas difieren significativamente de las de los individuos que respondieron al principio, debe

hacerse una correccion del sesgo de la no respuesta. ◭

Es importante senalar que el sesgo muestral se refiere a una tendencia sistematica inheren-

te a un metodo de muestreo que da estimaciones de un parametro que son, en promedio,

menores (sesgo negativo), o mayores (sesgo positivo), que el parametro real. Los

ejemplos 1.1.4 y 1.1.8 ilustran situaciones para errores que resultan de colecciones de datos

que caen en esta categorıa.2

Ejemplo 1.1.8 Si queremos obtener informacion relativa a las actitudes hacia el aborto y ob-

tenemos una muestra que consta proponderadamente de hombres, podrıamos encontrar un sesgo

muestral. ◭

Los errores que resultan de la acumulacion de datos o de su procesamiento se clasifican

tambien como errores no muestrales, como se ilustra en el siguiente ejemplo.

Ejemplo 1.1.9 Al recabar datos pueden generarse errores no muestrales cuando los instrumentos

usados para realizar las mediciones estan fuera de ajuste o mal calibrados. Pueden ocurrir errores

de procesamiento si los datos estan mal colocados, si se pierden al registrarlos o si las respuestas

proporcionadas por las personas durante el estudio no son verdaderas. Este ultimo caso puede

darse con preguntas relativas a la edad, en las que mucha gente miente por vanidad. ◭

No existe un procedimiento general para identificar y analizar errores sistematicos. No ob-

stante, los efectos de estos errores pueden ser muy importantes. La principal recomendacion

es que el investigador ponga cuidado en cosas tales como identificar la poblacion relevante,

disenar el cuestionario y tratar la no respuesta de manera que minimice su importancia.

En el resto de este capıtulo, asumiremos que se han tomado estas precauciones, y nuestra

exposicion se centrara en el tratamiento de los errores muestrales.

2En el ejemplo 1.1.4, la muestra estaba fuertemente sesgada a favor de Landon.

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 11: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 9

1.1.2 Tecnicas de muestreo aleatorio

El sesgo muestral puede suprimirse, o minimizarse, usando el principio de aleatori-

zacion. Este principio se refiere a cualquier proceso de seleccion de una muestra de la

poblacion en el que la seleccion es imparcial o no esta sesgada. Una muestra elegida con

procedimientos aleatorios se llama muestra aleatoria. Los tipos mas comunes de tecnicas de

muestreo aleatorio son el muestreo aleatorio simple, el muestreo estratificado, el muestreo

por conglomerados y el muestreo sistematico. Ahora, explicaremos brevemente cada uno de

ellos.

Muestreo aleatorio simple

Como ya se ha dicho anteriormente, para evitar el sesgo muestral y lograr inferencias validas

acerca de la poblacion, es importante que el proceso de seleccion de la muestra este basado

en el principio de aleatorizacion. La forma mas sencilla para conseguir esto es disenar un

mecanismo de seleccion en el cual todas las muestras de un tamano dado tengan la misma

probabilidad de ser elegidas. Esto conduce a la siguiente

Definicion 1.1.10 Un procedimiento de muestreo aleatorio simple es aquel en el

que todas las posibles muestras del mismo tamano tienen la misma probabilidad de ser

escogidas. A las muestras obtenidas por procedimientos de este tipo se las denomina

muestras aleatorias simples.

Este metodo se usa con tanta frecuencia que, en muchos casos, el adjetivo “ simple” se elimina de

ambos terminos definidos anteriormente.

Ejemplo 1.1.11 Se asume que una cadena nacional de comidas rapidas desea seleccionar aleato-

riamente 5 de los 10 estados de un paıs para tomar muestras sobre el gusto de los consumidores.

Una muestra aleatoria simple garantizara que las(

105

)

= 252 muestras de tamano 5 tengan la

misma probabilidad de ser utilizada en el estudio. En este caso, la probabilidad de escoger una

muestra aleatoria simple de tamano 5 sera

P (escoger una muestra de tamano 5) =1

(

105

) =1

252≈ 0, 00397 ≈ 0, 397%.

Analogamente, la probabilidad de escoger una muestra aleatoria simple de tamano 7 sera

P (escoger una muestra de tamano 7) =1

(

107

) =1

120= 0, 00833 ≈ 0, 83%. ◭

Puede pensarse en el proceso de muestreo aleatorio simple de la forma siguiente: Supon-

gamos que los miembros de la poblacion se introducen en una caja y se mezclan entre sı.

1.1. Errores y tecnicas de muestreo

Page 12: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

10 Dr. rer. nat. Humberto Llinas

Una muestra aleatoria se obtiene extrayendo, digamos, n de ellos. En la practica, para el

caso de una poblacion finita, (digamos, con N individuos) no es necesario hacerlo de este

modo; pueden usarse tablas de numeros aleatorios para conseguir el mismo resultado.

Definicion 1.1.12 Una tabla de numeros aleatorios consiste en una tabla de

numeros que se hace y se presenta en tal forma que cada uno de los numeros 0 a 9 aparecen

en ella con una frecuencia aproximadamente igual. Es decir, cada uno de estos numeros

aparecen en la tabla con la misma probabilidad.

Las tablas estan construidas de forma que el proceso descrito en la definicion 1.1.12 tiene

las mismas propiedades que el muestreo aleatorio simple. Una de las posibles formas de

construir una tabla de numeros aleatorios consistirıa en meter en un caja 10 bolas numer-

adas de 0 a 9. Despues de haberlas mezclado bien, se extrae una de las bolas y se anota

su numero. A continuacion se devuelve esta bola a la caja y se repite el proceso. Puede

repetirse el procedimiento para obtener numeros con tantas cifras como se precisen. Este

proceso tiene la propiedad de que cada uno de los posibles numeros tiene la misma pro-

babilidad, y las elecciones sucesivas son independientes unas de otras. El problema es que

resulta extremadamente tedioso.

En la practica, pueden generarse numeros aleatorios de manera mucho mas rapida con

la ayuda de un computador, ya que existen mecanismos que imitan de forma efectiva el

procedimiento que acabamos de describir. La tabla del apendice es una pagina de numeros

aleatorios, tomados de una tabla que contine un millon de dıgitos aleatorios. Expliquemos

el procedimiento de sacar una muestra aleatoria simple por medio de un ejemplo.

Ejemplo 1.1.13 Hay 180 estudiantes de primer ano en un colegio rural. Con el fin de obtener

informacion acerca de la costumbre que tienen los estudiantes de ver television, un consejero de

orientacion desea seleccionar una muestra aleatoria simple de diez estudiantes para llenar un cues-

tionario. En la oficina del rector se encuentra una lista alfabetica de los estudiantes numerados

consecutivamente de 1 a 180. El consejero utiliza la tabla del apendice para determinar que estu-

diantes formaran la muestra.

Como el numero de estudiantes de la poblacion es de 180 (un numero de tres dıgitos) es con-

veniente pensar en los numeros de 1 a 180 como los numeros 001, 002, 003, . . ., 180. Solamente

se aprovecharan los numeros de tres dıgitos que queden entre 001 y 180.

El consejero selecciona al azar un punto de partida en la pagina de los numeros aleatorios cerrando

los ojos y tocando con la punta de su lapiz. El numero que quede mas cerca a la punta de su

lapiz es el punto de partida. La punta del lapiz toca el papel en un punto que esta mas cercano

al numero 1, ubicado en la interseccion de la fila 36 y la columna 7, que a cualquier otro numero

(vease la tabla 1.2a).

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 13: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 11

Tabla 1.2: Una parte de tabla de numero aleatorios.

......

66790 72193 · · ·16427 71681 · · ·

63988 0 1 319 · · ·67468 22553 · · ·

......

(a) El 1 esta en la fila

36 y la columna 7.

......

66790 72193 · · ·16427 71681 · · ·

63988 0 131 9 · · ·67468 22553 · · ·

......

(b) El primer numero

de tres dıgitos es 131.

......

66790 72193 · · ·16427 71681 · · ·

63988 01319 · · ·67468 2 255 3 · · ·

......

(c) El siguiente numero

a 131 es 225.

Como el primer numero de tres dıgitos que hay en esta posicion es 131 (vease la tabla 1.2b), el

estudiante numero 131 de la lista queda incluido en la muestra. El consejero mueve hacia abajo

(la direccion del movimiento es arbitraria y pudo haber sido hacia arriba, hacia la diagonal, etc.)

el lapiz hasta el siguiente numero de tres dıgitos que, como es 225 (vease la tabla 1.2c), no se

puede utilizar.

Siguiendo hacia abajo, los siguientes numeros utilizables son 063 y 120 (vease la tabla 1.3a). Por

tanto, los estudiantes 63 y 120 quedan incluido en la muestra. Cuando el consejero llegue hasta

el final de la pagina, simplemente mueve hacia la derecha un dıgito, que segun la tabla 1.3b, serıa

302. Como este numero no es utilizable, tiene en cuenta los numeros de tres dıgitos que van

hacia arriba3 y que son utilizables como, por ejemplo, el 065 (vease la tabla 1.3c). Al final, el

procedimiento seguido por el consejero arroja los siguientes numeros aleatorios:

131, 063, 120, 065, 154, 117, 002, 166, 031, 101.

Por tanto, la muestra aleatoria simple consta de los 10 estudiantes identificados con estos numeros

en la lista. ◭

El muestreo aleatorio simple se puede llevar a cabo de dos maneras: con reemplazo o sin

reemplazo. Cuando el muestreo es sin reemplazo, solamente se permite a una entidad

dada aparecer una vez en la muestra. Cuando se emplean los numeros aleatorios para se-

leccionar la muestra, se descartan los numeros repetidos cuando salen. Cuando el muestreo

es con reemplazo, no hay ningun lımite para el numero de veces que una entidad pueda

aparecer en la muestra. En las aplicaciones practicas se usa el muestreo sin reemplazo.

Es imposible determinar por simple inspeccion si una muestra es aleatoria o no. Para

3Nuevamente, la direccion es arbitraria. Por ejemplo, el consejero pudo haber corrido el lapiz hacia la

izquierda o empezar en la parte superior de la pagina.

1.1. Errores y tecnicas de muestreo

Page 14: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

12 Dr. rer. nat. Humberto Llinas

Tabla 1.3: Una parte de tabla de numero aleatorios.

......

63988 0 131 9 · · ·67468 22553 · · ·

......

70321 26394 · · ·98710 5 063 9 · · ·

......

57652 46065 · · ·35933 3 120 3 · · ·

......

69865 39302 · · ·

(a) Los siguientes

numeros son 063 y 120.

......

63988 01319 · · ·67468 22553 · · ·

......

70321 26394 · · ·98710 50639 · · ·

......

57652 46065 · · ·35933 31203 · · ·

......

69865 39 302 · · ·

(b) Al final, se corre un

dıgito a la derecha.

......

63988 01319 · · ·67468 22553 · · ·

......

70321 26394 · · ·98710 50639 · · ·

......

57652 46 065 · · ·35933 31203 · · ·

......

69865 39302 · · ·

(c) El siguiente

numero utilizable es

065.

determinar si una muestra es aleatoria, debemos conocer el proceso de seleccion que se uso.

Ilustremos esto a traves del siguiente

Ejemplo 1.1.14 Suponga que queremos elegir tres meses al ano para estudiar cierto compor-

tamiento ambiental y que hemos escogido enero, julio, octubre y noviembre. ¿Representan estos

cuatros meses una muestra aleatoria?

SOLUCION:

A partir de la informacion dada, es imposible decir si esta muestra es aleatoria. Estos meses

pueden haber sido escogidos porque estan distribuidos a lo largo del ano y siendo ası, la muestra

no es aleatoria. Si embargo, si se escogieron con la ayuda de una tabla de numeros aleatorios o

de otros procedimientos aleatorios, entonces, sı representan una muestra aleatoria. ◭

Muestreo estratificado

Consideremos inicialmente el siguiente

Ejemplo 1.1.15 El Ministerio de Agricultura de cierto pais se intereso en el impacto de las

condiciones de sequıa sobre la produccion de trigo. Especial preocupacion causo la tasa de ban-

carrota que hacıa que los granjeros perdieran sus tierras. Se sentıa que un conteo de los niveles de

produccion por parte de los agricultores de las cuatro ciudades golpeadas mas duramente por la

sequıa, podrıan probar que son utiles en el diseno de un programa de alivio. El ministerio decidio

que deberıa tomarse una muestra de la cosecha de este ano por varios cientos de agricultores de

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 15: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 13

cada ciudad.

Sin embargo, se noto que el numero de agricultores era muy diferente en cada estado. Si se

tomaba una muestra aleatoria simple de las cuatro ciudades como un todo, podrıa incluir pro-

porcionalmente pocos agricultores de algunas ciudades y demasiados de otras ciudades. Esto

resultarıa en una muestra no representativa, lo cual incrementarıa el error de muestreo.

El Ministerio decidio dividir a todos los agricultores en subgrupos o estratos y de cada sub-

grupo tomar muestras aleatorias. En este caso, los subgrupos logicos serıan las cuatro ciudades

en mencion. ◭

El ejemplo anterior trata sobre una de las muchas situaciones en las cuales el muestreo

aleaorio simple es poco practico, imposible o no deseado. El procedimiento utilizado por el

Ministerio para la seleccion de una muestra se cononoce con el nombre de muestreo estrat-

ificado.

Definicion 1.1.16 Suponga que una poblacion de N individuos puede subdividirse enK grupos mutuamente excluyentes (disyuntos), llamados estratos. El muestreo(aleatorio) estratificado es la seleccion de muestras aleatorias simples independi-entes de cada uno de los estratos de la poblacion.

Dos observaciones importantes son las siguientes:

• Si los K estratos de la poblacion contienen N1, N2, . . . , Nk elementos, entonces, N1+N2+ · · ·+Nk =

N .

• No es necesario tomar muestras con el mismo numero de elementos en cada estrato. Si representamos

los tamanos muestrales de cada estrato por n1, n2, . . . , nk, entonces, el tamano total de la muestra

es n = n1 + n2 + · · · + nk.

Ejemplo 1.1.17 Suponga que nos interesa obtener una muestra de las opiniones de los profesores

de una gran universidad sobre un grupo importante. Puede ser difıcil obtener una muestra con

todos esos profesores, ası que supongamos que elegimos una muestra aleatoria de cada colegio o

departamento academico. Los estratos vendrıan a ser esos colegios o departamentos academicos.

El muestreo estratificado se usa frecuentemente para encuestas de opinion nacional porque

las opiniones tienden a variar mas entre localidades diferentes que al interior de las mis-

mas. Para esta aplicacion, los criterios para formarlos deben asegurar que las observaciones

dentro de cada uno se asemejen tanto como sea posible. Estas observaciones han de tener

menos variacion que la existente entre observaciones de estratos diferentes.

Otro hecho que es importante mencionar es lo siguiente: una vez que la poblacion se

divide en estratos, es posible seleccionar una muestra proporcional o no proporcional.

1.1. Errores y tecnicas de muestreo

Page 16: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

14 Dr. rer. nat. Humberto Llinas

Definicion 1.1.18 En un muestreo estratificado proporcional, la proporcion

muestral de elementos de un estrato es la misma que la proporcion poblacional de elementos

de ese estrato. Es decir, para el j-esimo estrato, tenemos

nj

n=

Nj

N, luego nj =

Nj

N· n,

siendo Nj, N , nj y n como en la definicion 1.1.16. Por el contrario, en un muestreo

estratificado no proporcional, la cantidad de elementos que se seleccionan en cada

estrato no guarda proporcion con los numeros respectivos en la poblacion.

Ejemplo 1.1.19 Si en el ejemplo 1.1.15, el procedimiento utilizado por el Ministerio de Agricul-

tura es el muestreo estratificado proporcional, entonces, la proporcion de agricultores incluidos en

la muestra de cada ciudad debe ser igual a todas las proporciones de todos los agricultores en cada

ciudad. Por ejemplo, si los agricultores de una ciudad constituıan el 30% de todos los agricultores

de todas las ciudades, entonces, un 30% de los agricultores de la muestra serıan seleccionadas

aleatoriamente de esa ciudad. ◭

En algunos casos el muestreo estratificado tiene la ventaja de poder reflejar con mayor

precision las caracterısticas de la poblacion que un muestreo aleatorio simple, como se

muestra en el siguiente

Ejemplo 1.1.20 Suponga que se quiere estudiar los gastos de publicidad de 352 empresas de un

pais y que el objetivo del estudio consiste en determinar si las empresas con altos rendimientos

sobre su inversion (una medicion de rentabilidad) ha gastado una mayor proporcion de su pre-

supuesto de ventas de publicidad que las empresas que tienen un menor rendimeinto o incluso un

deficit. Supongase que las empresas se dividieron en cinco estratos y que en total se van a escoger

50 empresas (vease la tabla 1.4).

Observese que el 2 por ciento de las empresas tienen un rendimeinto sobre la inversion de 30 por

ciento o mas (estrato 1) y el 1 por ciento tiene un deficit (estrato 5). Si se tomara una muetra

aleatoria simple de 50 empresas, quizas por azar no se habrıa seleccionado ninguna empresa en

los estratos 1 o 5. Una muestra aleatoria estratificada asegurarıa que al menos una empresa del

estrato 1 y otra del estrato 5 estan representadas en la muestra. ◭

Muestreo por conglomerados

Supongamos que un investigador quiere estudiar una poblacion que se extiende sobre una

amplia area geografica, como una ciudad o una region. Si se usa un muestreo aleatorio

simple o un muestreo aleatorio estratificado, inmediatamente surgen dos problemas. En

primer lugar, para extraer la muestra, el investigador necesita una lista razonablemente

precisa de los elementos de la poblacion. Esta lista puede no estar disponible o puede ser

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 17: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 15

Tabla 1.4: Numero seleccionado para una muestra aleatoria estratificada proporcional

Rentabilidad Numero mues-

Estrato (Rendimiento Numero Numero treado se en-

sobre la inversion) de firmas muestreado cuentra por

1 30 por ciento y mas 8 1 8352

× 50

2 De 20 a 30 por ciento 35 5 35352

× 50

3 De 10 a 20 por ciento 189 27 189352

× 50

4 De 0 a 10 por ciento 115 16 115352

× 50

5 Deficit 5 1 5352

× 50

TOTAL 352 50

que obtenerla conlleve un elevado costo. En segundo lugar, incluso el investigador posee una

lista de la poblacion, los miembros de la muestra resultante, casi inevitablemente, estaran

dispersos por una extensa area. En ese caso, contactar con cada individuo de la muestra

puede ser muy costoso. Desde luego, si se envıa un cuestionario por correo, este ultimo

problema no aparece. Sin embargo, esta manera de obtener la informacion puede acarrear

una tasa de no respuesta inevitablemente alta, por lo que el investigador preferira utilizar

entrevistas personales.

Para afrontar cualquiera de los dos problemas expuestos en el parrafo anterior, el investi-

gador puede usar un procedimiento de muestreo alternativo conocido como muestreo por

conglomerados.

Definicion 1.1.21 Supongamos que una poblacion puede dividirse convenientemente en

unidades relativamente pequenas y geograficamente compactas llamadas conglomerados

(por ejemplo, una ciudad puede dividirse en distritos o barrios). En el muestreo por

conglomerados, se selecciona de la poblacion una muestra aleatoria simple de conglom-

erados, y se contacta con cada individuo de los conglomerados de la muestra, es decir, se

lleva a cabo un censo completo en cada uno de los conglomerados elegidos.

Ejemplo 1.1.22 Suponga que una companıa de servicio de television por cable esta pensando en

abrir una sucursal en una ciudad grande. La companıa planea realizar un estudio para determinar

1.1. Errores y tecnicas de muestreo

Page 18: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

16 Dr. rer. nat. Humberto Llinas

el porcentaje de familias que utilizarıan sus servicios. Como no es practico preguntar en cada

casa, la empresa decide escoger una parte de la ciudad al azar para estudiar ahı cada hogar. Esa

parte de la ciudad forma un conglomerado. ◭

Ejemplo 1.1.23 Consideremos la situacion del ejemplo 1.1.15. El Ministerio de Agricultura, en

su estudio sobre las condiciones de sequıa, puede decidir que una muestra por conglomerados es

preferible. Una muestra por conglomerados se toma identificando los barrios en cada ciudad como

conglomerados. Una muestra de estos barrios (conglomerados) se selecciona luego aleatoriamente

utilizando una tabla de numeros aleatorios o algun otro medio generalmente aceptado. Todos los

agricultores seleccionados de esta manera en los barrios estan incluidos en la muestra. Este pro-

cedimiento con frecuencia es mas facil y rapido que el muestreo aleatorio simple o el estratificado.

Por ejemplo, si es necesario viajar a cada finca de la muestra para observar los efectos de la sequıa,

es mas facil visitar varios agricultores en el mismo barrio. ◭

En el muestreo por conglomerados, estos se forman para representar, tan fielmente como

sea posible, a toda la poblacion. Entonces, se usa una muestra aleatoria simple de cada con-

glomerado para estudiarla. Los estudios de instituciones sociales como iglesias, hospitales,

escuelas y prisiones se realizan, generalmente, con base en el muestreo por conglomerados.

La poblacion completa puede estudiarse de manera efectivamente el analisis de sus copias en

miniatura o conglomerados. Si un conglomerado es muy grande para analizarse de manera

completa, pueden elegirse aleatoriamente algunos de sus elementos.

Muestreo sistematico

Definicion 1.1.24 El muestreo sistematico es una tecnica de muestreo que requiere

de una seleccion aleatoria inicial de observaciones seguida de otra seleccion de observaciones

obtenida usando algun sistema o regla.

Ejemplo 1.1.25 Para obtener una muestra de suscriptores telefonicos en una ciudad grande,

puede sacarse primero una muestra aleatoria de los numeros de las paginas del directorio telefonico.

Al elegir el vigesimo nombre de cada pagina obtendrıamos un muestreo sistematico. Tambien

podemos escoger un nombre de la primera pagina del directorio y despues escoger cada nombre

del lugar numero cien a partir del ya escogido. Por ejemplo, podrıamos seleccionar un numero

al azar de entre los primeros 100. Supongamos que el elegido es el 40. Entonces, escogemos los

nombres del directorio que corresponden a los numeros 40, 140, 240, 340 y ası sucesivamente. ◭

En general, un muestreo sistematico se analiza de la misma manera que un muestreo aleao-

torio simple, ya que, en relacion al asunto que se estudia, la lista de la poblacion ya esta

en orden aleatorio. El peligro es que pueda haber algun sutil e inesperado vınculo ente el

orden de la poblacion y el asunto que se estudia. Por este motivo, al emplear un muestreo

sistematico puede inducirse un sesgo. En otras palabras, no debe utilizarse un muestreo

sistematico si existe un patron o arreglo que se relacione con el elemento de interes.

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 19: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 17

✍ Ejercicios de la seccion 1.1

1. Use el primer dıgito de la quinta fila de la tabla aleatoria del apendice como punto de partida

y, moviendose horizontalmente a la derecha, seleccione una muestra aleatoria de tamano 13

de la lista de los estudiantes de su curso de Estadıstica.

2. Simule el lanzamiento de un moneda 12 veces usando la tabla aleatoria del apendice. Em-

piece con el tercer dıgito de la sexta fila y muevase verticalmente hacia abajo.

3. Un distribuidor de computadores nuevos quiere obtener una muestra aleatoria de 20 opin-

iones relativas a un ultimo modelo, de entre 85 clientes a partir de la lista de direcciones de

quienes compraron computadores nuevos el ano pasado. Explique como podrıa seleccionarse

la muestra con la ayuda de una tabla de numeros aleatorios.

3. Asignemos un numero de dos dıgitos de 00 a 84 a cada uno de los 85 clientes. Luego, desde

un punto aleatorio de partida en la tabla, nos movemos horizontalmente a la derecha hasta

escoger 20 clientes.

4. Consideren las primeras diez filas de la tabla aleatoria del apendice y anote la frecuencia

con la que figura cada dıgito. ¿Cuantas veces esperarıa usted que aparezca cada numero?

5. Para el ejercicio 4, ¿piensa usted que la variacion entre las frecuencias observadas y la

frecuencia de cada dıgito indica una variacion debido al error muestral? Complete la tabla

adjunta y encuentre el promedio de los errores muestrales.

Dıgito Frecuencia Frecuencia esperada Error muestral

0

1

2

3

4

5

6

7

8

9

6. Comience con el primer dıgito de la sexta fila y muevase horizontalmente a la derecha, en

la tabla aleatoria del apendice, para elegir una muestra aleatoria de 12 lanzamientos de un

dado. Construya una tabla semejante a la del ejercicio 5 y encuentre el promedio de los

errores muestrales

7. ¿Dan lugar los siguientes procedimientos a muestras aleatorias? Explique por que sı o por

que no.

(a) Para obtener una muestra aleatoria de profesores en un grupo, escoja a todos los que

tienen carro.

1.1. Errores y tecnicas de muestreo

Page 20: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

18 Dr. rer. nat. Humberto Llinas

(b) Para lograr una muestra aleatoria de habitantes de cierta ciudad elija a cada cuarta

persona que entra por la puerta de una de las tiendas de la ciudad.

(c) Para conseguir una muestra aleatoria de los estudiantes matriculados en cierta universi-

dad, seleccionelos usando una tabla de n umeros aleatorios y los ultimos cuatro dıgitos

de su carnet de estudiante.

7. (a) No (b) No (c) Sı

8. Se va a escoger una muestra de 5 administradores en una poblacion de 200 para participar

en una capacitacion.

(a) Etiquete a los maestros de 001 a 200. ¿Cuales se escogeran para la capacitacion si se

usa la tabla aleatoria del apendice y el punto de partida es el primer dıgito de la cuarta

fila en la segunda columna y los dıgitos se leen horizontalmente para la derecha?

(b) Un proceso mas eficiente de la seleccion requiere clasificar a los administradores como en

la parte (a), y asignar los numeros 001, 201, 401, 601 y 801 al primer maestro, 002, 202,

402, 602 y 802 al segundo, 003, 203, 403, 603 y 803 al tercer maestro..., y 200, 400, 600,

800 y 000 al ultimo maestro. Escoja una muestra aleatoria de cinco administradores

usando este esquema y empezando en el mismo punto.

9. ¿Constituye la muestra no ordenada (1,3,5,7,9) una muestra aleatoria de la poblacion de

todos los numeros enteros del 1 al 10, inclusive? Explique.

9. No.

1.2 Estadısticos y distribuciones muestrales

A partir de esta seccion, nos centraremos en metodos para analizar los resultados muestrales

con el fin de obtener informacion acerca de la poblacion. Por el momento nos limitaremos

a muestras que hayan sido seleccionadas mediante esquemas de muestreo aleatorio simple

(vease la definicion 1.1.10). Sin embargo, como ya se explicado en la seccion 1.1.2, este

no es el unico procedimiento que existe para elegir individuos de la poblacion, y que, en

determinadas circunstancias, pueden resultar preferibles esquemas de muestreo alternativos.

El principio de aleatorizacion en la seleccion de los miembros de la muestra proporciona

cierta proteccion contra la presencia en la muestra de individuos no representativos de la

poblacion, en el sentido de que, en media, si se extraen repetidas muestras de la poblacion

segun este mecanismo, ningun subgrupo particular deberıa estar mas representado en la

muestra. Ademas, el concepto de distribucion muestral nos permite determinar la pro-

babilidad de que la muestra particular que se ha obtenido no sea representativa en un

determinado grado.

Sobre la base de la informacion muestral, nuestro objetivo sera hacer inferencias acerca

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 21: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 19

de la poblacion de la que procede la muestra. La distribucion de todos los valores de interes

de esta poblacion puede ser representada a traves de una variable aleatoria. Serıa demasi-

ado ambicioso pretender describir completamente la distribucion poblacional basandonos

en una pequena muestra aleatoria de observaciones. Sin embargo, sı seremos capaces de

hacer inferencias bastante firmes sobre algunas de las caracterısticas mas importantes de la

distribucion poblacional como se ilustra en el siguiente

Ejemplo 1.2.1 Dada una muestra aleatoria de consumo de combustible de 20 autos de un deter-

minado modelo, se puede hacer inferencia sobre la media y la varianza del consumo de combustible

de todos los autos de ese modelo. Tal inferencia estara basada en la informacion muestral, y sera

natural plantearnos cuestiones del tipo: “Si el consumo de combustible de todos los autos de un

determinado modelo, medido en kilometros por litro, tiene una media de 10 y una desviacion

estandar de 2, ¿cual es la probabilidad de que, en una muestra aleatoria de 18 autos de ete tipo, el

consumo medio de combustible sea menor de 8 kilometros por litro?”. Al plantearnos la pregunta

de este modo, estamos asumiendo implıcitamente que las inferencias sobre la media poblacional

estaran basadas en la media muestral. ◭

Es importante distinguir entre las caracterısticas poblacionales y sus correspondientes can-

tidades muestrales. En el ejemplo 1.2.1, el consumo de combustible de todos los automoviles

de ese modelo tendra una distribucion con una determinada media. Esta media, que es un

atributo, se extrae una muestra de la poblacion y se calcula su media muestral. Puesto

que para cada muestra que se extraiga se obtendra un valor diferente de la media muestral,

podemos pensar en esta cantidad como en una variable aleatoria con una cierta distribucion

de probabilidad. La distribucion de probabilidades de los posibles resultados muestrales

proporciona una base para realizar inferencias sobre la poblacion. Nuestro objetivo en este

capıtulo sera examinar las propiedades de distribuciones muestrales de este tipo.

Definicion 1.2.2 Supongamos que se ha extraıdo una muestra aleatoria de una poblacion

y que se desea hacer inferencia sobre ciertas caracterısticas de la distribucion de la

poblacion. Esta inferencia estara basada en algun estadıstico muestral, es decir, en

alguna funcion particular de la informacion muestral.

Matematicamente, un estadıstico muestral puede definirse de la siguiente manera: Sean X1, . . . ,Xn

variables aleatorias de tal forma que el vector aleatorio (X1, . . . ,Xn) conforme una muestra aleatoria

extraida de alguna poblacion. Entonces, un estadıstico muestral para esta muestra es un funcıon que

depende solo de las variables aleatorias X1, . . . ,Xn.

Algunos ejemplos tıpicos de estadısticos son la media muestral, la mediana muestral, la

moda muestral, el rango muestral, la varianza muestral, la desviacion estandar muestral y

la proporcion muestral, entre otros.

1.2. Estadısticos y distribuciones muestrales

Page 22: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

20 Dr. rer. nat. Humberto Llinas

Debido a que un estadıstico muestral tambien es una variable aleatoria (por ser funcion

de variales aleatorias), entonces, ese estadıstico posee una distribucion. Esto conduce a la

siguiente

Definicion 1.2.3 La distribucion de un estadıstico muestral recibe el nombre de dis-

tribucion muestral, o distribucion en el muestreo y se define como la distribucion

de probabilidades de los valores que puede tomar el estadıstico a lo largo de todas las posibles

muestras con el mismo numero de observaciones que pueden ser extraıdas de la poblacion.

Para ilustrar la importancia del concepto de distribucion muestral, consideremos el siguiente

Ejemplo 1.2.4 Supongamos que un supervisor tiene a su cargo a seis empleados, cuyas experien-

cias (medidas en anos de trabajo) son 2, 4, 6, 6, 7 y 8. Se eligen al azar cuatro de estos empleados

y se les asigna una nueva tarea. Facilmente se puede determinar que el numero medio de anos

de experiencias para los seis empleados es 5,5. Estamos interesados en el numero medio de anos

de experiencia para los cuatros empleados concretos a los que se les ha asignado el cambio de

tarea. Podemos pensar en este ejemplo como en una muestra aleatoria simple de cuatro valores

extraıdos de una poblacion de seis. El numero de muestras diferentes que pueden ser seleccionadas

es(

64

)

= 15. En la tabla 1.5 aparece cada una de las posibles muestras con su correspondiente

media muestral. Las muestras como (2, 4, 6, 7) aparecen dos veces porque hay dos empleados en

la poblacion con seis anos de experiencia de trabajo.

Tabla 1.5: Posibles muestras de cuatro observaciones con sus correspondientes medias mues-

trales para la poblacion 2, 4, 6, 6, 7 y 8.

Muestra Media muestral Muestra Media muestral

2,4,6,6 4,50 2,6,7,8 5,75

2,4,6,7 4,75 2,6,7,8 5,75

2,4,6,8 5,00 4,6,6,7 5,75

2,4,6,7 4,75 4,6,6,8 6,00

2,4,6,8 5,00 4,6,7,8 6,25

2,4,7,8 5,25 4,6,7,8 6,25

2,6,6,7 5,25 6,6,7,8 6,75

2,6,6,8 5,50

Puesto que todas las posibles muestras tienen la misma probabilidad de ser seleccionadas, la

probabilidad que tiene cada una de las muestras de ser elegidas es 1/15. Usando esta informacion,

podemos determinar la probabilidad de cada uno de los valores de la media muestral. Para ello,

podemos construir la distribucion de frecuencias de la media, como se muestra en la tabla 1.6.

Por ejemplo, en la tabla 1.5, vemos que tres de las posibles muestras tienen media 5, 75; dos de las

posibles muestras tienen media 5, 25, etc. Por tanto, la probabilidad de que los cuatros empleados

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 23: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 21

Tabla 1.6: Distribucion de frecuencias para las medias muestrales de la tabla 1.5

Media muestral 4,50 4,75 5,00 5,25 5,50 5,75 6,00 6,25 6,75

Frecuencia 1 2 2 2 1 3 1 2 2

seleccionados para la nueva tarea tangan una experiencia media de 5,75 anos es de 3/15. De la

misma forma podemos encontrar la probabilidad de cada una de las posibles medias muestrales.

La coleccion de todas estas probabilidades constituye la distribucion muestral de la media muestral.

La forma mas simple de describir esta distribucion es, posiblemente, a traves de su funcion de

probablidad. Si representamos la media muestral por X, a un posible valor de X por x y a la

correspondiente funcion de probabilidad de X por fX , entonces, la distribucion muestral de X es

como se muestra en la tabla 1.7

Tabla 1.7: Distribucion de probabilidades para la media muestral

x 4,50 4,75 5,00 5,25 5,50 5,75 6,00 6,25 6,75

fX 1/15 2/15 2/15 2/15 1/15 3/15 1/15 2/15 2/15

El grafico de esta funcion de probabilidad aparece en la figura 1.1.

Figura 1.1: Funcion de probabilidad de la distribucion de la distribucion muestral de la

media de cuatro observaciones extraıdas de la poblacion 2, 4, 6, 6, 7 y 8.

Notese que, mientras que el numero de anos de trabajo de los seis trabajadores se mueve entre

dos y ocho, los valores posibles de la media muestral tienen un rango mucho mas restringido: de

1.2. Estadısticos y distribuciones muestrales

Page 24: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

22 Dr. rer. nat. Humberto Llinas

4,5 a 6,75. Ademas, la mayor parte de la probabilidad se situa en la zona central de este rango.

En la siguiente seccion, analizaremos la distribucion muestral de la media muestral para

poblaciones mas generales.

✍ Ejercicios de la seccion 1.2

10. Suponga que de la poblacion de valores 2, 5 y 12 se toman nueve muestras de tamano 2 con

reemplazo.

(a) Construya una distribucion de frecuencias para las nueve sumas muestrales.

(b) Verifique que la media de la distribucion muestral de la suma muestral esta dada por

µ1 = nµ.

(c) Verifique que el error estandar de la suma muestral este dado por σ1 =√

nσ.

11. Cierto juguete se vende en tres tamanos: de 25, 40 y 65 centımetros. Veinte por ciento

de los compradores seleccionan el juguete de 25 centımetros, 50% el de 40 centımetros y

30% el de 65 centımetros. Sean X1 y X2 los tamanos de juguete seleccionados por dos

compradores independientes. Determine la distribucion muestral de la media muestral X,

calcule su media E(X) y comparela con la media poblacional µ.

11. E(X) = 44, 5 = µ

12. Hay dos retenes de control en mi viaje hacia otra otra ciudad. Suponga que X1 es el numero

de retenes en los que debo detenerme y que la distribucion de X1 es:

x1 0 1 2

p(x1) 2 5 3

Ademas, la media y varianza poblacional son µ = 1, 1 y σ2 = 0, 49, respectivamente. Sea

X2 el numero de retenes en los que debo detenerme al regresar a casa; X2 es independiente

de X1, de modo que X1, X2 es una muestra aleatoria de tamanno n = 2.

(a) Sea X = X1 + X2 y determine la distrubucion de probabilidad de X.

(b) Calcule µX . ¿Como se relaciona con µ?

(c) Calcule σ2X . ¿Como se relaciona σ2?

13. Considere la situacion que se planteo en el ejercicio 11. Determine la distribucion muestral

de la varianza muestral S2, calcule E(S2) y comparela con σ2.

13. E(S2) = 212, 25 = σ2

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 25: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 23

14. Se sabe que 80% de todos los estudiantes de cierta universidad son de estrato medio-bajo.

Suponga que n = 10 estudiantes se seleccionan al azar y sea X la variable aleatoria que

representa el numero de estudiantes del estrato medio-bajo en la muestra. El estadıstico.

Obtenga la distribucion muestral del estadıstico X/n, que es la proporcion muestral de

estudiantes del estrato medio-bajo en la muestra. [Sugerencia: un posible valor de X/n es

0,3 y corresponde a X = 3. ¿Cual es la probabilidad de este valor (queclase de variable

aleatoria es X)?]

15. Sea X la variable aleatoria que representa el numero de clientes que entran a una tienda.

Suponga que la distribucion de X es:

x 1 2 3 4

f(x) 0,4 0,3 0,2 0,1

(a) Considere una muestra aleatoria de tamano n=2 clientes y sea X el numero medio

muestral de paquetes enviados. Obtenga la distribucion de probabilidad de X.

(b) Considere el inciso (a) y calcule P (X ≤ 2, 5)

(c) En otra considere una muestra aleatoria de tamano n=2, pero ahora concentrese en el

estadıstico R = “rango muestral (diferencia entre los valores maximo y mınimo de la

muestra)”. Obtenga la distribucion de R. [Sugerencia: calcule el valor de R para cada

resultado y utilice las probabilidades del inciso (a).]

(d) Si se selecciona una muestra aleatorio de tamano n = 4, ¿cual es P (X ≤ 1, 5)? [Sug-

erencia: no deben tener una lista de todos los posibles resultados, sino solo para los que

x ≤ 1, 5.]

15. (b) 0,85

16. Una gaveta contiene diez cajas selladas y numeradas del 1 al 10. Las primeras cinco estan

vacıas, las siguientes tres contienen 5 dolares cada una, y hay un billete de 10 dolares en

cada una de las dos ultimas. Se selecciona una muestra de tamano 3 con reemplazo (de

modo que tenemos una muestra aleatoria) y se obtiene la maxıma cantidad en cualesquiera

de las cajas seleccionadas. Si X1, X2 y X3 son variables aleatorias que representan las

cantidades de las cajas seleccionadas, el estadıstico de interes es M = “el maximo de X1,

X2 y X3”.

(a) Obtenga la distribucion de probabilidad de este estadıstico.

(b) Describa como realizarıa un experimento de simulacion para comprar las distribuciones

de M para varios tamanos muestrales. ¿Como sabrıamos que la distribucıon cambiarıa

medida que n aumenta?

17. Una casa comercial se compone de tres sucursales, cada una manejada por dos trabajadores.

La informacion de salarios anuales (en miles de dolares) es:

Sucursal 1 1 2 2 3 3

Trabajador 1 2 3 4 5 6

Salario 19,7 23,6 20,2 23,6 15,8 19,7

1.2. Estadısticos y distribuciones muestrales

Page 26: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

24 Dr. rer. nat. Humberto Llinas

(a) Suponga que dos empleados se seleccionan al azar de entre los seis (sin reemplazo).

Determine la distribucion muestral del salario medio muestral X.

(b) Suponga que una de las tres sucursales se selecciona al azar y que X1 y X2 son variables

aleatorias que representan los salarios de los dos trabajadores. Determine la distribucion

muestral de X.

(c) ¿Como se compara E(X) de los incisos (a) y (b)con el salario medio poblacional µ.

1.3 Distribucion muestral de la media

La media y la varianza de medias muestrales

En esta seccion Supondremos que se ha extraıdo una muestra de n observaciones de una

poblacion con media µ y varianza σ2. Antes de que la muestra haya sido observada, habra

incertidumbre sobre los resultados. Esta incertidumbre es consecuencia del hecho de que

cada uno de los miembros de la muestra es una variable aleatoria con media µ y varianza σ2.

Nuestro objetivo primordial es analizar la distribucion muestral de la media muestral X.

Un punto de partida obvio es determinar la media µX y la varianza σ2X

de esta distribucion.

La correspondiente desviacion estandar σX se conoce como error estandar de X.

Primero consideraremos el caso en que la poblacion es finita.

Teorema 1.3.1 Supongamos que la poblacion en donde se hace el muestreo es finita de

tamano N .

(a) Cuando el muestreo se hace con reemplazo, entonces,

• La media µX de la distribucion muestral de X es igual a la media de la poblacion

en que se toma la muestra, es decir, µX = µ.

• La varianza σ2X

de la distribucion muestral es igual a la varianza de la poblacion

dividida por el tamano de la muestra, es decir, σ2X

= σ2

n.

(b) Cuando el muestreo se hace sin reemplazo, entonces,

• La media µX de la distribucion muestral de X es igual a la media de la poblacion

en que se toma la muestra, es decir, µX = µ.

• La varianza σ2X

de la distribucion muestral es igual a(

σ2

n

)(

N−nN−1

)

.

Ejemplo 1.3.2 Supongamos que se eligen muestras de tamano 2 de una poblacion de tamano 3

con valores 0, 2 y 4.

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 27: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 25

(a) Si el muestreo se hace con reemplazo, entonces, verifique el teorema 1.3.1a.

(b) Si el muestreo se hace sin reemplazo, entonces, verifique el teorema 1.3.1b.

SOLUCION:

En este caso, n = 2 y N = 3. Facilmente se puede encontrar que la media µ y varianza σ2

poblacional estan dadas por

µ =0 + 2 + 4

3= 2 y σ2 =

(0 − 2)2 + (2 − 2)2 + (4 − 2)2

3=

8

3,

respectivamente. Ahora, distinguiremos los casos en que el muestreo se hace con o sin reemplaza-

miento.

(a) Si el muestreo se hace con reemplazo, entonces, las posibles muestras que se pueden escoger

son

(0, 0), (0, 2), (0, 4), (2, 0), (2, 2), (2, 4), (4, 0), (4, 2), (4, 4).

Ahora, obtenderemos los posibles valores x de la media muestral X. Estos se encuentran

reunidos en siguiente tabla:

Muestras (0,0) (0,2) (0,4) (2,0) (2,2) (2,4) (4,0) (4,2) (4,4)

x 0 1 2 1 2 3 2 3 4

Por consiguiente, la variable aleatoria X tiene 9: valores 0, 1, 2, 1, 2, 3, 2, 3 y 4. Por tanto,

la media µX de la distribucion muestral de X es igual a

µX =0 + 1 + 2 + 1 + 2 + 3 + 2 + 3 + 4

9= 2 = µ,

es decir, µX = µ. La varianza σ2X

de la distribucion muestral es igual a

σ2X

=(0 − 2)2 + (1 − 2)2 + (2 − 2)2 + · · · + (3 − 2)2 + (4 − 2)2

9=

4

3.

Debido que σ2

n = 8/32 = 4

3 , entonces, σ2X

= σ2

n . De eta forma queda verificada la parte (a) del

teorema 1.3.1.

(b) Supongamos que el muestreo se hace sin reemplazamiento. Debemos considerar dos casos: el

muestreo es con orden o sin orden.4

• Primer caso: El muestreo se hace sin reemplazamiento, pero con orden.

En este caso, las posibles muestras que se pueden escoger son

(0, 2), (0, 4), (2, 0), (2, 4), (4, 0), (4, 2).

Los posibles valores x de la media muestral X se encuentran reunidos en la siguiente

tabla:

4Cuando el muestreo es con reemplazamiento, necesariamente este muestreo es con orden. ¿Por que?

1.3. Distribucion muestral de la media

Page 28: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

26 Dr. rer. nat. Humberto Llinas

Muestras (0,2) (0,4) (2,0) (2,4) (4,0) (4,2)

x 1 2 1 3 2 3

Por consiguiente, en este caso, la variable aleatoria X tiene 6 valores: 1, 2, 1, 3, 2 y 3.

Por tanto, la media µX de la distribucion muestral de X es igual a

µX =1 + 2 + 1 + 3 + 2 + 3

6= 2 = µ.

La varianza σ2X

de la distribucion muestral es igual a

σ2X

=(1 − 2)2 + (2 − 2)2 + (1 − 2)2 + (3 − 2)2 + (2 − 2)2 + (3 − 2)2

6=

2

3.

Debido que(σ2

n

)(N − n

N − 1

)

=(8/3

2

)(3 − 2

3 − 1

)

=2

3,

entonces, σ2X

=(

σ2

n

)(

N−nN−1

)

. De esta forma queda verificada la parte (b) del teorema

1.3.1 para el caso en que el muestreo se hace sin reemplazamiento, pero teniendo en

cuenta el orden.

• Segundo caso: El muestreo se hace sin reemplazamiento, pero sin orden.

En este caso, hay(

Nn

)

=(

32

)

= 3 posibles muestras que se pueden escoger y son (0, 2),

(0, 4) y (2, 4). Como antes, reuniremos los posibles valores x de la media muestral X en

una tabla como la que se muestra a continuacion:

Muestras (0,2) (0,4) (2,4)

x 1 2 3

Por consiguiente, en este caso, la variable aleatoria X tiene 3 valores: 1, 2 y 3. Por

tanto, la media µX de la distribucion muestral de X es igual a

µX =1 + 2 + 3

3= 2 = µ.

La varianza σ2X

de la distribucion muestral es igual a

σ2X

=(1 − 2)2 + (2 − 2)2 + (3 − 2)2

3=

2

3.

Debido que(σ2

n

)(N − n

N − 1

)

=(8/3

2

)(3 − 2

3 − 1

)

=2

3,

entonces, σ2X

=(

σ2

n

)(

N−nN−1

)

. De esta forma queda verificada la parte (b) del teorema

1.3.1 para el caso en que el muestreo se hace sin reemplazamiento, pero sin tener en

cuenta el orden. ◭

El factor N−nN−1

se denomina factor de correccion (de poblacion finita). Podemos

pasarlo por alto si el tamano n de la muestra es pequeno en relacion con el tamano N

de la poblacion. Si N es mucha mas grande que n, la diferencia entre σ2

ny

(

σ2

n

)(

N−nN−1

)

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 29: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 27

se puede despreciar. Una regla de uso muy frecuente establece que el factor de correccion

de poblacion finita se puede pasar por alto cuando cuando nN

≤ 0, 05, es decir, cuando la

muestra contiene menos del 5% de los elementos de la poblacion.

Como hasta ahora hemos concentrado nuestra atencion en el caso en que el muestreo se

hace en una poblacion finita, podrıamos preguntarnos que resultados se obtienen cuando

el muestreo se hace en una poblacion infinita. El muestreo con reemplazamiento en una

poblacion finita es equivalente al muestreo en una poblacion infinita. Por tanto, los resul-

tados analizados en el teorema 1.3.1a se pueden aplicar tambien al caso de un muestreo

hecho en una poblacion infinita. Es decir,

Teorema 1.3.3 Cuando el muestreo se hace en una poblacion infinita, entonces, sin im-

portar si el muestreo es con o sin reemplazo, se tiene que

• La media µx de la distribucion muestral de x es igual a la media de la poblacion en

que se toma la muestra, es decir, µx = µ.

• La varianza σ2x de la distribucion muestral es igual a la varianza de la poblacion

dividida por el tamano de la muestra, es decir, σ2x = σ2

n(con la condicion de que la

poblacion en que se toma la muestra tenga una varianza conocida).

Para tener una vision global de los resultados presentados en los teoremas 1.3.1 y 1.3.3,

podemos reunir estos resultados en una tabla como la que se muestra en la tabla 1.8.

Tabla 1.8: µX y σ2X

cuando la poblacion es normal con σ2 conocida

µX = µ Poblacion finita Poblacion infinita

Muestreo con reemplazo σ2X

= σ2

nσ2

X= σ2

n

Muestreo sin reemplazo σ2X

=(

σ2

n

)(

N−nN−1

)

σ2X

= σ2

n

Hemos visto ya de que manera se pueden determinar la media y la varianza de la distribucion

de las medias muestrales sin calcularlar realmente. Ahora deseamos investigar la forma

funcional de las distribuciones de medias muestrales. Vamos a distinguir dos casos: el caso

de tener muestras grandes y el de tener muestras pequenas.

1.3. Distribucion muestral de la media

Page 30: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

28 Dr. rer. nat. Humberto Llinas

1.3.1 El caso para muestras grandes

En este caso, determinaremos la forma de la distribucion muestral de la media muestral

suponiendo que se cumple alguna de las tres condiciones:

• La poblacion es normal con varianza conocida.

• La poblacion es normal con varianza desconocida y el tamano de la muestra es grande.

• La forma de la poblacion es desconocida (o no normal), su varianza es conocida o

desconocida y el tamano de la muestra es grande.

Teorema 1.3.4 Sea x la media de una muestra aleatoria de tamano n tomada de una

poblacion con media µ y varianza σ2 > 0. Supongamos que se cumple alguna de las sigu-

ientes condiciones:

(a) La poblacion es normal y σ2 es conocida (no importa el tamano de n);

(b) La poblacion es normal, σ2 es desconocida y n ≥ 30;

(c) La forma de la poblacion es desconocida (o no normal), σ2 es conocida o desconocida

y n ≥ 30.

Entonces, la distribucion muestral de la media muestral X es normal con media µX y

varianza σ2X, calculadas de acuerdo a los casos mostrados en los teoremas 1.3.1 y 1.3.3.

Como consecuencia de este teorema, se puede concluir que la variable aleatoria Z =X−µ

X

σX

esta

distribuida normalmente con media 0 y varianza 1. Ademas, en los casos en que la varianza sea

desconocida y n ≥ 30, reemplazamos la desviacion poblacional σ por la desviacion muestral s.

A continuacion, explicaremos con ejemplos la utilidad de los resultados presentados en el

teorema 1.3.4.

Ejemplo 1.3.5 Supongamos que el incremento porcentual de los salarios de los funcionarios de

todas las corporaciones medianas se distribuye siguiendo una normal con media 12, 2% y desviacion

tıpica 3, 6%. Se toma una muestra aleatoria de nueve observaciones de esta poblacion de incremen-

tos porcentuales de salario. ¿Cual es la probabilidad de que la media muestral sea mayor del 10%?

SOLUCION:

Tenemos que µ = 12, 2, σ = 3, 6 y n = 9. Nos piden calcular P (X > 10). Como no conocemos

el tamano de la poblacion, supondremos que esta es infinita. Entonces, por el teorema 1.3.3, la

media y el error estandar de la distribucion muestral de X son

µX = µ = 12, 2 y σX =σ√n

=3, 6√

9= 1, 2.

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 31: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 29

Por consiguiente, la probabilidad requerida es

P (X > 10) = P

(

X − µX

σX

>10 − µX

σX

)

= P

(

Z >10 − µX

σX

)

= P

(

Z >10 − 12, 2

1, 2

)

= P (Z > −1, 83) = 1 − P (Z ≤ −1, 83).

Ahora, como la poblacion es normal y la varianza poblacional es conocida, entonces, por el teorema

1.3.4, la distribucion muestral de la media muestral es normal o, lo que es equivalente, la variable

Z tiene normal estandar (comparese con la definicion ??). Por tanto, teniendo que Φ es la funcion

de distribucion normal estandar, entonces, de la tabla normal del apendice, tenemos que

P (X > 10) = 1 − P (Z ≤ −1, 83) = 1 − Φ(−1, 83) = 1 − 0, 0336 = 0, 9664 ≈ 97%.

Concluimos, entonces, que la probabilidad de que la media muestral sea mayor que un 10% es

aproximadamente del 97%. ◭

Ejemplo 1.3.6 Un fabricante declara que la duracion de las bujıas que el fabrica sigue una

distribucion normal con una media de 36.000 kilometros y una desviacion estandar de 4.000

kilometros. Para una muestra aleatoria de dieciseis bujıas, se obtuvo una duracion media de

34.500 kilometros. Si la afirmacion del fabricante es correcta, ¿cual es la probabilidad de obtener

una media muestral tan pequena como esta o menor?

SOLUCION:

Tenemos que µ = 36.000, σ = 4.000 y n = 16. Nos piden calcular P (X < 34.500). Como no

conocemos el tamano de la poblacion, supondremos que esta es infinita. Entonces, por el teorema

1.3.3, la media y el error estandar de la distribucion muestral de X son

µX = µ = 36.000 y σX =σ√n

=4.000√

16= 1.000.

Por consiguiente, la probabilidad requerida es

P (X < 34.500) = P

(

X − µX

σX

<34.500 − µX

σX

)

= P

(

Z <34.500 − µX

σX

)

= P

(

Z <34.500 − 36.000

1.000

)

= P (Z < −1, 5).

Ahora, como la poblacion es normal y la varianza poblacional es conocida, entonces, por el teorema

1.3.4, la distribucion muestral de la media muestral es normal o, lo que es equivalente, la variable

Z tiene normal estandar (comparese con la definicion ??). Por tanto, teniendo que Φ es la funcion

de distribucion normal estandar, entonces, de la tabla normal del apendice, tenemos que

P (X < 34.500) = P (Z < −1, 5) = Φ(−1, 5) = 0, 0668 ≈ 6, 68%.

El resultado nos indica que, en el caso de que la afirmacion del fabricante fuese correcta, la

probabilidad de obtener un valor tan bajo de la media muestral serıa bastante pequena. Esto

1.3. Distribucion muestral de la media

Page 32: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

30 Dr. rer. nat. Humberto Llinas

introduce ciertas dudas sobre la veracidad de la afirmacion. En el capıtulo 3 discutiremos un

metodo general para contrastar tales afirmaciones o hipotesis sobre la base de la evidencia muestral.

Ejemplo 1.3.7 Los tiempos requeridos para que unos trabajadores terminen cierta labor, se

distribuyen normalmente con media de 30 minutos y una desviacion estandar de 9 minutos. Si

de la planta de trabajadores se toma una muestra aleatoria de 25, encuentre la probabilidad de

que la media del tiempo requerido para concluir la tarea en la muestra, este entre 28 y 33 minutos.

SOLUCION:

En este ejemplo, µ = 30, σ = 9 y n = 25. Nos piden calcular P (28 < X < 33). Como no

conocemos el tamano de la poblacion, supondremos que esta es infinita. Entonces, por el teorema

1.3.3, la media y el error estandar de la distribucion muestral de X son

µX = µ = 30 y σX =σ√n

=9√25

= 1, 8.

Por consiguiente, la probabilidad requerida es

P (28 < X < 33) = P

(

28 − µX

σX

< Z <33 − µX

σX

)

= P

(

28 − 30

1, 8< Z <

28 − 33

1, 8

)

= P (−1, 11 < Z < 1, 67) = P (Z < 1, 67) − P (Z < −1, 11).

Ahora, como la poblacion es normal y la varianza poblacional es conocida, entonces, por el teorema

1.3.4, la variable Z tiene normal estandar. Por tanto, de la tabla normal del apendice, tenemos

que

P (28 < X < 33) = P (Z < 1, 67) − P (Z < −1, 11) = Φ(1, 67) − Φ(−1, 11) = 0, 819 ≈ 82%.

Por consiguiente, la probabilidad pedida es aproximadamente del 82%. ◭

Ejemplo 1.3.8 Un estudio de transito revela que el numero promedio de ocupantes de un auto

es 1,75. En una muestra de 50 autos con desviacion estandar 0,65, seleccionada de una poblacion

normal, encuentre la probabilidad de que el numero promedio de ocupantes sea mayor que 2.

SOLUCION:

Nos piden calcular P (X > 2). Sabemos que µ = 1, 75, n = 50 y s = 0, 65. La media y error

estandar de la distribucion muestral de la media es

µX = µ = 1, 75 y σX = s/√

n = 0, 092.

Por consiguiente, por el teorema 1.3.4 y teniendo en cuenta la tabla normal del apendice, se tiene

que

P (X ≤ 2) = P

(

Z ≤ 2 − 1, 75

0, 092

)

= P (Z ≤ 2, 72) = 0, 9967.

Por lo tanto, la probabilidad pedida estara dada por

P (X > 2) = 1 − P (X ≤ 2) = 0, 0033. ◭

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 33: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 31

Ejemplo 1.3.9 Una empresa emplea 1.500 personas. La cantidad promedio gastada, durante un

ano determinado, en servicios medicos personales por empleado fue de 2.575 dolares y la desviacion

tıpica de 525 dolares. ¿Cual es la probabilidad de que una muestra aleatoria de 100 empleados

(seleccionados sin reemplazo) arroje una media comprendida entre 2.500 y 2.700 dolares?

SOLUCION:

Tenemos que N = 1.500, µ = 2.575, σ = 525 y n = 100. Nos piden calcular P (2.500 ≤ X ≤ 2.700).

Teniendo en cuenta que la poblacion dada es finita y que la varianza poblacional se conoce, en-

tonces, por la tabla de la figura 1.8, la media y el error estandar de la distribucion muestral de X

son

µX = µ = 2.575 y σX =

(

σ√n

)

N − n

N − 1=

(

575√100

)

1.400

1.499≈ 50, 74.

Por consiguiente, la probabilidad requerida es

P (2.500 < X < 2.700) = P

(

2.500 − µX

σX

< Z <2.700 − µX

σX

)

= P

(

2.500 − 2.575

50, 74< Z <

2.700 − 2.575

50, 74

)

= P (−1, 48 < Z < 2, 46) = P (Z < 2, 46) − P (Z < −1, 48).

Ahora, como la distribucion de la poblacion se desconoce y la varianza poblacional es conocida,

entonces, por el teorema 1.3.4, la variable Z tiene distribucion normal estandar. Por tanto, de la

tabla normal del apendice, tenemos que

P (2.500 < X < 2.700) = P (Z < 2, 46) − P (Z < −1, 48) = Φ(2, 46) − Φ(−1, 48)

= 0, 9931 − 0, 0694 = 0, 9237.

Por consiguiente, la probabilidad pedida es aproximadamente del 92, 37%. ◭

1.3.2 El caso para muestras pequenas

El teorema 1.3.4 afirma que, bajo ciertas condiciones especiales, la variable

Z =X − µX

σX

esta distribuida normalmente y tiene una media igual a 0 y una varianza igual a 1. Ademas,

tambien afirma que, en los casos en que la varianza sea desconocida y n ≥ 30, utilizamos

la desviacion muestral s como una estimacion de σ. Con esto, los teoremas 1.3.1 y 1.3.3 o,

mejor dicho, la tabla 1.8, se pueden reformular como se muestra en la tabla 1.9.

Ahora, cuando la la poblacion es normal con varianza poblacional desconocida y las mues-

tras son pequenas (n < 30), entonces, la distribucion muestral de la media muestral no

es la normal. Este caso, juega un rol bien importante una distribucion continua llamada

distribucion t de Student.

1.3. Distribucion muestral de la media

Page 34: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

32 Dr. rer. nat. Humberto Llinas

Tabla 1.9: µX y σ2X

cuando s se usa como estimacion de σ2 desconocida

µX = µ Poblacion finita Poblacion infinita

Muestreo con reemplazo σ2X

= s2

nσ2

X= s2

n

Muestreo sin reemplazo σ2X

=(

s2

n

)(

N−nN−1

)

σ2X

= s2

n

La distribucion t de Student

En 1908, el investigador estadıstico W. S. Gosset5 describio la distribucion de la variable

t =x − µ

s√

n

cuando el muestreo se hace en una poblacion que esta distribuida normalmente. Esta dis-

tribucion, que se conoce con el nombre de distribucion t de Student, nos permite hacer

inferencias acerca de medias poblacionales cuando no se conoce la desviacion tıpica de la

poblacion.

La dsitribucion t, de la misma manera que la distribucion normal estandar, tiene forma

de campana y tiene media igual a 0, alrededor de la cual es simetrica. Su varianza, en

cambio, es mayor que 1, hecho que origina que la tıpica distribucion t sea menos aguda

en el centro y “mas alta” en las colas que la distribucion normal estandar. La figura 1.2

explica la relacion general entre la distribucion normal y una distribucion t.

El area total bajo la distribucion t es igual a 1. Hay una distribucion t diferente para cada

valor de n − 1 (llamado grado de libertad). La figura 1.3 muestra las curvas de la

distribucion t para varios valores de n − 1.

Hay tablas que se pueden usar en las plicaciones que requieren el uso de la distribucion t.

Una de estas es la tabla del apendice. La columna que esta mas a la izquierda de esta tabla

contiene diversos valores de n−1, o grados de libertad. Los encabezamientos de las columnas

indican qu’e proporcion del area total de la curva de la distribucion t, para determinado

numero de grados de libertada, se encuentra a la derecha del valor correspondiente de t

dado en el cuerpo de la tabla, como se muetra en el siguiente

5William Sealy Gosset se graduo en matematicas en Oxford y trabajo en la cervecerıa Guinnes

Brewerie en Dublin (Irlanda). Gosset escribıa bajo el seudonimo de Student puesto que los empleados

de Guinnes no estaban autorizados para publicar trabajos de investigacion con su nombre. En general,

el desarrollo una nueva teorıa estadıstica al trabajar con muestras pequenas y en experimentos donde

intervenıan temperaturas en esa cervecerıa.

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 35: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 33

Figura 1.2: La distribucion normal y una distribucion t

Figura 1.3: Las curvas de la distribucion t para valores seleccionados de grados de libertad

n − 1

Ejemplo 1.3.10 Si estamos interesado en la distribucion t para 8 grados de libertad, podemos

ver, con la tabla del apendice, que 0,10 del area bajo la curva se encuentra a la derecha de

t = 1, 397. Entonces, la proporcion respecto del area total del area que se encuentra a la derecha

de t = 1, 397 es igual a 1 − 0, 10 = 0, 90.

Utilizando el sımbolo t8 para indicar que nos estamos refiriendo al valor de t con 8 grados de

libertad, podemos expresar las ideas anteriores escribiendo

P (t8 ≥ 1, 397) = 0, 10 o P (t8 ≤ 1, 397) = 0, 90.

De esta forma se esta mostrando que el area bajo la curva de la distribucion t representa una

probabilidad. La figura 1.4 muestra estas areas. ◭

Por ultimo, es importante senalar que la distribucion t se aproxima a la distribucion normal

1.3. Distribucion muestral de la media

Page 36: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

34 Dr. rer. nat. Humberto Llinas

Figura 1.4: La distribucion t para 10 grados de libertad, mostrando el area a la derecha y

a la izquierda de t = 1, 397.

a medida que aumentan los grados de libertad. Para grados infinitos de libertad, las dos

distribuciones son identicas (por lo que la curva normal a veces recibe el nombre de curva t

con grados infinitos de libertad). Podemos verificar este hecho observando que los valores

de t en la ultima fila de la tabla del apendice son iguales a los valores de Z correspondientes

a valores de probabilidad determinados, tales como 0,10, 0,05, etc.

Distribucion muestral de la media muestral para muestras pequenas

Si la poblacion tiene distribucion normal, la distribucion muestral de X sera normal, inde-

pendiente del tamano de la muestra, pero bajo la condicion de que la varianza poblacional

se conozca. Si, en cambio, la varianza es desconocida y si el tamano de las muestras se-

leccionadas es pequena (en la practica, se considera que el tamano de la muestra debe ser

menor que 30), aplicamos el siguiente teorema para determinar la distribucion muestral de

X.

Teorema 1.3.11 Si el muestreo se hace en una poblacion normal con varianza desconocida

y si las muestras seleccionadas son de tamano n < 30, entonces, la distribucion muestral

de la media muestral X es la t de Student con n − 1 grados de libertad.

Este teorema implica que la variable aleatoria t =X−µ

X

σX

tiene distribucion t con n − 1 grados de

libertad. Aquı, µX y varianza σ2X

se calculan de acuerdo a las situaciones presentadas en la tabla 1.9.

Observemos que aunque la distribucion t se basa en la hipotesis de que el muestreo se hace

en una poblacion distribuida normalmente, algunos autores dicen que podemos tolerar

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 37: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 35

algunos distanciamientos de esta suposicion. En otras palabras, que podemos utilizar, en

la practica, la distribucion t, aunque la poblacion de donde se obtiene la muestra no este

distribuida normalmente, con la condicion de que el alejamiento respecto a la normalidad no

sea demasiado grande. Otros expertos recomiendan el empleo de la distribucion t siempre

y cuando la poblacion de donde se extrajo la muestra tenga forma de montıculo. De todas

formas, en cualquier caso, recomendamos tener cuidado siempre al utilizar la distribucion

t.

Ejemplo 1.3.12 Suponga que de una poblacion normal con media 20 se toma una muestra de

tamano 16. Si la desviacion estandar muestral es 4, encuentre la probabilidad de que la media

muestral sea estrictamente mayor que 21,753.

SOLUCION:

Tenemos que µ = 20, s = 4 y n = 16. Debido a que la poblacion es normal con varianza descono-

cida y a que n < 30, entonces, aplicaremos el teorema 1.3.11. Es decir, la distribucion muestral

de la media muestral es la t de Student con n− 1 = 15 grados de libertad. Teniendo en cuenta la

tabla de la figura 1.9, encontramos que

µX = µ = 20 y σX =s√n

=4√16

= 1.

Con esto, encontramos el valor de t15 para 21,753. Debido a que

t15 =X − µX

σX

=21, 753 − 20

1= 1, 753

y teniendo en cuenta la tabla t de Student con 15 grados de libertad, entonces, la pobabilidad

pedida sera

P (X > 21, 753) = P (t15 > 1, 753) = 0, 05 = 5%. ◭

Ejemplo 1.3.13 Una muestra aleatoria de seis autos de un determinado modelo consumen las

siguientes cantidades en kilometros por litro:

18, 6 18, 4 19, 2 20, 8 19, 4 20, 5.

Determine la probabilidad de que el consumo de gasolina medio muestral de los automoviles de

este modelo sea menor que 17,6 kilometros por litro, suponiendo que la distribucion de la poblacion

es normal con media 17.

SOLUCION:

Tenemos que µ = 17 y, en este caso, la muestra escogida es de tamano n = 6. La media de la

muestra dada es x =∑

xi

n = 116,96 = 19, 4833 y con esto la varianza de esta muestra es

s2 =

x2i − nx2

n − 1=

2.2282, 41 − (6)(19, 4833)2

6 − 1= 0, 96.

1.3. Distribucion muestral de la media

Page 38: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

36 Dr. rer. nat. Humberto Llinas

Por consiguiente, la desviacion estandar de esta muestra es s =√

0, 96 = 0, 98. Debido a que la

poblacion es normal con varianza desconocida y a que n < 30, entonces, por el teorema 1.3.11, la

distribucion muestral de la media muestral es la t de Student con n − 1 = 5 grados de libertad.

Teniendo en cuenta la tabla de la figura 1.9, encontramos que

µX = µ = 20, 1 y σX =s√n

=0, 98√

6≈ 0, 4.

Con esto, el valor de t5 para 17,6 es

t5 =X − µX

σX

=17, 6 − 17

0, 4= 1, 5

y con ayuda de la tabla t de Student con 15 grados de libertad, entonces, la probabilidad pedida

sera

P (X ≤ 17, 6) = P (t5 ≤ 1, 5) = 1 − P (t5 > 1, 5) ≈ 1 − 0, 10 = 0, 90. ◭

✍ Ejercicios de la seccion 1.3

18. Un determinado centro comercial ha encontrado que sus ingresos tienen un promedio de

12,4 millones de pesos por dıa con desviacion estandar de 2,9. Para una muestra aleatoria

de 40 clientes, encuentre la probabilidad de que el ingreso promedio

(a) sea menor que 13 millones de pesos.

(b) exceda los 12 millones de pesos.

(c) este entre 11,5 y 13,1 millones de pesos.

(d) exceda los 12,6 millones de pesos.

18. (a) 0,5089 (b) 0,8078 (c) 0,9120 (d) 0,33

19. Una maquina automatica llena bolsas de arroz con un promedio de 16 libras por bolsa y

desviacion estandar de 0,5 libras. ¿Cual es la probabilidad de que una muestra de 35 bolsas

de arroz tenga una media de llenado

(a) mayor que 16,1 libras?

(b) entre 15,9 y 16,1 libras?

19. (a) 0,1190 (b) 0,7620

20. Cinco mil personas se presentaron a un control de peso. El peso promedio fue 75 kilogramos

y la desviacion estandar 10. Si de esta poblacion de pesos se toman 300 muestras aleatorias

de tamano 40, encuentre:

(a) µx y σx.

(b) el numero aproximado de medias muestrales que caen entre 73 y 77 kilogramos.

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 39: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 37

(c) la cantidad aproximada de medias muestrales superiores a 72 kilogramos.

20. (a) 75; 1,58 (b) Aprox. 239 (c) Aprox. 291

21. Si se extraen todas las muestras posibles de tamano 16 de una poblacion normal con media

igual a 50 y desviacion estandar igual a 5, ¿cual es la probabilidad de que una media

muestral X caiga en el intervalo que va de µX − 1, 9σX a µX − 0, 4σX? Suponga que las

medias muestrales se pueden medir con cualquier grado de precision.

21. 0,3159

22. El numero de clientes que entran diariamente a un prestigioso centro comercial se distribuye

normalmente con una media de 220 y una desviacion estandar de 50. Si se analiza una

muestra de 12 dıas para estimar el numero promedio de clientes que entran diariamente a

ese centro comercial, encuentre la probabilidad de que la muestra produzca un promedio

menor que 300 clientes.

23. Se empacan bolsas de cierto tipo de material con un peso medio de 78,3 kilogramos y una

desviacion estandar de 5,6 kilogramos. ¿Como cambia la varianza de la media muestral

cuando el tamano de la muestra (a) aumenta de 64 a 196, (b) disminuye de 784 a 49?

23. (a) Se reduce de 0,7 a 0,4 (b) Aumenta de 0,2 a 0,8

24. Una maquina empacadora de bolsas de sal se ajusta para que la cantidad de producto que

empaca promedie 240 gramos con una desviacion estandar de 15 gramos. La maquina se

verifica periodicamente tomando una muestra de 40 bolsas de sal y se calcula el contenido

promedio. Si la media de las 40 bolsas de sal es un valor dentro del intervalo µX ± 2σX , se

piensa que la maquina opera satisfactoriamente; de otra forma, se ajusta. Supongamos que

el funcionario de la companıa encuentra que la media de 40 bolsas de sal es x = 236 mililitros

y concluye que la maquina no necesita un ajuste. ¿Fue esta una decision razonable?

24. Sı

25. La variable aleatoria X que representa el numero de personas que trabajan en un banco,

tiene la siguiente funcion de probabilidad f :

x 4 5 6 7

f(x) 0,2 0,4 0,3 0,1

(a) Encuentre la media µ y la varianza σ2 de X.

(b) Encuentre la media µX y la varianza σ2X

de la media X para muestras aleatorias de 36

bancos.

(c) ¿Cual es la probabilidad de que el numero promedio de personas que trabajan en 36

bancos sea menor que 5,5?

25. (a) 5,3; 0,81

26. Consulte el ejercicio 90 y suponga que la distribucion de la longitud es normal.

1.3. Distribucion muestral de la media

Page 40: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

38 Dr. rer. nat. Humberto Llinas

(a) Calcule P (11, 99 ≤ X ≤ 12, 01) cuando n = 16.

(b) ¿Cual es la probabilidad de que la longitud media muestral exceda 12, 01 cuando n = 25?

26. (a) 0,6826 (b) 0,1056

27. Un curso de estadıstica tiene 40 estudiantes. Con base en los anos de experiencias, el profesor

sabe que el tiempo necesario para calificar un primer examen seleccionando al azar, es una

variable aleatoria con media de 6 minutos y desviacion estandar de 6 minutos.

(a) Si los tiempos para calificar son independientes y el profesor comienza a calificar a las

2:50 p.m. y lo hace en forma continua, ¿cual es la probabilidad (aproximada) de que

termine de calificar antes del inicio de las noticias de las 7:00 p.m. por TV?

(b) Si la seccion deportiva empieza a las 7:10, ¿cual es la probabilidad de que se pierda

parte de esa seccion si espera hasta terminar antes de encender el televisor?

27. (a) 0,6026 (b) 0,2981

28. El gasto mensual en fotocopias por parte de un estudiante tiene un valor medio de 10.000

pesos y una desviacion estandar de 500 pesos.

(a) ¿Cual es la probabilidad de que el gasto promedio de una muestra aleatoria de 40

estudiantes este entre 9.900 y 10.200 pesos?

(b) Si el tamno muestral hubiese sido 15, en lugar de 40, ¿podrıa calcularse la probabilidad

pedida en el inciso (a) a partir de la informacion dada?

29. El tiempo utilizado por una persona seleccionada al azar para llenar un formulario tiene

una distribucion normal con una media de 10 minutos y desviacion estandar de 2 minutos.

Si cinco personas llenan un formulario en un dıa y seis en otro, ¿cual es la probabilidad de

que la cantidad de tiempo promedio de la muestra diaria sea a lo sumo 11 minutos?

29. 0,7720

30. El tiempo de vida de cierto tipo de baterıa esta normalmente distribuida con media de 8

horas y desviacion estandar de 1 hora. Hay cuatro baterıas en una caja. ¿Cual es el valor

de duracion, de tal modo que la duracion total de todas las baterıas de una caja exceda ese

valor en solo 5% de todas las cajas?

31. Se sabe que el diametro de una olla de cierto tipo tiene una media de 50 cm y deviacion

estandar de 1,2 cm.

(a) Si la distribucion es normal, ¿cual es la probabilidad de que el diametro muestral medio

para una muestra aleatoria de 9 ollas sea por lo menos de 51 cm?

(b) ¿Cual es la probabilidad (aproximada) de que el diametro muestral medio para una

muestra aleatoria de 40 ollas sea al menos de 51 cm?

31. (a) 0,0062 (b) 0

32. Suponga que la longitud de un tornillo seleccionando al azar estanormalmente distribuida

con media 2,65 cm y desviacion estandar 0,85 cm.

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 41: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 39

(a) Si se selecciona una muestra aleatoria de 25 tornillos, ¿cual es la probabilidad de que

la longitud promedio del tornillo muestral sea a lo sumo 3 cm? ¿Y entre 2,65 y 3 cm?

(b) ¿Quetan grande se requerirıa un tamano muestral para asegurar que la primera proba-

bilidad de inciso (a) sea por lo menos 0,99?

33. Si la experiencia indica que un 40% de todos los clientes que entran a un determinado local

son fumadoras, calcule la probabilidad (aproximada) de que en un grupo de 50 personas:

(a) Por lo menos 25 fumen. [Sugerencia: aproximacion normal a la binomial.]

(b) Entre 15 y 25 (ambos inclusive) fumen.

33. (a) 0,0968 (b) 0,8882

34. El numero de conductores que viajan entre cierto origen y destino, durante un determinado

periodo, tiene una distribucion de Poisson con parametro λ = 50. ¿Cual es la probabilidad

aproximada de que:

(a) la cantidad de conductores este entre 35 y 70? [Sugerencia: cuandoλ es grande,una va

de Poisson tiene aproximadamente una distribucion normal.]

(b) El numero total de conductores durante una semana de 5 dıas este entre 225 y 275?

35. Suponga que el tiempo (en horas) empleado por el gerente de una empresa para elaborar un

presentar un determinado proyecto es una variable aleatoria X que tiene una distribucion

gamma con parametro α = 50 y β = 2. Debido a que α es grande, se puede demostrar

que Xtiene aproximadamente una distribucion normal. Utilice este hecho para calcular

la probabilidad de que un gerente seleccionado al azar demore a lo sumo 125 horas en la

elaboracion del proyecto.

35. 0,9616

36. La duracion de ciertos componentes electricos producidos por una determinada empresa

tiene una media de 1.200 horas y una desviacion estandar de 400 horas. La poblacion sigue

una distribucion normal. Suponga que usted ha comprado 9 bombillas, que pueden ser

consideradas como una muestra aleatoria de la produccion de la empresa.

(a) ¿Cual es la media de la media muestral de la duracion de estos componentes electricos?

(b) ¿Cual es la varianza de la media muestral?

(c) ¿Cual es el error estandar de la media muestral?

(d) ¿Cual es la probabilidad de que el tiempo medio de duracion de tres componentes

electricos sea de menos de 1.050 horas?

36. (a) 1.200 (b) 17.778 (c) 133,33 (d) 0,1303

37. El precio medio de venta de ciertos autos durante el ultimo ano en cierta ciudad fue de

115.000 dolares. La desviacion estandar de la poblacion fue de 25.000 dolares. Se toma una

muestra aleatoria de 100 autos nuevos de esta ciudad.

1.3. Distribucion muestral de la media

Page 42: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

40 Dr. rer. nat. Humberto Llinas

(a) ¿Cual es la probabilidad de que la media muestral de los precios de venta se menor que

110.000 dolares?

(b) ¿Cual es la probabilidad de que la media muestral de los precios de venta este entre

113.000 dolares y 117.000 dolares?

(c) ¿Cual es la probabilidad de que la media muestral de los precios de venta este entre

114.000 y 116.000 dolares?

(d) Sin hacer los calculos, razonar en cual de los siguientes rangos resulta mas probable que

se encuentre la media muestral de los precios de venta:

113.000 dolares - 115.000 dolares

114.000 dolares - 116.000 dolares

115.000 dolares - 117.000 dolares

116.000 dolares - 118.000 dolares

37. (a) 0,9772 (b) 0,5762 (c) 0,3108 (d) 114.000 dolares - 116.000 dolares

38. Se ha tomado una muestra aleatoria de 16 profesores de cierta universidad, con el fin de

estimar el tiempo medio diario que emplean en desplazarse para ir hasta su trabajo. Supong-

amos que la distribucion de dichos tiempos en la poblacion sigue una normal con media de

87 minutos y desviacion estandar de 22 minutos.

(a) ¿Cual es el error estandar de la media muestral de los tiempos de desplazamiento?

(b) ¿Cual es la probabilidad de que la media muestral sea menor que 100 minutos?

(c) ¿Cual es la probabilidad de que la media muestral sea mayor que 80 minutos?

(d) ¿Cual es la probabilidad de que la media muestral tome una valor que este entre 85 y

95 minutos?

(e) Supongamos que se toma una segunda muestra de 15 profesores, independiente de la

anterior. Sin hacer los calculos, razonar si las probabilidades calculadas en los apartados

(b), (c) y (d) seran mayores, menores o iguales para esta segunda muestra?. Utilizar

graficos para ilustrar las respuestas.

38. (a) 5,5 (b) 0,9909 (c) 0,8980 (d) 0,4329 (e) mayor, mayor, menor

39. La desviacion estandar de la renta pagada mensualmente por las personas de cierta ciudad

es de 40 dolares. Se toma una muestra de 100 personas con el fin de estimar la renta media

pagada mensualmente por el total de la poblacion de personas.

(a) ¿Cual es el error estandar de la media muestral de la cuota mensual?

(b) ¿Cual es la probabilidad de que la media muestral exceda a la media poblacional en

mas de 5 dolares?

(c) ¿Cual es la probabilidad de que la media muestral este mas de 4 dolares por debajo de

la media poblacional?

(d) ¿Cual es la probabilidad de que la media muestral difiera de la media poblacional en

mas de 3 dolares?

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 43: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 41

39. (a) 4 (b) 0,1056 (c) 0,1587 (d) 0,4532

40. El tiempo que dedican a trabajar las personas de una empresa antes de un dıa festivo sigue

una distribucion normal con una desviacion estandar de 8 horas. Se toma una muestra

aleatoria de 4 personas con el fin de estimar el tiempo medio de trabajo para esta poblacion

de personas.

(a) ¿Cual es la probabilidad de que la media muestral exceda a la media poblacional en

mas de 2 horas?

(b) ¿Cual es la probabilidad de que la media muestral este mas de 3 horas por debajo de

la media poblacional?

(c) ¿Cual es la probabilidad de que la media muestral difiera de la media poblacional en

mas de 4 horas?

(d) Supongamos que se toma una segunda muestra de 10 personas, independiente de la

anterior. Sin hacer los calculos, razonar si las probabilidades calculadas en los apartados

(a), (b) y (c) seran mayores, menores o iguales para esta segunda muestra?.

41. Una industria produce bolsas de azucar cuyos pesos siguen una distribucion normal con una

desviacion estandar de 1,6 gramos. Se selecciona un muestra de 100 lotes a fin de estimar

la media poblacional del peso de las bolsas de azucar.

(a) 0,05 es la probabilidad de que la media muestral del peso exceda a la media poblacional,

¿en que cantidad?

(b) 0,1 es la probabilidad de que la media muestral del peso este por debajo de la media

poblacional, ¿en que cantidad?

(c) 0,15 es la probabilidad de que la media muestral del peso difiera de la media poblacional,

¿en que cantidad?

41. (a) 0,26 (b) 0,20 (c) 0,23

42. En una univesidad, 250 estudiantes se han matriculado para un curso de Estadıstica Inferen-

cial. Cada uno de los integrantes de una muestra aleatoria de 50 estudiantes es interrogado

con el fin de estimar la cantidad de tiempo que gasta semanalmente en resolver los problemas

de estadıstica. Supongamos que la desviacion tıpica de la poblacion es de 30 minutos.

(a) ¿Cual es la probabilidad de que la media muestral exceda a la media poblacional en

mas de 2,5 minutos?

(b) ¿Cual es la probabilidad de que la media muestral este mas de 5 minutos por debajo de

la media poblacional?

(c) ¿Cual es la probabilidad de que la media muestral difiera de la media poblacional en

mas de 10 minutos?

42. (a) 0,2546 (b) 0,0951 (c) 0,0086

1.3. Distribucion muestral de la media

Page 44: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

42 Dr. rer. nat. Humberto Llinas

1.4 Distribucion muestral de una proporcion muestral

Proporciones muestrales

Como ya se dijo en la seccion ??, si se repite n veces un experimento que tiene probabilidad

de exito p, entonces, la variable aleatoria X, que representa al numero total de exitos en

las n repeticiones, sigue una distribucion binomial. Un problema bastante comum consiste

en que el parametro p sea desconocido. Por ejemplo, podemos estar interesados en deter-

minar cual es la proporcion del electorado que tiene intencion de votar a un determinado

candidato, o la proporcion de lectores de revistas que podrıan estar en el mercado de un

producto especıfico. En situaciones de este tipo, sera natural basar nuestra inferencia en la

proporcion de exitos en una muestra tomada de la poblacion que nos interese.

Definicion 1.4.1 Sea X el numero de exitos en una muestra binomial de n observaciones,

donde la probabilidad de exito es p. Entonces, la proporcion de exitos en la muestra p = Xn

recibe el nombre de proporcion muestral.

En la mayorıa de las aplicaciones, el parametro p sera la proporcion de individuos de una gran

poblacion que posean la caracterıstica de interes.

La media y la varianza de proporciones muestrales

La media µp y la varianza σ2p de la distribucion muestral de la proporcion muestral pueden

deducirse facilmente a partir de la media y la varianza del numero de exitos que, como

vimos en el teorema ??, vienen dadas por

E(X) = np y V (X) = np(1 − p).

De aquı y con ayuda de la parte (b) de los teoremas ?? y ??, obtenemos que

µp = E(p) = E

(

X

n

)

=1

nE(X) = p,

σ2p = V (p) = V

(

X

n

)

=1

n2V (X) =

p(1 − p)

n.

Es decir, la media de la proporcion muestral es la proporcion p de exitos en la poblacion y

su varianza es p(1 − p)/n.

De nuevo, la desviacion tıpica de la proporcion muestral, que es la raız cuadrada de su

varianza, recibe el nombre de error estandar.

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 45: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 43

Si el numero N de individuos en la poblacion no es demasiado grande, comparado con

el numero de individuos de la muestra, en la expresion de la varianza de la proporcion

muestral sera necesaria una correccion por poblacion finita. La varianza sera en-

tonces

σ2p =

(

N − n

N − 1

)(

p(1 − p)

n

)

.

Todo esto se puede resumir como se muestra a continuacion en el siguiente

Teorema 1.4.2 Sea p la proporcion de exitos en una muestra aleatoria de n observaciones.

Sea p la proporcion de exitos en la poblacion. Entonces, la distribucion muestral de la

proporcion muestral p tiene media µp = p y varianza σ2p dada por

σ2p =

p(1−p)n

, si la poblacion es infinita,

(

N−nN−1

)(

p(1−p)n

)

, si la poblacion es finita, de tamano N y si N

no es demasiado grande en comparacion con n.

Forma funcional de la distribucion de proporciones muestrales

En el teorema de la aproximacion de la distribucion binomial a la normal (vease los teore-

mas ?? y ??) ya se dijo que, bajo ciertas condiciones especiales, la distribucion del numero

de exitos es aproximadamente normal. Esto mismo es tambien cierto para la proporcion de

exitos, como lo muestra el siguiente teorema de De Moivre-Laplace.

Teorema 1.4.3 (Teorema de De Moivre-Laplace) Sea p la proporcion de exitos en

una muestra aleatoria de n observaciones. Si se cumple alguna de las dos condiciones

siguientes:

• n ≥ 30 o

• np ≥ 5 y n(1 − p) ≥ 5,

entonces, la distribucion muestral de la proporcion muestral p se puede aproximar con una

distribucion normal.

Este teorema implica que la variable aleatoria Z =p−µp

σptiene distribucion normal. Aquı, µp y

varianza σp se calculan de acuerdo al teorema 1.4.2.

1.4. Distribucion muestral de una proporcion muestral

Page 46: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

44 Dr. rer. nat. Humberto Llinas

Notese que para p fijo, el error estandar de la proporcion muestral disminuye a medida que

crece el tamano muestral. Esto implica que, al aumentar el tamano muestral, la distribucion

de p se concentra mas alrededor de su media, como puede observarse en la figura 1.5. Esto

a su vez supone que, para cualquier proporcion poblacional particular, la probabilidad de

que la proporcion muestral y la poblacional difieran en mas de una cantidad fija disminuye

a medida que crece el tamano muestral. En otras palabras, si tomamos una muestra mayor

de la poblacion, nuestra inferencia acerca de la proporcion de individuos que poseen alguna

caracterıstica particular se hara mas firme.

Figura 1.5: Funcion de densidad de probabilidad de las proporciones muestrales en muestras

de 100 y 400 observaciones cuando la proporcion poblacional es 0,8.

Cuando el tamano muestral es grande, la aproximacion normal de la distribucion bino-

mial proporciona un procedimiento muy adecuado para calcular la probabilidad de que la

proporcion muestral este dentro de un determinado rango. Vamos a ilustrar esto con los

ejemplos siguientes.

Ejemplo 1.4.4 Se toma una muestra de 250 casas de una poblacion de edificios antiguos para es-

timar la proporcion de casas de este tipo cuya instalacion electrica resulta insegura. Supongamos

que, de hecho, el 30% de todos los edificios de esta poblacion tienen una instalacion insegura.

Hallar la probabilidad de que la proporcion de edificios de la muestra con instalacion insegura este

entre 0,25 y 0,35.

SOLUCION:

Tenemos que p = 0, 30 y n = 250. Por consiguiente, teniendo en cuenta el teorema 1.4.2, tenemos

que

µp = p = 0, 30 y σp =

p(1 − p)

n=

(0, 30)(0, 70)

250= 0, 029.

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 47: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 45

Por consiguiente, la probabilidad requerida es

P (0, 25 < p < 0, 35) = P

(

0, 25 − µp

σp< Z <

0, 35 − µp

σp

)

= P

(

0, 25 − 0, 30

0, 029< Z <

0, 35 − 0, 30

0, 029

)

= P (−1, 72 < Z < 1, 72) = P (Z < 1, 72) − P (Z < −1, 72).

Ahora, como n ≥ 30, entonces, por el teorema de De Moivre-Laplace (teorema 1.4.3), la variable

Z tiene distribucion normal estandar. Por tanto, de la tabla normal del apendice, tenemos que

P (0, 25 < p < 0, 35) = P (Z < 1, 72) − P (Z < −1, 72) = Φ(1, 72) − Φ(−1, 72)

= 0, 9573 − 0, 0427 = 0, 9146.

Por tanto, la proporcion de casas con instalacion insegura estara dentro de este rango para,

aproximadamente, el 91,5% de las muestras de 250 observaciones de esta poblacion. ◭

Ejemplo 1.4.5 Se desea estudiar una muestra de 20 personas para saber la proporcion de ellas

que tienen mas de 40 anos. Sabiendo que la proporcion en la poblacion es del 40%, ¿cual es la

probabilidad de que la proporcion en la muestra sea menor del 50%?

SOLUCION:

Aquı, n = 20 y p = 0, 4. Por el teorema 1.4.2, tenemos que

µp = p = 0, 4 y σp =

p(1 − p)

n=

(0, 4)(0, 6)

20≈ 0, 1095.

Por consiguiente, la probabilidad pedida es

P (p < 0, 5) = P

(

Z <0, 5 − µp

σp

)

= P

(

Z <0, 5 − 0, 4

0, 1095

)

= P (Z < 0, 91).

Ahora, observe que n < 30. Pero, debido a que

• np = 8 ≥ 5,

• n(1 − p) = 12 ≥ 5,

entonces, por el teorema de De Moivre-Laplace (teorema 1.4.3), la variable Z tiene distribucion

normal estandar. Con esto y con la tabla normal del apendice, tenemos que

P (p < 0, 5) = P (Z < 0, 91) = Φ(0, 91) = 0, 8186.

Por tanto, la probabilidad de que la proporcion en la muestra sea menor del 50% es aproximada-

mente del 82%. ◭

1.4. Distribucion muestral de una proporcion muestral

Page 48: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

46 Dr. rer. nat. Humberto Llinas

Ejemplo 1.4.6 Hallar la probabilidad de que en 200 lanzamientos de una moneda no falsa, el

numero de caras este comprendido en el 40% y el 60%.

SOLUCION:

En este caso, n = 200 y p = P (“cara”) = 0, 5. Ahora, por el teorema 1.4.2, tenemos que

µp = p = 0, 5 y σp =

p(1 − p)

n=

(0, 5)(0, 5)

200≈ 0, 035.

Por consiguiente, la probabilidad requerida es

P (0, 4 < p < 0, 6) = P

(

0, 4 − µp

σp< Z <

0, 6 − µp

σp

)

= P

(

0, 4 − 0, 5

0, 035< Z <

0, 6 − 0, 5

0, 035

)

= P (−2, 83 < Z < 2, 83) = P (Z < 2, 83) − P (Z < −2, 83).

Ahora, como n ≥ 30, entonces, por el teorema de De Moivre-Laplace (teorema 1.4.3), la variable

Z tiene distribucion normal estandar. Por tanto, de la tabla normal del apendice, tenemos que

P (0, 4 < p < 0, 6) = P (Z < 2, 83) − P (Z < −2, 83) = Φ(2, 83) − Φ(−2, 83)

= 0, 9977 − 0, 0023 = 0, 9954.

Por tanto, la probabilidad de que en 200 lanzamientos de una moneda no falsa, el numero de caras

este comprendido en el 40% y el 60%, es aproximadamente del 99,5%. ◭

✍ Ejercicios de la seccion 1.4

43. El 5% de todos los tornillos fabricados por cierta empresa estan defectuosos. Suponga que

de 1.500 tornillos recien fabricados se toma una muestra aleatoria de 50 y que p representa

el porcentaje de los defectuosos.

(a) Describa la distribucion muestral de p y encuentre µp y σp.

(b) Encuentre P (p < 0, 08).

(c) Calcule P (0.01 < p < 0, 10).

(d) Determine P (p > 0, 04).

43. (a) Aproximadamente normal; 0,05; 0,03 (b) 0,8340 (c) 0,8506 (d) 0,6225

44. Cierta ciudad europea tiene un porcentaje de desempleo de 12%. Para un estudio de 500

personas, sea p el porcentaje de desempleados en esta muestra. Encuentre (a) P (p > 0, 11)

y (b) P (0, 11 < p < 0, 13).

45. Si un medicamento es efectivo en un 80% para tratar ciertas enfermedad, y una muestra

aleatoria de 500 pacientes recibe el medicamento, encuentre las probabilidades siguientes si

p representa el porcentaje de tratamientos en los que hay efectividad:

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 49: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 47

(a) P (p > 0, 81)

(b) P (0, 70 < p < 0, 81)

(c) P (p < 0, 84)

45. (a) 0,2877 (b) 0,7123 (c) 0,9875

46. De acuerdo con un estudio reciente en cierto paıs, de 500 personas el 75% esta de acuerdo

con un referendo. Dando por valida la proporcion citada y representandola por p, encuentre:

(a) el error estandar de la proporcion.

(b) un intervalo centrado en 0,75 que contenga 90% de las proporciones muestrales.

46. (a) 0,0194 (b) 0,73 - 0,77

47. En el ano 2005, los habitantes de cierto paıs votaron en un referendum acerca de una nueva

ley. En cierto estado, el 42,4% de las personas que votaron lo hicieron en favor de la nueva

ley. Se tomo una muestra aleatoria de 100 votantes de dicho estado.

(a) ¿Cual es la media, la varianza y el error estandar de la proporcion muestral que esta a

favor de la nueva ley?

(b) ¿Cual es la probabilidad de que la proporcion muestral sea mayor que 0,5?

47. (a) 0,424; 0,00244; 0,04942 (b) 0,0618

48. El propietario de cierto local comercial ha comprobado que el 20% de los clientes que entran

en su local realizan alguna compra. Cierta tarde, entraron en esta tienda 180 personas, que

pueden ser considerados como una muestra aleatoria de todos sus clientes.

(a) ¿Cual es la media, la varianza y el error estandar de la proporcion muestral de clientes

que realizaron alguna compra?

(b) ¿Cual es la probabilidad de que la proporcion muestral sea menor que 0,15?

48. (a) 0,2; 0,000889; 0,0298 (b) 0,0465

49. Una empresa ha recibido 120 solicitudes de trabajo de estudiantes que acaban de terminar

su carrera de administracion de empresas. Suponiendo que estas solicitudes pueden ser

consideradas como una muestra aleatoria de todos los licenciados, ¿cual es la probabilidad

de que entre un 35% y un 45% de las solicitudes correspondan a mujeres si se sabe que el

40% de los administradores de empresas que acaban de terminar su carrera son mujeres?

49. 0,7372

50. Una entidad bancaria esta considerando una nueva emision de bonos convertibles. Sus

directores piensan que la oferta resultara atractiva para el 20% de los accionistas actuales.

Supongamos que su creencia es acertada. Se toma una muestra aleatoria de 130 accionistas.

(a) ¿Cual es el error estandar de la proporcion muestral de accionistas que encontraran

atractiva la oferta?

(b) ¿Cual es la probabilidad de que esta proporcion muestral sea superior a 0,15?

1.4. Distribucion muestral de una proporcion muestral

Page 50: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

48 Dr. rer. nat. Humberto Llinas

(c) Cual es la probabilidad de que esta proporcion muestral este entre 0,18 y 0,22?

50. (a) 0,0351 (b) 0,9236 (c) 0,4314 (d) mayor, mayor

51. Se toma una muestra aleatoria de 100 personas de cierto estado con el fin de estimar la

proporcion de encuestados que esta a favor de un incremento en los impuestos sobre la

tarifa de los servicios publicos para contar ası con un ingreso adicional para las personas de

la tercera edad. ¿Cual es el mayor valor que puede tomar el error estandar de la proporcion

muestral de esta medida?

51. 0,05

52. Una empresa quiere estimar la proporcion de personas que son posibles compradores de

cierto servicio de telefonıa movil y que ven las transmisiones de los partidos de futbol del

campeonato local. Se toma una muestra de 120 individuos que se identificaron como posibles

compradores del servicio de telefonıa movil . Supongamos que la proporcion de posibles

compradores del servicio de telefonıa movil en la poblacion que ven estas transmisiones es

0,25.

(a) 0,10 es la probabilidad de que la proporcion muestral exceda a la proporcion poblacional,

¿en que valor?

(b) 0,05 es la probabilidad de que la proporcion muestral este por debajo de la proporcion

poblacional, ¿en que valor?

(c) 0,30 es la probabilidad de que la proporcion muestral difiera de la proporcion pobla-

cional, ¿en que valor?

52. (a) 0,051 (b) 0,065 (c) 0,041

53. Suponga que el 50% de los colombianos adultos opinan que la tasa de desempleo al final del

presente ano sera mucho mayor en comparacion de anos anteriores. ¿Cual es la probabilidad

de que mas del 58% de las personas de una muestra aleatoria de 250 colombianos adultos

tenga esta opinion?

53. 0,0057

54. Un colegio europeo cuenta con un total de 528 estudiantes. De ellos, 211 son extranjeros.

Se toma una muestra aleatoria de 120 de estos estudiantes.

(a) ¿Cual es el error estandar de la proporcion muestral de alumnos que son extranjeros?

(b) ¿Cual es la probabilidad de que esta proporcion muestral sea menor que 0,33?

54. (a) 0,039 (b) 0,0384 (c) 0,4906

55. El incremento porcentual anual del salario mınimo de los trabajadores de cierta empresa

sigue una distribucion normal con media del 12,2% y una desviacion estandar del 3,6%.

Se toma una muestra aleatoria de 81 de los trabajadores de esta empresa. ¿Cual es la

probabilidad de que mas de la mitad de los individuos de la muestra tengan incrementos

salariales menores del 10%?

55. Practicamente cero.

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 51: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 49

1.5 Distribucion muestral de diferencia de dos propor-

ciones muestrales

En muchas situaciones practicas el investigador necesita hacer inferencias sobre la diferencia

entre dos proporciones poblacionales. A continuacion se dan algunos ejemplos:

• Polıtica. ¿Existe alguna diferencia entre los porcentajes de liberales y conservadores

que esten a favor de una cierta ley?

• Medicina. ¿Es mas alto el porcentaje de los casos de cancer pulmonar en una poblacion

que fuma que en otra compuesta por no fumadores?

• Administracion. ¿Hay diferencia entre los porcentajes de hombres y mujeres en posi-

ciones gerenciales?

• Educacion. ¿Es diferente la proporcion de alumnos que han aprendido a leer por

un metodo de ensenanza con la de los que han aprendido a leer por otro metodo

diferente?

• Mercado. ¿Es mayor el porcentaje de bebederos de gaseosa prefieren Coca cola que

el de los que toman Pepsi?

• Sociologıa. ¿Hay diferencia entre las proporciones de gente urbana y rural que esta a

favor de cierta ley?

La distribucion muestral mas importante en estos casos es es la de la diferencia entre dos

proporciones muestrales. Para construir esta distribucion empıricamente, hay que tomar

dos muestras aleatorias independientes procedentes de ambas poblaciones.

Supongamos que una muestra de n1 observaciones de una poblacion con una proporcion p1

de “exitos” da lugar a una proporcion muestral p1, y que se obtiene una proporcion mues-

tral p2 al examinar una muestra aleatoria independiente de n2 observaciones procedentes de

una poblacion con proporcion p2 de “exitos”. Dado que estamos interesados en la diferncia

poblacional p1−p2, parece logico estudiar el comportamiento de la variable aleatoria p1−p2.

Su media es

E(p1 − p2) = E(p1) − E(p2) = p1 − p2

y, debido a que las muestras se extrajeron independientemente, la varianza

V (p1 − p2) = V (p1) + E(p2) =p1(1 − p1)

n1

+p2(1 − p2)

n2

.

1.5. Distribucion muestral de diferencia de dos proporciones muestrales

Page 52: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

50 Dr. rer. nat. Humberto Llinas

Ademas, si los tamanos muestrales son grandes, la distribucion de esta variable es aprox-

imadamente normal, por lo que si le restamos su media y la dividimos por la desviacion

tıpica, el resultado es una variable normal estandar. Ası pues, la variable aleatoria

Z =(p1 − p2) − (p1 − p2)√

p1(1−p1)n1

+ p2(1−p2)n2

sigue una distribucion normal estandar. Todos estos resultados expuestos hasta aquı se

resumen en el siguiente

Teorema 1.5.1 Sea p1 la proporcion de exitos observada en una muestra aleatoria detamano n1, procedente de una poblacion con proporcion p1 de exitos, y sea p2 la proporcionde exitos observada en una muestra aleatoria independiente de tamano n2, procedente de unapoblacion con proporcion de exitos p1. Si los tamanos muestrales son grandes, entonces, la

distribucion muestral de p1−p2 es la normal con media p1−p2 y varianza p1(1−p1)n1

+ p2(1−p2)n2

.

Este teorema implica que la variable aleatoria Z = (p1−p2) − (p1−p2)√

p1(1−p1)n1

+p2(1−p2)

n2

tiene distribucion normal

estandar. Ademas, esta aproximacion es valida si se cumple alguna de las dos condiciones siguientes:

• n1 ≥ 30 y n2 ≥ 30.

• n1p1 ≥ 5, n1(1 − p1) ≥ 5, n2p2 ≥ 5 y n2(1 − p2) ≥ 5.

Considere el siguiente ejemplo, el cual ilustra la distribucion muestral de la diferencia entre

las proporciones muestrales.

Ejemplo 1.5.2 Los hombres y mujeres adultos radicados en una ciudad grande del norte de

cierto pais difieren en sus opiniones sobre la promulgacion de la pena de muerte para personas

culpables de asesinato. Se cree que el 12% de los hombres adultos estan a favor de la pena de

muerte, mientras que solo el 10% de las mujeres adultas lo estan. Si se pregunta a dos muestras

aleatorias, una de 150 hombres y otra de 100 mujeres, su opinion sobre la promulgacion de la pena

de muerte para personas culpables de asesinato, determine la probabilidad de que el porcentaje

de hombres a favor sea al menos 3% mayor que el de mujeres.

SOLUCION:

Representemos con p1 el porcentaje de hombres a favor de la pena de muerte y con p2 el de mu-

jeres. Como consecuencia del teorema 1.5.1, la media de la distribucion muestral de las diferencias

entre las proporciones muestrales es:

µp1−p2= p1 − p2 = 0, 12 − 0, 10 = 0, 02

y el error estandar de las diferencias entre las proporciones muestrales es

σp1−p2=

p1(1 − p1)

n1+

p2(1 − p2)

n2=

(0, 12)(0, 88)

150+

(0, 10)(0, 90)

100= 0, 04.

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 53: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 51

Entonces, el valor Z para p1 − p2 = 0, 03 esta dado por

Z =(p1 − p2) − µp1−p2

σp1−p2

=0, 03 − 0, 02

0, 04=

0, 01

0, 04= 0, 25.

Facilmente, podemos verificar que se cumplen las condiciones que se necesitan para poder utilizar

la aproximacion del teorema 1.5.1. Por tanto, por este teorema, la probabilidad pedida sera

P (p1 − p2 ≥ 0, 03) = P (Z ≥ 0, 25) = 1 − P (Z ≤ 0, 25) = 1 − 0, 5987 = 0, 4013.

Concluimos ası que la probabilidad de que el porcentaje de hombres a favor de la pena de muerte

para culpables de asesinatos sea al menos 3% mayor que el de mujeres es 0,4013. ◭

✍ Ejercicios de la seccion 1.5

56. En una muestra aleatoria simple de 150 ingenieros que habıan culminado su carrera en

universidades privadas, 45 gozan de una estabilidad economica. En una muestra aleatoria

simple independiente de 200 ingenieros que habıan culminado su carrera en universidades

publicas, 20 gozan de una estabilidad economica. Supongamos que la proporcion de los

ingeniron que gozan una estabilidad economica es de 0,15 en cada grupo. ¿Cual es la

probabilidad de que los resultados obtenidos con estas muestras lleguen a este extremo o a

mas?

57. Se cree que 0,16 de las industrias de un area metropolitana I son textiles. Se cree ademas

que en un area metropolitana II esta proporcion es de 0,11. Si estas cifras son exactas, ¿cual

es la probabilidad de que una muestra aleatoria simple de 200 industrias del area I y una

muestra aleatoria simple independiente de 225 industrias del area II arrojen una diferencia

entre las proporciones muestrales mayor o igual que 0,10?

57. 0,0475

58. Se cree que el 15% de los estudiantes de una universidad A fuman y que en una poblacion

B solamente el 8% fuman. Si estas cifras son exactas, ¿cual es la probabilidad de que

una muestra aleatoria de 120 estudiantes de la universidad A y una muestra aleatoria

independiente de 130 de la universidad B arrojen un valor de pA − p−B igual o mayor que

0,16?

59. Se cree que dos tecnicas, A y B, son igualmente efectivas para reducir el nivel de ansiedad

de ciertas personas emocionalmente perturbadas. La proporcion de personas en las que la

droga resulta efectiva es 0,70. En una muestra aleatoria de 100 personas emocionalmente

trastornadas a quienes se les suministro la droga A, 75 experimentaron una reduccion del

nivel de ansiedad. La droga B resulto efectiva en 105 personas de una muestra aleatoria

independiente de 150 personas. Si las dos drogas son igualmente efectivas como se cree,

¿cual es la probabilidad de observar un valor de pA − p−B tan gran de o mas grande de lo

que aquı se anota?

1.5. Distribucion muestral de diferencia de dos proporciones muestrales

Page 54: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

52 Dr. rer. nat. Humberto Llinas

59. 0,2033

60. En una ciudad se cree que el 40% de los habitantes estan de acuerdo con un refendo. En

otra ciudad se cree que solo el 15% de los habitantes lo estan. Siendo estas cifras correctas,

¿cual es la probabilidad de que muestras aleatorias simples de 100 habitantes de cada ciudad

arrojen una diferencia en la proporcion de habitantes que estan de acurdo con el referendo

de 0,40 o de mas?

61. Un investigador opina que el 15% de los duenos de empresas de la ciudad A y el 10% de

los de la ciudad B son extranjeros. En una muestra aleatoria simple de 150 duenos de

empresas de la ciudad A el investigador encontro que 30 eran extranjeros. Una muestra

aleatoria simple independiente de 100 duenos de empresas de la ciudad B revelo que 7 lo

eran. Supongamos que la opinion que tiene el investigador sobre la nacionalidad de los

duenos de empresas es correcta. ¿Cual es la probabilidad de observar una diferencia entre

las proporciones muestrales mayor o igual a la que realmente se observa? ¿Puede ser que el

investigador decida revisar sus creencias sobre las dos poblaciones?

61. 0,0228; Sı

1.6 Distribucion muestral de diferencia de medias

En muchas situaciones practicas el investigador concentra su investigacion en dos pobla-

ciones. A menudo se desea sacar inferencias acerca de la diferencia entre dos medias pobla-

cionales. Un ejemplo podrıa ser el caso de un agricultor que esta considerando el uso de dos

fertilizantes alternativos y esta interesado en en la diferencia de las producciones medias

por hectareas resultantes. Para comparar las medias poblacionales, se extrae una muestra

aleatoria de las dos poblaciones y la inferencia acerca de la diferencia entre ambas medias se

basa en los resultados muestrales. El metodo apropiado para analizar esta informacion de-

pende del procedimiento empleado al seleccionar las muestras. Para ello se deben considerar

las dos posibilidades siguientes:

1. Datos pareados (o muestras dependientes). En este procedimiento, las

muestras se eligen por pares, una de cada poblacion. La idea es que, aparte del

aspecto objeto de estudio, los elementos de cada uno de estos pares deben estar

relacionados, de manera que la comparacion pueda ser establecida directamente. Las

aplicaciones que pueden involucrar este tipo de procedimiento son:

• Educacion. Supongamos que queremos medir la eficacia de un curso de lectura

rapida. Una manera de abordar el problema serıa tomar nota de las palabras por

minuto leıdas por una muestra de alumnos antes de tomar el curso y compararlas

con los resultados obtenidos por los mismos alumnos una vez completado el

curso. En este caso, cada par consistirıa en medidas de la velocidad de un

mismo alumno realizadas antes y despues del curso.

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 55: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 53

• Nutricion. Poner a prueba los efectos de un programa de reduccion de peso,

mediante la obtencion de las medidas del peso en la misma persona antes y

despues del programa.

• Agricultura. Poner a prueba los efectos de dos fertilizantes en la produccion de

arroz comparando la produccion de parcelas similares en las mismas condiciones.

• Economıa. Comparar el cambio medio en los ingresos por accion de una empresa

en dos anos consecutivos.

• Industria. Estudiar el efecto de un antioxidante en las tuberıas de metal, midi-

endo el grado de oxidacion antes y despues de aplicar dicho antioxidante.

2. Muestras independientes. En este metodo se extraen dos muestras independi-

entes de cada una de las dos poblaciones de interes, de manera que los miembros de

una muestra no tienen necesariamente relacion con los miembros de la otra.

1.6.1 Datos pareados (muestras dependientes)

De manera general, supongamos que tomamos una muestra aleatoria de n pares de observa-

ciones que representamos por (x1, y1), (x2, y2), . . ., (xn, yn), procedentes de dos poblaciones

con medias µ1 y µ2. Ası, x1, x2, . . . , xn corresponden a las observaciones muestrales de una

poblacion con media µ1 y y1, y2, . . . , yn corresponden a las observaciones muestrales de una

poblacion con media µ2.

Ahora, si di = xi − yi, para cada i = 1, . . . , n, entonces, la diferencias d1, . . . , dn se puede

pensar como una muestra aleatoria de la poblacion de diferencias de datos pareados. Con

esto tenemos que si x y y son las medias de las muestras x1, . . . , xn y y1, . . . , yn, entonces,

la media d de las diferencias muestrales viene dada por d = x − y, el cual esta asociado

con el estadıstico D definido como la diferencia de medias muestrales D = X − Y . Sea

sd la desviacion estandar muestral para las n diferencias di = xi − yi. Entonces, la media

µD y la varianza σ2D

de la distribucion muestral de D son como aparecen en la tabla 1.10

(comparese con la tabla 1.9).

Tabla 1.10: Media y varianza del estadıstico D

Estadıstico Media Varianza

D = X − Y µD = µ1 − µ2 σ2D

=s2d

n

El objetivo es determinar la distribucion muestral de D = X −Y . En el siguiente teorema,

se describe cual es su distribucion para el caso en que los datos son pareados y cuando las

1.6. Distribucion muestral de diferencia de medias

Page 56: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

54 Dr. rer. nat. Humberto Llinas

muestras son pequenas.

Teorema 1.6.1 Supongamos que disponemos de una muestra aleatoria de datos pareados

procedentes de distribuciones con medias µ1 y µ2. Sean d y sd la media y la desviacion

estandar muestral para las n < 30 diferencias di = xi − yi. Si se asume que la distribucion

de las diferencias es normal, entonces, la distribucion muestral del D = X − Y es la t de

Student con n − 1 grados de libertad.

Este teorema implica que la variable aleatoria t =D−µ

D

σD

tiene distribucion t con n − 1 grados de

libertad. Aquı, µD y varianza σ2D

se calculan como se muestra en la tabla 1.10.

Ejemplo 1.6.2 La tabla de abajo recoge los datos de consumo de gasolina correspondiente a una

muestra aleatoria de 8 automoviles norteamericanos de dos modelos diferentes. Se formaron pares

con las dos muestras y cada elemento de un determinado par fue conducido por la misma ruta y

por el mismo piloto.

xi (auto A) 19,4 18,8 20,6 17,6 19,2 20,9 18,3 20,4

yi (auto B) 19,6 17,5 18,4 17,5 18,0 20,0 18,8 19,2

(a) Determine la media y la desviacion muestral de las diferencias en el consumo de gasolina.

(b) Suponiendo que la distribucion de las diferencias poblacionales es normal con media -0,807,

encuentre la probabilidad de que el consumo promedio de gasolina del auto A sea mayor que

el del auto B.

SOLUCION:

(a) En la siguiente tabla se incluyen las diferencias di entre los datos de la tabla anterior. Estas

diferencias forman una muestra aleatoria procedente de una poblacion cuya media es µA−µB,

la diferencia entre las medias poblacionales entre dos modelos de autos.

xi 19,4 18,8 20,6 17,6 19,2 20,9 18,3 20,4

yi 19,6 17,5 18,4 17,5 18,0 20,0 18,8 19,2

di -0,2 1,3 2,2 0,1 1,2 0,9 -0,5 1,2 Suma = 6,2

d2i 0,04 1,69 4,84 0,01 1,44 0,81 0,25 1,44 Suma = 10,52

La media y la varianza muestral de las diferencias en el consumo de gasolina pueden calcularse

utilizando la informacion recogida en la tabla anterior. Para la media el resultado es

d =d1 + · · · + dn

n=

6, 2

8= 0, 775

y para la varianza,

s2d =

n∑

i=1d2

i − nd

n − 1=

10, 52 − (8)(0, 775)2

8 − 1= 0, 816

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 57: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 55

por lo que la desviacion muestral observada es

sd =√

0, 816 = 0, 903.

(b) Tenemos que µA − µB = −0, 807. Sean XA y XB las variables que representan al consumo

promedio de gasolina de los autos A y B, respectivamente. Nos piden calcular P (XA > XB)

o, que es lo mismo, P (XA − XB > 0). Hagamos D = XA − XB. Por la tabla 1.10,

µD = −0, 27 y σD = sd/√

n = 0, 3413.

Entonces, por el teorema 1.6.1 y teniendo en cuenta la tabla t de Student (con n − 1 = 7

grados de libertad) encontramos que

P (XA − XB > 0) = P (D > 0) = P

(

t >0 − µD

σD

)

= P

(

0 − (−0, 807)

0, 3413

)

= P (t > 2, 3645) ≈ 0, 025.

Por consiguiente, la probabilidad de que el consumo promedio de gasolina del auto A sea

mayor que el del auto B es aproximadamente del 2,5%. ◭

1.6.2 Muestras independientes

Consideremos dos poblaciones con medias µ1, µ2 y varianzas σ1y σ2, respectivamente, y

suponagmos que se seleccionan dos muestra aleatorias independientes de tamanos n1, n2,

con medias X1, X2 y varianzas s21 y s2

2, respectivamente. El objetivo tambien es determinar

la distribucion muestral de X1 − X2. Para ello distinguiremos los siguientes casos:

• Las varianzas poblacionales son conocidas o desconocidas, pero las muestras son

grandes.

• Las varianzas poblacionales son desconocidas, pero iguales, y las muestras son pequenas.

• Las varianzas poblacionales son desconocidas, pero diferentes, y las muestras son

pequenas.

Primer caso: varianzas poblacionales conocidas o desconocidas y

muestras grandes

Cuando las varianzas poblacionales σ21 y σ2

2 son conocidas, la forma funcional de la dis-

tribucion muestral de X1−X2 depende de las poblaciones de donde se extraen las muestras.

Si ambas poblaciones estan distribuidas normalmente, la distribucion muestral de x1 − x2

sera normal. Si una (o ambas) poblacion original no esta distribuida normalmente, la dis-

tribucion muestral de X1 −X2 estara distribuida mas o menos normalmente si n1 y n2 son

1.6. Distribucion muestral de diferencia de medias

Page 58: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

56 Dr. rer. nat. Humberto Llinas

grandes.

Ahora, la variable aleatoria X1 − X2 tiene media

E(X1 − X2) = E(X1) − E(X2) = µ1 − µ2

y, dado que las muestras son independientes, varianza

V (X1 − X2) = V (X1) + V (X2) =σ2

1

n1

+σ2

1

n1

.

Ademas, se puede probar que si las dos poblaciones son normales, entonces, X1 − X2

tambien es normal. Por tanto, la variable aleatoria

Z =(X1 − X2) − (µ1 − µ2)

σ21

n1+

σ22

n2

tiene una distribucion normal estandar. Todas estas caracterısticas importantes de las dis-

tribucion muestral de la diferencia entre dos medias muestrales se encuentran resumidas en

el siguiente

Teorema 1.6.3 Sean x1 y x2 las medias de muestras aleatorias independientes de tamanos

n1 y n2 de poblaciones con medias µ1, µ2 y varianzas σ21, σ2

2, respectivamente. Supongamos

que se cumple alguna de las siguientes condiciones:

(a) Ambas poblaciones son normales y ambas varianzas poblaciones σ21 y σ2

2 son conocidas;

(b) Ambas poblaciones son desconocidas o no normales, ambas varianzas poblacionales σ21

y σ22 son conocidas o desconocidas y n1 ≥ 30, n2 ≥ 30.

Entonces, la distribucion muestral de la diferencia entre dos medias muestrales estara

distribuida normalmente y tendra una media igual a µ1 − µ2 y varianzaσ21

n1+

σ22

n2.

Treinta observaciones en cada muestra son, en general, suficientes para realizar esta aproximacion.

Ejemplo 1.6.4 En un estudio para comparar los pesos promedios de ninos y ninas de sexto

grado en una escuela de instruccion media, se usara una muestra aleatoria de 20 ninos y otra igual

de 25 ninas. Se sabe que, tanto para ninos y ninas, los pesos siguen una distribucion normal.

El promedio de los pesos de todos lo ninos de sexto grado de esa escuela es de 100 libras y su

desviacion estandar es de 14,142, mientras que el promedio de los pesos de todas las ninas del sexto

grado es de 85 libras y su desviacion estandar es de 12,247. Encuentre la probabilidad de que el

promedio de los pesos de los 20 ninos sea al menos 20 libras mas grande que el de los de las 25 ninas.

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 59: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 57

SOLUCION:

Supongamos que X1 representa el promedio de los pesos de 20 ninos y X2, el promedio de los

pesos de una muestra de 25 ninas. Nos piden calcular P (X1−X2 > 20). Como las dos poblaciones

en cuestion son normales y con varianzas conocidas, entonces, por el teorema 1.6.3, tenemos

• La distribucion muestral de X1 − X2 es aproximadamente normal.

• La media de la distribucion muestral de X1 − X2 es igual a µ1 − µ2 = 100 − 85 = 15.

• La varianza de la distribucion muestral de X1 − X2 es

σ21

n1+

σ22

n2=

(14, 142)2

20+

(12, 247)2

25= 16.

Entonces, para determinar P (X1 − X2 ≥ 20), encontramos el valor Z para una diferencia de 20

libras. O sea Z = 20−15√

16= 1, 25. En consecuencia,

P (X1 − X2 > 20) = P (Z ≥ 1, 25) = 1 − P (Z ≤ 1, 25) = 1 − 0, 8944 = 0, 1056.

Por tanto, la probabilidad de que el promedio de los pesos de la muestra de ninos sea al menos 20

libras mas grande que el de la muestra de las ninas es 0,1056. ◭

Ejemplo 1.6.5 Se identificaron dos poblaciones de alumnos de ultimo ano de un colegio. La vari-

able de interes en la investigacion consistıa en los puntajes obtenidos en una prueba de rendimiento

en estadıstica que hicieron los estudiantes de las dos poblaciones. Los investigadores suponıan que

los puntajes de las dos poblaciones estaban distribuidos normalmente con las siguientes medias y

varianzas: µ1 = 50, σ21 = 40, µ2 = 40, σ2

2 = 60. Una muestra aleatoria de tamano n1 = 10 se saca

de la poblacion 1 y una de tamano n2 = 12 de poblacion 2. ¿Cual es la probabilidad de que la

diferencia entre las medias muestrales este entre 5 y 15?

SOLUCION:

Observe que no se conoce la forma funcional de las poblaciones originales. Como las varianzas

poblacionales son conocidas y las poblaciones son normales, entonces, por el teorema 1.6.3(b),

la distribucion muestral de X1 − X2 es aproximadamente normal y tiene una media igual a

µ1−µ2 = 50−40 = 10 y varianzaσ21

n1+

σ22

n2= 40

10 + 6012 = 9. Para encontrar la probabilidad deseada,

transformamos los valores de X1 − X2 en los valores de Z, como se muestra a continuacion:

Z =5 − 10√

9= −1, 67, Z =

15 − 10√9

= 1, 67.

Por consiguiente, teniendo en cuenta la tabla del apendice, obtenemos

P (5 ≤ X1 − X2 ≤ 15) = P (−1, 67 ≤ Z ≤ 1, 67) = 2(0, 4525) = 0, 9050.

De esta manera, la probabilidad de que la diferencia entre las medias muestrales este entre 5 y 15

es aproximadamente del 90,5%. ◭

1.6. Distribucion muestral de diferencia de medias

Page 60: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

58 Dr. rer. nat. Humberto Llinas

Ejemplo 1.6.6 Suponga que dos drogas A y B, de las que se dice que reducen el tiempo de

respuesta de las ratas a determinado estımulo, se estan comparando en un experimento de lab-

oratorio. El experimentador supone que las respectivas poblaciones de los tiempos de respuesta

al estımulo estan distribuidos normalmente y tienen varianzas iguales. Se administra la droga A

a 12 ratas y la droga B a 13. Cuando se lleva a cabo el experimento, la reduccion promedio de

tiempo de respuesta al estımulo por parte de las ratas que estan recibiendo la droga A es 30,45

milisegundos con una desviacion tıpica de 5 milisegundos. Los datos correspondientes a la droga

B son 24,9 y 6 milisegundos. ¿Cual es la probabilidad de que la diferencia entre la reduccion

promedio de tiempo de respuesta al estımulo por parte de las ratas que estan recibiendo la droga

A y la reduccion promedio de tiempo de respuesta al estımulo por parte de las ratas que estan

recibiendo la droga B sea menor o igual a la que se observo en el experimento? Suponga que no

hay diferencia alguna entre las dos drogas con respecto a la reduccion promedio en tiempos de

respuestas y que las drogas son igualmente efectivas.

SOLUCION:

Sean XA y XB la reduccion promedio de tiempo de respuesta al estımulo por parte de las ratas

que estan recibiendo la droga A y la droga B, respectivamente. Nos piden calcular P (XA −XB ≤30, 45 − 24, 9 = 5, 55). Como las dos poblaciones en cuestion son normales y los tamanos de las

muestras son grandes (observe que los tamanos de ambas muestras son mayores o iguales que 30),

debemos aplicar el teorema 1.6.3:

• La distribucion muestral de XA − XB es aproximadamente normal.

• Aquı, tambien, la media de la distribucion muestral de XA − XB es igual a µA − µB = 0.

• La varianza de la distribucion muestral de XA − XB es

s2A

nA+

s2B

nB=

52

30+

62

40= 1, 73.

En este caso, el valor Z esta dado por

Z =(xA − xB) − (µA − µB)

s2A

nA+

s2B

nB

=5, 55 − 0

2, 20≈ 1, 31.

Por consiguiente,

P (XA − XB ≤ 5, 55) = P (Z ≤ 1, 31) = ≈ 0, 9049.

Es decir, la probabilidad de que la diferencia entre la reduccion promedio de tiempo de respuesta

al estımulo por parte de las ratas que estan recibiendo la droga A y la reduccion promedio de

tiempo de respuesta al estımulo por parte de las ratas que estan recibiendo la droga B sea menor

o igual a la que se observo en el experimento es aproximadamente del 90,5%. ◭

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 61: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 59

Segundo caso: varianzas poblacionales desconocidas, iguales y mues-

tras pequenas.

Considere el caso en que se desconocen σ21 y σ2

2, pero iguales, digamos, σ21 = σ2

2 = σ2.

Entonces, la variable aleatoria X1 − X2 tiene media µ1 − µ2 y varianza

V (X1 − X2) = V (X1) + V (X2) =σ2

n1

+σ2

n2

.

Ademas, se puede probar que si las dos poblaciones son normales, entonces, X1 − X2

tambien es normal. Por tanto, la variable aleatoria

Z =(X1 − X2) − (µ1 − µ2)

σ2

n1+ σ2

n2

(1.1)

tiene una distribucion normal estandar. Sin embargo, este ultimo resultado no puede ser

utilizado ya que la exprsion anterior dada para Z depende de la varianza poblacional de-

sconocida. Debido a que esta varianza es la misma para ambas poblaciones, pueden em-

plearse los dos conjuntos de informacion muestral para estimarla. El estimador es

s2 =(n1 − 1)s2

1 + (n2 − 1)s22

n1 + n2 − 2,

donde s21 y s2

2 son las dos varianzas muestrales. Observese que la cantidad s2, que se de-

nomina varianza muestral combinada, es el promedio ponderado de las dos varianzas

muestrales que se han obtenido ponderando cada una por los respectivos tamanos mues-

trales menos 1.

Reemplazando, en la ecuacion 1.1, la varianza desconocida σ2 por su estimador s2, ob-

tenemos la variable aleatoria

t =(x1 − x2) − (µ1 − µ2)

s21

n1+

s22

n2

.

Puede demostrarse que esta variable aleatoria sigue una distribucion t de Student con

n1 +n2−2 grados de libertad. En el siguiente teorema resumimos los resultados hasta aquı

expuesto y que se refieren al segundo caso.

1.6. Distribucion muestral de diferencia de medias

Page 62: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

60 Dr. rer. nat. Humberto Llinas

Teorema 1.6.7 Si σ21 y σ2

2 son iguales y desconocidas, entonces, la distribucion muestral

de la media tiene media µ1 − µ2 y varianza estimada igual a s2

n1+ s2

n1, siendo s2 es la

varianza muestral combinada. Ademas, si las dos poblaciones en cuestion son normales y

los tamanos de las muestras son pequenos (es suficiente considerar que sean estrictamente

menores que 30), entonces, la variable aleatoria

t =(x1 − x2) − (µ1 − µ2)

s2

n1+ s2

n2

esta distribuida segun la distribucion t de Student con n1 + n2 − 2 grados de libertad.

Ejemplo 1.6.8 Repita el ejemplo 1.6.6, pero ahora suponiendo que las poblaciones no tienen dis-

tribucion normal y que los tamanos muestrales son menores que 30, digamos nA = 12 y nB = 13.

SOLUCION:

Como las dos poblaciones en cuestion son normales y los tamanos de las muestras son pequenas

(observese que los tamanos muestrales son estrictamente menores que 30), entonces, debemos

aplicar el teorema 1.6.7:

• La distribucion muestral de XA−XB es aproximadamente la t de Student con nA+nB−2 =

12 + 13 − 2 = 23 grados de libertad.

• Debido a que no hay diferencia alguna entre las dos drogas con respecto a la reduccion

promedio en tiempos de respuestas y que las drogas son igualmente efectivas, entonces,

µA = µB. Por consiguiente, la media de la distribucion muestral de XA − XB es igual a

µA − µB = 0.

• Debido a que la varianza muestral combinada s2 esta dada por

s2 =(nA − 1)s2

A + (nB − 1)s2B

nA + nB − 2=

(12 − 1)52 + (13 − 1)62

12 + 13 − 2= 30, 74,

entonces, la varianza de la distribucion muestral de XA − XB es

s2

nA+

s2

nB=

30, 74

12+

30, 74

13= 4, 92.

Con base en los datos, el valor t esta dado por

t =(x1 − x2) − (µ1 − µ2)

s2

n1+ s2

n2

=5, 55 − 0

2, 22= 2, 5.

Por consiguiente,

P (XA − XB ≤ 5, 55) = P (t ≤ 2, 5) = 0, 01.

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 63: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 61

Es decir, la probabilidad de que la diferencia entre la reduccion promedio de tiempo de respuesta

al estımulo por parte de las ratas que estan recibiendo la droga A y la reduccion promedio de

tiempo de respuesta al estımulo por parte de las ratas que estan recibiendo la droga B sea menor

o igual a la que se observo en el experimento es del 1%. ◭

Tercer caso: varianzas poblacionales desconocidas, diferentes y

muestras pequenas.

En este situacion supondremos que las poblaciones originales estan distribuidas normal-

mente, que las varianzas poblacionales son desconocidas y diferentes y que las muestras son

pequenas. En este caso, se utilizaran las varianzas muestrales s21 y s2

2 en vez de las varian-

zas poblacionales desconocidas σ21 y σ2

2, respectivamente. Haciendo un analisis similar a las

situaciones anteriores encontramos los siguientes resultados que se presentan a continuacion.

Teorema 1.6.9 Si σ21 y σ2

2 son diferentes y desconocidas, entonces, la distribucion muestral

de la media tiene media µ1 − µ2 y varianza estimada igual as21

n1+

s22

n1. Ademas, si las

dos poblaciones en cuestion son normales y los tamanos de las muestras son pequenos (es

suficiente considerar que sean estrictamente menores que 30), entonces, la variable aleatoria

t =(x1 − x2) − (µ1 − µ2)

s21

n1+

s22

n2

esta distribuida segun la distribucion t de Student con

ν =

(

s21

n1+

s22

n2

)2

(s21/n1)2

n1−1+

(s22/n2)2

n2−1

grados de libertad. Dado que ν rara vez es un entero, se redondea al entero mas cercano.

Ejemplo 1.6.10 Repita el ejemplo 1.6.6, pero ahora suponiendo que las poblaciones no tienen

distribucion normal, que los tamanos muestrales son menores que 30 (digamos nA = 12 y nB = 13)

y que las varianzas poblacionales son diferentes.

SOLUCION:

En este caso, debemos aplicar el teorema 1.6.9:

• La distribucion muestral de XA − XB es aproximadamente la t de Student con

ν =

(

s2A

nA+

s2B

nB

)2

(s2A

/nA)2

nA−1 +(s2

B/nB)2

nB−1

=

(

52

12 + 62

13

)2

(52/12)2

12−1 + (62/13)2

13−1

= 22, 78 ≈ 23.

1.6. Distribucion muestral de diferencia de medias

Page 64: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

62 Dr. rer. nat. Humberto Llinas

grados de libertad.

• De nuevo, la media de la distribucion muestral de XA − XB es igual a µA − µB = 0.

• La varianza de la distribucion muestral de XA − XB es

s2A

nA+

s2B

nB=

52

12+

62

13= 4, 85.

En este caso, el valor t esta dado por

t =(xA − xB) − (µA − µB)

s2A

nA+

s2B

nB

=5, 55 − 0

2, 20≈ 2, 52.

Por consiguiente,

P (XA − XB ≤ 5, 55) = P (t ≤ 2, 52) ≈ 0, 01.

Es decir, la probabilidad de que la diferencia entre la reduccion promedio de tiempo de respuesta

al estımulo por parte de las ratas que estan recibiendo la droga A y la reduccion promedio de

tiempo de respuesta al estımulo por parte de las ratas que estan recibiendo la droga B sea menor

o igual a la que se observo en el experimento es aproximadamente del 1%. ◭

✍ Ejercicios de la seccion 1.6

62. La distribucion de pesos de los animales de cierto pueblo asiatico tiene un peso medio de

72 kilogramos y una desviacion estandar de 10 kilogramos, mientras que la distribucion de

pesos de los animales de cierto pueblo africano tiene un peso medio de 28 kilogramos con una

desviacion estandar de 5 kilogramos. Suponga que las medias muestrales se pueden medir

con cualquier grado de precision. Encuentre la probabilidad de que la media muestral para

una muestra aleatoria de pesos de 64 animales del pueblo asiatico exceda la media muestral

para una muestra aleatoria de alturas de 100 animales del pueblo africano por cuando mucho

44,2 kilogramos.

63. Se llevan a cabo dos experimentos independientes en los que se comparan dos tipos diferentes

de impresoras. Se imprimen 18 hojas con el tipo A y en cada uno se registra el tiempo de

secado en minutos. Lo mismo se hace con el tipo B. Se sabe que las desviaciones estandar

de la poblacion son ambas 1. Suponga que el tiempo medio de secado es igual para los

dos tipos de impresoras, encuentre P (XA − XB > 1), donde XA y XB son los tiempos

promedios de secado para muestras de tamano nA = nB = 18.

63. 0,0013

64. Las baterıas del fabricante A tienen una duracion media de 6,5 anos y una desviacion

estandar de 0,9 anos, mientras que las del fabricante B tienen una duracion media de 6,0

anos y una desviacion estandar de 0,8 anos. ¿Cual es la probabilidad de que una muestra

aleatoria de 36 baterıas del fabricante A tengan una duracion media que sea al menos de

un ano mas que la duracion media de una muestra de 49 baterıas del fabricante B?

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 65: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 63

64. 0,0040

65. Suponga que cuando el PH de cierto compuesto quımico es de 5, el PH medido por un

estudiante de quımica seleccionado al azar, es una variable aleatoria con media 5 y desviacion

estandar 0,2. Un lote grande del compuesto se subdivide y se da una muestra a cada

estudiante de un laboratorio vespertino. Sea X = PH promedio, como lo determinaron

los estudiantes matutinos y Y = PH promedio, como lo determinaron los estudiantes

vespertinos.

(a) Si el PH es una variable normal y hay 25 estudiantes en cada laboratorio, calcule

P (−0, 1 ≤ X − Y ≤ 0, 1).

(b) Si hay 36 estudiantes en cada laboratorio, pero las determinaciones del PH no se suponen

normales, calcule (aproximadamente) P (−0, 1 ≤ X − Y ≤ 0, 1).

65. (a) 0,9232 (b) 0,9660

66. Dos trenes se desplazan en la misma direccion en carriles paralelos adyacentes. En el tiempo

t = 0, el primer tren esta 10 km adelante del segundo. Suponga que la velocidad del primer

tren (km/h) esta normalmente distribuida con media de 520 y desviacion estandar de 10, y

la velocidad del segundo tren esttambien normalmente distribuida con media y desviacion

estandar de 500 y 10, respectivamente.

(a) ¿‘Cual es la probabilidad de que despues de 2 horas de recorrido el segundo tren no

haya alcanzado al primero?

(b) Determine la probabilidad de que los trenes esten separados a lo sumo 10 km despues

de 2 horas.

67. Suponga que tiempo de vida esperado de la baterıa del tipo A es 105 horas y la desviacion

estandar es 8 horas. Para la baterıa del tipo B, suponga que el tiempo de vida esperado y

desviacion estandar son 100 6 horas, respectivamente. Sea X = “tiempo de vida promedio

de una muestra aleatoria de 40 baterıas de tipo A y sea Y = “tiempo de vida promedio de

una muestra aleatoria de 35 baterıas de tipo B.

(a) ¿‘Cual es la distribucion aproximada de X y ¿‘deY ?

(b) ¿‘Cual es la distribucion aproximada de X − Y ? Justifique su respuesta.

(c) Calcule (aproximadamente)P (−1 ≤ X) − Y ≤ 1.

(d) Calcule P (X − Y ≥ 10). Si en realidad se observo X − Y ≥ 10, ¿durarıa de que

µ1 − µ2 = 5?

67. (a) Aproximadamente normal con media 105, desviacion 1,2649; Aproximadamente

normal con media 100, desviacion 1,0142 (b) Aproximadamente normal con media 5 y

desviacion 1,6213 (c) 0,0068 (d) 0,0010; sı

68. Para fines de investigacion, en un refrigerador A se guardaron 50 celulas vegetales de cierto

tipo y otros 50 en un refrigerador B. Sea X la variable aleatoria que representa el numero

de celulas guardados en el refrigerador A que sobreviven 1 ano y Y la variable aleatoria que

1.6. Distribucion muestral de diferencia de medias

Page 66: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

64 Dr. rer. nat. Humberto Llinas

representa el numero de celulas guardados en el refrigerador B que sobreviven 1 ano. Si la

probabilidad de que una celula guardada en el refrigerador A sobreviva 1 ano es 0,7 y la

probabilidad de que sobreviva 1 ano en el refrigerador B es 0.6, calcule una aproximacion a

P (−5 6 X − Y 6 5).

1.7 Distribucion muestral de la varianza y razon de

varianzas muestrales

1.7.1 Distribucion muestral de la varianza muestral

La varianza muestral y su distribucion muestral

En la seccion 1.3, consideramos el problema de hacer inferencias sobre la media poblacional

basandonos en la informacion muestral. Ahora, vamos a centrar nuestra atencion en la

varianza poblacional.

Supongamos que se extrae una muestra de n observaciones de una poblacion con media

desconocida µ y varianza desconocida σ2. Representaremos las observaciones muestrales

por X1, X2, . . . , Xn. La varianza poblacional es la esperanza

σ2 = E[(X − µ)2]

y, por tanto, una cantidad en la que evidentemente deberıamos fijarnos serıa en la media

de los (Xi − µ)2 para los n individuos de la muestra. Sin embargo, la media poblacional µ

es desconocida, por lo que en la practica esta cantidad no podra ser calculada. Es natural,

entonces, sustituir la desconocida µ por la media muestral X, y considerar la media de los

(Xi−X)2. De hecho, como ya se dijo en el capıtulo ??, la varianza muestral se define como

se muestra a continuacion:

Definicion 1.7.1 Sea X1, X2, . . . , Xn una muestra aleatoria de una poblacion. La cantidad

s2 =1

n − 1

n∑

i=1

(Xi − X)2

recibe el nombre de varianza muestral. Su raız cuadrada, s, se denomina desviacion

tıpica muestral.

Observese que, en nuestra definicion de varianza muestral, hemos usado como divisor (n−1)

en lugar de n, lo cual puede resultar sorprendente. La razon para esta formulacion es que

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 67: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 65

puede probarse que, si se define la varianza muestral de este modo, entonces, la media de

su distribucion muestral es la verdadera varianza poblacional, es decir,

E(s2) = σ2.

La conclusion de que el valor esperado de la varianza muestral es la varianza poblacional,

es general. Si embargo, para poder caracterizar completamente su distribucion muestral,

necesitaremos saber mas acerca de la distribucion de la poblacion. En muchas aplicaciones

practicas, el supuesto de que la distribucion de la poblacion es normal resulta razonable.

En tal caso, puede probarse que la variable aleatoria

(n − 1)s2

σ2=

n∑

i=1

(Xi − X)2

σ2

sigue una distribucion conocida con el nombre de distribucion χ2 con n − 1 grados de lib-

ertad6. El sımbolo χ2 se lee “ji-cuadrada” o “chi-cuadrada”.

Teorema 1.7.2 Si s2 es la varianza de una muestra aleatoria de tamano n de una poblacion

distribuida normalmente con media µ y varianza σ2, entonces, la distribucion muestral de(n−1)s2

σ2 es una distribucion χ2 con n − 1 grados de libertad.

La distribucion χ2 y sus propiedades

Algunas propiedades de la distribucion χ2 son las siguientes:

1. Esta distribucion solo esta definida para valores no negativos de la variable aleatoria,

lo cual resulta adecuado en este contexto, ya que la varianza muestral no puede ser

negativa.

2. Un miembro concreto de la familia χ2 viene caracterizado por un unico parametro,

al que llamaremos grados de libertad, para el que habitualmente se usa el sımbolo

ν. Si una variable aleatoria sigue una distribucion χ2 con ν grados de libertad, se

representara por χ2(ν).

3. La forma de una distribucion χ2 depende del grado de libertad ν. En consecuencia,

hay un numero infinito de distribuciones χ2.

4. El area total limitada por la curva de una distribucion χ2 y los ejes es igual a 1.

6La distribucion χ2 con n − 1 grados de libertad es la distribucion de la suma de los cuadrados de n

variables aleatorias normales estandar independientes.

1.7. Distribucion muestral de la varianza y razon de varianzas muestrales

Page 68: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

66 Dr. rer. nat. Humberto Llinas

5. Las distribuciones χ2 no son simetricas. Tienen colas estrechas que se extienden a la

derecha; esto es, estan sesgadas a la derecha.

6. La media y la varianza de esta distribucion son, respectivemente, el numero de grados

de libertad y el doble del numero de grados de libertad, es decir,

E(

χ2(ν))

= ν, V(

χ2(ν))

= 2ν.

La distribucion χ2 es una de las distribuciones continuas mas usadas en estadıstica aplicada.

Para facilitar su empleo, existen tablas que permiten hallar las areas, que son probabili-

dades, asociadas a intervalos limitados por valores determinados de χ2. En especial, la

probabilidad de que una muestra aleatoria produzca un valor χ2 mas grande que cualquier

algun valor especificado es igual al area bajo la curva a la derecha de este valor. Es cuestion

de que χ2α represente el valor χ2 arriba del cual se encuentra un area de α. Esto se muestra

en la region sombreada de la figura 1.6.

Figura 1.6: Distribucion χ2 en la que se muestra el area α que queda a la derecha del valor

χ2α

La tabla del apendice da los valores de χ2α para varios valores de α y ν. Las areas, α, son

los encabezados de las columnas; los grados de libertad, ν, se dan en la columna izquierda;

y el cuerpo de la tabla son los valores de χ2. De aquı que el valor de χ2 con 7 grados de

libertad, teniendo un area de 0,05 a la derecha, sea χ20,05(7) = 14, 067. Debido a la falta de

simetrıa, deben utilizarse las tablas para encontrar χ20,95(7).

Media y varianza de la distribucion muestral de la varianza muestral

En esta seccion calcularemos la media y varianza de s2. Para ello, utilizaremos la ultima

propiedad mencionada en la seccion anterior y el hecho de que, en nuestro contexto, la

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 69: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 67

variable aleatoria (n − 1)s2/σ2 sigue una distribucion χ2n−1. Por tanto,

n − 1 = E

[

(n − 1)s2

σ2

]

=(n − 1)

σ2E(s2),

de donde E(s2) = σ2. Por otro lado,

2(n − 1) = V

[

(n − 1)s2

σ2

]

=(n − 1)2

σ4V (s2)

y, en consecuencia,

V (s2) =2σ4

n − 1.

Estos resultados se presentan resumidos en el siguiente

Teorema 1.7.3 Sea s2 la varianza de una muestra aleatoria de tamano n. Entonces,

(a) la distribucion muestral de s2 tiene media σ2.

(b) La varianza de la distribucion muestral de s2 depende de la distribucion de la poblacion.

Si dicha distribucion es normal, entonces, sera igual a 2σ4

n−1.

Aplicaciones practicas

Supongamos que hemos tomado una muestra aleatoria de una poblacion y queremos hacer

alguna inferencia sobre la varianza poblacional. Si se asume la normalidad de la poblacion,

se podra usar la distribucion chi-cuadrado, como haremos en los ejemplos que aparecen a

continuacion.

Ejemplo 1.7.4 Cuando un proceso de produccion esta funcionando correctamente, la resistencia

en ohmios de los componentes que produce sigue una distribucion normal con desviacion tıpica

3,6. Se toma una muestra aleatoria de cuatro componentes. ¿Cual es la probabilidad de que la

varianza muestral sea mayor a 27?

SOLUCION:

Tenemos que n = 4 y σ = 3, 6 y como la poblacion en cuestion es normal, entonces, podemos

aplicar el teorema 1.7.2. Por tanto, teniendo en cuenta la tabla del apendice, la probabilidad que

se nos pide es

P (s2 > 27) = P

(

(n − 1)s2

σ2>

27(n − 1)

σ2

)

= P

(

χ2(3) >(27)(3)

12, 96

)

= P(

χ2(3) > 6, 25)

≈ 0, 10.

1.7. Distribucion muestral de la varianza y razon de varianzas muestrales

Page 70: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

68 Dr. rer. nat. Humberto Llinas

En consecuencia, la probabilidad de que la varianza muestral sea mayor a 27 es aproximadamente

del 10%. ◭

Ejemplo 1.7.5 Un fabricante de latas de guisantes esta interesado en que el peso medio de su

producto este proximo al peso anunciado. Ademas, desea que no haya mucha variabilidad en

los pesos de las latas de guisantes, ya que de lo contrario, una gran proporcion de latas diferirıa

sensiblemente del peso anunciado. Asumamos que la distribucion poblacional de los pesos es nor-

mal. Se toma una muestra aleatoria de veinte latas. Hallar el valor de k que verifica la relacion

P(

s2

σ2 < k)

= 0, 05.

SOLUCION:

Tenemos que n = 20. Para hallar el valor de k, tendremos en cuenta el teorema 1.7.2. Ahora,

0, 05 = P

(

s2

σ2< k

)

= P

(

(n − 1)s2

σ2< (n − 1)k

)

= P(

χ2(n − 1) < (n − 1)k)

= P(

χ2(19) < 19k)

.

Entonces, P(

χ2(19) > 19k)

= 0, 95. Por tanto, de la tabla del apendice, encontramos que 19k =

10, 12, de donde k = 0, 533. La conclusion es que la probabilidad de que la varianza muestral sea

menor que un 53% de la varianza poblacional es 0,05. ◭

Hay que hacer hincapie en el hecho de que la tecnica empleada en estos ejemplos no es tan

universalmente aplicable en la practica como la que usabamos en las primeras secciones de

este capıtulo. En este contexto, el supuesto de que la distribucion de la poblacion de la que

se ha extraıdo la muestra es normal, es fundamental. Hemos visto como pueden encontrarse

probabilidades relativas tanto a la media muestral como a la varianza muestral cuando se

muestrea de una poblacion normal. Sin embargo, esta ultima se vera mas afectada por

desviaciones del supuesto de normalidad de la distribucion poblacional. Cuando se quieren

calcular probabilidades relativas a la media muestral, el teorema ?? asegura que, para

muestras moderadamente grandes, desviaciones pequenas de la hipotesis de normalidad de

la poblacion de la que se extrae la muestra tienen un efecto pequeno en la validez de las

probabilidades calculadas. Por esta razon, se dice que las inferencias basadas en la media

muestral son robustas frente a desviaciones del supuesto de normalidad de la poblacion,

mientras que las inferencias basadas en la varianza poblacional no lo son.

Sin embargo, es frecuente en la practica que la varianza poblacional tenga un interes di-

recto para el investigador. Debe recordarse que, si solo se dispone de una cantidad pequena

de observaciones muestrales, desviaciones importantes del supuesto de normalidad de la

poblacion pueden invalidar las conclusiones del analisis realizado segun la tecnica que hemos

descrito en esta seccion. Por tanto, un analista precavido debera ser cuidadoso a la hora

de hacer inferencias en tales circunstancias.

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 71: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 69

1.7.2 Distribucion muestral de la razon de dos varianzas

Otro metodo para comparar dos poblaciones es comparar sus varianzas. Surgen muchas

aplicacione estadısticas en las que deben compararse las varianzas poblacionales. En aplica-

ciones industriales referentes a dos metodos o maquinas para producir el mismo producto,

se utilizan con frecuencia las varianzas y se las compara con propositos de control de calidad.

En esta seccion, consideraremos el caso de dos muestras aleatorias independientes de pobla-

ciones normales. Sea s21 la varianza muestral de una muestra aleatoria de n1 observaciones

de una poblacion normal con varianza σ21 y s2

2 la varianza muestral de una muestra aleato-

ria de n2 observaciones de una poblacion normal con varianza σ22. Entonces, la variable

aleatoria

F =s21/σ

21

s22/σ

22

sigue una distribucion conocida como7 distribucion t. Esta familia de distribuciones

tiene muchas aplicaciones en el analisis estadıstico. Un miembro particular de la familia se

distingue por dos valores: los grados de libertad asociados al numerador y al denominador.

En el presente contexto, recordemos que los grados de libertad asociados con la varianza

muestral s21 son n1 − 1 y con s2

2, n2 − 1. Entonces, la variable definida anteriormente, tiene

distribucion F con n1 − 1 grados de libertad en el numerador y n2 − 1 grados de libertad

en el denominador.

Teorema 1.7.6 Si s21 y s2

2 son las varianzas de muestras aleatorias independientes de

tamano n1 y n2 tomadas de poblaciones normales con varianzas σ21 y σ2

2, respectivamente,

entonces, la variable aleatoria

F =s21/σ

21

s22/σ

22

tiene una distribucion F con ν1 = n1 − 1 y ν2 = n2 − 1 grados de libertad.

La distribucion F , al igual que la chi-cuadrada, tiene una funcion de densidad asimetrica,

definido solo para valores no negativos. Esta funcion de densidad se representa en la figura

1.7.

En la tabla del apendice se proporcionan los puntos de corte Fα(ν1, ν2) para α igual a 0,05

y 0,01. Por ejemplo, para 10 grados de libertad en el numerador y 20 en el denominador,

hallamos en la tabla que

F0,05(10, 20) = 2, 35 y F0,01(10, 20) = 3, 37.

7Formalmente, la distribucion F se define como la distribucion que sigue el cociente de dos variables

aleatorias independientes con distribucion chi-cuadrado, cada una dividida por sus grados de libertad.

1.7. Distribucion muestral de la varianza y razon de varianzas muestrales

Page 72: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

70 Dr. rer. nat. Humberto Llinas

Esto significa que

P(

F (10, 20) > 2, 35)

= 0, 05 y P(

F (10, 20) > 3, 37)

= 0, 01.

Figura 1.7: Distribucion F con 6 grados de libertad en el numerador y 4, en el denominador,

en la que se muestra el area α que queda a la derecha del valor Fα(6, 4)

Ejemplo 1.7.7 En una prueba sobre la efectividad de dos tipos de pıldoras para dormir, A y B,

se utilizaran dos grupos independientes de personas con insomnio. A un grupo de tamano 61 se

le administrara la pıldora A y al otro grupo, de tamano 41, se le administrara la B, registrandose

el numero de horas de sueno de cada individuo participante en el estudio. Suponiendo que el

numero de hora de sueno de quienes usan cada tipo de pıldora se distribuye normalemente y que

σ2A = σ2

B, calcule la probabilidad de que la razon de las varianzas muestrales de A y B sea mayor

que 1,64.

SOLUCION:

La probabilidad pedida esta dada por

P (s2A/s2

B > 1, 64) = P(

F (60, 40) > 1, 64)

= 0, 05.

Es decir, la probabilidad de que la razon de las varianzas muestrales de A y B sea mayor que 1,64

es del 5%. ◭

Para finalizar, concluiremos con el siguiente teorema.

Teorema 1.7.8 Siempre se cumple que

F1−α(ν1, ν2) =1

Fα(ν2, ν1).

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 73: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 71

Ejemplo 1.7.9 De la tabla del apendice se tiene que

F0,95(6, 10) =1

F0,05(10, 6)=

1

4, 06= 0, 246. ◭

✍ Ejercicios de la seccion 1.7

69. Las rentabilidades mensuales de cierto tipo de acciones son independientes unas de otras y

siguen una distribucion normal con desviacion tıpica de 1,7. Se toma una muestra de 12

meses. Hallar la probabilidad de que la desviacion estandar muestral sea (a) menor que 2,5,

(b) mayor que 1.

69. (a) Entre 0,975 y 0,99 (b) Alrededor de 0,975

70. Se quiere someter a todos los docentes de matematicas de cierta ciudad a un examen de

100 preguntas. Inicialmente, en un estudio piloto, se somete a este examen a una muestra

aleatoria de 20 docentes. Supongamos que, para la poblacion completa de todos los docentes

de la ciudad, la distribucion del numero de respuestas correctas sigue una normal con

varianza 250. ¿Cual es la probabilidad de que la varianza muestral sea (a) menor que 100,

(b) mayor que 500?

70. (a) Alrededor de 0,01 (b) Alrededor de 0,005

71. El numero de horas que duermen los futbolistas en la semana anterior a un partido que

define el campeonato mundial de clubes sigue una distribucion normal con una desviacion

estandar de 4,5 horas. Se toma una muestra aleatoria de 30 futbolistas. ¿Es mayor que

0,95 la probabilidad de que la desviacion estandar muestral se (a) mayor que 3,5 horas, (b)

menor que 6 horas?

71. (a) Sı (b) Sı

72. Una cierta empresa fabrican bombillas cuya tiempo de vida sigue una distribucion normal.

Se extrae una muestra aleatoria de 6 bombillas y se mide sus tiempos de vida.

(a) 0,05 es la probabilidad de que la varianza muestral sea mayor que ¿que porcentaje de

la varianza poblacional?

(b) 0,10 es la probabilidad de que la varianza muestral sea mayor que ¿que porcentaje de

la varianza poblacional?

72. (a) 221,4 (b) 32,2

73. Se extrae una muestra aleatoria de 15 empresarios y se les pregunta sobre su prediccion

acerca de la tasa de desempleo para el poximo ano. Supongamos que las predicciones para

la poblacion completa de empresarios sigue una distribucion normal con una desviacion

estandar de 1,8%.

(a) 0,01 es la probabilidad de que la desviacion estandar muestral sea mayor que ¿que

numero?

1.7. Distribucion muestral de la varianza y razon de varianzas muestrales

Page 74: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

72 Dr. rer. nat. Humberto Llinas

(b) 0,025 es la probabilidad de que la desviacion estandar muestral sea menor que ¿que

numero?

(c) Encontrar un par de numeros tales que la probabilidad de que la desviacion estandar

se encuentre entre estos dos numeros sea 0,9.

73. (a) 2,60 (b) 1,14 (c) 1,23 y 2,34

74. Para precisar el tiempo mınimo en que dura un atleta en recorrer la misma distancia bajo las

mismas condiciones, se toma una muestra de 12 tiempos del mismo atleta. La distribucion

poblacional de los tiempos es normal.

(a) 0,95 es la probabilidad de que la desviacion estandar muestral sea mayor que ¿que

porcentaje de la varianza poblacional?

(b) 0,90 es la probabilidad de que la desviacion estandar muestral sea menor que ¿que

porcentaje de la varianza poblacional?

(c) Encontrar un par de numeros a y b que hagan correcta la siguiente frase: 0,95 es

la probabilidad de que la varianza muestral este entre el a% y el b% de la varianza

poblacional.

75. Un determinado laboratorio medico elabora capsulas que contienen un componente especial.

El laboratorio se preocupa sobre la media del peso de este componente por capsula, pero

tambien pretende que la varianza (medida en miligramos cuadrados) no sea mayor que 1,5.

Se extrae una muestra aleatoria de 20 capsulas y su varianza muestral resulta ser de 2,05.

¿Cual es la probabilidad de que la varianza muestral sea tan alta como la observada o

mayor si la varianza poblacional es realmente 1,5? Asumir que la distribucion poblacional

es normal.

75. Mas de 0,10

76. Los gerentes de una industria que fabrica bolsas desean saber si pueden comparar dos pro-

cesos de manufactura en relacion con la variabilidad de la resistencia que tiene el producto

respecto de la traccion. Manifiestan ellos que, en su concepto, los dos procesos produciran

bolsas con igual resistencia a la traccion si la razon entre las varianzas muestrales de pro-

ductos de los dos procesos no es demasiado grande. Consideran que la razon es demasiado

grande si la probabilidad de obtener un valor mayor o igual a un valor determinado es

menor que 0,05. Las muestras aleatorias (independientes) de 25 productos de cada uno

de los procesos, dan varianzas de 540 y 256. ¿Creeran los directores que ambos procesos

producen bolsas con la misma variabilidad de resistencia a la traccion? Supongamos que las

resistencias a la traccion de los productos fabricados con los dos procesos estan normalmente

distribuidas.

77. Se supone que la varianza de las calificaciones de las pruebas de estado en cierto paıs es

la misma para hombres y mujeres. Una muestra aleatoria de 21 hombres y una muestra

aleatoria independiente de 19 mujeres dan varianzas de 876 y 400 respectivamente. Si las

calificaciones para hombres y mujeres estan normalmente distribuidos y tienen varianzas

iguales, ¿cual es la probabilidad de obtener de esas muestras resultados tan extremos o mas

extremos que estos?

Capıtulo 1. Distribuciones fundamentales de muestreo

Page 75: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 73

77. 0,05

✍ Ejercicios complementarios

78. Diga si la afirmacion dada es verdadera o falsa. Justifique siempre su respuesta. En caso

que sea falsa, de un contraejemplo.

(a) Suponga que se utiliza el muestreo aleatorio simple para escoger muestras aleatorias

(simples) de una poblacion que tiene por elementos a las letras a, b, c y d. Si el

muestreo se hace con reemplazo y con orden, entonces, la probabilidad de seleccionar

dos muestras cualesquiera de tamano 2 es igual a 24 = 1

2 .

(b) La diferencia de dos medias poblacionales es un ejemplo de un parametro.

(c) La varianza muestral es una probabilidad.

(d) La distribucion muestral de un estadıstico es una variable aleatoria.

(e) La distribucion muestral de un estadıstico es un numero.

(f) Un estadıstico es un numero.

(g) Si una poblacion es normal, entonces, la distribucion muestral de la media muestral es

la t de Student.

(h) Cuando el muestreo se hace sin reemplazo en una poblacion finita, la media de la

distribucion de la media muestral es igual a la media de la poblacion original dividida

por el tamano de la poblacion.

79. Responda las preguntas planteadas en las siguientes situaciones. Explique.

(a) ¿Que quiere decir que la media muestral tiene una distribucion en el muestreo?

(b) Una poblacion tiene una desviacion estandar de 15. Se toman muestras aleatorias de

tamano n sin reemplazo y se calculan sus medias. ¿Que le sucede al error estandar de

la media cuando n crece de 400 a 900? ¿Y a σx cuando n crece?

(c) ¿Bajo que condiciones existirala distribucion muestral de la moda?

(d) Si la distribucion muestral de la media es normal para todos los tamanos n de muestras,

¿que sabe usted de la poblacion de la cual proceden las muestras?

(e) ¿Es una muestra aleatoria simple la muestra 1,2 de la poblacion de valores 1, 2, 3, 4, 5,

6, 7, 8, 9, 10?

(f) ¿Que importancia tiene el teorema central del lımite en la distrbucion muestral de la

media muestral?

79. (b) Decrece (c) La distribucion muestral de la moda solo tiene sentido cuando para

cada muestra extraıda de la poblacion existe una unica moda. En la practica esto nunca

ocurre (d) La poblacion es normal. Para muestras de tamano uno, la distribucion

muestral de la media es identica a la poblacion de la que proceden las muestras (e) No

podemos decir. Debemos conocer el procedimiento utilizado.

Cap. 1. Ejercicios complementarios

Page 76: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

74 Dr. rer. nat. Humberto Llinas

80. Una persona esta considerando 6 tipos de prestamos diferentes. El numero medio de dıas

que tardan en vencer estos prestamos es 41, 39, 35, 35, 33 y 38. Se eligen al azar dos de

estos fondos.

(a) ¿Cual es el numero de posibles muestras de dos fondos?

(b) Hacer una lista de todas las posibles muestras.

(c) Hallar la funcion de probabilidad de la distribucion en el muestreo de la media muestral.

(d) Comprobar directamente que la media de la distribucion muestral es igual a la media

poblacional.

81. Las calificaciones obtenidas por todos los estudiantes en las pruebas del ICFES sigue una

distribucion normal con una media de 420 y una desviacion estandar de 100. Se extrae una

muestra aleatoria de 25 puntuaciones.

(a) Hallar la probabilidad de que la media muestral de las puntuaciones sea mayor que 450.

(b) Hallar la probabilidad de que la media muestral de las puntuaciones tome un valor que

este entre 400 y 450.

(c) 0,10 es la probabilidad de que la media muestral de las puntuaciones sea mayor que

¿que numero?

(d) 0,10 es la probabilidad de que la media muestral de las puntuaciones sea menor que

¿que numero?

(e) 0,05 es la probabilidad de que la desviacion estandar muestral de las puntuaciones sea

mayor que ¿que numero?

(f) 0,05 es la probabilidad de que la desviacion estandar muestral de las puntuaciones sea

menor que ¿que numero?

(g) Si se toma una muestra de 50 calificaciones, la probabilidad de que la media muestral

de las puntuaciones sea mayor que 450, ¿sera mayor, menor o la misma que la obtenida

en el inciso (a)? No es necesario detallar los calculos. Realizar un grafico para ilustrar

el razonamiento.

81. (a) 0,0668 (b) 0,7745 (c) 445,6 (d) 394,4 (e) 123 (f) 76 (g) Menor

82. En un determinado ano, las tasas de rentabilidad de las acciones de las companıas electricas

siguieron una distribucion normal con media 14,8 y desviacion estandar 6,3. Se extrae una

muestra aleatoria de 9 de estas acciones.

(a) ¿Cual es la probabilidad de que la media muestral de la tasa de rentabilidad sea mayor

que 19?

(b) ¿Cual es la probabilidad de que la media muestral de la tasa de rentabilidad este entre

10,6 y 19?

(c) 0,25 es la probabilidad de que la media muestral de la tasa de rentabilidad sea menor

que ¿que numero?

Cap. 1. Ejercicios complementarios

Page 77: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 75

(d) Supongamos que se selecciona una muestra de 20 acciones. Razonar si la probabilidad

de que la media muestral de la tasa de rentabilidad sea mayor que 19 resultara en este

caso, mayor, menor o la misma que la obtenida en el inciso (a). Realizar un grafico

para ilustrar el razonamiento.

82. (a) 0,0228 (b) 0,9544 (c) 13,4 (d) 8,1 (e) Menor

83. Se ha comprobado que el 80% de los egresados de la facultad de Administracion y Empresa

de cierta universidad acepta una oferta de trabajo en entidades bancarias. Para quienes

aceptan una oferta en entidades bancarias, la distribucion de los salarios es normal con una

media de 29.000 dolares y una desviacion estandar de 29.000 dolares.

(a) Para una muestra aleatoria de 60 egresados, ¿cual es la probabilidad de que menos del

70% hayan aceptado una oferta de trabajo?

(b) Para una muestra aleatoria de 6 egresados, ¿cual es la probabilidad de que menos del

70% hayan aceptado una oferta de trabajo?

(c) Para una muestra aleatoria de 6 egresados que han aceptado una oferta de trabajo,

¿cual es la probabilidad de que la media muestral de su salario sea mayor que 30.000

dolares?

(d) Si se elige un estudiante de ultimo ano al azar, ¿cual es la probabilidad de que haya

aceptado una oferta de trabajo con salario superior a los 30.000 dolares?

83. (a) 0,0262 (b) 0,3446 (c) 0,2709 (d) 0,321

84. Un director de control de calidad esta preocupado sobre la variabilidad de la cantidad de

componentes especiales en las capsulas producidas por un cierto proceso. Se toma una

muestra aleatoria de 21 capsulas. ¿Cual es la probabilidad de que la varianza muestral de

la cantidad de componentes especiales sea mayor que dos veces la varianza poblacional?

84. 0,005

85. Las calificaciones de cierto examen realizado por un grupo grande de estudiantes sigue

una distribucion normal con una desviacion estandar de 40 puntos. Se toma una muestra

aleatoria de 16 calificaciones para estimar la puntuacion media en la poblacion. Sea X la

media muestral. ¿Cual es la probabilidad de que el intervalo que va de X − 10 a X + 10

contenga la verdadera media poblacional?

85. 0,6826

86. En determinado ano, el 40% de las prestamos realizados en una entidad bancaria fueron can-

celados durante los 15 anos siguientes. Se examina una muestra aleatoria de 250 prestamos.

(a) 0,8 es la probabilidad de que la proporcion muestral sea mayor que ¿que numero?

(b) 0,9 es la probabilidad de que la proporcion muestral sea menor que ¿que numero?

(c) 0,7 es la probabilidad de que la proporcion estandar muestral difiera de la proporcion

poblacional ¿en que cantidad?

86. (a) 0,347 (b) 0,440 (c) 0,032

Cap. 1. Ejercicios complementarios

Page 78: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

76 Dr. rer. nat. Humberto Llinas

87. Se sabe que el salario devengado por las personas afiliadas a cierta entidad de salud sigue

una distribucion normal con una desviacion estandar de 6.600 dolares. Se toma una muestra

aleatoria de 25 personas afiliadas a dicha entidad de salud.

(a) ¿Cual es la probabilidad de la desviacion estandar muestral de sus rentas sea mayor que

4.000 dolares?

(b) ¿Cual es la probabilidad de la desviacion estandar muestral de sus rentas sea menor

que 8.000 dolares?

87. (a) Mas de 0,995 (b) Entre 0,9 y 0,95

88. La vida media de cierta especie de animal es de siete anos, con una desviacion estandar de un

ano. Suponga que las vidas de esta especie animal sigue aproximadamente una distribucion

normal. Encuentre:

(a) La probabilidad de que la vida media de una muestra aleatoria de nueve animales de

esta especie caiga entre 6,4 y 7,2 anos.

(b) El valor de X a la derecha del cual caerıa el 15% de las medias calculadas de muestras

aleatorias de tamano 9.

89. Sean X1, X2, . . ., X100 variables aleatorias que representan los pesos netos reales de 100

bolsas de 50 libras de cemento, seleccionadas al azar.

(a) Si el peso especificado de cada bolsa es 50 y la varianza 1, calcule P (49, 75 ≤ X ≤ 50, 25)

(aproximadamente) empleando el teorema central del lımite.

(b) Si el peso esperado es 49, 8 libras, en lugar de 50 libras, de modo que en promedio las

bolsas tienen menos pesos, calcule P (49, 75 ≤ X ≤ 50, 25).

90. La longitud de cierta cuchara para postres seleccionada al azar es una variable aleatoria con

valor medio de 12 cm y desviacion estandar de 0, 4 cm.

(a) Si X es la longitud media de la muestra para una muestra de n = 16 cucharas, ¿donde

esta centrada la distribucion muestral de X, y cual es la desviacion estandar de X?

(b) Conteste las preguntas formuladas en el inciso (a) para un tamano muestral de n=64

cucharas.

(c) ¿Para cual de las dos muestra aleatorias, una del inciso (a) y otra del inciso (b) es mas

probable que X este dentro 0, 01 cm. alejado de 12 cm? Explique su razonamiento.

91. El tiempo que dedican a entrenar los futbolistas de de cierto paıs en la semana anterior a la

final de los campeonatos sigue una distribucon normal con una desviacion estandar de 8,4

horas. Se toma una muestra aleatoria de estos futbolistas con el fin de estimar el tiempo

medio de entrenamiento para esta pobalcion de futbolistas.

(a) ¿Que tamano ha de tener la muestra para poder asegurar que la probabilidad de que

la media muestral difiera de la media poblacional en mas de dos horas sea menor que

0,05?

Cap. 1. Ejercicios complementarios

Page 79: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 77

(b) Sin realizar los calculos, razonar si se requerira un tamano muestral mayor o menor que

el del apartado (a) para poder garantizar que la probabilidad de que la media muestral

difiera de la media poblacional en mas de 2 horas sea menor que 0,10?

(c) Sin realizar los calculos, razonar si se requerira un tamano muestral mayor o menor que

el del apartado (a) para poder garantizar que la probabilidad de que la media muestral

difiera de la media poblacional en mas de 1,5 horas sea menor que 0,05.

91. (a) 68 (b) menor (c) mayor

92. Una pieza de tubo de PVC debe insertarse dentro de otra pieza. La longitud de la primera

esta normalmente distribuida con valor medio de 20 pulgadas y desviacion estandar de

0,5 pulgadas. La longitud de la segunda es una variable aleatoria normal con media y

desviacion estandar de 15 pulgadas y 4 pulgadas, respectivamente. La cantidad de traslape

esta normalmente distribuida con valor medio de 1 pulgada y desviacion estandar de 0.1

pulgada. Si se supone que las longitudes y cantidades de traslape son independientes una

de otra, ¿‘Cual es la probabilidad de que la longitud total, despues de la insercion, sean

entre 3,45 y 35 pulgadas?

92. 0,1588

93. Demuestre que σe = σx donde e = x − µ.

Cap. 1. Ejercicios complementarios

Page 80: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

78 Dr. rer. nat. Humberto Llinas

Cap. 1. Ejercicios complementarios

Page 81: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

CAPITULO 3

Pruebas de hipotesis

Contenido

3.1 Conceptos de la prueba de hipotesis . . . . . . . . . . . . . . . . 80

3.1.1 Comentarios acerca de los terminos “aceptar” y “rechazar” . . . 86

3.2 Prueba para la media . . . . . . . . . . . . . . . . . . . . . . . . . 87

3.2.1 El caso de muestras grandes . . . . . . . . . . . . . . . . . . . . . 87

3.2.2 Caso de muestra pequenas . . . . . . . . . . . . . . . . . . . . . . 89

3.3 Pruebas para la proporcion . . . . . . . . . . . . . . . . . . . . . 90

3.4 Prueba para la diferencia de dos proporciones . . . . . . . . . . 92

3.5 Prueba para la diferencia de dos medias . . . . . . . . . . . . . . 95

3.5.1 Primer caso: varianzas poblacionales conocidas o desconocidas y

muestras grandes . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

3.5.2 Segundo caso: varianzas poblacionales iguales, desconocidas y

muestras pequenas . . . . . . . . . . . . . . . . . . . . . . . . . . 99

3.5.3 Tercer caso: varianzas poblacionales diferentes, desconocidas y

muestras pequenas . . . . . . . . . . . . . . . . . . . . . . . . . . 102

3.6 Prueba para la varianza . . . . . . . . . . . . . . . . . . . . . . . 103

3.7 Prueba para la razon de dos varianzas . . . . . . . . . . . . . . . 105

79

Page 82: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

80 Dr. rer. nat. Humberto Llinas

☞ Objetivos del capıtulo

1. Explicar el lenguaje de una prueba de hipotesis.

2. Estudiar los tipos de errores asociados con una prueba de hipotesis.

3. Aprender cuando usar pruebas de una cola y cuando pruebas de dos colas.

4. Realizar pruebas de hipotesis para la media, proporcion, diferencia de dos medias, diferencia

de dos proporciones, varianza y razon de dos varianzas.

☞ Empleo de la estadıstica

≪ Una encuesta realizada en cierto ano revelo que el 78% de quienes re-

spondieron consideraron que estaban mejor financieramente que sus padres.

Una encuesta mas reciente encontro que 370 de las 500 personas quienes

respondieron pensaron que sus fortunas financieras eran mejores que las de

sus padres. ¿Sugiere esto un descenso en la proporcion de personas que

consideran que estan financieramente mas estables de lo que estaban sus

padres? ≫

3.1 Conceptos de la prueba de hipotesis

En capıtulos anteriores, hemos visto que la informacon obtenida a partir de muestras aleatorias

sirve para estimar los parametros desconocidos de la poblacion mediante el calculo de los esti-

madores puntuales o intervalos de confinaza. Por otro lado, en este capıtulo, veremos que la

informacion muestral tambien se puede utilizar para probar la validez de una afirmacion, conje-

tura o hipotesis acerca del valor del parametro de la poblacion como se ilustra en las diferentes

situaciones del siguiente ejemplo.

Ejemplo 3.1.1 Consideremos las siguientes situaciones:

(a) Un empresario afirma que, en promedio, las utilidades mensuales son por lo menos de $

5.000.000. Para vefificar esta afirmacion se promedian las utilidades de una muestra aleatoria

y se infiere el resultado a partir de la informacion muestral.

(b) Una papelerıa recibe un gran cargamento de lapiceros. Solo puede aceptar el envıo si no hay

mas de un 3% de lapiceros defecutosos. La decision de si aceptar la remesa puede basarse en

el examen de una muestra aleatoria de lapiceros.

(c) Un productor de software de computador desea certificar que la proporcion de sus productos

que son defectuosos es menor del 3%. Para verificar lo anterior, hay que realizar el estudio

con base en una muestra aleatoria de los productos. ◭

Capıtulo 3. Pruebas de hipotesis

Page 83: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 81

Las situaciones propuestas tienen algo en comun. La hipotesis se formula sobre la poblaci

on y las conclusiones sobre la validez de esta hipotesis se basan en la informacion muestral. En

eta seccion, se introducira una herramienta general para abordar estos y otros problemas. Los

procedimientos especıficos se desarrollaran en las siguientes secciones.

Hipotesis estadısticas

En general, una hipotesis es una explicacion propuesta que puede, o no, ser cierta. Nuestra dis-

cusion se limitara a las hipotesis estadısticas.

Definicion 3.1.2 Una hipotesis estadıstica es una afirmacion cuantitativa acerca de una o

mas poblaciones, o mejor, como es mas frecuente, afirmaciones sobre uno o mas parametros de

una o mas poblaciones.

Las hipotesis nula y alternativa

Las hipotesis estadısticas son de dos tipos: las hipotesis nula y alternativa.

Definicion 3.1.3 La la hipotesis nula, que se simboliza por H0 y que es la hipotesis que se

debe comprobar. Es una afirmacion en la que se dice que no hay diferencia alguna entre dos

poblaciones, entre dos parametros poblacionales o entre el valor verdadero de algun parametro y

su valor hipotetico.

La hipotesis alternativa, simbolizada por H1, se establece como como el “complemento” de

la hipotesis nula y representa la conclusion que se apoya si la hipotesis nula se rechaza.

Siempre que vayamos a escribir una hipotesis estadıstica en terminos de la H0 o H1, debemos

tener en cuenta los siguientes comentarios:

1. La hipotesis nula H0 siempre se refiere a un valor especıfico del parametro de poblacion

(como, por ejemplo, µ), no al estadıstico muestral (como X).

2. La expresion de la hipotesis nula siempre contiene un signo igual respecto al valor especifi-

cado del parametro poblacional (por ejemplo,1 H0 : µ = 36, H0 : µ ≤ 36 o H0 : µ ≥ 36).

3. La expresion de la hipotesis alternativa nunca contiene un signo igual respecto al valor

especificado de parametro de poblacion (por ejemplo, H0 : µ 6= 36, H0 : µ < 36 o H0 : µ >

36).

1En general, si θ es un parametro poblacional y si k es cualquier numero real, entonces, la hipotesis

alternativa H1 : θ 6= k se llama alternativa bilateral y las hipotesis alternativas H1 : θ < k y

H1 : θ > k, alternativas unilaterales.3.1. Conceptos de la prueba de hipotesis

Page 84: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

82 Dr. rer. nat. Humberto Llinas

La especificacion de unas hipoteis nula y alternativa depende del problema. Para ilustrar estos

conceptos, consideremos las situaciones que se presentan en el siguiente ejemplo.

Ejemplo 3.1.4 Dada las siguientes situaciones, identifique las hipotesis nula y alternativa para

la hipotesis estadıstica formulada en cada situacion.

(a) Un empresario afirma que el peso medio poblacional (en gramos) de lapiceros por caja es de

por lo menos 300 gramos.

(b) Una empresa decide aceptar envıos de piezas siempre y cuando no tenga evidencia para

sospechar que mas del 4% son defectuosas.

(c) Supongamos que la conjetura de una profesor es que la utilizacion de la tecnologıa no produce

diferencias en el promedio de las calificaciones del examen final.

(d) Como hipotesis de un trabajo, un investigador puede considerar que la propuesta de una nueva

ley es acogida de igual forma por hombres y mujeres.

SOLUCION:

(a) Sea θ el peso medio poblacional (en gramos) de lapiceros por caja. Si la hipotesis es que esta

media es por lo menos 300 gramos, entonces, la hipotesis nula es

H0 : θ ≥ 300.

La alternativa obvia es que el verdadero peso medio es inferior a 300 gramos, es decir,

H1 : θ < 300.

(b) Sea θ la proporcion poblacional de piezas defectuosas. En este caso, la hipotesis nula es que

esta proporcion es cuando mucho 0,05, es decir,

H0 : θ ≤ 0, 05.

Basandose en la informacion muestral, se contrasta esta hipotesis frente a la alternativa uni-

lateral

H1 : θ > 0, 05.

(c) Sea θ la diferencia entre las calificaciones medias poblacionales para las dos partes del curso,

con y sin uso de la tecnologıa. Entonces, la hipotesis nula es

H0 : θ = 0.

Sin embargo, el profesor puede sospechar que posiblemente el uso de la tecnologıa produzca

un incremento en el promedio y, en consecuencia, querra cotrastar la hipotesis nula frente a

la alternativa unilateral

H1 : θ > 0.

Capıtulo 3. Pruebas de hipotesis

Page 85: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 83

(d) Sea θ la diferencia entre las proporciones poblacionales a favor de la nueva ley. Entonces, la

hipotesis nula es

H0 : θ = 0.

Si el investigador no tiene una buena razon para sospechar que la mayor parte del apoyo

venga de una poblacion en lugar de la otra, esta hipotesis nula puede contrastarse frente a la

hip’otesis alternativa bilateral

H1 : θ 6= 0. ◭

Errores de tipo I y de tipo II

Generalmente se acostumbra discutir las decisiones con respecto a la hipotesis nula. Hay dos

posibles decisiones:

1. Aceptar la hipotesis nula (o rechazar la alternativa).

2. Rechazar la hipotesis nula (o aceptar la alternativa).

Con el fin de llegar a una de estas conclusiones, se adopta una regla de decision basada en la

informacion muestral. En las secciones siguientes, estudiaremos reglas de decision concretas.

En realidad, la hipotesis nula es o verdadera o falsa. Solo si aceptamos o rechazamos la hipotesis

nula podemos tener razon, y solo entonces podemos cometer un error. Considere los eventos

descritos en la tabla 3.1.

Decision sobre H0 H0 es verdadera H0 es falsa

Aceptar H0 Decision correcta Decision incorrecta

Rechazar H0 Decision correcta Decision correcta

Figura 3.1: Decisiones con respecto a la hipotesis nula H0

Si aceptamos la hipotesis nula cuando es verdadera o se rechaza cuando es falsa, entonces, hemos

tomado una decision correcta. Pero si rechazamos la hipotesis nula cuando en realidad es ver-

dadera, hemos cometido un error; este evento lo llamamos un error de tipo I. Ademas, si aceptamos

la hipotesis nula cuando es falsa, hemos cometido otro tipo de error; lo llamamos un error de tipo

II. Estos “errores” son eventos y, por lo tanto, ocurren con cierta probabilidad.

3.1. Conceptos de la prueba de hipotesis

Page 86: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

84 Dr. rer. nat. Humberto Llinas

Definicion 3.1.5 Se dice que cometemos un error de tipo I si rechazamos la hipotesis nula

cuando en realidad es verdadera y que cometemos un error de tipo II si aceptamos la hipotesis

nula cuando es falsa. La probabilidad de cometer estos errores esta dada por

• P (error de tipo I) = P (rechazar H0 |H0 es verdadera) = α.

• P (error de tipo II) = P (aceptar H0 |H0 es falsa) = β.

La probabilidad α se llama nivel de significancia, 1−α es el llamado grado de confianza

y la probabilidad 1 − β se llama potencia de la prueba.

Los conceptos senalados en la definicion 3.1.5 se pueden visualizar mas claramente en la tabla 3.2.

Decision sobre H0 H0 es verdadera H0 es falsa

Aceptar H0 Decision correcta Error de tipo II

Probabilidad = 1 − α Probabilidad = β

1 − α se llama grado de confianza

Rechazar H0 Error de tipo I Decision correcta

Probabilidad = α Probabilidad = 1 − β

α se llama nivel de significancia 1 − β se llama potencia

Figura 3.2: Errores de tipo I y II y sus correspondientes probabilidades

Ejemplo 3.1.6 Suponga que un nuevo procedimiento y mas caro para detectar el cancer de

mama en las mujeres se esta probando para ver si es superior al metodo usado generalmente. Las

hipotesis estadısticas son:

H0: El nuevo metodo no es mejor que el comunmente usado.

H1: El nuevo metodo es mejor que el comunmente usado.

Observese que las consecuencias de cometer un error de tipo I incrementarıan los costos medicos.

En cambio, las de cometer un error de tipo II serıan una menor eficacia de la prueba y, posible-

mente, una mayor proporcion de muestres por cancer. ◭

Ejemplo 3.1.7 Supongamos que un individuo es juzgado por cierto delito que supuestamente ha

cometido. En este caso, las hipotesis a tener en cuenta son:

H0: El individuo es inocente.

H1: El individuo es culpable.

Los abogados de la fiscalıa tratan de probar que el individuo es culpable, es decir, que H1 es

verdadera (o que H0 es falsa). Al llegar a su veredicto final, el jurado debe emitir una decison

Capıtulo 3. Pruebas de hipotesis

Page 87: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 85

correcta o incorrecta. Las decisiones correctas son que el jurado vote inocente cuando el individuo

es inocente o que vote culpable cuando el individuo es culpable. Las decisiones incorrectas son

que el jurado vote por castigar al acusado cuando este es inocente (error de tipo I) o vote por

perdonarlo cuando sea culpable (error de tipo II). ◭

Por supuesto, lo ideal serıa que las probabilidades de los dos tipos de error fuesen lo mas pequenas

posible. Sin embargo, hay una clara compensacion entre los dos. Cuando se ha tomado una

muestra, cualquier regla de decision que haga menos verosımil rechazar una hipotesis nula cierta,

inevitablemente, se traducira en mayor verosimilitud de aceptar esta hipotesis cuando es falsa.

Ejemplo 3.1.8 Supongamos que, basandonos en una muestra aleatoria, queremos probar la

hipotesis nula de que el verdadero peso medio del contenido de caja de lapiceros es al menos

de 300 gramos. Dado un tamano muestral especıfico (digamos, 40 observaciones), podemos adop-

tar la regla de decision de rechazar la hipotesis nula si el peso medio en la muestra es inferior a 295

gramos. Ahora, es facil encontrar una regla de decision para la cual la probabilidad de cometer

un error de tipo I es menor.

Si modificamos nuestra regla de decision “rechazar la hipotesis nula si el peso medio es infe-

rior a 295 gramos”, se conseguira este objetivo. Sin embargo, hay que pagar un precio. Si usamos

la regla de decision modificada, sera mas verosımil aceptar la hipotesis nula, tanto si es cierta

como si es falsa. Por tanto, al disminuir la probabilidad de cometer un error de tipo I, hemos

aumentado la probabilidad de cometer un error de tipo II. ◭

En el ejemplo 3.1.8, la unica manera de disminuir simultaneamente las dos probabilidades de error

sera obtener mas informacion sobre la verdadera media de la poblacion, tomando una muestra

mayor. Habitualmente, lo que se hace en la practica es fijar la probabilidad de cometer un error

de tipo I a un nivel deseado, es decir, se fija el nivel de significancia. Entonces, esto determina la

regla de decision adecuada, que a su vez determina la probabilidad de un error de tipo II. Este

procedimiento se ilustra en el esquema siguiente:

El investigador elige un nivel de Se determina Resulta una

significancia −→ una regla −→ probabilidad de

(probabilidad de error de tipo I) de decision error de tipo II

Para ilustrar el esquema anterior, consideremos el siguiente

Ejemplo 3.1.9 Consideremos nuevamente la situacion del ejemplo 3.1.8 en donde, a partir de

una muestra de 40 observaciones, se quiere probar si el verdadero peso medio del contenido de

caja de lapiceros es al menos de 300 gramos. Dada una regla de decision, podemos determinar

las probabilidades de los errores de tipo I y de tipo II asociadas al contraste. Sin embargo,

en realidad, procedemos fijando primero la probabilidad de rechazar la hipotesis nula cuando es

cierta sea como mucho 0,05. Podemos conseguirlo eliminando un numero c apropiado a la regla

de decision “rechazar la hipotesis nula si la media muestral es inferior a c gramos” (en la seccion

3.2 explicaremos como se puede hacer esto). Una vez elegido el numero c, pueden calcularse las

probabilidades del error de tipo II usando las procedimientos que expondremos en la seccion ??.

3.1. Conceptos de la prueba de hipotesis

Page 88: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

86 Dr. rer. nat. Humberto Llinas

Estadıstico de prueba y region crıtica

Dos “elementos” importantes que se deben tener en cuanta para realizar una prueba de hipotesis

son el estadıstico de prueba y la region crıtica.

Definicion 3.1.10 Un estadıstico de prueba es un estadıstico (es decir, una funcion que

solo depende de la informacion muestral) que se utiliza para determinar si se rechaza, o no, la

hipotesis nula.

La region crıtica es el conjunto de todos los valores del estadıstico de prueba para los

cuales la hipotesis nula sera rechazada.

Entonces, la hipotesis nula sera rechazada si y solo si el valor observado o calculado del estadıstico

de prueba se ubica en la region de rechazo.

El estadıstico de prueba se determina teniendo en cuenta el parametro sobre el cual se hace la

hipotesis y la naturaleza de la distribucion muestral del estadıstico pertinente, como se ilustra en

el siguiente

Ejemplo 3.1.11 Supongamos que, de una poblacion distribuida normalmente con varianza σ2,

se selecciona una muestra aleatoria simple de tamano n, con media x y varianza s. Ademas,

supongamos que se quiere probar la hipotesis nula H0 : µ = µ0, siendo µ0 un numero real dado.

(a) Si σ es conocida, el estadıstico de prueba que se usa para verificar una hipotesis sobre la media

poblacional es

Z =x − µ0

σ/√

n,

el cual se distribuye como la distribucion normal estandar.

(b) Si σ es desconocida, entonces, bajo ciertas condicones, el estadıstico de prueba que se usa

para verificar una hipotesis sobre la media poblacional es

t =x − µ0

s/√

n,

el cual se distribuye como la distribucion t de Student con n − 1 grados de libertad. ◭

En las secciones 3.2 - 3.7 veremos que el tamano de la region crıtica estara determinado por el

nivel de significancia fijado. En esas secciones estudiaremos con mas detalle como se determina

esta region crıtica para realizar una determinada prueba de hipotesis.

3.1.1 Comentarios acerca de los terminos “aceptar” y “rechazar”

Los terminos “aceptar” y “rechazar” son comunmente usados para las posibles decisiones sobre la

hipotesis nula en los resumenes formales de los resultados de un contraste en particular. Si em-

Capıtulo 3. Pruebas de hipotesis

Page 89: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 87

bargo, estos terminos no reflejan adecuadamente la asimetrıa de los estatus de las hipotesis nula

y alternativa, o las consecuencias de un procedimiento en el que se fija el nivel de significancia y

no se controla la probabilidad de un error de tipo II.

Como ya hemos senalado, la hipotesis nula tiene el estatus de hipotesis mantenida2. Ademas,

al fijar el nivel de significancia, generalmente en alguna probabilidad pequena, estamos asegurando

que el riesgo de rechazar una hipotesis nula cierta sea pequeno. Con esta estructura , una pequena

cantidad de datos no sera suficiente para colocarnos en posicion de rechazar una hipotesis nula,

aunque sea completamente erronea.

Como hemos visto, cuando aumenta el numero de observaciones de la muestra, tambien lo hace

nuestra capacidad para detectar una hipotesis nula falsa. Por tanto, al “aceptar” una hipotesis

nula, no estamos asegurando necesariamente que haya mucho en su favor. Una afirmacion mas

precisa, aunque mas pedante, sobre la situacion puede ser “los datos disponibles no proporcionan

suficiente evidencia para rechazar la hipotesis nula, dado que queremos fijar en α la probabilidad

de rechazar una hipotesis nula que es cierta”. Por esta razon, algunos autores prefieren la frase

“no se rechaza la hipotesis nula” en lugar de “se acepta la hipotesis nula”. Nosotros seguiremos

usando “aceptar” como una manera eficiente de expresar esta idea, pero es importante tener en

cuenta la interpretacion de la frase. La situacion es muy similar a la de un tribunal de justicia,

donde el acusado, al prinicipio, goza de la presuncion de inocencia, y la acusacion debe presentar

evidencia contraria lo suficientemente clara como para conseguir un veredicto de culpabilidad. En

el contexto de la prueba de hipotesis clasica, la hipotesis nula se considera cierta inicialmente. La

tarea de persuadirnos de lo contrario corresponde a los datos de la muestra.

3.2 Prueba para la media

Como se ha hecho en capıtulos anteriores, nuevamente realizaremos el estudio de las pruebas

de hipotesis para la media poblacional teniendo en cuenta dos casos: el caso de tener muestras

grandes y el de tener muestras pequenas.

3.2.1 El caso de muestras grandes

Cuando estemos considerando o bien una poblacion normal (con cualquier tamano de muestra)

o bien una poblacion de forma desconocida con muestras grandes (n ≥ 30) y bajo el supuesto

de que la varianza poblacional es conocida o desconocida, aunque sea por razones distintas, los

resultados son los mismos. En estos casos, la distribucion muestral de la media muestral es la

distribucion normal. Para cualquiera de los tres casos siguientes que podemos considerar para la

hipotesis nula

H0 : µ = µ0, H0 : µ ≥ µ0, H0 : µ ≤ µ0,

2Una hipotesis mantenida es aquella de que se considera cierta salvo que los datos contengan suficiente

evidencia en contra

3.2. Prueba para la media

Page 90: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

88 Dr. rer. nat. Humberto Llinas

el estadıstico de prueba tiene la forma Z = x−µ0

σ/√

ny la region crıtica dependera de cada uno de

estos tres casos, como se ilustra en la tabla 3.3.

Tipo de hipotesis Regla de decision

H0 : µ ≥ µ0 Si Z ≤ −Zα, entonces, se rechaza

H1 : µ < µ0 H0; de lo contrario, se acepta H0.

Cola a la izquierda

H0 : µ ≤ µ0 Si Z ≥ Zα, entonces, se rechaza

H1 : µ > µ0 H0; de lo contrario, se acepta H0.

Cola a la derecha

H0 : µ = µ0 Si Z ≤ −Zα/2 o Z ≥ Zα/2, entonces, se

H1 : µ 6= µ0 rechaza H0; de lo contrario, se acepta H0.

Dos colas

Figura 3.3: Reglas de decision para la prueba de µ (caso de muestras grandes)

Todo lo anterior se puede resumir en el siguiente

Teorema 3.2.1 Sea x la media de una muestra aleatoria de tamano n tomada de una poblacion

con media µ y varianza σ2 > 0. Supongamos que se cumple alguna de las siguientes condiciones:

(a) La poblacion es normal y σ2 es conocida (no importa el tamano de n);

(b) La poblacion es normal, σ2 es desconocida y n ≥ 30;

(c) La forma de la poblacion es desconocida (o no normal), σ2 es conocida o desconocida y

n ≥ 30.

Entonces, una prueba de hipotesis con nivel de significancia α para la media µ es como se

presenta en la tabla 3.3, siendo Z = x−µ0

σ/√

nel estadıstico de prueba correspondiente y Zα/2 el valor

de una variable aleatoria a la derecha del cual se tiene un area de α/2 en la distribucion normal.

Si la poblacion es finita de tamano N y el muestreo se hace sin reemplazo, se reemplaza σ√

npor

σ√

n

N−nN−1 . Ademas, en los casos en que la varianza sea desconocida y n ≥ 30, reemplazamos la desviacion

poblacional σ por la desviacion muestral s.

Ejemplo 3.2.2 Como parte de un proceso de ensamblaje, se usa un taladro para hacer agujeros

en una lamina de metal. Cuando el taladro funciona adecuadamente, los diametros de estos

agujeros tienen una distribucion normal con media de 2 centımetros y desviacion tıpica de 0,06

centımetros. Periodicamente, se miden los diametros de una muestra aleatoria de agujeros para

controlar que el taladro funciona adecuadamente. Asumamos que la desviacion tıpica no varıa.

Una muestra aleatoria de nueve medidas da un diametro medio de 1,95 centımetros. Probar la

hipotesis de que la media poblacional es 2 centımetros frente a la alternativa de que no es ası. Use

Capıtulo 3. Pruebas de hipotesis

Page 91: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 89

un nivel de significancia de 0,05.

SOLUCION:

Sea µ el diametro medio poblacional (en centımetros). Entonces, queremos contrastar las hipotesis

H0 : µ = 2 versus H1 : µ 6= 2.

Tenemos que la poblacion es normal, σ = 0, 06 (conocida), n = 6 y x = 1, 95. Observese que se

cumple el supuesto (a) del teorema 3.2.1. En este caso, µ0 = 2 y el valor del estadıstico de prueba

esta dado por

Z =x − µ0

σ/√

n=

1, 95 − 2

(0, 06)√

9= −2, 50

y para una prueba al nivel del 5%, tenemos que α = 0, 05 y Zα/2 = Z0,025 = 1, 96. Entonces,

como Z = −2, 50 es menor que Zα/2 = 1, 96, se rechaza la hipotesis nula al nivel de significancia

del 5%. ◭

Ejemplo 3.2.3 Una muestra aleatoria de 100 muertes registradas en cierto paıs durante el ano

pasado mostro una vida promedio de 71,8 anos. Suponiendo una desviacion estandar poblacional

de 8,9 anos, ¿parecerıa esto indicar que la vida promedio hoy en dıa es mayor que 70 anos? Utilice

un nivel de significancia del 5%.

SOLUCION:

Sea µ la vida promedio poblacional (en anos). En este ejemplo, se quiere probar la hipotesis

H0 : µ ≤ 70 anos versus H1 : µ > 70 anos.

Debido a que la poblacion es no normal (ya que el problema no dice que lo sea), σ = 8, 9 (conocida),

n = 100(≥ 30), entonces, se puede aplicar el teorema 3.2.1 porque el supuesto (c) de ese teorema

se cumple. En este caso, x = 71, 8, µ0 = 70 y el valor del estadıstico de prueba esta dado por

Z =x − µ0

σ/√

n=

71, 8 − 70

(8, 9)√

100= 2, 02.

Para una prueba al nivel del 5%, tenemos que α = 0, 05 y Zα = Z0,05 = 1, 64. Entonces, como

Z = 2, 02 es mayor que Zα = 1, 64, se rechaza la hipotesis nula al nivel de significancia del 5%.

Es decir, se concluye que la vida promedio hoy en dıa es mayor que 70 anos. ◭

3.2.2 Caso de muestra pequenas

La poblacion de interes esta distribuida normalmente, o no. Si es normal, entonces, podemos

utilizar t como el estadıstico de prueba, entonces, una prueba de hipotesis de la media de la

poblacion es posible. Si la poblacion no esta distribuida normalmente, entonces, es un problema

serio no conocer σ. Para muestras pequenas simplemente no conocemos la distribucion muestral

suficientemente como para especificar un valor crıtico de α, la probabilidad del error de tipo I.

Por eso, no hay ninguna teorıa general que nos permita construir una regla de decision. En tales

situaciones, una solucion es tomar una muestra grande.

3.2. Prueba para la media

Page 92: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

90 Dr. rer. nat. Humberto Llinas

Nuevamente, para cualquiera de los tres casos siguientes que podemos considerar para la hipotesis

nula

H0 : µ = µ0, H0 : µ ≥ µ0, H0 : µ ≤ µ0,

la estadıstica de prueba tiene la forma t = x−µ0

s/√

n, la distribucion a considerar es la t de Student

con n − 1 grados de libertad y la region crıtica dependera de cada uno de estos tres casos, como

se ilustra en la tabla 3.4.

Tipo de hipotesis Regla de decision

H0 : µ ≥ µ0 Si t ≤ −tα, entonces, se rechaza

H1 : µ < µ0 H0; de lo contrario, se acepta H0.

Cola a la izquierda

H0 : µ ≤ µ0 Si t ≥ tα, entonces, se rechaza

H1 : µ > µ0 H0; de lo contrario, se acepta H0.

Cola a la derecha

H0 : µ = µ0 Si t ≤ −tα/2 o t ≥ tα/2, entonces, se

H1 : µ 6= µ0 rechaza H0; de lo contrario, se acepta H0.

Dos colas

Figura 3.4: Reglas de decision para la prueba de µ con muestras pequenas

Los resultados expresados anteriormente se pueden resumir en el siguiente

Teorema 3.2.4 Sean x y s2 la media y varianza de una muestra aleatoria de tamano n < 30

tomada de una poblacion normal con media µ y varianza σ2 desconocida. Entonces, una prueba de

hipotesis con nivel de significancia α para la media µ es como se presenta en la tabla 3.4, siendo

t = x−µ0

s/√

nel estadıstico de prueba correspondiente y tα/2 el valor de una variable aleatoria a la

derecha del cual se tiene un area de α/2 en la distribucion t de Student con n−1 grados de libertad.

Si la poblacion es finita de tamano N , se reemplaza s√

npor s

n

N−nN−1 . Es importar enfatizar que

cuando la forma de la distribucion de la poblacion es desconocida o es no normal, entonces, no hay ningun

metodo general para establecer una prueba de hipotesis para la media poblacional µ.

3.3 Pruebas para la proporcion

En muchos problemas practicos, queremos probar hipotesis sobre la proporcion p de elementos

de una poblacion que poseen cierto atributo. La inferencia sobre la proporcion poblacional se

basa en la proporcion de individuos p de una muestra aleatoria que poseen el atributo de interes.

Como senalamos en capıtulos anteriores, bajo ciertas condiciones, la distribucion muestral de

la proporcion muestral es la distribucion normal. En esta situacion, supondremos que p es la

Capıtulo 3. Pruebas de hipotesis

Page 93: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 91

proporcion de exitos en una muestra aleatoria de tamano n, procedente de un poblacion con

proporcion p exitos y las hipotesis que podemos probar para la proporcion poblacional p son las

siguientes:

H0 : p = p0, H0 : p ≥ p0, H0 : p ≤ p0.

El estadıstico de prueba tiene la forma Z = x−p0

σ/√

ny la region crıtica dependera de cada uno de

estos tres casos, como se ilustra en la tabla 3.5.

Tipo de hipotesis Regla de decision

H0 : p ≥ p0 Si Z ≤ −Zα, entonces, se rechaza

H1 : p < p0 H0; de lo contrario, se acepta H0.

Cola a la izquierda

H0 : p ≤ p0 Si Z ≥ Zα, entonces, se rechaza

H1 : p > p0 H0; de lo contrario, se acepta H0.

Cola a la derecha

H0 : p = p0 Si Z ≤ −Zα/2 o Z ≥ Zα/2, entonces, se

H1 : p 6= p0 rechaza H0; de lo contrario, se acepta H0.

Dos colas

Figura 3.5: Reglas de decision para la prueba de p (caso de muestras grandes)

El siguiente teorema formaliza lo expresado anteriormente.

Teorema 3.3.1 Sea p es la proporcion de exitos en una muestra aleatoria de tamano n, procedente

de un poblacion con proporcion p exitos. Supongamos que se cumple alguna de las dos siguientes

condiciones:

(a) n ≥ 30;

(b) np ≥ 5 y n(1 − p) ≥ 5.

Entonces, una prueba de hipotesis con nivel de significancia α para la proporcion p es como se

presenta en la tabla 3.5, siendo Z = p−p0√

p0(1−p0)n

el estadıstico de prueba correspondiente y Zα/2 el

valor de una variable aleatoria a la derecha del cual se tiene un area de α/2 en la distribucion

normal.

Para el caso de una poblacion finita de tamano N , debemos reemplazar

p0(1−p0)n

por la cantidad√

p0(1−p0)n

N−nN−1 .

Ejemplo 3.3.2 De una muestra aleatoria de 802 clientes de supermercados, suponga que 378

pagaron sus artıculos con tarjetas de credito. Contrastar el nivel del 10%, la hipotesis nula de

que al menos la mitad de los compradores pagan sus artıculos con tarjetas de credito frente a la

3.3. Pruebas para la proporcion

Page 94: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

92 Dr. rer. nat. Humberto Llinas

alternativa de que la proporcion poblacional es menor de la mitad.

SOLUCION:

Sea p la proporcion poblacional de compradores que pagan sus artıculos con tarjetas de credito.

Queremos probar la hipotesis

H0 : p ≥ 0, 50 versus H1 : p < 0, 50.

En este ejemplo, p0 = 0, 50, n = 802 (≥ 30), p = 378/802 = 0, 471. Observese que puede aplicar el

teorema 3.2.1 porque el supuesto (a) del teorema se cumple. En este caso, el valor del estadıstico

de prueba esta dado por

Z =p − p0

p0(1−p0)n

=0, 471 − 0, 50

(0, 50)(0, 50)/802= −1, 64.

Para una prueba al nivel del 10%, tenemos que α = 0, 10 y Zα = Z0,10 = 1, 28. Entonces, como

Z = −1, 64 es menor que −Zα = −1, 28, se rechaza la hipotesis nula al nivel de significancia del

10%. ◭

Ejemplo 3.3.3 Un doctor afirma que el 12% de todas las citas son canceladas, durante un periodo

de seis semanas, fueron canceladas 21 de las 200 citas del doctor. Haga una prueba con un nivel

de significancia del 5% para determinar si la verdadera proporcion de todas las citas que son

canceladas es diferente del 12%.

SOLUCION:

Sea p la proporcion poblacional de citas canceladas. En este ejemplo queremos probar la hipotesis

H0 : p = 0, 12 versus H1 : p 6= 0, 12.

Tenemos que p0 = 0, 12, n = 200 (≥ 30), p = 21/200 = 0, 105. Nuevamente podemos aplicar el

teorema 3.2.1. En este caso, el valor del estadıstico de prueba esta dado por

Z =p − p0

p0(1−p0)n

=0, 105 − 0, 12

(0, 12)(0, 88)/200= −0, 65.

Para una prueba al nivel del 5%, tenemos que α = 0, 05 y Zα/2 = Z0,025 = 1, 96. Entonces, como

Z = −0, 65 esta entre −Zα/2 = −1, 96 y Zα/2 = 1, 96, se acepta la hipotesis nula al nivel de

significancia del 5%. Es decir, no tenemos evidencia estadıstica para rechazar la afirmacion del

doctor. ◭

3.4 Prueba para la diferencia de dos proporciones

Volvamos sobre el problema de comparacion de dos proporciones poblacionales. Como antes,

supongamos que disponemos de dos muestras aleatorias independientes. La primera consta de

n1 observaciones de una poblacion cuya proporcion de “exitos” es p1 y la proporcion muestral

resultante es p1. La segunda consta de n2 observaciones de una poblacion cuya proporcion de

Capıtulo 3. Pruebas de hipotesis

Page 95: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 93

exitos es p2 y la proporcion muestral resultante es p2.

En el capıtulo anterior, vimos que, bajo ciertas condiciones, entonces

Z =(p1 − p2) − (p1 − p2)√

p1(1−p1)n1

+ p2(1−p2)n2

tiene aproximadamente una distribucion normal estandar. Supongamos que que queremos con-

trastar la hipotesis de que las proporciones poblacionales son iguales. Si denotamos por p0 su

valor comun, entonces, bajo esta hipotesis, tenemos que

Z =p1 − p2

p0(1−p0)n1

+ p0(1−p0)n2

tiene aproximadamente una distribucion normal estandar. Finalmente, la proporcion descono-

cida p0 de la expresion anterior puede estimarse mediante el estimador p0 (que utiliza las dos

proporciones muestrales) dado por

p0 =n1p1 + n2p2

n1 + n2.

Reemplazando el valor desconocido p0 por p0 se obtiene una variable aleatoria cuya distribucion

esta proxima a la normal. Este resultado es la base para probar las hipotesis

H0 : p1 − p2 = 0, H0 : p1 − p2 ≥ 0, H0 : p1 − p2 ≤ 0

y la region crıtica dependera de cada uno de estos tres casos, como se ilustra en la tabla 3.6.

Tipo de hipotesis Regla de decision

H0 : p1 − p2 ≥ 0 Si Z ≤ −Zα, entonces, se rechaza

H1 : p1 − p2 < 0 H0; de lo contrario, se acepta H0.

Cola a la izquierda

H0 : p1 − p2 ≤ 0 Si Z ≥ Zα, entonces, se rechaza

H1 : p1 − p2 > d0 H0; de lo contrario, se acepta H0.

Cola a la derecha

H0 : p1 − p2 = 0 Si Z ≤ −Zα/2 o Z ≥ Zα/2, entonces, se

H1 : p1 − p2 6= 0 rechaza H0; de lo contrario, se acepta H0.

Dos colas

Figura 3.6: Reglas de decision para la prueba de p1 − p2 (varianzas conocidas)

3.4. Prueba para la diferencia de dos proporciones

Page 96: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

94 Dr. rer. nat. Humberto Llinas

Teorema 3.4.1 Sea p1 la proporcion de exitos observada en una muestra aleatoria de tamano n1,

procedente de una poblacion con proporcion p1 de exitos, y sea p2 la proporcion de exitos observada

en una muestra aleatoria independiente de tamano n2, procedente de una poblacion con proporcion

de exitos p1. Supongamos que se cumple alguna de las siguientes dos condiciones:

(a) n1 ≥ 30 y n2 ≥ 30;

(b) n1p1 ≥ 5, n1(1 − p1) ≥ 5, n2p2 ≥ 5 y n2(1 − p2) ≥ 5.

Entonces, una prueba de hipotesis con nivel de significancia α para la diferencia de proporciones

p1 − p2 es como se presenta en la tabla 3.6, siendo

Z =p1 − p2

p0(1−p0)n1

+ p0(1−p0)n2

el estadıstico de prueba correspondiente con

p0 =n1p1 + n2p2

n1 + n2

En la tabla mencionada, Zα/2 el valor de una variable aleatoria a la derecha del cual se tiene un

area de α/2 en la distribucion normal estandar.

Ejemplo 3.4.2 Un rector de cierta universidad afirma que la proporcion de hombres que tienen

auto en el campus es mayor a la proporcion de mujeres que tienen auto en el campus. Un profesor

de estadıstica se interesa en la afirmacion y entrevista aleatoriamente a 100 hombres y a 100

mujeres. Encuentra que 34 hombres y 27 mujeres tienen autos en el campus. ¿Puede concluirse

con un nivel del 5% que la afirmacion del rector es falsa?

SOLUCION:

Sean p1 y p2 las proporciones poblacionales de hombres y mujeres, respectivamente, que tienen

auto en el campus. Entonces, queremos contrastar la hipotesis nula

H0 : p1 − p2 ≤ 0 versus H1 : p1 − p2 > 0.

Los datos muestrales son

n1 = 100, p1 =34

100= 0, 34, n2 = 100, p2 =

27

100= 0, 27.

Con estos valores, el estimador comun bajo la hipotesis nula es

p0 =n1p1 + n2p2

n1 + n2=

(100)(0, 34) + (100)(0, 27)

100 + 100= 0, 305

y el estadıstico de prueba esta dado por

Z =p1 − p2

p0(1−p0)n1

+ p0(1−p0)n2

=0, 34 − 0, 27

(0,305)(0,695)100 + (0,305)(0,695)

100

= 1, 075.

Capıtulo 3. Pruebas de hipotesis

Page 97: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 95

Para una prueba al nivel del 5%, tenemos que α = 0, 05 y Zα = Z0,05 = 1, 64. Entonces, como

Z = 1, 075 es menor que Zα = 1, 64, al nivel de significancia del 5%, no se rechaza la hipotesis nula

de que la proporcion de hombres que tienen auto en el campus es menor o igual a la proporcion de

mujeres que tienen auto en el campus. Es decir, los datos muestran que la afirmacion del rector

es falsa. ◭

Ejemplo 3.4.3 De una muestra aleatoria de 203 anuncios publicados en revistas colombianas, 52

eran de deportes. De una muestra aleatoria independiente de 270 anuncios publicados en revistas

brasileras, 56 eran de deportes. Usando un nivel del 5%, constrastar frente a una alternativa bi-

lateral, la hipotesis nula de que las proporciones de anuncios comicos de las revistas colombianas

y americanas son iguales.

SOLUCION:

Denotemos por p1 y p2 las proporciones poblacionales de anuncios deportivos en revistas colom-

bianas y brasileras, respectivamente. Entonces, queremos contrastar la hipotesis nula

H0 : p1 − p2 = 0 versus H1 : p1 − p2 6= 0.

En este ejemplo,

n1 = 203, p1 =52

203= 0, 256, n2 = 270, p2 =

56

270= 0, 207.

Con esto, el estimador comun bajo la hipotesis nula es

p0 =n1p1 + n2p2

n1 + n2=

(203)(0, 256) + (270)(0, 207)

203 + 270= 0, 228

y el estadıstico de prueba esta dado por

Z =p1 − p2

p0(1−p0)n1

+ p0(1−p0)n2

=0, 256 − 0, 207

(0,228)(0,772)203 + (0,228)(0,772)

270

= 1, 26.

Para una prueba al nivel del 5%, tenemos que α = 0, 05 y Zα/2 = Z0,025 = 1, 96. Entonces, como

Z = 1, 26 es menor que Zα/2 = 1, 96, al nivel de significancia del 5%, no se rechaza la hipotesis

nula de que las proporciones poblacionales de anuncios deportivos en las revistas colombianas y

brasileras son las mismas. ◭

3.5 Prueba para la diferencia de dos medias

En esta seccion, examinaremos el caso que se dispone de muestras aleatorias de dos poblaciones, y

en el que el parametro de interes consiste en la diferencia entre las dos medias poblacionales. En

los procedimientos que se desarrollan para contrastar hipotesis, la metodologıa adecuada depende,

una vez mas, de la manera en la que se tomaron las muestras. Es decir, depende de los dos casos

siguientes: el caso de tener muestras pareadas y el de tener muestras independientes. Nosotros

solo nos limitaremos a desarrollar pruebas para el segundo caso. Ahora, al igual que en capıtulos

anteriores, basaremos nuestro estudio de tales pruebas de acuerdo a los siguientes tres casos:

3.5. Prueba para la diferencia de dos medias

Page 98: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

96 Dr. rer. nat. Humberto Llinas

1. Las varianzas poblacionales son conocidas o desconocidas y las muestras son grandes.

2. Las varianzas poblacionales son iguales, desconocidas y las muestras son pequenas.

3. Las varianzas poblacionales son diferentes, desconocidas y las muestras son pequenas.

Para estos tres casos supondremos que disponemos de una muestra aleatoria (de tamano n1, con

media x1 y varianza s21) que es tomada de una poblacion con media µ1 y varianza σ1, y de una

muestra aleatoria (independiente de la anterior, de tamano n2, con media x2 y varianza s22) que

es tomada de una poblacion con media µ2 y varianza σ2.

3.5.1 Primer caso: varianzas poblacionales conocidas o descono-

cidas y muestras grandes

Como ya se explicado en en capıtulos anteriores, en esta situacion, la distribucion muestral de la

diferencia de dos medias muestrales es la distribucion normal. Las hipotesis que podemos probar

para la diferencia de dos medias poblacionales µ1 y µ2 son las siguientes:

H0 : µ1 − µ2 = d0, H0 : µ1 − µ2 ≥ d0, H0 : µ1 − µ2 ≤ d0.

El estadıstico de prueba tiene la forma

Z =(x1 − x2) − d0

σ21

n1+

σ22

n2

y la region crıtica dependera de cada uno de estos tres casos, como se ilustra en la tabla 3.7.

Tipo de hipotesis Regla de decision

H0 : µ1 − µ2 ≥ d0 Si Z ≤ Zα, entonces, se rechaza

H1 : µ1 − µ2 < d0 H0; de lo contrario, se acepta H0.

Cola a la izquierda

H0 : µ1 − µ2 ≤ d0 Si Z ≥ Zα, entonces, se rechaza

H1 : µ1 − µ2 > d0 H0; de lo contrario, se acepta H0.

Cola a la derecha

H0 : µ1 − µ2 = d0 Si Z ≤ −Zα/2 o Z ≥ Zα/2, entonces, se

H1 : µ1 − µ2 6= d0 rechaza H0; de lo contrario, se acepta H0.

Dos colas

Figura 3.7: Reglas de decision para la prueba de µ1 − µ2 (varianzas conocidas)

El siguiente teorema formaliza lo expresado anteriormente.

Capıtulo 3. Pruebas de hipotesis

Page 99: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 97

Teorema 3.5.1 Sean x1 y x2 las medias de muestras aleatorias independientes de tamanos n1

y n2 de poblaciones con medias µ1, µ2 y varianzas σ21, σ2

2, respectivamente. Supongamos que se

cumple alguna de las siguientes condiciones:

(a) Ambas poblaciones son normales y ambas varianzas poblaciones σ21 y σ2

2 son conocidas;

(b) Ambas poblaciones son desconocidas o no normales, ambas varianzas poblacionales σ21 y σ2

2

son conocidas o desconocidas y n1 ≥ 30, n2 ≥ 30.

Entonces, una prueba de hipotesis con nivel de significancia α para la diferencia µ1 − µ2 es como

se presenta en la tabla 3.7, siendo

Z =(x1 − x) − d0

σ21

n1+

σ22

n2

el estadıstico de prueba correspondiente y Zα/2 el valor de una variable aleatoria a la derecha del

cual se tiene un area de α/2 en la distribucion normal.

En el caso en que las varianzas poblacionales son desconocidas, utilizamos las desviaciones mues-

trales repectivas como estimacion de las correspondientes desviaciones poblacionales.

Ejemplo 3.5.2 Se llevo a cabo un estudio entre expertos matematicos para conocer su opinion

sobre las mujeres matematicas. Se les pidio que evaluaran en una escala de 1 (totalmente en

desacuerdo) a 5 (totalmente de acuerdo) la afirmacion: “Las mujeres matematicas tienen la misma

oferta de trabajo que los hombres”. Para una muestra aleatoria de 186 hombres de esta profesion,

la respuesta media fue de 4.059 con una desviacion tıpica de 0,839. Para una muestra aleatoria

independiente de 172 mujeres matematicas, la respuesta media fue 3.680 con una desviacion tıpica

de 0,966. Utilize un nivel de significancia del 5% para contrastar la hipotesis nula de que las dos

medias poblacionales son iguales frente a la alternativa de que ambas sean diferentes.

SOLUCION:

Sean µ1 y µ2 las respectivas medias poblacionales de hombres y mujeres matematicas. Queremos

contrastar la hipotesis

H0 : µ1 − µ2 = 0 versus H1 : µ1 − µ2 6= 0.

Tenemos que

n1 = 186, x1 = 4, 059, s1 = 0, 839;

n2 = 172, x2 = 3, 680, s2 = 0, 966.

Observemos que podemos aplicar el teorema 3.2.1. En este caso, d0 = 0 y el valor del estadıstico

de prueba esta dado por

Z =(x1 − x) − d0

σ21

n1+

σ22

n2

=(4, 059 − 3, 680) − 0√

(0,839)2

186 + (0,966)2

172

= 3, 95.

3.5. Prueba para la diferencia de dos medias

Page 100: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

98 Dr. rer. nat. Humberto Llinas

Para una prueba al nivel del 5%, tenemos que α = 0, 05 y Zα/2 = Z0,025 = 1, 96. Entonces, como

Z = 3, 95 es mayor que Zα = 1, 96, se rechaza la hipotesis nula al nivel de significancia del 5%. Por

lo tanto, estos datos sugieren que la respuesta media en la poblacion es mayor para los hombres

que para las mujeres. Es decir, en promedio, los hombres tienen mas confianza que las mujeres en

que a las mujeres se les ofrecen las mismas ofertas de trabajo que a los hombres. ◭

Ejemplo 3.5.3 En un establecimiento escolar suburbano, se selecciono al azr una muestra aleato-

ria de 25 alumnos de quinto grado (grupo 1) de una poblacion de estudiantes perteneciente a

familias en que ambos padres trabajan. Se selecciono tambien una muestra aleatoria al azar de

15 estudiantes (grupo 2) del mismo grado y establecimiento escolar entre aquellos estudiantes que

pertenecen a familias en que solamente el padre trabaja. El analisis de los puntajes de rendimiento

escolar (en escala de 1 a 100) de los dos grupos dio los siguientes resultados: un puntaje promedio

de 78 para el grupo 1 y de 85 para el grupo 2. La experiencia muestra que las poblaciones de

puntajes para ambos grupos estan distribuidas en forma aproximadamente normal, con varianzas

de σ21 = 81 y σ2

2 = 25. Utilizando un nivel de significancia del 5% y con base en estos datos,

determinar si se puede concluir que la media de la poblacion de la que se selecciono el grupo 1 es

inferior a la media de la poblacion de la que se selecciono el grupo 2.

SOLUCION:

Sean µ1 y µ2 las respectivas medias poblacionales de puntajes promedios. Al plantear las hipotesis

del problema, obtenemos

H0 : µ1 ≥ µ2 o su equivalente H0 : µ1 − µ2 ≥ 0;

H1 : µ1 < µ2 o su equivalente H1 : µ1 − µ2 < 0.

ahora, tenemos que

n1 = 25, x1 = 78, σ21 = 81;

n2 = 15, x2 = 85, σ22 = 25.

Observemos que nuevamente podemos aplicar el teorema 3.2.1. En este caso, d0 = 0 y el valor del

estadıstico de prueba esta dado por

Z =(x1 − x2) − d0

σ21

n1+

σ22

n2

=(78 − 85) − 0

8125 + 25

15

= −3, 16.

Para una prueba al nivel del 5%, tenemos que α = 0, 05 y Zα = Z0,05 = 1, 64. Entonces, como

Z = −3, 16 es menor que −Zα = −1, 64, se rechaza la hipotesis nula al nivel de significancia del

5%. Por lo tanto, se concluye que en ese establecimiento escolar, los puntajes promedios generales

de rendimiento de los estudiantes de quinto grado que pertenecen a familias en que ambos padres

trabajan son inferiores a los de los estudiantes que pertenecen a familias en que solamente el padre

trabaja. ◭

Capıtulo 3. Pruebas de hipotesis

Page 101: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 99

3.5.2 Segundo caso: varianzas poblacionales iguales, desconoci-

das y muestras pequenas

Ahora, trataremos el caso en el cual los tamanos muestrales no son grandes y las varianzas pobla-

cionales son iguales pero desconocidas. En este caso, para probar las hipotesis

H0 : µ1 − µ2 = d0, H0 : µ1 − µ2 ≥ d0, H0 : µ1 − µ2 ≤ d0,

el estadıstico de prueba tiene la forma

t =(x1 − x2) − d0

s2

n1+ s2

n2

corresponde al valor de una variable aleatoria que tiene distribucion t de Student con ν = n1+n2−2

grados de libertad. En la expresion anterior,

s2 =(n1 − 1)s2

1 + (n2 − 1)s22

n1 + n2 − 2,

es la llamada varianza muestral combinada y corresponde a un estimador de la varianza poblacional

comun. Nuevamente, la region crıtica dependera de cada uno de estos tres casos, como se ilustra

en la tabla 3.8.

Tipo de hipotesis Regla de decision

H0 : µ1 − µ2 ≥ d0 Si t ≤ tα, entonces, se rechaza

H1 : µ1 − µ2 < d0 H0; de lo contrario, se acepta H0.

Cola a la izquierda

H0 : µ1 − µ2 ≤ d0 Si t ≥ tα, entonces, se rechaza

H1 : µ1 − µ2 > d0 H0; de lo contrario, se acepta H0.

Cola a la derecha

H0 : µ1 − µ2 = d0 Si t ≤ −tα/2 o t ≥ tα/2, entonces, se

H1 : µ1 − µ2 6= d0 rechaza H0; de lo contrario, se acepta H0.

Dos colas

Figura 3.8: Reglas de decision para la prueba de µ1 − µ2 (varianzas desconocidas)

En el siguiente teorema resumimos todo lo expresado anteriormente.

3.5. Prueba para la diferencia de dos medias

Page 102: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

100 Dr. rer. nat. Humberto Llinas

Teorema 3.5.4 Sean x1 y x2 las medias de muestras aleatorias independientes de tamanos n1 <

30 y n2 < 30 de poblaciones normales con medias µ1, µ2 y varianzas σ21, σ2

2 iguales y desconocidas.

Entonces, una prueba de hipotesis con nivel de significancia α para la diferencia de medias µ1−µ2

es como se presenta en la tabla 3.8, siendo

t =(x1 − x2) − d0

s2

n1+ s2

n2

es el estadıstico de prueba correspondiente. En la expresion anterior,

s2 =(n1 − 1)s2

1 + (n2 − 1)s22

n1 + n2 − 2.

Ademas, tα/2 el valor de una variable aleatoria de una variable aleatoria que tiene distribucion t

de Student con ν = n1 + n2 − 2 grados de libertad a la derecha del cual se tiene un area de α/2

en esta distribucion.

Ejemplo 3.5.5 Se llevo a cabo un estudio que pretendıa valorar el efecto de la presencia de un

moderador sobre el numero de ideas generadas por un grupo. Se observaron cuatro miembros, con

y sin moderadores. Para una muestra aleatoria de cuatro grupos con moderador, el numero medio

de ideas generadas por grupo fue de 78, con una desviacion tıpica de 24,4. Para una muestra

aleatoria independiente de cuatro grupos sin moderardor, el numero medio de ideas generadas

por grupo fue de 63,5, con una desviacion tıpica de 20,2. Asumiendo que las distribuciones

poblacionales son normales con igual varianza, contrastar la hipotesis nula de que las medias

poblacionales son iguales frente a la alternativa de que la verdadera media es mayor para los

grupos con moderador. Use un nivel de significancia del 10%.

SOLUCION:

Sean µ1 y µ2 las respectivas medias poblacionales para los grupos con y sin moderador. Queremos

contrastar la hipotesis

H0 : µ1 − µ2 = 2 versus H1 : µ1 − µ2 > 2.

Tenemos que

n1 = 4, x1 = 78, 0, s1 = 24, 4;

n2 = 4, x2 = 63, 5, s2 = 20, 2.

Observemos que podemos aplicar el teorema 3.5.4. En este caso, d0 = 0. La varianza poblacional

comun se estima como

s2 =(n1 − 1)s2

1 + (n2 − 1)s22

n1 + n2 − 2=

(3)(24, 4)2 + (3)(20, 2)2

4 + 4 − 2= 501, 7.

Ademas, el valor del estadıstico de prueba esta dado por

t =(x1 − x2) − d0

s2

n1+ s2

n2

=(78, 0 − 63, 5) − 0

501,74 − 501,7

4

= 0, 915

Capıtulo 3. Pruebas de hipotesis

Page 103: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 101

Para una prueba al nivel del 10%, tenemos que α = 0, 10 y tα = t0,10 = 1, 44 con ν = n1+n2−2 = 6

grados de libertad. Entonces, como t = 0, 915 es menor que tα = 1, 44, no puede rechazarse la

hipotesis nula de igualdad de medias frente a la alternativa unilateral al nivel de significancia del

10%. Por lo tanto, los datos de la muestra no contienen suficiente evidencia que sugiera que, en

promedio, se generan mas ideas en los grupos con moderador. ◭

Ejemplo 3.5.6 Se llevo a cabo un experimento para comparar el deterioro abrasivo de dos ma-

teriales laminados diferentes. Se probaron doce piezas del material 1, exponiendo cada una a una

maquina para medir el deterioro. De la misma manera, se probaron diez piezas del material 2.

En cada caso, se observo la profundidad del deterioro. Las muestras del material 1 dieron un de-

terioro promedio (registrado) de 85 unidades con una desviacion estandar muestral de 4, mientras

que las muestras del material 2 dieron un promedio de 81 y una desviacion estandar muestral de

5. ¿Puede concluirse en el nivel de significancia del 5% que el deterioro abrasivo del material 1

excede al del material 2 por mas de 2 unidades? Asuma que las poblaciones son aproximadamente

normales con varianzas iguales.

SOLUCION:

Sean µ1 y µ2 las respectivas medias poblacionales para las piezas de los materiales 1 y 2. Queremos

contrastar la hipotesis

H0 : µ1 − µ2 = 0 versus H1 : µ1 − µ2 > 0.

Tenemos que

n1 = 12, x1 = 85, s1 = 4;

n2 = 10, x2 = 81, s2 = 5.

Observemos que nuevamente podemos aplicar el teorema 3.5.4. En este caso, d0 = 2. La varianza

poblacional comun se estima como

s2 =(n1 − 1)s2

1 + (n2 − 1)s22

n1 + n2 − 2=

(11)(16) + (9)(25)

12 + 10 − 2= 20, 05.

Ademas, el valor del estadıstico de prueba esta dado por

t =(x1 − x2) − d0

s2

n1+ s2

n2

=(85 − 81) − 2√

20,512 − 20,5

10

= 1, 04

Para una prueba al nivel del 5%, tenemos que α = 0, 05 y tα = t0,05 = 1, 725 con ν = n1 +n2−2 =

20 grados de libertad. Entonces, como t = 1, 04 es menor que tα = 1, 725, no puede rechazarse

la hipotesis nula de igualdad de medias frente a la alternativa unilateral al nivel del 5%. Por lo

tanto, no se esta en condiciones de concluir que el deterioro abrasivo del material 1 excede al del

material 2 por mas de dos unidades. ◭

3.5. Prueba para la diferencia de dos medias

Page 104: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

102 Dr. rer. nat. Humberto Llinas

3.5.3 Tercer caso: varianzas poblacionales diferentes, desconoci-

das y muestras pequenas

Ahora, estudiaremos el caso en el cual los tamanos muestrales no son grandes y las varianzas

poblacionales son diferentes pero desconocidas. En esta situacion, para probar las hipotesis

H0 : µ1 − µ2 = d0, H0 : µ1 − µ2 ≥ d0, H0 : µ1 − µ2 ≤ d0,

el estadıstico de prueba tiene la forma

t =(x1 − x2) − d0

s21

n1+

s22

n2

corresponde al valor de una variable aleatoria que tiene distribucion t de Student con

ν =

(

s21

n1− s2

2n2

)2

(s21/n1)2

n1−1 +(s2

2/n2)2

n2−1

grados de libertad. Nuevamente, la region crıtica dependera de cada uno de estos tres casos y es

completamente analoga a la que se muestra en la tabla 3.8. Todo lo expresado anteriormente se

puede resumir en el siguiente

Teorema 3.5.7 Sean x1 y x2 las medias de muestras aleatorias independientes de tamanos

n1 < 30 y n2 < 30 de poblaciones normales con medias µ1, µ2 y varianzas σ21, σ2

2 diferentes

y desconocidas. Entonces, una prueba de hipotesis con nivel de significancia α para la diferencia

de medias µ1 − µ2 es como se presenta en la tabla 3.8, siendo

t =(x1 − x2) − d0

s2

n1+ s2

n2

es el estadıstico de prueba correspondiente. Ademas, tα/2 el valor de una variable aleatoria de una

variable aleatoria que tiene distribucion t de Student con

ν =

(

s21

n1+

s22

n2

)2

(s21/n1)2

n1−1 +(s2

2/n2)2

n2−1

grados de libertad a la derecha del cual se tiene un area de α/2 en esta distribucion.

Ejemplo 3.5.8 El departamento de zoologıa de cierto instituto llevo a cabo un estudio para

estimar la diferencia en la cantidad de cierta sustancia quımica medida en dos estaciones diferentes

de un rıo. La sustancia se mide en miligramos por litro. Se reunieron 15 muestras de la estacion 1

y 12 muestras de la estacion 2. Las 15 muestras de la estacion 1 tuvieron un contenido promedio

de sustancia quımica de 3,84 miligramos por litro y una desviacion estandar de 3,07 miligramos

Capıtulo 3. Pruebas de hipotesis

Page 105: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 103

por litro, mientras que las 12 muestras de la estacion 2 tuvieron un contenido promedio de 1,49

miligramos por litro y una desviacion estandar de 0,80 miligramos por litro. Al nivel del 5%

determine si los contenidos promedios reales de sutancia en estas dos estaciones son diferentes.

Suponga que las observaciones vienen de poblaciones normalmente distribuidas con varianzas

diferentes.

SOLUCION:

Sean µ1 y µ2 las respectivas medias poblacionales para contenidos promedios reales de sutancia

en las dos estaciones. Queremos contrastar la hipotesis

H0 : µ1 − µ2 = 0 versus H1 : µ1 − µ2 6= 0.

Tenemos que Tenemos que

n1 = 15, x1 = 3, 84, s1 = 3, 07, n2 = 12, x2 = 1, 49, s2 = 0, 80.

Observemos que podemos aplicar el teorema 3.5.7. En este caso, d0 = 0 El valor del estadıstico

de prueba esta dado por

t =(x1 − x2) − d0

s21

n1+

s22

n2

=(3, 84 − 1, 49) − 0√

(3,07)2

15 + (0,80)2

12

= 2, 846

Para una prueba al nivel del 5%, tenemos que α = 0, 05 y tα/2 = t0,025 = 2, 120 con

ν =

[

(3,07)2

15 + (0,80)2

12

]2

((3,07)2/15)2

15−1 + ((0,80)2/12)2

12−1

= 16, 3 ≈ 16

grados de libertad. Entonces, como t = 2, 846 es mayor que tα/2 = 1, 725, puede rechazarse

la hipotesis nula de igualdad de medias frente a la alternativa bilateral al nivel del 5%. Por lo

tanto, podemos concluir que los contenidos promedio reales de sustancia para estos dos lugares

son diferentes (comparese este resultado con el obtenido en el ejemplo ??). ◭

3.6 Prueba para la varianza

En esta seccion, el interes se centra en pruebas de hipotesis relacionadas con la varianza de una

poblacion distribuida normalmente. Para ello, supondremos que s2 es la varianza de una muestra

aleatoria de tamano n, tomada de una poblacion distribuida normalmente con media µ y varianza

σ2. Entonces, se desean probar las hipotesis que consideran la uniformidad de una poblacion,

dadas por

H0 : σ2 = σ20, H0 : σ2 ≤ σ2

0, H0 : σ2 ≥ σ20.

El estadıstico de prueba tiene la forma

χ2 =(n − 1)s2

σ20

3.6. Prueba para la varianza

Page 106: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

104 Dr. rer. nat. Humberto Llinas

y corresponde al valor de una variable aleatoria que tiene distribucion chi-cuadrada con n − 1

grados de libertad. La region crıtica dependera de cada uno de estos tres casos, como se ilustra

en la tabla 3.9.

Tipo de hipotesis Regla de decision

H0 : σ2 ≥ σ20 Si χ2 ≤ χ2

1−α, entonces, se rechaza

H1 : σ2 < σ20 H0; de lo contrario, se acepta H0.

Cola a la izquierda

H0 : σ2 ≤ σ20 Si χ2 ≥ χ2

α, entonces, se rechaza

H1 : σ2 > σ20 H0; de lo contrario, se acepta H0.

Cola a la derecha

H0 : σ2 = σ20 Si χ2 ≤ χ2

1−α2

o χ2 ≥ χ2α2, entonces, se

H1 : σ2 6= σ20 rechaza H0; de lo contrario, se acepta H0.

Dos colas

Figura 3.9: Reglas de decision para la prueba de σ2

En el siguiente teorema resumimos todo lo expresado anteriormente.

Teorema 3.6.1 Si s2 es la varianza de una muestra aleatoria de tamano n, tomada de una

poblacion distribuida normalmente con media µ y varianza σ2, entonces, una prueba de hipotesis

con nivel de significancia α para la varianza σ2 es como se presenta en la tabla 3.9, siendo

χ2 =(n − 1)s2

σ20

el estadıstico de prueba correspondiente. Ademas, χ2α2

y χ21−α

2son los valores de una variable

aleatoria que deja un area de α2 y 1 − α

2 , respectivamente, a la derecha de la distribucion chi-

cuadrada con n − 1 grados de libertad.

Ejemplo 3.6.2 Con el fin de cumplir las normas establecidas, es importante que la varianza en

el porcentaje de impurezas de unas remesas de productos quımicos no supere el 4%. Una muestra

aleatoria de 20 envıos dio una varianza muestral de 5,62 en el porcentaje de impureza. Al nivel del

10%, contrastar la hipotesis nula de que la varianza de la poblacion no es mayor que 4. Supongase

que la distribucion de la poblacion es normal.

SOLUCION:

Sea σ2 la varianza poblacional de la concentracion de impureza. Queremos contrastar la hipotesis

H0 : σ ≤ 4 versus H1 : σ > 4.

Tenemos que s2 = 5, 62, n = 20 y σ20 = 4. Observemos que podemos aplicar el teorema 3.6.1. En

Capıtulo 3. Pruebas de hipotesis

Page 107: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 105

este caso, el valor del estadıstico de prueba esta dado por

χ2 =(n − 1)s2

σ20

=(19)(5, 62)

4= 26, 695.

Para una prueba al nivel del 10%, tenemos que α = 0, 10 y χ2α(19) = χ2

0,10(19) = 27, 20 con

ν = n − 1 = 19 grados de libertad. Entonces, como χ2 = 26, 695 es menor que χ20,10(19) = 27, 20,

no puede rechazarse la hipotesis nula al nivel del 10%. Por lo tanto, los datos no contienen

una evidencia particularmente importante contra la hipotesis de que la varianza poblacional del

porcentaje de impureza no es mayor que 4. ◭

Ejemplo 3.6.3 La varianza calculada de los puntajes en lectura de los estudiantes de tercer grado

del sistema escolar A, obtenidos durante 10 anos, es 1,44. Una muestra aleatoria de 21 estudiantes

de tercer grado de otro sistema escolar (B) con quienes se practico la misma prueba de lectura,

arrojo una varianza de s2 = 1, 05. ¿Proporcionan estos datos evidencia suficiente como para

concluir, al nivel de significancia 0,05, que los puntajes de los alumnos de tercer grado del sistema

B son menos variables de que los de los estudiantes del sistema A? Suponga que los puntajes de

los estudiantes de tercer del sistema B estan normalmente distribuidos.

SOLUCION:

Sea σ2 la varianza poblacional de los puntajes de los estudiantes de tercer del sistema B. Queremos

contrastar la hipotesis

H0 : σ ≥ 1, 44 versus H1 : σ < 1, 44.

Para este ejemplo, s2 = 1, 05, n = 21 y σ20 = 1, 44. Observemos que nuevamente podemos aplicar

el teorema 3.6.1. En este caso, el valor del estadıstico de prueba esta dado por

χ2 =(n − 1)s2

σ20

=(20)(1, 05)

1, 44= 14, 48.

Para una prueba al nivel del 5%, tenemos que α = 0, 05 y χ21−α(20) = χ2

0,90(20) = 10, 851 con

ν = n − 1 = 20 grados de libertad. Entonces, como χ2 = 14, 48 es mayor que χ20,05(20) = 10, 851,

podemos rechazar la hipotesis nula al nivel del 5%. Por lo tanto, concluimos que los puntajes en

la prueba de lectura de los estudiantes de tercer grado del sistema B son menos variable sque los

de tercer grado del sistema escoalr A. ◭

3.7 Prueba para la razon de dos varianzas

Por ultimo, estudiaremos el caso de pruebas de hipotesis relacionadas con dos varianzas de una

poblaciones distribuidas normalmente. Para ello, supongamos que s21 y s2

2 son las varianzas de

muestras aleatorias independientes de tamano n1 y n2 tomadas de poblaciones normales con

varianzas σ21 y σ2

2, respectivamente. Entonces, se desean probar las siguientes hipotesis, que

comparan la uniformidad de una poblacion con la de otra,

H0 : σ1 = σ2, H0 : σ1 ≥ σ2, H0 : σ1 ≤ σ2,

3.7. Prueba para la razon de dos varianzas

Page 108: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

106 Dr. rer. nat. Humberto Llinas

el estadıstico de prueba tiene la forma

F =s21

s22

y corresponde al valor de una variable aleatoria que tiene distribucion F con ν1 = n1 − 1 y

ν2 = n2 − 1 grados de libertad. Nuevamente, la region crıtica dependera de cada uno de estos tres

casos, como se ilustra en la tabla 3.10.

Tipo de hipotesis Regla de decision

H0 : σ21 ≥ σ2

2 Si F ≤ F1−α, entonces, se rechaza

H1 : σ21 < σ2

2 H0; de lo contrario, se acepta H0.

Cola a la izquierda

H0 : σ21 ≤ σ2

2 Si F ≥ Fα, entonces, se rechaza

H1 : σ21 > σ2

2 H0; de lo contrario, se acepta H0.

Cola a la derecha

H0 : σ21 = σ2

2 Si F ≤ F1−α2

o F ≥ Fα2, entonces, se

H1 : σ21 6= σ2

2 rechaza H0; de lo contrario, se acepta H0.

Dos colas

Figura 3.10: Reglas de decision para la prueba de σ21/σ

22

En el siguiente teorema resumimos todo lo expresado anteriormente.

Teorema 3.7.1 Si s21 y s2

2 son las varianzas de muestras aleatorias independientes de tamano

n1 y n2 tomadas de poblaciones normales con varianzas σ21 y σ2

2, respectivamente, entonces, una

prueba de hipotesis con nivel de significancia α para la razon de varianzas σ21/σ2 es como se

presenta en la tabla 3.10, siendo

F =s21

s22

el estadıstico de prueba correspondiente. Ademas, Fα2(ν1, ν2) es el valor de una variable aleatoria

que deja un area de α2 a la derecha de la distribucion F con ν1 = n1 − 1 y ν2 = n2 − 1 grados de

libertad.

Ejemplo 3.7.2 Se compararon las varianzas de los vencimientos de dos tipos de bonos. Para

una muestra aleatoria de 17 bonos del primer tipo, la varianza de los vencimientos (en anos al

cuadrado) fue de 123,35. Para una muestra aleatoria independiente de 11 bonos del segundo

tipo, la varianza de los vencimientos fue de 8,02. Al nivel del 2%, determinar si las dos varianzas

poblacionales son diferentes. Asuma que las dos poblaciones tienen distribucion normal.

SOLUCION:

Sean σ21 y σ2

2 las respectivas varianzas poblacionales. Queremos contrastar la hipotesis

H0 : σ21 = σ2

2 versus H1 : σ21 6= σ2

2.

Capıtulo 3. Pruebas de hipotesis

Page 109: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 107

Para este ejemplo,

n1 = 17, s21 = 123, 35, n2 = 11, s2

2 = 8, 02.

Observemos que podemos aplicar el teorema 3.7.1. En este caso, el valor del estadıstico de prueba

esta dado por

F =s21

s22

=123, 35

8, 02= 15, 38.

Para una prueba al nivel del 2%, tenemos que α = 0, 02 e, interpolando, Fα/2(16, 10) = F0,01(16, 10) =

4, 53 con ν1 = n1 − 1 = 16 y ν2 = n2 − 1 = 10 grados de libertad. Claramente, F = 15, 38 es

mucho mayor que F0,01(16, 10) = 4, 53, es decir, podemos rechazar la hipotesis nula al nivel del

5%. Por consiguiente, hay abrumadora evidencia de que las varianzas en los vencimientos son

diferentes para estos dos tipos de bonos. ◭

Ejemplo 3.7.3 Al probar la diferencia en el desgaste abrasivo de los dos materiales en el ejemplo

3.5.6, se asumio que las varianzas poblacionales desconocidas eran iguales. ¿Es esta justificacion

correcta? Utilice un nivel de significancia del 10%.

SOLUCION:

Sean σ21 y σ2

2 las respectivas varianzas poblacionales para el desgaste abrasivo de los materiales 1

y 2, respectivamente. En este caso, queremos contrastar la hipotesis

H0 : σ21 = σ2

2 versus H1 : σ21 6= σ2

2.

Recordemos del ejemplo 3.5.6, que

n1 = 12, s1 = 4, n2 = 10, s2 = 5.

Observemos que podemos aplicar el teorema 3.7.1. En este caso, el valor del estadıstico de prueba

esta dado por

F =s21

s22

=16

25= 0, 64.

Para una prueba al nivel del 10%, tenemos que α = 0, 10, de donde α/2 = 0, 05. Ahora,

F0,05(11, 9) = 3, 11 y, teniendo en cuenta el teorema 1.7.8,

F0,95(9, 11) =1

F0,05(11, 9)= 0, 34.

Debido a que F = 0, 64 es mayor que F0,95(9, 11) = 0, 34, no podemos rechazar la hipotesis nula

al nivel del 10%. Por consiguiente, se concluye que no hay evidencia suficiente para afirmar que

las varianzas son diferentes. Es decir, la suposicion es correcta. ◭

3.7. Prueba para la razon de dos varianzas

Page 110: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

. 108

.

. Dr. rer. nat. Humberto Llinas

Indice

Censo, 4

Conglomerado, 15

Datos pareados, 52

Desviacion tıpica muestral, 64

Distribucion

F de Fisher, 69

t de Student, 32

chi-cuadrada, 65

muestral, 20

de la diferencia de medias muestrales,

54, 56, 60, 61

de la diferencia de proporciones mues-

trales, 50

de la media muestral, 28, 34

de la proporcion muestral, 43

de la razon de varianzas muestrales, 69

de la varianza muestral, 65

Error

de tipo I y II, 84

estandar, 24

muestral, 6

no muestral, 7

sistematico, 7

Estadıstico, 19

de prueba, 86

Estadıstica

inferencial, 4

Estrato, 13

Factor de correccion, 26

Grado de confianza, 84

Hipotesis, 80

alternativa, 81

bilateral, 81n

unilateral, 81n

estadıstica, 81

mantenida, 87

nula, 81

Muestra

aleatoria (simple), 9

Muestras

dependientes, 52

independientes, 53

Muestreo

aleatorio (simple), 9

con reemplazo, 11

estratificado, 13

no proporcional, 14

proporcional, 14

por conglomerados, 15

sin reemplazo, 11

sistematico, 16

Nivel de significancia, 84

Potencia, 84

Proporcion muestral, 42

Prueba de hipotesis

para la diferencia de medias poblacionales,

97, 100, 102

Page 111: iv Dr. rer. nat. Humberto Llinas´ · 2016-03-04 · Supongamos que el muestreo se hace con reemplazo (es decir, el nu´mero elegido se reemplaza antes de escoger el siguiente) y

Estadıstica inferencial 109

para la diferencia de proporciones pobla-

cionales, 94

para la media poblacional, 88, 90

para la proporcion poblacional, 91

para la razon de varianzas poblacionales,

106

para la varianza poblacional, 104

Region crıtica y de aceptacion, 86

Regla de decision, 83

Sesgo

muestral, 7

negativo, 8

positivo, 8

Tabla

de numeros aleatorios, 10

Teorema

de De Moivre-Laplace, 43

Varianza muestral, 64

INDICE