trabajo de investigacion probabilidad y a

5/12/2018 Trabajo de Investigacion Probabilidad y a - slidepdf.com

http://slidepdf.com/reader/full/trabajo-de-investigacion-probabilidad-y-a 1/60

1

INSTITUTO TECNOLÓGICO SUPERIOR DE HUETAMOINGENIERÍA EN GESTION EMPRESARIAL

TRABAJO DE INVESTIGACION

UNIDAD IVMUESTREO Y ESTIMACIONES

PROBABILIDAD Y ESTADISTICA

ALUMNO(S) No. CONTROLJUAN LEONARDO ALBITER PONTIFES 10070091

16 de diciembre de 2011



2

INDICEINTRODUCCION1.- Definición de muestreo --------------------------------------------------------------------------------------------- 4

1.1-Tipos de muestreo aleatorio, sistematizado, estratificado y conglomerados-------------------------- 4

2.- Concepto de distribución de muestreo de la media ---------------------------------------------------------- 9

2.1-Distribución muestral de la media con σ2

conocida y desconocida -------------------------------------- 10

2.2.-Distribución muestral de la diferencia entre dos medias con σ2

conocida y desconocida --------- 13

2.3.-Distribución muestral de la proporción ------------------------------------------------------------------------ 18

2.4.-Distribución muestral de la diferencia de dos proporciones ---------------------------------------------- 18

3.- Teorema del límite central------------------------------------------------------------------------------------------ 27

3.1.-Tipos de estimaciones y características ------------------------------------------------------------------------ 37

3.2.-Determinación del tamaño de la muestra de una población --------------------------------------------- 45

3.3.-Intervalos de confianza para la media, con el uso de la distribución Normal y “t” student ------- 54

3.3.1.- Determinación del tamaño de la muestra con grado de confianza y estimación de μ ----------- 57

CONCLUSIONES

BIBLIOGRAFIA



3

INTRODUCCION

Algunas veces es posible y práctico examinar a cada persona o elemento de la población que

deseamos describir. A esto lo llamamos enumeración completa o censo. Utilizamos el muestreo

cuando no es posible contar o medir todos los elementos de la población.

Los estadísticos usan la palabra población para referirse no sólo a personas sino a todos los

elementos que han sido elegidos para un estudio, y emplean la palabra muestra para describir una

porción elegida de la población.

Condiciones que debe reunir una muestra:

• Homogeneidad: debe ser extraída de la misma población.

• Independencia: las observaciones no deben estar mutuamente condicionadas entre sí.

• Representatividad: la muestra debe ser el mejor reflejo posible del conjunto del cual proviene.

Hemos mencionado que las poblaciones están formadas por individuos, pero sería mejor

denominarlas unidades de muestreo o unidades de estudio:

Personas, células, familias, hospitales, países…

La población ideal que se pretende estudiar se denomina población objetivo.

No es fácil estudiarla por completo.

Aproximamos mediante muestras que den idealmente la misma probabilidad a cada individuo de ser

elegido.

Tampoco es fácil elegir muestras de la población objeCvo:Si llamamos por teléfono excluimos a los que no Cenen.

Si elegimos individuo en la calle, olvidamos los que están trabajando...



4

Definición de muestreo.

Tipos de muestreo aleatorio, sistematizado, estratificado y conglomerados.

Definición.

Un muestreo es la selección de una muestra a partir de una población, entendida como

muestra un subconjunto, elegido de un conjunto mayor usualmente de manera aleatoria, para

realizar un estudio estadístico.

Al elegir una muestra, se espera que los datos estadísticos sean proporcionales a la población,

y por lo tanto, que las propiedades sean extrapolables a la población. Este proceso permite ahorrar

recursos, obteniendo resultados parecidos si se realizasen a toda la población.

Cabe mencionar para que el muestreo sea válido y se pueda realizar un estudio fiable (que

represente a la población), debe cumplir ciertos requisitos, lo que lo convertiría en una muestra

representativa.

Introducción al muestreo.a. Concepto e importancia

Es la actividad por la cual se toman ciertas muestras de una población de elementos de los cuales

vamos a tomar ciertos criterios de decisión, el muestreo es importante porque a través de él podemos

hacer análisis de situaciones de una empresa o de algún campo de la sociedad.

b. Terminología básica para el muestreo Los nuevos términos, los cuales son frecuentemente usados en inferencia estadística son:

Estadístico:

Un estadístico es una medida usada para describir alguna característica de una muestra , tal

como una media aritmética, una mediana o una desviación estándar de una muestra.

Parámetro:

Una parámetro es una medida usada para describir alguna característica de una población, tal

como una media aritmética, una mediana o una desviación estándar de una población.



5

Cuando los dos nuevos términos de arriba son usados, por ejemplo, el proceso de estimaciónen inferencia estadística puede ser descrito como le proceso de estimar un parámetro a partir del

estadístico correspondiente, tal como usar una media muestral (un estadístico para estimar la media

de la población (un parámetro).

Los símbolos usados para representar los estadísticos y los parámetros, en éste y los siguientes

capítulos, son resumidos en la tabla siguiente:

Tabla 1

Símbolos para estadísticos y parámetros correspondientes

Medida Símbolo para el estadístico Símbolo para el parámetro(Muestra) (Población)

Media X µ

Desviación estándar s σ

Número de elementos n N

Proporción p P

Distribución en el muestreo:

Cuando el tamaño de la muestra (n) es más pequeño que el tamaño de la población (N), dos omás muestras pueden ser extraídas de la misma población. Un cierto estadístico puede ser calculado

para cada una de las muestras posibles extraídas de la población. Una distribución del estadístico

obtenida de las muestras es llamada la distribución en el muestreo del estadístico.

Por ejemplo, si la muestra es de tamaño 2 y la población de tamaño 3 (elementos A, B, C), es posible

extraer 3 muestras (AB, BC Y AC) de la población. Podemos calcular la media para cada muestra. Por

lo tanto, tenemos 3 medias muéstrales para las 3 muestras. Las 3 medias muéstrales forman una

distribución. La distribución de las medias es llamada la distribución de las medias muéstrales, o la

distribución en el muestreo de la media. De la misma manera, la distribución de las proporciones (o

porcentajes) obtenida de todas las muestras posibles del mismo tamaño, extraídas de una población,

es llamada la distribución en el muestreo de la proporción.

TEORIA DEL MUESTREO

Uno de los propósitos de la estadística inferencial es estimar las características poblacionales

desconocidas, examinando la información obtenida de una muestra, de una población. El punto de

interés es la muestra, la cual debe ser representativa de la población objeto de estudio.



6

Se seguirán ciertos procedimientos de selección para asegurar de que las muestras reflejenobservaciones a la población de la que proceden, ya que solo se pueden hacer observaciones

probabilísticas sobre una población cuando se usan muestras representativas de la misma.

Una población está formada por la totalidad de las observaciones en las cuales se tiene cierto

observa.

Una muestra es un subconjunto de observaciones seleccionadas de una población.

Muestras Aleatorias

Cuando nos interesa estudiar las características de poblaciones grandes, se utilizan muestras

por muchas razones; una enumeración completa de la población, llamada censo, puede ser

económicamente imposible, o no se cuenta con el tiempo suficiente.

A continuación se verá algunos usos del muestreo en diversos campos:

1. Política. Las muestras de las opiniones de los votantes se usan para que los candidatos midan

la opinión pública y el apoyo en las elecciones.

2. Educación. Las muestras de las calificaciones de los exámenes de estudiantes se usan para

determinar la eficiencia de una técnica o programa de enseñanza.

3. Industria. Muestras de los productos de una línea de ensamble sirve para controlar la calidad.

4. Medicina. Muestras de medidas de azúcar en la sangre de pacientes diabéticos prueban la

eficacia de una técnica o de un fármaco nuevo.

5. Agricultura. Las muestras del maíz cosechado en una parcela proyectan en la producción los

efectos de un fertilizante nuevo.

6. Gobierno. Una muestra de opiniones de los votantes se usaría para determinar los criterios del

público sobre cuestiones relacionadas con el bienestar y la seguridad nacional.

Errores en el Muestreo



7

Cuando se utilizan valores muestrales, o estadísticos para estimar valores poblacionales, o parámetros, pueden ocurrir dos tipos generales de errores: el error muestral y el error no muestral.

El error muestral se refiere a la variación natural existente entre muestras tomadas de la misma

población.

Cuando una muestra no es una copia exacta de la población; aún si se ha tenido gran cuidado paraasegurar que dos muestras del mismo tamaño sean representativas de una cierta población, no

esperaríamos que las dos sean idénticas en todos sus detalles. El error muestral es un concepto

importante que ayudará a entender mejor la naturaleza de la estadística inferencial.

Los errores que surgen al tomar las muestras no pueden clasificarse como errores muestrales y se

denominan errores no muestrales.

El sesgo de las muestras es un tipo de error no muestral. El sesgo muestral se refiere a una tendencia

sistemática inherente a un método de muestreo que da estimaciones de un parámetro que son, en

promedio, menores (sesgo negativo), o mayores (sesgo positivo) que el parámetro real.

El sesgo muestral puede suprimirse, o minimizarse, usando la aleatorización.

La aleatorización se refiere a cualquier proceso de selección de una muestra de la población en el que

la selección es imparcial o no está sesgada; una muestra elegida con procedimientos aleatorios se

llama muestra aleatoria.

Los tipos más comunes de técnicas de muestreo aleatorios son el muestreo aleatorio simple, el

muestreo estratificado, el muestreo por conglomerados y el muestreo sistemático.



8

Si una muestra aleatoria se elige de tal forma que todos los elementos de la población tengan lamisma probabilidad de ser seleccionados, la llamamos muestra aleatoria simple.



9

Concepto de distribución de muestreo de la media.

Distribuciones Muestrales

Las muestras aleatorias obtenidas de una población son, por naturaleza propia, impredecibles. No se

esperaría que dos muestras aleatorias del mismo tamaño y tomadas de la misma población tenga la

misma media muestral o que sean completamente parecidas; puede esperarse que cualquier

estadístico, como la media muestral, calculado a partir de las medias en una muestra aleatoria,

cambie su valor de una muestra a otra, por ello, se quiere estudiar la distribución de todos los valoresposibles de un estadístico. Tales distribuciones serán muy importantes en el estudio de la estadística

inferencial, porque las inferencias sobre las poblaciones se harán usando estadísticas muestrales.

Como el análisis de las distribuciones asociadas con los estadísticos muestrales, podremos juzgar la

confiabilidad de un estadístico muestral como un instrumento para hacer inferencias sobre un

parámetro poblacional desconocido.

Como los valores de un estadístico, tal como x, varían de una muestra aleatoria a otra, se le puede

considerar como una variable aleatoria con su correspondiente distribución de frecuencias.

La distribución de frecuencia de un estadístico muestral se denomina distribución muestral . En

general, la distribución muestral de un estadístico es la de todos sus valores posibles calculados a

partir de muestras del mismo tamaño.

Suponga que se han seleccionado muestras aleatorias de tamaño 20 en una población grande. Se

calcula la media muestral x para cada muestra; la colección de todas estas medias muestrales recibe

el nombre de distribución muestral de medias, lo que se puede ilustrar en la siguiente figura:



10

Distribución muestral de la media con σ2 conocida y desconocida.

Distribución Muestral de Medias

Si recordamos a la distribución normal, esta es una distribución continua, en forma de campana en donde la

media, la mediana y la moda tienen un mismo valor y es simétrica.

Con esta distribución podíamos calcular la probabilidad de algún evento relacionado con la variable aleatoria,

mediante la siguiente fórmula:

En donde z es una variable estandarizada con media igual a cero y varianza igual a uno. Con esta fórmula se

pueden a hacer los cálculos de probabilidad para cualquier ejercicio, utilizando la tabla de la distribución z.

Sabemos que cuando se extraen muestras de tamaño mayor a 30 o bien de cualquier tamaño de una población

normal, la distribución muestral de medias tiene un comportamiento aproximadamente normal, por lo que se

puede utilizar la fórmula de la distribución normal con y , entonces la fórmula para calcular la

probabilidad del comportamiento del estadístico, en este caso la media de la muestra , quedaría de la siguientemanera:

Y para poblaciones finitas y muestro con reemplazo:

Ejemplo:

Una empresa eléctrica fabrica focos que tienen una duración que se distribuye aproximadamente en forma

normal, con media de 800 horas y desviación estándar de 40 horas. Encuentre la probabilidad de que una

muestra aleatoria de 16 focos tenga una vida promedio de menos de 775 horas.

Solución:



11

Este valor se busca en la tabla de z

La interpretación sería que la probabilidad de que la media de la muestra de 16 focos sea menor a 775 horas es

de 0.0062.

Ejemplo:

Las estaturas de 1000 estudiantes están distribuidas aproximadamente en forma normal con una media de

174.5 centímetros y una desviación estándar de 6.9 centímetros. Si se extraen 200 muestras aleatorias de

tamaño 25 sin reemplazo de esta población, determine:

a. El número de las medias muestrales que caen entre 172.5 y 175.8 centímetros.

b. El número de medias muestrales que caen por debajo de 172 centímetros.

Solución:

Como se puede observar en este ejercicio se cuenta con una población finita y un muestreo sin reemplazo, por

lo que se tendrá que agregar el factor de corrección. Se procederá a calcular el denominador de Z para sólo

sustituirlo en cada inciso.

a.



12

(0.7607)(200)=152 medias muestrales

b.

(0.0336)(200)= 7 medias muestrales



13

Distribución muestral de la diferencia entre dos medias con σ2 conocida ydesconocida.

Distribución Muestral de Diferencia de Medias

Suponga que se tienen dos poblaciones distintas, la primera con media 1 y desviación estándar 1,

y la segunda con media 2 y desviación estándar 2. Más aún, se elige una muestra aleatoria de

tamaño n1 de la primera población y una muestra independiente aleatoria de tamaño n2 de la

segunda población; se calcula la media muestral para cada muestra y la diferencia entre dichas

medias. La colección de todas esas diferencias se llama distribución muestral de las diferencias entre

medias o la distribución muestral del estadístico

La distribución es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son normales,

entonces la distribución muestral de medias es normal sin importar los tamaños de las muestras.

En ejercicios anteriores se había demostrado que y que , por lo que no es difícil

deducir que y que .

La fórmula que se utilizará para el cálculo de probabilidad del estadístico de diferencia de medias es:



14

Ejemplo:

En un estudio para comparar los pesos promedio de niños y niñas de sexto grado en una escuela

primaria se usará una muestra aleatoria de 20 niños y otra de 25 niñas. Se sabe que tanto para niños

como para niñas los pesos siguen una distribución normal. El promedio de los pesos de todos los

niños de sexto grado de esa escuela es de 100 libras y su desviación estándar es de 14.142, mientras

que el promedio de los pesos de todas las niñas del sexto grado de esa escuela es de 85 libras y su

desviación estándar es de 12.247 libras. Si representa el promedio de los pesos de 20 niños y es

el promedio de los pesos de una muestra de 25 niñas, encuentre la probabilidad de que el promedio

de los pesos de los 20 niños sea al menos 20 libras más grande que el de las 25 niñas.

Solución:

Datos:

1 = 100 libras

2 = 85 libras

1 = 14.142 libras

2 = 12.247 libras

n1 = 20 niños

n2 = 25 niñas

= ?

Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de niños sea al menos 20

libras más grande que el de la muestra de las niñas es 0.1056.



15

Ejemplo:

Uno de los principales fabricantes de televisores compra los tubos de rayos catódicos a doscompañías. Los tubos de la compañía A tienen una vida media de 7.2 años con una desviación

estándar de 0.8 años, mientras que los de la B tienen una vida media de 6.7 años con una desviación

estándar de 0.7. Determine la probabilidad de que una muestra aleatoria de 34 tubos de la compañía

A tenga una vida promedio de al menos un año más que la de una muestra aleatoria de 40 tubos de la

compañía B.

Solución:

Datos:

A = 7.2 años

B = 6.7 años

A = 0.8 años

B = 0.7 años

nA = 34 tubos

nB = 40 tubos

= ?



16

Ejemplo:

Se prueba el rendimiento en km/L de 2 tipos de gasolina, encontrándose una desviación estándar de

1.23km/L para la primera gasolina y una desviación estándar de 1.37km/L para la segunda gasolina; se

prueba la primera gasolina en 35 autos y la segunda en 42 autos.

a. ¿Cuál es la probabilidad de que la primera gasolina de un rendimiento promedio mayor de

0.45km/L que la segunda gasolina?

b. ¿Cuál es la probabilidad de que la diferencia en rendimientos promedio se encuentre entre

0.65 y 0.83km/L a favor de la gasolina 1?

Solución:

En este ejercicio no se cuenta con los parámetros de las medias en ninguna de las dos poblaciones,

por lo que se supondrán que son iguales.

Datos:

1 = 1.23 Km/Lto

2 = 1.37 Km/Lto

n1 = 35 autos

n2 = 42 autos

a. = ?



17

b. ?

La probabilidad de que la diferencia en rendimientos promedio en las muestras se encuentre entre

0.65 y 0.83 Km/Lto a favor de la gasolina 1 es de 0.0117.



18

Distribución muestral de la proporción.

Distribución muestral de Proporciones

Existen ocasiones en las cuales no estamos interesados en la media de la muestra, sino que queremos

investigar la proporción de artículos defectuosos o la proporción de alumnos reprobados en la

muestra. La distribución muestral de proporciones es la adecuada para dar respuesta a estas

situaciones. Esta distribución se genera de igual manera que la distribución muestral de medias, a

excepción de que al extraer las muestras de la población se calcula el estadístico proporción (p=x/n en

donde "x" es el número de éxitos u observaciones de interés y "n" el tamaño de la muestra) en lugar

del estadístico media.

Una población binomial está estrechamente relacionada con la distribución muestral de

proporciones; una población binomial es una colección de éxitos y fracasos, mientras que una

distribución muestral de proporciones contiene las posibilidades o proporciones de todos los números

posibles de éxitos en un experimento binomial, y como consecuencia de esta relación, las

afirmaciones probabilísticas referentes a la proporción muestral pueden evaluarse usando la

aproximación normal a la binomial, siempre que np 5 y

n(1-p) 5. Cualquier evento se puede convertir en una proporción si se divide el número obtenidoentre el número de intentos.

Generación de la Distribución Muestral de Proporciones

Suponga que se cuenta con un lote de 12 piezas, el cual tiene 4 artículos defectuosos. Se van a

seleccionar 5 artículos al azar de ese lote sin reemplazo. Genere la distribución muestral de

proporciones para el número de piezas defectuosas.

Como se puede observar en este ejercicio la Proporción de artículos defectuosos de esta población es

4/12=1/3. Por lo que podemos decir que el 33% de las piezas de este lote están defectuosas.



19

El número posible de muestras de tamaño 5 a extraer de una población de 12 elementos es 12C5=792,las cuales se pueden desglosar de la siguiente manera:

ArtículosBuenos

Artículos Malos

Proporción deartículosdefectuoso

Número demaneras en lasque se puedeobtener lamuestra

1 4 4/5=0.8 8C1*4C4=8

2 3 3/5=0.6 8C2*4C3=112

3 2 2/5=0.4 8C3*4C2=336

4 1 1/5=0.2 8C4*4C1=280

5 0 0/5=0 8C5*4C0=56

Total 792

Para calcular la media de la distribución muestral de proporciones se tendría que hacer la sumatoria

de la frecuencia por el valor de la proporción muestral y dividirla entre el número total de muestras.

Esto es:

Como podemos observar la media de la distribución muestral de proporciones es igual a la Proporción

de la población.

p = P

También se puede calcular la desviación estándar de la distribución muestral de proporciones:

La varianza de la distribución binomial es2= npq, por lo que la varianza de la distribución muestral

de proporciones es2

p = (Pq)/n. Si se sustituyen los valores en esta fórmula tenemos que:



20

, este valor no coincide con el de 0.1681, ya que nos falta agregar el factor

de corrección para una población finita y un muestreo sin reemplazo:

La fórmula que se utilizará para el cálculo de probabilidad en una distribución muestral de

proporciones está basada en la aproximación de la distribución normal a la binomial. Esta fórmula nos

servirá para calcular la probabilidad del comportamiento de la proporción en la muestra.

A esta fórmula se le puede agregar el factor de corrección de si se cumple con lascondiciones necesarias.

Ejemplo:

Se ha determinado que 60% de los estudiantes de una universidad grande fuman cigarrillos. Se toma

una muestra aleatoria de 800 estudiantes. Calcule la probabilidad de que la proporción de la muestra

de la gente que fuma cigarrillos sea menor que 0.55.



21

Solución:

Este ejercicio se puede solucionar por dos métodos. El primero puede ser con la aproximación de la

distribución normal a la binomial y el segundo utilizando la fórmula de la distribución muestral de

proporciones.

Aproximación de la distribución normal a la binomial:

Datos:

n=800 estudiantes

p=0.60

x= (.55) (800) = 440 estudiantes

p (x<440) =?

Media= np= (800) (0.60)= 480

p(x< 440) = 0.0017. Este valor significa que existe una probabilidad del 0.17% de que al extraer una

muestra de 800 estudiantes, menos de 440 fuman cigarrillos.

Distribución Muestral de Proporciones

Datos:



22

n=800 estudiantes

P=0.60

p= 0.55

p (p<0.55) = ?

Observe que este valor es igual al obtenido en el método de la

aproximación de la distribución normal a la binomial, por lo que si lo buscamos en la tabla de "z" nosda la misma probabilidad de 0.0017. También se debe de tomar en cuenta que el factor de corrección

de 0.5 se está dividiendo entre el tamaño de la muestra, ya que estamos hablando de una proporción.

La interpretación en esta solución, estaría enfocada a la proporción de la muestra, por lo que diríamos

que la probabilidad de que al extraer una muestra de 800 estudiantes de esa universidad, la

proporción de estudiantes que fuman cigarrillos sea menor al 55% es del 0.17%.

Ejemplo:

Un medicamento para malestar estomacal tiene la advertencia de que algunos usuarios pueden

presentar una reacción adversa a él, más aún, se piensa que alrededor del 3% de los usuarios tienen

tal reacción. Si una muestra aleatoria de 150 personas con malestar estomacal usa el medicamento,

encuentre la probabilidad de que la proporción de la muestra de los usuarios que realmente

presentan una reacción adversa, exceda el 4%.

a. Resolverlo mediante la aproximación de la normal a la binomial

b. Resolverlo con la distribución muestral de proporciones

a. Aproximación de la distribución normal a la binomial:



23

Datos:

n=150 personas

p=0.03

x= (0.04)(150) = 6 personas

p(x>6) = ?

Media = np= (150)(0.03)= 4.5

p(x>6) = 0.1685. Este valor significa que existe una probabilidad del 17% de que al extraer una

muestra de 150 personas, más de 6 presentarán una reacción adversa.

b. Distribución Muestral de Proporciones

Datos:

n=150 personas

P=0.03

p= 0.04

p(p>0.04) = ?



24

Observe que este valor es igual al obtenido y la interpretación es: existe una probabilidad del 17% de

que al tomar una muestra de 150 personas se tenga una proporción mayor de 0.04 presentando una

reacción adversa.

Ejemplo:

Se sabe que la verdadera proporción de los componentes defectuosos fabricados por una firma es de4%, y encuentre la probabilidad de que una muestra aleatoria de tamaño 60 tenga:

a. Menos del 3% de los componentes defectuosos.

b. Más del 1% pero menos del 5% de partes defectuosas.

Solución:

a. Datos:

n= 60 artículos

P=0.04

p= 0.03

p(p<0.03) = ?



25

La probabilidad de que en una muestra de 60 artículos exista una proporción menor de 0.03

artículos defectuosos es de 0.2327.

b. Datos:

n= 60 artículos

P=0.04

p= 0.01 y 0.05

p(0.01<p<0.05) = ?



26



27

Teorema del límite central.

Teorema del Límite Central

El Teorema del Límite Central dice que si tenemos un grupo numeroso de variables independientes y

todas ellas siguen el mismo modelo de distribución (cualquiera que éste sea), la suma de ellas se

distribuye según una distribución normal.

Ejemplo: la variable "tirar una moneda al aire" sigue la distribución de Bernouilli. Si lanzamos lamoneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre sí) se distribuye

según una distribución normal.

Este teorema se aplica tanto a suma de variables discretas como de variables continuas.

Los parámetros de la distribución normal son:

Media: n * µ (media de la variable individual multiplicada por el número de variables independientes)

Varianza: n * σσσσ2222 (varianza de la variable individual multiplicada por el número de variables

individuales)

Veamos un ejemplo:

Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale cruz el valor 0. Cada

lanzamiento es una variable independiente que se distribuye según el modelo de Bernouilli, con

media 0,5 y varianza 0,25.

Calcular la probabilidad de que en estos 100 lanzamientos salga más de 60 caras.

La variable suma de estas 100 variables independientes se distribuye, por tanto, según unadistribución normal.

Media = 100 * 0,5 = 50

Varianza = 100 * 0,25 = 25

Para ver la probabilidad de que salgan más de 60 caras calculamos la variable normal tipificada

equivalente:



28

(*) 5 es la raíz cuadrada de 25, o sea la desviación típica de esta distribución

Por lo tanto:

P (X > 60) = P (Y > 2,0) = 1- P (Y < 2,0) = 1 - 0,9772 = 0,0228

Es decir, la probabilidad de que al tirar 100 veces la moneda salga más de 60 caras es tan sólo del

2,28%

Teorema Central del Límite: Ejercicios (I)

Ejercicio 1.

La renta media de los habitantes de un país se distribuye uniformemente entre 4,0 mil pesos. y 10,0

mil pesos. Calcular la probabilidad de que al seleccionar al azar a 100 personas la suma de sus rentassupere los 725 mil pesos.

Cada renta personal es una variable independiente que se distribuye según una función uniforme. Por

ello, a la suma de las rentas de 100 personas se le puede aplicar el Teorema del Límite Central.

La media y varianza de cada variable individual es:

µ= (4 + 10) / 2 = 7

σσσσ2222 = (10 - 4) ^2 / 12 = 3

Por tanto, la suma de las 100 variables se distribuye según una normal cuya media y varianza son:

Media: n * µ = 100 * 7 = 700

Varianza: n * σσσσ2222= 100 * 3 = 300

Para calcular la probabilidad de que la suma de las rentas sea superior a 725 mil pesos, comenzamos

por calcular el valor equivalente de la variable normal tipificada:



29

Luego:

P (X > 725) = P (Y > 1,44) = 1 - P (Y < 1,44) = 1 - 0,9251 = 0,0749

Es decir, la probabilidad de que la suma de las rentas de 100 personas seleccionadas al azar supere los

725 mil pesos es tan sólo del 7,49%

Ejercicio 2.

En una asignatura del colegio la probabilidad de que te pasen al pizarrón en cada clase es del 10%. A

lo largo del año tienes 100 clases de esa asignatura. ¿Cuál es la probabilidad de tener que salir a la

pizarra más de 15 veces?

Se vuelve a aplicar el Teorema del Límite Central.

Pasar al pizarrón es una variable independiente que sigue el modelo de distribución de Bernouilli:

"Pasar al pizarrón", le damos el valor 1 y tiene una probabilidad del 0,10

"No pasar al pizarrón", le damos el valor 0 y tiene una probabilidad del 0,9

La media y la varianza de cada variable independiente es:

µ = 0,10

σσσσ2222= 0,10 * 0,90 = 0,09

Por tanto, la suma de las 100 variables se distribuye según una normal cuya media y varianza son:

Media: n * µ = 100 * 0,10 = 10

Varianza: n * σσσσ2222= 100 * 0,09 = 9

Para calcular la probabilidad de pasar al pizarrón más de 15 veces, calculamos el valor equivalente de

la variable normal tipificada:



30

Luego:

P (X > 15) = P (Y > 1,67) = 1 - P (Y < 1,67) = 1 - 0,9525 = 0,0475

Es decir, la probabilidad de tener que pasar más de 15 veces al pizarrón a lo largo del curso es tan sólo

del 4,75% (no es tan grave).

Teorema Central del Límite: Ejercicios (II)

Ejercicio 1.

Un día visitamos el Casino y decidimos jugar en la ruleta. Nuestra apuesta va a ser siempre al negro y

cada apuesta de 500 pesos. Llevamos 10.000 pesos. y queremos calcular que probabilidad tenemos

de que tras jugar 80 veces consigamos doblar nuestro dinero.

Cada jugada es una variable independiente que sigue el modelo de distribución de Bernouilli.

"Salir negro", le damos el valor 1 y tiene una probabilidad del 0,485

"No salir negro", le damos el valor 0 y tiene una probabilidad del 0,515

(*) La probabilidad de "no salir negro" es mayor ya que puede salir rojo o el cero

La media y varianza de cada variable individual es:

µ = 0,485

σσσσ2222 = 0,485 * 0,515 = 0,25

A la suma de las 80 apuestas se le aplica el Teorema del Límite Central, por lo que se distribuye según

una normal cuya media y varianza son:

Media: n * µ = 80 * 0,485 = 38,8

Varianza: n * σσσσ2222= 80 * 0,25 = 20



31

Para doblar nuestro dinero el negro tiene que salir al menos 20 veces más que el rojo (20 * 500 =10.000), por lo que tendrá que salir como mínimo 50 veces (implica que el rojo o el cero salgan como

máximo 30 veces).

Comenzamos por calcular el valor equivalente de la variable normal tipificada:

Luego:

P (X > 50) = P (Y > 2,50) = 1 - P (Y < 2,50) = 1 - 0,9938 = 0,0062

Es decir, la probabilidad de doblar el dinero es tan sólo del 0,62% (así, que más vale que nos

pongamos a trabajar).

Ejercicio 2.

El precio de una acción en bolsa se mueve aleatoriamente entre 10 pesos. y 20 pesos., con la misma

probabilidad en todo el tramo. Hemos dado la orden a nuestro broker de que nos compre paquetesde 1.000 acciones cada día durante las próximas 40 sesiones.

Una vez ejecutada la orden, tenemos un total de 40.000 acciones. A final de año vendemos todas las

acciones al precio de 13 pesos./acción, recibiendo 520.000 pesos. Calcular la probabilidad de que

ganemos dinero en esta operación.

El precio de cada paquete comprado es una variable aleatoria independiente que se distribuye

uniformemente entre 10.000 pesos y 20.000 pesos. Su media y varianza son:

µ= (10.000 + 20.000 ) / 2 = 15.000

σσσσ2222= (20.000 - 10.000)^2 / 12 = 833,3

El precio total de los 40 paquetes comprados se distribuye según una distribución normal cuya media

y varianza son:

Media: n * µ = 40 * 15.000 = 600.000

Varianza: n * σσσσ2222= 40 * 833,3 = 33.333,3



32

Para estimar la probabilidad de que ganemos dinero, calculamos el valor equivalente de la variablenormal tipificada:

Luego:

P (X > 520.000) = P (Y > 2,40) = 1 - P (Y < 2,40) = 1 - 0,9918 = 0,0082

Por tanto, la probabilidad de que ganemos dinero con la "dichosa" operación es tan sólo del 0,82%.

Teorema del límite central

Si se seleccionan muestras aleatorias de n observaciones de una población con media y desviación

estándar , entonces, cuando n es grande, la distribución muestral de medias tendrá

aproximadamente una distribución normal con una media igual a y una desviación estándar de

. La aproximación será cada vez más exacta a medida de que n sea cada vez mayor.

Ejemplo

Para la distribución muestral de medias del ejercicio pasado, encuentre:

a. El error muestral de cada media

b. La media de los errores muestrales

c. La desviación estándar de los errores muestrales.



33

Solución:

a. En la tabla siguiente se ven las muestras, las medias de las muestras y los errores muestrales:

Muestra X Error muestral, e=x-

(0,0) 0 0 - 3 = -3

(0,2) 1 1 - 3 = -2

(0,4) 2 2 - 3 = -1

(0,6) 3 3 – 3 = 0

(2,0) 1 1 – 3 = -2

(2,2) 2 2 – 3 = -1

(2,4) 3 3 – 3 = 0

(2,6) 4 4 – 3 = 1

(4,0) 2 2 – 3 = -1

(4,2) 3 3 – 3 = 0

(4,4) 4 4 – 3 = 1

(4,6) 5 5 – 3 = 2

(6,0) 3 3 – 3 = 0

(6,2) 4 4 – 3 = 1

(6,4) 5 5 – 3 = 2

(6,6) 6 6 – 3 = 3

b. La media de los errores muestrales es e, es:



34

c. La desviación estándar de la distribución de los errores muestrales e, es entonces:

La desviación estándar de la distribución muestral de un estadístico se conoce como error estándar

del estadístico. Para el ejercicio anterior el error estándar de la media denotado por x, es 1.58. Con

esto se puede demostrar que si de una población se eligen muestras de tamaño n con reemplazo,

entonces el error estándar de la media es igual a la desviación estándar de la distribución de los

errores muestrales.

En general se tiene:

Cuando las muestras se toman de una población pequeña y sin reemplazo, se puede usar la formula

siguiente para encontrar x .

donde es la desviación estándar de la población de donde se toman las muestras, n es el tamaño dela muestra y N el de la población.

Como regla de cálculo, si el muestreo se hace sin reemplazo y el tamaño de la población es al menos

20 veces el tamaño de la muestra (N 20), entonces se puede usar la fórmula.

El factor se denomina factor de corrección para una población finita.

Ejemplo: Suponga que la tabla siguiente muestra la antigüedad en años en el trabajo de tres maestros

universitarios de matemáticas:

Maestro de matemáticas Antigüedad

A 6

B 4

C 2



35

Suponga además que se seleccionan muestras aleatorias de tamaño 2 sin reemplazo. Calcule laantigüedad media para cada muestra, la media de la distribución muestral y el error estándar, o la

desviación estándar de la distribución muestral.

Solución:

Se pueden tener 3C2 =3 muestras posibles. La tabla lista todas las muestras posibles de tamaño 2, con

sus respectivas medias muestrales.

Muestras Antigüedad Media

Muestral

A,B (6,4) 5

A,C (6,2) 4

B,C (4,2) 3

La media poblacional es:

La media de la distribución muestral es:

La desviación estándar de la población es:

El error estándar o la desviación estándar de la distribución muestral es:

Si utilizamos la fórmula del error estándar sin el factor de corrección tendríamos que:



36

Por lo que observamos que este valor no es el verdadero. Agregando el factor de correcciónobtendremos el valor correcto:

El diagrama de flujo resume las decisiones que deben tomarse cuando se calcula el valor del error

estándar:



37

Tipos de estimaciones y características. Introducción a la Teoría de la Estimación

ESTIMACION

El objetivo principal de la estadística inferencial es la estimación, esto es que mediante el estudio de

una muestra de una población se quiere generalizar las conclusiones al total de la misma. Como vimos

en la sección anterior, los estadísticos varían mucho dentro de sus distribuciones muestrales, ymientras menor sea el error estándar de un estadístico, más cercanos serán unos de otros sus valores.

Existen dos tipos de estimaciones para parámetros; puntuales y por intervalo. Una estimaciónpuntual es un único valor estadístico y se usa para estimar un parámetro. El estadístico usado se

denomina estimador.

Una estimación por intervalo es un rango, generalmente de ancho finito, que se espera que contenga

el parámetro.

Propiedades de un Buen Estimador

Insesgado.- Se dice que un estimador puntual es un estimador insesgado de si , para

todo valor posible de . En otras palabras, un estimador insesgado es aquel para el cual la media de

la distribución muestral es el parámetro estimado. Si se usa la media muestral para estimar la

media poblacional , se sabe que la , por lo tanto la media es un estimador insesgado.

Eficiente o con varianza mínima.- Suponga que 1 y 2 son dos estimadores insesgados de .

Entonces, aun cuando la distribución de cada estimador esté centrada en el valor verdadero de , las

dispersiones de las distribuciones alrededor del valor verdadero pueden ser diferentes.



38

Entre todos los estimadores de que son insesgados, seleccione al que tenga varianza mínima. El

resultante recibe el nombre de estimador insesgado con

Varianza mínima (MVUE, mínimum variance unbiased estimator) de .

En otras palabras, la eficiencia se refiere al tamaño de error estándar de la estadística. Si comparamos

dos estadísticas de una muestra del mismo tamaño y tratamos de decidir cuál de ellas es un

estimador más eficiente, escogeríamos la estadística que tuviera el menor error estándar, o la menor

desviación estándar de la distribución de muestreo.

Tiene sentido pensar que un estimador con un error estándar menor tendrá una mayor oportunidad

de producir una estimación más cercana al parámetro de población que se está considerando.

Como se puede observar las dos distribuciones tienen un mismo valor en el parámetro sólo que la

distribución muestral de medias tiene una menor varianza, por lo que la media se convierte en un

estimador eficiente e insesgado.

Coherencia.- Una estadística es un estimador coherente de un parámetro de población, si al

aumentar el tamaño de la muestra se tiene casi la certeza de que el valor de la estadística se aproxima

bastante al valor del parámetro de la población. Si un estimador es coherente se vuelve más confiable

si tenemos tamaños de muestras más grandes.



39

Suficiencia.- Un estimador es suficiente si utiliza una cantidad de la información contenida de lamuestra que ningún otro estimador podría extraer información adicional de la muestra sobre el

parámetro de la población que se está estimando.

Es decir se pretende que al extraer la muestra el estadístico calculado contenga toda la información

de esa muestra. Por ejemplo, cuando se calcula la media de la muestra, se necesitan todos los datos.

Cuando se calcula la mediana de una muestra sólo se utiliza a un dato o a dos. Esto es solo el dato o

los datos del centro son los que van a representar la muestra. Con esto se deduce que si utilizamos a

todos los datos de la muestra como es en el caso de la media, la varianza, desviación estándar, etc.; se

tendrá un estimador suficiente.

Estimación Puntual

La inferencia estadística está casi siempre concentrada en obtener algún tipo de conclusión acerca de

uno o más parámetros (características poblacionales). Para hacerlo, se requiere que un investigador

obtenga datos muestrales de cada una de las poblaciones en estudio. Entonces, las conclusiones

pueden estar basadas en los valores calculados de varias cantidades muestrales. Po ejemplo,

representamos con (parámetro) el verdadero promedio de resistencia a la ruptura de conexiones

de alambres utilizados para unir obleas de semiconductores. Podría tomarse una muestra aleatoria de

10 conexiones para determinar la resistencia a la ruptura de cada una, y la media muestral de la

resistencia a la ruptura se podía emplear para sacar una conclusión acerca del valor de . De

forma similar, si es la varianza de la distribución de resistencia a la ruptura, el valor de la varianza

muestral s2

se podría utilizar para inferir algo acerca de .

Cuando se analizan conceptos generales y métodos de inferencia es conveniente tener un símbolo

genérico para el parámetro de interés. Se utilizará la letra griega para este propósito. El objetivo dela estimación puntual es seleccionar sólo un número, basados en datos de la muestra, que represente

el valor más razonable de .

Una muestra aleatoria de 3 baterías para calculadora podría presentar duraciones observadas en

horas de x1=5.0, x2=6.4 y x3=5.9. El valor calculado de la duración media muestral es = 5.77, y es

razonable considerar 5.77 como el valor más adecuado de .



40

Una estimación puntual de un parámetro es un sólo número que se puede considerar como el valor

más razonable de . La estimación puntual se obtiene al seleccionar una estadística apropiada y

calcular su valor a partir de datos de la muestra dada. La estadística seleccionada se llama estimador

puntual de .

El símbolo (theta sombrero) suele utilizarse para representar el estimador de y la estimación

puntual resultante de una muestra dada. Entonces se lee como "el estimador puntual de es

la media muestral ". El enunciado "la estimación puntual de es 5.77" se puede escribir en forma

abreviada .

Ejemplo:

En el futuro habrá cada vez más interés en desarrollar aleaciones de Mg de bajo costo, para varios

procesos de fundición. En consecuencia, es importante contar con métodos prácticos para determinarvarias propiedades mecánicas de esas aleaciones. Examine la siguiente muestra de mediciones del

módulo de elasticidad obtenidos de un proceso de fundición a presión:

44.2 43.9 44.7 44.2 44.0 43.8 44.6 43.1

Suponga que esas observaciones son el resultado de una muestra aleatoria. Se desea estimar la

varianza poblacional . Un estimador natural es la varianza muestral:

En el mejor de los casos, se encontrará un estimador para el cual siempre. Sin embargo, es

una función de las Xi muestrales, por lo que en sí misma una variable aleatoria.

+ error de estimación

Entonces el estimador preciso sería uno que produzca sólo pequeñas diferencias de estimación, de

modo que los valores estimados se acerquen al valor verdadero.



41

Estimación por Intervalos

Un estimado puntual, por ser un sólo número, no proporciona por sí mismo información alguna sobre

la precisión y confiabilidad de la estimación. Por ejemplo, imagine que se usa el estadístico para

calcular un estimado puntual de la resistencia real a la ruptura de toallas de papel de cierta marca, y

suponga que = 9322.7. Debido a la variabilidad de la muestra, nunca se tendrá el caso de que =

. El estimado puntual nada dice sobre lo cercano que esta de . Una alternativa para reportar un solo

valor del parámetro que se esté estimando es calcular e informar todo un intervalo de valores

factibles, un estimado de intervalo o intervalo de confianza (IC). Un intervalo de confianza se calcula

siempre seleccionando primero un nivel de confianza, que es una medida del grado de fiabilidad en el

intervalo. Un intervalo de confianza con un nivel de confianza de 95% de la resistencia real promedioa la ruptura podría tener un límite inferior de 9162.5 y uno superior de 9482.9. Entonces, en un nivel

de confianza de 95%, es posible tener cualquier valor de entre 9162.5 y 9482.9. Un nivel de

confianza de 95% implica que 95% de todas las muestras daría lugar a un intervalo que incluye o

cualquier otro parámetro que se esté estimando, y sólo 5% de las muestras producirá un intervalo

erróneo. Cuanto mayor sea el nivel de confianza podremos creer que el valor del parámetro que se

estima está dentro del intervalo.

Una interpretación correcta de la "confianza de 95%" radica en la interpretación frecuente deprobabilidad a largo plazo: decir que un evento A tiene una probabilidad de 0.95, es decir que si el

experimento donde A está definido re realiza una y otra vez, a largo plazo A ocurrirá 95% de las veces.

Para este caso

el 95% de los intervalos de confianza calculados contendrán a .



42

Esta es una construcción repetida de intervalos de confianza de 95% y se puede observar que de los

11 intervalos calculados sólo el tercero y el último no contienen el valor de .

De acuerdo con esta interpretación, el nivel de confianza de 95% no es tanto un enunciado sobre

cualquier intervalo en particular, más bien se refiere a lo que sucedería si se tuvieran que construir un

gran número de intervalos semejantes.

Encontrar z a partir de un nivel de confianza

Existen varias tablas en las cuales podemos encontrar el valor de z, según sea el área proporcionada

por la misma. En esta sección se realizará un ejemplo para encontrar el valor de z utilizando tres

tablas diferentes.

Ejemplo:

Encuentre el valor de z para un nivel de confianza del 95%.

Solución 1:

Se utilizará la tabla que tiene el área bajo la curva de - hasta z. Si lo vemos gráficamente sería:

El nivel de confianza bilateral está dividido en partes iguales bajo la curva:



43

En base a la tabla que se está utilizando, se tendrá que buscar el área de 0.975, ya que cada extremo

o cola de la curva tiene un valor de 0.025.

Por lo que el valor de z es de 1.96.

Solución 2:

Si se utiliza una tabla en donde el área bajo la curva es de 0 a z:

En este caso sólo se tendrá que buscar adentro de la tabla el área de 0.475 y el resultado del valor de

z será el mismo, para este ejemplo 1.96.

Solución 3:

Para la tabla en donde el área bajo la curva va desde z hasta :



44

Se busca el valor de 0.025 para encontrar z de 1.96.

Independientemente del valor del Nivel de Confianza este será el procedimiento a seguir para

localizar a z. En el caso de que no se encuentre el valor exacto se tendrá que interpolar.



45

Determinación del tamaño de la muestra de una población.

Determinación del tamaño de una muestra para medias, y Proporciones

TAMAÑO DE LA MUESTRA

A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuenta variosfactores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, la varianza

poblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos de cálculo del

tamaño muestral delimitemos estos factores.

Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores:

1. El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la

población total.

2. El porcentaje de error que se pretende aceptar al momento de hacer la generalización.3. El nivel de variabilidad que se calcula para comprobar la hipótesis.

La confianza o el porcentaje de confianza es el porcentaje de seguridad que existe para generalizar los

resultados obtenidos. Esto quiere decir que un porcentaje del 100% equivale a decir que no existe

ninguna duda para generalizar tales resultados, pero también implica estudiar a la totalidad de los

casos de la población. Para evitar un costo muy alto para el estudio o debido a que en ocasiones llega

a ser prácticamente imposible el estudio de todos los casos, entonces se busca un porcentaje de

confianza menor. Comúnmente en las investigaciones sociales se busca un 95%.

El error o porcentaje de error equivale a elegir una probabilidad de aceptar una hipótesis que sea

falsa como si fuera verdadera, o la inversa: rechazar a hipótesis verdadera por considerarla falsa. Al

igual que en el caso de la confianza, si se quiere eliminar el riesgo del error y considerarlo como 0%,

entonces la muestra es del mismo tamaño que la población, por lo que conviene correr un cierto

riesgo de equivocarse.



46

Comúnmente se aceptan entre el 4% y el 6% como error, tomando en cuenta de que no soncomplementarios la confianza y el error.

La variabilidad es la probabilidad (o porcentaje) con el que se aceptó y se rechazó la hipótesis que se

quiere investigar en alguna investigación anterior o en un ensayo previo a la investigación actual. El

porcentaje con que se aceptó tal hipótesis se denomina variabilidad positiva y el porcentaje con el

que se rechazó se la hipótesis es la variabilidad negativa

El muestreo es el proceso de tomar una proporción o parte de un universo de elementos, con la

finalidad de analizar en dichos elementos, características sujetas a estudio o fenómenos factibles de

observación y en base al análisis de la muestra o proporción tomada obtener conclusiones que se

refieran no sólo a la muestra sino a todo el universo. Para fines estadísticos, el universo puede

considerarse finito o infinito. Se considera finito si el número de elementos que lo constituyen es

menor a 500,000 e infinito si es igual o mayor a este número. Siempre que hagamos la elección de

una muestra, debemos tener cuidado de que ésta reúna las siguientes características:

· Que sea suficiente: es decir que la cantidad de elementos seleccionados sea el que se requiere para

que el nivel de confiabilidad sea el que se ha establecido previamente.

· Que sea representativa: esto quiere decir que los elementos seleccionados deberán presentar

características similares a las de la población o universo.

Al utilizar muestras en lugar de universos tenemos grandes ventajas, algunas de las más importantes

son:

· El costo se reduce, pues los gastos serán únicamente los ocasionados por una parte del universo

(muestra tomada) y no por la totalidad de él.

· Si la muestra es representativa, las deducciones resultantes sobre el universo serán confiables.

· Como solamente se estudia una parte del universo, la información obtenida se realiza en menortiempo.

¿Cómo obtener el tamaño de la muestra a utilizar?



47

Una de las preguntas planteadas con mayor frecuencia al iniciar una investigación y difícil decontestar, sobre todo por falta de información del problema, es: ¿cuántas observaciones se deben

obtener para que el tamaño de la muestra sea realmente representativo del universo estadístico? En

este sentido -la decisión del tamaño de la muestra de una población -, es necesario considerar que las

muestras varían en su composición de una a otra. La magnitud de la variación depende del tamaño de

la muestra y de la variabilidad original de la población. Así, el tamaño de la muestra queda

determinado por el grado de precisión que se desea obtener y por variabilidad inicial de la población.

La respuesta a la pregunta planteada se puede considerar tomando como base lo siguientes:

1. Determinar el nivel de confianza con el cual vamos a trabajar y buscamos el valor de z asociado adicho nivel de confianza, un nivel de confianza igual o mayor al 92% es aceptable estadísticamente.

2. Evaluar la probabilidad a favor de que suceda un evento o situación esperada (esta probabilidad se

le denomina p).

3. Evaluar la probabilidad en contra de que suceda en un evento o situación esperada (a esta

probabilidad se le denomina q= 1 – p).

4. Determinar el error (e) máximo para el nivel de precisión que vayamos a permitir en los resultados

(error máximo de estimación), comúnmente se trabaja con errores de estimación entre el 2% y el 6%,

ya que la validez de la información se reduce demasiado para valores mayores del 6%.

· Determinamos el tamaño de la población o universo.

5.- Se elige la fórmula a utilizar para calcular el tamaño de la muestra; dependiendo de si la población

o universo sujeto a estudio se va a considerar infinito o finito. (Una población o universo se considera

infinito si el número de elementos de los que consta es igual o mayor a 500,000 y es considerado

finito si el número de elementos es menor a esta cantidad).



48

Diferentes niveles de confianza utilizados en la práctica

Nivel de

Confianza

99.73% 99% 98% 96% 95.45% 95% 90% 80

%

68.27

%

50%

Valores de Z 3.00 2.58 2.33 2.05 2.00 1.96 1.64

5

1.2

8

1.00 0.674

5

El tamaño de la muestra:

Al realizar un muestreo probabilística nos debemos preguntar ¿Cuál es el número mínimo de

unidades de análisis ( personas, organizaciones, capítulo de telenovelas, etc.), que se necesitan para

conformar una muestra ( )n que me asegure un error estándar menor que 0.01 ( fijado por el

muestrista o investigador), dado que la población N es aproximadamente de tantos elementos.

En el tamaño de una muestra de una población tenemos que tener presente además si es conocida o

no la varianza poblacional.

Para determinar el tamaño de muestra necesario para estimar µ con un error máximo

permisible d prefijado y conocida la varianza poblacional (2

σ ) podemos utilizar la fórmula:

21

2

=

−

d

Z n

α σ

(1)

que se obtiene de reconocer que d es el error estándar o error máximo prefijado y está dado por la

expresión2

1 α

σ

−= Z

nd para el nivel de confianza α −1 y constituye una medida de la precisión de

la estimación, por lo que podemos inferir además que { } α µ −=<− 1d xP .

Ejemplo 1.2



49

Se desea estimar el peso promedio de los sacos que son llenados por un nuevo instrumento en unaindustria. Se conoce que el peso de un saco que se llena con este instrumento es una variable

aleatoria con distribución normal. Si se supone que la desviación típica del peso es de 0,5 kg.

Determine el tamaño de muestra aleatoria necesaria para determinar una probabilidad igual a 0,95

de que el estimado y el parámetro se diferencien modularmente en menos de 0,1 kg.

Solución:

96,1

975,0195,01

5,0

1,0

21

2

=

=−

=−

=

=

−α

α

α

σ

Z

d

( )( )4,961,0

96,15,02

21

2=

=

=

−

d

Z

n

α σ

Evidentemente un tamaño de muestra no puede ser fraccionario por lo que se debe aproximar por

exceso. El tamaño de muestra sería de 97.

Si la varianza de la población es desconocida, que es lo que más frecuente se ve en la práctica el

tratamiento será diferente, no es posible encontrar una fórmula cuando la varianza poblacional es

desconocida por lo que para ello aconsejamos utilizar el siguiente procedimiento-

Primeramente, se toma una pequeña muestra, que se le llama muestra piloto, con ella se estima la

varianza poblacional (2

σ ) y con este valor se evalúa en la formula (1), sustituyendo (2

σ ) por su

estimación (2

s ). El valor de n obtenido será aproximadamente el valor necesario, nuevamente con

ese valor de n se extrae una muestra de este tamaño de la población se le determina la varianza a

esa muestra, como una segunda estimación de (2

σ ) y se aplica de nuevo la formula (1), tomando la

muestra con el n obtenido como muestra piloto para la siguiente iteración, se llegará a cumplir con

las restricciones prefijadas. Se puede plantear esta afirmación ya que la2

s de2

σ tiende a

estabilizarse a medida que aumentan alrededor de la2

σ por lo que llegará el momento en que se

encuentre el tamaño de muestra conveniente, sin embargo, en la práctica es mucho más sencillo

pues, a lo sumo con tres iteraciones se obtiene el tamaño de muestra deseado, este procedimiento

para obtener el tamaño de muestra deseado se puede realizar utilizando en Microsoft Excel en la

opción análisis de datos las opciones estadística descriptiva para ir hallando la varianza de cada una

de las muestras y la opción muestra para ir determinado las muestras pilotos. Para obtener el tamaño

de la muestra utilizando este método recomendamos la utilización de un paquete de cómputo como

por ejemplo el Microsoft Excel, aplicando las opciones muestra y estadística descriptiva.



50

Para determinar el tamaño de la muestra cuando los datos son cualitativos es decir para el análisis defenómenos sociales o cuando se utilizan escalas nominales para verificar la ausencia o presencia del

fenómeno a estudiar, se recomienda la utilización de la siguiente formula:

N n

nn

'1

'

+= (2)

Siendo2

2

'σ

sn = sabiendo que:

2σ Es la varianza de la población respecto a determinadas variables.

2s Es la varianza de la muestra, la cual podrá determinarse en términos de probabilidad como

)1(2

p ps −=

se Es error estandar que está dado por la diferencia entre ( x− µ ) la media poblacional y la

media muestral.

( )2se Es el error estandar al cuadrado, que nos servirá para determinar2

σ , por lo que

2σ = ( )2se es la varianza poblacional.

Ejemplo 1.3

De una población de 1 176 adolescentes de una ciudad X se desea conocer la aceptación por los

programas humorísticos televisivos y para ello se desea tomar una muestra por lo que se necesita

saber la cantidad de adolescentes que deben entrevistar para tener una información adecuada con

error estandar menor de 0.015 al 90 % de confiabilidad.

Solución:

N = 1 176

se = 0,015

000225.0)015,0()(222=== seσ

09,0)9,01(9,0)1(2

=−=−= p ps

por lo que 400000225,0

09,0'

2

2

===

σ

sn

2981

400

1

'

1176400'

=+

=+

=

N n

nn

Es decir para realizar la investigación se necesita una muestra de al menos 298 adolescentes.

Cálculo del tamaño de la muestra



51

A la hora de determinar el tamaño que debe alcanzar una muestra hay que tomar en cuenta variosfactores: el tipo de muestreo, el parámetro a estimar, el error muestral admisible, la varianza

poblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos de cálculo del

tamaño muestral delimitemos estos factores.

Parámetro. Son las medidas o datos que se obtienen sobre la población.

Estadístico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimación de

los parámetros.

Error Muestral, de estimación o estandar. Es la diferencia entre un estadístico y su parámetrocorrespondiente. Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno

al valor de la población, nos da una noción clara de hasta dónde y con qué probabilidad una

estimación basada en una muestra se aleja del valor que se hubiera obtenido por medio de un censo

completo. Siempre se comete un error, pero la naturaleza de la investigación nos indicará hasta qué

medida podemos cometerlo (los resultados se someten a error muestral e intervalos de confianza que

varían muestra a muestra). Varía según se calcule al principio o al final. Un estadístico será más

preciso en cuanto y tanto su error es más pequeño. Podríamos decir que es la desviación de la

distribución muestral de un estadístico y su fiabilidad.

Nivel de Confianza. Probabilidad de que la estimación efectuada se ajuste a la realidad. Cualquier

información que queremos recoger está distribuida según una ley de probabilidad (Gauss o Student),

así llamamos nivel de confianza a la probabilidad de que el intervalo construido en torno a un

estadístico capte el verdadero valor del parámetro.

Varianza Poblacional. Cuando una población es más homogénea la varianza es menor y el número de

entrevistas necesarias para construir un modelo reducido del universo, o de la población, será más

pequeño. Generalmente es un valor desconocido y hay que estimarlo a partir de datos de estudios

previos.

Tamaño de muestra para estimar la media de la población

Veamos los pasos necesarios para determinar el tamaño de una muestra empleando el muestreo

aleatorio simple. Para ello es necesario partir de dos supuestos: en primer lugar el nivel de confianza

al que queremos trabajar; en segundo lugar, cual es el error máximo que estamos dispuestos a

admitir en nuestra estimación. Así pues los pasos a seguir son:

Veamos los pasos necesarios para determinar el tamaño de una muestra empleando el muestreo

aleatorio simple. Para ello es necesario partir de dos supuestos: en primer lugar el nivel de confianza

al que queremos trabajar; en segundo lugar, cual es el error máximo que estamos dispuestos a

admitir en nuestra estimación. Así pues los pasos a seguir son:

1.- Obtener el tamaño muestral imaginando que N−>α



52

Dónde:

: z correspondiente al nivel de confianza elegido

: varianza poblacional

e: error máximo

2.- Comprobar si se cumple

Si esta condición se cumple el proceso termina aquí, y ese es el tamaño adecuado que debemos

muestrear.

Si no se cumple, pasamos a una tercera fase:

3.- Obtener el tamaño de la muestra según la siguiente fórmula:

Veamos un ejemplo: La Consejería de Trabajo planea un estudio con el interés de conocer el

promedio de horas semanales trabajadas por las mujeres del servicio doméstico. La muestra será

extraída de una población de 10000 mujeres que figuran en los registros de la Seguridad Social y de

las cuales se conoce a través de un estudio piloto que su varianza es de 9.648. Trabajando con un

nivel de confianza de 0.95 y estando dispuestos a admitir un error máximo de 0,1, ¿cuál debe ser el

tamaño muestral que Empleemos?.

Buscamos en las tablas de la curva normal el valor de que corresponde con el nivel de confianza

elegido: = ±1.96 y seguimos los pasos propuestos arriba.

1.

2.- Comprobamos que no se cumple, pues en este caso

10000 < 3706 (3706 - 1); 10000 < 13730730



53

3.-

Tamaño de muestra para estimar la proporción de la población

Para calcular el tamaño de muestra para la estimación de proporciones poblaciones hemos de tener

en cuenta los mismos factores que en el caso de la media. La fórmula que nos permitirá determinar el

tamaño muestral es la siguiente:

dónde

: z correspondiente al nivel de confianza elegido

P: proporción de una categoría de la variable

e: error máximo

N: tamaño de la población

Siguiendo con el estudio planteado en el punto anterior, supongamos que tratamos de estimar la

proporción de mujeres que trabajan diariamente 10 horas o más. De un estudio piloto se dedujo que

P=0.30, fijamos el nivel de confianza en 0.95 y el error máximo 0.02.



54

Intervalos de confianza para la media, con el uso de la distribución Normal y “t”student.

Intervalos de Confianza para la Media con varianza conocida y con Varianza desconocida

Estimación de la media con conocida.

Es conocido de nosotros durante este curso, que en base a la distribución muestral de medias que se

generó en el tema anterior, la fórmula para el cálculo de probabilidad es la siguiente: .

Como en este caso no conocemos el parámetro y lo queremos estimar por medio de la media de la

muestra, sólo se despejará de la formula anterior, quedando lo siguiente:

De esta fórmula se puede observar que tanto el tamaño de la muestra como el valor de z se

conocerán. Z se puede obtener de la tabla de la distribución normal a partir del nivel de confianzaestablecido. Pero en ocasiones se desconoce por lo que en esos casos lo correcto es utilizar otra

distribución llamada "t" de student si la población de donde provienen los datos es normal.

Para el caso de tamaños de muestra grande se puede utilizar una estimación puntual de la desviación

estándar, es decir igualar la desviación estándar de la muestra a la de la población (s= ).

Ejemplos:

1. Se encuentra que la concentración promedio de zinc que se saca del agua a partir de una

muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro. Encuentrelos intervalos de confianza de 95% y 99% para la concentración media de zinc en el río.

Suponga que la desviación estándar de la población es 0.3.

Solución:

La estimación puntual de es = 2.6. El valor de z para un nivel de confianza del 95% es 1.96,

por lo tanto:



55

Para un nivel de confianza de 99% el valor de z es de 2.575 por lo que el intervalo será más

amplio:

El intervalo de confianza proporciona una estimación de la precisión de nuestra estimación

puntual. Si es realmente el valor central de intervalo, entonces estima sin error. La

mayor parte de las veces, sin embargo, no será exactamente igual a y la estimación

puntual es errónea. La magnitud de este error será el valor absoluto de la diferencia entre y

, y podemos tener el nivel de confianza de que esta diferencia no excederá .

Como se puede observar en los resultados del ejercicio se tiene un error de estimación mayor

cuando el nivel de confianza es del 99% y más pequeño cuando se reduce a un nivel de

confianza del 95%.

2. Una empresa eléctrica fabrica focos que tienen una duración aproximadamente distribuida de

forma normal con una desviación estándar de 40 horas. Si una muestra de 30 focos tiene una

duración promedio de 780 horas, encuentre un intervalo de confianza de 96% para la media

de la población de todos los focos que produce esta empresa.



56

Solución:

Con un nivel de confianza del 96% se sabe que la duración media de los focos que produce la

empresa está entre 765 y 795 horas.

3. La prueba de corte sesgado es el procedimiento más aceptado para evaluar la calidad de una

unión entre un material de reparación y su sustrato de concreto. El artículo "Testing the Bond

Between Repair Materials and Concrete Substrate" informa que, en cierta investigación, seobtuvo una resistencia promedio muestral de 17.17 N/mm

2, con una muestra de 48

observaciones de resistencia al corte, y la desviación estándar muestral fue 3.28 N/mm2.

Utilice un nivel de confianza inferior del 95% para estimar la media real de la resistencia al

corte.

Solución:

En este ejercicio se nos presentan dos situaciones diferentes a los ejercicios anteriores. La primera

que desconoce la desviación estándar de la población y la segunda que nos piden un intervalo de

confianza unilateral.

El primer caso ya se había comentado y se solucionará utilizando la desviación estándar de la muestra

como estimación puntual de sigma.

Para el intervalo de confianza unilateral, se cargará el área bajo la curva hacia un solo lado como

sigue:

Esto quiere decir que con un nivel de confianza de 95%, el valor de la media está en el intervalo

(16.39, ).



57

Determinación del tamaño de la muestra con grado de confianza y estimación de µ.

TAMAÑO DE LA MUESTRA PARA ESTIMAR LA MEDIA CON MUESTREO SIMPLE ALEATORIO

Para estimar la media poblacional utilizando una variable aleatoria continua se utiliza la siguiente

relación:

2

2

22

2

2

2

α

α

+

=

Z Sd . N

Z S. N n

De donde:

n = tamaño de la muestra.

N = tamaño de la población.

2α Z = variable estandarizada de distribución normal.

S² = varianza de la muestra.

d (e) = precisión del muestreo.

α = Nivel de significancia.

Generalmente es necesario hacer un premuestreo de 30 elementos, con el objetivo de hacer una

primera estimación de S².

Ejemplo: En un lote de frascos para medicina, con una población de 8000 unidades, se desea estimar la

media de la capacidad en centímetros cúbicos de los mismos.

A través de un premuestreo de tamaño 35 se ha estimado que la desviación estándar es de 2

centímetros cúbicos. Si queremos tener una precisión 0.25 cms3, y un nivel de significancia del 5%. ¿De

qué tamaño debe de ser la muestra?

DATOS:

S = 2 cms3; N = 8000; d = 0.25 cms

3; α = 0.05 (5%)

2α Z = 1.96



58

23937515

2122931

96122508000

96128000

222

22

2

2

2

22

2

==

+

=

+

=

α

α

.

.

).()().(

).()(

Z S Nd

Z S. N n Frascos.

Solo faltaría muestrear 204 frascos, pues los datos de los 35 frascos del premuestreo siguen siendo

válidos.

TAMAÑO DE LA MUESTRA PARA ESTIMAR PROPORCIONES CON MUESTREO SIMPLE ALEATORIO

En bastantes ocasiones, la variable bajo estudio es de tipo binomial, en ese caso para calcular el tamaño

de muestra bajo el muestreo simple aleatorio, se haría de la siguiente manera:

2

2

2

2

2

α

α

+

=

Z .q. pd . N

Z .q. p. N n

De donde:

p = probabilidad de éxito.

q = probabilidad de fracaso.

d = precisión expresada en porcentaje.

En este caso para la estimación de la varianza, tenemos dos opciones:

a) hacer un premuestreo.

b) asumir varianza máxima.

Ejemplo: En una investigación, se desea determinar en qué proporción los niños de una región toman

leche en el desayuno. Si se sabe que existen 1.500 niños y deseamos tener una precisión del 10 %, con

un nivel de significancia del 5 %. ¿De qué tamaño debe de ser la muestra?

DATOS:

N = 1500; d = 10 % = 0.1; α = 5 %

p = 0.5 y q = 0.5 (asumiendo varianza máxima).

Zα/2 = 1.96

909615

61440

9615050101500

96150501500

22

2

2

2

2

2

2==

+

=

+

=

α

α

,

.

). / ).)(.().(

).)(.)(.(

Z .q. pd . N

Z .q. p. N n

Se deben de muestrear 90 niños.



59

CONCLUSION

Las conclusiones obtenidas en este punto pueden servir para tomar decisiones o hacer predicciones

de eventos pasados o futuros. El estudio puede comenzar de nuevo a partir de este momento, en un

proceso cíclico que permite conocer cada vez mejor la población y características de estudio.Ya que la

muestra nos sirve para conocer datos específicos de la muestra asi como los valores a buscar, un dato

estadístico o estimador de un parámetro poblacional en cualquier función que relaciona los

elementos de la muestra y que utilizaremos para estimar o contrastar el verdadero valor.



60

BIBLIOGRAFIA

www.google.com.mx

Instituto tecnológico de kalkini

www.wikipedia.com

trabajo de investigacion probabilidad y a

Documents