Download - Inferencia Estadística Unidad
PROBABILIDAD Y ESTADISTICA
2°C Ing. Civil 02/06/15
INFERENCIA ESTADISTICA
Prof.: Ing. Pastor Manuel Díaz Alcocer
INFERENCIA ESTADÍSTICA
Estimación puntual y por intervalos de confianza.
Estimación
Cuando queremos realizar un estudio de una población cualquiera de la que
desconocemos sus parámetros, por ejemplo su media poblacional o la
probabilidad de éxito si la población sigue una distribución binomial, debemos
tomar una muestra aleatoria de dicha población a través de la cual calcular una
aproximación a dichos parámetros que desconocemos y queremos estimar. Bien,
pues esa aproximación se llama estimación. Además, junto a esa estimación, y
dado que muy probablemente no coincida con el valor real del parámetro,
acompañaremos el error aproximado que se comete al realizarla.
Estimación Puntual
Una estimación puntual del valor de un parámetro poblacional desconocido (como
puede ser la media µ, o la desviación estándar σ), es un número que se utiliza
para aproximar el verdadero valor de dicho parámetro poblacional. A fin de realizar
tal estimación, tomaremos una muestra de la población y calcularemos el
parámetro muestral asociado (x para la media, s para la desviación estándar, etc.).
El valor de este parámetro muestral será la estimación puntual del parámetro
poblacional.
Por ejemplo, supongamos que la compañía Sonytron desea estimar la edad media
de los compradores de equipos de alta fidelidad. Seleccionan una muestra de 100
compradores y calculan la media de esta muestra, este valor será un estimador
puntual de la media de la población.
¿Qué propiedades debe cumplir todo buen estimador?
• Insesgado: Un estimador es insesgado cuando la media de su distribución
muestral asociada coincide con la media de la población. Esto ocurre, por ejemplo,
con el estimador x, ya que µ x = µ y con estimador p´ ya que p
• De varianza mínima: La variabilidad de un estimador viene determinada por el
cuadrado de su desviación estándar. En el caso del estimador x, su desviación
estándar es σx = σ/√ n, también llamada error estándar de µ.
En el caso del error estándar de p´, σ p=√ p∗(1−p )
n
Observar que cuanto mayor sea el tamaño de la muestra n, menor será la
variabilidad del estimador X y de p´, por tanto, mejor serán nuestras estimaciones.
Por intervalos de confianza.
Dada una población X, que sigue una distribución cualquiera con media µ y desviación estándar σ.
1. Sabemos (por el TCL) que, para valores grandes de n, la media muestral X sigue una distribución aproximadamente normal con media µx = µ y desviación estándar ox=o /√n
2. Por otra parte, el Teorema de Chebyshev nos dice que, en una distribución normal, aproximadamente un 95% de los datos estaban situados a una distancia inferior a dos desviaciones estándar de la media.
De lo anterior se deduce que: (µ − 2ox< x< µ + 2ox ) = 0,95
Por tanto, ésta última fórmula nos da un intervalo de valores tal que la probabilidad
de que la media de la población µ esté contenida en él es de 0,95. Este tipo de
intervalos se llaman intervalos de confianza de un parámetro poblacional. El nivel
de confianza (1 - α) del intervalo es la probabilidad de que éste contenga al
parámetro poblacional. En el ejemplo anterior, el nivel de confianza era del 95%(α
= 0,05).
EJEMPLO:
Se seleccionaron al azar 15 resistores de la producción de un proceso. La
resistencia media observada en la muestra fue de 9.8 ohms, mientras que la
desviación estándar muestral fue de 0.5 ohms. Determine un intervalo de
confianza del 95% para la resistencia media poblacional. Se supone que la
variable en estudio tiene distribución normal.
Si Xy s son la media aritmética y la desviación estándar observada en una
muestra de tamaño n, de una variable X con distribución normal y variancia σ 2
desconocida, entonces un intervalo de confianza para µX = E(X) del 100(1−α) %
está dado por
Para α = 0.05 se obtiene de la tabla el valor t = 2.145 resultando el intervalo de
confianza para µX:
Estimación de la media, de la diferencia de medias, de la
proporción y de la diferencia de proporciones.
Estimación de la media
Para estimar la media poblacional por medio de intervalos de confianza, será
necesario recordar que el Teorema Central del Límite nos daba información de
cómo se hallaban distribuidas las medias muéstrales: "normalmente" con una
media igual a la de la población original m (que es la que ahora tratamos de
conocer) y desviación típica
Supongamos que hemos analizado la muestra ya nombrada de media Km., y que
sabemos que la desv.Típica de la población es de s=0.4 km., y que nos
planteamos estimar la media de todo el instituto, con un nivel de confianza del
95% .El proceso para realizar la estimación es el siguiente:
Sabemos por el T.C.L. que las medias muéstrales se distribuyen según
La siguiente figura nos ilustrará:
Hallamos el valor k de forma que p (-k<Z<k)=0.95, o lo que es lo mismo p
(Z<k)=0,975. Consultando nuestra tabla de la distribución normal, encontraremos
que k=1.96
Estimación de la diferencia de medias
Si se tienen dos poblaciones con medias 1 y 2 y varianzas 12 y 22,
respectivamente, un estimador puntual de la diferencia entre 1 y 2 está dado por la
estadística. Por tanto. Para obtener una estimación puntual de 1- 2, se
seleccionan dos muestras aleatorias independientes, una de cada población, de
tamaño n1 y n2, se calcula la diferencia, de las medias muéstrales.
Recordando a la distribución muestral de diferencia de medias:
Al despejar de esta ecuación 1- 2 se tiene:
En el caso en que se desconozcan las varianzas de la población y los tamaños de
muestra sean mayores a 30 se podrá utilizar la varianza de la muestra como una
estimación puntual.
Ejemplo:
Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y B.
Se mide el rendimiento en millas por galón de gasolina. Se realizan 50
experimentos con el motor tipo A y 75 con el motor tipo B. La gasolina que se
utiliza y las demás condiciones se mantienen constantes. El rendimiento promedio
de gasolina para el motor A es de 36 millas por galón y el promedio para el motor
B es 24 millas por galón. Encuentre un intervalo de confianza de 96% sobre la
diferencia promedio real para los motores A y B. Suponga que las desviaciones
estándar poblacionales son 6 y 8 para los motores A y B respectivamente.
Solución:
Es deseable que la diferencia de medias sea positiva por lo que se recomienda
restar la media mayor menos la media menor. En este caso será la media del
motor B menos la media del motor A.
El valor de z para un nivel de confianza del 96% es de 2.05
3.43<B-A<8.57
La interpretación de este ejemplo sería que con un nivel de confianza del 96% la
diferencia del rendimiento promedio esta entre 3.43 y 8.57 millas por galón a favor
del motor B. Esto quiere decir que el motor B da más rendimiento promedio que el
motor A, ya que los dos valores del intervalo son positivos.
Estimación de la proporción y de la diferencia de proporciones
Muchas aplicaciones involucran poblaciones de datos cualitativos que deben
compararse utilizando proporciones o porcentajes. A continuación se citan algunos
ejemplos:
Educación.- ¿Es mayor la proporción de los estudiantes que aprueban
matemáticas que las de los que aprueban inglés?
Medicina.- ¿Es menor el porcentaje de los usuarios del medicamento A que
presentan una reacción adversa que el de los usuarios del fármaco B que
también presentan una reacción de ese tipo?
Administración.- ¿Hay diferencia entre los porcentajes de hombres y
mujeres en posiciones gerenciales.
Ingeniería.- ¿Existe diferencia entre la proporción de artículos defectuosos
que genera la máquina A los que genera la máquina B?
Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos
proporciones muéstrales, la distribución muestral de diferencia de proporciones es
aproximadamente normal para tamaños de muestra grande (n1p15, n1q15, n2p25 y
n2q25). Entonces p1 y p2 tienen distribuciones muéstrales aproximadamente
normales, así que su diferencia p1-p2 también tiene una distribución muestral
aproximadamente normal.
Ejemplo:
Se considera cierto cambio en un proceso de fabricación de partes componentes.
Se toman muestras del procedimiento existente y del nuevo para determinar si
éste tiene como resultado una mejoría. Si se encuentra que 75 de 1500 artículos
del procedimiento actual son defectuosos y 80 de 2000 artículos del procedimiento
nuevo también lo son, encuentre un intervalo de confianza de 90% para la
diferencia real en la fracción de defectuosos entre el proceso actual y el nuevo.
Solución:
Sean P1 y P2 las proporciones reales de defectuosos para los procesos actual y
nuevo, respectivamente. De aquí, p1=75/1500 = 0.05 y p2 = 80/2000 = 0.04. Con
el uso de la tabla encontramos que z para un nivel de confianza del 90% es de
1.645.
-0.0017<P1-P2<0.0217
Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo
procedimiento producirá una disminución significativa en la proporción de artículos
defectuosos comparado con el método existente.
Determinación del tamaño de la muestra.
Al iniciar cualquier investigación, la primera pregunta que surge es: ¿de qué
tamaño debe ser la o las muestras? La respuesta a esta pregunta la veremos en
esta sección, con conceptos que ya se han visto a través de este material.
Cálculo del tamaño de la muestra para estimar una media
¿Qué tan grande debe ser una muestra si la media muestral se va a usar para
estimar la media poblacional? La respuesta depende del error estándar de la
media, si este fuera cero, entonces se necesitaría una sola media que será igual
necesariamente a la media poblacional desconocida, porque = 0. Este caso
extremo no se encuentra en la práctica, pero refuerza el hecho de que mientras
menor sea el error estándar de la media, menor es el tamaño de muestra
necesario para lograr un cierto grado de precisión.
Se estableció antes que una forma de disminuir el error de estimación es
aumentar el tamaño de la muestra, si éste incluye el total de la población,
entonces sería igual a cero. Con esto en mente, parece razonable que para un
nivel de confianza fijo, sea posible determinar un tamaño de la muestra tal que el
error de estimación sea tan pequeño como queramos, para ser más preciso, dado
un nivel de confianza y un error fijo de estimación, se puede escoger un tamaño
de muestra n tal que P () = Nivel de confianza. Con el propósito de
determinar n. El error máximo de estimación.
Una fórmula muy extendida que orienta sobre el cálculo del tamaño de la muestra
para datos globales es la siguiente:
n= ((k^2)*N*p*q)/ ((e^2*(N-1))+ ((k^2)*p*q))
N: es el tamaño de la población o universo (número total de posibles
encuestados).
k: es una constante que depende del nivel de confianza que asignemos. El
nivel de confianza indica la probabilidad de que los resultados de nuestra
investigación sean ciertos: un 95,5 % de confianza es lo mismo que decir
que nos podemos equivocar con una probabilidad del 4,5%.
Los valores k más utilizados y sus niveles de confianza son: k 1,15 1,28 1,44 1,65
1,96 2 2,58 Nivel de confianza 75% 80% 85% 90% 95% 95,5% 99% (Por tanto si
pretendemos obtener un nivel de confianza del 95% necesitamos poner en la
fórmula k=1,96) e: es el error muestral deseado. El error muestral es la diferencia
que puede haber entre el resultado que obtenemos preguntando a una muestra de
la población y el que obtendríamos si preguntáramos al total de ella.
Altos niveles de confianza y bajo margen de error no significan que la encuesta
sea de mayor confianza o esté más libre de error necesariamente; antes es
preciso minimizar la principal fuente de error que tiene lugar en la recogida de
datos.
Ejemplo: