Download - Inferencia Estadística Unidad

PROBABILIDAD Y ESTADISTICA

2°C Ing. Civil 02/06/15

INFERENCIA ESTADISTICA

Prof.: Ing. Pastor Manuel Díaz Alcocer

INFERENCIA ESTADÍSTICA

Estimación puntual y por intervalos de confianza.

Estimación

Cuando queremos realizar un estudio de una población cualquiera de la que

desconocemos sus parámetros, por ejemplo su media poblacional o la

probabilidad de éxito si la población sigue una distribución binomial, debemos

tomar una muestra aleatoria de dicha población a través de la cual calcular una

aproximación a dichos parámetros que desconocemos y queremos estimar. Bien,

pues esa aproximación se llama estimación. Además, junto a esa estimación, y

dado que muy probablemente no coincida con el valor real del parámetro,

acompañaremos el error aproximado que se comete al realizarla.

Estimación Puntual

Una estimación puntual del valor de un parámetro poblacional desconocido (como

puede ser la media µ, o la desviación estándar σ), es un número que se utiliza

para aproximar el verdadero valor de dicho parámetro poblacional. A fin de realizar

tal estimación, tomaremos una muestra de la población y calcularemos el

parámetro muestral asociado (x para la media, s para la desviación estándar, etc.).

El valor de este parámetro muestral será la estimación puntual del parámetro

poblacional.

Por ejemplo, supongamos que la compañía Sonytron desea estimar la edad media

de los compradores de equipos de alta fidelidad. Seleccionan una muestra de 100

compradores y calculan la media de esta muestra, este valor será un estimador

puntual de la media de la población.

¿Qué propiedades debe cumplir todo buen estimador?

• Insesgado: Un estimador es insesgado cuando la media de su distribución

muestral asociada coincide con la media de la población. Esto ocurre, por ejemplo,

con el estimador x, ya que µ x = µ y con estimador p´ ya que p

• De varianza mínima: La variabilidad de un estimador viene determinada por el

cuadrado de su desviación estándar. En el caso del estimador x, su desviación

estándar es σx = σ/√ n, también llamada error estándar de µ.

En el caso del error estándar de p´, σ p=√ p∗(1−p )

n

Observar que cuanto mayor sea el tamaño de la muestra n, menor será la

variabilidad del estimador X y de p´, por tanto, mejor serán nuestras estimaciones.

Por intervalos de confianza.

Dada una población X, que sigue una distribución cualquiera con media µ y desviación estándar σ.

1. Sabemos (por el TCL) que, para valores grandes de n, la media muestral X sigue una distribución aproximadamente normal con media µx = µ y desviación estándar ox=o /√n

2. Por otra parte, el Teorema de Chebyshev nos dice que, en una distribución normal, aproximadamente un 95% de los datos estaban situados a una distancia inferior a dos desviaciones estándar de la media.

De lo anterior se deduce que: (µ − 2ox< x< µ + 2ox ) = 0,95

Por tanto, ésta última fórmula nos da un intervalo de valores tal que la probabilidad

de que la media de la población µ esté contenida en él es de 0,95. Este tipo de

intervalos se llaman intervalos de confianza de un parámetro poblacional. El nivel

de confianza (1 - α) del intervalo es la probabilidad de que éste contenga al

parámetro poblacional. En el ejemplo anterior, el nivel de confianza era del 95%(α

= 0,05).

EJEMPLO:

Se seleccionaron al azar 15 resistores de la producción de un proceso. La

resistencia media observada en la muestra fue de 9.8 ohms, mientras que la

desviación estándar muestral fue de 0.5 ohms. Determine un intervalo de

confianza del 95% para la resistencia media poblacional. Se supone que la

variable en estudio tiene distribución normal.

Si Xy s son la media aritmética y la desviación estándar observada en una

muestra de tamaño n, de una variable X con distribución normal y variancia σ 2

desconocida, entonces un intervalo de confianza para µX = E(X) del 100(1−α) %

está dado por

Para α = 0.05 se obtiene de la tabla el valor t = 2.145 resultando el intervalo de

confianza para µX:

Estimación de la media, de la diferencia de medias, de la

proporción y de la diferencia de proporciones.

Estimación de la media

Para estimar la media poblacional por medio de intervalos de confianza, será

necesario recordar que el Teorema Central del Límite nos daba información de

cómo se hallaban distribuidas las medias muéstrales: "normalmente" con una

media igual a la de la población original m (que es la que ahora tratamos de

conocer) y desviación típica

Supongamos que hemos analizado la muestra ya nombrada de media Km., y que

sabemos que la desv.Típica de la población es de s=0.4 km., y que nos

planteamos estimar la media de todo el instituto, con un nivel de confianza del

95% .El proceso para realizar la estimación es el siguiente:

Sabemos por el T.C.L. que las medias muéstrales se distribuyen según

La siguiente figura nos ilustrará:

Hallamos el valor k de forma que p (-k<Z<k)=0.95, o lo que es lo mismo p

(Z<k)=0,975. Consultando nuestra tabla de la distribución normal, encontraremos

que k=1.96

Estimación de la diferencia de medias

Si se tienen dos poblaciones con medias 1 y 2 y varianzas 12 y 22,

respectivamente, un estimador puntual de la diferencia entre 1 y 2 está dado por la

estadística. Por tanto. Para obtener una estimación puntual de 1- 2, se

seleccionan dos muestras aleatorias independientes, una de cada población, de

tamaño n1 y n2, se calcula la diferencia, de las medias muéstrales.

Recordando a la distribución muestral de diferencia de medias:

Al despejar de esta ecuación 1- 2 se tiene:

En el caso en que se desconozcan las varianzas de la población y los tamaños de

muestra sean mayores a 30 se podrá utilizar la varianza de la muestra como una

estimación puntual.

Ejemplo:

Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y B.

Se mide el rendimiento en millas por galón de gasolina. Se realizan 50

experimentos con el motor tipo A y 75 con el motor tipo B. La gasolina que se

utiliza y las demás condiciones se mantienen constantes. El rendimiento promedio

de gasolina para el motor A es de 36 millas por galón y el promedio para el motor

B es 24 millas por galón. Encuentre un intervalo de confianza de 96% sobre la

diferencia promedio real para los motores A y B. Suponga que las desviaciones

estándar poblacionales son 6 y 8 para los motores A y B respectivamente.

Solución:

Es deseable que la diferencia de medias sea positiva por lo que se recomienda

restar la media mayor menos la media menor. En este caso será la media del

motor B menos la media del motor A.

El valor de z para un nivel de confianza del 96% es de 2.05

3.43<B-A<8.57

La interpretación de este ejemplo sería que con un nivel de confianza del 96% la

diferencia del rendimiento promedio esta entre 3.43 y 8.57 millas por galón a favor

del motor B. Esto quiere decir que el motor B da más rendimiento promedio que el

motor A, ya que los dos valores del intervalo son positivos.

Estimación de la proporción y de la diferencia de proporciones

Muchas aplicaciones involucran poblaciones de datos cualitativos que deben

compararse utilizando proporciones o porcentajes. A continuación se citan algunos

ejemplos:

Educación.- ¿Es mayor la proporción de los estudiantes que aprueban

matemáticas que las de los que aprueban inglés?

Medicina.- ¿Es menor el porcentaje de los usuarios del medicamento A que

presentan una reacción adversa que el de los usuarios del fármaco B que

también presentan una reacción de ese tipo?

Administración.- ¿Hay diferencia entre los porcentajes de hombres y

mujeres en posiciones gerenciales.

Ingeniería.- ¿Existe diferencia entre la proporción de artículos defectuosos

que genera la máquina A los que genera la máquina B?

Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos

proporciones muéstrales, la distribución muestral de diferencia de proporciones es

aproximadamente normal para tamaños de muestra grande (n1p15, n1q15, n2p25 y

n2q25). Entonces p1 y p2 tienen distribuciones muéstrales aproximadamente

normales, así que su diferencia p1-p2 también tiene una distribución muestral

aproximadamente normal.

Ejemplo:

Se considera cierto cambio en un proceso de fabricación de partes componentes.

Se toman muestras del procedimiento existente y del nuevo para determinar si

éste tiene como resultado una mejoría. Si se encuentra que 75 de 1500 artículos

del procedimiento actual son defectuosos y 80 de 2000 artículos del procedimiento

nuevo también lo son, encuentre un intervalo de confianza de 90% para la

diferencia real en la fracción de defectuosos entre el proceso actual y el nuevo.

Solución:

Sean P1 y P2 las proporciones reales de defectuosos para los procesos actual y

nuevo, respectivamente. De aquí, p1=75/1500 = 0.05 y p2 = 80/2000 = 0.04. Con

el uso de la tabla encontramos que z para un nivel de confianza del 90% es de

1.645.

-0.0017<P1-P2<0.0217

Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo

procedimiento producirá una disminución significativa en la proporción de artículos

defectuosos comparado con el método existente.

Determinación del tamaño de la muestra.

Al iniciar cualquier investigación, la primera pregunta que surge es: ¿de qué

tamaño debe ser la o las muestras? La respuesta a esta pregunta la veremos en

esta sección, con conceptos que ya se han visto a través de este material.

Cálculo del tamaño de la muestra para estimar una media

¿Qué tan grande debe ser una muestra si la media muestral se va a usar para

estimar la media poblacional? La respuesta depende del error estándar de la

media, si este fuera cero, entonces se necesitaría una sola media que será igual

necesariamente a la media poblacional desconocida, porque = 0. Este caso

extremo no se encuentra en la práctica, pero refuerza el hecho de que mientras

menor sea el error estándar de la media, menor es el tamaño de muestra

necesario para lograr un cierto grado de precisión.

Se estableció antes que una forma de disminuir el error de estimación es

aumentar el tamaño de la muestra, si éste incluye el total de la población,

entonces sería igual a cero. Con esto en mente, parece razonable que para un

nivel de confianza fijo, sea posible determinar un tamaño de la muestra tal que el

error de estimación sea tan pequeño como queramos, para ser más preciso, dado

un nivel de confianza y un error fijo de estimación, se puede escoger un tamaño

de muestra n tal que P () = Nivel de confianza. Con el propósito de

determinar n. El error máximo de estimación.

Una fórmula muy extendida que orienta sobre el cálculo del tamaño de la muestra

para datos globales es la siguiente:

n= ((k^2)*N*p*q)/ ((e^2*(N-1))+ ((k^2)*p*q))

N: es el tamaño de la población o universo (número total de posibles

encuestados).

k: es una constante que depende del nivel de confianza que asignemos. El

nivel de confianza indica la probabilidad de que los resultados de nuestra

investigación sean ciertos: un 95,5 % de confianza es lo mismo que decir

que nos podemos equivocar con una probabilidad del 4,5%.

Los valores k más utilizados y sus niveles de confianza son: k 1,15 1,28 1,44 1,65

1,96 2 2,58 Nivel de confianza 75% 80% 85% 90% 95% 95,5% 99% (Por tanto si

pretendemos obtener un nivel de confianza del 95% necesitamos poner en la

fórmula k=1,96) e: es el error muestral deseado. El error muestral es la diferencia

que puede haber entre el resultado que obtenemos preguntando a una muestra de

la población y el que obtendríamos si preguntáramos al total de ella.

Altos niveles de confianza y bajo margen de error no significan que la encuesta

sea de mayor confianza o esté más libre de error necesariamente; antes es

preciso minimizar la principal fuente de error que tiene lugar en la recogida de

datos.

Ejemplo:

Download - Inferencia Estadística Unidad

Top Related