capitulo5 estimacion por_intervalo_es_de_confianza (2)

18
UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema Página 1 de 18 Capítulo 5 ESTIMACIÓN POR INTERVALOS DE CONFIANZA PARA MEDIAS POBLACIONALES EN UNA Y DOS POBLACIONES 5.1 CONCEPTOS GENERALES 5.1.1 Introducción 5.1.2 Definición de intervalo de confianza 5.1.3 Interpretación de un intervalo de confianza 5.2 CONSTRUCCIÓN DE UN INTERVALO DE CONFIANZA PARA UN PARÁMETRO MEDIANTE EL MÉTODO DEL PIVOTE O CANTIDAD PIVOTAL 5.2.1 Método 5.2.2 Ejemplo 5.2.3 Cuestiones que surgen al construir un intervalo de confianza 5.3 INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN 5.3.1 Estimación para la media de una población normal con conocida I. Error en la estimación II. Determinación del tamaño muestral III. Ejemplos 5.3.2 Estimación para la media de una población normal con desconocida I. Cálculo del intervalo II. Observaciones importantes III. Ejemplos 5.4 INTERVALOS DE CONFIANZA PARA MEDIAS CONSIDERANDO DOSPOBLACIONES 5.4.1 Introducción 5.4.2 Intervalos de confianza para la diferencia de medias de dos poblaciones normales independientes I. Intervalo de confianza para la diferencia de medias de dos poblaciones normales independientes, con varianzas conocidas II. Intervalo de confianza para la diferencia de medias de dos poblaciones normales independientes, con varianzas desconocidas pero supuestas iguales III. Intervalo de confianza para la diferencia de medias de dos poblaciones normales independientes, con varianzas desconocidas pero que no pueden suponerse iguales IV. Determinación del tamaño muestral 5.4.3 Intervalos de confianza para la diferencia de medias con datos apareados

Upload: laura-gonzalez

Post on 26-Jul-2015

101 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 1 de 18

Capítulo 5

ESTIMACIÓN POR INTERVALOS DE CONFIANZA PARA MEDIAS POBLACIONALES EN UNA Y DOS

POBLACIONES

5.1 CONCEPTOS GENERALES

5.1.1 Introducción 5.1.2 Definición de intervalo de confianza 5.1.3 Interpretación de un intervalo de confianza

5.2 CONSTRUCCIÓN DE UN INTERVALO DE CONFIANZA PARA UN PARÁMETRO

MEDIANTE EL MÉTODO DEL PIVOTE O CANTIDAD PIVOTAL 5.2.1 Método 5.2.2 Ejemplo 5.2.3 Cuestiones que surgen al construir un intervalo de confianza

5.3 INTERVALOS DE CONFIANZA PARA LA MEDIA DE UNA POBLACIÓN

5.3.1 Estimación para la media de una población normal con conocida I. Error en la estimación II. Determinación del tamaño muestral III. Ejemplos

5.3.2 Estimación para la media de una población normal con desconocida I. Cálculo del intervalo II. Observaciones importantes III. Ejemplos

5.4 INTERVALOS DE CONFIANZA PARA MEDIAS CONSIDERANDO

DOSPOBLACIONES 5.4.1 Introducción 5.4.2 Intervalos de confianza para la diferencia de medias de dos poblaciones normales

independientes I. Intervalo de confianza para la diferencia de medias de dos poblaciones normales

independientes, con varianzas conocidas II. Intervalo de confianza para la diferencia de medias de dos poblaciones normales

independientes, con varianzas desconocidas pero supuestas iguales III. Intervalo de confianza para la diferencia de medias de dos poblaciones normales

independientes, con varianzas desconocidas pero que no pueden suponerse iguales IV. Determinación del tamaño muestral

5.4.3 Intervalos de confianza para la diferencia de medias con datos apareados

Page 2: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 2 de 18

5.1 Conceptos generales 5.1.1 Introducción

Mediante los procedimientos usados en el capítulo 4 es posible construir un “buen” estimador puntual de un parámetro θ, que verifique, incluso, todas las propiedades exigidas al respecto. Sin embargo, en muchos casos, una estimación puntual no es suficiente, en el sentido de que dar un número como estimación de un parámetro no nos indica el error que cometemos en la estimación; esto es consecuencia de la aleatoriedad del muestreo. En este capítulo estudiaremos el problema de obtener una estimación de un parámetro mediante cierto intervalo numérico.

5.1.2 Definición de intervalo de confianza Dada una muestra aleatoria simple (X1, X2,…, Xn) de una variable aleatoria X se llama intervalo de confianza para un parámetro θ, con nivel o coeficiente de confianza “1-”, 0< < 1, a un intervalo aleatorio (dado que sus extremos dependen de las muestras elegidas):

( ) ( )[ ]n212n211 X,...,X,Xθ̂ ;X,...,X,Xθ̂ (1) tal que para cada perteneciente al espacio paramétrico Θ :

( ) ( )[ ] α- 1=nX,...,2X,1Xθ̂≤θnX,...,2X,1Xθ̂P 2≤1 (2) Observar que los extremos del intervalo (1) son estadísticos, es decir función de las variables aleatorias que componen la muestra y en consecuencia ellos mismos son variables aleatorias.

5.1.3 Interpretación de un intervalo de confianza Veamos la interpretación concreta de (1). Para una realización de la muestra, digamos (x1, x2,…, xn) obtendremos un intervalo numérico:

( ) ( )[ ]n212n211 x,...,x,xθ̂ ;x,...,x,xθ̂ que llamaremos también haciendo abuso del lenguaje: intervalo de confianza. Observar que en este caso no tiene sentido hablar de probabilidad, dado que seleccionada una muestra (X1, X2,…, Xn) la probabilidad de que el parámetro θ esté incluido en el intervalo (1) es 1 ó 0, dependiendo de que el parámetro θ esté o no esté entre los dos números en que se convierten ( ) ( )n212n211 X,...,X,Xθ̂y X,...,X,Xθ̂ al particularizarlos para una muestra concreta (X1, X2,…, Xn). Sin embargo diremos que tenemos una confianza del (1-) 100% en el sentido de que si tomásemos infinitas muestras y con cada una de ellas construyésemos el intervalo numérico correspondiente

( ) ( )[ ]n212n211 x,...,x,xθ̂ ;x,...,x,xθ̂ el (1-) 100% de los mismos contendrían el valor del verdadero parámetro, mientras que los restantes 100 %, no. Supongamos que se desea calcular un intervalo de confianza para la media poblacional con coeficiente de confianza 0,95 = 1-.

¿Cómo se interpretan los límites de confianza? “esperamos que por lo menos 95 de cada 100 intervalos que se calculan con otras

tantas muestras contengan el valor desconocido ” ¡ATENCIÓN! Notar que en ningún momento decimos que está dentro del intervalo, sino que es el intervalo el que contiene a .

Page 3: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 3 de 18

Para interpretar geométricamente el significado de intervalo de confianza, supongamos que queremos estimar la media poblacional de una distribución X N (, 1). Extraemos 20 muestras de tamaño 4 de la distribución N (, 1) y hallamos los 20 intervalos de confianza correspondientes, con un nivel de confianza del 95%. En la Fig.1 se representa en el eje horizontal el número de muestra y en el vertical el intervalo de confianza asociado. Además una línea horizontal representa el valor de que se pretende estimar (en este caso =2, desconocido, se le dio un valor determinado solo por razones didácticas). La gran mayoría de los intervalos contienen el valor correcto de , pero hay un intervalo el correspondiente a la muestra número 13, que no lo contiene. La muestra con que se construyó este intervalo forma parte del 5% de las muestras “malas”, es decir las que proporcionan intervalos equivocados.

Fig.1.

En la práctica solamente se selecciona una muestra y en consecuencia se calcula un único intervalo de confianza, la conclusión será:

“el intervalo contiene al parámetro con una confianza del 0,95” 5.2 Construcción de un intervalo de confianza para un parámetro θ mediante el Método

del Pivote o Cantidad Pivotal 5.2.1 Método

Sea (X1, X2,…, Xn) una muestra aleatoria simple de una variable aleatoria X, cuya función de distribución depende de un parámetro desconocido θ, a la cual indicaremos f(x; θ). Los intervalos de confianza para θ se construyen en base a un estadístico:

P=P(X1, X2,…, Xn; θ)

que llamaremos pivote y debe tener las siguientes características: a) Como se ve, P depende de la muestra aleatoria y del parámetro desconocido θ; siendo θ

la única cantidad desconocida. b) La distribución de probabilidad de P es conocida y no depende de θ.

Para aplicar el método del pivote debemos seguir los siguientes pasos:

Page 4: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 4 de 18

Establecer el pivote. Fijado un nivel de confianza “1-”, determinar constantes a y b tales que:

α- 1b≤θ Xn; ,,X ,XP≤aP 21 Si es posible despejar en la expresión anterior, obtendremos dos variables aleatorias:

Xn ,,X ,Xθ̂y Xn ,,X ,Xθ̂ 21-1221

-11

tales que: α- 1Xn ,,X ,Xθ̂≤θ≤Xn ,,X ,Xθ̂P 21

-1221

-11

para cualquier del espacio paramétrico. Con lo cual, Xn ,,X ,Xθ̂ ;Xn ,,X Xθ̂ 21

-1221

11

es un intervalo de confianza para , con nivel de confianza “1-”.

5.2.2 Ejemplo

Sea (X1, X2,…, Xn) una muestra aleatoria simple de una variable aleatoria X con distribución teórica N (, 2) tal que la varianza 2 es conocida. Veamos como se obtiene un intervalo de confianza para . Solución

a) µ de puntualestimador es X

b) Sabemos que X tiene distribución

µ-X Z⇒ )n

,N(

tiene distribución N(0,

1). c) Tomamos como pivote: P=P(X1, X2,…, Xn;) = Z su distribución es N (0,1). d) Fijamos un nivel de confianza “1-” y seleccionamos dos puntos, por ejemplo los

puntos simétricos -z/2 y z/2 tales que

nσzXµ

nσzXP

z

µXzPzZzPα1

α/2α/2

α/2α/2α/2α/2

así el intervalo de confianza correspondiente viene dado por:

nzX 2/α/2α/2 n

σzX ,n

σzX

siendo z/2 tal que (z/2) = 1-(/2). Gráficamente:

Page 5: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 5 de 18

5.2.3 Cuestiones que surgen al construir un intervalo de confianza Al construir un intervalo de confianza surgen algunas cuestiones que mencionaremos.

a) ¿Cómo elegir el estadístico pivote? Recordemos que P debe ser una función de la muestra y del parámetro a estimar, cuya distribución muestral es independiente del parámetro. Como pudo verse en el ejemplo anterior, el pivote surge de un modo bastante natural. En los casos en que esto no ocurra se aplican otros métodos para construir los intervalos de confianza que no serán estudiados en este curso. b) ¿Cómo determinar las constantes a y b? En el ejemplo anterior se consideró: a = -z/2 y b = z/2. Se podrían haber elegido otras constantes de manera que la probabilidad de que P esté comprendido entre ellas sea “1-”. Nos interesará elegir a y b de forma tal que el intervalo de confianza sea de longitud mínima, de esta forma será mayor la precisión. (Puede probarse que en el ejemplo anterior la elección efectuada cumple este requisito). c) ¿Cómo elegir ? se elegirá según la confianza deseada, teniendo en cuenta que en general, a menor , el intervalo será más largo. Del ejemplo anterior se deduce que una forma de aumentar la precisión, fijando un nivel de confianza, es aumentar el tamaño muestral “n”. La relación que existe en ese caso, entre la longitud del intervalo (L), , n y es:

2z=L α/2

Normalmente se suele tomar como uno de los valores: 0,1; 0,05 ó 0,01. 5.3 Intervalos de confianza para la media de una población Construiremos aquí intervalos de confianza para una media poblacional , según sea conocida o desconocida.

5.3.1 Estimación para la media de una población normal con conocida En el ejemplo anterior se vio que en este caso el intervalo es de la forma:

zX ≤ ≤z - /2/2 nnX

I. Error en la estimación

Page 6: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 6 de 18

El intervalo de confianza de (1-) 100% proporciona una precisión de la exactitud de la estimación puntual. Si es realmente el valor central del intervalo, entonces X estima a sin error. La mayor parte de las veces, sin embargo, X no será exactamente igual a y la estimación puntual no es exacta. El tamaño de este error será: X- µ y se puede tener una confianza del (1-) 100% de que esta

diferencia no excederá el valor n

σ.z 2/α . Esto se puede ver con facilidad si se dibuja el

diagrama de un intervalo de confianza hipotético como el de la figura siguiente:

n

σ.2/αz-X X

.z+X 2/α

ERROR Teniendo en cuenta lo dicho podemos enunciar el siguiente teorema, Teorema Si X es un estimador de , entonces se puede tener una confianza del

(1-) 100% de que el error no excederá una cantidad específica n

σz=E 2/α (1)

II. Determinación del tamaño muestral

Una cuestión interesante a la que nos referimos implícitamente al tratar la elección de , es ¿cuál debe ser el tamaño muestral necesario para que, fijado un nivel de confianza, se alcance una precisión (o longitud) deseada en el intervalo? La longitud del intervalo es:

z2=L 2/α

Despejando n de la ecuación anterior se obtiene:

2

22/α

L

z4=n

También podemos despejar n de (1), de manera que nos quede expresada en función del error, así,

2

222/α

E

σ.z=n

Debemos hacer aquí dos observaciones, a saber, a) Si para n se obtiene un valor fraccionario, se redondea al número entero

siguiente. b) En sentido estricto podemos determinar n, solo si se conoce la varianza

poblacional 2, de la cual se está seleccionando la muestra. Si nos falta esta información se puede tomar una muestra preliminar de tamaño n 30 para obtener una estimación de . En este caso al usar S como aproximación de , se puede determinar aproximadamente cuantas observaciones se necesitan para el grado deseado de exactitud.

Page 7: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 7 de 18

III. Ejemplos Ejemplo 1 Como consecuencia de la falta de gas registrada en la ciudad de La Plata, en los meses de invierno, la Empresa Camuzzi - Gas Pampeana decide hacer un estudio para determinar la cantidad gastada en este combustible para calefacción casera en un año en particular. Con tal motivo se selecciona una muestra de n = 64 hogares de la ciudad. La media muestral del gasto en gas para calefacción resultó de $83,6. Se sabe por experiencia que la desviación estándar de la población es $17,8.

a) Halle un intervalo de confianza del 95% para el gasto promedio anual en este tipo de combustible en las viviendas de la ciudad de La Plata.

b) Calcule un intervalo de confianza del 99% para ese gasto promedio anual. c) ¿Qué conclusiones puede sacar de a) y b)?

Solución a) La estimación puntual de es 6,83=X .

El valor de z, a la derecha del cual se tiene un área de 025,0=205,0

y por lo tanto de 0,975 a la

izquierda es, 96,1=z 025,0

De aquí que el intervalo de confianza del 95% es:

79,24 87,95

b) Para hallar el intervalo de confianza del 99%, se encuentra el valor de z, a la derecha del

cual existe un área de 005,0=201,0

y por lo tanto, de 0,995 a la izquierda.

Usando la tabla de la N (0, 1) resulta: 575,2=z 005,0 y el intervalo de confianza del 99% es:

6417,8

2,575.+6,83≤µ≤64

17,82,575.-6,83

o simplemente, 77,8 89,33

c) Se observa que:

la longitud del intervalo del 95% de confianza es: L1 = 8,71 la longitud del intervalo del 99% de confianza es: L2 = 11,53

El nivel de confianza establece en alguna medida la longitud del correspondiente intervalo de confianza. Aumentando el nivel de confianza (mayor certeza), aumenta la longitud (menor precisión). Podemos decir que el intervalo con 95% de confianza, que tiene menor longitud estima a con mayor precisión. Ejemplo 2 Se quiere estimar la facturación mensual promedio por luz eléctrica en el mes de julio en casas de familia de la ciudad de La Plata. Se sabe que la desviación estándar es de $20. Se quiere estimar la facturación promedio de julio con aproximación 5$ del promedio real, con 99% de confianza. ¿Qué tamaño de muestra se necesita? Solución = 20

Page 8: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 8 de 18

107n 25

20.575,2 2

n

5.3.2 Estimación para la media de una población normal con desconocida I. Cálculo del intervalo

Supongamos que disponemos de: Una muestra aleatoria de tamaño n, (X1,…, Xn) extraída de una población normal N (,

2) con desconocida. Un estimador puntual θ̂ del parámetro , que en este caso es la media muestral X . El estadístico pivote que usaremos en este caso, que será:

n

XTPS

-

donde S es la desviación estándar muestral. Recordaremos que T tiene distribución t de Student con = n-1 grados de libertad.

El nivel de confianza (1-) establecido a priori por el experimentador (los usuales son 0,95; 0,90; 0,99).

Dada la distribución del estadístico y el nivel de confianza, se tiene la siguiente igualdad probabilística:

-1)

nS

-t-( 2//2

tXP

donde 2/αt es el valor característico de la variable T de Student verificando que

( )2α

=t≥ TP 2/α

La expresión anterior es equivalente a:

Page 9: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 9 de 18

-1)t-( 2//2 n

StXn

SXP

que hace referencia a que con una probabilidad (1-) el intervalo:

]tX ;t-[ /2/2 nS

nSX

contendrá el valor medio . Ejemplo El contenido de 7 recipientes similares de vino es: 9,8; 10,2; 10,4; 9,8; 10,3; 10,2 y 9,6 litros. Encontrar un intervalo de confianza del 95% para la media de todos los recipientes, suponiendo una distribución aproximadamente normal. Solución Para los datos que se dan:

0,283Sy 10 X Usando la tabla de la distribución t, encontramos:

libertad de grados 6 =νcon 447,2=t 025,0 Por tanto el intervalo de confianza para será:

7283,0.447,210

70,2832,447.-10

Operando, 26,1074,9

II. Observaciones importantes

a) Para estimar la media de la población , se distinguió entre dos casos: conocida desconocida

Para conocida se usó el Teorema Central del Límite (Distribución Normal) Para desconocida se utilizó la distribución muestral de la v.a. T, basándose en la premisa de que la muestra se tomó de una distribución normal.

b) Se recomienda: cuando no se puede suponer normalidad con desconocida y n 30, reemplazar a por S y usar el intervalo de confianza

nS

.z±X 2/α dado que para una muestra grande (n 30) S se

acercará mucho al verdadero valor de la desviación estándar , entonces sigue siendo aplicable el Teorema Central del Límite.

III. Ejemplos

Ejemplo 1 Los siguientes datos son los pesos en gramos de 16 bolsas de cierto material plástico que se seleccionan en un depósito con el propósito de verificar el peso promedio: 506, 508,499, 503, 504, 510, 497, 512, 514, 505, 493, 496, 506, 502, 509, 496.

a) Si el peso de cada bolsa es una v.a. normal con desviación típica de 5 gramos, obtener los intervalos de confianza al 90, 95 y 99% para la media del peso de las bolsas.

b) Determinar el tamaño muestral, n, necesario para que la longitud del intervalo, con = 0,05, sea menor o igual a una unidad.

Solución Sea la v.a. X = “peso en gramos”, X tiene distribución N(, 52).

Page 10: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 10 de 18

a) Teniendo en cuenta que: 5=σy 503,76=X ,16=n

sustituyendo estos valores en la expresión del intervalo para la media de una población normal, con conocida, obtenemos:

1- z/2 Intervalo 0,90 1,64 [501,7; 505,8] 0,95 1,96 [501,3; 506,2] 0,99 2,58 [500,5; 506,9]

b) El tamaño muestral necesario para que la longitud del intervalo (L) sea menor o igual a la unidad, con un nivel = 0,05, es:

16,3841

5.96,1.4.4 22

2

222/

Lzn

Es decir, n 385. Ejemplo 2 Si, para los datos del ejemplo anterior, fuese desconocida:

a) Obtener los intervalos de confianza al 90, 95 y 99% para la media del peso de las bolsas (Suponer que la población es normal)

b) Determinar el tamaño muestral, n, necesario para que la longitud del intervalo, con = 0,05, sea menor o igual a una unidad.

Solución a) Dado que es desconocida, reemplazando su valor por S = 6,2022 y utilizándola

distribución t con 15 grados de libertad en vez de la distribución normal estándar, se obtienen los nuevos intervalos presentados en la siguiente tabla:

1- t/2 Intervalo 0,90 1,753 [501,03; 506,47] 0,95 2,131 [500,45; 507,05] 0,99 2,947 [499,18; 508,32]

b) El tamaño muestral resultante en este caso, tomando como estimación de el valor

calculado con la muestra dada y reemplazando t15,/2 por z/2, es: ( ) ( )

103,591=1

2022,6.96,1.4=

L

S.z.4≥n

22

2

222/α

Por tanto, n 592. Observar que en este caso se necesita un tamaño muestral bastante mayor que el obtenido en el ejemplo 1.

IV. Resumen

Se resumen en un cuadro los intervalos de confianza para una muestra, de la media de una población normal.

Intervalos para la media con 2 conocida

]zX ,.z-[ /2/2 nn

X

con 2 desconocida ]tX ,t-[ /21,-n/21,-n nS

nSX

con 2 desconocida y n 30 ]

nS

z+X ,n

Sz-X[ /2α/2α

5.4 Intervalos de confianza para medias considerando dos poblaciones

Page 11: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 11 de 18

5.4.1 Introducción Todo proceso de experimentación o de observación de un fenómeno aleatorio está sujeto a la

existencia de errores experimentales que suelen complicar notablemente la inducción de la realidad. Cuando decimos “error experimental” englobamos la aportación a los resultados observados de todos aquellos efectos (importantes o no) que escapan al objetivo inicial de nuestro estudio.

Cuando este “error” no es controlado por el experimentador y se manifiesta con gran

variabilidad en las diferentes unidades muestrales, la primera consecuencia suele ser que los aspectos relevantes y de interés se diluyen, pues aparecen ocultas tras esa fuerte dispersión de los resultados. Otras veces, incluso, la presencia del error experimental puede generar interpretaciones contrarias a la real.

Por tanto, un primer paso para evitar conclusiones erróneas es tratar de eliminar al máximo el error experimental. La forma de realizar esto es diseñar el muestreo, controlando en la mayor medida posible todos esos factores que engrosan el error experimental.

Un buen diseño y técnicas elementales de inferencia pueden ser una combinación mucho más eficiente que un muestreo mal planificado y un refinado y potente proceso de inferencia.

Supongamos que se pretende comparar el tiempo medio diario que los adolescentes dedican a

chatear con el que invierten en la lectura; para ellos definimos las dos variables aleatorias siguientes:

X: “tiempo diario dedicado a chatear” Y: “tiempo diario dedicado a la lectura”

Podemos construir un intervalo de confianza para la diferencia de medias poblacionales, X - Y.

Las dos muestras aleatorias necesarias pueden obtenerse mediante los procedimientos siguientes:

a) Seleccionar adolescentes al azar, de forma independiente hasta formar dos grupos de tamaño de igual o distinto tamaño, y evaluar X en un grupo e Y en el otro.

b) Seleccionar al azar un único grupo con n jóvenes y evaluar conjuntamente X e Y en el mismo grupo.

El muestreo propuesto en a) proporciona dos muestras independientes, ya que los resultados obtenidos en una no condicionan los resultados de la otra. En el muestreo propuesto en b) las dos muestras proceden de unidades experimentales exactamente iguales; las observaciones se recogen a pares por cada unidad muestral y se habla entonces de muestras apareadas. Observar que en este caso las muestras son claramente dependientes ya que esperamos que observaciones bajas de X se apareen con observaciones altas de Y y viceversa.

5.4.2 Intervalos de confianza para la diferencia de medias de dos poblaciones normales independientes

Sean (X1, X2,…, Xn) y (Y1, Y2,…, Ym) muestras aleatorias simples independientes. (X1, X2,…, Xn) es muestra aleatoria de una v.a.X, que supondremos N[X, (X)2]. (Y1, Y2,…, Ym) es muestra aleatoria de una v.a. Y, que supondremos N[Y, (Y)2].

Con ellas queremos construir intervalos de confianza para la diferencia de medias, X - Y.

I. Intervalo de confianza para la diferencia de medias de dos poblaciones normales independientes, con varianzas conocidas.

Bajo los supuestos de independencia de las muestras y normalidad de X e Y,

Page 12: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 12 de 18

)m

σ+

,µ-µN(≈Y-X ⇒)

,µ(N≈Y

)n

σ ,µ(N≈X 2

Y2X

YXY

Y

XX

Por tanto, el estadístico:

+n

σ

)µ-µ(-)Y-X(=P

2Y

2X

YX

tiene distribución N(0, 1) y puede ser usado como estadístico pivote. Podemos escribir la siguiente proposición probabilística:

[ ] α-1=z≤P≤z-P 2/α/2α Reemplazando P, se obtiene,

α-1=)z≤

+n

σ

)µ-µ(-)Y-X(≤z-(P 2/α2

Y2X

YX/2α

Operando se llega a que un intervalo con (1-) 100% de confianza para X - Y es:

+n

σ.z+Y-X≤µ-µ≤

+n

σ.z-Y-X

2Y

2X

/2αYX

2Y

2X

/2α

con z/2 punto crítico de la distribución normal estándar.

Si 22Y

2X σ=σ=σ escribimos el intervalo anterior como sigue:

m1

+n1

.σ.z+Y-X≤µ-µ≤m1

+n1

.σ.z-Y-X /2αYX/2α

Ejemplo Se llevan a cabo pruebas de resistencia a la tensión sobre dos diferentes clases de largueros de aluminio utilizados en la fabricación de alas de aeroplanos comerciales. De la experiencia pasada con el proceso de fabricación de largueros y del procedimiento de prueba, se supone que las desviaciones estándar de las resistencias a la tensión son conocidas. Los datos obtenidos se presentan en la siguiente tabla:

Clase del larguero

Tamaño de la muestra

Media muestral de la resistencia a la tensión

Desviación estándar

1 n1 = 10 6,87=x1 1=1 2 n2 = 12 5,74=x 2 2=1,5

Si 1 y 2 indican los verdaderos promedios de las resistencias a la tensión para las dos clases de largueros, hallar un intervalo del 90% de confianza para la diferencia de las medias 1 - 2.

Page 13: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 13 de 18

Solución Límite inferior del intervalo:

2

2

2

22

1

21

/2α21

kg/mm 12,22=0,88-1,13=

=12

)5,1(+

101

1,645.-74,5-6,87=nσ

+nσ

.z-x-x

Límite superior del intervalo:

2

2

2

22

1

21

/2α21

kg/mm 13,98=0,88+1,13=

=12

)5,1(+

101

1,645.+74,5-6,87=nσ

+nσ

.z+x-x

Luego el intervalo del 90% de confianza para la diferencia en la resistencia a la tensión promedio es:

98,13≤µ-µ≤22,12 21 Observar que:

a) El intervalo de confianza hallado no incluye al cero, entonces la resistencia promedio del aluminio de clase 1(1) es mayor que la del aluminio de clase 2(2).

b) Puede afirmarse que se tiene una confianza del 90% de que la resistencia promedio a la tensión del aluminio de clase 1 es mayor que la del aluminio de clase 2 en una cantidad que oscila entre 12,22 y 13,98 kg/mm2.

II. Intervalo de confianza para la diferencia de medias de dos poblaciones normales independientes, con varianzas desconocidas pero supuestas iguales

Recordemos que si 2Y

2X σy σ son conocidas y 22

Y2X σ=σ = σ el pivote usado para hallar un

intervalo de confianza de X-Y es:

m1

+n1

)µ-µ(-)Y-X(=Z YX

Z tiene distribución N (0, 1).

Sabemos que 2XS y 2

YS estiman a 2Xσ y 2

Yσ respectivamente. También sabemos que las dos variables aleatorias,

2

2Y

2

2X

σ

1).S-(my

σ

1).S-n(

tienen distribución Chi–Cuadrado con (n-1) y (m-1) grados de libertad respectivamente. Además son variables aleatorias independientes puesto que las muestras aleatorias se seleccionaron de forma independiente. Por tanto su suma:

2

2Y

2X

σ

1).S-m(+1).S-n(=V

tiene distribución Chi-Cuadrado con = (n-1)+ (m-1) = n + m – 2 grados de libertad.

Page 14: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 14 de 18

Puede mostrarse que las expresiones para Z y V son independientes y también que siendo Z v.a. N(0,1) y V con distribución Chi-cuadrado con grados de libertad, la v.a.

νVZ

=T

tiene distribución t de Student con grados de libertad.

Puesto que 2Y

2X Sy S son estimadores de la varianza común 2 , puede obtenerse un estimador

combinado de 2 mejor que 2Y

2X Sy S por separado. Este estimador, que indicaremos 2

pS , es

un estimador insesgado y más eficiente que 2Y

2X Sy S .

2-m+n1).S-(m+1).S-n(

=S2Y

2X2

p

Al sustituir 2pS en el estadístico T se obtiene,

m1

+n1

.S

)µ-µ(-)Y-X(=T

p

YX

Usaremos a T como pivote. Tendremos,

α-1=]t≤T≤-t[P 2/α/2α (1) donde t/2 es el valor t con n+m-2 grados de libertad, por arriba del cual encontramos un área de /2. Sustituyendo T en (1):

α-1=]t≤

m1

+n1

.S

)µ-µ(-)Y-X(≤-t[P 2/α

p

YX/2α

Operando adecuadamente se obtiene el intervalo de (1-) 100%,

m1

n1

p/2αYXm1

n1

p/2α +s.t+)y-x(≤µ-µ≤+s.t-)y-x(

Naturalmente, la construcción de este intervalo requiere suponer que las varianzas son iguales, aunque desconocidas. Para ello habrá que realizar previamente un test de hipótesis (procedimiento que se verá en un capítulo posterior) para determinar si dicha suposición es razonable. Ejemplo Un artículo publicado dio a conocer los resultados de un análisis del peso de calcio en cemento estándar y en cemento contaminado con plomo. Los niveles bajos de calcio indican que el mecanismo de hidratación del cemento queda bloqueado y esto permite que el agua ataque varias partes de una estructura de cemento. Al tomar diez muestras de cemento estándar, se encontró que el peso promedio de calcio es de 90 con una desviación estándar de 5; los resultados obtenidos con 15 muestras de cemento contaminado con plomo fueron de 87 en promedio con una desviación estándar de 4.

Page 15: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 15 de 18

Supóngase que el porcentaje de peso de calcio está distribuido de manera normal y que las dos poblaciones normales tienen la misma desviación estándar.

a) Encuentre un intervalo de confianza del 95% para la diferencia entre medias de los dos tipos de cemento.

b) ¿Es posible afirmar que la presencia que la presencia del plomo afecte este aspecto del mecanismo de hidratación, a partir de a)? Justifique la respuesta.

Solución a) El estimador combinado de la desviación estándar es:

41,4=S ⇒ 52,19=2-15+10

1)-15.(4+1)-10.(5=

2-m+nS).1-m(+S).1-n(

=S p

222Y

2X

p

. Al hacer las cuentas correspondientes se obtiene el intervalo:

-0,72 X - Y 6,72

b) Observar que el intervalo de confianza del 95% incluye al cero, entonces para este nivel de confianza no puede concluirse la existencia de una diferencia entre las medias. Podemos decir lo mismo expresando que no hay evidencia de que la contaminación del cemento por plomo tenga efecto sobre el peso promedio del calcio, por tanto con un nivel de confianza del 95% no podemos afirmar que la presencia del plomo afecte este aspecto del mecanismo de hidratación.

III. Intervalo de confianza para la diferencia de medias de dos poblaciones normales independientes, con varianzas desconocidas y que no pueden suponerse iguales

Si las varianzas no pueden suponerse iguales, no podremos usar el pivote del caso anterior, puesto que emplea a Sp como estimador de la varianza común de ambas poblaciones. El estadístico pivote que usaremos en este caso es:

mS

+n

S

)µ-µ(-)Y-X(=W

2Y

2X

YX

Si los tamaños muestrales son grandes (n 30 y m 30), W tiene distribución aproximadamente N(0, 1) y el intervalo (1-)100% de confianza para X - Y, es

].zY- ;.z-Y-[22

/2

22

/2 mS

nSX

mS

nSX YXYX

Si los tamaños muestrales son pequeños puede mostrarse que el estadístico pivote W

sigue una distribución t de Student con = n + m – 2 - grados de libertad, siendo un número que cumple con, (0 máx. n – 1, m-1) y es el entero más próximo a,

Page 16: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 16 de 18

22Y2

2X

22Y

2X

]mS1).[-(]

nS1).[-(

]mS1).-(n-

nS1).-[(

nm

m

Por tanto un intervalo del (1-) 100%, para X - Y, es,

mS

nSX

mS

nSX YXYX

22

/2,

22

/2, .tY- ;.t-Y-[

Ejemplo En un estudio realizado sobre el tipo de sedimentos hallados en dos lugares de perforación distintos, se han anotado los siguientes datos acerca del porcentaje en volumen de arcilla presente en las muestras de sondeo: X: 31 18 17 16 37 16 32 13 14 49 25 19 13 32 27 Y: 15 17 13 25 22 20 24 12 23 15 20 18 siendo X = “% de arcilla en el lugar A” e Y = “% de arcilla en el lugar B” Calcular un intervalo del 95% de confianza para la diferencia de los valores medios de X e Y. Solución A partir de los datos muestrales se obtiene:

355,4=S 18,667=Y 12=m559,10=S 23,933 =X 15=n

Y

X

Supuesto que X e Y son variables aleatorias normales con varianzas desconocidas y distintas, necesitamos determinar el número de grados de libertad de la t de Student, para poder obtener el intervalo pedido. Con los datos anteriores, = 9,378; entonces,

=n +m -2 – 9 = 16 1199,20,025 ;162/, tt

Sustituyendo los valores calculados en el intervalo,

].tY- ;.t-Y-[22

/2,

22

/2, mS

nSX

mS

nSX YXYX

el intervalo del 95% de confianza para X - Y es [-1,099; 11,631].

IV. Determinación del tamaño muestral Suponiendo que elegimos muestras del mismo tamaño en ambas poblaciones (n = m), ¿cuál es el tamaño muestral necesario para que la longitud del intervalo para la diferencia de medias, con un nivel de confianza prefijado (1-), sea igual a una cantidad predeterminada?

a) Si las varianzas poblacionales son conocidas, despejando n en la longitud del intervalo,

nzL YX

22

2/ ..2

se obtiene,

2

2222/ )(.4

Lzn YX

b) Si las varianzas son desconocidas pero pueden suponerse iguales, dada una estimación

preliminar de la varianza común 2pS y supuesto que n es suficientemente grande para

Page 17: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 17 de 18

aproximar la distribución t por la normal estándar, despejando n de la longitud del

intervalo, n2

.S.z.2=L p2/α , el tamaño muestral es

2

2p

22/α

L

S.z.8=n

c) Si las varianzas son desconocidas y no pueden suponerse iguales, supuesto que n es

suficientemente grande para aproximar la distribución t por la normal estándar, el valor

de n que se obtiene al despejar en la longitud del intervalo, n

S+S.z.2=L

2Y

2X

2/α

es,

2

2Y

2X

22/α

L

)S+S(z.4=n

donde 2Y

2X Sy S son estimaciones preliminares de las varianzas poblacionales.

5.4.3 Intervalos de confianza para la diferencia de medias con datos apareados En la sección 5.4.1 tratamos el problema de las muestras independientes y las apareadas, haciendo la observación que la principal característica del muestreo apareado es que ambas muestras son dependientes. Esta dependencia hace que los estadísticos pivote usados en el caso de independencia no se deben emplear cuando el muestreo se haya hecho de forma apareada, puesto que los intervalos de confianza hallados pueden resultar demasiado grandes o excesivamente pequeños. El motivo de esta posible distorsión es que si las variables X e Y son dependientes la

)Y ,X2Cov(-)YVar()()Y-( XVarXVar con lo que, si consideramos las variables independientes y nos olvidamos del término de la covarianza, el denominador de los estadísticos pivote puede ser equivocadamente grande o pequeño, según como sea la covarianza entre X e Y. Para evitar este problema consideramos la nueva variable aleatoria D = X – Y y estimamos directamente Var (X-Y).

Supuesto que D es normal con media YXD µ-µ=µ y varianza 2Dσ es equivalente construir

un intervalo de confianza para X - Y que construirlo para D. De esta manera dada las diferencias Di = Xi – Yi, obtenidas a partir de las muestras apareadas y utilizando el procedimiento ya descripto para la construcción de intervalos de confianza para la media de una población normal, con varianza desconocida podemos hallar un intervalo del (1-) 100% de confianza para D = X - Y. El intervalo obtenido será,

].t ;.t-[ /21,-n/21,-n nSD

nSD DD

Ejemplo Una cadena de negocios de electrodomésticos quiere estudiar la efectividad de una nueva campaña televisiva sobre la venta de una cierta marca de heladeras. Para ello se recoge el número de unidades vendidas durante un mes antes y un mes después de la campaña, en 12 de

Page 18: Capitulo5 estimacion por_intervalo_es_de_confianza (2)

UNLP-Facultad de Ingeniería Cátedra: Estadística Carreras: Ing. Electrónica y Electricista Mag. Lic. Alicia Ledema

Página 18 de 18

los negocios que componen la cadena. Los resultados obtenidos están dados en la siguiente tabla,

Antes 12 10 15 8 19 14 12 21 16 11 8 15 Después 11 11 17 9 21 13 16 25 20 18 10 17

a) Con un error del 5% hallar un intervalo de confianza para la diferencia de medias de

unidades vendidas durante un mes antes y un después. Indicar las hipótesis realizadas. b) ¿Se puede considerar efectiva la campaña publicitaria?

Solución a) Se trata de muestras apareadas, los valores que toma la v.a.D son: 1, -1,

-2, -1, -2, 1, -4, -4, -4, -7, -2, -2. Se supone normalidad en la diferencia. Se obtiene:

-2,25=1227

-=Dn1

=D ∑n

1=kk

6875,4=S2D

20,2=t= t 0,025 11;/2α 1;-n

Se obtiene el intervalo: 0,814)- -3,686;(=)1-12

4,68752,20.±-2,25(

b) Existen diferencias significativas, puesto que el intervalo no contiene al cero.

RESUMEN: INTERVALOS DE CONFIANZA PARA DOS MUESTRAS

Intervalos para la diferencia de medias (X - Y) Con X y Y conocidas

]m

σ+

z±Y-X[2Y

2X

/2α

Con X = Y desconocidas ]

m1

+n1

S.t±Y-X[ p/2α 2;-m+n

Con X Y desconocidas y n, m 30 ]

mS

+n

Sz±Y-X[

2Y

2X

/2α

Con X Y desconocidas y n 30 ó m 30 ]

mS

+n

St±Y-X[

2Y

2X

/2α ;ν

Con datos apareados ]

nS

.t±D[ D/2α1,-n