1 estimación puntual - unlp

21
Aæo 2012 1 Estimacin puntual La inferencia estadstica generalmente pretende obtener informacin acerca de uno o mÆs parÆmetros de una distribucin poblacional. Esta informacin se obtiene a partir de una muestra de esa poblacin. Llamaremos muestra aleatoria de una distribucin F , a un conjunto de variables aleatorias X 1 ;X 2 ; ::; X n independientes y todas con la misma dis- tribucin F: Los valores observados de esa muestra aleatoria son nœmeros x 1 ;x 2 ; :::; x n . Llamamos estadstico, a cualquier funcin de la muestra aleatoria, en- tonces un estadstico es tambiØn una variable aleatoria. Denicin: Sea X 1 ;X 2 ; ::; X n una muestra aleatoria de una distribucin que depende de un parÆmetro (usaremos la notacin F ()). Un estimador puntual de ese parÆmetro , es un estadstico b (X 1 ;X 2 ; ::; X n ), de modo que un estimador es una variable aleatoria. Cuando esa funcin se aplica a los valores observados de la muestra aleatoria b (x 1 ;x 2 ; ::; x n ) constituye una es- timacin puntual, que es un nœmero. Si tenemos una muestra aleatoria X 1 ;X 2 ; ::; X n de cualquier distribucin que sabemos que tiene media , el estimador usual para este parÆmetro es la media muestral X , que ya denimos en la seccin anterior. Si tenemos una muestra aleatoria X 1 ;X 2 ; ::; X n , de una distribucin con- tinua desconocida, de la cual no sabemos si es simØtrica ni si existe la media, al menos sabemos que existe la mediana e de esa distribucin. Entonces, podemos estimar e con la mediana muestral, que se dene como: Denicin: Dados los valores observados x 1 ;x 2 ; :::; x n de una muestra aleatoria. Llamamos x (i) a los x i ordenados x (1) x (2) :::: x (n) : La mediana muestral med(x 1 ;x 2 ; :::x n )= e x es el valor que divide a los datos en dos partes iguales. Si n es impar, entonces e x = x (m) con m = n +1 2 : 2

Upload: others

Post on 25-Oct-2021

18 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: 1 Estimación puntual - UNLP

Año2012

1 Estimación puntual

La inferencia estadística generalmente pretende obtener información acercade uno o más parámetros de una distribución poblacional. Esta informaciónse obtiene a partir de una muestra de esa población.Llamaremos muestra aleatoria de una distribución F , a un conjunto de

variables aleatorias X1; X2; ::; Xn independientes y todas con la misma dis-tribución F: Los valores observados de esa muestra aleatoria son númerosx1; x2; :::; xn.Llamamos estadístico, a cualquier función de la muestra aleatoria, en-

tonces un estadístico es también una variable aleatoria.

De�nición: Sea X1; X2; ::; Xn una muestra aleatoria de una distribuciónque depende de un parámetro � (usaremos la notación F (�)). Un estimadorpuntual de ese parámetro �, es un estadístico b�(X1; X2; ::; Xn), de modo queun estimador es una variable aleatoria. Cuando esa función se aplica a losvalores observados de la muestra aleatoria b�(x1; x2; ::; xn) constituye una es-timación puntual, que es un número.

Si tenemos una muestra aleatoria X1; X2; ::; Xn de cualquier distribuciónque sabemos que tiene media �, el estimador usual para este parámetro es lamedia muestral X, que ya de�nimos en la sección anterior.

Si tenemos una muestra aleatoria X1; X2; ::; Xn, de una distribución con-tinua desconocida, de la cual no sabemos si es simétrica ni si existe la media,al menos sabemos que existe la mediana e� de esa distribución. Entonces,podemos estimar e� con la mediana muestral, que se de�ne como:De�nición: Dados los valores observados x1; x2; :::; xn de una muestra

aleatoria. Llamamos x(i) a los xi ordenados

x(1) � x(2) � :::: � x(n):

La mediana muestral med(x1; x2; :::xn) = ex es el valor que divide a los datosen dos partes iguales. Si n es impar, entonces

ex = x(m) con m =n+ 1

2:

2

Page 2: 1 Estimación puntual - UNLP

Si n es par, ex = 1

2

�x(m) + x(m+1)

�; con m =

n

2:

Ejemplo 1.1 Consideremos las siguientes 20 observaciones, cada una rep-

resenta la duración (en horas) de un cierto tipo de lámpara incandescente

1088 666 1016 964 1058 612 1003 898 1197 1022744 1135 623 1085 970 1201 983 1029 883 1122

Para calcular la mediana debemos ordenar las observaciones:

612, 623, 666, 744, 883, 898, 964, 970, 983, 1003, 1016, 1022,

1029, 1058, 1085, 1088, 1122, 1135, 1197, 1201

como en este caso tenemos 20 observaciones, la mediana será el promedio delas dos centrales:

ex = 1

2(x(10) + x(11)) =

1

2(1003 + 1016) = 1009:5

Estimadores insesgadosSi queremos estimar un parámetro, no parece razonable elegir cualquier

función de la muestra. En general pediremos que el estimador tenga algunaspropiedades.

De�nición: Si queremos estimar un parámetro �, un estimador b� se diceque es insesgado, si E(b�) = �. Si b� no es insesgado la diferencia E(b�)� �, sellama sesgo del estimador.

Dada una muestra aleatoria de una distribución con media �, ya vimosque E(X) = �; luego X es un estimador insesgado de la media poblacional�

Dada una muestra aleatoria de una distribución con media � y varianza�2 se de�ne la varianza muestral como:

S2 =

P(Xi �X)2n� 1

3

Page 3: 1 Estimación puntual - UNLP

La varianza muestral es un estimador insesgado de �2, esto signi�ca que:

E(S2) = �2

Para probar esta propiedad, desarrollamos:X(Xi �X)2 =

X(X2

i � 2XiX +X2) =

XX2i � 2X

XXi + nX

2

y teniendo en cuenta que: XXi = nX

llegamos a: X(Xi �X)2 =

XX2i � nX

2

entonces aplicando las propiedades de la esperanza

E(S2) =EP(Xi �X)2n� 1 =

PEX2

i � nEX2

n� 1 (1)

además sabemos que E(X2) = var(X) + E(X)2, entonces vemos que:

E(X2i ) = �

2 + �2 y E(X2) = �2=n+ �2

y reemplazando en (1)

E(S2) =

P(�2 + �2)� n(�2=n+ �2)

n� 1 =n�2 + n�2 � �2 � n�2

n� 1 =(n� 1)�2n� 1

Ejemplo 1.2 Si X � B(n; p) un posible estimador de p es bp = X=nse puede ver que es un estimador insesgado, ya que:

E (bp) = E (X=n) = E(X)=n = np=n = pEjemplo 1.3 Pensando en el ejercicio 2 de la práctica 4, supongamos que eltiempo de espera tiene una distribución uniforme en un intervalo [0; �] donde� es desconocido. Se desea estimar � en base a los tiempos que tiene queesperar una persona durante 10 días: 4:5; 6:3; 3:1; 1:1; 8:9; 2:4; 0:6; 7:3; 5:7; 9:2.Estos son los valores observados de una muestra aleatoria X1; X2; ::; Xn deuna distribución U s [0; �]

4

Page 4: 1 Estimación puntual - UNLP

Como � es el máximo posible para un tiempo de espera, parece razonableelegir como estimador de �, al máximo de los tiempos de espera de la muestra;esto se escribe: b� = max(X1; X2; ::; Xn). se puede demostrar que:

E(b�) = n

n+ 1�

esto signi�ca que b� no es un estimador insesgado para �; sin embargo, a partirdel mismo, se puede obtener un estimador insesgado, de�niendo:

b�1 = n+ 1

nmax(X1; X2; ::; Xn):

este estimador es insesgado, ya que:

E(b�1) = E(n+ 1n

max(X1; X2; ::; Xn)) =n+ 1

n

n

n+ 1� = �

Para este mismo ejemplo, recordando que la esperanza de una v.a. condistribución uniforme es el punto medio del intervalo, en este caso �=2, sepodría de�nir otro estimador para � como:b�2 = 2Xeste estimador también es insesgado, ya que:

E�b�2� = E �2X� = 2E �X� = 2�

2= �

Con los valores del ejemplo la estimación obtenida por el primer estimadores 11

10max(xi) =

11109:2 = 10:12

y la estimación obtenida con el segundo es: 2x = 2 � 4:91 = 9:82

Si para estimar un parámetro tenemos más de un estimador insesgado esconveniente elegir el que tiene menor varianza.

De�nición: Se denomina error estándar de un estimador a su desviaciónestándar, dt(b�) =qvar(b�). Si en el error estándar hay parámetros descono-cidos cuyos valores se pueden estimar, al sustituir dichos parámetros por susestimadores, se obtine el error estándar estimado del estimador, se sueledenotar con b�b�

5

Page 5: 1 Estimación puntual - UNLP

Sea X1; X2; ::; Xn una muestra aleatoria de una distribución con media �y varianza �2:Ya vimos que X es un estimador de �, y s es un estimador de�, el error estándar de X es dt(X) = �=

pn y el error estándar estimado es

\dt(X) = s=pn:

Si X � B(n; p) ya vimos que bp = X=n es un estimador del parámetro p;su error estándar es dt(bp) =pvar(X=n) =qp(1�p)

n

Realice los ejercicios 1 a 7

2 Intervalos de con�anza

2.1 Intervalos para una media

En los ejemplos anteriores hemos estimado un parámetro, que puede tomarcualquier valor dentro de un intervalo real, sabemos que es practicamenteimposible que nuestra estimación sea exactamente igual al parámetro quedeseamos estimar. Por ese motivo, para dar una idea de la precisión de laestimación, se busca dar una estimación mediante un intervalo de con�anza.Antes de dar una de�nición formal, veamos un ejemplo.

Ejemplo 2.1 Consideremos la distribución de los niveles de colesterol ensangre de los hombres de cierta comunidad hipertensos y que fuman. Se sabeque esta distribución es aproximadamente normal, se desconoce su media�, pero se sabe que su desviación típica � = 46 mg/100ml. (aunque no seconoce � se supone que � es la misma que la de la población de adultos de sexomasculino de esa comunidad). Se desea conocer el nivel medio de colesterolen sangre de este grupo; entonces, se seleccionan 12 hombres fumadores ehipertensos y se determina el nivel de colesterol para cada uno. El nivel decolesterol en sangre para cada individuo es una variable aleatoria Xi que tienedistribución normal con media � (el valor que se desea conocer) y el � antesmencionado; cuando se promedian los 12 valores observados, se obtiene unx = 217 mg/100ml. Notar que � es la media �verdadera�desconocida de lasobservaciones Xi; mientras que x es la media de la muestra. Este valor esuna estimación de �:

Para tener en cuenta también la precisión de la estimación, se busca acotar� mediante un intervalo, que debe depender de los datos. Como éstos son

6

Page 6: 1 Estimación puntual - UNLP

aleatorios, el intervalo tambien lo será, y por lo tanto podría no contener a �si tenemos mala suerte. Lo mas que se puede hacer es �jar una probabilidad�alta�1 � �; y buscar un intervalo que contenga � con probabilidad 1 � �.En este caso �jaremos 1� � = 0:95.Como las Xi son una muestra aleatoria de una N(�; �2); el estadístico

Z =

�X � �

��=pn

tiene distribución N(0; 1). Entonces, si buscamos en la tabla, vemos que�(1:96) = 0:975, luego P (Z > 1:96) = P (Z < �1:96) = 0:025 de allípodemos ver que:

P

�1:96 �

�X � �

��=pn

� 1:96!= 0:95 (2)

luego, despejando en esa desigualdad, obtenemos:

P

�X � 1:96 �p

n� � � X + 1:96 �p

n

�= 0:95

que quiere decir que el intervalo

(X � 1:96�=pn ; X + 1:96�=

pn) (3)

de extremos aleatorios contiene al verdadero valor del parámetro � con pro-babilidad 0.95; o que el mismo es un intervalo de 95% de con�anza para�:Utilizando los valores del ejemplo y reemplazando X por x = 217, obte-

nemos: �217� 1:96 46p

12; 217 + 1:96

46p12

�= (191; 243)

Nota: Se de�ne el valor crítico z�, como el valor tal que P (Z > z�) = �,donde Z es una variable aleatoria con distribución N(0; 1).El procedimiento que utilizamos para construir un intervalo con un nivel

0.95, se puede aplicar para cualquier nivel de con�anza 1 � �, en este casose reemplazan los valores -1.96 y 1.96 por los valores críticos �z�=2 y z�=2,entonces:

P

�z�=2 �

�X � �

��=pn

� z�=2

!= 1� �

7

Page 7: 1 Estimación puntual - UNLP

y llegamos :

P

�X � z�=2

�pn� � � X + z�=2

�pn

�= 1� �

y �nalmente al intervalo:�X � z�=2�=

pn ; X + z�=2�=

pn�

(4)

Ahora podemos dar una de�nición y un método para construir intervalosde con�anza siguiendo las mismas etapas del ejemplo.De�nición: Sea X1; X2; ::; Xn una muestra aleatoria de una distribución

F (�). Un intervalo de con�anza de nivel (1� �), (o intervalo de (1� �)%de con�anza o (IC(1��)), es un intervalo de extremos aleatorios, que contieneal parámetro �, con probabilidad 1� �, esto quiere decir

IC(1��) = (g1(X1; X2; ::; Xn); g2(X1; X2; ::; Xn))

tal que

P�� 2 IC(1��)

�= P (g1(X1; X2; ::; Xn) � � � g2(X1; X2; ::; Xn)) = 1� �

¿Como construimos un IC? En general se siguen los mismos pasosque en el ejemplo anterior:

1. Se busca un estadístico que sea función de la muestra aleatoria ydel parámetro de interés, pero cuya distribución no dependa de dichoparámetro, llamemos h(X1; X2; ::; Xn; �) a ese estadístico.

En el ejemplo h(X1; X2; ::; Xn; �) =

�X � �

��=pn

� N(0; 1)

2. Determinar un par de números reales a y b, tales que

P (a < h(X1; X2; ::; Xn; �) < b) = 1� � (5)

En el ejemplo: a = �z�=2 y b = z�=2

8

Page 8: 1 Estimación puntual - UNLP

3. Siempre que sea posible, a partir de (5), despejar los extremos aleatoriosg1(X1; X2; ::; Xn) y g2(X1; X2; ::; Xn) En el ejemplo:

g1(X1; X2; ::; Xn) = X�z�=2�=pn ; g2(X1; X2; ::; Xn) = X+z�=2�=

pn

Interpretación de un intervalo de con�anzaEl nivel de con�anza 95% del ejemplo, proviene de la probabilidad 0:95 del

intervalo aleatorio (3). Es importante recordar que al reemplazar los estadís-ticos por los valores de la muestra, obtuvimos un intervalo real (191; 243) ;este ya no es aleatorio y no tiene sentido decir que contiene a � con proba-bilidad 0.95. La interpretación correcta del �nivel de con�anza�se basa en laidea de probabilidad como límite de las frecuencias relativas. Supongamos,para el ejemplo, que se seleccionan muchas muestras aleatorias de 12 hombresde esa población y se construyen intervalos de con�anza utilizando el mismoprocedimento; con cada muestra de 12 observaciones tendremos un valor de xdiferente, y en consecuencia un intervalo numérico diferente, lo que podemosa�rmar es que el 95% de estos intervalos contienen al verdadero valor �, ynaturalmente habrá un 5% de dichos intervalos que no contienen al verdaderovalor �.

Nivel de con�anza, precisión y tamaño de la muestra.Como resulta lógico, es deseable que el nivel de con�anza 1 � � sea lo

mayor posible, pero z� aumenta cuando elegimos valores más grandes parael nivel 1� � (por ejemplo si queremos un nivel del 99%, los valores críticosson -2.58 y 2.58), y en consecuencia aumenta la longitud del intervalo. Estosigni�ca que si se quiere más seguridad hay que pagarla con menos precisión.En nuestro ejemplo si deseamos un nivel de 99% de con�anza, el intervaloserá: �

217� 2:58 46p12; 217 + 2:58

46p12

�= (183; 251)

la longitud de este intervalo es L = 251� 183 = 68:¿Qué deberíamos hacer si queremos tener un nivel de 99%, pero mayor

precisión, por ejemplo una longitud no mayor de 20? La longitud de (4) esL = 2z�=2�=

pn, entonces haciendo

2� 2:58 46pn� 20

9

Page 9: 1 Estimación puntual - UNLP

podemos despejarpn � 2� 2:58� 46

20y

n � 140:8entonces necesitaríamos una muestra de por lo menos 141 hombres paralograr un intervalo de 99% de con�anza con longitud no mayor de 20.

Ejemplo 2.2 Consideremos las siguientes 7 mediciones de la concentra-ción de ion nitrato (en �g/ml) en una muestra de agua:

49 50 51 51 52 53 48

Se desea saber algo sobre el valor verdadero � de la concentración, medianteun intervalo de con�anza. Se supone que cada observación Xi es una variablealeatoria con distribución normal con media �; la que estimamos con la mediamuestral x = 50:57:

En este caso no podemos usar el estadístico

Z =

�X � �

��=pn

ya que no conocemos �, entonces debemos usar otro.Consideremos el estadístico

T =

�X � �

�S=pn

cuando las Xi son una muestra aleatoria de una distribución normal, el es-tadístico T tiene distribución �t�de Student con n � 1 grados de libertad.Esta distribución es simétrica, y existen tablas con los valores críticos deesta distribución para cada valor de �grados de liberad �.El valor crítico correspondiente a �, es el valor t� tal que P (T > t�) = �.Si el número de grados de libertad no �gura en la tabla, se toma el más

próximo.Comparando con la tabla de la distribución normal, se ve que para n

grande, los valores críticos de la distribución de Student coinciden con los dela N(0; 1):

10

Page 10: 1 Estimación puntual - UNLP

Entonces, siguiendo el procedimiento antes descripto, obtenemos el si-guiente intervalo de (1� �)% de con�anza para parámetro ��

X �t�=2Spn; X +

t�=2Spn

�(6)

ReemplazandoX y S por los valores calculados x y s; obtenemos un intervaloreal. En nuestro caso, x = 50:57, s = 1:718, y pongamos 1 � � = 0:95 (elnivel de con�anza es 95%) se busca en la tabla el valor t correspondiente a�grados de libertad�= n� 1 = 6 y �=2 = 0:025, que es t0:025 = 2:45:El intervalo es �

x� t0:025spn

; x+t0:025spn

�;

(se lo escribe �x� ts=pn�) que aquí resulta

(48:98 ; 52:16) :

Ejemplo 2.3 La contaminación de metales pesados de varios ecosistemas esuna amenaza ambiental. Un artículo cientí�co reporta que, para una muestrade n = 56 peces de la especie Mugil liza, la concentración media muestral dezinc en el hígado fue de 9:15�g=g y la desviación estándar muestral fue de1:27�g=g. Se desea estimar �, la concentración media poblacional de zinc enel hígado de esa especie de peces, mediante un intervalo de 95% de con�anza.

Para construir el intervalo de con�anza (6) nos basamos en la suposiciónde que la distribución de la población era normal. Si ese no es el caso, el es-tadístico utilizado no tendría distribución de Student. Cuando no conocemosla distribución de los datos, es necesario usar algún tipo de aproximación.En la práctica anterior mencionamos el teorema del límite central, queserá de utilidad en este caso. Este teorema dice que si tenemos una muestraaleatoriaX1; X2; :::; Xn de cualquier distribución, cuando n es su�cientementegrande, la distribución de

pn�X � �

�=� se aproxima a una N(0; 1); también

es cierto que si se reemplaza � por S, la distribución también se aproximaa una N(0; 1): Este resultado es el que usaremos cuando no conocemos ladistribución de los datos. El procedimiento es el mismo, partimos del mismoestadístico

T =

�X � �

�S=pn

11

Page 11: 1 Estimación puntual - UNLP

que, considerando que n es grande (en este ejemplo n=56), tiene una dis-tribución aproximadamente N(0; 1): Entonces los valores que elegimos son�z�=2 y z�=2; y podemos a�rmar que:

P

�z�=2 �

pn�X � �

�S

� z�=2

!' 1� �

y despejando la desigualdad, como antes, tenemos:

P�X � z�=2S=

pn � � � X + z�=2S=

pn�' 1� �

Reemplazando con los datos del ejemplo, x = 9:15; s = 1:27; y z0:025 =1:96; obtenemos:

(8:82; 9:48)

este intervalo tiene nivel de con�anza aproximado de 95%.

Realice los ejercicios 8 a 13

2.2 Intervalos para una proporción

Ejemplo 2.4 Se realizó un estudio para detectar anemia en niños menoresde 6 años en una comunidad rural. Se seleccionaron al azar 230 niños deesa comunidad, y se encontraron 107 con anemia (Hg<11 g/dl). Se deseaestimar mediante un intervalo de con�anza el porcentaje de niños con anemiaen esa comunidad.

El número de casos, en la muestra de 230, con anemia es x = 107La cantidadX se puede considerar una variable con distribución binomial

con parámetros n y p; y por lo tanto

EX = np; dt(X) =pnp(1� p):

Ya vimos que bp = X

n

la proporción observada en la muestra; es un estimador de p y cumple

Ebp = p; dt(bp) =rp(1� p)n

:

12

Page 12: 1 Estimación puntual - UNLP

Y con el caso particular del TLC para la binomial, sabemos que la dis-tribución de bp� pq

p(1�p)n

se aproxima a una N(0; 1)

también vale que la distribución de

bp� pq bp(1�bp)n

se aproxima a una N(0; 1)

Entonces eligiendo los valores críticos �z�=2 y z�=2, se cumple:

P

0@�z�=2 � bp� pq bp(1�bp)n

� z�=2

1A ' 1� �

Luego, se puede obtener un intervalo de con�anza para p con nivel aprox-imadamente 1� � (para n grande), de la forma bp� z�=2rbp(1� bp)

n; bp+ z�=2rbp(1� bp)

n

!

abreviado, es

bp� z�=2rbp(1� bp)n

:

En nuestro caso es bp = 0:4652, y si elegimos 1�� = 0:95; es z�=2 = 1:96;y el intervalo resulta

(0:4007;0:5297) : (7)

El extremo inferior del intervalo podría dar negativo, en cuyo caso se lohace igual a cero; de igual forma se procede si el superior da mayor que 1.

Conociendo el tamaño de la población se puede construir un intervalode con�anza para la cantidad de individuos en esa población que tienen laca-racterística que se está estudiando. En el ejemplo, si se desea evaluar loscostos de un programa de intervención para mejorar la salud comunitaria,interesa conocer el número de niños con anemia grave. Si la población deniños menores de 6 años del ejemplo tiene N = 1500 individuos, la cantidad

13

Page 13: 1 Estimación puntual - UNLP

desconocida M de niños con anemia se estima multiplicando bp por N; o sea698, y un intervalo para M se obtiene multiplicando (7) por N; o sea

601 �M � 795:

Nivel de con�anza, precisión y tamaño de la muestraEn el ejemplo anterior, la longitud del intervalo para la proporción de

niños con anemia, es 0.129. En general, la longitud es

L = 2z�=2

rbp(1� bp)n

Si se pretende estimar la proporción de niños anémicos con un error nomayor del 5%, esto quiere decir que la longitud del intervalo no debe sermayor que 0.10, antes de realizar el estudio se debería determinar cuantosniños o cuántas muestras de sangre se necesitará analizar. El problema eneste caso, es que la longitud del intervalo depende también de bp; que no seconoce antes del estudio. Pero se puede ver facilmente que para cualquier bp;vale bp(1 � bp) � 1=4, entonces L = 2z�=2q bp(1�bp)

n� 2z�=2

p1=4n = z�=2=

pn,

entonces si queremos que L � d, emos hacer z�=2=pn � d y de allí podemos

despejar el valor de n necesario para que la longitud del intervalo sea a losumo dPara el ejemplo:

L = 2� 1:96�rbp(1� bp)

n� 2� 1:96�

r1

4n= 1:96=

pn � 0:10 (8)

luegon � (1:96=0:10)2 = 384:16

entonces con n = 385 nos aseguramos que la longitud del intervalo será menorde 0:10.

Realice los ejercicios de 14 a 19

14

Page 14: 1 Estimación puntual - UNLP

2.3 Intervalos para una varianza

En general son de mayor interés las inferencias relacionadas con una media ouna proporción que las inferencias relacionadas con una varianza o desviacióntípica. Sin embargo hay situaciones en que interesa hacer inferencias sobreestas últimas.

Ejemplo 2.5 Consideremos nuevamente los datos del ejemplo2.2, en esecaso podríamos estar interesados en tener una idea del error de mediciónmediante una estimación de la desviación típica de las Xi:

En este caso, ya sabemos que S2 es un estimador de la varianza �2; asícomo S es un estimador de la desviación típica �: Pero queremos construirun intervalo que contenga al verdadero �2 (o �) con probabilidad 1 � �.Para esto, como siempre, necesitamos un estadístico, que tenga una distribu-ción conocida independiente del parámetro a estimar, que sea función de lamuestra y del parámetro.En este caso el estadístico que nos sirve es

V =(n� 1)S2

�2=

P(Xi �X)2�2

ya que puede demostrarse que, cuando las Xi tienen distribución N(�; �2),este estadístico tiene distribución Chi-cuadrado (�2) con n � 1 grados delibertad. Esta distribución no es simétrica, la densidad es no nula sólo parax > 0: También existen tablas para los valores críticos de esta distribuciónpara cada valor de �grados de libertad �.El valor crítico correspondiente a �, es el valor �2� tal que el área bajo la

curva densidad de una distribución chi-cuadrado, es igual a �; o expresadode otro modo P (V > �2�) = �, donde V tiene distribución chi-cuadrado.Como siempre, necesitamos un par de valores, tales que el estadístico V seencuentre entre ellos con probabilidad 1 � �: Pero esta distribución no essimétrica, entonces deberemos elegir los valores �21��=2 y �

2�=2 tales que

P

��21��=2 �

(n� 1)S2�2

� �2�=2�= 1� �

al despejar �2 de la expresión entre paréntesis, llegamos a

P

(n� 1)S2�2�=2

� �2 � (n� 1)S2�21��=2

!= 1� �

15

Page 15: 1 Estimación puntual - UNLP

y �nalmente al intervalo (n� 1)S2�2�=2

;(n� 1)S2�21��=2

!

de extremos aleatorios. Como siempre esto signi�ca que el verdadero valorde �2 se encuentra en ese intervalo con probabilidad 1�� . Reemplazando elestimador S2 por el valor de la muestra s2, obtenemos un intervalo numérico.Para el ejemplo s = 1:718 y eligiendo 1 � � = 0:95; los valores críticos losbuscamos en la tabla de la chi-cuadrado con n� 1 = 6 grados de libertad ytenemos:

�20:025 = 14:440 ; �20:975 = 1:635

y �nalmente el intervalo para �2 (n� 1)s2�2�=2

;(n� 1)s2�21��=2

!=

�6� 2:951514:440

;6� 2:95151:237

�= (1:2264; 14:3161)

si deseamos un intervalo para � debemos sacar raiz cuadrada a cada extremodel intervalo anterior y queda

(1:107; 3:784)

Realice el resto de los ejercicios

16

Page 16: 1 Estimación puntual - UNLP

Práctica 5

1. Se analizaron doce muestras de cierta marca de pan blanco (A) y sedeterminó el contenido de carbohidratos (expresado en porcentaje),obeteniéndose los siguientes valores:

76:93 76:88 77:07 76:68 76:39 75:09

76:88 77:67 78:15 76:50 77:16 76:42

(a) Estime la media y la mediana del contenido de carbohidratos paraesta marca.

(b) Estime la varianza del contenido de carbohidratos.

(c) Estime el error estándar de la media del contenido de carbo-hidratos.

2. Se supone que el tiempo de vida (en horas) de un tipo de lámparatiene distribución exponencial. Se prueban 10 lámparas de ese tipo yse observa que los tiempos de vida de las mismas son:

7:5 28:2 47:4 17:2 8:5 60:1 21:3 29:5 2:7 5:5

(a) Estime el parámetro � de la distribución

(b) Estime la probabilidad de que una lámpara de ese tipo dure másde 50 horas.

3. El tiempo de espera de un autobus tiene distribución uniforme [0; �], silos tiempos de espera de los últimos 10 días fueron:

2:06 7:73 0:67 5:27 6:62 9:36 3:16 5:23 7:66 1:27

(a) Estime el parámetro � con dos estimadores diferentes.

(b) Estime la probabilidad de tener que esperar más de 6 min.

4. Siguiendo con el caso del ejercicio 1, si los siguientes son los valores delcontenido de carbohidratos de 10 muestras de otra marca de pan (B):

75:81 76:08 74:06 75:69 75:91

75:62 75:49 76:08 75:42 75:83

17

Page 17: 1 Estimación puntual - UNLP

(a) Si denominamos �1 y �2 a las medias del contenido de carbo-hidrato en los panes de las marcas A y B, demostrar que X�Y esun estimador insesgado de �1��2. Estime la diferencia de medias.

(b) Utilice las reglas de la varianza, para obtener una expresión de lavar(X � Y )

(c) Suponga que la varianza del contenido de carbohidratos en lospanes de las marcas A y B es la misma. Demuestre que el esti-mador combinado

S2p =(n1 � 1)S21 + (n2 � 1)S22

n1 + n2 � 2=

P(Xi �X1)

2 +P(Yi �X2)

2

n1 + n2 � 2

es insesgado para �2, la varianza del contenido de carbohidratosde culaquiera de las dos marcas de panes.

(d) Demuestre que S2p(1=n1 + 1=n2) es un estimador insesgado devar(X � Y )

5. SeaX1; X2; ::; Xn una muestra aleatoria de una distribución de Rayleigh,cuya densidad está dada por:

f(x) =0:5(1 + �x) si � 1 � x � 1

0 en caso contrario

donde �1 6 � 6 1. Demuestre que b� = 3Xes un estimador insesgadode �. (Sugerencia: primero determine E(X))

6. Los siguientes valores corresponden a 10 mediciones del valor de coles-terol en un suero, realizadas con un método que tiene una desviacióntípica de 8; 5.

124 136 129 132 108 118 121 114 115 122

Se supone que cada medición es una variable aleatoria con distribuciónnormal, cuya media es el verdadero valor. Construya un intervalo decon�anza de nivel 0.95 para el valor de colesterol analizado.

7. Interesa conocer el nivel medio de hemoglobina de la población de niñosmenores de 6 años intoxicados con plomo, se supone que la distribucióndel nivel de hemoglobina en esta población tiene distribución normalcon � = 0:85g=100ml.

18

Page 18: 1 Estimación puntual - UNLP

(a) Si se desea tener una estimación con un intervalo del 95% de con-�anza, cuya longitud no sea mayor de 0:7, cuál sería el tamaño demuestra necesario?

(b) Se tiene una muestra de 26 niños que han estado expuestos a altosniveles de plomo, para estos niños el nivel medio de hemoglobina esde x = 10:6g=100ml. Construya un intervalo del 95% de con�anza.

8. Dada una muestra aleatoria X1; X2; ::; Xn utilizando el estadístico deStudent y siguiendo los pasos descriptos en el apunte obtenga el inter-valo (6)

9. Se obtuvieron los siguientes resultados al analizar repetidas veces unmismo suero:

235 237 235 246 246 230 241 239 245 247

Suponiendo errores de medición normales. Construya un intervalo del95% de con�anza para el valor del suero analizado.

10. Se midieron las tallas (en cm) a los 12 meses de edad de 16 niñascon hipotiroidismo congénito. Se obtuvieron los siguientes valores x =73:85 y s = 2:58: Se puede suponer que la talla es una variable aleatoriacon distribución normal.

(a) Construya un intervalo de 95% con�anza para la talla media a los12 meses de edad de las niñas con hipotiroidismo congénito.

(b) Si se desea que la longitud del intervalo de 95% de con�anza seamenor que 2cm, determine aproximadamente el tamaño muestralnecesario.

11. Se midieron las tallas (en cm) a los 12 meses de edad de 20 niñas sanas.Se obtuvieron los siguientes valores x = 75:68 y s = 2:36: Suponiendoque la desviación estandar de la distribución de tallas es la misma enla población con HC que en la población sana, construya una intervalode con�anza para la diferencia de medias de talla de las niñas conhipotiroidismo congénito y las niñas sanas a los 12 meses de edad.

12. En un estudio nutricional se evaluó el consumo diario de calorías enun grupo de 40 adolecentes de sexo femenino. La media y desviación

19

Page 19: 1 Estimación puntual - UNLP

típica muestrales de esos valores, en kilocalorías por kilogramo, fueronx = 32:85 y s = 5:76 No hay evidencias de que el consumo diario decalorías siga una distribución normal.

(a) Construya un intervalo de aproximadamente 95% con�anza parala media del consumo diario de calorías para la población de adole-centes.

(b) Si se desea que la longitud del intervalo de con�anza no sea mayorque 3, ¿cuántas adolecentes se necesita encuestar?

13. Una de las metas de un programa de pesquisa neonatal de hipotiroidismocongénito, es lograr la detección de la enfermedad en los primeros díasde vida, por ese motivo es importante que la muestra de sangre para elanálisis sea tomada en los primeros 5 días de vida.

(a) Se eligieron al azar 300 registros de ese programa, y se observó queen 54 casos la muestra había sido tomada después de los 5 díasde vida. Se desea estimar, mediante un intervalo de nivel 0.95,la proporción de casos en que no se cumple la norma especi�cadapara la toma de la muestra de sangre.

(b) Si este programa se aplica a todos los recién nacidos en una región,donde hay aproxiamadamente 10000 nacimientos por año. Con-struya un intervalo de con�anza para el número de niños a los quese les realiza la prueba después del tiempo especi�cado.

14. Se desea evaluar la efectividad de un nuevo medicamento contra unaenfermedad. Se administrará el medicamento a n personas que padez-can la enfermedad, se observará cuantos se recuperan a los 3 días deadministrado el medicamento, y en base a estos datos se estimará laproporción de enfermos que se recuperan mediante un intervalo de 99%de con�anza.

(a) ¿Cuál debe ser el número de enfermos necesario para que la lon-gitud del intervalo no sea mayor que 0.10?

(b) Se administró el mismo a 150 personas que padecían dicha en-fermedad, y se observó que 114 personas se habían recuperado alos 3 días, . Construya un intervalo del 99% de con�anza para la

20

Page 20: 1 Estimación puntual - UNLP

proporción de individuos que se recuperan dentro de los 3 días deadministrado el medicamento.

15. Se desea estimar la prevalencia de desnutrición infantil en una poblacióncon necesidades básicas insatisfechas (NBI). Se plani�ca realizar unaencuesta de salud en niños menores de 6 años que pertenecen a hogarescon NBI.

(a) ¿Cuántos niños deberían seleccionarse, si se desea estimar la pro-porción de desnutrición en esta población mediante un intervalodel 95% de con�anza, con un error de estimación menor que 0.04?

(b) Por información recogida en poblacionnes similares se espera en-contrar no más de 20% de niños desnutridos. Utilice esta infor-mación para volver a calcular el número de niños a encuestar.

(c) Se realiza la encuesta a 350 niños y se encuentra 39 desnutridos.Construya un intervalo de con�anza para la proporción de desnu-tridos. ¿Qué longitud tiene ese intervalo?

16. Según una encuesta pre-electoral, la intención de voto al partido Aestá entre 42% y 48%. Se trata de un intervalo de con�anza, pero enla �cha técnica no �gura el tamaño de la muestra, ni tampoco el nivelde con�anza utilizado.

(a) Suponiendo que la muestra haya sido de 1056 individuos, ¿cuál esel nivel de con�anza?

(b) Si la muestra fuera más pequeña, ¿el nivel de con�anza sería mayoro menor que el anterior? Justi�que la respuesta.

17. Con los datos del ejercicio 10, se desea estimar la desviación típica delerror de medición, mediante un intervalo del 95% de con�anza.

18. Con los datos del ejercicio 13 estimar la desviación típica de la tallade las niñas de 12 meses de edad, mediante un intervalo de 95% decon�anza.

19. Sea X1, X2, ...Xn una muestra aleatoria de una distribución de pro-babilidad continua con mediana e� (recordar que esto signi�ca queP (Xi � e�) = P (Xi � e�) = 1=2)

21

Page 21: 1 Estimación puntual - UNLP

(a) Demuestre que:

P [min(Xi) < e� < max(Xi)] = 1��1

2

�n�1de modo que (min(Xi);max(Xi)) sea un intervalo de con�anza denivel 1-�, donde � = (1=2)n�1 [Sugenecia: El complemento delevento [min(Xi) < e� < max(Xi)] es (max(Xi) � e�) [ (min(Xi) �e�). Pero max(Xi) � e� si y solo si Xi � e� para toda i]

(b) Se determinó la cantidad del aminoácido alanina (mg/100mL)para 6 niños sanos cuando estaban bajo una dieta libre de isoleucina,resultando los siguientes valores:

2:84 3:54 2:80 1:44 2:94 2:70

Calcule un intervalo de 97% con�anza para la mediana de la can-tidad de alanina para niñis con esa dieta.

(c) ¿Cuál es el nivel de con�anza del intervalo (x(2); x(n�1)) para e�?20. Sea X1, X2, ...Xn una muestra aleatoria de una distribución U [0; �].

Entonces, si Y = max(Xi), se puede demostrar que la v. a. U = Y=�tiene densidad dada por

fU(u) =nun�1 0 � u � 10 en caso contrario

(a) Utilice esta distribución para veri�car que

P ((�=2)1=n � Y=� � (1� �=2)1=n) = 1� �

y utilice fU(u) para construir un intervalo de con�anza de nivel1-� para �

(b) Veri�que que P (�1=n � Y=� � 1) = 1 � � y a partir de estoconstruya otro intervalo de con�anza de nivel 1-� para �

(c) Usando los datos del ejercicio 3, construya dos intervalos de con-�anza para �

22