anÆlisis de datos 2013 - segunda parte · anÆlisis de datos 2013 - segunda parte 1 estimación...

48
AnÆlisis de Datos 2013 - Segunda parte 1 Estimacin puntual La inferencia estadstica generalmente pretende obtener informacin acerca de uno o mÆs parÆmetros de una distribucin poblacional, a partir de una muestra de esa poblacin. Llamaremos muestra aleatoria de una distribucin F , a un conjunto de variables aleatorias X 1 ;X 2 ; ::; X n independientes y todas con la misma dis- tribucin F: Los valores observados de esa muestra aleatoria son nœmeros x 1 ;x 2 ; :::; x n . Llamamos estadstico, a cualquier funcin de la muestra aleatoria, en- tonces un estadstico es tambiØn una variable aleatoria. Denicin 1.1 Sea X 1 ;X 2 ; ::; X n una muestra aleatoria de una distribucin que depende de un parÆmetro (usaremos la notacin F ()). Un estimador puntual de ese parÆmetro , es un estadstico b (X 1 ;X 2 ; ::; X n ), de modo que un estimador es una variable aleatoria. Cuando esa funcin se aplica a los valores observados de la muestra aleatoria b (x 1 ;x 2 ; ::; x n ) constituye una estimacin puntual, que es un nœmero. Si tenemos una muestra aleatoria X 1 ;X 2 ; ::; X n de cualquier distribucin que sabemos que tiene media , el estimador usual para este parÆmetro es la media muestral X , que ya denimos anteriormente. Si tenemos una muestra aleatoria X 1 ;X 2 ; ::; X n , de una distribucin con- tinua desconocida, de la cual no sabemos si es simØtrica ni si existe la media, al menos sabemos que existe la mediana e , vamos a denir un estimador de e . 1

Upload: others

Post on 28-Jul-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Análisis de Datos 2013 - Segunda parte

1 Estimación puntual

La inferencia estadística generalmente pretende obtener información acercade uno o más parámetros de una distribución poblacional, a partir de unamuestra de esa población.Llamaremos muestra aleatoria de una distribución F , a un conjunto de

variables aleatorias X1; X2; ::; Xn independientes y todas con la misma dis-tribución F: Los valores observados de esa muestra aleatoria son númerosx1; x2; :::; xn.Llamamos estadístico, a cualquier función de la muestra aleatoria, en-

tonces un estadístico es también una variable aleatoria.

De�nición 1.1 Sea X1; X2; ::; Xn una muestra aleatoria de una distribuciónque depende de un parámetro � (usaremos la notación F (�)). Un estimadorpuntual de ese parámetro �, es un estadístico b�(X1; X2; ::; Xn), de modo queun estimador es una variable aleatoria. Cuando esa función se aplica alos valores observados de la muestra aleatoria b�(x1; x2; ::; xn) constituye unaestimación puntual, que es un número.

Si tenemos una muestra aleatoria X1; X2; ::; Xn de cualquier distribuciónque sabemos que tiene media �, el estimador usual para este parámetro es lamedia muestral X, que ya de�nimos anteriormente.

Si tenemos una muestra aleatoria X1; X2; ::; Xn, de una distribución con-tinua desconocida, de la cual no sabemos si es simétrica ni si existe la media,al menos sabemos que existe la mediana e�, vamos a de�nir un estimador dee�.

1

Page 2: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Dados los valores observados x1; x2; :::; xn de una muestra aleatoria. Lla-mamos x(i) a los xi ordenados

x(1) � x(2) � :::: � x(n):

La mediana muestral med(x1; x2; :::xn) = ex es el valor que divide a losdatos en dos partes iguales. Si n es impar, entonces

ex = x(m) con m =n+ 1

2:

Si n es par, ex = 1

2

�x(m) + x(m+1)

�; con m =

n

2:

Ejemplo 1.1 Consideremos las siguientes 20 observaciones, cada una re-presenta la duración (en horas) de un cierto tipo de lámpara incandescente

1088 666 1016 964 1058 612 1003 898 1197 1022744 1135 623 1085 970 1201 983 1029 883 1122

Para calcular la mediana debemos ordenar las observaciones:

612, 623, 666, 744, 883, 898, 964, 970, 983, 1003, 1016, 1022,

1029, 1058, 1085, 1088, 1122, 1135, 1197, 1201

como en este caso tenemos 20 observaciones, la mediana será el promedio delas dos centrales:

ex = 1

2(x(10) + x(11)) =

1

2(1003 + 1016) = 1009:5

Si queremos estimar un parámetro, no parece razonable elegir cualquierfunción de la muestra. En general pediremos que el estimador tenga algunaspropiedades.

De�nición 1.2 Si queremos estimar un parámetro �, un estimador b� se diceque es insesgado, si E(b�) = �. Si b� no es insesgado la diferencia E(b�) � �,se llama sesgo del estimador.

2

Page 3: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Ejemplos de estimadores insesgados: la esperanza muestral (X) y lavarianza muestral (S2)Dada una muestra aleatoria de una distribución con media �, ya vimos

que E(X) = �; luego X es un estimador insesgado de la media poblacional�

Dada una muestra aleatoria de una distribución con media � y varianza�2 se de�ne la varianza muestral como:

S2 =

P(Xi �X)2n� 1

La varianza muestral es un estimador insesgado de la varianza poblacional�2, esto signi�ca que:

E(S2) = �2

Para probar esta propiedad, desarrollamos:X(Xi �X)2 =

X(X2

i � 2XiX +X2) =

XX2i � 2X

XXi + nX

2

y teniendo en cuenta que: XXi = nX

llegamos a: X(Xi �X)2 =

XX2i � nX

2

entonces aplicando las propiedades de la esperanza

E(S2) =E�P

X2i � nX

2�

n� 1 =

PEX2

i � nEX2

n� 1 (1)

además sabemos que E(X2) = var(X) + E(X)2, entonces vemos que:

E(X2i ) = �

2 + �2 y E(X2) = �2=n+ �2

y reemplazando en (1)

E(S2) =

P(�2 + �2)� n(�2=n+ �2)

n� 1 =n�2 + n�2 � �2 � n�2

n� 1 =(n� 1)�2n� 1

3

Page 4: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Ejemplo 1.2 Si X � B(n; p) un posible estimador de p es bp = X=nse puede ver que es un estimador insesgado, ya que:

E (bp) = E (X=n) = E(X)=n = np=n = pEjemplo 1.3 Pensando en el ejercicio 2 de la práctica 4, supongamos que eltiempo de espera tiene una distribución uniforme en un intervalo [0; �] donde� es desconocido. Se desea estimar � en base a los tiempos que tiene queesperar una persona durante 10 días: 4:5; 6:3; 3:1; 1:1; 8:9; 2:4; 0:6; 7:3; 5:7; 9:2.Estos son los valores observados de una muestra aleatoria X1; X2; ::; Xn deuna distribución U s [0; �]

Como � es el máximo posible para un tiempo de espera, parece razonableelegir como estimador de �, al máximo de los tiempos de espera de la muestra;esto se escribe: b� = max(X1; X2; ::; Xn). se puede demostrar que:

E(b�) = n

n+ 1�

esto signi�ca que b� no es un estimador insesgado para �; sin embargo, a partirdel mismo, se puede obtener un estimador insesgado, de�niendo:

b�1 = n+ 1

nmax(X1; X2; ::; Xn):

este estimador es insesgado, ya que:

E(b�1) = E(n+ 1n

max(X1; X2; ::; Xn)) =n+ 1

n

n

n+ 1� = �

Para este mismo ejemplo, recordando que la esperanza de una v.a. condistribución uniforme es el punto medio del intervalo, en este caso �=2, sepodría de�nir otro estimador para � como:

b�2 = 2Xeste estimador también es insesgado, ya que:

E�b�2� = E �2X� = 2E �X� = 2�

2= �

4

Page 5: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Con los valores del ejemplo la estimación obtenida por el primer estimadores 11

10max(xi) =

11109:2 = 10:12

y la estimación obtenida con el segundo es: 2x = 2 � 4:91 = 9:82

Si para estimar un parámetro tenemos más de un estimador insesgado esconveniente elegir el que tiene menor varianza.

De�nición 1.3 Se denomina error estándar de un estimador a su desviaciónestándar, dt(b�) =qvar(b�). Si en el error estándar hay parámetros descono-cidos cuyos valores se pueden estimar, al sustituir dichos parámetros por susestimadores, se obtine el error estándar estimado del estimador, se sueledenotar con b�b�Sea X1; X2; ::; Xn una muestra aleatoria de una distribución con media �

y varianza �2:Ya vimos que X es un estimador de �, y s es un estimador de�, el error estándar de X es dt(X) = �=

pn y el error estándar estimado es

\dt(X) = s=pn:

Si X � B(n; p) ya vimos que bp = X=n es un estimador del parámetro p;su error estándar es dt(bp) =pvar(X=n) =qp(1�p)

n

2 Intervalos de con�anza

2.1 Intervalos para una media

En los ejemplos anteriores hemos estimado un parámetro, que puede tomarcualquier valor dentro de un intervalo real, sabemos que es practicamenteimposible que nuestra estimación sea exactamente igual al parámetro quedeseamos estimar. Por ese motivo, para dar una idea de la precisión de laestimación, se busca dar una estimación mediante un intervalo de con�anza.Antes de dar una de�nición formal, veamos un ejemplo.

Ejemplo 2.1 Consideremos la distribución de los niveles de colesterol ensangre de los hombres de cierta comunidad hipertensos y que fuman. Se sabeque esta distribución es aproximadamente normal, se desconoce su media

5

Page 6: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

�, pero se sabe que su desviación típica � = 46 mg/100ml. (aunque no seconoce � se supone que � es la misma que la de la población de adultos de sexomasculino de esa comunidad). Se desea conocer el nivel medio de colesterolen sangre de este grupo; entonces, se seleccionan 12 hombres fumadores ehipertensos y se determina el nivel de colesterol para cada uno. El nivel decolesterol en sangre para cada individuo es una variable aleatoria Xi que tienedistribución normal con media � (el valor que se desea conocer) y el � antesmencionado; cuando se promedian los 12 valores observados, se obtiene unx = 217 mg/100ml. Notar que � es la media �verdadera�desconocida de lasobservaciones Xi; mientras que x es la media de la muestra. Este valor esuna estimación de �:

Para tener en cuenta también la precisión de la estimación, se busca acotar� mediante un intervalo, que debe depender de los datos. Como éstos sonaleatorios, el intervalo tambien lo será, y por lo tanto podría no contener a �si tenemos mala suerte. Lo mas que se puede hacer es �jar una probabilidad�alta�1 � �; y buscar un intervalo que contenga � con probabilidad 1 � �.En este caso �jaremos 1� � = 0:95.Como las Xi son una muestra aleatoria de una N(�; �2); el estadístico

Z =

�X � �

��=pn

tiene distribución N(0; 1). Entonces, si buscamos en la tabla, vemos que�(1:96) = 0:975, luego P (Z > 1:96) = P (Z < �1:96) = 0:025 de allípodemos ver que:

P

�1:96 �

�X � �

��=pn

� 1:96!= 0:95 (2)

luego, despejando en esa desigualdad, obtenemos:

P

�X � 1:96 �p

n� � � X + 1:96 �p

n

�= 0:95

que quiere decir que el intervalo

(X � 1:96�=pn ; X + 1:96�=

pn) (3)

6

Page 7: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

de extremos aleatorios contiene al verdadero valor del parámetro � con pro-babilidad 0.95; o que el mismo es un intervalo de 95% de con�anza para�:Utilizando los valores del ejemplo y reemplazando X por x = 217, obte-

nemos: �217� 1:96 46p

12; 217 + 1:96

46p12

�= (191; 243)

Nota: Se de�ne el valor crítico z�, como el valor tal que P (Z > z�) = �,donde Z es una variable aleatoria con distribución N(0; 1).El procedimiento que utilizamos para construir un intervalo con un nivel

0.95, se puede aplicar para cualquier nivel de con�anza 1 � �, en este casose reemplazan los valores -1.96 y 1.96 por los valores críticos �z�=2 y z�=2,entonces:

P

�z�=2 �

�X � �

��=pn

� z�=2

!= 1� �

y llegamos :

P

�X � z�=2

�pn� � � X + z�=2

�pn

�= 1� �

y �nalmente al intervalo:�X � z�=2�=

pn ; X + z�=2�=

pn�

(4)

Ahora podemos dar una de�nición y un método para construir intervalosde con�anza siguiendo las mismas etapas del ejemplo.

De�nición 2.1 Sea X1; X2; ::; Xn una muestra aleatoria de una distribuciónF (�). Un intervalo de con�anza de nivel (1� �), (o intervalo de (1� �)%de con�anza o (IC(1��)), es un intervalo de extremos aleatorios, que contieneal parámetro �, con probabilidad 1� �, esto quiere decir

IC(1��) = (g1(X1; X2; ::; Xn); g2(X1; X2; ::; Xn))

tal que

P�� 2 IC(1��)

�= P (g1(X1; X2; ::; Xn) � � � g2(X1; X2; ::; Xn)) = 1� �

7

Page 8: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

¿Como construimos un IC? En general se siguen los mismos pasosque en el ejemplo anterior:

1. Se busca un estadístico que sea función de la muestra aleatoria ydel parámetro de interés, pero cuya distribución no dependa de dichoparámetro, llamemos h(X1; X2; ::; Xn; �) a ese estadístico.

En el ejemplo h(X1; X2; ::; Xn; �) =

�X � �

��=pn

� N(0; 1)

2. Determinar un par de números reales a y b, tales que

P (a < h(X1; X2; ::; Xn; �) < b) = 1� � (5)

En el ejemplo: a = �z�=2 y b = z�=2

3. Siempre que sea posible, a partir de (5), despejar los extremos aleatoriosg1(X1; X2; ::; Xn) y g2(X1; X2; ::; Xn) En el ejemplo:

g1(X1; X2; ::; Xn) = X�z�=2�=pn ; g2(X1; X2; ::; Xn) = X+z�=2�=

pn

Interpretación de un intervalo de con�anzaEl nivel de con�anza 95% del ejemplo, proviene de la probabilidad 0:95 del

intervalo aleatorio (3). Es importante recordar que al reemplazar los estadís-ticos por los valores de la muestra, obtuvimos un intervalo real (191; 243) ;este ya no es aleatorio y no tiene sentido decir que contiene a � con proba-bilidad 0.95. La interpretación correcta del �nivel de con�anza�se basa en laidea de probabilidad como límite de las frecuencias relativas. Supongamos,para el ejemplo, que se seleccionan muchas muestras aleatorias de 12 hombresde esa población y se construyen intervalos de con�anza utilizando el mismoprocedimento; con cada muestra de 12 observaciones tendremos un valor de xdiferente, y en consecuencia un intervalo numérico diferente, lo que podemosa�rmar es que el 95% de estos intervalos contienen al verdadero valor �, ynaturalmente habrá un 5% de dichos intervalos que no contienen al verdaderovalor �.

Nivel de con�anza, precisión y tamaño de la muestra.Como resulta lógico, es deseable que el nivel de con�anza 1 � � sea lo

mayor posible, pero z� aumenta cuando elegimos valores más grandes para

8

Page 9: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

el nivel 1� � (por ejemplo si queremos un nivel del 99%, los valores críticosson -2.58 y 2.58), y en consecuencia aumenta la longitud del intervalo. Estosigni�ca que si se quiere más seguridad hay que pagarla con menos precisión.En nuestro ejemplo si deseamos un nivel de 99% de con�anza, el intervaloserá: �

217� 2:58 46p12; 217 + 2:58

46p12

�= (183; 251)

la longitud de este intervalo es L = 251� 183 = 68:¿Qué deberíamos hacer si queremos tener un nivel de 99%, pero mayor

precisión, por ejemplo una longitud no mayor de 20? La longitud de (4) esL = 2z�=2�=

pn, entonces haciendo

2� 2:58 46pn� 20

podemos despejarpn � 2� 2:58� 46

20y

n � 140:8entonces necesitaríamos una muestra de por lo menos 141 hombres paralograr un intervalo de 99% de con�anza con longitud no mayor de 20.

Ejemplo 2.2 Consideremos las siguientes 7 mediciones de la concentra-ción de ion nitrato (en �g/ml) en una muestra de agua:

49 50 51 51 52 53 48

Se desea saber algo sobre el valor verdadero � de la concentración, medianteun intervalo de con�anza. Se supone que cada observación Xi es una variablealeatoria con distribución normal con media �; la que estimamos con la mediamuestral x = 50:57:

En este caso no podemos usar el estadístico

Z =

�X � �

��=pn

ya que no conocemos �, entonces debemos usar otro.

9

Page 10: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Consideremos el estadístico

T =

�X � �

�S=pn

cuando las Xi son una muestra aleatoria de una distribución normal, el es-tadístico T tiene distribución �t�de Student con n � 1 grados de libertad.Esta distribución es simétrica, y existen tablas con los valores críticos deesta distribución para cada valor de �grados de liberad �.El valor crítico correspondiente a �, es el valor t� tal que P (T > t�) = �.Si el número de grados de libertad no �gura en la tabla, se toma el más

próximo.Comparando con la tabla de la distribución normal, se ve que para n

grande, los valores críticos de la distribución de Student coinciden con los dela N(0; 1):

Entonces, siguiendo el procedimiento antes descripto, obtenemos el si-guiente intervalo de (1� �)% de con�anza para parámetro ��

X �t�=2Spn; X +

t�=2Spn

�(6)

ReemplazandoX y S por los valores calculados x y s; obtenemos un intervaloreal. En nuestro caso, x = 50:57, s = 1:718, y pongamos 1 � � = 0:95 (elnivel de con�anza es 95%) se busca en la tabla el valor t correspondiente a�grados de libertad�= n� 1 = 6 y �=2 = 0:025, que es t0:025 = 2:45:El intervalo es �

x� t0:025spn

; x+t0:025spn

�;

(se lo escribe �x� ts=pn�) que aquí resulta

(48:98 ; 52:16) :

Ejemplo 2.3 La contaminación de metales pesados de varios ecosistemas esuna amenaza ambiental. Un artículo cientí�co reporta que, para una muestrade n = 56 peces de la especie Mugil liza, la concentración media muestral dezinc en el hígado fue de 9:15�g=g y la desviación estándar muestral fue de1:27�g=g. Se desea estimar �, la concentración media poblacional de zinc enel hígado de esa especie de peces, mediante un intervalo de 95% de con�anza.

10

Page 11: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Para construir el intervalo de con�anza (6) nos basamos en la suposiciónde que la distribución de la población era normal. Si ese no es el caso, el es-tadístico utilizado no tendría distribución de Student. Cuando no conocemosla distribución de los datos, es necesario usar algún tipo de aproximación.En la práctica anterior mencionamos el teorema del límite central, queserá de utilidad en este caso. Este teorema dice que si tenemos una muestraaleatoriaX1; X2; :::; Xn de cualquier distribución, cuando n es su�cientementegrande, la distribución de

pn�X � �

�=� se aproxima a una N(0; 1); también

es cierto que si se reemplaza � por S, la distribución también se aproximaa una N(0; 1): Este resultado es el que usaremos cuando no conocemos ladistribución de los datos. El procedimiento es el mismo, partimos del mismoestadístico

T =

�X � �

�S=pn

que, considerando que n es grande (en este ejemplo n=56), tiene una dis-tribución aproximadamente N(0; 1): Entonces los valores que elegimos son�z�=2 y z�=2; y podemos a�rmar que:

P

�z�=2 �

pn�X � �

�S

� z�=2

!' 1� �

y despejando la desigualdad, como antes, tenemos:

P�X � z�=2S=

pn � � � X + z�=2S=

pn�' 1� �

Reemplazando con los datos del ejemplo, x = 9:15; s = 1:27; y z0:025 =1:96; obtenemos:

(8:82; 9:48)

este intervalo tiene nivel de con�anza aproximado de 95%.

2.2 Intervalos para una proporción

Ejemplo 2.4 Se realizó un estudio para detectar anemia en niños menoresde 6 años en una comunidad rural. Se seleccionaron al azar 230 niños deesa comunidad, y se encontraron 107 con anemia (Hg<11 g/dl). Se deseaestimar mediante un intervalo de con�anza el porcentaje de niños con anemiaen esa comunidad.

11

Page 12: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

El número de casos, en la muestra de 230, con anemia es x = 107La cantidadX se puede considerar una variable con distribución binomial

con parámetros n y p; y por lo tanto

EX = np; dt(X) =pnp(1� p):

Ya vimos que bp = X

n

la proporción observada en la muestra; es un estimador de p y cumple

Ebp = p; dt(bp) =rp(1� p)n

:

Y con el caso particular del TLC para la binomial, sabemos que la dis-tribución de bp� pq

p(1�p)n

se aproxima a una N(0; 1)

también vale que la distribución de

bp� pq bp(1�bp)n

se aproxima a una N(0; 1)

Entonces eligiendo los valores críticos �z�=2 y z�=2, se cumple:

P

0@�z�=2 � bp� pq bp(1�bp)n

� z�=2

1A ' 1� �

Luego, se puede obtener un intervalo de con�anza para p con nivel aprox-imadamente 1� � (para n grande), de la forma bp� z�=2rbp(1� bp)

n; bp+ z�=2rbp(1� bp)

n

!

abreviado, es

bp� z�=2rbp(1� bp)n

:

12

Page 13: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

En nuestro caso es bp = 0:4652, y si elegimos 1�� = 0:95; es z�=2 = 1:96;y el intervalo resulta

(0:4007;0:5297) : (7)

El extremo inferior del intervalo podría dar negativo, en cuyo caso se lohace igual a cero; de igual forma se procede si el superior da mayor que 1.

Conociendo el tamaño de la población se puede construir un intervalode con�anza para la cantidad de individuos en esa población que tienen laca-racterística que se está estudiando. En el ejemplo, si se desea evaluar loscostos de un programa de intervención para mejorar la salud comunitaria,interesa conocer el número de niños con anemia grave. Si la población deniños menores de 6 años del ejemplo tiene N = 1500 individuos, la cantidaddesconocida M de niños con anemia se estima multiplicando bp por N; o sea698, y un intervalo para M se obtiene multiplicando (7) por N; o sea

601 �M � 795:

Nivel de con�anza, precisión y tamaño de la muestraEn el ejemplo anterior, la longitud del intervalo para la proporción de

niños con anemia, es 0.129. En general, la longitud es

L = 2z�=2

rbp(1� bp)n

Si se pretende estimar la proporción de niños anémicos con un error nomayor del 5%, esto quiere decir que la longitud del intervalo no debe sermayor que 0.10, antes de realizar el estudio se debería determinar cuantosniños o cuántas muestras de sangre se necesitará analizar. El problema eneste caso, es que la longitud del intervalo depende también de bp; que no seconoce antes del estudio. Pero se puede ver facilmente que para cualquier bp;vale bp(1 � bp) � 1=4, entonces L = 2z�=2q bp(1�bp)

n� 2z�=2

p1=4n = z�=2=

pn,

entonces si queremos que L � d, emos hacer z�=2=pn � d y de allí podemos

despejar el valor de n necesario para que la longitud del intervalo sea a losumo dPara el ejemplo:

L = 2� 1:96�rbp(1� bp)

n� 2� 1:96�

r1

4n= 1:96=

pn � 0:10 (8)

13

Page 14: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

luegon � (1:96=0:10)2 = 384:16

entonces con n = 385 nos aseguramos que la longitud del intervalo será menorde 0:10.

2.3 Intervalos para una varianza

En general son de mayor interés las inferencias relacionadas con una media ouna proporción que las inferencias relacionadas con una varianza o desviacióntípica. Sin embargo hay situaciones en que interesa hacer inferencias sobreestas últimas.

Ejemplo 2.5 Consideremos nuevamente los datos del ejemplo2.2, en esecaso podríamos estar interesados en tener una idea del error de mediciónmediante una estimación de la desviación típica de las Xi:

En este caso, ya sabemos que S2 es un estimador de la varianza �2; asícomo S es un estimador de la desviación típica �: Pero queremos construirun intervalo que contenga al verdadero �2 (o �) con probabilidad 1 � �.Para esto, como siempre, necesitamos un estadístico, que tenga una distribu-ción conocida independiente del parámetro a estimar, que sea función de lamuestra y del parámetro.En este caso el estadístico que nos sirve es

V =(n� 1)S2

�2=

P(Xi �X)2�2

ya que puede demostrarse que, cuando las Xi tienen distribución N(�; �2),este estadístico tiene distribución Chi-cuadrado (�2) con n � 1 grados delibertad. Esta distribución no es simétrica, la densidad es no nula sólo parax > 0: También existen tablas para los valores críticos de esta distribuciónpara cada valor de �grados de libertad �.El valor crítico correspondiente a �, es el valor �2� tal que el área bajo la

curva densidad de una distribución chi-cuadrado, es igual a �; o expresadode otro modo P (V > �2�) = �, donde V tiene distribución chi-cuadrado.Como siempre, necesitamos un par de valores, tales que el estadístico V seencuentre entre ellos con probabilidad 1 � �: Pero esta distribución no es

14

Page 15: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

simétrica, entonces deberemos elegir los valores �21��=2 y �2�=2 tales que

P

��21��=2 �

(n� 1)S2�2

� �2�=2�= 1� �

al despejar �2 de la expresión entre paréntesis, llegamos a

P

(n� 1)S2�2�=2

� �2 � (n� 1)S2�21��=2

!= 1� �

y �nalmente al intervalo (n� 1)S2�2�=2

;(n� 1)S2�21��=2

!

de extremos aleatorios. Como siempre esto signi�ca que el verdadero valorde �2 se encuentra en ese intervalo con probabilidad 1�� . Reemplazando elestimador S2 por el valor de la muestra s2, obtenemos un intervalo numérico.Para el ejemplo s = 1:718 y eligiendo 1 � � = 0:95; los valores críticos losbuscamos en la tabla de la chi-cuadrado con n� 1 = 6 grados de libertad ytenemos:

�20:025 = 14:440 ; �20:975 = 1:635

y �nalmente el intervalo para �2 (n� 1)s2�2�=2

;(n� 1)s2�21��=2

!=

�6� 2:951514:440

;6� 2:95151:237

�= (1:2264; 14:3161)

si deseamos un intervalo para � debemos sacar raiz cuadrada a cada extremodel intervalo anterior y queda

(1:107; 3:784)

15

Page 16: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

3 Modelo de regresión lineal

La relación matemática determinística más simple entre dos variables x e y,es una relación lineal y = �0+ �1x. El conjunto de pares (x; y) que veri�canesta relación, determinan una recta con pendiente �1 que corta al eje y en�0:En esta sección vamos a estudiar una relación lineal no determinística

entre dos variables.

Ejemplo 3.1 Consideremos los siguientes datos que muestran la densidadóptica de cierta substancia (y) a diferentes niveles de concentración (x):

x 80 120 160 200 240 280 320 360 400 440 480 520y .08 .12 .18 .21 .28 .28 .38 .40 .42 .50 .52 .60

Si gra�camos estos valores

vemos que los puntos parecen estar bastante próximos a una recta, y podemosaceptar que la relación entre las variables es �aproximadamente lineal�. Podemospensar que para cada valor de x, el valor de y es función lineal de x más untérmino aleatorio.

16

Page 17: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Para un conjunto de observaciones (x1; y1); (x2; y2); :::; (xn; yn) el mo-delo de regresión lineal simple asume que las yi son valores observadosde variables aleatorias Yi relacionadas con las xi de la siguiente forma:

Yi = �0 + �1xi + �i (9)

donde �0 y �1 son parámetros �jos y los �i son variables aleatorias inde-pendientes entre si, que cumplen

E(�i) = 0 ; var(�i) = �2 (10)

Esto signi�ca que para cada valor de la variable independiente o explica-tiva xi, la variable dependiente o variable respuesta Yi; es una variable aleato-ria independiente de las otras Yj, tal que:

E(Yi) = �0 + �1xi ; var(Yi) = �2:

Conocer la ecuación (9) y �2; nos permitiría predecir, con un error depredicción que depende de �2, el valor que puede tomar la variable Y , paradeterminado valor de x. Como en el ejemplo planteado, se tiene un conjuntode observaciones (x1; y1); (x2; y2); :::; (xn; yn), que parecen adaptarse al mo-delo lineal y en base a esos valores se deben estimar los parámetros descono-cidos �0, �1 y �

2: En el ejemplo xi son las concentraciones, yi las densidadesópticas, y n = 12:

Para estimar los parámetros �0 y �1 usaremos el método de mínimoscuadrados.Usaremos la siguiente notación:b�0 es el estimador de �0 , b�1 es el estimador de �1byi = b�0 + b�1xi es el valor sobre la recta estimada correspondiente a xiSean

ri = yi � byi = yi � �b�0 + b�1xi� (11)

(los residuos). Entonces el método consiste en hallar b�0; b�1 tales queSrr =

nXi=1

r2i =

nXi=1

�yi �

�b�0 + b�1xi��2 = min :Calculando las derivadas respecto de b�0 y de b�1, e igualando ambas a

cero, se obtiene un sistema de dos ecuaciones, al resolver el mismo se llega a

17

Page 18: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

la siguiente solución.

b�1 = SxySxx

; b�0 = y � xb�1donde x e y son las medias de las xi y las yi; y:

Sxx =nXi=1

(xi � x)2 ; Syy =nXi=1

(yi � y)2 ;

y

Sxy =nXi=1

(xi � x) (yi � y) =nXi=1

xiyi � nx y:

La recta obtenida se llama recta de regresión estimada de y en x: Ennuestro ejemplo,

Sxx = 228800 , Syy = 0:30189 , Sxy = 261:4

y b�0 = �0:0119 ; b�1 = 0:0011 :de modo que la recta de regresión estimada será:

by = �0:0119 + 0:0011xLa desviación � se estima con sr de�nido como

s2r =Srrn� 2 ; con Srr =

nXi=1

r2i = Syy � Sxxb�21:En nuestro ejemplo, sr = 0:0180:

El coe�ciente de determinación y el coe�ciente de correlaciónUna medida de la variablidad total de las observaciones yi es la expresión

que ya vimos Syy; en nuestro ejemplo Syy = 0:30189La suma de cuadrados de los residuos: Srr puede considerarse como una

medida de la variación de las yi que no es explicada por el modelo, obviamenteSrr � Syy . Entonces el cociente Srr=Syy sería la proporción de la variabilidadtotal que no es explicada por el modelo, y 0 � Srr=Syy � 1Es conveniente de�nir un número que represente la proporción de la vari-

abilidad total de las yi que si es explicada por el modelo.

18

Page 19: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

De�nición 3.1 En un modelo de regresión lineal, se defne el coe�ciente dedeterminación, como:

r2 = 1� SrrSyy

y puede expresarse como el porcentaje de la variabilidad total que es explicadapor el modelo.

Es evidente que se cumple: 0 � r2 � 1, y el coe�ciente de determinaciónes una medida de la bondad del ajuste del modelo, un valor de r2 = 1,indicaría un ajuste perfecto.En nuestro ejemplo r2 = 1 � 0:01075 = 0:98925, esto signi�ca el modelo

de regresión lineal simple explica el 98:9% de la variabilidad total de lasobservaciones yi

De�nición 3.2 El número

R =SxypSxxSyy

se llama coe�ciente de correlación entre x e y.

El coe�ciente de correlación puede tomar valores entre -1 y 1; si jRj = 1;los puntos están exactamente sobre una recta, cuya pendiente tiene el signode R: También es una medida de la bondad de un ajuste lineal. En nuestroejemplo, R = 0:9946:

En un modelo de regresión lineal simple, el coe�ciente de determi-nación es el cuadrado del coe�ciente de corelación.

3.1 Intervalos de con�anza para los parámetros

Se puede probar que los estimadores b�0 y b�1 son insesgados, esto quiere decirque:

E(b�0) = �0; E(b�1) = �1y también puede probarse que:

var(b�0) = �2� 1n + x2

Sxx

�; var(b�1) = �2

Sxx;

19

Page 20: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Entonces bajo las suposiciones del modelo (10) podemos decir que b�0 yb�1 son estimadores insesgados de los parámetros �0 y �1 y que tienen lasvarianzas calculadas.Pero si podemos suponer que los �i tienen distribución normal, es decir

que el modelo ahora sería:

Yi = �0 + �1xi + �i

donde�i s N(0; �2) e independientes (12)

Entonces, también las variables aleatorias Yi tienen distribución normal,y los estadísticos:

T0 =b�0 � �0

sr

q1n+ x2

Sxx

y T1 =b�1 � �1sr=pSxx

tiene distribución de Student con n� 2 grados de libertad. Estos estadísiti-cos nos sirven para construir intervalos de con�anza para �0 y �1 respecti-vamente, con el mismo procedimiento que ya usamos anteriormente.A partir de T0; planteamos

P (�t�=2 �b�0 � �0

sr

q1n+ x2

Sxx

� t�=2) = 1� �

donde t�=2 se busca en la tabla de Student para n � 2 grados de libertad, y�nalmente se llega al intervalo0@b�0 � t�=2sr

s1

n+x2

Sxx; b�0 + t�=2sr

s1

n+x2

Sxx

1AA partir de T1, planteamos

P (�t�=2 �b�1 � �1sr=pSxx

� t�=2) = 1� �

donde también t�=2 se busca en la tabla de Student para n � 2 grados delibertad, y �nalmente se llega al intervalo�b�1 � t�=2sr=pSxx ; b�1 + t�=2sr=pSxx�

20

Page 21: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Para los datos del ejemplo, si elegimos 1 � � = 0:95, para 10 grados delibertad t0:025 = 2:228 , dt(b�0) = srq 1

n+ x2

Sxx= 0:0180

q112+ 3002

228800= 0:0124

y el intervalo para �0

(�0:0119� 0:0276;�0:0119� 0:0276) = (�0:0395; 0:0157)

de la misma manera dt(b�1) = sr=pSxx = 0:0180=p228800 = 0:000038 y elintervalo para �1

(0:0011� 0:0000847; 0:0011 + 0:0000847) = (0:00101; 0:00118)

3.1.1 Algunos comentarios sobre la estimación de los parámetros

� La longitud del intervalo para �0 es 2t�=2srq

1n+ x2

Sxx; de modo que

si x es relativamente grande, la estimación de �0 será poco precisa.Generalmente la estimación de �0 no es tan importante como la de �1:

� La longitud del intervalo para �1 es 2t�=2sr=pSxx; de modo que la

precisión de la estimación para �1, puede mejorarse eligiendo los valoresde las xi más dispersas para que Sxx sea más grande.

podemos a�rmar que la pendiente es mayor que 0.01 con un nivel designi�cación � = 0:025

3.2 Intervalos de con�anza para valores medios de larespuesta

Continuando con el ejemplo (3.1), consideremos una concentración dada,por ejemplo x0 = 260; y sea Y0 la respuesta correspondiente. Si se cumple elmodelo (10), la respuesta media correspondiente a x0 es

EY0 = �0 + �1x0:

Si se quiere estimar EY0 = �0 + �1x0; parece lógico estimarla con el �valorajustado� by0 = b�0 + b�1x0:

21

Page 22: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Si deseamos construir un intervalo de con�anza para EY0 deberemos encon-trar el estadístico adecuado, es facil ver que

Eby0 = E(b�0 + b�1x0) = �0 + �1x0también puede demostrarse que

varby0 = var(b�0 + b�1x0) = �2 1

n+(x0 � x)2

Sxx

!

y también se puede probar que, cuando las Yi tienen distribución normal,el estadístico

T =by0 � (�0 + �1x0)sr

q1n+ (x0�x)2

Sxx

tiene distribución de Student con n � 2 grados de libertad. Entonces, si-guiendo el mismo procedimiento de siempre, obtenemos el siguiente intervalode con�anza de nivel 1 � �; para EY0; es decir la media de la respuesta Ypara un valor dado x00@by0 � t�=2sr

s1

n+(x0 � x)2Sxx

; by0 + t�=2srs1

n+(x0 � x)2Sxx

1A (13)

En nuestro ejemplo,

by0 = 0:2741; r1

12+(260� 300)2228800

= 0:30054; t0:025 = 2:228

y el intervalo de 95% de con�anza para EY0 resulta

(0:2620; 0:2861)

esto signi�ca que tenemos un 95% de con�anza de que este intervalo con-tenega el valor verdadero (desconocido) de EY0; que es el valor medio de lasrespuestas correspondientes a la concentración x0:Si observamos la forma del intervalo (13), vemos que la longitud es:

L = 2t�=2sr

s1

n+(x0 � x)2Sxx

22

Page 23: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

esta longitud es mínima cuando x0 es igual a x, y aumenta cuando x0 se alejade x . En la siguiente �gura se gra�ca la recta de regresión estimada, y doslineas curvas que representan los límites de los intervalos de con�anza parala media de Y , dados los posibles valores de x. Se puede ver como varía lalongitud de los intervalos de con�anza.

Importante: Generalmente, el modelo (10) es una aproximación, válidaen el mejor de los casos dentro del rango de las �x�usadas en el experimento,no tenemos información para hacer ninguna inferencia fuera de ese rango devalores, por lo que no es nada con�able �extrapolar�, o sea, aplicar esteprocedimiento para x0 fuera del rango de las �x�observadas.

3.3 Intervalos de predicción para valores de la variablerespuesta

Consideremos ahora la siguiente situación, queremos predecir el valor quepuede tomar la respuesta, cuando la concentración es x0 = 260. Sabemos

23

Page 24: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

que y0 = �0 + �1x0 + �, y parece lógico predecir ese valor con el valor sobrela recta estimada, o �valor ajustado�

by0 = b�0 + b�1x0este es el mismo valor que usamos para estimar la EY0. Pero si pretendemosconstruir un intervalo de predicción, las cosas cambian un poco. El errorde predicción es la diferencia entre el valor que puede tomar una variablealeatoria Y0 y el valor ajustado by0; podemos ver que el valor esperado delerror de predicción es:

E (Y0 � by0) = 0y la varianza del error de predicción es:

var(Y0 � by0) = var(Y0) + var(by0) = �2�1 + 1

n+(x0 � x)2Sxx

�de modo que para construir un intervalo de predicción para Y0, usaremos elestadístico

T =Y0 � by0

sr

q1 + 1

n+ (x0�x)2

Sxx

que también tiene distribución de Student con n-2 grados de libertad. Y elintervalo de predicción para y0 es:0@by0 � t�=2sr

s1 +

1

n+(x0 � x)2

Sxx; by0 + t�=2sr

s1 +

1

n+(x0 � x)2

Sxx

1A (14)

En nuestro ejemplo:

by0 = 0:2741; r1 +

1

12+(260� 300)2228800

= 1:04419; t0:025 = 2:228

y el intervalo de predicción es:

(0:2322; 0:3160)

esto signi�ca que tenemos un 95% de con�anza de que ese intervalo contengaa la posible respuesta y0 correspondiente a una concentración x0 = 260.Vemos que la longitud de este intervalo de predicción para y0 es mayor que

24

Page 25: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

la del intervalo de con�anza para EY0 que construimos antes ( para el mismox0 = 260 ). Esto es lógico porque para predecir el valor que tome la variablealeatoria tengo más incerteza que para estimar su media. En general vemosque la longitud de (14) es

L = 2t�=2sr

s1 +

1

n+(x0 � x)2

Sxx

vale lo mismo que dijimos para los intervalos de con�anza, la longitud esmínima cuando x0 es igual a x.

25

Page 26: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

4 Tests de hipótesis

En muchas ocasiones, el propósito de una investigación es determinar si esverdadera o no, alguna hipótesis sobre algún parámetro. Los métodos que seutilizan para esto se llaman pruebas o tests de hipótesis.Una hipótesis estadística es una expresión acerca del valor de una o varias

características o parámetros de la población. Comenzaremos viendo algunostest de hipótesis acerca de la media de una población.

4.1 Tests para una media

Ejemplo 4.1 Se realizan 6 mediciones de una misma muestra con una téc-nica cuyo un error de medición tiene � = 0:08mg=ml: Se quiere saber si elverdadero valor del especimen que se está midiendo es mayor que 1:22g=ml

Las 6 mediciones se pueden considerar una muestra aleatoriaX1; X2; ::; X6

donde cada Xi es el resultado de la i-ésima medición y tiene distribuciónN(�; 0:082); en este caso el parámetro� es el verdadero valor del especimenmedido.Se debe entonces veri�car si � > 1:22; o si � = 1:22, ésta última es la

llamada hipótesis nula (H0). La hipótesis que deseamos probar la llamaremoshipótesis alternativa (HA): Para simpli�car por el momento usaremos � =1:22 como hipótesis nula. Esto queda expresado:

H0 : � = 1:22 HA : � > 1:22

Debemos notar que al decidirnos por una de las dos hipótesis, podemoscometer dos tipos de errores diferentes. Podemos equivocarnos al concluirque � > 1:22 cuando en realidad no lo es (error de tipo I : rechazarH0 cuandoes verdadera), o concluir que � = 1:22, cuando en realidad � es mayor que1:22 (error de tipo II : aceptar H0 cuando es falsa). Recordemos que nuncaconocemos cuánto vale �, y sólo podemos hacer inferencias, basadas en lamuestra, acerca de su valor.Los procedimientos que vamos a ver, nos permiten acotar la probabilidad

de cometer un error de tipo I, por eso es importante saber cuál debe ser lahipótesis nula y cuál la alternativa.

26

Page 27: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Lo más natural será calcular el promedio de las 6 mediciones x y com-pararlo con el valor 1:22, ya que sabemos que X es un estimador de �; six resulta mucho más grande que 1:22; tendremos motivos para pensar queen realidad � > 1:22 (cuánto más grande sea x; mayor será la evidenciacontra H0 : � = 1:22 a favor de HA : � > 1:22). Debemos decidir cuándoconsideraremos que x es lo su�cientemente �grande �como para rechazar lahipótesis nula. Para esto debemos considerar un estadístico con distribuciónconocida cuando H0 es verdadera y de�nir una zona de rechazo. Usaremosel estadístico de prueba:

Z =

�X � 1:22

�0:08=

p6

que tiene distribución N(0; 1) cuando � = 1:22 (cuando H0 es verdadera)Se puede establecer una regla de decisión como la siguiente: rechazar H0

cuando el valor del estadístico de prueba es mayor que 1:65; de este modonos aseguramos que

P (errorde tipo I) = P�p6�X � 1:22

�=0:08 > 1:65 j H0 verdadera

�= 0:05

En general la regla es:

rechazar H0 : � = �0 a favor de HA : � > �0; cuandopn (x� �0)�

> z�

entonces P (error de tipo I ) = PH0�pn�X � �0

�=� > z� j H0 verdadera

�=

�, este valor � se llama nivel de signi�cación. Al �jar un nivel de signi�cación� = 0:05; nos aseguramos que la probabilidad de cometer error de tipo I, nopuede ser mayor que 0:05. Se llama zona de rechazo, a los valores mayoresque z�.

En nuestro ejemplo, se hicieron 6 repeticiones, y se obtuvo x = 1:28; reem-plazando X por x = 1:28; el estadístico de prueba toma el valor

p6(1:28 �

1:22)=0:08 = 1:84: Como este valor cae en la zona de rechazo, podemos rec-hazar la hipótesis nula con nivel 0:05. Esto signi�ca que podemos a�rmar queel verdadero valor del especimen medido es mayor que 1:22 y la probabilidadde equivocarnos al hacer esta a�rmación es a lo sumo 0:05

También podemos razonar de esta manera: si fuera � = 1:22, ¿cuál es laprobabilidad de obtener una media muestral tan grande o más que el valor1:28?, o lo que es equivalente, ¿cuál es la probabilidad de que el estadístico de

27

Page 28: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

prueba alcanzara un valor mayor o igual que 1:84?. Esta probabilidad puedecalcularse ya que el estadístico de prueba tiene distribución N(0; 1) cuando� = 1:22 y es

PH0�p6�X � 1:22

�=0:08 > 1:84 j H0 verdadera

�=

= 1� �(1:84) = 1� 0:9671 = 0:0329

Esto es lo que se llama el �valor-p�, cuánto menor sea este p; más evi-dencia tengo contra H0: En nuestro ejemplo, p = 0:0329 es una probabilidadbastante pequeña, podemos rechazar H0 y a�rmar la alternativa, es decir que� > 1:22Otra manera de expresar la regla de decisión, es decir que se rechaza H0,

cuando el �valor-p� es menor que �: En realidad el �valor-p� es el menornivel de signi�cación (el más exigente) para el cual se puede rechazar H0 conlos valores observados.En este caso �valor-p�= 0:0329, esto signi�ca que podemos rechazar H0

hasta con un nivel 0:0329

Tratemos de resumir los principales conceptos que hemos visto hasta aquí.

� En un procedimiento de test de hipótesis tenemos siempre dos hipótesispara contrastar. En investigaciones cientí�cas la hipótesis alternativa(HA) suele llamarse "hipótesis del investigador" y la hipótesis nula(H0) representa lo contrario, que no hay diferencias. En el ejemploanalizado, la hipótesis nula era H0 : � = �0 y la hipótesis alternativa esHA : � > �0. En otros ejemplos la hipótesis alternativa también podríaser HA : � < �0 o HA : � 6= �0: La igualdad siempre está en H0:

� Un procedimiento de test de hipótesis está determinado por un estadís-tico de prueba que debe tener una distribución conocida e independi-ente del parámetro sobre el cual estamos haciendo inferencias. Dadoese estadístico de prueba, se de�ne una zona de rechazo y una regla dedecisión. Dicha regla puede de�nirse como: "se rechazará H0 cuando elvalor del estadístico de prueba cae en la zona de rechazo". En el ejem-plo, la zona de rechazo eran los valores mayores que z�. Siempre que lahipótesis alternativa es de la forma HA : � > �0 la zona de rechazo sonlos valores mayores que un punto crítico; en el caso HA : � < �0 la zonade rechazo son los valores menores que un punto crítico; y en el casoHA : � 6= �0 la zona de rechazo es bilateral, es decir está formada porla unión de valores a la derecha y a la izquierda de dos puntos críticos.

28

Page 29: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

� Al tomar una decisión, ya sea aceptar o rechazar H0 podemos cometerun error, hay entonces dos tipos de errores:

�Error de tipo I : rechazar H0 cuando es verdadera

�Error de tipo II : aceptar H0 cuando es falsa

� Se denomina nivel de signi�cación del test a la probabilidad de cometerun error de tipo I, � = P (error de tipo I ) . Este nivel de signi�caciónse �ja "a priori" y luego se determina cual debe ser la zona de rechazo,para que el nivel de signi�cación sea el deseado. El área de la zona derechazo es igual al nivel de signi�cación (�) elegido.

� Se de�ne el valor-p como la probabilidad de que el estadístico de pruebatome un valor "tan extremo" como el obtenido, si fuera cierta la hipóte-sis nula. O también puede de�nirse como el menor nivel de signi�caciónpara el cual se puede rechazar la hipótesis nula con los valores obser-vados. Estas dos de�niciones son equivalentes. Es importante observarque, el valor-p y el nivel de signi�cación son cosas diferentes, el valor-pdepende de los valores observados, mientras que el nivel de signi�caciónse de�ne a priori.

Veamos otro ejemplo.

Ejemplo 4.2 Se sabe que la distribución del perímetro cefálico de reciénnacidos de sexo masculino, es normal con media � = 36 cm y desviacióntípica � = 1:97 cm. Se han observado los perímetros cefálicos de 10 re-cién nacidos cuyas madres consumieron drogas durante el embarazo, y seha obtenido x = 34:5 cm. ¿Se puede inferir en base a estos datos, que lamedia del perímetro cefálico de los niños cuyas madres consumieron drogasdurante el embarazo es menor que la de la población general? Suponemosque la distribución en estos niños también es normal y con el mismo �:

Podemos modelizar esta situación como sigue, tenemos una m.a. X1; X2; ::; X10

donde cada Xi es el perímetro cefálico del i-ésimo niño medido y Xi tienedistribución N(�; 1:972), y el problema a resolver es

H0 : � = 36 HA : � < 36

29

Page 30: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

usaremos el mismo estadístico de prueba, que en este caso es:

Z =

�X � 36

�1:97=

pn

ahora, la regla de decisión es:

rechazar H0 : � = 36 a favor de HA : � < 36; cuandopn (x� 36)�

< �z�

la zona de rechazo es el área a la izquierda de �z�: Si deseamos un nivel designi�cación � = 0:01, usamos el valor �z0:01 = �2:326Con los datos del ejemplo, al reemplazar X por x = 34:5, el valor que

toma el estadístico es:p10(34:5 � 36)=1:97 = �2:41, este valor cae en la

zona de rechazo, de modo que podemos rechazar H0 a nivel � = 0:01. Esdecir, podemos a�rmar que la media del perímetro cefálico de los niños cuyasmadres consumieron drogas durante el embarazo es menor que la mediade la población general. También se dice que el resultado es signi�cativoal 1%; también podríamos calcular el �valor-p�= P (Z < �2:41) = 0:008,(recordemos que esto signi�ca que podemos rechazar H0 aun con ese nivel, odecir que es signi�cativo al 0.8%)

Los dos ejemplos que hemos visto son tests unilaterales, porque la alter-nativa sólo puede ocurrir en una dirección.En estos tests hemos usado siempre H0 : � = �0 para cualquiera de las

dos alternativas, en realidad los test unilaterales que hemos de�nido y losque de�neremos más adelente, también sirven cuando la hipótesis nula esH0 : � � �0 contra la alternativa HA : � > �0; y cuando la la hipótesis nulaes H0 : � � �0 contra la alternativa HA : � < �0.Veamos ahora un ejemplo donde la alternativa puede ser � > �0 o � < �0.

Ejemplo 4.3 En un estudio de niños con hipotiroidismo congénito (HC), semidió talla a un grupo de 13 niños con HC de sexo masculino y 6 mses deedad, y se obtuvo x = 67:16: Se desea saber si el valor medio de la talla delos niños con HC di�ere del valor medio de la población general. Se sabe quela distribución de tallas para niños sanos de esa edad, es normal con media68.2 cm y desviación típica 2.34 cm. En este caso se puede suponer que ladistribución de tallas de los niños con HC también es normal con la mismadesviación típica.

30

Page 31: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Tenemos una m.a. X1; X2; ::; X13 donde cada Xi es la talla del i-ésimoniño medido y Xi v N(�; 2:342)En este caso no hay una hipótesis a priori de que las tallas de los niños

con HC son mayores o menores que las de la población general (68:2), es poreso que la alternativa debe ser HA : � 6= 68:2:Decimos que este es un test bilateral, en general el problema se expresa:

H0 : � = 68:2 HA : � 6= 68:2

Usaremos el mismo estadístico de prueba que en los ejemplos anteriores:

Z =

�X � 68:2

�2:34=

pn

pero ahora parece razonable rechazar H0, cuando x sea mucho mas grande omucho más pequeño que 68.2, dicho de otro modo, cuando la distancia entre xy 68.2 sea grande. Esto signi�ca que una vez que evaluemos Z reemplazandoX por x, deberemos considerar su valor absoluto.La regla de decisión es:

rechazar H0 : � = 68:2 a favor de HA : � 6= 68:2; cuandopn jx� 68:2j

�> z�=2

es importante observar que la zona de rechazo es la región a la derecha dez�=2 y la región a la izquierda de �z�=2, es una región bilateral; como siempre,si � = �0; el área total de la zona de rechazo es �. Si elegimos un nivel designi�cación � = 0:05 tenemos z0:025 = 1:96; entonces se rechaza H0 cuandoel estadístico tome un valor superior a 1.96 o inferior a -1.96. Con los datosdel ejemplo tenemos

p13 (67:16� 68:2) =2:34 = �1:60; este valor no está en

la zona de rechazo, y por lo tanto no podemos a�rmar, a nivel 0.05, que lastallas de los niños de 6 meses con HC di�eran, en promedio, de las de lapoblación general. También podemos calcular el �valor-p�, que ahora es

PH0�p13��X � 68:2�� =2:34 > 1:60 j H0 verdadera� = P (jZj > 1:60) =

= P (Z > 1:60) + P (Z < �1:60) = 2 (1� �(1:60)) = 0:11

este �valor-p�no brinda su�ciente evidencia para rechazar H0

¿Cuándo se considera que hay su�ciente evidencia para rechazar la hipóte-sis nula?. Esto depende de la situación; pero en la mayoría de las aplicaciones,

31

Page 32: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

se considera que un valor-p � 0:05 es su�ciente evidencia. Esto equivale aelegir un nivel de signi�cación � = 0:05:

Si el test da no signi�cativo, esto no debe tomarse como una demostraciónde que H0 sea verdadera, solamente indica que no hay su�ciente evidenciaen contra. Esto puede deberse a una muestra demasiado pequeña. En esteejemplo, si la muesrta hubiera sido de tamaño 30, y si hubiéramos obtenidoel mismo valor de x; tendríamos Z = �2:43, que caería en la zona de rechazopara un nivel 0.05, (sería signi�cativo al 5%), más aun el �valor-p�sería 0:015

Se debe observar que los test bilaterales son más conservadores que losunilaterales, para un mismo valor del estadístico de prueba, el valor-p esmayor para un test bilateral que para un test unilateral.

Podemos resumir lo que hemos visto sobre test para la media �, cuando lamuestra X1; X2; :::; Xn proviene de una distribución normal con � conocido.

Hipótesis nula: H0 : � = �0Valor de estadístico de prueba: z =

pn (x� �0) =�

Hipótesis alternativa Región de rechazo para un nivel �HA : � > �0 z > z�HA : � < �0 z < �z�HA : � 6= �0 z > z�=2 o z < �z�=2

Cuando la distribución de los datos es normal, pero desconocemos el valorde �, no podemos usar el mismo estadístico de prueba que en el caso anterior.Recordemos lo que vimos al construir intervalos de con�anza, en este casousamos un estadístico con distribución de Student.Cuando � = �0, el estadístico

T =

�X � �0

�S=pn

tiene distribución de Student con n� 1grados de libertad

Usaremos entonces este estadístico de prueba, del mismo modo que antesusamos el Z.

Ejemplo 4.4 Se desea estudiar si el nivel de aluminio en la sangre en lapoblación de niños que reciben antiácidos con aluminio, di�ere de la poblacióngeneral de niños que no reciben estos antiácidos. La distribución de los nive-les de aluminio en sangre es aproximadamente normal; además el nivel mediode aluminio en sangre en la población de niños que no reciben antiácidos es

32

Page 33: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

de 4:13 �g=l: Se seleccionó una muestra de diez niños que reciben este tipode antiácidos, y se obtuvo x = 37:20 �g=l y s = 7:13 �g=l

Tenemos una m. a. X1; X2; ::; X10 donde cada Xi es el nivel de aluminioen sangre del i-ésimo niño y Xi v N(�; �2). Igual que en el ejemplo 4.3,se tiene un valor de referencia �0 = 4:13, y se quiere decidir si la mediaverdadera � de la distribución di�ere de ese valor.Podemos enunciar el problema como:

H0 : � = 4:13 HA : � 6= 4:13

Se puede de�nir la regla de decisión del siguiente modo:

rechazar H0 : � = 4:13 a favor de HA : � 6= 4:13; cuandopn jx� 4:13j

s> t�=2

donde t�=2 se busca en la tabla de Student para n� 1 grados de libertad. Sideseamos un nivel de signi�cación � = 0:05, el valor crítico para 9 grados delibertad es t0:025 = 2:262. Esto signi�ca que la zona de rechazo es el área ala derecha de 2:262 y el área a la izquierda de �2:262.Reemplazando por los valores de la media muestral x = 37:20: y la

desviación típica muestral s = 7:13; calculamos el valor del estadístico yobtenemos t =

p10 (37:20� 4:13) =7:13 = 14:67: Este valor cae en la zona

de rechazo, podemos a�rmar que el nivel medio de aluminio en sangre deesta población es diferente de 4.13.En este caso el valor del estadístico es mucho mayor que el valor crítico

t0:025 = 2:262, si hubiéramos elegido un nivel de signi�cación � = 0:001, elvalor crítico sería t0:0005 = 4:781, y también rechazaríamos H0 con este nivelde signi�cación. No podemos calcular exactamente el valor-p, pero podemosa�rmar que p < 0:001.

Ejemplo 4.5 Consideremos ahora la situación de una droga antihiperten-siva. Se debe mostrar evidencia de que la presión sistólica media de losindividuos que reciben esta droga es menor que la de los que reciben la drogaestándar. Se sabe por investigaciones previas que estos últimos tienen unapresión sistólica cuya distribución es normal con media de 130 mm Hg; ypuede suponerse que para los individuos tratados con la nueva droga la dis-tribución también es normal con media � desconocida. Se desea probar queesta media � es menor que el valor �0 = 130: Se seleccionan 26 individuoscon hipertensión, se les administra la nueva droga, y se obtiene una mediamuestral de x = 121:5 mm Hg y una desviación s = 19.2.

33

Page 34: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

La m.a. es X1; X2; ::; X26 donde cada Xi es la presión sistólica del i-ésimo individuo tratado con la nueva droga y Xi v N(�; �2) Este es un testunilateral, podemos plantearlo como:

H0 : � = 130 HA : � < 130

o también como:

H0 : � � 130 HA : � < 130

para las dos situaciones, planteamos la regla de decisión:

rechazar H0 : � = 130 a favor de HA : � < 130; cuandopn (x� 130)

s< �t�

calculamos el valor del estadístico t =p26 (121:5� 130) =19:2 = �2:257; el

valor crítico es t0:05 = 1.708, entonces como el valor del estadístico es menorque �1:708 se rechaza la hipótesis nula. Podemos ver en la tabla para 25grados de libertad que el valor crítico correspondiente a � = 0:025 es 2.060 yel correpondiente a � = 0:01 es 2.485. Esto signi�ca que si elegimos un nivelde signi�cación � = 0:025 podemos rechazar H0, pero no podríamos hacerlocon nivel � = 0:01: El valor-p está entre 0.01 y 0.025, podemos a�rmar quep < 0:025.

Podemos resumir los diferentes test para la media �, cuando la muestraX1; X2; :::; Xn proviene de una distribución normal con � desconocido comosigue:.

Hipótesis nula: H0 : � = �0Valor del estadístico de prueba: t =

pn (x� �0) =s

Hipótesis alternativa Región de rechazo para un nivel �HA : � > �0 t > t�HA : � < �0 t < �t�HA : � 6= �0 t > t�=2 o t < �t�=2

Del mismo modo que en la construcción de un intervalo de con�anza,

cuando no conocemos la distribución de los datos, si la muestra es su�cien-temente grande, podemos utilizar el teorema del límite central.

Ejemplo 4.6 Consideremos los datos del ejemplo 2.3, supongamos que sesabe que la concentración media de zinc en el hígado de esa especie de peces,

34

Page 35: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

que viven en una área libre de contaminación es de 8.2 �g=g, pero se de-sconoce la forma de esa distribución. ¿Se puede a�rmar, en base a estosdatos, que los peces examinados tienen niveles de zinc mayores que ese valoresperado?

Aquí tenemos una m. a. X1; X2; ::; X56 donde cada Xi es la concentraciónde zinc en el hígado del i-ésimo pez examinado y desconocemos su distribuciónEl problema puede plantearse como:

H0 : � = 8:2 HA : � > 8:2

y en este caso, como n es grande, podemos aplicar el resultado del teoremadel límite central y usar el estadístico

Z =

�X � 8:2

�S=pn

ya que, según ese teorema, cuando � = 8:2 tiene una distribución aproxi-madamente N(0; 1).Entonces podemos de�nir, como siempre, una regla de decisión:

rechazar H0 : � = 8:2 a favor de HA : � > 8:2; cuandopn (x� 8:2)

s> z�

con los datos del ejemplo, x = 9:15 �g=g y s = 1:27 �g=g, reemplazando enel estadístico, obtenemos un valor

p56 (9:15� 8:2) =1:27 = 5:59, vemos en la

tabla de la distribución normal que el valor-p = P (Z > 5:59) < 0:0001, estosigni�ca que hay muy fuerte evidencia para rechazar H0; y se puede rechazarcon cualquier nivel de signi�cación razonable.

Podemos resumir el caso test para la media de una distribución descono-cida, cuando n es grande:

Hipótesis nula: H0 : � = �0Valor del estadístico de prueba: z =

pn (x� �0) =s

Hipótesis alternativa Región de rechazo para un nivel � (aproximado)HA : � > �0 z > z�HA : � < �0 z < �z�HA : � 6= �0 z > z�=2 o z < �z�=2

En este caso el nivel es aproximado, porque no conocemos la distribuciónexacta del estadístico de prueba, sino que estamos utilizando una aproxi-mación.

35

Page 36: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

4.2 Relación entre intervalos de con�anza y test dehipótesis.

SeaX1; X2; ::; Xn una muestra aleatoria de una distribución F (�) y sea IC(1��)un intervalo de con�anza de nivel (1� �) para �, esto signi�ca que: P

�� 2 IC(1��)

�=

1� �Consideremos el problema de test de hipótesis:

H0 : � = �0 HA:� 6= �0

si la hipótesis nula es verdadera, entonces:

P��0 2 IC(1��)

�= 1� �

lo cual implica que:P��0 =2 IC(1��)

�= �

Entonces podemos establecer la siguiente regla de decisión:

rechazar H0 cuando �0 =2 IC(1��)

de este modo construimos un test de nivel �:

Ejemplo 4.7 Consideremos el ejemplo 2.2, en ese ejemplo construimos unintervalo de con�anza para la concentración de ion nitrato en una muestrade agua.

Si estamos interesados en saber si la verdadera concentración es 53�g=ml,debemos construir un test para:

H0 : � = 53 HA:� 6= 53

podemos construir un test a partir del intervalo calculado antes.La regla de decisión será:

rechazo H0 si 53 =2 IC(1��)

El intervalo de 95% de con�anza obtenido fue (48:98 ; 52:16), y comoel valor 53 no está dentro de ese intervalo, debemos rechazar H0 con nivel� = 0:05 y la conclusión será que la concentración de ion nitrato en esamuestra no es 53�g=ml:

36

Page 37: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

4.3 Tests para comparación de medias.

4.3.1 Dos muestras independientes.

En la sección anterior vimos tests para comparar la media de una poblacióncon un valor �jo �0. Sin embargo, en la mayoría de las aplicaciones, in-teresa comparar dos poblaciones. Por ejemplo, para evaluar el efecto de untratamiento, se suele comparar un grupo de individuos al que se aplica eltratamiento con otro grupo al que se le aplica otro tratamiento o un placebo;en otros casos se comparan individuos expuestos a un factor de riesgo conotros que no lo están; o individuos sanos contra enfermos, etc.Los procedimientos para construir intervalos de con�anza para la diferen-

cia de medias y realizar test para comparación de medias, son similares a losque vimos antes. Lo principal es encontrar el estadístico de prueba adecuadopara cada situación.

Sean X1; X2; :::; Xn1 una muestra aleatoria de una distribución N(�1; �21)

y Y1; Y2; :::Yn2 una muestra aleatoria de una distribución N(�2; �22) e indepen-

dientes entre si.Un estimador para �1��2 esX�Y y sabemos queX�Y tiene distribución

N(�1 � �2 ; �21=n1 + �22=n2), entonces si deseamos construir un intervalo decon�anza para �1 � �2, el estadístico de prueba será:

X � Y � (�1 � �2)q�21n1+

�22n2

s N(0; 1)

si deseamos contrastar hipótesis sobre �1 � �2, donde H0 : �1 � �2 = �0 elestadístico de prueba será:

X � Y ��0q�21n1+

�22n2

s N(0; 1) cuando H0 es verdadera

Entonces el intervalo de con�anza para �1 � �2 será:0@X � Y � z�=2s�21n1+�22n2

; X � Y + z�=2

s�21n1+�22n2

1Ael resumen para los tests de hipótesis para �1 � �2 será:

37

Page 38: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Hipótesis nula: H0 : �1 � �2 = �0

Valor de estadístico de prueba: z = (x� y ��0)=p�21=n1 + �

22=n2

Hipótesis alternativa Región de rechazo para un nivel �HA : �1 � �2 > �0 z > z�HA : �1 � �2 < �0 z < �z�HA : �1 � �2 6= �0 z > z�=2 o z < �z�=2

En muchas situaciones solo interesa saber si las medias de las dos pobla-ciones son diferentes, en ese caso �0 = 0

Ejemplo 4.8 Se realizó un estudio para determinar la resistencia a la rup-tura de dos tipos de acero. Para una muestra aleatoria formada por 20 es-pecímenes de acero laminado en frío la resistencia promedio muestral fuex = 29:8 ksi. Al estudiar una segunda muestra aleatoria de 25 especímenesde acero galvanizado de dos lados se obtuvo una resistencia promedio mues-tral y = 32:7 ksi. Se supone que las distribuciones de la resistencia a laruptura de los dos tipos de acero son normales con �1 = 4:0 y �2 = 5:0¿Indican los datos que las medias de resistencia a la ruptura son diferentespara los dos tipos de acero?

Modelizando: tenemosX1; X2; :::; Xn1 una muestra aleatoria de unaN(�1; �21)

y Y1; Y2; :::Yn2 una muestra aleatoria de una distribución N(�2; �22):Cada Xi

indica la resistencia a la ruptura del i-ésimo especimen de acero laminadoen frío, y cada Yi la resistencia a la ruptura del i-ésimo especimen de acerogalvanizado. En este caso el problema se plantea como:

H0 : �1 = �2 HA : �1 6= �2o en forma equivalente:

H0 : �1 � �2 = 0 HA : �1 � �2 6= 0

para este problema el estadístico de prueba será:

Z =X � Yq�21n1+

�22n2

=X � Yq1620+ 25

25

y la regla de decisión:

rechazar H0 si el valor j zj =jx� yjq1620+ 25

25

> z�=2

38

Page 39: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

si elegimos un nivel de signi�cación � = 0:05, el punto crítico z�=2 = 1:96:Entonces, reemplazando con los valores muestrales vemos que en este caso elvalor del estadístico de prueba es:

z =29:8� 32:7q

1620+ 25

25

=�2:901:34

= �2:16

que cae en la zona de rechazo para este nivel 0:05Si calculamos el valor-p

p = P (jZj > 2:16) = 1� P (�2:16 < Z < 2:16) == 1� (� (2:16)� � (�2:16)) = 2� 2�(2:16) = 2� 2 � 0:98460 = 0:0308

esto signi�ca que, con un nivel � = 0:0308, podemos a�rmar que la resistenciaa la ruptura de los dos tipos de acero es diferente.

Veamos ahora un ejemplo en el que tenemos dos muestras aleatorias dedistribuciones normales, pero donde no conocemos las varianzas.

Ejemplo 4.9 Se tienen las mediciones del nivel de hierro en la sangre dedos muestras de niños: un grupo de niños sanos y el otro padece �brosisquística. Del primer grupo se tienen 9 mediciones , que dan x = 18:9�mol=ly s1 = 5:9�mol=l, para el segundo grupo se tienen 13 mediciones que dany = 11:9�mol=l y s2 = 6:3�mol=l: Las mediciones de los niveles de hierroen sangre pueden representarse por las variables aleatorias X1; X2; :::; Xn1

y Y1; Y2; :::; Yn2 que son muestras aleatorias independientes de distribucionesnormales N(�1; �

2) y N(�2; �2); donde la varianza es la misma. Puede ser

de interés saber si estas dos medias son iguales o distintas.

En este caso el problema se plantea como:

H0 : �1 = �2 HA : �1 6= �2o en forma equivalente

H0 : �1 � �2 = 0 HA : �1 � �2 6= 0

X�Y es un estimador razonable para �1��2; y cuando las Xi y las Yi tienendistribución normal y son muestras independientes, X�Y tiene distribuciónnormal con

E(X � Y ) = �1 � �2 y Var(X � Y ) = �2=n1 + �2=n2 = �2(1=n1 + 1=n2)

39

Page 40: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

entonces si �1 = �2 el estadístico:

Z =X � Y

�p1=n1 + 1=n2

tiene distribución N(0; 1)

pero si no conocemos � debemos reemplazarlo por un estimador, para estecaso recordamos el estimador ponderado de la varianza

S2p =

P(Xi �X)2 +

P(Yi � Y )2

n1 + n2 � 2=(n1 � 1)s21 + (n2 � 1)s22

n1 + n2 � 2

que ya vimos que es insesgado y usaremos Sp =pS2p : Si reemplazamos �

por Sp, obtenemos el estadístico de prueba:

T =X � Y

Spp1=n1 + 1=n2

que bajo la hipótesis nula tiene distribución de Student con n1+n2�2 gradosde libertad.La regla de decisión será:

rechazar H0 : �1 = �2 a favor de HA : �1 6= �2; cuandojx� yj

spp1=n1 + 1=n2

> t�=2

donde el valor crítico t�=2 se busca en la tabla de la Student para n1+n2� 2grados de libertad.En el ejemplo que estamos analizando, tenemos los valores

n1 = 9; n2 = 13; x = 18:9; y = 11:9; s1 = 5:9; s2 = 6:3

Al reemplazar por los valores de la muestra obtenemos

sp =p(8� 5:92 + 12� 6:32) =20 = 6:14

y el valor del estadístico de prueba es t = 2:63: Si deseamos un nivel designi�cación � = 0:05, el valor crítico para 20 grados de libertad es t0:025 =2:086: Como el valor del estadístico de prueba cae en la zona de rechazo,se puede rechazar la hipótesis nula con nivel � = 0:05, también podemosver que el valor crítico t0:01 = 2:528 (para un test bilateral corresponde a� = 0:02) y el t0:005 = 2:845 (corresponde a � = 0:01), esto signi�ca que

40

Page 41: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

podemos rechazar H0 con nivel � = 0:02; pero no con nivel � = 0:01. Sesuele decir que el resultado es signi�cativo a nivel 0.02, o que p < 0:02.Del mismo modo se pueden de�nir tests unilaterales.

Resumiendo este caso de comparación de medias. Sean X1; X2; :::; Xn1

e Y1; Y2; :::Yn2 dos muestras independientes de distribuciones N(�1; �2) y

N(�2; �2) respectivamente (el � es el mismo), entonces:

Hipótesis nula: H0 : �1 � �2 = �0

Valor de estadístico de prueba: t = (x� y ��0) =spp1=n1 + 1=n2

Hipótesis alternativa Región de rechazo para un nivel �HA : �1 � �2 > �0 t > t�HA : �1 � �2 < �0 t < �t�HA : �1 � �2 6= �0 t > t�=2 o t < �t�=2

grados de libertad = n1 + n2 � 2

El intervalo de con�anza para �1 � �2 será:�X � Y � t�=2sp

p1=n1 + 1=n2 ; X � Y + t�=2sp

p1=n1 + 1=n2

�En muchas aplicaciones, la suposición de que las varianzas de las dos

poblaciones son iguales es poco realista.

Ejemplo 4.10 Se tienen datos de la actividad total del complemento serológicoen 10 sujetos enfermos:

27:1 90:9 67:7 98:7 58:5 76:9 91:1 95:5 56:5 92:6

y 20 sujetos aparentemente normales:

44:6 58:1 44:1 55:9 30:1 53:8 56:8 43:9 61:4 58:330:3 44:1 48:7 45:5 42:2 49:5 57:9 44:5 34:5 41:5

:

Los representamos como variables X1; ::::; Xn1 e Y1; :::; Yn2 que tienendistribución N(�1; �

21) y N(�2; �

22) respectivamente. ¿Cuánta evidencia dan

los datos para a�rmar que las poblaciones de sanos y enfermos tienen distin-tas medias?

41

Page 42: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

En este caso Var(X�Y ) = �21=n1+�22=n2 y cuando �1 = �2 el estadístico

Z =X � Yp

�21=n1 + �22=n2

tiene distribución N(0; 1)

en este caso no podemos usar el Sp, estimador ponderado de la varianza,porque cada una es diferente, entonces el estadístico de prueba será:

T =X � Yp

S21=n1 + S22=n2

(15)

el problema es que no conocemos la distribución exacta de este estadístico.Cuando �1 = �2, la distribución de (15) se aproxima a una Student con �grados de libertad, donde:

� =[(s21=n1) + (s

22=n2)]

2h(s21=n1)

2=(n1 � 1) + (s22=n2)

2=(n2 � 1)

i (16)

Entonces de�nimos la siguiente regla de decisión:

rechazar H0 : �1 = �2 a favor de HA : �1 6= �2; cuandojx� yjp

s21=n1 + s22=n2

> t�=2

donde el valor crítico se busca en la tabla de Student con grados de libertadgl igual al entero más próximo a �; calculado en (16)En nuestro caso

n1 = 10; n2 = 20; x = 75:57; y = 47:30; x� y = 28:27

ys1 = 23:01; s2 = 9:24; � = 11:64

tomamos gl = 12; para � = 0:05 tenemos t0:025 = 2:179: El valor del estadís-tico es t = 3:74 que cae en la zona de rechazo. En este caso podemos ver queel valor crítico t0:005 = 3:055 (que corresponde a un nivel 0.01 para un testbilateral), esto nos indica que también se puede rechazar la hipótesis nula,con nivel � = 0:01. También podemos decir que el valor�p < 0:01Consideremos ahora otro ejemplo, donde de�nimos un test unilateral.

42

Page 43: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Ejemplo 4.11 Se propone un tratamiento para la artritis reumatoide, quees aplicado a una muestra de 6 pacientes, a los que se mide la concentraciónde tiol en la sangre. Estos valores se comparan con los de 5 pacientes decontrol tratados con placebo.

tratamiento 1.95 2.10 2.05 1.92 2.56 2.30control 2.81 3.62 3.27 2.35 3.67

¿Hay su�ciente evidencia para a�rmar que el tratamiento reduce los valoresde tiol?. Llamamos �1 a la media de los pacientes que reciben placebo (con-troles) y �2 a la media de los pacientes que reciben el tratamiento.

Este caso se puede plantear como:

H0 : �1 = �2 HA : �1 > �2

Se utiliza el mismo estadístico de prueba y la regla de decisión es:

rechazar H0 : �1 = �2 a favor de HA : �1 > �2; cuandox� yp

s21=n1 + s22=n2

> t�

Llamando xi e yi a los valores de control y tratamiento respectivamente,resulta:

n1 = 5; n2 = 6; x = 3:14; y = 2:15;

ys1 = 0:561; s2 = 0:243

calculamos � = 6:55; de modo que debemos trabajar con 7 grados de libertad.El valor del estadístico de prueba es t = 3:69, si observamos en la tabla deStudent para 7 grados de libertad, vemos que se puede rechazar la hipótesisnula hasta con nivel � = 0:005; ya que t0:005 = 3:499:

Resumiendo este caso de comparación de medias. Sean X1; X2; :::; Xn1

e Y1; Y2; :::Yn2 dos muestras independientes de distribuciones N(�1; �21) y

N(�2; �22) respectivamente, entonces:

Hipótesis nula: H0 : �1 � �2 = �0

Valor de estadístico de prueba: t = (x� y ��0) =ps21=n1 + s

22=n2

Hipótesis alternativa Región de rechazo para un nivel �HA : �1 � �2 > �0 t > t�HA : �1 � �2 < �0 t < �t�HA : �1 � �2 6= �0 t > t�=2 o t < �t�=2

grados de libertad = � calculados en (16)

43

Page 44: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

El intervalo de con�anza para �1 � �2 será:�X � Y � t�=2

qs21=n1 + s

22=n2 ; X � Y + t�=2

qs21=n1 + s

22=n2

�4.3.2 Muestras apareadas

La característica fundamental de las muestras apareadas, es que a cada ob-servación en el primer grupo, le corresponde una en el segundo grupo. Ge-neralmente se trata de dos mediciones realizadas a un mismo individuo endos ocasiones; un ejemplo común es el experimento �antes y después�, dondea cada individuo se le realiza un examen antes de aplicar un tratamiento yse vuelve a realizar ese examen después del tratamiento. En otras ocasionesel investigador relaciona cada individuo de un grupo con otro individuo,que tenga muchas características en común; en algunos casos pueden serhermanos gemelos, o simplemente individuos de la misma edad, sexo, concondiciones ambientales semejantes, etc.Se utiliza el apareamiento para controlar fuentes de variación ajenas al

experimento, que podrían in�uir en los resultados del mismo.En este caso los datos no se presentan como dos muestras independientes,

sino como una muestra de pares de variables aleatorias:

(X1; Y1); (X2; Y2); :::; (Xn; Yn);

que se supone que tienen distribución normal conjunta, con EXi = �1 yEYi = �2. Se calculan las diferencias:

D1 = X1 � Y1, D2 = X2 � Y2, ...... , Dn = Xn � Yn

y se trabaja con estas diferencias como una muestra aleatoria de una dis-tribución normal N(�D; �

2D), donde �D = �1 � �2

Ejemplo 4.12 Se dan los niveles de colesterol en suero para 12 sujetos,antes y después de un programa combinado de dieta y ejercicio. Se deseamedir la efectividad del tratamiento para reducir el colesterol, expresada porla diferencia de valores medios entre �antes�y �después�.

44

Page 45: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Sujeto antes después dif.1 231 210 212 235 216 193 255 239 164 248 238 105 306 289 176 237 232 57 223 227 -48 237 223 149 239 240 -110 267 237 3011 274 256 1812 231 206 25

En este caso, en la última columna están calculas las diferencias �antes-después�, considerando estas diferencias como una muestra aleatoria de unadistribución normal, se puede realizar el test de Student para una muestra.El problema queda planteado como:

H0 : �D = 0 HA : �D > 0

el estadístico de prueba será:

T =D

Sd=pn

donde

D =

PDi

nSd =

sP(Di �D)2n� 1

y la regla de decisión será:

rechazar H0 : �D = 0 a favor de HA : �D > 0; cuandopn d

sd> t�

donde el valor crítico se busca en la tabla de Student con n-1 grados de lib-ertad. En nuestro ejemplo d = 14:17, sd = 10:12, y el valor del estadísticode prueba es t = 4:85, si observamos la tabla de Student en la �la correspon-diente a 12 � 1 = 11 grados de libertad, vemos que el valor del estadísticode prueba es mayor que todos los valores críticos que tenemos tabulados, elvalor�p < 0:0005:Veamos ahora un caso bilateral:

45

Page 46: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Ejemplo 4.13 Se quiere comparar dos métodos de laboratorio. La concen-tración de plomo (�g/l) de cada una de cinco muestras es determinado pordos métodos diferentes, con los resultados que se muestran en la tabla

muestra 1 2 3 4 5oxidación húmeda 71 61 50 60 52extracción directa 76 68 48 57 61

.

Si �D es la diferencia de medias entre los dos métodos, el problema seplantea como:

H0 : �D = 0 HA : �D 6= 0La regla de decisión es:

rechazar H0 : �D = 0 a favor de HA : �D 6= 0; cuandopn��d��sd

> t�=2

si elegimos un nivel � = 0:05, el valor crítico para 5�1 = 4 grados de libertades t0:025 = 2:776; de modo que la zona de rechazo es la región a la derecha de2.776 y la región al la izquierda de -2.776.Llamando di (i = 1; :; 5) a las diferencias entre el primer método y el

segundo, tenemos los valores

�5 � 7 2 3 � 9;

de los que resulta

d = �3:20; sd = 5:40;y en consecuencia, el valor del estadístico es t = �1:32; este valor no caeen la zona de rechazo. Si observamos la tabla de la Student, vemos que aúneligiendo un nivel menos exigente � = 0:10, el valor crítico sería t0:05 = 2:132;y tampoco podríamos rechazar a ese nivel. La conclusión entonces es que nopodemos a�rmar que los dos métodos di�eran.

Resumiendo este caso, cuando tenemos muestras apareadas, que es unamuestra bidimensional, (X1; Y1); (X2; Y2); :::; (Xn; Yn); con distribución nor-mal conjunta, de�niendo Di = Xi � Yi, estas Di constituyen una muestraaleatoria de una distribución N(�D; �

2D), entonces:

46

Page 47: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Hipótesis nula: H0 : �D = �0

Valor de estadístico de prueba: t =pn (d��0)=sd

Hipótesis alternativa Región de rechazo para un nivel �HA : �D > �0 t > t�HA : �D < �0 t < �t�HA : �D 6= �0 t > t�=2 o t < �t�=2

grados de libertad = n� 1

El intervalo de con�anza para �1 � �2 será:�D � t�=2sd=

pn ; D + t�=2sd=

pn�

4.3.3 Muestras grandes

Cuando tenemos dos muestras independientes, pero desconocemos la dis-tribución de los datos, si las muestras son �grandes�se puede usar la apro-ximación del teorema del límite central como en el caso de una muestra.En ese caso el estadístico de prueba es

Z =X � Y ��0pS21=n1 + S

22=n2

que, cuando las medias de las dos poblaciones son iguales y n1 y n2 son�grandes�, tiene una distribución aproximadamente N(0; 1)Resumiendo para el caso de muestras �grandes�con distribución descono-

cida. Sean X1; X2; :::; Xn1 e Y1; Y2; :::Yn2 dos muestras independientes conn1 y n2 grandes.

Hipótesis nula: H0 : �1 � �2 = �0

Valor de estadístico de prueba: z = ( x� y ��0)=ps21=n1 + s

22=n2

Hipótesis alternativa Región de rechazo para un nivel � aproximadoHA : �1 � �2 > �0 z > z�HA : �1 � �2 < �0 z < �z�HA : �1 � �2 6= �0 z > z�=2 o z < �z�=2

Si tenemos muestras apareadas grandes y no conocemos la distribución,también se calculan las diferencias y se trabaja como en el caso de unamuestra grande aplicando el teorema del limite central.

47

Page 48: AnÆlisis de Datos 2013 - Segunda parte · AnÆlisis de Datos 2013 - Segunda parte 1 Estimación puntual La inferencia estadística generalmente pretende obtener información acerca

Resumiendo, cuando tenemos muestras apareadas, que es una muestrabidimensional (X1; Y1); (X2; Y2); :::; (Xn; Yn) con distribución desconocida, sede�nen Di = Xi � Yi, estas Di constituyen una muestra aleatoria y si n esgrande:

Hipótesis nula: H0 : �D = �0

Valor de estadístico de prueba: t =pn d=sd

Hipótesis alternativa Región de rechazo para un nivel � aproximadoHA : �D > �0 t > z�HA : �D < �0 t < �z�HA : �D 6= �0 t > z�=2 o t < �z�=2

48