comparación.pdf

Upload: pepefisico

Post on 12-Oct-2015

10 views

Category:

Documents


0 download

TRANSCRIPT

  • 9.2 Tests para comparacin de medias.

    9.2.1 Dos muestras independientes.

    En la seccin anterior vimos tests para comparar la media de una poblacincon un valor jo 0. Sin embargo, en la mayora de las aplicaciones, in-teresa comparar dos poblaciones. Por ejemplo, para evaluar el efecto de untratamiento, se suele comparar un grupo de individuos al que se aplica eltratamiento con otro grupo al que se le aplica otro tratamiento o un placebo;en otros casos se comparan individuos expuestos a un factor de riesgo conotros que no lo estn; o individuos sanos contra enfermos, etc.Los procedimientos para realizar test para comparacin de medias, son

    similares a los que vimos antes. Lo principal es encontrar el estadstico deprueba adecuado para cada situacin.

    Sean X1; X2; :::; Xn1 una muestra aleatoria de una distribucin N(1; 21)

    y Y1; Y2; :::Yn2 una muestra aleatoria de una distribucin N(2; 22) e indepen-

    dientes entre si.Un estimador para 12 esXY y sabemos queXY tiene distribucin

    N(1 2 ; 21=n1 + 22=n2), entonces si deseamos contrastar hiptesis sobre1 2, donde H0 : 1 2 = 0 el estadstico de prueba ser:

    X Y 0q21n1+

    22n2

    s N(0; 1) cuando H0 es verdadera

    Entonces, reumiendo como aneriormente:

    Hiptesis nula: H0 : 1 2 = 0Valor de estadstico de prueba: z = (x y 0)=

    p21=n1 +

    22=n2

    Hiptesis alternativa Regin de rechazo para un nivel HA : 1 2 > 0 z > zHA : 1 2 < 0 z < zHA : 1 2 6= 0 z > z=2 o z < z=2

    En muchas situaciones solo interesa saber si las medias de las dos pobla-ciones son diferentes, en ese caso 0 = 0

    Ejemplo 9.7 Se realiz un estudio para determinar la resistencia a la rup-tura de dos tipos de acero. Para una muestra aleatoria formada por 20 es-pecmenes de acero laminado en fro la resistencia promedio muestral fue

    80

  • x = 29:8 ksi. Al estudiar una segunda muestra aleatoria de 25 especmenesde acero galvanizado de dos lados se obtuvo una resistencia promedio mues-tral y = 32:7 ksi. Se supone que las distribuciones de la resistencia a laruptura de los dos tipos de acero son normales con 1 = 4:0 y 2 = 5:0Indican los datos que las medias de resistencia a la ruptura son diferentespara los dos tipos de acero?

    En este caso el problema se plantea como:

    H0 : 1 = 2 HA : 1 6= 2o en forma equivalente:

    H0 : 1 2 = 0 HA : 1 2 6= 0

    para este problema el estadstico de prueba ser:

    Z =X Yq21n1+

    22n2

    =X Yq1620+ 25

    25

    y la regla de decisin:

    rechazar H0 si el valor j zj = jx yjq1620+ 25

    25

    > z=2

    si elegimos un nivel de signicacin = 0:05, el punto crtico z=2 = 1:96:Entonces, reemplazando con los valores muestrales vemos que en este caso elvalor del estadstico de prueba es:

    z =29:8 32:7q

    1620+ 25

    25

    =2:901:34

    = 2:16

    que cae en la zona de rechazo para este nivel 0:05Si calculamos el valor-p

    p = P (jZ > 2:16j) = 1 P (2:16 < Z < 2:16) == 1 ( (2:16) (2:16)) = 2 2(2:16) = 2 2 0:98460 = 0:0308

    81

  • esto signica que, con un nivel = 0:0308, podemos armar que la resistenciaa la ruptura de los dos tipos de acero es diferente.

    Veamos ahora un ejemplo en el que tenemos dos muestras aleatorias dedistribuciones normales, pero donde no conocemos las varianzas.

    Ejemplo 9.8 Se tienen las mediciones del nivel de hierro en la sangre dedos muestras de nios: un grupo de nios sanos y el otro padece brosisqustica. Del primer grupo se tienen 9 mediciones , que dan x = 18:9mol=ly s1 = 5:9mol=l, para el segundo grupo se tienen 13 mediciones que dany = 11:9mol=l y s2 = 6:3mol=l: Las mediciones de los niveles de hierroen sangre pueden representarse por las variables aleatorias X1; X2; :::; Xn1y Y1; Y2; :::; Yn2 que son muestras aleatorias independientes de distribucionesnormales N(1;

    2) y N(2; 2); donde la varianza es la misma. Puede ser

    de inters saber si estas dos medias son iguales o distintas.

    En este caso el problema se plantea como:

    H0 : 1 = 2 HA : 1 6= 2o en forma equivalente

    H0 : 1 2 = 0 HA : 1 2 6= 0

    X Y es un estimador razonable para 1 2; que cuando las Xi y las Yitienen distribucin normal, tiene distribucin normal con

    E(X Y ) = 1 2 y Var(X Y ) = 2=n1 + 2=n2 = 2(1=n1 + 1=n2)

    entonces si 1 = 2 el estadstico:

    Z =X Y

    p1=n1 + 1=n2

    tiene distribucin N(0; 1)

    pero si no conocemos debemos reemplazarlo por un estimador, para estecaso recordamos el estimador ponderado de la varianza

    S2p =

    P(Xi X)2 +

    P(Yi Y )2

    n1 + n2 2 =(n1 1)s21 + (n2 1)s22

    n1 + n2 2

    82

  • que ya vimos que es insesgado y usaremos Sp =pS2p : Si reemplazamos

    por Sp, obtenemos el estadstico de prueba:

    T =X Y

    Spp1=n1 + 1=n2

    que bajo la hiptesis nula tiene distribucin de Student con n1+n22 gradosde libertad.La regla de decisin ser:

    rechazar H0 : 1 = 2 a favor de HA : 1 6= 2; cuandojx yj

    spp1=n1 + 1=n2

    > t=2

    donde el valor crtico t=2 se busca en la tabla de la Student para n1+n2 2grados de libertad.En el ejemplo que estamos analizando, tenemos los valores

    n1 = 9; n2 = 13; x = 18:9; y = 11:9; s1 = 5:9; s2 = 6:3

    Al reemplazar por los valores de la muestra obtenemos

    sp =p(8 5:92 + 12 6:32) =20 = 6:14

    y el valor del estadstico de prueba es t = 2:63: Si deseamos un nivel designicacin = 0:05, el valor crtico para 20 grados de libertad es t0:025 =2:086: Como el valor del estadstico de prueba cae en la zona de rechazo,se puede rechazar la hiptesis nula con nivel = 0:05, tambin podemosver que el valor crtico t0:01 = 2:528 (para un test bilateral corresponde a = 0:02) y el t0:005 = 2:845 (corresponde a = 0:01), esto signica quepodemos rechazar H0 con nivel = 0:02; pero no con nivel = 0:01. Sesuele decir que el resultado es signicativo a nivel 0.02, o que p < 0:02.Del mismo modo se pueden denir tests unilaterales.

    Resumiendo este caso de comparacin de medias. Sean X1; X2; :::; Xn1e Y1; Y2; :::Yn2 dos muestras independientes de distribuciones N(1;

    2) yN(2;

    2) respectivamente (el es el mismo), entonces:Hiptesis nula: H0 : 1 2 = 0Valor de estadstico de prueba: t = (x y 0) =sp

    p1=n1 + 1=n2

    Hiptesis alternativa Regin de rechazo para un nivel HA : 1 2 > 0 t > tHA : 1 2 < 0 t < tHA : 1 2 6= 0 t > t=2 o t < t=2

    grados de libertad = n1 + n2 2

    83

  • En muchas aplicaciones, la suposicin de que las varianzas de las dospoblaciones son iguales es poco realista.

    Ejemplo 9.9 Se tienen datos de la actividad total del complemento serolgicoen 10 sujetos enfermos:

    27:1 90:9 67:7 98:7 58:5 76:9 91:1 95:5 56:5 92:6

    y 20 sujetos aparentemente normales:

    44:6 58:1 44:1 55:9 30:1 53:8 56:8 43:9 61:4 58:330:3 44:1 48:7 45:5 42:2 49:5 57:9 44:5 34:5 41:5

    :

    Los representamos como variables X1; ::::; Xn1 e Y1; :::; Yn2 que tienendistribucin N(1;

    21) y N(2;

    22) respectivamente. Cunta evidencia dan

    los datos para armar que las poblaciones de sanos y enfermos tienen distin-tas medias?

    En este caso Var(XY ) = 21=n1+22=n2 y cuando 1 = 2 el estadstico

    Z =X Yp

    21=n1 + 22=n2

    tiene distribucin N(0; 1)

    en este caso no podemos usar el Sp, estimador ponderado de la varianza,porque cada una es diferente, entonces el estadstico de prueba ser:

    T =X Yp

    S21=n1 + S22=n2

    (26)

    el problema es que no conocemos la distribucin exacta de este estadstico.Cuando 1 = 2, la distribucin de (26) se aproxima a una Student con grados de libertad, donde:

    =[(s21=n1) + (s

    22=n2)]

    2h(s21=n1)

    2=(n1 1) + (s22=n2)2 =(n2 1)

    i (27)Entonces denimos la siguiente regla de decisin:

    rechazar H0 : 1 = 2 a favor de HA : 1 6= 2; cuandojx yjp

    s21=n1 + s22=n2

    > t=2

    84

  • donde el valor crtico se busca en la tabla de Student con grados de libertadgl igual al entero ms prximo a ; calculado en (27)En nuestro caso

    n1 = 10; n2 = 20; x = 75:57; y = 47:30; x y = 28:27

    ys1 = 23:01; s2 = 9:24; = 11:64

    tomamos gl = 12; para = 0:05 tenemos t0:025 = 2:179: El valor del estads-tico es t = 3:74 que cae en la zona de rechazo. En este caso podemos ver queel valor crtico t0:005 = 3:055 (que corresponde a un nivel 0.01 para un testbilateral), esto nos indica que tambin se puede rechazar la hiptesis nula,con nivel = 0:01. Tambin podemos decir que el valorp < 0:01Consideremos ahora otro ejemplo, donde denimos un test unilateral.

    Ejemplo 9.10 Se propone un tratamiento para la artritis reumatoide, quees aplicado a una muestra de 6 pacientes, a los que se mide la concentracinde tiol en la sangre. Estos valores se comparan con los de 5 pacientes decontrol tratados con placebo.

    tratamiento 1.95 2.10 2.05 1.92 2.56 2.30control 2.81 3.62 3.27 2.35 3.67

    Hay suciente evidencia para armar que el tratamiento reduce los valoresde tiol?. Llamamos 1 a la media de los pacientes que reciben placebo (con-troles) y 2 a la media de los pacientes que reciben el tratamiento.

    Este caso se puede plantear como:

    H0 : 1 = 2 HA : 1 > 2

    Se utiliza el mismo estadstico de prueba y la regla de decisin es:

    rechazar H0 : 1 = 2 a favor de HA : 1 > 2; cuandox yp

    s21=n1 + s22=n2

    > t

    Llamando xi e yi a los valores de control y tratamiento respectivamente,resulta:

    n1 = 5; n2 = 6; x = 3:14; y = 2:15;

    85

  • ys1 = 0:561; s2 = 0:243

    calculamos = 6:55; de modo que debemos trabajar con 7 grados de libertad.El valor del estadstico de prueba es t = 3:69, si observamos en la tabla deStudent para 7 grados de libertad, vemos que se puede rechazar la hiptesisnula hasta con nivel = 0:005; ya que t0:005 = 3:499:

    Resumiendo este caso de comparacin de medias. Sean X1; X2; :::; Xn1e Y1; Y2; :::Yn2 dos muestras independientes de distribuciones N(1;

    21) y

    N(2; 22) respectivamente, entonces:

    Hiptesis nula: H0 : 1 2 = 0Valor de estadstico de prueba: t = (x y 0) =

    ps21=n1 + s

    22=n2

    Hiptesis alternativa Regin de rechazo para un nivel HA : 1 2 > 0 t > tHA : 1 2 < 0 t < tHA : 1 2 6= 0 t > t=2 o t < t=2

    grados de libertad = calculados en (27)

    9.2.2 Muestras apareadas

    La caracterstica fundamental de las muestras apareadas, es que a cada ob-servacin en el primer grupo, le corresponde una en el segundo grupo. Ge-neralmente se trata de dos mediciones realizadas a un mismo individuo endos ocasiones; un ejemplo comn es el experimento antes y despus, dondea cada individuo se le realiza un examen antes de aplicar un tratamiento yse vuelve a realizar ese examen despus del tratamiento. En otras ocasionesel investigador relaciona cada individuo de un grupo con otro individuo,que tenga muchas caractersticas en comn; en algunos casos pueden serhermanos gemelos, o simplemente individuos de la misma edad, sexo, concondiciones ambientales semejantes, etc.Se utiliza el apareamiento para controlar fuentes de variacin ajenas al

    experimento, que podran inuir en los resultados del mismo.En este caso los datos no se presentan como dos muestras independientes,

    sino como una muestra de pares de variables aleatorias:

    (X1; Y1); (X2; Y2); :::; (Xn; Yn);

    86

  • que se supone que tienen distribucin normal conjunta, con EXi = 1 yEYi = 2. Se calculan las diferencias:

    D1 = X1 Y1, D2 = X2 Y2, ...... , Dn = Xn Yny se trabaja con estas diferencias como una muestra aleatoria de una dis-tribucin normal N(D;

    2D), donde D = 1 2

    Ejemplo 9.11 Se dan los niveles de colesterol en suero para 12 sujetos,antes y despus de un programa combinado de dieta y ejercicio. Se deseamedir la efectividad del tratamiento para reducir el colesterol, expresada porla diferencia de valores medios entre antesy despus.

    Sujeto antes despus dif.1 231 210 212 235 216 193 255 239 164 248 238 105 306 289 176 237 232 57 223 227 -48 237 223 149 239 240 -110 267 237 3011 274 256 1812 231 206 25

    En este caso, en la ltima columna estn calculas las diferencias antes-despus, considerando estas diferencias como una muestra aleatoria de unadistribucin normal, se puede realizar el test de Student para una muestra.El problema queda planteado como:

    H0 : D = 0 HA : D > 0

    el estadstico de prueba ser:

    T =D

    Sd=pn

    87

  • donde

    D =

    PDin

    Sd =

    sP(Di D)2n 1

    y la regla de decisin ser:

    rechazar H0 : D = 0 a favor de HA : D > 0; cuandopn d

    sd> t

    donde el valor crtico se busca en la tabla de Student con n-1 grados de lib-ertad. En nuestro ejemplo d = 14:17, sd = 10:12, y el valor del estadsticode prueba es t = 4:85, si observamos la tabla de Student en la la correspon-diente a 12 1 = 11 grados de libertad, vemos que el valor del estadsticode prueba es mayor que todos los valores crticos que tenemos tabulados, elvalorp < 0:0005:Veamos ahora un caso bilateral:

    Ejemplo 9.12 Se quiere comparar dos mtodos de laboratorio. La concen-tracin de plomo (g/l) de cada una de cinco muestras es determinado pordos mtodos diferentes, con los resultados que se muestran en la tabla

    muestra 1 2 3 4 5oxidacin hmeda 71 61 50 60 52extraccin directa 76 68 48 57 61

    .

    Si D es la diferencia de medias entre los dos mtodos, el problema seplantea como:

    H0 : D = 0 HA : D 6= 0La regla de decisin es:

    rechazar H0 : D = 0 a favor de HA : D 6= 0; cuandopndsd

    > t=2

    si elegimos un nivel = 0:05, el valor crtico para 51 = 4 grados de libertades t0:025 = 2:776; de modo que la zona de rechazo es la regin a la derecha de2.776 y la regin al la izquierda de -2.776.Llamando di (i = 1; :; 5) a las diferencias entre el primer mtodo y el

    segundo, tenemos los valores

    5 7 2 3 9;

    88

  • de los que resulta

    d = 3:20; sd = 5:40;y en consecuencia, el valor del estadstico es t = 1:32; este valor no caeen la zona de rechazo. Si observamos la tabla de la Student, vemos que aneligiendo un nivel menos exigente = 0:10, el valor crtico sera t0:05 = 2:132;y tampoco podramos rechazar a ese nivel. La conclusin entonces es que nopodemos armar que los dos mtodos dieran.

    Resumiendo este caso, cuando tenemos muestras apareadas, que es unamuestra bidimensional, (X1; Y1); (X2; Y2); :::; (Xn; Yn); con distribucin nor-mal conjunta, deniendo Di = Xi Yi, estas Di constituyen una muestraaleatoria de una distribucin N(D;

    2D), entonces:

    Hiptesis nula: H0 : D = 0Valor de estadstico de prueba: t =

    pn (d0)=sd

    Hiptesis alternativa Regin de rechazo para un nivel HA : D > 0 t > tHA : D < 0 t < tHA : D 6= 0 t > t=2 o t < t=2

    grados de libertad = n 1

    9.2.3 Muestras grandes

    Cuando tenemos dos muestras independientes, pero desconocemos la dis-tribucin de los datos, si las muestras son grandesse puede usar la apro-ximacin del teorema del lmite central como en el caso de una muestra.En ese caso el estadstico de prueba es

    Z =X Y 0pS21=n1 + S

    22=n2

    que, cuando las medias de las dos poblaciones son iguales y n1 y n2 songrandes, tiene una distribucin aproximadamente N(0; 1)Resumiendo para el caso de muestras grandescon distribucin descono-

    cida. Sean X1; X2; :::; Xn1 e Y1; Y2; :::Yn2 dos muestras independientes conn1 y n2 grandes.

    89

  • Hiptesis nula: H0 : 1 2 = 0Valor de estadstico de prueba: z = ( x y 0)=

    ps21=n1 + s

    22=n2

    Hiptesis alternativa Regin de rechazo para un nivel aproximadoHA : 1 2 > 0 z > zHA : 1 2 < 0 z < zHA : 1 2 6= 0 z > z=2 o z < z=2

    Si tenemos muestras apareadas grandes y no conocemos la distribucin,tambin se calculan las diferencias y se trabaja como en el caso de unamuestra grande aplicando el teorema del limite central.Resumiendo, cuando tenemos muestras apareadas, que es una muestra

    bidimensional (X1; Y1); (X2; Y2); :::; (Xn; Yn) con distribucin desconocida, sedenen Di = Xi Yi, estas Di constituyen una muestra aleatoria y si n esgrande:

    Hiptesis nula: H0 : D = 0Valor de estadstico de prueba: t =

    pn d=sd

    Hiptesis alternativa Regin de rechazo para un nivel aproximadoHA : D > 0 t > zHA : D < 0 t < zHA : D 6= 0 t > z=2 o t < z=2

    90

  • Prctica 7

    1. Las personas que tienen sndrome de Reynaud estn propensas a sufrirun deterioro de circulacin sangunea en los dedos de manos y pies.En un experimento para estudiar la magnitud de este deterioro, cadapersona introdujo su dedo en agua y se midi la salida resultante decalor (cal/cm2/min). Para 10 personas con el sndrome el promedio dela salida de calor fue x = 0:64, y para 10 personas que no tienen esepadecimento el promedio de salida de calor fue y = 2:05:Denotemos por1 y 2 los verdaderos promedios de salida de calor para presonas cony sin el sndrome de Reynaud. Supongamos que las dos distribucionesson normales con 1 = 0:2 y 2 = 0:4

    (a) Pruebe H0 : 1 2 = 1:0 vs. HA : 1 2 < 1:0 al nivel = 0:01 (HA dice que la salida de calor para pacientes con estaenfermedad es ms de 1 cal/cm2/min abajo de la de quienes no lapadecen)

    (b) Calcule el valor-p

    2. Para uniones de espiga de dos tipos diferentes utilizados en la con-struccin de bastidores de madera, se determin la fuerza de unin enplano (libras/pulgadas), teniendo el primer tipo mayor grosor de riel.Suponemos que la fuerza de unin sigue una distribucin normal enambos tipos de unin. Llamemos 1 y 2 a las respectivas medias ysean 1 = 155 y 2 = 140 las respectivas desviaciones tpicas.Para 10 especmenes probados del primer tipo se obtuvo x = 1376:4 ypara 9 especmens del segundo tipo y = 1215:6

    (a) Pruebe H0 : 1 2 = 0 vs. HA : 1 2 > 0 con un nivel = 0:05

    (b) Calcule el valor-p

    3. 22 animales experimentales con deciencia de vitamina D se dividieronen dos grupos de 11. El grupo 1 recibi una dieta con contenido devitamina D, y el 2 la dieta comn. Luego se midi para cada animalel contenido de calcio en suero. Puede suponerse que el contenido decalcio en suero es una variable aleatoria con distribucin normal, con la

    91

  • misma varianza en ambos grupos. A continuacin se listan los valorespara cada grupo (en mg/100ml).

    n x sG1 11 10.95 1.25G2 11 8.24 1.39

    (a) Se desea determinar si la dieta rica en vitamina D aumenta elcontenido de calcio en ms de 2 unidades. Plantee las hiptesispertinentes. Resuelva el problema para = 0:05

    (b) Acote el valor-p

    4. Para una muestra de 11 hombres se midieron los niveles de creatininausando dos mtodos diferentes, Ay B. Suponemos que los nivelesde creatinina siguen una distribucin normal

    suj. 1 2 3 4 5 6 7 8 9 10 11A 7.92 8.03 6.87 7.00 7.28 6.94 8.32 7.58 7.88 7.83 10.26B 8.04 7.71 6.54 6.96 7.62 6.95 8.25 7.46 8.17 7.84 9.79

    (a) Brindan estos datos evidencia suciente para armar que losmtodos A y B dieren?

    (b) Acote el valor-p

    5. Se cree que las personas infectadas por E. canis tienen, en promedio, unrecuento de glbulos blancos ms bajo que los no infectados. Sabemosque el recuento de glbulos blancos tiene distribucin normal. Para unamuestra de 15 personas infectadas, el recuento medio de glbulos blan-cos es de x = 4767=mm3, y la desviacin estandar es s = 3204=mm3;para una muestra de 10 personas sanas estos valores son 7360=mm3 y2415=mm3 respectivamente.

    (a) Brindan estos datos evidencia que conrme la hiptesis planteada?

    (b) Acote el valor-p

    6. Para 10 animales experimentales se registr la frecuencia cardaca (lati-dos por minuto) antes y despus de ser sometidos a un experimento (ladistribucin de la frecuencia cardaca se supone normal); los datos son

    92

  • animal 1 2 3 4 5 6 7 8 9 10antes 70 84 88 110 105 100 110 67 79 86

    despus 115 148 176 191 158 178 179 140 161 157

    Se puede concluir que el experimento produce un aumento de la fre-cuencia cardaca media?

    7. La siguiente tabla compara los niveles de carboxihemoglobina de ungrupo de no fumadores y un grupo de fumadores de cigarrillos. Sepresentan las medias y desviacines tpicas muestrales. Si llamamos 1al nivel medio de carboxihemoglobina en los fumadores y 2 en los nofumadores, se pretende probar que 1 2 > 2

    Grupo n Carboxihemoglobina (%)Fumadores 65 x1 = 4:4; s1 = 2:0No fumadores 58 x2 = 1:6; s2 = 1:3

    (a) Plantee las hiptesis y resuleva el prolema para un = 0:05

    (b) Calcule el valor-p aproximado

    8. Como parte de un estudio para determianr si la exposicin al DDT, estasociada con el cncer de mama, se seleccin una muestra de mujeresa las que se les diagnostic cancer y un grupo testigo de mujeres sanasrelacionadas a las pacientes de cncer en lo que se reere a varias ca-ractersticas, como: edad, condicin de fumadora, etc. A cada mujer sele tom una muestra de sangre y se midi el nivel de DDE (un derivadodel DDT en el cuerpo humano), y se calcul la diferencia de niveles decada paciente y su control asociado. Para las 171 diferencias se obtuvouna media de d = 2:7ng=ml y una desviacin tpica de s = 15:9ng=ml:Se puede inferir de estos datos que los niveles de DDE dieren en elgrupo de mujeres con cncer de mama y el grupo de mujeres sanas?

    93