10 análisis de la varianza - páginas web...

28
10 369 Análisis de la varianza INTRODUCCIÓN Al estudiar los métodos de análisis de datos cuantitativos, primero se trataron pro- blemas que implican una sola muestra de números y luego se abordó el análisis com- parativo de dos muestras diferentes. En problemas de una muestra, los datos se componían de observaciones sobre respuestas de individuos u objetos experimenta- les seleccionados de una sola población. En problemas de dos muestras, las dos muestras se tomaron de dos poblaciones diferentes y los parámetros de interés fue- ron las medias de la población o bien se aplicaron dos tratamientos distintos a unida- des experimentales (individuos u objetos) seleccionados de una sola población; en el último caso, los parámetros de interés fueron las medias de tratamiento verdaderas. El análisis de la varianza, o más brevemente, ANOVA, se refiere en general a un conjunto de situaciones experimentales y procedimientos estadísticos para el aná- lisis de respuestas cuantitativas de unidades experimentales. El problema ANOVA más simple se conoce indistintamente como unifactorial, de clasificación única o ANOVA unidireccional e implica el análisis de datos muestreados de más de dos po- blaciones (distribuciones) numéricas o de datos de experimentos en los cuales se uti- lizaron más de dos tratamientos. La característica que diferencia los tratamientos o poblaciones una de otra se llama factor en estudio y los distintos tratamientos o po- blaciones se conocen como niveles del factor. Ejemplos de tales situaciones incluyen los siguientes: 1. Un experimento para estudiar los efectos de cinco marcas diferentes de gasolina con respecto a la eficiencia de operación de un motor automotriz (mpg). 2. Un experimento para estudiar los efectos de la presencia de cuatro soluciones azucaradas diferentes (glucosa, sucrosa, fructosa y una mezcla de las tres) en cuanto a crecimiento de bacterias. www.FreeLibros.me

Upload: letram

Post on 05-Feb-2018

279 views

Category:

Documents


28 download

TRANSCRIPT

Page 1: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

10

369

Análisis de la varianza

INTRODUCCIÓN

Al estudiar los métodos de análisis de datos cuantitativos, primero se trataron pro-

blemas que implican una sola muestra de números y luego se abordó el análisis com-

parativo de dos muestras diferentes. En problemas de una muestra, los datos se

componían de observaciones sobre respuestas de individuos u objetos experimenta-

les seleccionados de una sola población. En problemas de dos muestras, las dos

muestras se tomaron de dos poblaciones diferentes y los parámetros de interés fue-

ron las medias de la población o bien se aplicaron dos tratamientos distintos a unida-

des experimentales (individuos u objetos) seleccionados de una sola población; en el

último caso, los parámetros de interés fueron las medias de tratamiento verdaderas.

El análisis de la varianza, o más brevemente, ANOVA, se refiere en general a

un conjunto de situaciones experimentales y procedimientos estadísticos para el aná-

lisis de respuestas cuantitativas de unidades experimentales. El problema ANOVA

más simple se conoce indistintamente como unifactorial, de clasificación única o

ANOVA unidireccional e implica el análisis de datos muestreados de más de dos po-

blaciones (distribuciones) numéricas o de datos de experimentos en los cuales se uti-

lizaron más de dos tratamientos. La característica que diferencia los tratamientos o

poblaciones una de otra se llama factor en estudio y los distintos tratamientos o po-

blaciones se conocen como niveles del factor. Ejemplos de tales situaciones incluyen

los siguientes:

1. Un experimento para estudiar los efectos de cinco marcas diferentes de gasolina

con respecto a la eficiencia de operación de un motor automotriz (mpg).

2. Un experimento para estudiar los efectos de la presencia de cuatro soluciones

azucaradas diferentes (glucosa, sucrosa, fructosa y una mezcla de las tres) en

cuanto a crecimiento de bacterias.

c10_p369-396.qxd 3/12/08 4:23 AM Page 369

www.FreeLibros.me

Page 2: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

3. Un experimento para investigar si la concentración de madera dura en la pulpa (%)

afecta la resistencia a la tensión de bolsas hechas de la pulpa.

4. Un experimento para decidir si la densidad de color de un espécimen de tela depen-

de de la cantidad de tinte utilizado.

En 1) el factor de interés es la marca de la gasolina y existen cinco niveles diferen-

tes del factor. En 2) el factor es el azúcar con cuatro niveles (o cinco, si se utiliza una so-

lución de control que no contenga azúcar). Tanto en 1) como en 2), el factor es de

naturaleza cualitativa y los niveles corresponden a posibles categorías del factor. En 3)

y 4), los factores son concentración de madera dura y cantidad de tinte, respectivamen-

te; estos dos factores son de naturaleza cuantitativa, por lo que los niveles identifican

diferentes ajustes del factor. Cuando el factor de interés es cuantitativo, también se

pueden utilizar técnicas estadísticas de análisis de regresión (discutido en los capítulos

12 y 13) para analizar los datos.

Este capítulo se enfoca en el ANOVA unifactorial. La sección 10.1 presenta la

prueba F para probar la hipótesis nula de que las medias de la población o tratamien-

to son idénticas. La sección 10.2 considera un análisis adicional de los datos cuando H0

ha sido rechazada. La sección 10.3 se ocupa de algunos otros aspectos del ANOVA uni-

factorial. El capítulo 11 introduce experimentos ANOVA que implican más de un factor.

370 CAPÍTULO 10 Análisis de la varianza

10.1 ANOVA unifactorial

El ANOVA unifactorial se enfoca en la comparación de más de dos medias de población otratamiento. Sean

I � el número de poblaciones o tratamientos que se están comparando.

�1 � la media de la población 1 o la respuesta promedio verdadera cuando se aplicael tratamiento 1.

���

�I � la media de la población I o la respuesta promedio verdadera cuando se aplica eltratamiento I.

Las hipótesis pertinentes son

H0: �1 � �2 � · · · � �I

contra

Ha: por lo menos dos de las �i son diferentes.

Si I � 4, H0 es verdadera sólo si las cuatro �i son idénticas. Ha sería verdadera, por ejem-plo, si �1 � �2 � �3 � �4, si �1 � �3 � �4 � �2, o si las cuatro �i difieren una de otra.

Una prueba de estas hipótesis requiere que se tenga disponible una muestra aleatoriade cada población o tratamiento.

El artículo “Compression of Single-Wall Corrugated Shipping Containers Using Fixed andFloating Test Platens” (J. Testing and Evaluation, 1992: 318-320) describe un experimen-to en el cual se compararon varios tipos diferentes de cajas con respecto a resistencia a la

Ejemplo 10.1

c10_p369-396.qxd 3/12/08 4:23 AM Page 370

www.FreeLibros.me

Page 3: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

compresión (lb). La tabla 10.1 presenta los resultados de un experimento ANOVA unifacto-rial que implica I � 4 tipos de cajas (las medias y desviaciones estándar muestrales con-cuerdan con los valores dados en el artículo).

Tabla 10.1 Datos y cantidades resumidas para el ejemplo 10.1

Tipo de caja Resistencia a la compresión (lb) Media muestral DE muestral

1 655.5 788.3 734.3 721.4 679.1 699.4 713.00 46.552 789.2 772.5 786.9 686.1 732.1 774.8 756.93 40.343 737.1 639.0 696.3 671.7 717.2 727.1 698.07 37.204 535.1 628.7 542.4 559.0 586.9 520.0 562.02 39.87

Gran media � 682.50

Con �i denotando la resistencia a la compresión promedio verdadera de las cajas de tipo i (i � 1, 2, 3, 4), la hipótesis nula es H0: �1 � �2 � �3 � �4. La figura 10.1a) muestra unagráfica de caja comparativa para las cuatro muestras. Existe una cantidad sustancial de tras-lape entre las observaciones de los primeros tres tipos de cajas, pero las resistencias a lacompresión del cuarto tipo parecen considerablemente más pequeñas que para los demás ti-pos. Esto sugiere que H0 no es verdadera. La gráfica de caja que aparece en el figura 10.1b)está basada en agregar 120 a cada observación en la cuarta muestra (y así se obtiene una me-dia de 682.02 y la misma desviación estándar) y las demás observaciones no cambian. Yano es obvio si H0 es verdadera o falsa. En situaciones como ésta, se requiere un procedimien-to de prueba formal.

10.1 ANOVA unifactorial 371

630

4

3

2

1

660 690 750720 780

550

4

3

2

1

600 650

a)

b)

700 750

Figura 10.1 Gráficas de caja para el ejemplo 10.1: a) datos originales; b) datos modificados. ■

c10_p369-396.qxd 3/12/08 4:23 AM Page 371

www.FreeLibros.me

Page 4: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

372 CAPÍTULO 10 Análisis de la varianza

Notación y suposiciones En problemas de dos muestras se utilizaron las letras X y Y para diferenciar las observacio-nes en una muestra de aquellas en la otra. Como esto es engorroso con tres o más muestras,se acostumbra utilizar una sola letra con dos subíndices. El primero identifica el número dela muestra, correspondiente a la población o tratamiento que se está muestreando y el se-gundo denota la posición de la observación dentro de dicha muestra. Sean

Xi,j � la variable aleatoria (va) que denota la medición j-ésima tomada en la poblacióni-ésima o la medición tomada en la unidad experimental j-ésima que recibe eltratamiento i-ésimo.

xi,j � el valor observado de Xi,j cuando se realiza el experimento.

Los datos observados normalmente se muestran en una tabla rectangular, tal como latabla 10.1. En ella las muestras de las diferentes poblaciones aparecen en filas distintas dela tabla y xi,j es el número j-ésimo en la fila i-ésima. Por ejemplo x2,3 � 786.9 (la tercera ob-servación de la segunda población) y x4,1 � 535.1. Cuando no hay ambigüedad, se escribiráxij en lugar de xi,j (p. ej., si se realizaron 15 observaciones en cada uno de los 12 tratamientos,x112 podría significar x1,12 o x11,2). Se supone que las Xij dentro de cualquier muestra particularson independientes, una muestra aleatoria de la distribución de población o tratamientoi-ésima, y que las diferentes muestras son independientes entre sí.

En algunos experimentos, diferentes muestras contienen distintos números de obser-vaciones. Aquí se abordará el caso de tamaños de muestra iguales; la generalización encuanto a tamaños de muestra desiguales aparece en la sección 10.3. Sea J el número de ob-servaciones en cada muestra (J � 6 en el ejemplo 10.1). El conjunto de datos se compone de IJ observaciones. Las medias de muestra individual serán denotadas por X�1�, X�2�, . . . , X�I�.Es decir,

X�i� � i � 1, 2, . . . , I

El punto en lugar del segundo subíndice significa que se sumaron todos los valores de di-cho subíndice al mismo tiempo que se mantuvo fijo el valor del otro subíndice y la raya ho-rizontal indica división entre J para obtener un promedio. Asimismo, el promedio de todaslas observaciones IJ, llamada gran media, es

X��� �

Con los datos de resistencia en la tabla 10.1, x�1� � 713.00, x�2� � 756.93, x�3� � 698.07,x�4� � 562.02 y x��� � 682.50. Además, sean S2

1, S22, . . . , S

2I las varianzas muestrales:

S2i � i � 1, 2, . . . , I

De acuerdo con el ejemplo 10.1, s1 � 46.55, s21 � 2166.90, y así sucesivamente.

�J

j�1(Xij � X�i�)

2

J � 1

�I

i�1�J

j�1Xij

IJ

�J

j�1Xij

J

SUPOSICIONES La población o tratamiento I son normales con la misma varianza �2, es decir, cadaXij está normalmente distribuida con

E(Xij) � �i V(Xij) � � 2

c10_p369-396.qxd 3/12/08 4:23 AM Page 372

www.FreeLibros.me

Page 5: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

10.1 ANOVA unifactorial 373

Las desviaciones estándar de la muestra I en general difieren un poco aun cuando las� correspondientes sean idénticas. En el ejemplo 10.1, la más grande entre s1, s2, s3 y s4

es aproximadamente 1.25 veces la más pequeña. Una regla empírica preliminar es que si la smás grande no es mucho más de dos veces la más pequeña, es razonable suponer �2 iguales.

En capítulos previos, se sugirió un diagrama de probabilidad normal para verificar encuanto a normalidad. Los tamaños de muestra individuales en ANOVA típicamente son demasiado pequeños como para que los distintos diagramas I sean informativos. Se puedeconstruir un solo diagrama restando x�1� de cada observación en la primera muestra, x�2�

de cada observación en la segunda y así sucesivamente y luego dibujando estas desviacio-nes IJ contra los percentiles z. La figura 10.2 da ese diagrama para los datos del ejemplo10.1. La linealidad de la gráfica confirma fuertemente la suposición de normalidad.

Si la suposición de normalidad o la suposición de varianzas iguales se supone infac-tible, habrá que emplear un método de análisis distinto de la prueba F usual. Búsquese porfavor asesoría experta en tales situaciones (en la sección 10.3 se sugiere una posibilidad, unatransformación de datos).

El estadístico de pruebaSi H0 es verdadera, las J observaciones en cada muestra provienen de una distribución nor-mal con el mismo valor medio �, en cuyo caso las medias muestrales x�1�, . . . , x�I� deberánser razonablemente parecidas. El procedimiento de prueba se basa en comparar una medi-da de diferencias entre las x�i� (variación “entre muestras”) con una medida de variación calculada desde adentro de cada una de las muestras.

DEFINICIÓN El cuadrado de la media de tratamientos está dado por

CMTr � [(X�1� � X���)2 � (X�2� � X���)

2 � � � � � (X�I� � X���)2]

� �i

(X�i� � X���)2

y el cuadrado de la media de error es

CME �

El estadístico de prueba para ANOVA unifactorial es F � CMTr/CME.

S21 � S2

2 � � � � � S2I

I

JI � 1

JI � 1

–1.4 –0.7 0 0.7 1.4

–50

50

0

Percentil z

Desviación

Figura 10.2 Diagrama de probabilidad normal basado en los datos del ejemplo 10.1.

c10_p369-396.qxd 3/12/08 4:23 AM Page 373

www.FreeLibros.me

Page 6: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

374 CAPÍTULO 10 Análisis de la varianza

La terminología “cuadrado de la media” se explicará en breve. Obsérvese que se utilizan X�y S2 mayúsculas, de modo que CMTr y CME se definen como estadísticos. Se seguirá la tra-dición y también se utilizarán CMTr y CME (en lugar de cmtr y cme) para denotar los valores calculados de estos estadísticos. Cada S2

i evalúa la variación dentro de una muestraparticular, así que CME es una medida de variación dentro de muestras.

¿Qué clase de valor de F proporciona evidencia en pro o en contra de H0? Si H0 esverdadera (todas las �i son iguales), los valores de las medias muestrales individuales debe-rán estar próximos entre sí y por consiguiente próximos a la gran media, con el resultado deun valor pequeño de CMTr. Sin embargo, si las �i son bastante diferentes, algunas x�i� sdifieren un poco de x���. De modo que el valor de CMTr es afectado por el estado de H0 (ver-dadera o falsa). Este no es el caso con CME, porque las s2

i dependen sólo del valor subya-cente de �2 y no de donde están centradas las diversas distribuciones. El siguiente recuadropresenta una propiedad importante de E(CMTr) y E(CME), los valores esperados de estosdos estadísticos.

El insesgamiento de CME es una consecuencia de E(S2i ) � � 2 si H0 es verdadera o falsa.

Cuando H0 es verdadera, cada X�i tiene el mismo valor medio � y varianza �2/J de modo que�(X�i� � X���)

2/(I � 1), la “varianza muestral” de las XX�i� , estima �2/J insesgadamente; mul-tiplicando ésta por J se obtiene CMTr como un estimador insesgado de �2 misma. Las X�i�

tienden a dispersarse más cuando H0 es falsa que cuando es verdadera y tiende a inflar elvalor de CMTr en este caso. Por consiguiente, un valor de F que excede en gran medida a 1,correspondiente a CMTr mucho más grande que CME, provoca una duda considerable so-bre H0. La forma de la región de rechazo es f c. La c de corte debe ser seleccionada paraque dé P(F c cuando H0 es verdadera) � �, el nivel de significación deseado. Por consi-guiente, se requiere la distribución de F cuando H0 es verdadera.

Distribuciones F y la prueba FEn el capítulo 9, se introdujo una familia de distribuciones de probabilidad llamada distri-buciones F en conexión con una proporción en la cual existe un número de grados de liber-tad (gl) asociado con el numerador y otro número de grados de libertad asociado con eldenominador. Sean �1 y �2 el número de grados de libertad asociado con el numerador y de-nominador, respectivamente, para una variable con una distribución F. Tanto �1 como �2 sonenteros positivos. La figura 10.3 ilustra una curva de densidad F y el valor crítico de colasuperior correspondiente, F�,�1,�2

. La tabla A.9 da estos valores críticos para � � 0.10, 0.05,0.01 y 0.001. Los valores de �1 están identificados con diferentes columnas de la tabla y lasfilas con varios valores de �2. Por ejemplo, el valor crítico F que captura un área de cola su-perior de 0.05 bajo la curva con �1 � 4 y �2 � 6 es F0.05,4,6 � 4.53 en tanto que F0.05,6,4 � 6.16.El resultado teórico clave es que el estadístico de prueba F tiene una distribución F cuandoH0 es verdadera.

PROPOSICIÓN Cuando H0 es verdadera

E(CMTr) � E(CME) � � 2

mientras que cuando H0 es falsa

E(CMTr) � E(CME) � � 2

Es decir, ambos estadísticos son insesgados para estimar la varianza de población co-mún �2 cuando H0 es verdadera, pero CMTr tiende a sobreestimar �2 cuando H0 esfalsa.

c10_p369-396.qxd 3/12/08 4:23 AM Page 374

www.FreeLibros.me

Page 7: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

10.1 ANOVA unifactorial 375

El razonamiento para �1 � I � 1 es que aunque CMTr está basada en las I desviacio-nes X�1� � X���, . . . , X�I� � X���, �(X�i� � X���) � 0, de modo que sólo I � 1 de éstas son libre-mente determinadas. Como cada muestra contribuye con J � 1 grados de libertad a CME yestas muestras son independientes, �2 � (J � 1) � � � � � (J � 1) � I(J � 1).Los valores de I y J con los datos de resistencia son 4 y 6, respectivamente, de modo que grados de libertad � I � 1 � 3 asociados con el numerador y grados de libertad � I(J � 1) � 20 asociados con el denominador. A un nivel de significación de 0.05, H0: �1 � �2 � �3 � �4 será rechazada en favor de la conclusión de que por lo menos dos �i

son diferentes si f F0.05,3,20 � 3.10. La gran media es x��� � ��xij /(IJ) � 682.50

CMTr � [(713.00 � 682.50)2 � (756.93 � 682.50)2

� (698.07 � 682.50)2 � (562.02 � 682.50)2] � 42 455.86

CME � [(46.55)2 � (40.34)2 � (37.20)2 � (39.87)2] � 1691.92

f � CMTr/CME � 42 455.86/1691.92 � 25.09

Como 25.09 3.10, H0 es resonantemente rechazada a un nivel de significación de 0.05.La resistencia a la compresión promedio verdadera sí parece depender del tipo de caja. Enrealidad, valor P � área bajo la curva F a la derecha de 25.09 � 0.000. H0 sería rechazadaa cualquier nivel de significación razonable. ■

Sumas de los cuadradosLa introducción de las sumas de los cuadrados facilita el desarrollo de una apreciación in-tuitiva para el razonamiento que fundamenta los ANOVA unifactoriales y multifactoriales.Sea xi la suma (no el promedio, puesto que no hay raya) de las xij con i fija (suma de los números en la i-ésima fila de la tabla) y x�� denota la suma de todas las xij (el gran total).

14

64 � 1

TEOREMA Sea F � CMTr/CME el estadístico de prueba en un problema de ANOVA unifacto-rial que implica poblaciones o tratamientos I con una muestra aleatoria de J observa-ciones de cada uno. Cuando H0 es verdadera y la suposición básica de esta sección sesatisface, F tiene una distribución F con �1 � I � 1 y �2 � I(J � 1). Con f denotan-do el valor calculado de F, la región de rechazo f F�,I�1,I(J�1) especifica entoncesuna prueba con nivel de significación �. Remítase a la sección 9.5 para ver cómo seobtiene información sobre el valor P para pruebas F.

Ejemplo 10.2(continuacióndel ejemplo10.1)

Curva F con �1 y �2 grados de libertad

Área sombreada � �

F , 1, 2� � �

Figura 10.3 Una curva F y valor crítico F�,�1,�2.

c10_p369-396.qxd 3/12/08 4:23 AM Page 375

www.FreeLibros.me

Page 8: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

376 CAPÍTULO 10 Análisis de la varianza

La suma de los cuadrados STC aparece en el numerador de F y SCE lo hace en el denomi-nador; la razón para definir la STC se pondrá de manifiesto en breve.

Las expresiones a la extrema derecha de STC y STC son convenientes si los cálculosde ANOVA se realizan a mano, aunque la amplia disponibilidad de programas estadísticos ha-ce que esto sea innecesario. Tanto STC como STC implican x2

�� /(IJ) (el cuadrado del gran total dividido entre IJ), lo que normalmente se llama factor de corrección para la media(FC). Una vez que se calcula el factor de corrección, la STC se obtiene elevando al cuadradocada número que aparece en la tabla, sumando los cuadrados y restando el factor de correc-ción. STC se obtiene al elevar al cuadrado cada total de fila, sumándolos, dividiendo entre J yrestando el factor de corrección.

Una fórmula para calcular SCE es una consecuencia de una relación simple entre lastres sumas de cuadrados.

Por consiguiente, si se calculan dos cualesquiera de las sumas de los cuadrados, la tercerase obtiene con (10.1); STC y STC son las más fáciles de calcular y en ese caso SCE � STC� STC. La comprobación se desprende de elevar al cuadrado ambos lados de la relación

xij � x��� � (xij � x�i�) � (x�i� � x���) (10.2)

y sumando todas las i y j. Esto da la STC a la izquierda y STC y SCE como los dos térmi-nos extremos a la derecha. Es fácil ver que el término del producto cruz es cero.

La interpretación de la identidad fundamental es una importante ayuda para entenderel ANOVA. STC mide la variación total de los datos: la suma de todas las desviaciones alcuadrado con respecto a la gran media. La identidad dice que esta variación total puede serdividida en dos partes. SCE mide la variación que estaría presente (en las filas) aun cuandoH0 fuera verdadera y es por consiguiente la parte de la variación total que no es explicadapor la veracidad o la falsedad de H0. STC es la cantidad de variación (entre filas) que pue-den ser explicadas por las posibles diferencias en las �i. Si la variación explicada es grandecon respecto a la variación no explicada, entonces H0 es rechazada en favor de Ha:

DEFINICIÓN La suma total de los cuadrados (STC), la suma de los cuadrados del tratamiento(STC) y la suma de los cuadrados del error (SCE) están dadas por

STC � �I

i�1�J

j�1(xij � x���)

2 � �I

i�1�J

j�1x2

ij � x2��

STC � �I

i�1�J

j�1(x�i� � x���)

2 � �I

i�1x2

i� � x2��

SCE � �I

i�1�J

j�1(xij � x�i�)

2 donde xi� � �J

j�1xij x�� � �

I

i�1�J

j�1xij

1IJ

1J

1IJ

Identidad fundamental

STC � STC � SCE (10.1)

c10_p369-396.qxd 3/12/08 4:23 AM Page 376

www.FreeLibros.me

Page 9: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

10.1 ANOVA unifactorial 377

Una vez que STC y SCE se calculan, cada uno se divide por su número de grados delibertad asociado para obtener un cuadrado de la media (media en el sentido de promedio).Entonces F es la proporción de los dos cuadrados de la media.

Con frecuencia, los cálculos se resumen en un formato tabular, llamado tabla ANOVA, co-mo se ilustra en la tabla 10.2. Las tablas producidas por programas estadísticos comúnmen-te incluyen una columna de valor P a la derecha de f.

TABLA 10.2 Tabla ANOVA

Origen de Grados de Suma dela variación libertad los cuadrados Cuadrado de la media f

Tratamientos I � 1 STC CMTr � STCr/(I � 1) CMTr/CMEError I(J � 1) SCE CME � SCE/[I(J � 1)]Total IJ � 1 STC

Los datos adjuntos se obtuvieron con un experimento que compara el grado de manchadode telas copolimerizadas con tres mezclas diferentes de ácido metracrílico (datos similaresaparecieron en el artículo “Chemical Factors Affecting Soiling and Soil Release from CottonDP Fabric”, American Dyestuff Reporter, 1983: 25-30).

xi� x�i�

Mezcla 1 0.56 1.12 0.90 1.07 0.94 4.59 0.918

Mezcla 2 0.72 0.69 0.87 0.78 0.91 3.97 0.794

Mezcla 3 0.62 1.08 1.07 0.99 0.93 4.69 0.938

x�� � 13.25

Sea �i el grado de manchado promedio verdadero de manchado cuando se utiliza una mez-cla i (i � 1, 2, 3). La hipótesis nula H0: �1 � �2 � �3 manifiesta que el grado de mancha-do promedio verdadero es idéntico con las tres mezclas. Se realizará una prueba a un nivelde significación de 0.01 para ver si H0 deberá ser rechazada a favor de la aseveración de que el grado de manchado promedio verdadero no es el mismo con todas las mezclas. Co-mo I � 1 � 2 e I(J � 1) � 12, el valor crítico F de la región de rechazo es F0.01,2,12 � 6.93.Elevando al cuadrado cada una de las 15 observaciones y sumando se obtiene ��x2

ij � (0.56)2 � (1.12)2 � � � � � (0.93)2 � 12.1351. Los valores de las tres sumas de loscuadrados son

STC � 12.1351 � (13.25)2/15 � 12.1351 � 11.7042 � 0.4309

STCr � [(4.59)2 � (3.97)2 � (4.69)2] � 11.7042

� 11.7650 � 11.7042 � 0.0608

SCE � 0.4309 � 0.0608 � 0.3701

El resto de los cálculos se ilustra en la tabla ANOVA adjunta. Como f � 0.99 no es por lo menos F0.01,2,12 � 6.93. H0 no es rechazada a un nivel de significación de 0.01.

15

CMTr � CME � F � (10.3)CMTrCME

SCEI(J � 1)

STCI � 1

Ejemplo 10.3

c10_p369-396.qxd 3/12/08 4:23 AM Page 377

www.FreeLibros.me

Page 10: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

Parece que las mezclas son indistinguibles con respecto al grado de manchado (F0.10,2,12 �2.8 valor P � 0.10).

Cuando la prueba F hace que H0 sea rechazada, con frecuencia al experimentador leinteresará realizar un análisis más amplio para decidir cuáles de las �i difieren de cuálesotras. El procedimiento para hacer esto se llama procedimientos de comparación múltiple yen las dos secciones siguientes se describen varios.

378 CAPÍTULO 10 Análisis de la varianza

Grados de Suma de Cuadrado Origen de la variación libertad los cuadrados de la media f

Tratamientos 2 0.0608 0.0304 0.99Error 12 0.3701 0.0308Total 14 0.4309

Grado J x�i� si

1 10 1.63 0.272 10 1.56 0.243 10 1.42 0.26

EJERCICIOS Sección 10.1 (1-10)

1. En un experimento para comparar las resistencias a la ten-sión de I � 5 tipos diferentes de alambre de cobre, se utili-zaron J � 4 muestras de cada tipo. Las estimaciones entremuestras y dentro de muestras de �2 se calcularon comoCMTr � 2673.3 y CME � 1094.2, respectivamente. a. Use la prueba F a un nivel de 0.05 para probar H0: �1 �

�2 � �3 � �4 � �5 contra Ha: por lo menos dos �i sondesiguales.

b. ¿Qué se puede decir sobre el valor P para la prueba?

2. Suponga que las observaciones de resistencia a la compre-sión del cuarto tipo de caja del ejemplo 10.1 hubieran sido655.1, 748.7, 662.4, 679.0, 706.9 y 640.0 (obtenidas suman-do 120 a cada x4j previa). Suponiendo que las observacionesrestantes no cambian, realice una prueba F con � � 0.05.

3. Se determinó el rendimiento en lúmenes de cada uno de I � 3 marcas diferentes de focos de luz blanca de 60 watts,con J � 8 focos de cada marca probados. Las sumas de los cuadrados se calcularon como SCE � 4773.3 y STC � 591.2. Formule las hipótesis de interés (incluidasdefiniciones en palabras de los parámetros) y use la pruebaF de ANOVA (� � 0.05) para decidir si existen diferenciasen los rendimientos de lúmenes promedio verdaderos entrelas tres marcas de este tipo de foco obteniendo tanta infor-mación como sea posible sobre el valor P.

4. En un estudio para evaluar los efectos de la infección demalaria en mosquitos huésped (“Plasmodium Cynomolgi:Effects of Malaria Infection on Laboratory Flight Perfor-mance of Anopheles Stephensi Mosquitos”, ExperimentalParasitology, 1977: 397-404), mosquitos fueron alimentadoscon macacos de la India infecciosos y no infecciosos. Subse-cuentemente se midió la distancia que volaban durante 24 ho-ras por medio de un molino de vuelo. Los mosquitos sedividieron en cuatro grupos de ocho cada uno: macacos in-fecciosos y sporozites presentes (IRS), macacos infecciososy oocitos presentes (IRD), macaco infeccioso y ninguna in-fección desarrollada (IRN) y no infecciosos (C). Los valores

son x�1� � 4.39 (IRS), x�2� � 4.52 (IRD), x�3� � 5.49 (IRN),x�4� � 6.36 (C), x��� � 5.19 y ��x2

ij � 911.91. Use la pruebaF ANOVA a un nivel de 0.05 para determinar si existen di-ferencias entre los tiempos de vuelo promedio verdaderoscon los cuatro tratamientos.

5. Considere los siguientes datos del módulo de elasticidad (� 106 lb/pulg2) de madera de tres grados diferentes (en con-cordancia con los valores que aparecen en el artículo, “Ben-ding Strength and Stiffness of Second-Growth: Douglas-FirDimension Lumber” (Forest Products J., 1991: 35-43), ex-cepto que los tamaños de muestra allí eran más grandes):

Use estos datos y nivel de significación de 0.01 para probarla hipótesis nula de no diferencia en el módulo de media deelasticidad para los tres grados.

6. El artículo, “Origin of Precambrian Iron Formations”(Econ. Geology, 1964: 1025-1057) reporta los siguientesdatos sobre Fe total para cuatro tipos de formación de hierro(1 � carbonato, 2 � silicato, 3 � magnetita, 4 � hematita).

1: 20.5 28.1 27.8 27.0 28.025.2 25.3 27.1 20.5 31.3

2: 26.3 24.0 26.2 20.2 23.734.0 17.1 26.8 23.7 24.9

3: 29.5 34.0 27.5 29.4 27.926.2 29.9 29.5 30.0 35.6

4: 36.5 44.2 34.1 30.3 31.433.1 34.1 32.9 36.3 25.5

Analice con una prueba F de varianza a un nivel de signifi-cación de 0.01 y resuma los resultados en una tabla ANOVA.

c10_p369-396.qxd 3/12/08 4:23 AM Page 378

www.FreeLibros.me

Page 11: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

Cuando el valor calculado del estadístico F en un ANOVA unifactorial no es significativo, elanálisis se termina porque no han identificado diferencias entre las �i. Pero cuando H0 es rechazada, el investigador normalmente deseará saber cuáles de las �i son diferentes una deotra. Un método de realizar este análisis se llama procedimiento de comparaciones múltiples.

Varios de tales procedimientos más frecuentemente utilizados están basados en la si-guiente idea central. Primero se calcula un intervalo de confianza para cada diferencia �i � �j

con i � j. Por consiguiente si I � 4, los seis intervalos de confianza requeridos serían para�1 � �2 (pero no para �2 � �1), �1 � �3, �1 � �4, �2 � �3, �2 � �4 y �3 � �4. Enton-ces si el intervalo para �1 � �2 no incluye 0, se concluye que �1 y �2 difieren significati-vamente una de otra, si el intervalo sí incluye 0, se considera que las dos � no difieren demanera significativa. Si se sigue la misma línea de razonamiento para cada uno de los demás intervalos, finalmente se es capaz de juzgar si cada par de � difieren o no en formasignificativa una de otra.

Los procedimientos basados en esta idea difieren en el método utilizado para calcularlos varios intervalos de confianza. Aquí se presenta un método popular que controla el ni-vel de confianza simultáneo para todos los intervalos I(I � 1)/2 calculados.

10.2 Comparaciones múltiples en ANOVA 379

7. En un experimento para investigar el desempeño de cuatromarcas diferentes de bujías destinadas para usarse en unamotocicleta de dos tiempos de 125 cc, se probaron cincobujías de cada marca y el número de millas (a una veloci-dad constante) hasta que se observó una falla. Aquí se da latabla ANOVA parcial para los datos. Llene las entradas quefaltan, formule las hipótesis pertinentes y realice una prue-ba para obtener tanta información como sea posible sobre elvalor P.

8. Un estudio de las propiedades de armaduras conectadas conplacas metálicas para soportar techos (“Modeling JointsMade with Light-Gauge Metal Connector Plates”, ForestProducts J., 1979: 39-44) dio las siguientes observacionesde índice de rigidez axial (klb/pulg) de tramos de placa de4, 6, 8, 10 y 12 pulg.

4: 309.2 409.5 311.0 326.5 316.8349.8 309.7

6: 402.1 347.2 361.0 404.5 331.0348.9 381.7

8: 392.4 366.2 351.0 357.1 409.9367.3 382.0

10: 346.7 452.9 461.4 433.1 410.6384.2 362.6

12: 407.4 441.8 419.9 410.7 473.4441.2 465.8

¿Tiene algún efecto la variación de la longitud de placas enla rigidez axial promedio verdadera? Formule y pruebe lashipótesis pertinentes mediante un análisis de varianza con � � 0.01. Muestre sus resultados en una tabla ANOVA.[Sugerencia: ��x 2

ij � 5 241, 420.79.]

9. Se analizaron seis muestras de cada uno de cuatro tipos decrecimiento de granos de cereal en una región para determi-nar el contenido de tiamina y se obtuvieron los siguientesresultados (�g/g):

Trigo 5.2 4.5 6.0 6.1 6.7 5.8Cebada 6.5 8.0 6.1 7.5 5.9 5.6Maíz 5.8 4.7 6.4 4.9 6.0 5.2Avena 8.3 6.1 7.8 7.0 5.5 7.2

¿Sugieren estos datos que por lo menos dos de los granosdifieren con respecto al contenido de tiamina promedioverdadero? Use un nivel � � 0.05 con base en el métododel valor P.

10. En ANOVA unifactorial con tratamientos I y observacionesJ por cada tratamiento, sea � � (1/I)��i. a. Exprese E(X���) en función de �. [Sugerencia: X��� �

(1/I)�X�i�]b. Calcule E(X� 2

i�). [Sugerencia: Con cualquier variablealeatoria Y, E(Y2) � V(Y) � [E(Y)]2.]

c. Calcule E(X� 2��).

d. Calcule E(STCr)y luego demuestre que

E(CMTr) � � 2 � I �

J1

�(�i � �)2

e. Con el resultado del inciso d) ¿cuál es E(CMTr) cuandoH0 es verdadera? Cuando H0 es falsa, ¿se comparaE(CMTr) con �2?

Origen de Grados de Suma de Cuadrado dela variación libertad los cuadrados la media f

MarcaError 14 713.69Total 310 500.76

10.2 Comparaciones múltiples en ANOVA

c10_p369-396.qxd 3/12/08 4:23 AM Page 379

www.FreeLibros.me

Page 12: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

380 CAPÍTULO 10 Análisis de la varianza

Procedimiento de Tukey (el método T) El procedimiento de Tukey implica utilizar otra distribución de probabilidad llamada distri-bución de rango estudentizado. La distribución depende de dos parámetros: un m gradode libertad asociado con el numerador y un grado de libertad asociado con el denominador �.Sea Q�,m,v el valor crítico � de cola superior de la distribución de rango estudentizado con mgrados de libertad asociados con el numerador y � grados de libertad asociados con el de-nominador (análogo a F� ,�1,�2

. En la tabla A.10 se dan valores de Q�,m,�.

Obsérvese que los grados de libertad asociados con el numerador para el valor crítico Q� es I,el número de medias de la población o tratamiento que se están comparando y no I � 1 co-mo en la prueba F. Cuando las x�i�, x�j� y CME se sustituyen en (10.4), el resultado es un conjunto de intervalos de confianza con nivel de confianza simultáneo de 100(1 � �)%para todas las diferencias de la forma �i � �j con i � j. Cada intervalo que no incluye 0 da lugar a la conclusión de que los valores correspondientes de �i y �j difieren significati-vamente uno de otro.

Como en realidad no interesan los límites inferior y superior de los diversos interva-los sino sólo cuál incluye 0 y cuál no, mucha de la aritmética asociada con (10.4) puede serevitada. El siguiente recuadro da detalles y describe cómo se pueden identificar las diferen-cias de modo visual con un “patrón de subrayado”.

Supóngase, por ejemplo, que I � 5 y que

x�2� � x�5� � x�4� � x�1� � x�3�

Entonces

1. Considere en primer lugar la media más pequeña x�2�. Si x�5� � x�2� w, prosiga al paso 2.Sin embargo, si x�5� � x�2� � w, conecte estas primeras dos medias con un segmento delínea. Luego si es posible extienda este segmento de línea más a la derecha de la x�i� másgrande que difiera de x�2� en menos de w (de modo que la línea pueda conectar dos, treso incluso más medias).

2. Ahora siga con x�5� y otra vez extienda el segmento de línea hasta la derecha de la x�i� másgrande que difiera de x�5� en menos de w (puede que sea posible trazar esta línea o alter-nativamente puede que subraye sólo dos medias o tres o incluso las cuatro medias res-tantes).

3. Continúe con x�4� y repita y finalmente continúe con x�1.

PROPOSICIÓN Con la probabilidad 1 � �,

X�i� � X�j� � Q�,I,I(J�1) �C�M�E�/�J� � �i � �j

� X�i� � X�j� � Q�,I,I(J�1) �C�M�E�/�J� (10.4)

Para cada i y j (i � 1, . . . , I y j � 1, . . . , I) con i � j.

Método T para identificar �i significativamente diferentes

Se selecciona �, se extrae Q�,I,I(J�1) de la tabla A.10 y se calcula w � Q�,I,I(J�1) ��C�M�E�/�J�. Luego se hace una lista de las medias muestrales en orden creciente y sesubrayan los pares que difieren menos de w. Cualquier media muestral no subrayadapor la misma raya corresponde a un par de medias de población o tratamiento juzga-das significativamente diferentes.

c10_p369-396.qxd 3/12/08 4:23 AM Page 380

www.FreeLibros.me

Page 13: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

Para resumir, comenzando en cada media que aparece en la lista ordenada, un segmento delínea se extiende tan lejos a la derecha como sea posible en tanto que la diferencia entre lasmedias sea menor que w. Es fácil verificar que un intervalo particular de la forma (10.4)contendrá 0 si y sólo si el par correspondiente de medias muestrales está subrayado por elmismo segmento de línea.

Se realizó un experimento para comparar cinco marcas diferentes de filtros de aceite paraautomóviles con respecto a su capacidad de atrapar materia extraña. Sea �i la cantidad pro-medio verdadera de material atrapado por filtros marca i (i � 1, . . . , 5) en condiciones con-troladas. Se utilizó una muestra de nueve filtros de cada marca y se obtuvieron las siguientescantidades medias muestrales: x�1� � 14.5, x�2� � 13.8, x�3� � 13.3, x�4� � 14.3 y x�5� � 13.1. Latabla 10.3 es una tabla ANOVA que resume la primera parte del análisis.

Tabla 10.3 Tabla ANOVA para el ejemplo 10.4

Grados de Suma de CuadradoOrigen de la variación libertad los cuadrados de la media f

Tratamientos (marcas) 4 13.32 3.33 37.84Error 40 3.53 0.088Total 44 16.85

Como F0.05,4,40 � 2.61, H0 es rechazada (decisivamente) a un nivel de 0.05. Ahora utilice elprocedimiento de Tukey para buscar diferencias significativas entre las �i. En la tabla A.10del apéndice, Q0.05,5,40 � 4.04 (el segundo subíndice de Q es I y no I �1 como en F), por lotanto w � 4.04�0�.�0�8�8�/�9� � 0.4. Después de ordenar las cinco medias muestrales en ordencreciente, un segmento de línea puede conectar a las dos más pequeñas porque difieren pormenos de 0.4. No obstante, este segmento no puede ser extendido más a la derecha puestoque 13.8 � 13.1 � 0.7 0.4. Moviéndose una media a la derecha, el par x�3� y x�2� no pue-de ser subrayado porque estas medias difieren por más de 0.4. De nuevo moviéndose a laderecha, la siguiente media, 13.8, no puede ser conectada a algo que esté más a la derecha.Las dos últimas medias pueden ser subrayadas con el mismo segmento de línea.

x�5� x�3� x�2� x�4� x�1�

13.1 13.3 13.8 14.3 14.5

Así pues las marcas 1 y 4 no son significativamente diferentes una de otra, pero sí son másaltas de manera significativa que las otras tres marcas en sus contenidos promedio verdade-ros. La marca 2 es significativamente mejor que la 3 y 5 pero peor que la 1 y 4 y las marcas3 y 5 no difieren en modo significativo.

Si x�2� � 14.15 en lugar de 13.8 con el mismo valor w calculado, entonces la configu-ración de medias subrayadas sería

x�5� x�3� x�2� x�4� x�1�

13.1 13.3 14.15 14.3 14.5 ■

Un biólogo deseaba estudiar los efectos del etanol en el periodo de sueño. Se seleccionó unamuestra de 20 ratas equiparadas por edad y otras características y a cada rata se le adminis-tró una inyección oral con una concentración particular de etanol por peso corporal. Luegose registró el periodo de sueño de movimiento rápido de ojos (REM, por sus siglas en in-glés) de cada rata durante 24 horas, con los siguientes resultados:

10.2 Comparaciones múltiples en ANOVA 381

Ejemplo 10.4

Ejemplo 10.5

c10_p369-396.qxd 3/12/08 4:23 AM Page 381

www.FreeLibros.me

Page 14: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

Tratamiento (concentración de etanol) xi� x�i�

0 (control) 88.6 73.2 91.4 68.0 75.2 396.4 79.281 g/kg 63.0 53.9 69.2 50.1 71.5 307.7 61.542 g/kg 44.9 59.5 40.2 56.3 38.7 239.6 47.924 g/kg 31.0 39.6 45.3 25.2 22.7 163.8 32.76

x�� � 1107.5 x��� � 55.375

¿Indican los datos que el periodo de sueño REM depende de la concentración de etanol?(Este ejemplo está basado en el experimento reportado en “Relationship of Ethanol BloodLevel to REM and Non-REM Sleep Time and Distribution in the Rat”, Life Sciences, 1978:839-846.)

Las x�i� difieren sustancialmente una de otra, aunque también existe una gran cantidadde variabilidad dentro de cada muestra, por lo que para responder la pregunta con precisiónse debe realizar el ANOVA. Con �� x2

ij � 68 697.6 y el factor de corrección x2��/(IJ) �

(1107.5)2/20 � 61 327.8, las fórmulas dan

STC � 68 697.6 � 61 327.8 � 7369.8

STCr � [(396.40)2 � (307.70)2 � (239.60)2 � (163.80)2] � 61 327.8

� 67 210.2 � 61 327.8 � 5882.4

y

SCE � 7369.8 � 5882.4 � 1487.4

La tabla 10.4 es una tabla ANOVA SAS. La última columna da el valor P como 0.0001.Con un nivel de significación de 0.05, se rechaza la hipótesis nula H0: �1 � �2 � �3 � �4,puesto que valor P � 0.0001 � 0.05 � �. Parece que el periodo de sueño REM depende delnivel de concentración.

Tabla 10.4 Tabla ANOVA obtenida con SAS

Análisis de procedimientos de varianzaVariable dependiente: Tiempo

Suma de Cuadrado deOrigen GL cuadrados la media Valor F Pr � FModelo 3 5882.35750 1960.78583 21.09 0.0001Error 16 1487.40000 92.96250CorregidoTotal 19 7369.75750

Existen I � 4 tratamientos y 15 grados de libertad asociados con el error, por lo tan-to Q0.05,4,16 � 4.05 y w � 4.05�9�3�.0�/5� � 17.47. Ordenando las medias y subrayándolas seobtiene

x�4� x�3� x�2� x�1�

32.76 47.92 61.54 79.28

La interpretación de este subrayado debe hacerse con cuidado, puesto que parece que se haconcluido que los tratamientos 2 y 3 no difieren, 3 y 4 no difieren y no obstante 2 y 4 sí lo hacen. La forma sugerida de expresar esto es decir que aunque la evidencia permite con-cluir que los tratamientos 2 y 4 difieren uno de otro, no se ha demostrado que alguno es

15

382 CAPÍTULO 10 Análisis de la varianza

c10_p369-396.qxd 3/12/08 4:23 AM Page 382

www.FreeLibros.me

Page 15: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

significativamente diferente del 3. El tratamiento 1 tiene un periodo de sueño REM prome-dio verdadero más alto de manera significativa que cualquiera de los demás tratamientos.

La figura 10.4 muestra resultados obtenidos con SAS a partir de la aplicación del pro-cedimiento de Tukey.

Interpretación de � en el método de Tukey Previamente se manifestó que el método de Tukey controla el intervalo de confianza simul-táneo. Entonces ¿qué significa “simultáneo” en este caso? Calcúlese un intervalo de con-fianza de 95% para una media de población � basada en una muestra de dicha población yluego un intervalo de confianza de 95% para una proporción de población p basado en otramuestra seleccionada independientemente de la primera. Antes de obtener los datos, la pro-babilidad de que el primer intervalo incluya � es de 0.95 y ésta también es la probabilidadde que el segundo intervalo incluya p. Como las dos muestras se seleccionan de maneraindependiente una de otra, la probabilidad de que ambos intervalos incluyan los valores de losparámetros respectivos es (0.95)(0.95) � (0.95)2 � 0.90. Por consiguiente, el nivel de con-fianza simultáneo o conjunto para los dos intervalos es aproximadamente de 90%, si se calculan pares de intervalos una y otra vez con muestras independientes, a la larga aproxima-damente 90% de las veces el primer intervalo capturará � y el segundo incluirá p. Asimis-mo, si se calculan tres intervalos de confianza basados en muestras independientes, el nivelde confianza simultáneo será de 100(0.95)3% � 86%. Claramente, a medida que se incre-menta el número de intervalos, el nivel de confianza simultáneo de que todos los intervaloscapturen sus respectivos parámetros se reducirá.

Ahora supóngase que se desea mantener el nivel de confianza simultáneo en 95%. En-tonces para dos muestras independientes, el nivel de confianza individual para cada una ten-dría que ser de 100�0�.�9�5�% � 97.5%. Mientras más grande es el número de intervalos, másalto tendría que ser el nivel de confianza individual para mantener el nivel simultáneo en 95%.

El truco en relación con los intervalos Tukey es que no están basados en muestras inde-pendientes, CME aparece en todos y varios intervalos comparten las mismas x�i� (p. ej., en elcaso I � 4, tres intervalos diferentes utilizan x�1�). Esto implica que no existe un argumento deprobabilidad directo para discernir el intervalo de confianza simultáneo de los niveles de con-fianza individuales. No obstante, se puede demostrar que si se utiliza Q0.05, el nivel de confian-za simultáneo se controla a 95%, en tanto que si se utiliza Q0.01 se obtiene un nivel simultáneode 99%. Para obtener un nivel simultáneo de 95%, el nivel individual de cada intervalo debeser considerablemente más grande que 95%. Expresado en una forma un poco diferente, paraobtener una proporción de error de 5% asociada con un experimento o familia, la proporciónde error por comparación o individual para cada intervalo debe ser considerablemente más pe-queña que 0.05. MINITAB le pide al usuario que especifique la proporción de error asociadocon la familia (p. ej., 5%) y luego incluye en los datos de salida la proporción de error indivi-dual (véase el ejercicio 16).

10.2 Comparaciones múltiples en ANOVA 383

Figura 10.4 Método de Tukey realizado con SAS. ■

Alfa � 0.05 gl � 16 CME � 92.9625Valor crítico de rango estudentizado � 4.046

Diferencia mínima significante � 17.446

Medias con el mismo tipo no son significativamente diferentes.

Agrupación Tukey Media N TratamientoA 79.280 5 0(control)

B 61.540 5 1 gm/kgB

C B 47.920 5 2 gm/kgCC 32.760 5 4 gm/kg

c10_p369-396.qxd 3/12/08 4:23 AM Page 383

www.FreeLibros.me

Page 16: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

Intervalos de confianza para otras funciones paramétricas En algunas situaciones, se desea un intervalo de confianza para una función de las �i máscomplicada que una diferencia �i � �j. Sea � �ci�i, donde las ci son constantes. Una fun-ción como esa es

12

(�1 � �2) � 13

(�3 � �4 � �5), la cual en el contexto del ejemplo 10.4mide la diferencia entre el grupo compuesto de las dos primeras marcas y la de las últimastres. Como las Xij están normalmente distribuidas con E(Xij) � �i y V(Xij) � � 2, ̂ � �iciX�i�

está normalmente distribuida, insesgada para , y

V(̂) � V(�i

ciX�i�) � �i

c2iV(X�i�

) � �

J

2

�i

c2i

La estimación de �2 mediante CME y la formación de �̂̂ da por resultado una variable t(̂ � )/�̂̂, la cual puede ser manipulada para obtener el siguiente intervalo de confianza de100(1 � �)% para �ci�i:

�cix�i� ! t�/2,I(J�1)�C�M�E

J� ��c2i� (10.5)

La función paramétrica para comparar las primeras dos marcas de filtro de aceite (tienda)con las últimas tres marcas (nacionales) es �

12

(�1 � �2) � 13

(�3 � �4 � �5), con la cual

�c2i � � �2

� � �2� � �2

� � �2� � �2

Con ̂ � 12

(x�1� � x�2�) � 13

(x�3� � x�4� � x�5�) � 0.583 y CME � 0.088, un intervalo de95% es

0.583 ! 2.021�5�(�0�.�0�8�8�)�/�[�(�6�)�(�9�)�]� � 0.583 ! 0.182 � (0.401, 0.765) ■

En ocasiones se realiza un experimento para comparar cada uno de varios tratamien-tos “nuevos” con un tratamiento de control. En tales situaciones, una técnica de compara-ciones múltiples llamada método de Dunnett es apropiada.

56

13

13

13

12

12

384 CAPÍTULO 10 Análisis de la varianza

Ejemplo 10.6(continuacióndel ejemplo10.4)

11. En un experimento para comparar las proporciones de co-bertura de cinco marcas diferentes de pintura amarilla de lá-tex para interiores disponibles en un área particular seutilizaron 4 galones (J � 4) de cada pintura. Las proporcio-nes de cobertura promedio verdaderas (pies2/gal) de las cinco marcas fueron x�1� � 462.0, x�2� � 512.8, x�3� � 437.5,x�4� � 469.3 y x�5� � 532.1. Se encontró que el valor calcu-lado de F es significativo a un nivel de � � 0.05. Con CME� 272.8 use el procedimiento de Tukey para investigar di-ferencias significativas en las proporciones de coberturapromedio verdaderas entre marcas.

12. En el ejercicio 11 suponga x�3� � 427.5. Ahora, ¿cuáles pro-porciones de cobertura promedio verdaderas difieren signi-ficativamente una de otra? Asegúrese de utilizar el métodode subrayar para ilustrar sus conclusiones y escriba un pá-rrafo que resuma sus resultados.

13. Repita el ejercicio 12 suponiendo que x�2� � 502.8 ademásde x�3� � 427.5.

14. Use el procedimiento de Tukey con los datos del ejercicio 4para identificar diferencias en los tiempos de vuelo prome-dio verdaderos entre los cuatro tipos de mosquitos.

15. Use el procedimiento de Tukey con los datos del ejerci-cio 6 para identificar diferencias en el Fe total promedioverdadero entre los cuatro tipos de formaciones (useCME � 15.64).

16. Reconsidere los datos de rigidez axial dados en el ejercicio 8.Los siguientes son datos ANOVA obtenidos con MINITAB.

Análisis de varianza para rigidezLongitud GL SC CM F Pde origen 4 43993 10998 10.48 0.000Error 30 31475 1049Total 34 75468

Nivel N Media DesvEst4 7 333.21 36.596 7 368.06 28.578 7 375.13 20.8310 7 407.36 44.5112 7 437.17 26.00

DesvEst agrupada � 32.39

Comparaciones por pares de Tukey

Tasa de error grupal � 0.0500Tasa de error individual � 0.00693

EJERCICIOS Sección 10.2 (11-21)

c10_p369-396.qxd 3/12/08 4:23 AM Page 384

www.FreeLibros.me

Page 17: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

A continuación se considera con brevedad algunos temas adicionales relacionados conANOVA unifactorial. Éstos incluyen una descripción alternativa de los parámetros modelo,� para la prueba F, la relación de la prueba con los procedimientos previamente considera-dos, la transformación de datos, un modelo de efectos aleatorios y las fórmulas para el casode tamaños de muestra desiguales.

El modelo ANOVA Las suposiciones de ANOVA unifactorial pueden ser descritas sucintamente por medio dela “ecuación modelo”

Xij � �i � �ij

donde �ij representa una desviación aleatoria de la población o de la media de tratamiento ver-dadera �i. Se supone que las �ij son variables aleatorias independientes normalmente distri-buidas (lo que implica que las Xij también lo son) con E(�ij) � 0 [de modo que E(Xij) � �i]

10.3 Más sobre ANOVA unifactorial 385

Valor crítico � 4.10

Intervalos para (media de nivel de columna)(media de nivel de fila)

4 6 8 10

6 85.015.4

8 92.1 57.38.3 43.1

10 124.3 89.5 82.4 23.9 10.9 18.0

12 154.2 119.3 112.2 80.0 53.8 18.9 11.8 20.4

a. ¿Es factible que las varianzas de las cinco distribucionesde rigidez axial sean idénticas? Explique.

b. Use los resultados (sin referencia a la tabla F) para pro-bar las hipótesis pertinentes.

c. Use los intervalos de Tukey dados en los resultados pa-ra determinar cuáles medias difieren y construya el patrónde subrayado correspondiente.

17. Remítase al ejercicio 5. Calcule un intervalo de confianza tde 95% con �

12

(�1 � �2) � �3.

18. Considere los datos adjuntos sobre crecimiento de plantasdespués de la aplicación de diferentes tipos de la hormona delcrecimiento.

1 13 17 7 142 21 13 20 17

Hormona 3 18 15 20 174 7 11 18 105 6 11 15 8

a. Realice una prueba F al nivel � � 0.05. b. ¿Qué sucede cuando se aplica el procedimiento de Tukey?

19. Considere una experimento ANOVA unifactorial en el cualI � 3, J � 5, x�1� � 10, x�2� � 12 y x�3� � 20. Encuentre un valor de SCE con el cual f � F0.05,2,12 de modo que H0:

�1 � �2 � �3 sea rechazada, aunque cuando se aplica elprocedimiento de Tukey se puede decir que ninguna de las�i difieren significativamente una de otra.

20. Remítase al ejercicio 19 y suponga x�1� � 10, x�2� � 15 yx�3� � 20. ¿Puede hallar ahora un valor de SCE que produz-ca semejante contradicción entre la prueba F y el procedi-miento de Tukey?

21. El artículo “The Effect of Enzyme Inducing Agents on theSurvival Times of Rats Exposed to Lethal Levels of NitrogenDioxide” (Toxicology and Applied Pharmacology, 1978: 169-174) reporta los siguientes datos sobre tiempos de sobreviven-cia de ratas expuestas a bióxido de nitrógeno (70 ppm) víadiferentes regímenes de inyección. Hubo J � 14 ratas en ca-da grupo.

a. Pruebe las hipótesis nulas de que el tiempo de sobrevi-vencia promedio verdadero no depende del régimen deinyección contra la alternativa de que existe alguna de-pendencia en el régimen de inyección con � � 0.01.

b. Suponga que se calculan intervalos de confianza de100(1 � �)% para k funciones paramétricas diferentescon el mismo conjunto de datos ANOVA. Entonces es fá-cil verificar que el nivel de confianza simultáneo es porlo menos de 100(1 � k�)%. Calcule intervalos de con-fianza con nivel de confianza simultáneo por lo menosde 98% para �1 �

15

(�2 � �3 � �4 � �5 � �6) y14

(�2 � �3 � �4 � �5) � �6.

10.3 Más sobre ANOVA unifactorial

Régimen x�i�(min) si

1. Control 166 322. 3-Metilcolantreno 303 533. Alilisopropilacetamida 266 544. Fenobarbital 212 355. Clorpromacina 202 346. Ácido p-Aminobenzoico 184 31

c10_p369-396.qxd 3/12/08 4:23 AM Page 385

www.FreeLibros.me

Page 18: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

y V(�ij) � � 2 [de donde V(Xij) � �2 para todas las i y j]. Una descripción alternativa deANOVA unifactorial dará una idea adicional y sugerirá generalizaciones apropiadas de mo-delos que implican más de un factor. Defínase el parámetro � como

� � �I

i�1�i

y los parámetros �1, . . . , �I como

�i � �i � � (i � 1, . . . , I )

Entonces la media del tratamiento �i se escribe como � � �i, donde � representa la respues-ta total promedio verdadera en el experimento y �i es el efecto, medido como un alejamientode �, debido al i-ésimo tratamiento. Mientras que inicialmente se tenían parámetros I, ahorase tienen parámetros I � 1 (�, �1, . . . , �I). Sin embargo, como ��i � 0 (el alejamiento pro-medio de la respuesta media total es cero) sólo si I de estos parámetros están determinados demanera independiente, así que existen muchos parámetros independientes como los hubo an-tes. En función de � y las �i, el modelo se vuelve

Xij � � � �i � �ij (i � 1, . . . , I, j � 1, . . . , J)

En el capítulo 11, se desarrollarán modelos análogos para ANOVA multifactorial. La afir-mación de que las �i son idénticas es equivalente a la igualdad de las �i y como ��i � 0,la hipótesis nula se vuelve

H0: �1 � �2 � � � � � �I � 0

En la sección 10.1, se manifestó que CMTr es un estimador insesgado de �2 cuandoH0 es verdadera aunque de lo contrario tiende a sobrestimar �2. Más precisamente,

1I

Cuando H0 es verdadera, ��2i � 0 o E(CMTr) � � 2 (CME es insesgada sea H0 o no verda-

dera). Si ��2i se utiliza como medida del grado al cual H0 es falsa, entonces un valor más

grande de ��2i provocará una mayor tendencia de que CMTr sobrestime �2. En el siguiente

capítulo, se utilizarán fórmulas para cuadrados de las medias esperadas en modelos multi-factoriales a fin de sugerir cómo formar proporciones F para probar varias hipótesis.

Comprobación de la fórmula para E(CMTr) Con cualquier variable aleatoria, Y, E(Y 2) �V(Y) � [E(Y)]2, por lo tanto

E(STCr) � E�1J

�i

X 2i� �

I1J X 2

��� � 1J

�i

E(X2i�) �

I1J E(X2

��)

� 1J

�i

{V(Xi�) � [E(Xi�)]2} �

I1J{V(X��) � [E(X��)]

2}

� 1J

�i

{J� 2 � [J(� � �i)]2} �

I1J[IJ� 2 � (IJ�)2]

� I� 2 � IJ�2 � 2�J �i

�i � J �i

�2i � � 2 � IJ�2

� (I � 1)� 2 � J �i

�2i (puesto que ��i � 0)

El resultado se deriva entonces de la relación CMTr � STCr/(I � 1). ■

386 CAPÍTULO 10 Análisis de la varianza

E(CMTr) � � 2 � ��2i

JI � 1

c10_p369-396.qxd 3/12/08 4:23 AM Page 386

www.FreeLibros.me

Page 19: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

� para la prueba FConsidérese un conjunto de valores de parámetro �1, �2, . . . , �I con los cuales H0 no es ver-dadera. La probabilidad de un error de tipo II, �, es la probabilidad de que H0 no sea recha-zada cuando ese conjunto es el conjunto de valores verdaderos. Se podría pensar que �tendría que ser determinada por separado por cada configuración diferente de �i. Afortuna-damente, como � para la prueba F depende de las �i y �2 sólo mediante ��2

i /�2, se puede

evaluar al mismo tiempo para muchas alternativas diferentes. Por ejemplo, ��2i � 4 para

cada uno de los siguientes conjuntos de �i con los cuales H0 es falsa, así que � es idénticapara las tres alternativas:

1. �1 � 1, �2 � 1, �3 � 1, �4 � 1

2. �1 � �2�, �2 � �2�, �3 � 0, �4 � 0

3. �1 � �3�, �2 � �1�/3�, �3 � �1�/3�, �4 � �1�/3�

La cantidad J��2i /�

2 se llama parámetro de no centralidad para ANOVA unidirec-cional (debido a que H0 es falsa el estadístico de prueba tiene una distribución F no centra-lizada con éste como uno de sus parámetros) y � es una función decreciente del valor deeste parámetro. Por lo tanto, con valores fijos de �2 y J, es más probable que la hipótesis nu-la sea rechazada para alternativas alejadas de H0 (��2

i grande) que para alternativas próxi-mas a H0. Con un valor fijo de ��2

i, � se reduce a medida que el tamaño de muestra J encada tratamiento se incrementa y aumenta a medida que la varianza �2 se incrementa (pues-to que una variabilidad subyacente más grande dificulta detectar cualquier alejamiento dadocon respecto a H0).

Como el cálculo a mano de � y la determinación del tamaño de muestra para la prue-ba F son bastante difíciles (como en el caso de pruebas t), los estadísticos han construidoconjuntos de curvas donde se puede obtener �. En las figuras 10.5* y 10.6* se muestran con-juntos de curvas para �1 � 3 y �1 � 4 grados de libertad asociados con el numerador, res-pectivamente. Una vez que se especifican los valores de �2 y las �i para los cuales se desea�, éstos se utilizan para calcular el valor de �, donde �2 � (J/I)��2

i /�2. Luego se localiza

el valor � en conjunto de curvas apropiado sobre el eje horizontal, se sube hasta la

10.3 Más sobre ANOVA unifactorial 387

60

60

30

30

20

20

15

15

12

12

109

87

6

109

87

6

� 0.01� � 0.05�

1 2 3

4 532�(con � � 0.01)��� � 1

�(con � � 0.05)

0.99

0.98

0.970.960.950.94

0.920.90

0.80

0.700.600.500.400.300.10

Pote

ncia

� 1

1 � 3�

2 �

Figura 10.5 Curvas de potencia para la prueba F ANOVA (�1 � 3).

* Tomada de E. S. Pearson y H. O. Hartley “Charts of the Power Function for Analysis of Variance Tests, Derivedfrom the Non-Central F Distribution”, Biometrika, vol. 38, 1951: 112, con el permiso de Biometrika Trustees.

c10_p369-396.qxd 3/12/08 4:23 AM Page 387

www.FreeLibros.me

Page 20: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

curva asociada con los �2 grados de libertad asociados con el error y se localiza el valor dela potencia sobre el eje vertical. Finalmente, � � 1 � potencia.

Se tienen que investigar los efectos de cuatro tratamientos térmicos diferentes en el puntode cedencia (tons/pulg2) de lingotes de acero. Un total de ocho lingotes se fundirán utilizan-do cada tratamiento. Suponga que la desviación estándar verdadera del punto de cedenciacon cualquiera de los cuatro tratamientos es � � 1. ¿Qué tan probable es que H0 no será re-chazada a un nivel de 0.05 si tres de los tratamientos tienen el mismo punto de cedencia es-perado y el otro tiene un punto de cedencia esperado que es 1 ton/pulg2 más grande que elvalor común de los otros tres (es decir, la cuarta cedencia está en promedio a 1 desviaciónestándar por encima de aquellas con los primeros tres tratamientos)?

Suponga que �1 � �2 � �3 y �4 � �1 � 1, � � (��i)/4 � �1 � 14

. Entonces �1 ��1 � � �

14

, �2 � 14

, �3 � 14

, �4 � 34

por lo tanto

�2 � �� �2� � �2

� � �2� � �2� �

y � � 1.22. Los grados de libertad son �1 � I � 1 � 3 y �2 � I(J � 1) � 28, si se interpo-la visualmente entre �2 � 20 y �2 � 30 se obtiene una potencia � 0.47 y � � 0.53. Esta �es algo grande, así que se podría incrementar el valor de J. ¿Cuántos lingotes de cada tipose requerirían para dar � � 0.05 para la alternativa considerada? Probando diferentes valo-res de J, se puede verificar que J � 24 satisfará el requerimiento, pero cualquier J más pe-queño no lo hará. ■

Como una alternativa del uso de curvas de potencia, el programa estadístico SAS in-cluye una función que calcula el área acumulada bajo una curva F no centralizada (se ingre-sa F�, grados de libertad asociados con el numerador, grados de libertad asociados con eldenominador y �2) y esta área es �. La versión 14 de MINITAB hace esto y también algoun tanto diferente. Se le pide al usuario que especifique la diferencia máxima entre las �i yno entre las medias individuales. Por ejemplo, se podría desear calcular la potencia de la prue-ba cuando I � 4, �1 � 100, �2 � 101, �3 � 102 y �4 � 106. Entonces la diferencia máximaes 106 � 100 � 6. Sin embargo, la potencia no sólo depende de esta diferencia máxima sino

32

34

14

14

14

84

388 CAPÍTULO 10 Análisis de la varianza

60

6030

3020

20

15

1512

12

109

87

6109

87

6

� � 0.01 �� 0.05

1 2 3

4 5321�(con � � 0.01)

% (con � � 0.05)

0.99

0.98

0.970.960.950.94

0.920.90

0.80

0.700.600.500.400.300.10

Pote

ncia

� 1

1 � 4�

2 �

Figura 10.6 Curvas de potencia para la prueba F ANOVA (�1 � 4).

Ejemplo 10.7

c10_p369-396.qxd 3/12/08 4:23 AM Page 388

www.FreeLibros.me

Page 21: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

de los valores de todas las �i . En esta situación MINITAB calcula el valor de potencia máspequeño posible sujeto a �1 � 100 y �4 � 106, lo cual ocurre cuando las otras dos �i se en-cuentran a la mitad entre 100 y 106. Si esta potencia es de 0.85, entonces se puede decir quela potencia es de por lo menos 0.85 y � es cuando mucho de 0.15 cuando las dos � están se-paradas por 6 (el tamaño de muestra común, � y � también deben ser especificados). El pro-grama determinará también el tamaño de muestra común si la diferencia máxima y lapotencia mínima están especificadas.

Relación de la prueba F con la prueba tCuando el número de tratamientos o poblaciones es I � 2, todas las fórmulas y resultadosconectados con la prueba F siguen teniendo sentido, así que se puede utilizar ANOVA paraprobar H0: �1 � �2 contra Ha: �1 � �2. En este caso, también se puede utilizar una pruebat con dos muestras de dos colas. En la sección 9.3, se mencionó la prueba t agrupada, la cualrequiere varianzas iguales, como alternativa del procedimiento t con dos muestras. Se pue-de demostrar que la prueba F ANOVA unifactorial y la prueba t agrupada de dos colas sonequivalentes; con cualquier conjunto de datos dado, los valores P para las dos pruebas se-rán idénticos, así que se llegará a la misma conclusión con cualquier prueba.

La prueba t con dos muestras es más flexible que la prueba F cuando I � 2 por dos ra-zones. En primer lugar, es válida sin la suposición de que �1 � �2; en segundo lugar, puedeser utilizada para probar Ha: �1 � �2 (una prueba t de cola superior) o Ha � �1 � �2 así co-mo también Ha: �1 � �2. En el caso de I 3, desafortunadamente no existe un procedimien-to de prueba general que tenga buenas propiedades sin la suposición de varianzas iguales.

Tamaños de muestra desiguales Cuando los tamaños de muestra de cada población o tratamiento no son iguales, sean J1, J2, . . . , JI los I tamaños de muestra y sea n � � iJi el número total de observaciones. El re-cuadro adjunto da fórmulas ANOVA y el procedimiento de prueba.

10.3 Más sobre ANOVA unifactorial 389

El artículo “On the Development of a New Approach for the Determination of YieldStrength in Mg-based Alloys” (Light Metal Age, octubre de 1998: 51-53) presentó los si-guientes datos sobre módulo elástico (GPa) obtenidos por medio de un nuevo método ultra-sónico con especímenes de cierta aleación producida mediante tres procesos de fundicióndiferentes.

Ejemplo 10.8

STC � �I

i�1�Ji

j�1(Xij � X���)

2 � �I

i�1�Ji

j�1X2

ij � 1n

X2�� gl � n � 1

STCr � �I

i�1�Ji

j�1(X�i� � X���)

2 � �I

i�1J1

i

X2i� �

1n

X2�� gl � I � 1

SCE � �I

i�1�Ji

j�1(Xij � X�i�)

2 � STC � STCr gl � �(Ji � 1) � n � I

Valor estadístico de prueba:

f � donde CMTr � CME �

Región de rechazo: f F�,I�1,n�I

SCEn � I

STCrI � 1

CMTrCME

c10_p369-396.qxd 3/12/08 4:23 AM Page 389

www.FreeLibros.me

Page 22: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

Ji xi� x�i�

Moldeado permanente 45.5 45.3 45.4 44.4 44.6 43.9 44.6 44.0 8 357.7 44.71Fundición a troquel 44.2 43.9 44.7 44.2 44.0 43.8 44.6 43.1 8 352.5 44.06Moldeado en yeso 46.0 45.9 44.8 46.2 45.1 45.5 6 273.5 45.58

22 983.7

Sean �1, �2 y �3 los módulos elásticos promedio verdaderos con los tres procesos diferen-tes en las circunstancias dadas. Las hipótesis pertinentes son H0: �1 � �2 � �3 contra Ha:por lo menos dos de las �i son diferentes. El estadístico de prueba es, desde luego, F � CMTr/CME, basado en I � 1 � 2 grados de libertad asociados con el numerador y n � I � 22 � 3 � 19 grados de libertad asociados con el denominador. Las cantidades per-tinentes incluyen

��x2ij � 43 998.73 CF �

98232.72

� 43 984.80

STC � 43 998.73 � 43 984.80 � 13.93

STCr � � � � 43 984.80 � 7.93

SCE � 13.93 � 7.93 � 6.00

Los cálculos restantes se muestran en la tabla ANOVA adjunta. Como F0.001,2,19 � 10.16 � 12.56 � f, el valor P es más pequeño que 0.001. Por consiguiente, la hipótesis nula de-berá ser rechazada a cualquier nivel de significación razonable; existe evidencia convincen-te para concluir que el módulo elástico promedio verdadero en cierta forma depende de quéproceso de fundición se utilice.

273.52

6

352.52

8

357.72

8

390 CAPÍTULO 10 Análisis de la varianza

Grados de Suma de Cuadrado Origen de la variación libertad los cuadrados de la media f

Tratamientos 2 7.93 3.965 12.56Error 19 6.00 0.3158Total 21 13.93

Existe más controversia entre estadísticos con respecto a qué procedimiento de comparacio-nes múltiples utilizar cuando los tamaños de muestra son desiguales que los que existen enel caso de tamaños de muestra iguales. El procedimiento que aquí se presenta lo recomien-da el excelente libro Beyond ANOVA: Basics of Applied Statistics (véase la bibliografía delcapítulo) para usarse cuando los I tamaños de muestra J1, J2, . . . , JI están razonablementecerca uno de otro (“desequilibrio leve”). Modifica el método de Tukey por medio de promediosde pares 1/Jis en lugar de 1/J.

Sea

wij � Q�,I,n�I � ����� ������Entonces la probabilidad es aproximadamente 1 � � de que

X�i� � X�j� � wij � �i � �j � X�i� � X�j� � wij

con dada i y j (i � 1, . . . , I y j � 1, . . . , I) con i � j.

1Jj

1Ji

CME

2

c10_p369-396.qxd 3/12/08 4:23 AM Page 390

www.FreeLibros.me

Page 23: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

El nivel de confianza simultáneo de 100(1 � �)% es sólo aproximado y no exacto ya quese determinó con tamaños de muestra iguales. El método de subrayado puede seguir siendoutilizado, pero ahora el factor wij utilizado para decidir si x�i� y x�j. pueden ser conectadas de-penderá de Ji y Jj.

Los tamaños de muestra para los datos de módulo elástico fueron J1 � 8, J2 � 8, J3 � 6 e I � 3, n � I � 19, CME � 0.316. Un nivel de confianza de 95% simultáneo requiereQ0.05,3,19 � 3.59, de donde

w12 � 3.59 ����� ������ � 0.713, w13 � 0.771 w23 � 0.771

Como x�1� � x�2� � 44.71 � 44.06 � 0.65 � w12, �1 y �2 se consideran no significativamen-te diferentes. El esquema de subrayado adjunto muestra que en apariencia �1 y �3 difierende manera significativa, como lo hacen �2 y �3.

2. A troquel 1. Permanente 3. Yeso

44.06 44.71 45.58 ■

Transformación de datos El uso de métodos ANOVA puede ser invalidado por diferencias sustanciales en las varian-zas � 2

1, . . . , �2I (las que hasta ahora han sido supuestas iguales con valor común de �2). En

ocasiones sucede que V(Xij) � �2i � g(�i), una función conocida de �i (de modo que cuando

H0 es falsa, las varianzas no son iguales). Por ejemplo, si Xij tiene una distribución de Poissoncon parámetro �i (aproximadamente normal si �i 10), entonces �i � �i y �2

i � �i, de modoque g(�i) � �i es la función conocida. En tales casos, a menudo se pueden transformar lasXij en h(Xij) de modo que tengan varianzas iguales de manera aproximada (al mismo tiem-po que las variables transformadas permanecen aproximadamente normales) y luego se pue-de utilizar la prueba F con las observaciones transformadas. La idea clave al seleccionar unatransformación h(·) es que con frecuencia V[h(Xij)] � V(Xij) � [h�(�i)]

2 � g(�i) � [h�(�i)]2.

Se desea determinar la función h(·) con la cual g(�i) � [h�(�i)]2 � c (una constante) con

cada i.

18

18

0.316

2

10.3 Más sobre ANOVA unifactorial 391

Ejemplo 10.9(continuacióndel ejemplo10.8)

PROPOSICIÓN Si V(Xij) � g(�i), una función conocida de �i, entonces una transformación de h(Xij)que “estabilice la varianza” de modo que V[h(Xij)] sea aproximadamente la mismacon cada i está dada por h(x) & � [g(x)] 1/2 dx.

En el caso Poisson, g(x) � x, de modo que h(x) deberá ser proporcional a � x 1/2 dx �2x1/2. Así pues los datos Poisson deberán ser cambiados a h(xij) � �xi�j� antes del análisis.

Un modelo de efectos aleatorios Se ha supuesto que los problemas unifactoriales considerados hasta ahora son ejemplos deun modelo ANOVA de efectos fijos. Con esto se quiere decir que los niveles elegidos delfactor en estudio son los únicos considerados pertinentes por el experimentador. El modelode efectos fijos unifactorial es

Xij � � � �i � �ij ��i � 0 (10.6)

c10_p369-396.qxd 3/12/08 4:23 AM Page 391

www.FreeLibros.me

Page 24: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

donde las �ij son aleatorias y tanto � como las �i son parámetros fijos cuyos valores sondesconocidos.

En algunos problemas unifactoriales, los niveles particulares estudiados por el expe-rimentador se seleccionan, mediante diseño o mediante muetreo, de una gran poblaciónde niveles. Por ejemplo, para estudiar los efectos en tiempo de desempeño de una tarea porla utilización de diferentes operarios en una máquina particular, se podría seleccionar unamuestra de cinco operarios de un gran conjunto de operarios. Asimismo, se podría estudiarel efecto del pH del suelo en la cosecha de plantas de maíz utilizando suelos con cuatro va-lores de pH específicos seleccionados de entre los muchos niveles de pH posibles. Cuandolos niveles utilizados se seleccionan al azar de entre una gran población de niveles posibles,se dice que el factor es aleatorio y no fijo, y el modelo de efectos fijos (10.6) ya no es apro-piado. Un modelo de efectos aleatorios se obtiene reemplazando las �i fijas en (10.6) porvariables aleatorias. La descripción del modelo resultante es

392 CAPÍTULO 10 Análisis de la varianza

La condición E(Ai) � 0 en (10.7) es similar a la condición ��i � 0 en (10.6); manifiestaque el efecto esperado o promedio del i-ésimo nivel medido como un alejamiento de � es cero.

Para el modelo de efectos aleatorios (10.7), la hipótesis de ningunos efectos debido alos diferentes niveles es H0: �

2A � 0, la cual expresa que los diferentes niveles del factor con-

tribuyen con nada a la variabilidad de la respuesta. Aunque las hipótesis en los modelos deefectos fijos unifactoriales y aleatorios son diferentes, se prueban en exactamente la mismamanera, formando F � CMTr/CME y rechazando H0, si f F�,I�1,n�I. Esto se justifica demanera intuitiva al observar que E(CME) � �2 (como para efectos fijos), mientras que

E(CMTr) � � 2 � �n � �� 2A (10.8)

donde J1, J2, . . . , JI son los tamaños de muestra y n � �Ji. El factor entre paréntesis en ellado derecho de (10.8) es no negativo, de modo que de nuevo E(CMTr) � �2 si H0 es ver-dadera y E(CMTr) � �2 si H0 es falsa.

El estudio de fuerzas y esfuerzos no destructivos en materiales aporta información impor-tante para el diseño de ingeniería eficiente. El artículo “Zero-Force Travel-Time Parametersfor Ultrasonic Head-Waves in Railroad Rail” (Materials Evaluation, 1985: 854-858) repor-ta sobre un estudio de tiempo de recorrido de cierto tipo de onda que produce el esfuerzolongitudinal de rieles utilizados en vías de ferrocarril. Se realizaron tres mediciones en ca-da uno de seis rieles seleccionados al azar de una población de rieles. Los investigadores uti-lizaron ANOVA de efectos aleatorios para decidir si algo de la variación del tiempo derecorrido podía ser atribuido a la “variabilidad entre rieles”. Los datos se dan en la tabla adjunta (cada valor, en nanosegundos, se obtuvo de restar 36.1 � de la observación original)junto con la tabla ANOVA derivada. El valor de la proporción F es altamente significativo,así que H0: �

2A � 0 es rechazada a favor de que la conclusión de que las diferencias entre

rieles provocan la variabilidad del tiempo de recorrido.

�J2i

n1

I � 1

Xij � � � Ai � �ij con E(Ai) � E(�ij) � 0

V(�ij) � � 2 V(Ai) � � 2A (10.7)

todas las Ai y �ij normalmente distribuidas e independientes una de otra.

Ejemplo 10.10

c10_p369-396.qxd 3/12/08 4:23 AM Page 392

www.FreeLibros.me

Page 25: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

10.3 Más sobre ANOVA unifactorial 393

xi�

1: 55 53 54 162

2: 26 37 32 95

3: 78 91 85 254

4: 92 100 96 288

5: 49 51 50 150

6: 80 85 83 248

x�� � 1197

Origen de Grados de Suma de Cuadrado dela variación libertad los cuadrados la media f

Tratamientos 5 9310.5 1862.1 115.2Error 12 194.0 16.17Total 17 9504.5 ■

22. Los datos siguientes se refieren a la cosecha de tomates (kg/parcela) con cuatro niveles de salinidad diferentes; elnivel de salinidad aquí se refiere a la conductividad eléctri-ca (CE), donde los niveles seleccionados fueron CE � 1.6,3.8, 6.0 y 10.2 nmhos/cm:

1.6 59.5 53.3 56.8 63.1 58.7

3.8 55.2 59.1 52.8 54.5

6.0 51.7 48.8 53.9 49.0

10.2 44.6 48.5 41.0 47.3 46.1

Use la prueba F al nivel � � 0.05 para probar en cuanto acualquier diferencia en la cosecha promedio verdadera de-bido a los distintos niveles de salinidad.

23. Aplique el método de Tukey modificado a los datos del ejer-cicio 22 para identificar diferencias significativas entre las �i.

24. La siguiente tabla ANOVA parcial se tomó del artículo“Perception of Spatial Incongruity” (J. Nervous and MentalDisease, 1961: 222) en el cual se evaluaron y compararonlas habilidades de tres grupos diferentes de identificar unaincongruencia perceptiva. Todos los individuos que partici-paron en el experimento habían estado hospitalizados pararecibir un tratamiento psiquiátrico. Hubo 21 individuos enel grupo depresivo, 32 en el “otro” grupo funcional y 21 en elgrupo de daño cerebral. Complete la tabla ANOVA y reali-ce una prueba F al nivel � � 0.01.

25. Los lípidos aportan mucha de la energía dietética en loscuerpos de bebés y niños. Existe un interés creciente en lacalidad del suministro de lípido dietético durante la infan-cia como un importante determinante del crecimiento, desa-rrollo visual y nervioso y salud a largo plazo. El artículo“Essential Fat Requirements of Preterm Infants” (Amer. J.of Clinical Nutrition, 2000: 245S-250S) reportó los siguien-tes datos sobre grasas polinsaturadas (%) para bebés quefueron asignados al azar a cuatro regímenes de alimenta-ción diferentes: leche materna, fórmula basada en aceite demaíz (AM), fórmula basada en aceite de soya (AS) o fórmu-la basada en aceite de soya y marino (ASM).

a. ¿Qué suposiciones se deben hacer sobre las cuatro dis-tribuciones de grasa polinsaturada antes de realizar unANOVA unifactorial para decidir si existen diferenciasen el contenido de grasa promedio verdadero?

b. Realice la prueba sugerida en el inciso a). ¿Qué se pue-de decir sobre el valor P?

26. Se analizaron muestras de seis marcas diferentes de marga-rina dietética/imitación para determinar el nivel de ácidosgrasos polinsaturados fisiológicamente activos (PARFUA,por sus siglas en inglés, en porcentajes) y se obtuvieron lossiguientes resultados:

Grados de Suma de Cuadrado deOrigen libertad los cuadrados la media f

Grupos 76.09ErrorTotal 1123.14

Tamaño de Media Desv. estándarRégimen muestra muestral muestral

Leche materna 8 43.0 1.5AM 13 42.4 1.3AS 17 43.1 1.2ASM 14 43.5 1.2

EJERCICIOS Sección 10.3 (22-34)

c10_p369-396.qxd 3/12/08 4:23 AM Page 393

www.FreeLibros.me

Page 26: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

394 CAPÍTULO 10 Análisis de la varianza

Imperial 14.1 13.6 14.4 14.3Parkay 12.8 12.5 13.4 13.0 12.3Blue Bonnet 13.5 13.4 14.1 14.3Chiffon 13.2 12.7 12.6 13.9Mazola 16.8 17.2 16.4 17.3 18.0Fleischmann’s 18.1 17.2 18.7 18.4

(Los números precedentes son ficticios, aunque las mediasmuestrales concuerdan con los datos reportados en el ejem-plar de enero de 1975 de Consumer Reports.) a. Use ANOVA para probar en cuanto a diferencias entre

los porcentajes de ácidos grasos polinsaturados fisioló-gicamente activos para las distintas marcas.

b. Calcule intervalos de confianza para todas las (�i � �j). c. Mazola y Fleischmann’s son aceites de maíz, en tanto

que los demás son de soya. Calcule un intervalo de con-fianza para

[Sugerencia: Modifique la expresión para V(̂) que condujoa (10.5) en la sección previa.]

27. Aun cuando el té es la bebida que más se consume en elmundo después del agua, se sabe poco sobre su valor nutri-cional. La folacina es la única vitamina B presente en cual-quier cantidad significativa de té y avances recientes enmétodos de ensayo han determinado con precisión el conte-nido de folacina factible. Considere los datos adjuntos so-bre contenido de folacina en especímenes seleccionados alazar de las cuatro marcas líderes de té verde.

(Los datos están basados en “Folacin Content of Tea”, J.Amer. Dietetic Assoc., 1983: 627-632.) ¿Sugieren estos da-tos que el contenido de folacina promedio verdadero es elmismo para todas las marcas? a. Realice una prueba con � � 0.05 con el método del va-

lor P. b. Evalúe la factibilidad de cualquier suposición requerida

para su análisis en el inciso a). c. Realice un análisis de comparaciones múltiples para

identificar diferencias significativas entre marcas.

28. Para un ANOVA unifactorial con tamaños de muestra Ji

(i � 1, 2, . . . , I) demuestre que STCr � �Ji(X�i � X���)2 �

�iJiX�2i� � nX� 2

��, donde n � �Ji.

29. Cuando los tamaños de muestra son iguales (Ji � J), los pa-rámetros �1, �2, . . . , �I de la parameterización alternativa

están restringidos por ��i � 0. Con tamaños de muestra de-siguales, la restricción más natural es �Ji�i � 0. Use estopara demostrar que

E(CMTr) � � 2 � �Ji�2i

¿Cuál es E(CMTr) cuando H0 es verdadera? [Esta expre-sión es correcta si �Ji�i � 0 es reemplazada por la restric-ción ��i � 0 (o por cualquier otra restricción lineal sobre las�i utilizadas para reducir el modelo a I parámetros indepen-dientes), pero �Ji�i � 0 simplifica el álgebra y produce estimaciones naturales para los parámetros modelo (en par-ticular �̂i � x�i� � x���).]

30. Reconsidere el ejemplo 10.7 que implica una investigaciónde los efectos de diferentes tratamientos térmicos sobre elpunto de cedencia de lingotes de acero. a. Si J � 8 y � � 1, ¿cuál es � para una prueba F a un nivel

de 0.05 cuando �1 � �2, �3 � �1 � 1 y �4 � �1 � 1?b. Con la alternativa del inciso a), ¿qué valor de J es nece-

sario para obtener � � 0.05? c. Si existen I � 5 tratamientos térmicos, J � 10 y � � 1,

¿cuál es � para la prueba F a un nivel de 0.05 cuandocuatro de las �i son iguales y la quinta difiere en 1 de lasotras cuatro?

31. Cuando los tamaños de muestra no son iguales, el paráme-tro de no centralidad es �Ji�

2i /�

2 y �2 � (1/I )�Ji�2i /�

2.Remitiéndose al ejercicio 22, ¿cuál es la potencia de laprueba cuando �2 � �3, �1 � �2 � � y �4 � �2 � �?

32. En un experimento para comparar la calidad de cuatro mar-cas diferentes de cinta de grabar de carrete a carrete, se selec-cionaron cinco carretes de 2400 pies de cada marca (A-D) yse determinó el número de imperfecciones en cada uno.

A: 10 5 12 14 8

B: 14 12 17 9 8

C: 13 18 10 15 18

D: 17 16 12 22 14

Se cree que el número de imperfecciones tiene aproximada-mente una distribución Poisson para cada marca. Analicelos datos al nivel 0.01 con objeto de ver si el número espe-rado de imperfecciones por carrete es el mismo para cadamarca.

33. Suponga que Xij es una variable binomial con parámetros ny pi (así que es aproximadamente normal cuando npi 5 ynqi 5). Entonces como �i � npi, V(Xij) � �2

i � npi(1 � pi)� �i(1 � �i /n). ¿Cómo se deberán transformar las Xij demodo que se estabilice la varianza? [Sugerencia: g(�i) ��i(1 � �i /n).]

34. Simplifique E(CMTr) para el modelo de efectos aleatorioscuando J1 � J2 � � � � � JI � J.

1I � 1

(�5 � �6)2

(�1 � �2 � �3 � �4)4

Marca Observaciones

1 7.9 6.2 6.6 8.6 8.9 10.1 9.62 5.7 7.5 9.8 6.1 8.43 6.8 7.5 5.0 7.4 5.3 6.14 6.4 7.1 7.9 4.5 5.0 4.0

c10_p369-396.qxd 3/12/08 4:24 AM Page 394

www.FreeLibros.me

Page 27: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

35. Se realizó un experimento para comparar las velocidades deflujo de cuatro tipos diferentes de boquilla. a. Los tamaños de muestra fueron 5, 6, 7 y 6, respectiva-

mente y los cálculos dieron f � 3.68. Formule y pruebelas hipótesis pertinentes con � � 0.01.

b. El análisis de los datos con un programa estadístico dio elvalor P � 0.029. Al nivel 0.01, ¿qué concluiría y por qué?

36. El artículo “Computer-Assisted Instruction Augmented withPlanned Teacher/Student Contacts” (J. Exp. Educ., invierno,1980-1981: 120-126) comparó cinco métodos diferentes deenseñar estadística descriptiva. Los cinco fueron discusión yconferencia tradicionales (L/D), instrucción con libro de tex-to programado (R), texto programado con conferencias(R/L), instrucción con computadora (C) e instrucción concomputadora y conferencias (C/L). Cuarenta y cinco estu-diantes fueron asignados al azar, 9 a cada método. Despuésde completar el curso, los estudiantes resolvieron un exa-men de 1 hora. Además, se administró una prueba de reten-ción de 10 minutos 6 semanas después. Los resultados sonlos siguientes:

La gran media del examen fue 30.82 y la de la prueba de re-tención fue 29.30.a. ¿Sugieren estos datos que existe diferencia entre los cin-

co métodos de enseñanza con respecto a la calificacióndel examen media verdadera? Use � � 0.05.

b. Con un nivel de significación de 0.05, pruebe la hipóte-sis nula de ninguna diferencia entre las calificaciones dela prueba de retención media verdadera para los cincométodos de enseñanza distintos.

37. Numerosos factores contribuyen al funcionamiento suavede un motor eléctrico (“Increasing Market Share ThroughImproved Product and Process Design: An ExperimentalApproach”, Quality Engineering, 1991: 361-369). En par-ticular, es deseable mantener el ruido del motor y vibracionesa un mínimo. Para estudiar el efecto que la marca de los co-jinetes tiene en la vibración del motor, se examinaron cincomarcas diferentes de cojinetes instalando cada tipo de cojine-te en muestras aleatorias distintas de seis motores. Se regis-tró la cantidad de vibración del motor (medida en micrones)cuando cada uno de los 30 motores estaba funcionando. Losdatos de este estudio se dan a continuación. Formule y prue-be las hipótesis pertinentes a un nivel de significación de 0.05y luego realice un análisis de comparaciones múltiples si esapropiado.

MediaMarca 1 13.1 15.0 14.0 14.4 14.0 11.6 13.68Marca 2 16.3 15.7 17.2 14.9 14.4 17.2 15.95Marca 3 13.7 13.9 12.4 13.8 14.9 13.3 13.67Marca 4 15.7 13.7 14.4 16.0 13.9 14.7 14.73Marca 5 13.5 13.4 13.2 12.7 13.4 12.3 13.08

38. Un artículo publicado en el diario científico británico Nature(“Sucrose Induction of Hepatic Hyperplasia in the Rat”, 25de agosto de 1972: 461) reporta sobre un experimento en elcual cada uno de cinco grupos compuestos de seis ratas fuepuesto a dieta con un carbohidrato diferente. Al final del ex-perimento, se determinó el contenido de ADN del hígado decada rata (mg/g hígado), con los siguientes resultados:

Suponiendo también que � �x2ij � 183.4, ¿indican estos

datos que el tipo de carbohidrato presente en la dieta afectael contenido de ADN promedio verdadero? Construya unatabla ANOVA y use un nivel de significación de 0.05.

39. Remitiéndose al ejercicio 38, construya un intervalo de con-fianza t para

� �1 � (�2 � �3 � �4 � �5)/4

que mide la diferencia entre el contenido de ADN promediopara la dieta de almidón y el promedio combinado para lasotras cuatro dietas. ¿Incluye cero el intervalo resultante?

40. Remítase al ejercicio 38, ¿cuál es � para la prueba cuandoel contenido de ADN promedio verdadero es idéntico paralas tres dietas y queda a 1 desviación estándar (�) por deba-jo de este valor común para las otras dos dietas?

41. Se seleccionan al azar cuatro laboratorios (1-4) de una población grande y a cada uno se le pide que haga tres de-terminaciones del porcentaje de alcohol metílico en especí-menes de un compuesto tomado de un solo lote. Basado enlos datos adjuntos ¿son las diferencias entre los laboratoriosuna causa de variación del porcentaje de alcohol metílico?Formule y pruebe las hipótesis pertinentes con un nivel designificación de 0.05.

1: 85.06 85.25 84.87

2: 84.99 84.28 84.88

3: 84.48 84.72 85.10

4: 84.10 84.55 84.05

42. La frecuencia de parpadeo crítica (fpc) es la frecuencia másalta (en ciclos/s) a la que una persona puede advertir el par-padeo en una fuente luminosa parpadeante. A frecuencia

Ejercicios suplementarios 395

EJERCICIOS SUPLEMENTARIOS (35-46)

Examen Prueba de retención

Método x�i� si x�i� si

L/D 29.3 4.99 30.20 3.82R 28.0 5.33 28.80 5.26R/L 30.2 3.33 26.20 4.66C 32.4 2.94 31.10 4.91C/L 34.2 2.74 30.20 3.53

Carbohidrato x�i�

Almidón 2.58Sucrosa 2.63Fructosa 2.13Glucosa 2.41Maltosa 2.49

c10_p369-396.qxd 3/12/08 4:24 AM Page 395

www.FreeLibros.me

Page 28: 10 Análisis de la varianza - Páginas Web Educativassgpwe.izt.uam.mx/files/users/uami/jdf/Devore/cap10.pdf · prueba F para probar la hipótesis nula de que las medias de la población

por encima de la frecuencia de parpadeo crítica, la fuenteluminosa parece ser continua aun cuando en realidad parpa-dee. Una investigación realizada para ver si la frecuencia deparpadeo crítica promedio verdadera depende del color deliris arrojó los siguientes datos (con base en el artículo “TheEffects of Iris Color in Critical Flicker Frequency”, J. Ge-neral Psych., 1973: 91-95):

a. Formule y pruebe las hipótesis pertinentes a un nivel designificación de 0.05 utilizando la tabla F para obtenerun límite superior y/o inferior del valor P. [Sugerencia:� �x2

ij � 13 659.67 y CF � 13 598.36.]b. Investigue las diferencias entre colores del iris con res-

pecto a la frecuencia de parpadeo crítica media.

43. Sean c1, c2, . . . , cI los números que satisfacen la expresión� ci � 0. Entonces �ci�i � c1�1 � � � � � cI�I se llamacontraste en las �i. Observe que con c1 � 1, c2 � 1,c3 � � � � � cI � 0, �ci�i � �1 � �2, la cual implica que toda diferencia tomada por pares entre las �i es un contras-te (también lo es, p. ej., �1 � 0.5�2 � 0.5�3). Un métodoatribuido a Scheffé da intervalos de confianza simultáneoscon nivel de confianza simultáneo de 100(1 � �)% para to-

dos los contrastes posibles (¡un número infinito de ellos!).El intervalo para �ci�i es

�cix�i� ! (�c2i /Ji)

1/2 � [(I � 1) � CME � F�,I�1,n�I]1/2

Con los datos de la frecuencia crítica de parpadeo del ejercicio42, calcule los intervalos de Scheffé para los contrastes�1 � �2, �1 � �3, �2 � �3 y 0.5 �1 + 0.5 �2 � �3 (este últi-mo contraste compara el azul con el promedio del café y elverde). ¿Que contrastes aparecen significativamente difer-entes de 0 y por qué?

44. Cuatro tipos de morteros: mortero de cemento ordinario(MCO), mortero impregnado de polímero (MIP), morterocon resina (MR) y mortero con cemento y polímero (MCP),se sometieron a una prueba de compresión para medir resis-tencia (MPa). Tres observaciones de resistencia de cada tipode mortero se dan en el artículo. “Polymer Mortar Composi-te Matrices for Maintenance-Free Highly Durable Ferroce-ment” (J. Ferrocement, 1984: 337-345) y se reproducenaquí. Construya una tabla ANOVA. Con un nivel de signifi-cación de 0.05, determine si los datos sugieren que la resis-tencia media verdadera no es la misma para los cuatro tiposde morteros. Si determina que las resistencias medias ver-daderas no son iguales, use el método de Tukey para identi-ficar las diferencias significativas.

MCO 32.15 35.53 34.20MIP 126.32 126.80 134.79MR 117.91 115.02 114.58MCP 29.09 30.87 29.80

45. Suponga que las xij están “codificadas” por yij � cxij � d.¿Cómo se compara el valor del estadístico F calculado conlas yij con el valor calculado con las xij? Justifique su aseve-ración.

46. En el ejemplo 10.10, reste x�i de cada observación en la i-ésima muestra (i � 1, . . . , 6) para obtener un conjunto de18 residuos. Luego construya una curva de probabilidadnormal y comente sobre la factibilidad de la suposición de normalidad.

396 CAPÍTULO 10 Análisis de la varianza

Miller, Rupert, Beyond ANOVA: The Basics of Applied Statistics,Wiley, Nueva York, 1986. Una excelente fuente de informa-ción sobre comprobación de suposiciones y métodos de aná-lisis alternativos.

Montgomery, Douglas, Design and Analysis of Experiments (5a.ed.,) Wiley, Nueva York, 2001. Una presentación muy al díade modelos y metodología ANOVA.

Neter, John, William Wasserman y Michael Kutner, Applied Li-near Statistical Models (4a. ed.,), Irwin, Homewood, IL.,1996. La segunda mitad de este libro contiene un estudio muy

bien presentado de ANOVA; el nivel es comparable al delpresente texto, aunque la discusión es más amplia lo que ha-ce del libro una excelente referencia.

Ott, R. Lyman y Michael Longnecker. An Introduction to Statis-tical Methods and Data Analysis (5a. ed.), Duxbury Press,Belmont, CA, 2001. Incluye varios capítulos sobre metodolo-gía ANOVA que puede ser leído con provecho por estudiantesque desean una exposición no muy matemática; incluye un capítulo muy bueno sobre varios métodos de comparacionesmúltiples.

Color del iris

1. Café 2. Verde 3. Azul

26.8 26.4 25.727.9 24.2 27.223.7 28.0 29.925.0 26.9 28.526.3 29.1 29.424.8 28.325.724.5

Ji 8 5 6xi� 204.7 134.6 169.0x�i� 25.59 26.92 28.17

n � 19 x�� � 508.3

Bibliografía

c10_p369-396.qxd 3/12/08 4:24 AM Page 396

www.FreeLibros.me