prácticas y problemas de dise^o de experimentos
TRANSCRIPT
Capítulo 1
Prácticas y problemas de diseñode experimentos.
1.1. Problemas de diseño de experimentos con ordenador.
Problema 3.1. Datos apareados.�El Ministerio de Trabajo desea saber si un plan de seguridad en el trabajo es efectivo
en la reducción del número de accidentes laborables y por tanto en la pérdida de horas detrabajo debido a accidentes. Para ello se hace un seguimiento en 16 fábricas, observando lashoras de trabajo semanales pérdidas a causa de accidentes, antes y después de implantarel plan de seguridad. Los datos obtenidos son los de la tabla adjunta. Analizar estos datosy obtener conclusiones acerca del problema planteado�.
Fábrica 1 2 3 4 5 6 7 8Antes 55 63 90 47 75 90 73 92
Después 52 60 85 49 65 87 67 85
Fábrica 9 10 11 12 13 14 15 16Antes 110 33 44 74 60 87 41 15
Después 95 35 47 70 55 75 45 18
Desarrollo del Problema 3.1.Este problema puede resolverse por dos métodos distintos pero equivalentes que llevan
a las mismas conclusiones.En primer lugar y dado que el factor-tratamiento (plan de seguridad) solo tiene dos
niveles (antes y después de implantar el plan) se puede considerar como un problema dedatos apareados. Se calcula la variable diferencia
Ydif = Yantes � Ydespu�es;
y se contrasta la hipótesis de que E (Ydif ) = 0:
1
2 Modelos estadísticos aplicados. Juan Vilar
Con el Statgraphics se utiliza el siguiente módulo
comparacion > dos muestras > comparacion de muestras pareadas
Una vez introducidas las variables Yantes e Ydespu�es; el módulo proporciona resultadosanalíticos y grá�cos acerca de la variable diferencia Ydif . Utilizando el test de la t respectoa la media de una muestra resuelve el contraste H0 : E (Ydif ) = 0:
¿Utilizando directamente los datos de la tabla podría resolverse el problema contras-tando la hipótesis H0 : E (Yantes) = E (Ydespu�es) ; frente a la alternativa de que las mediasson diferentes?
Si se quiere resolver el problema de esta forma ¿cómo se debe recoger la muestra?,¿los resultados obtenidos por ambos procedimientos son iguales?, ¿cuál de los dos proce-dimientos es mejor?
La resolución del problema también puede hacerse por una tabla ANOVA de un modelode diseño de experimentos con un factor tratamiento (plan de seguridad) y un factor-bloque(fábrica). Se siguen los siguientes pasos:
1. Con los datos del problema se crean tres variables de 32 observaciones:
? la variable respuesta Y;
? el factor (plan de seguridad) con dos niveles (antes y después),
? el factor bloque �fábrica� con 16 niveles.
2. Se utiliza el siguiente módulo
comparacion > analisis de la varianza > anova factorial
sin interacción (máximo orden de interacción=1).
Este módulo proporciona un amplio estudio analítico y grá�co para responder alproblema planteado. ¿Cómo son el p � valor del test de la t utilizado en la técnicade datos apareados y el p� valor del test de la F utilizado en la técnica de la tablaANOVA?
¿Es in�uyente la variable bloque �fábrica�? En consecuencia ¿es adecuada la recogidamuestral para la resolución del problema?
3. Finalmente se contrastan las hipótesis básicas estructurales utilizando las técnicasexpuestas en el capítulo anterior.
Problema 3.2. (Diseño de experimentos en bloques completamente aleato-rizados)
�Se ha realizado un diseño de experimentos para estudiar la calidad de las soldaduras,el objetivo es determinar si existen diferencias entre las soldaduras según el elemento desoldadura que se utilice entre tres posibles: níquel, hierro o cobre. Como pueden haber
Prácticas y problemas de diseño de experimentos. 3
diferencias signi�cativas entre los elementos a soldar se ha utilizado un diseño de bloquescompletamente aleatorizados. Para ello se han utilizado diez lingotes (bloques) y de cadauno de ellos se han soldado dos componentes utilizando los tres tipos de soldadura. Final-mente se mide la fuerza (expresada en 100 libras por pulgada cuadrada) necesaria pararomper la soldadura. Los resultados obtenidos son los de la tabla adjunta. En base a estosdatos estudiar la in�uencia de factor �tipo de soldadura�, ¿cambian los resultados si no setiene en cuenta el bloque �lingote�? �.
B1 B2 B3 B4 B5 B6 B7 B8 B9 B10Níquel 7600 6603 6809 7407 7300 7207 8000 8306 6102 6206
Cobre 7106 7401 7007 7504 6607 6500 7008 7602 6600 7200
Hierro 7604 7304 6907 7407 6002 6102 7107 5700 5805 6603
Desarrollo del Problema 3.2.Se utiliza el siguiente módulo
comparacion > analisis de la varianza > anova factorial
En este módulo al introducir como variable dependiente �resistencia�y los dos factores:el factor-tratamiento tipo de soldadura y el factor-bloque lingote, se obtiene un completoanálisis de la varianza que comprende:
- la tabla ANOVA que permite contrastar la in�uencia de los dos factores;- la tabla de medias que calcula la media de cada nivel de cada uno de los factores, así
como intervalos de con�anza para las mismas;- el test de rangos múltiples que permite obtener los grupos homogéneos en ambos
factores y las diferencias signi�cativas entre las medias de dos niveles de un factor, sepueden utilizar diferentes métodos (LSD, Sche¤é, Tuckey,.. ).
El estudio grá�co que ofrece el módulo es bastante completo:- el grá�co de puntos y el de medias permiten con�rmar gra�camente las conclusiones
que se deducen de la tabla ANOVA,- los tres grá�cos de residuos permiten tener idea aproximada acerca del cumplimiento
de las hipótesis básicas del modelo,- si en el módulo de opciones de analisis se eligen �interacciones de orden 2�, se
obtienen grá�cos de interacciones que pueden dar una idea aproximada acerca de la posibleexistencia o no de interacciones.
También se puede calcular el l test de Tuckey sobre la no existencia de interacciónaunque con un mayor trabajo ya que el paquete no lo calcula directamente.
Como en el análisis de cualquier modelo estadístico se deben guardar los residuos yanalizar el cumplimeinto de las hipótesis básicas estructurales como se indicó en el capítuloanterior. El estudio sobre la heterocedasticidad debe hacerse en relación a cada uno de losdos factores.
4 Modelos estadísticos aplicados. Juan Vilar
¿Qué ocurre si no se tiene en cuenta el factor-bloque?Se puede repetir el estudio introduciendo solamente el factor tipo de soldadura. Esto
puede hacerse en este módulo o en el siguiente
comparacion > analisis de la varianza > anova simple
Problema 3.3. (Diseño de experimentos de dos factores con interacción).�Se desea analizar el efecto que sobre el tiempo medio de respuesta tienen dos factores:
�la distribución de los �cheros�de las que se consideran tres variantes codi�cadas como F1,F2 y F3; y el �número de bu¤ers del sistema�, también se consideran tres niveles: 10, 20 y30 bu¤ers. Se ha hecho una prueba con cada una de las nueve combinaciones posibles, cadaprueba consistió en observar el sistema un día completo y calcular el tiempo de respuestamedia al compilar un programa en lenguaje C en ese período de tiempo. El experimentose replicó tres veces. Los resultados obtenidos se presentan en la tabla adjunta. En base aestos datos ¿existe in�uencia de alguno de los dos factores en el tiempo de respuesta delsistema informático?, ¿existe interacción entre ambos factores?�
B10 B20 B30
F1207
204
203
200
202
109
108
105
106
B10 B20 B30
F2209
304
303
207
204
205
202
109
203
B10 B20 B30
F3307
304
309
209
304
303
305
304
308
Desarrollo del Problema 3.3.El desarrollo de este problema es análogo al anterior, se utiliza el análisis
comparacion > analisis de la varianza > anova factorial
? Se introduce la variable dependiente �tiempo�y los dos factores ��chero�y �bu¤ers�.? En un primer estudio conviene introducir el factor �réplica�que indica el orden en
el que se repitió el experimento y se estudia el modelo de tres factores sin replicación. Siel modelo se ha replicado correctamente la tabla ANOVA indicará que el factor �réplica�no in�uye.
? En este caso se deshecha el factor �réplica� y se repite el estudio considerando elmodelo de dos factores e interacción entre los dos factores (interacción de orden 2). Seobtienen conclusiones según los resultados obtenidos.
? Se �naliza con el análisis de residuos.
Problema 3.4. (Diseño de experimentos en cuadrado latino).�Se quiere estudiar la e�cacia de cuatro fármacos diferentes (F1, F2, F3 y F4) en el
tratamiento de una enfermedad. Para ello se observa el número de días que tardan encurar enfermos tratados con estos fármacos. Se considera que el factor edad y el factorpeso pueden in�uir en el experimento, por ello se controlan estos factores y se considerancuatro niveles de edad (E1, E2, E3 y E4) y cuatro de peso (P1, P2, P3 y P4). Los resultadosdel experimento diseñado según la técnica del cuadrado latino son los de la tabla adjunta.¿Qué conclusiones se deducen del experimento?�
Prácticas y problemas de diseño de experimentos. 5
E1 E2 E3 E4P1 10 F1 905 F2 7 F4 1105 F3P2 8 F2 10 F1 805 F3 9 F4P3 7 F3 605 F4 7 F1 8 F2P4 6 F4 5 F3 6 F2 9 F1
Desarrollo del Problema 3.4.Se deben introducir los datos de forma correcta en el �chero, una vez realizado ésto,
se utiliza el análisis anterior, siendo la variable respuesta �tiempo� y los tres factores�peso�, �edad�y �fármaco�. Al calcular la tabla ANOVA si alguno de los factores no essigni�cativo se elimina del modelo y se calcula la nueva tabla ANOVA.
1.2. Problemas resueltos de diseño de experimentos.
Problema 3.5. (Diseño de experimentos con bloques completamente alea-torizados)
�El servicio bibliotecario de una universidad está interesado en un programa paragestionar la localización de un libro en la base de datos. Le ofrecen cinco programas paratal �n: P1, P2, P3, P4, P5. En la universidad se dispone de cuatro tipos de ordenadoresy se desea saber si el tiempo de respuesta de los cinco programas ofertados es el mismo.Para ello se diseña el siguiente experimento: se eligen diez libros al azar y se localizanutilizando los cinco programas y los cuatro tipos de ordenadores. Los tiempos medio derespuesta (en segundos) en cada caso son los de la tabla adjunta.�
Prog.1 Prog.2 Prog.3 Prog.4 Prog.5Ord.1 103 106 005 102 101
Ord.2 202 204 004 200 108
Ord.3 108 107 006 105 103
Ord.4 309 404 200 401 304
Solución al Problema 3.5.Cálculo de las medias condicionadas (según programa y según ordenador)
Prog.1 Prog.2 Prog.3 Prog.4 Prog.5 �yi� �i
Ord.1 103 106 005 102 101 1014 �0082Ord.2 202 204 004 200 108 1076 �0020Ord.3 108 107 006 105 103 1038 �0058Ord.4 309 404 200 401 304 3056 +1060
�y�j 203 20525 00875 202 109 �y�� = 1096P�i = 0
�j 00340 00565 �10085 00240 �00060P�j = 0
6 Modelos estadísticos aplicados. Juan Vilar
Siendo �i = �yi� � �y�� y �j = �y�j � �y��Factor �la (�) = Factor-bloque ordenador, i = 1; 2; 3; 4:Factor columna (�) = Factor-tratamiento programa, j = 1; 2; 3; 4; 5:Las predicciones de cada tratamiento (casilla) se calculan utilizando
yij = �+ �i + �j = �yi� + �y�j � �y��;
se obtiene
Predicciones Prog.1 Prog.2 Prog.3 Prog.4 Prog.5Ord.1 1048 10705 00055 1038 1008
Ord.2 2010 20325 00675 2000 1070
Ord.3 1072 10945 00295 1062 1032
Ord.4 3090 40125 20475 3080 3050
A partir de esta tabla se calculan los residuos
eij = yij � yij ;
obteniendo la siguiente tabla de residuos
Residuos Prog.1 Prog.2 Prog.3 Prog.4 Prog.5Ord.1 �0018 �00105 00455 �0018 0002
Ord.2 0010 00075 �00275 0000 0010
Ord.3 0008 �00245 00305 �0012 �0002Ord.4 0000 00275 �00475 0030 0010
Observar que la suma de los residuos de cada �la y de cada columna es cero.
Cálculo de las sumas de cuadrados:
scT (�) = scT (ordenador) = 54Xi=1
�2i
= 5�00822 + 00202 + 00582 + 10602
�= 180044:
scT (�) = scT (programa) = 45Xj=1
�j2
= 4�00342 + 005652 + 100852 + 00242 + 00062
�= 60693:
De dondescT = scT (�) + scT (�) = 180044 + 60693 = 240737:
La variabilidad total es
scG =
4Xi=1
5Xj=1
(yij � �y��)2
=�103� 1096
�2+�106� 1096
�2+ : : :+
�401� 1096
�2+�304� 1096
�2= 250688:
Prácticas y problemas de diseño de experimentos. 7
Una forma alternativa de calcular la variabilidad total (scG) es la siguiente
scG = ns2Y = n
��1
n
Xi
Xjy2ij
�� �y2��
�
=
0@ 4Xi=1
5Xj=1
y2ij
1A� 20 � 10962:La suma de residuos al cuadrado se obtiene como
scR = scG� scT = 250688� 240737 = 00951:
El valor de scR también se puede calcular directamente
scR =4Xi=1
5Xj=1
e2ij = 00182 + 001052 + : : :+ 00302 + 00102 = 00951
La Tabla ANOVA que se obtiene es la siguiente
Tabla ANOVAEfecto Sum cuad. g.l. Varianza estadíst. F p-valorscT (�) : ordenador. 180044 3 s2� = 6
0015 F� = 75089 00000
scT (�): programa. 60693 4 s2� = 10673 F� = 21
011 00000
scT 240737 7
scR 00951 12 s2R = 00079
scG 250688 19 s2Y = 10352
Contrastes que se deducen de esta tabla son los siguientes:
Sobre la in�uencia del factor-tratamiento programa
H(1)0 : �el factor-tratamiento programa no in�uye�: �i = 0; j = 1; : : : ; 5:
F� =s2�s2R=10673
00079= 21011 � F4;12?) p� val = 00000:
Se rechaza la hipótesis nula de no in�uencia del factor programa.
Sobre la in�uencia del factor-bloque ordenador.
H(2)0 : �el factor-bloque ordenador no in�uye�: �i = 0; i = 1; : : : ; 4:
F� =s2�s2R=60015
00079= 75089 � F3;12?) p� val = 00000:
Se rechaza la hipótesis nula de no in�uencia del factor ordenador. Ha sido conve-niente bloquear.
8 Modelos estadísticos aplicados. Juan Vilar
Coe�cientes de determinación.- Porcentaje de variabilidad explicada por el factor-tratamiento programa
R2 (�) =scT (�)
scG=180044
250688= 0070243) 700243%:
- Porcentaje de variabilidad explicada por el factor-bloque ordenador
R2 (�) =scT (�)
scG=60693
250688= 0026055) 260055%:
- Porcentaje de variabilidad explicada por el modelo
R2 = R2 (�) +R2 (�) =scT
scG= 0096298) 960298%:
Si no tiene en cuenta el factor-bloque ordenador se obtiene la siguiente tabla ANOVAque se deduce de la anterior
Tabla ANOVA con sólo el factor-tratamiento programa (�)Efecto Sum cuad. g.l. Varianza estadíst. F p-valorscT (�): programa. 60693 4 s2� = 1
0673 F� = 1032 00307
scR 180995 15 s2R = 10266
scG 250688 19 s2Y = 10352
Tener en cuenta que si no utiliza el factor-bloque ordenador, el diseño de experimentoses otro y la muestra recogida diferente. En cualquier caso los resultados del análisis nodeberían variar mucho respecto a los aquí obtenidos.
Al hacer el contraste
H(1)0 : �el factor programa no in�uye�: �i = 0; j = 1; : : : ; 5;
se obtiene
F� =s2�s2R=10673
10266= 1032 2 F4;15?) p� val = 00307
Se acepta la hipótesis nula de no in�uencia del factor programa, en contradicción conlo obtenido anteriormente.
A la vista de lo obtenido en este problema, es fundamental controlar los factoresin�uyentes en la variable respuesta.
Las siguientes grá�cas permiten examinar las hipótesis básicas del modelo:En la Figura 3.1. se observa el grá�co de residuos frente a predicciones.En las Figuras 3.2. y 3.3. se presentan los grá�cos de interacciones por cada uno de los
dos factores. De ellos se deduce la no existencia de interacción entre ambos factores.
Prácticas y problemas de diseño de experimentos. 9
Figura 3.1. Grá�co de residuos.
Figura 3.2. Grá�co de interacción respecto a programa.
Figura 3.3. Grá�co de interacción respecto a ordenador.
10 Modelos estadísticos aplicados. Juan Vilar
Intervalos de con�anza al 90% para los parámetros del modelo.
Intervalo de con�anza para la varianza, �2;
(I � 1) (J � 1) s2R�2
� �2(I�1)(J�1) )3 � 4 � 00079
�2� �212
50226 = �212�0005
�� 3 � 4 � 00079
�2� �212
�0095
�= 210026
00948
210026= 00045 � �2 � 00181 = 00948
50226
Intervalo de con�anza para los efectos (ordenador). Se hace para �2:
�2 � N
��2; �
2 I � 1n
�) �2 � �2
sR
rn
I � 1 � t(I�1)(J�1)
) �2 � (�0082)00079
r20
3� t12
) �1078 = �t12�0095
�� �2 � (�0082)
00079
r20
3� t12
�0095
�= 1078
) �2 2 �0082�1078
32068= �0082� 00054 =
��00874;�00766
�:
Intervalo de con�anza para los efectos (programa). Se hace para �3:
�3 � N
��3; �
2J � 1n
�) �3 � �3
sR
rn
J � 1 � t(I�1)(J�1)
) �3 � (�10085)00079
r20
4� t12
) �1078 = �t12�0095
�� �3 � (�10085)
00079
r20
4� t12
�0095
�= 1078
) �3 2 �10085� 00063 =��10148;�10022
�:
Intervalos de con�anza para la diferencia de medias. Se hace para �1 � �3:
(�y�1 � �y�3)� (�1 � �3)sR
rI
2� t(I�1)(J�1) )
10425� (�1 � �3)00079
r4
2� t12
�1078 � 10425� (�1 � �3)00079
r4
2� 1078
(�1 � �3) 2 10425� 00099 = (10326; 10524):
Prácticas y problemas de diseño de experimentos. 11
Al calcular grupos homogéneos de los ordenadores se obtienen dos grupos:? O1? O3 - O2 -O4
La existencia de estos grupos se puede observar en el grá�co de medias
Figura 3.4. Grá�co de medias de los ordenadores.
Al calcular grupos homogéneos de los programas se obtienen tres grupos:? P3 - P4? P5 - P4? P1 - P2
Esto se observa en el siguiente grá�co de medias de los programas.
Figura 3.5. Grá�co de medias de los programas.
12 Modelos estadísticos aplicados. Juan Vilar
Problema 3.6. (Diseño de experimentos con dos factores e interacción)�Una empresa dedicada a la fabricación de baterías está interesada en diseñar una
batería que sea relativamente insensible a la temperatura ambiente. Para ello decide probarcon tres materiales distintos: M1, M2, y M3. Para estudiar el efecto del material y latemperatura se diseña el siguiente experimento: utilizando baterías fabricadas con los tresmateriales se observa la duración de las baterías en horas cuando éstas trabajan a tresniveles de temperatura: baja, media y alta. El experimento se replicaba cuatro veces y losresultados obtenidos son los de la tabla adjunta.
Analizar estos datos y estudiar la in�uencia de los factores material y temperatura enel rendimiento de la batería. Conclusiones.�
TemperaturaMaterial Baja Media Alta
M1130 15574 180
34 4080 75
20 7082 58
M2150 188159 126
136 122106 115
25 7058 45
M3138 110168 160
174 120150 139
96 10482 60
Solución al Problema 3.6.El modelo matemático a ajustar es el siguiente
yijk = �+ �i + �j + (��)ij + "ijk
donde �i es el efecto del factor material, i = 1; 2; 3) I = 3
�j es el efecto del factor temperatura, j = 1; 2; 3) J = 3
(��)ij es el efecto de la interacción entre ambos factores.Para estimar estos parámetros se calculan las medias de cada casilla y las medias de
cada �la y cada columna.
Medias�yij� Baja Media Alta �yi��M1 134075 57025 5705 83017
M2 155075 119075 4905 108033
M3 14400 145075 8505 125008
�y�j� 144083 107058 64017 �y��� = 105053
Se calculan los parámetros del modelo utilizando
�i = �yi�� � �y���; �j = �y�j� � �y���; d(��)ij = �yij� � �yi�� � �y�j� + �y���;se obtiene
Prácticas y problemas de diseño de experimentos. 13
Parámetros del modelod(��)ij Baja Media Alta �i
M1 12028 �27095 15069 �22036M2 8012 9037 �17047 2080
M3 �20038 18062 1078 19055
�j 39030 2005 �41035Se calculan las predicciones a partir de
yij = �+ �i + �j +d(��)ij = �yij�;
se obtiene
Predicciones = Medias casillayij Baja Media AltaM1 134075 57025 5705
M2 155075 119075 4905
M3 14400 145075 8505
Los residuos se calculan como
eijk = yijk � yij ; i; j = 1; 2; 3;
obteniendo
Residuos Baja Media Alta
M1�4075 20025
�60075 45025
�23025 �1702522075 17075
�3705 1205
2405 005
M2�5075 32025
3025 �2907516025 2025
�13075 �4075�2405 2005
805 �405
M3�600 �34002400 1600
28025 �250754025 �6075
1005 1805
�305 �2505
Observar que la suma de residuos de cada casilla vale cero.
Cálculo de las sumas de cuadrados:
scT (�) = scT (material) = 3 � 4 ��220362 + 2082 + 190552
�= 10;683070:
scT (�) = scT (temperatura) = 3 � 4 ��39032 + 20052 + 410352
�= 39;118070:
scT (��) = scT (interacción) = 4 �
0B@ 120282 + 270972 + 150692+
80122 + 90372 + 170472+
200382 + 180622 + 10782
1CA = 9;613078:
scT = scT (�) + scT (�) + scT (��)
= 10;683070 + 39;118070 + 9;613078 = 59;416018:
14 Modelos estadísticos aplicados. Juan Vilar
scG =
3Xi=1
3Xj=1
4Xk=1
(yijk � �y���)2
= ns2Y = n
��1
n
Xi
Xj
Xky2ijk
�� �y2���
�= 77;64700:
scR = scG+ scT = 77;64700� 59;416018 = 18;23007:
La suma de cuadrados de residuos también se puede calcular directamente
scR =
3Xi=1
3Xj=1
4Xk=1
eijk =
3Xi=1
3Xj=1
4Xk=1
(yijk � yij)2 =
�40752 + 200252 + : : :+ 3052 + 25052
�=
= 18;23007:
Si se utiliza calculadora es más sencillo hacerlo por el método anterior.
La Tabla ANOVA que se obtiene en este problema es la siguiente:
Tabla ANOVAEfecto Sum cuad. g.l. Varianza estadíst. F p-valorscT (�) 10;683070 2 s2� = 5;341
086 7091 00002
scT (�) 39;118070 2 s2� = 19;55904 28097 00000
scT (��) 9;613078 4 s2�� = 2;403044 3056 00019
scT 59;416018 8
scR 18;23007 27 s2R = 6750213 sR = 25
098
scG 77;64700 35 s2Y = 2;218048 sY = 47
010
Los coe�cientes de determinación que se obtienen son
R2 (�) = R2 (material) =scT (�)
scG=10;683070
77;64700= 001376) 13076%:
R2 (�) = R2 (temperatura) =scT (�)
scG=39;118070
77;64700= 005038) 50038%:
R2 (��) = R2 (interacción) =scT (��)
scG=9;613078
77;64700= 001238) 12038%:
R2 =scT
scG= R2 (�) +R2 (�) +R2 (��) =
59;416018
77;64700= 007652) 76052%:
Contrastes que se deducen la tabla ANOVA son los siguientes:
1. Sobre la in�uencia del factor-tratamiento material
Prácticas y problemas de diseño de experimentos. 15
H(1)0 : �el factor no in�uye�: �i = 0; i = 1; : : : ; 3:
F� =s2�s2R=5;341086
6750213= 7091 � F2;27?) p� val = 00002:
Se rechaza la hipótesis nula de no in�uencia del factor material. Hecho que se observaclaramente en el grá�co de medias del factor material,
Figura 3.6. Grá�co de medias respecto a material.
Figura 3.7. Grá�co de medias respecto a la temperatura.
2. Sobre la in�uencia del factor-tratamiento temperatura
H(2)0 : �el factor temperatura no in�uye�: �i = 0; j = 1; : : : ; 3:
F� =s2�s2R=19;55904
6750213= 28097 � F2;27?) p� val = 00000:
16 Modelos estadísticos aplicados. Juan Vilar
Se rechaza la hipótesis nula de no in�uencia del factor temperatura. Esto se observaen el grá�co de medias del factor temperatura (Figura 3.7.).
3. Sobre la in�uencia de la interacción de los dos factores.
H(3)0 : �la interacción de los dos factores no in�uye�: (��)ij = 0; i; j = 1; : : : ; 3:
F�� =s2��s2R
=2;403044
6750213= 3056 � F2;27?) p� val = 00019:
Se rechaza la hipótesis nula de no in�uencia de la interacción de los factores paraniveles superiores a 0002. Esto se puede observar en los grá�cos de interacciones (respectoal factor material, Figura 3.8. y respecto al factor temperatura, Figura 3.9.).
Figura 3.8. Grá�co de interacciones respecto a material.
Figura 3.9. Grá�co de interacciones respecto a temperatura.
En la Figura 3.10. se presenta el grá�co de residuos frente a predicciones en el que nose observa ningún problema.
Prácticas y problemas de diseño de experimentos. 17
Figura 3.10. Grá�co de residuos frente a predicciones.
Problema 3.7. (Diseño de experimentos en cuadrado latino).�Para estudiar el efecto de la iluminación (A=natural, B=muy fuerte, C=escasa) en la
velocidad de lectura se realiza un experimento que consiste en contar el número de palabrasleídas en un minuto en distintos tipos de papel (b=blanco, c=en color, s=satinado) y dife-rente tipografía (g=letra grande, p=letra pequeña, n=normal). Los resultados obtenidosson los de la tabla adjunta.
Analizar estos datos y estudiar la posible in�uencia de los factores iluminación, tiposde papel y diferente tipografía en la variable de interés velocidad de lectura�.
Tipo de papelLetra satinado blanco colorgrande 258 A 230 C 240 Bnormal 235 B 270 A 240 Cpequeña 220 C 225 B 260 A
Solución al Problema 3.7.El modelo matemático-estadístico a ajustar es
yij(k) = �+ �i + �j + �(k) + "ij(k);
donde el factor �la � representa al factor tipo de letra, el factor columna � representa alfactor tipo de papel y el factor letra (cuadrado latino) representa el factor iluminación.Es un modelo con tres factores, cada uno de los cuales tiene tres niveles, se supone que noexisten interacciones entre los factores y puede resolverse con solo 32 = 9 observacionespor medio del diseño fraccional de cuadrado latino.
Se calculan las medias y parámetros del modelo como sigue
�y�� = 242
18 Modelos estadísticos aplicados. Juan Vilar
Medias y estimaciones�yi�� �i = �yi�� � �y�� �y�j� �j = �y�j� � �y�� �y��k �k = �y��k � �y��
242067 +0067 237067 �4033 262067 +20067
248033 +6033 241067 �0033 233033 �8067235000 �7000 246067 +4066 230000 �12000
A partir de estos valores se calculan las predicciones
yij(k) = �+ �i + �j + �(k); i; j = 1; 2; 3;
obteniendoPredicciones
259000 230033 238067
235033 268067 241000
218067 226000 260033
Los residuos soneij(k) = yij(k) � yij(k); i; j = 1; 2; 3;
se obtiene
Residuos�1000 �0033 1033
�0033 1033 �10001033 �1000 �0033
Cálculo de las sumas de cuadrados
scT (�) = scT (tipo letra) = 3 ��00672 + 60332 + 72
�= 268067:
scT (�) = scT (papel) = 3 ��40332 + 00332 + 40662
�= 122000:
scT ( ) = scT (iluminación) = 3 ��200672 + 80672 + 122
�= 1;938067:
scT = scT (�) + scT (�) + scT (�) =
= 268067 + 122000 + 1;938067 = 2;329034:
La suma de cuadrados total es
scG =3Xi=1
3Xj=1
�yij(k) � �y��
�2= ns2Y = n
��1
n
Xi
Xjy2ij(k)
�� �y2��
�= 2;338
La suma de cuadrados no explicada (residual) es
scR = scG� scT = 2;338� 2;329034 = 8067:
También scR puede calcularse directamente de los residuos
Prácticas y problemas de diseño de experimentos. 19
scR =
3Xi=1
3Xj=1
e2ij(k) =
3Xi=1
3Xj=1
�yij(k) � yij(k)
�2=
�12 + 00332 + 10332 + 00332 + 10332 + 12 + 10332 + 12 + 00332
�= 8067:
Los coe�cientes de determinación son:
R2 (�) = R2 (tipo letra) =scT (�)
scG=268067
2;338= 001149) 11049%:
R2 (�) = R2 (papel) =scT (�)
scG=122000
2;338= 00522) 5022%:
R2 (�) = R2 (iluminación) =scT (��)
scG=1;938067
2;338= 008292) 82092%:
R2 =sgT
scG= R2 (�) +R2 (�) +R2 (�) =
2;329034
2;338= 009962) 99062%:
La tabla ANOVA que se obtiene es la siguiente
Tabla ANOVAEfecto Sum cuad. g.l. Varianza estadíst. F p-valorscT (�) 268067 2 s2� = 134
033 31 00031
scT (�) 122000 2 s2� = 61000 14008 00066
scT (�) 1;938067 2 s2� = 969033 223069 00004
scT 2;329034 6
scR 8066 2 s2R = 4033 sR = 2
008
scG 2;33800 8 s2Y = 292025 sY = 17
009
De esta tabla se deducen los siguientes contrastes:
1. Sobre la in�uencia del factor tipo de letra.
H(1)0 : �el factor tipo de letra no in�uye�: �i = 0; i = 1; 2; 3:
F� =s2�s2R=134033
4033= 31 � F2;2?) p� val = 00031:
Se rechaza para niveles de � > 00031 (por ejemplo � = 0005) la hipótesis nula de noin�uencia del factor tipo de letra. El grá�co de medias con�rma este hecho.
20 Modelos estadísticos aplicados. Juan Vilar
Figura 3.11. Grá�co de medias respecto al tipo de letra.
2. Sobre la in�uencia del factor tipo de papel se obtiene,
H(2)0 : �el factor tipo de papel no in�uye�: �i = 0; i = 1; 2; 3:
F� =s2�s2R=61000
4033= 14008 � F2;2?) p� val = 00066:
Se acepta para niveles de � < 00066 (por ejemplo � = 0005) la hipótesis nula de noin�uencia del factor tipo de papel. El grá�co de medias del factor tipo de papel es
Figura 3.11. Grá�co de medias respecto al tipo de papel.
3. Sobre la in�uencia del factor tipo de iluminación, se deduce el siguiente contraste
H(3)0 : �el factor tipo de iluminación no in�uye�: �i = 0; i = 1; 2; 3:
F� =s2�s2R=969033
4033= 233039 � F2;2?) p� val = 00004:
Prácticas y problemas de diseño de experimentos. 21
Se rechaza para niveles de � > 00004 (por ejemplo � = 0005) la hipótesis nula de noin�uencia del factor tipo de iluminación. Esto puede observarse en el grá�co de medias delfactor
Figura 3.13. Grá�co de medias respecto al tipo de iluminación.
1.3. Problemas propuestos de diseño de experimentos.
Problema 3.8.�Los siguientes datos proporcionan la presión, sistólica y diastólica, de la sangre (en
mm Hg) de 15 pacientes con hipertensión moderada, medidas antes y después de probarun nuevo fármaco. En base a estos datos ¿puede a�rmarse que el nuevo fármaco es efectivopara bajar la tensión arterial?�
.
Sistólica DiastólicaPac Ant Desp Ant Desp1 210 201 130 125
2 169 165 122 121
3 187 166 124 121
4 160 157 104 106
5 167 147 112 101
6 176 145 101 85
7 185 168 121 98
8 206 180 124 105
Sistólica DiastólicaPac Ant Desp Ant Desp9 173 147 115 103
10 146 136 102 98
11 174 151 98 90
12 201 168 119 98
13 198 179 106 110
14 148 129 107 103
15 154 131 100 82
Problema 3.9.
�Una empresa desea contrastar si el lunes es el día de la semana en que se presentanmás bajas por enfermedad común. Para ello, en base a los datos de cinco años, se eligenal azar 10 lunes, 10 martes, 10 miércoles, 10 jueves y 10 viernes, anotando el número debajas durante tales días. Los resultados obtenidos son los de la tabla adjunta
22 Modelos estadísticos aplicados. Juan Vilar
Muestreo 1Día número de bajas por díaLunes 26 37 22 55 23 38 46 25 25 23
Martes 35 20 28 12 17 17 57 42 25 63
Miércoles 25 40 63 18 62 30 38 23 37 26
Jueves 51 20 30 13 42 28 17 73 25 22
Viernes 30 62 40 15 26 37 52 12 16 25
Un segundo estudio se realizó en base al mismo experimento pero cambiando el esquemadel muestreo, ahora se eligieron al azar diez semanas completas de los cinco años. Losresultados que se obtuvieron son los siguientes:
Muestreo 2Semana (número de bajas por día)
Día S1 S2 S3 S4 S5 S6 S7 S8 S9 S10Lunes 40 32 56 65 18 43 30 51 46 38
Martes 32 51 34 35 23 22 45 35 32 58
Miércoles 42 30 29 30 15 30 42 51 31 26
Jueves 20 32 30 40 21 28 46 36 36 22
Viernes 26 27 27 17 23 37 53 22 15 22
En base a estos datos:
1. Indicar los modelos matemáticos asociados a ambos tipos de muestreo.
2. Calcular en ambos casos la tabla ANOVA. Conclusiones.
3. Utilizando los dos tipos de muestreo ¿existe un día o más en que el número de bajaspor enfermedad común sea signi�cativamente mayor?
4. En ambos casos ¿se veri�can las hipótesis del modelo? En caso negativo, transformarlos datos y recalcular los modelos.
5. Comparar razonadamente ambos esquemas de muestreo. Proponer un modelo demuestreo más adecuado�.
Problema 3.10.�Se realiza un experimento para investigar el proceso de obtención de la penicilina,
siendo la variable de interés la producción obtenida. El estudio se centra en observar losresultados de 4 variantes del proceso básico, denominadas tratamientos A, B, C y D. Sequiere controlar una materia prima importante, el licor de maíz, para ello se utilizan cincomezclas de licor de maíz (bloques) con los que se realiza el experimento. Los resultadosobservados son los de la tabla adjunta. En base a estos datos ¿in�uye la variante delproceso en la producción obtenida? ¿El resultado sería el mismo si no se tiene en cuentael tipo de maíz utilizado?�.
Prácticas y problemas de diseño de experimentos. 23
TratamientosBloque A B C DMezcla 1 89 88 97 94
Mezcla 2 84 77 92 79
Mezcla 3 81 87 87 85
Mezcla 4 87 92 89 84
Mezcla 5 79 81 80 88
Problema 3.11.�Un experimento consiste en anotar las décimas de segundo que se tarda en parar el
cronómetro después de ponerlo en marcha. Para ello, se inicializa el cronómetro en 0:00:00,se pone en marcha pulsando un botón para, después, pararlo pulsando el mismo botón. Seanota el tiempo que se ha tardado en pararlo, ésto es, el tiempo que aparece indicado enel cronómetro.Con este experimento se desea estudiar la in�uencia en la variable de interés (tiempo quese tarda en detener el cronómetro en décimas de segundo) de dos factores: el tipo de relojutilizado (se han utilizado cuatro relojes: R1, R2, R3 y R4) y de la mano utilizada (derecha(D) o izquierda (I)).Todos los datos de este experimento han sido realizados por una sola persona que ha real-izado cinco réplicas de cada tratamiento. Los datos obtenidos son los de la tabla adjunta.En base a ellos estudiar la in�uencia de los factores y analizar la existencia de interacciónentre los dos factores, ¿veri�can los residuos las hipótesis del modelo?�.
RelojMano R1 R2 R3 R4
Derecha11 1116 1211
10 1820 1713
18 1617 2015
12 1415 1616
Izquierda17 1711 1716
30 2228 2220
21 2522 2326
21 1618 2118
Problema 3.12.�Se ha realizado un experimento para comprobar si existen diferencias signi�cativas
en el tiempo de ejecución entre tres programas que calculan el factorial de un número.También se desea investigar si in�uye en la variable de interés el intervalo al que perteneceel número del que se calcula el factorial.
Los programas utilizados son tres:- Recfact, que calcula el factorial de forma recursiva.- Tailfact, calcula el factorial de usando tail-recursion.- Loopfact, calcula el factorial utilizando un bucle en el que calcula en sucesivas itera-
ciones el producto �nal.
24 Modelos estadísticos aplicados. Juan Vilar
Los intervalos elegidos para hacer el estudio son de longitud cien unidades: [1,100],[101,200], [201,300], [301,400], [401,500].
En el experimento se generaba para cada uno de los cinco intervalos diez númerosaleatorios (diez réplicas) y para cada número se calculaba el tiempo de ejecución de lostres programas que calculan el factorial.Los datos obtenidos del experimento son los de latabla adjunta.
IntervaloPrograma I.1. I.2. I.3. I.4. I.5.
Recfact
106 709
708 1108
805 405
507 208
802 406
1703 1303
1407 2304
1900 2202
1903 1408
2408 1500
2808 3502
3109 2902
3200 3100
2909 3101
3405 2605
3909 4409
4009 4408
3609 3905
4604 4301
3705 3902
5105 5107
5206 5001
5501 5006
4900 5606
4901 5509
Tailfact
302 1107
1009 1700
107 709
509 1102
601 1109
2105 2804
3606 2709
2505 2106
2200 3208
3405 3405
4603 5106
5206 4307
4300 3905
4706 4408
4604 4708
5809 6800
5509 6502
5906 5501
6002 6705
7002 6109
8506 7401
7606 8407
7802 7906
8305 7508
7706 7401
Loopfact
1007 107
1100 302
708 1107
600 1106
509 1607
3307 2105
2708 2100
2409 2101
3508 2703
1809 3200
4205 4604
4607 4108
5003 4305
3804 4501
4502 5103
5304 5405
5807 6601
6803 6304
5704 5708
6508 6004
7204 7603
7406 7704
8206 7508
7202 8305
7400 8103
Las variables en estudio son:Programa: programa utilizado (1=Recfact, 2=Tailfact, 3=Loopfact)Intervalo: intervalo del que se elegía el número (1,2,3,4, 5).Réplica: réplica del experimento (1,...,10)Tiempo: tiempo de ejecución en cada caso.En base a estos datos,
1. Estudiar de la in�uencia de los tres factores.
2. ¿Qué modelo estadístico se debe utilizar? ¿Se ajusta bien el modelo propuesto alos datos? ¿Existe interacción entre los factores?, en caso a�rmativo interpretar lainteracción.
3. Analizar las hipótesis básicas del modelo.�
Problema 3.13.�Se diseña un experimento para estudiar la in�uencia del �tipo de cinta�(dos niveles)
y del �tipo de impresora�(dos niveles) en la variable �duración de la cinta en horas�. Losdatos se recogen en la tabla adjunta
Prácticas y problemas de diseño de experimentos. 25
Impresora I 1 Impresora I 2Cinta A Cinta B Cinta A Cinta B1701 1502
1605 1607
1409
1904 1702
1809 2007
2001
1203 1106
1308 1201
1008
1506 1601
1702 1803
1607
En base a estos datos
1. Escribir el modelo matemático asociado al problema y las hipótesis que se suponen.
2. Calcular la tabla ANOVA y obtener los contrastes que se deducen.
3. Si suponemos que la interacción es nula ¿cómo in�uye en la tabla ANOVA? ¿Semodi�can las conclusiones?
4. Calcular un intervalo de con�anza al 90% para la duración media de la cinta con laimpresora I1.�
Problema 3.14.�Se realiza un experimento para estudiar el efecto del tipo de material y el tratamiento
empleado en el desgaste de unas piezas mecánicas. Los datos obtenidos son los de la tablaadjunta. En base a estos datos analizar la in�uencia de los dos factores (diseño anadidadoo jerarquizado)�.
Material A B C D ETratamiento a b a b a b a b a bRéplica 1 23 30 42 45 37 39 41 44 20 24Réplica 2 25 31 44 50 38 39 42 49 25 30
Problema 3.15.�Se realiza un experimento para comparar la energía que se requiere para llevar a
cabo tres actividades físicas: correr, pasear y montar en bicicleta. La variable de interéses Y=�número de kilocalorías consumidas por kilómetro recorrido�. Se cree que las dife-rencias metabólicas entre los individuos puede afectar al número de kilocalorías requeridaspara llevar a cabo una determinada actividad y se quiere controlar esta variable extraña.Para ello se seleccionan ocho individuos al azar y se les pide que hagan las tres actividadesmencionadas. Se mide el número de kilocalorías consumidas por kilómetro obteniendo losdatos de la tabla adjunta. Las actividades se realizan en orden aleatorio con tiempo derecupeación entre una y otra. ¿Puede pensarse que no in�uye la actividad realizada en elnúmero de kilocalorías consumidas?.�
B.1. B.2. B.3. B.4. B.5. B.6. B.7. B.8Correr 104 105 108 107 106 105 107 200
Caminar 101 102 103 103 007 102 101 103
Pedalear 007 008 007 008 001 007 004 006
26 Modelos estadísticos aplicados. Juan Vilar
Problema 3.16.�Se están investigando los efectos que sobre la resistencia del papel produce el por-
centaje de concentración de �bra de madera (hardwood) en la pulpa, la presión del tanquey el tiempo de cocción de la pulpa. Se seleccionan tres niveles de concentración de maderay de presión, y dos niveles de tiempo de cocción. Por tanto, los factores son: concentraciónporcentual de �bra que se estudia a tres niveles (2, 4 y 8); presión durante el tiempo decocción que se estudia a tres niveles (400, 500 y 650); y tiempo de cocción que se estudiaa dos niveles, 3 y 4 horas.
Se realiza un experimento completamente aleatorizado con dos réplicas y se registranlos datos que se recogen en el �chero problema-3-16.
1. Analizar los datos y obtener conclusiones.
2. Obtener los grá�cos de residuos apropiados y comentar la adecuación del modelo.�