prácticas y problemas de dise^o de experimentos

26
Captulo 1 PrÆcticas y problemas de diseæo de experimentos. 1.1. Problemas de diseæo de experimentos con ordenador. Problema 3.1. Datos apareados. El Ministerio de Trabajo desea saber si un plan de seguridad en el trabajo es efectivo en la reduccin del nœmero de accidentes laborables y por tanto en la pØrdida de horas de trabajo debido a accidentes. Para ello se hace un seguimiento en 16 fÆbricas, observando las horas de trabajo semanales pØrdidas a causa de accidentes, antes y despuØs de implantar el plan de seguridad. Los datos obtenidos son los de la tabla adjunta. Analizar estos datos y obtener conclusiones acerca del problema planteado. FÆbrica 1 2 3 4 5 6 7 8 Antes 55 63 90 47 75 90 73 92 DespuØs 52 60 85 49 65 87 67 85 FÆbrica 9 10 11 12 13 14 15 16 Antes 110 33 44 74 60 87 41 15 DespuØs 95 35 47 70 55 75 45 18 Desarrollo del Problema 3.1. Este problema puede resolverse por dos mØtodos distintos pero equivalentes que llevan a las mismas conclusiones. En primer lugar y dado que el factor-tratamiento (plan de seguridad ) solo tiene dos niveles (antes y despuØs de implantar el plan) se puede considerar como un problema de datos apareados. Se calcula la variable diferencia Y dif = Y antes Y despu es ; y se contrasta la hiptesis de que E (Y dif )=0: 1

Upload: phamthien

Post on 30-Dec-2016

226 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Prácticas y problemas de dise^o de experimentos

Capítulo 1

Prácticas y problemas de diseñode experimentos.

1.1. Problemas de diseño de experimentos con ordenador.

Problema 3.1. Datos apareados.�El Ministerio de Trabajo desea saber si un plan de seguridad en el trabajo es efectivo

en la reducción del número de accidentes laborables y por tanto en la pérdida de horas detrabajo debido a accidentes. Para ello se hace un seguimiento en 16 fábricas, observando lashoras de trabajo semanales pérdidas a causa de accidentes, antes y después de implantarel plan de seguridad. Los datos obtenidos son los de la tabla adjunta. Analizar estos datosy obtener conclusiones acerca del problema planteado�.

Fábrica 1 2 3 4 5 6 7 8Antes 55 63 90 47 75 90 73 92

Después 52 60 85 49 65 87 67 85

Fábrica 9 10 11 12 13 14 15 16Antes 110 33 44 74 60 87 41 15

Después 95 35 47 70 55 75 45 18

Desarrollo del Problema 3.1.Este problema puede resolverse por dos métodos distintos pero equivalentes que llevan

a las mismas conclusiones.En primer lugar y dado que el factor-tratamiento (plan de seguridad) solo tiene dos

niveles (antes y después de implantar el plan) se puede considerar como un problema dedatos apareados. Se calcula la variable diferencia

Ydif = Yantes � Ydespu�es;

y se contrasta la hipótesis de que E (Ydif ) = 0:

1

Page 2: Prácticas y problemas de dise^o de experimentos

2 Modelos estadísticos aplicados. Juan Vilar

Con el Statgraphics se utiliza el siguiente módulo

comparacion > dos muestras > comparacion de muestras pareadas

Una vez introducidas las variables Yantes e Ydespu�es; el módulo proporciona resultadosanalíticos y grá�cos acerca de la variable diferencia Ydif . Utilizando el test de la t respectoa la media de una muestra resuelve el contraste H0 : E (Ydif ) = 0:

¿Utilizando directamente los datos de la tabla podría resolverse el problema contras-tando la hipótesis H0 : E (Yantes) = E (Ydespu�es) ; frente a la alternativa de que las mediasson diferentes?

Si se quiere resolver el problema de esta forma ¿cómo se debe recoger la muestra?,¿los resultados obtenidos por ambos procedimientos son iguales?, ¿cuál de los dos proce-dimientos es mejor?

La resolución del problema también puede hacerse por una tabla ANOVA de un modelode diseño de experimentos con un factor tratamiento (plan de seguridad) y un factor-bloque(fábrica). Se siguen los siguientes pasos:

1. Con los datos del problema se crean tres variables de 32 observaciones:

? la variable respuesta Y;

? el factor (plan de seguridad) con dos niveles (antes y después),

? el factor bloque �fábrica� con 16 niveles.

2. Se utiliza el siguiente módulo

comparacion > analisis de la varianza > anova factorial

sin interacción (máximo orden de interacción=1).

Este módulo proporciona un amplio estudio analítico y grá�co para responder alproblema planteado. ¿Cómo son el p � valor del test de la t utilizado en la técnicade datos apareados y el p� valor del test de la F utilizado en la técnica de la tablaANOVA?

¿Es in�uyente la variable bloque �fábrica�? En consecuencia ¿es adecuada la recogidamuestral para la resolución del problema?

3. Finalmente se contrastan las hipótesis básicas estructurales utilizando las técnicasexpuestas en el capítulo anterior.

Problema 3.2. (Diseño de experimentos en bloques completamente aleato-rizados)

�Se ha realizado un diseño de experimentos para estudiar la calidad de las soldaduras,el objetivo es determinar si existen diferencias entre las soldaduras según el elemento desoldadura que se utilice entre tres posibles: níquel, hierro o cobre. Como pueden haber

Page 3: Prácticas y problemas de dise^o de experimentos

Prácticas y problemas de diseño de experimentos. 3

diferencias signi�cativas entre los elementos a soldar se ha utilizado un diseño de bloquescompletamente aleatorizados. Para ello se han utilizado diez lingotes (bloques) y de cadauno de ellos se han soldado dos componentes utilizando los tres tipos de soldadura. Final-mente se mide la fuerza (expresada en 100 libras por pulgada cuadrada) necesaria pararomper la soldadura. Los resultados obtenidos son los de la tabla adjunta. En base a estosdatos estudiar la in�uencia de factor �tipo de soldadura�, ¿cambian los resultados si no setiene en cuenta el bloque �lingote�? �.

B1 B2 B3 B4 B5 B6 B7 B8 B9 B10Níquel 7600 6603 6809 7407 7300 7207 8000 8306 6102 6206

Cobre 7106 7401 7007 7504 6607 6500 7008 7602 6600 7200

Hierro 7604 7304 6907 7407 6002 6102 7107 5700 5805 6603

Desarrollo del Problema 3.2.Se utiliza el siguiente módulo

comparacion > analisis de la varianza > anova factorial

En este módulo al introducir como variable dependiente �resistencia�y los dos factores:el factor-tratamiento tipo de soldadura y el factor-bloque lingote, se obtiene un completoanálisis de la varianza que comprende:

- la tabla ANOVA que permite contrastar la in�uencia de los dos factores;- la tabla de medias que calcula la media de cada nivel de cada uno de los factores, así

como intervalos de con�anza para las mismas;- el test de rangos múltiples que permite obtener los grupos homogéneos en ambos

factores y las diferencias signi�cativas entre las medias de dos niveles de un factor, sepueden utilizar diferentes métodos (LSD, Sche¤é, Tuckey,.. ).

El estudio grá�co que ofrece el módulo es bastante completo:- el grá�co de puntos y el de medias permiten con�rmar gra�camente las conclusiones

que se deducen de la tabla ANOVA,- los tres grá�cos de residuos permiten tener idea aproximada acerca del cumplimiento

de las hipótesis básicas del modelo,- si en el módulo de opciones de analisis se eligen �interacciones de orden 2�, se

obtienen grá�cos de interacciones que pueden dar una idea aproximada acerca de la posibleexistencia o no de interacciones.

También se puede calcular el l test de Tuckey sobre la no existencia de interacciónaunque con un mayor trabajo ya que el paquete no lo calcula directamente.

Como en el análisis de cualquier modelo estadístico se deben guardar los residuos yanalizar el cumplimeinto de las hipótesis básicas estructurales como se indicó en el capítuloanterior. El estudio sobre la heterocedasticidad debe hacerse en relación a cada uno de losdos factores.

Page 4: Prácticas y problemas de dise^o de experimentos

4 Modelos estadísticos aplicados. Juan Vilar

¿Qué ocurre si no se tiene en cuenta el factor-bloque?Se puede repetir el estudio introduciendo solamente el factor tipo de soldadura. Esto

puede hacerse en este módulo o en el siguiente

comparacion > analisis de la varianza > anova simple

Problema 3.3. (Diseño de experimentos de dos factores con interacción).�Se desea analizar el efecto que sobre el tiempo medio de respuesta tienen dos factores:

�la distribución de los �cheros�de las que se consideran tres variantes codi�cadas como F1,F2 y F3; y el �número de bu¤ers del sistema�, también se consideran tres niveles: 10, 20 y30 bu¤ers. Se ha hecho una prueba con cada una de las nueve combinaciones posibles, cadaprueba consistió en observar el sistema un día completo y calcular el tiempo de respuestamedia al compilar un programa en lenguaje C en ese período de tiempo. El experimentose replicó tres veces. Los resultados obtenidos se presentan en la tabla adjunta. En base aestos datos ¿existe in�uencia de alguno de los dos factores en el tiempo de respuesta delsistema informático?, ¿existe interacción entre ambos factores?�

B10 B20 B30

F1207

204

203

200

202

109

108

105

106

B10 B20 B30

F2209

304

303

207

204

205

202

109

203

B10 B20 B30

F3307

304

309

209

304

303

305

304

308

Desarrollo del Problema 3.3.El desarrollo de este problema es análogo al anterior, se utiliza el análisis

comparacion > analisis de la varianza > anova factorial

? Se introduce la variable dependiente �tiempo�y los dos factores ��chero�y �bu¤ers�.? En un primer estudio conviene introducir el factor �réplica�que indica el orden en

el que se repitió el experimento y se estudia el modelo de tres factores sin replicación. Siel modelo se ha replicado correctamente la tabla ANOVA indicará que el factor �réplica�no in�uye.

? En este caso se deshecha el factor �réplica� y se repite el estudio considerando elmodelo de dos factores e interacción entre los dos factores (interacción de orden 2). Seobtienen conclusiones según los resultados obtenidos.

? Se �naliza con el análisis de residuos.

Problema 3.4. (Diseño de experimentos en cuadrado latino).�Se quiere estudiar la e�cacia de cuatro fármacos diferentes (F1, F2, F3 y F4) en el

tratamiento de una enfermedad. Para ello se observa el número de días que tardan encurar enfermos tratados con estos fármacos. Se considera que el factor edad y el factorpeso pueden in�uir en el experimento, por ello se controlan estos factores y se considerancuatro niveles de edad (E1, E2, E3 y E4) y cuatro de peso (P1, P2, P3 y P4). Los resultadosdel experimento diseñado según la técnica del cuadrado latino son los de la tabla adjunta.¿Qué conclusiones se deducen del experimento?�

Page 5: Prácticas y problemas de dise^o de experimentos

Prácticas y problemas de diseño de experimentos. 5

E1 E2 E3 E4P1 10 F1 905 F2 7 F4 1105 F3P2 8 F2 10 F1 805 F3 9 F4P3 7 F3 605 F4 7 F1 8 F2P4 6 F4 5 F3 6 F2 9 F1

Desarrollo del Problema 3.4.Se deben introducir los datos de forma correcta en el �chero, una vez realizado ésto,

se utiliza el análisis anterior, siendo la variable respuesta �tiempo� y los tres factores�peso�, �edad�y �fármaco�. Al calcular la tabla ANOVA si alguno de los factores no essigni�cativo se elimina del modelo y se calcula la nueva tabla ANOVA.

1.2. Problemas resueltos de diseño de experimentos.

Problema 3.5. (Diseño de experimentos con bloques completamente alea-torizados)

�El servicio bibliotecario de una universidad está interesado en un programa paragestionar la localización de un libro en la base de datos. Le ofrecen cinco programas paratal �n: P1, P2, P3, P4, P5. En la universidad se dispone de cuatro tipos de ordenadoresy se desea saber si el tiempo de respuesta de los cinco programas ofertados es el mismo.Para ello se diseña el siguiente experimento: se eligen diez libros al azar y se localizanutilizando los cinco programas y los cuatro tipos de ordenadores. Los tiempos medio derespuesta (en segundos) en cada caso son los de la tabla adjunta.�

Prog.1 Prog.2 Prog.3 Prog.4 Prog.5Ord.1 103 106 005 102 101

Ord.2 202 204 004 200 108

Ord.3 108 107 006 105 103

Ord.4 309 404 200 401 304

Solución al Problema 3.5.Cálculo de las medias condicionadas (según programa y según ordenador)

Prog.1 Prog.2 Prog.3 Prog.4 Prog.5 �yi� �i

Ord.1 103 106 005 102 101 1014 �0082Ord.2 202 204 004 200 108 1076 �0020Ord.3 108 107 006 105 103 1038 �0058Ord.4 309 404 200 401 304 3056 +1060

�y�j 203 20525 00875 202 109 �y�� = 1096P�i = 0

�j 00340 00565 �10085 00240 �00060P�j = 0

Page 6: Prácticas y problemas de dise^o de experimentos

6 Modelos estadísticos aplicados. Juan Vilar

Siendo �i = �yi� � �y�� y �j = �y�j � �y��Factor �la (�) = Factor-bloque ordenador, i = 1; 2; 3; 4:Factor columna (�) = Factor-tratamiento programa, j = 1; 2; 3; 4; 5:Las predicciones de cada tratamiento (casilla) se calculan utilizando

yij = �+ �i + �j = �yi� + �y�j � �y��;

se obtiene

Predicciones Prog.1 Prog.2 Prog.3 Prog.4 Prog.5Ord.1 1048 10705 00055 1038 1008

Ord.2 2010 20325 00675 2000 1070

Ord.3 1072 10945 00295 1062 1032

Ord.4 3090 40125 20475 3080 3050

A partir de esta tabla se calculan los residuos

eij = yij � yij ;

obteniendo la siguiente tabla de residuos

Residuos Prog.1 Prog.2 Prog.3 Prog.4 Prog.5Ord.1 �0018 �00105 00455 �0018 0002

Ord.2 0010 00075 �00275 0000 0010

Ord.3 0008 �00245 00305 �0012 �0002Ord.4 0000 00275 �00475 0030 0010

Observar que la suma de los residuos de cada �la y de cada columna es cero.

Cálculo de las sumas de cuadrados:

scT (�) = scT (ordenador) = 54Xi=1

�2i

= 5�00822 + 00202 + 00582 + 10602

�= 180044:

scT (�) = scT (programa) = 45Xj=1

�j2

= 4�00342 + 005652 + 100852 + 00242 + 00062

�= 60693:

De dondescT = scT (�) + scT (�) = 180044 + 60693 = 240737:

La variabilidad total es

scG =

4Xi=1

5Xj=1

(yij � �y��)2

=�103� 1096

�2+�106� 1096

�2+ : : :+

�401� 1096

�2+�304� 1096

�2= 250688:

Page 7: Prácticas y problemas de dise^o de experimentos

Prácticas y problemas de diseño de experimentos. 7

Una forma alternativa de calcular la variabilidad total (scG) es la siguiente

scG = ns2Y = n

��1

n

Xi

Xjy2ij

�� �y2��

=

0@ 4Xi=1

5Xj=1

y2ij

1A� 20 � 10962:La suma de residuos al cuadrado se obtiene como

scR = scG� scT = 250688� 240737 = 00951:

El valor de scR también se puede calcular directamente

scR =4Xi=1

5Xj=1

e2ij = 00182 + 001052 + : : :+ 00302 + 00102 = 00951

La Tabla ANOVA que se obtiene es la siguiente

Tabla ANOVAEfecto Sum cuad. g.l. Varianza estadíst. F p-valorscT (�) : ordenador. 180044 3 s2� = 6

0015 F� = 75089 00000

scT (�): programa. 60693 4 s2� = 10673 F� = 21

011 00000

scT 240737 7

scR 00951 12 s2R = 00079

scG 250688 19 s2Y = 10352

Contrastes que se deducen de esta tabla son los siguientes:

Sobre la in�uencia del factor-tratamiento programa

H(1)0 : �el factor-tratamiento programa no in�uye�: �i = 0; j = 1; : : : ; 5:

F� =s2�s2R=10673

00079= 21011 � F4;12?) p� val = 00000:

Se rechaza la hipótesis nula de no in�uencia del factor programa.

Sobre la in�uencia del factor-bloque ordenador.

H(2)0 : �el factor-bloque ordenador no in�uye�: �i = 0; i = 1; : : : ; 4:

F� =s2�s2R=60015

00079= 75089 � F3;12?) p� val = 00000:

Se rechaza la hipótesis nula de no in�uencia del factor ordenador. Ha sido conve-niente bloquear.

Page 8: Prácticas y problemas de dise^o de experimentos

8 Modelos estadísticos aplicados. Juan Vilar

Coe�cientes de determinación.- Porcentaje de variabilidad explicada por el factor-tratamiento programa

R2 (�) =scT (�)

scG=180044

250688= 0070243) 700243%:

- Porcentaje de variabilidad explicada por el factor-bloque ordenador

R2 (�) =scT (�)

scG=60693

250688= 0026055) 260055%:

- Porcentaje de variabilidad explicada por el modelo

R2 = R2 (�) +R2 (�) =scT

scG= 0096298) 960298%:

Si no tiene en cuenta el factor-bloque ordenador se obtiene la siguiente tabla ANOVAque se deduce de la anterior

Tabla ANOVA con sólo el factor-tratamiento programa (�)Efecto Sum cuad. g.l. Varianza estadíst. F p-valorscT (�): programa. 60693 4 s2� = 1

0673 F� = 1032 00307

scR 180995 15 s2R = 10266

scG 250688 19 s2Y = 10352

Tener en cuenta que si no utiliza el factor-bloque ordenador, el diseño de experimentoses otro y la muestra recogida diferente. En cualquier caso los resultados del análisis nodeberían variar mucho respecto a los aquí obtenidos.

Al hacer el contraste

H(1)0 : �el factor programa no in�uye�: �i = 0; j = 1; : : : ; 5;

se obtiene

F� =s2�s2R=10673

10266= 1032 2 F4;15?) p� val = 00307

Se acepta la hipótesis nula de no in�uencia del factor programa, en contradicción conlo obtenido anteriormente.

A la vista de lo obtenido en este problema, es fundamental controlar los factoresin�uyentes en la variable respuesta.

Las siguientes grá�cas permiten examinar las hipótesis básicas del modelo:En la Figura 3.1. se observa el grá�co de residuos frente a predicciones.En las Figuras 3.2. y 3.3. se presentan los grá�cos de interacciones por cada uno de los

dos factores. De ellos se deduce la no existencia de interacción entre ambos factores.

Page 9: Prácticas y problemas de dise^o de experimentos

Prácticas y problemas de diseño de experimentos. 9

Figura 3.1. Grá�co de residuos.

Figura 3.2. Grá�co de interacción respecto a programa.

Figura 3.3. Grá�co de interacción respecto a ordenador.

Page 10: Prácticas y problemas de dise^o de experimentos

10 Modelos estadísticos aplicados. Juan Vilar

Intervalos de con�anza al 90% para los parámetros del modelo.

Intervalo de con�anza para la varianza, �2;

(I � 1) (J � 1) s2R�2

� �2(I�1)(J�1) )3 � 4 � 00079

�2� �212

50226 = �212�0005

�� 3 � 4 � 00079

�2� �212

�0095

�= 210026

00948

210026= 00045 � �2 � 00181 = 00948

50226

Intervalo de con�anza para los efectos (ordenador). Se hace para �2:

�2 � N

��2; �

2 I � 1n

�) �2 � �2

sR

rn

I � 1 � t(I�1)(J�1)

) �2 � (�0082)00079

r20

3� t12

) �1078 = �t12�0095

�� �2 � (�0082)

00079

r20

3� t12

�0095

�= 1078

) �2 2 �0082�1078

32068= �0082� 00054 =

��00874;�00766

�:

Intervalo de con�anza para los efectos (programa). Se hace para �3:

�3 � N

��3; �

2J � 1n

�) �3 � �3

sR

rn

J � 1 � t(I�1)(J�1)

) �3 � (�10085)00079

r20

4� t12

) �1078 = �t12�0095

�� �3 � (�10085)

00079

r20

4� t12

�0095

�= 1078

) �3 2 �10085� 00063 =��10148;�10022

�:

Intervalos de con�anza para la diferencia de medias. Se hace para �1 � �3:

(�y�1 � �y�3)� (�1 � �3)sR

rI

2� t(I�1)(J�1) )

10425� (�1 � �3)00079

r4

2� t12

�1078 � 10425� (�1 � �3)00079

r4

2� 1078

(�1 � �3) 2 10425� 00099 = (10326; 10524):

Page 11: Prácticas y problemas de dise^o de experimentos

Prácticas y problemas de diseño de experimentos. 11

Al calcular grupos homogéneos de los ordenadores se obtienen dos grupos:? O1? O3 - O2 -O4

La existencia de estos grupos se puede observar en el grá�co de medias

Figura 3.4. Grá�co de medias de los ordenadores.

Al calcular grupos homogéneos de los programas se obtienen tres grupos:? P3 - P4? P5 - P4? P1 - P2

Esto se observa en el siguiente grá�co de medias de los programas.

Figura 3.5. Grá�co de medias de los programas.

Page 12: Prácticas y problemas de dise^o de experimentos

12 Modelos estadísticos aplicados. Juan Vilar

Problema 3.6. (Diseño de experimentos con dos factores e interacción)�Una empresa dedicada a la fabricación de baterías está interesada en diseñar una

batería que sea relativamente insensible a la temperatura ambiente. Para ello decide probarcon tres materiales distintos: M1, M2, y M3. Para estudiar el efecto del material y latemperatura se diseña el siguiente experimento: utilizando baterías fabricadas con los tresmateriales se observa la duración de las baterías en horas cuando éstas trabajan a tresniveles de temperatura: baja, media y alta. El experimento se replicaba cuatro veces y losresultados obtenidos son los de la tabla adjunta.

Analizar estos datos y estudiar la in�uencia de los factores material y temperatura enel rendimiento de la batería. Conclusiones.�

TemperaturaMaterial Baja Media Alta

M1130 15574 180

34 4080 75

20 7082 58

M2150 188159 126

136 122106 115

25 7058 45

M3138 110168 160

174 120150 139

96 10482 60

Solución al Problema 3.6.El modelo matemático a ajustar es el siguiente

yijk = �+ �i + �j + (��)ij + "ijk

donde �i es el efecto del factor material, i = 1; 2; 3) I = 3

�j es el efecto del factor temperatura, j = 1; 2; 3) J = 3

(��)ij es el efecto de la interacción entre ambos factores.Para estimar estos parámetros se calculan las medias de cada casilla y las medias de

cada �la y cada columna.

Medias�yij� Baja Media Alta �yi��M1 134075 57025 5705 83017

M2 155075 119075 4905 108033

M3 14400 145075 8505 125008

�y�j� 144083 107058 64017 �y��� = 105053

Se calculan los parámetros del modelo utilizando

�i = �yi�� � �y���; �j = �y�j� � �y���; d(��)ij = �yij� � �yi�� � �y�j� + �y���;se obtiene

Page 13: Prácticas y problemas de dise^o de experimentos

Prácticas y problemas de diseño de experimentos. 13

Parámetros del modelod(��)ij Baja Media Alta �i

M1 12028 �27095 15069 �22036M2 8012 9037 �17047 2080

M3 �20038 18062 1078 19055

�j 39030 2005 �41035Se calculan las predicciones a partir de

yij = �+ �i + �j +d(��)ij = �yij�;

se obtiene

Predicciones = Medias casillayij Baja Media AltaM1 134075 57025 5705

M2 155075 119075 4905

M3 14400 145075 8505

Los residuos se calculan como

eijk = yijk � yij ; i; j = 1; 2; 3;

obteniendo

Residuos Baja Media Alta

M1�4075 20025

�60075 45025

�23025 �1702522075 17075

�3705 1205

2405 005

M2�5075 32025

3025 �2907516025 2025

�13075 �4075�2405 2005

805 �405

M3�600 �34002400 1600

28025 �250754025 �6075

1005 1805

�305 �2505

Observar que la suma de residuos de cada casilla vale cero.

Cálculo de las sumas de cuadrados:

scT (�) = scT (material) = 3 � 4 ��220362 + 2082 + 190552

�= 10;683070:

scT (�) = scT (temperatura) = 3 � 4 ��39032 + 20052 + 410352

�= 39;118070:

scT (��) = scT (interacción) = 4 �

0B@ 120282 + 270972 + 150692+

80122 + 90372 + 170472+

200382 + 180622 + 10782

1CA = 9;613078:

scT = scT (�) + scT (�) + scT (��)

= 10;683070 + 39;118070 + 9;613078 = 59;416018:

Page 14: Prácticas y problemas de dise^o de experimentos

14 Modelos estadísticos aplicados. Juan Vilar

scG =

3Xi=1

3Xj=1

4Xk=1

(yijk � �y���)2

= ns2Y = n

��1

n

Xi

Xj

Xky2ijk

�� �y2���

�= 77;64700:

scR = scG+ scT = 77;64700� 59;416018 = 18;23007:

La suma de cuadrados de residuos también se puede calcular directamente

scR =

3Xi=1

3Xj=1

4Xk=1

eijk =

3Xi=1

3Xj=1

4Xk=1

(yijk � yij)2 =

�40752 + 200252 + : : :+ 3052 + 25052

�=

= 18;23007:

Si se utiliza calculadora es más sencillo hacerlo por el método anterior.

La Tabla ANOVA que se obtiene en este problema es la siguiente:

Tabla ANOVAEfecto Sum cuad. g.l. Varianza estadíst. F p-valorscT (�) 10;683070 2 s2� = 5;341

086 7091 00002

scT (�) 39;118070 2 s2� = 19;55904 28097 00000

scT (��) 9;613078 4 s2�� = 2;403044 3056 00019

scT 59;416018 8

scR 18;23007 27 s2R = 6750213 sR = 25

098

scG 77;64700 35 s2Y = 2;218048 sY = 47

010

Los coe�cientes de determinación que se obtienen son

R2 (�) = R2 (material) =scT (�)

scG=10;683070

77;64700= 001376) 13076%:

R2 (�) = R2 (temperatura) =scT (�)

scG=39;118070

77;64700= 005038) 50038%:

R2 (��) = R2 (interacción) =scT (��)

scG=9;613078

77;64700= 001238) 12038%:

R2 =scT

scG= R2 (�) +R2 (�) +R2 (��) =

59;416018

77;64700= 007652) 76052%:

Contrastes que se deducen la tabla ANOVA son los siguientes:

1. Sobre la in�uencia del factor-tratamiento material

Page 15: Prácticas y problemas de dise^o de experimentos

Prácticas y problemas de diseño de experimentos. 15

H(1)0 : �el factor no in�uye�: �i = 0; i = 1; : : : ; 3:

F� =s2�s2R=5;341086

6750213= 7091 � F2;27?) p� val = 00002:

Se rechaza la hipótesis nula de no in�uencia del factor material. Hecho que se observaclaramente en el grá�co de medias del factor material,

Figura 3.6. Grá�co de medias respecto a material.

Figura 3.7. Grá�co de medias respecto a la temperatura.

2. Sobre la in�uencia del factor-tratamiento temperatura

H(2)0 : �el factor temperatura no in�uye�: �i = 0; j = 1; : : : ; 3:

F� =s2�s2R=19;55904

6750213= 28097 � F2;27?) p� val = 00000:

Page 16: Prácticas y problemas de dise^o de experimentos

16 Modelos estadísticos aplicados. Juan Vilar

Se rechaza la hipótesis nula de no in�uencia del factor temperatura. Esto se observaen el grá�co de medias del factor temperatura (Figura 3.7.).

3. Sobre la in�uencia de la interacción de los dos factores.

H(3)0 : �la interacción de los dos factores no in�uye�: (��)ij = 0; i; j = 1; : : : ; 3:

F�� =s2��s2R

=2;403044

6750213= 3056 � F2;27?) p� val = 00019:

Se rechaza la hipótesis nula de no in�uencia de la interacción de los factores paraniveles superiores a 0002. Esto se puede observar en los grá�cos de interacciones (respectoal factor material, Figura 3.8. y respecto al factor temperatura, Figura 3.9.).

Figura 3.8. Grá�co de interacciones respecto a material.

Figura 3.9. Grá�co de interacciones respecto a temperatura.

En la Figura 3.10. se presenta el grá�co de residuos frente a predicciones en el que nose observa ningún problema.

Page 17: Prácticas y problemas de dise^o de experimentos

Prácticas y problemas de diseño de experimentos. 17

Figura 3.10. Grá�co de residuos frente a predicciones.

Problema 3.7. (Diseño de experimentos en cuadrado latino).�Para estudiar el efecto de la iluminación (A=natural, B=muy fuerte, C=escasa) en la

velocidad de lectura se realiza un experimento que consiste en contar el número de palabrasleídas en un minuto en distintos tipos de papel (b=blanco, c=en color, s=satinado) y dife-rente tipografía (g=letra grande, p=letra pequeña, n=normal). Los resultados obtenidosson los de la tabla adjunta.

Analizar estos datos y estudiar la posible in�uencia de los factores iluminación, tiposde papel y diferente tipografía en la variable de interés velocidad de lectura�.

Tipo de papelLetra satinado blanco colorgrande 258 A 230 C 240 Bnormal 235 B 270 A 240 Cpequeña 220 C 225 B 260 A

Solución al Problema 3.7.El modelo matemático-estadístico a ajustar es

yij(k) = �+ �i + �j + �(k) + "ij(k);

donde el factor �la � representa al factor tipo de letra, el factor columna � representa alfactor tipo de papel y el factor letra (cuadrado latino) representa el factor iluminación.Es un modelo con tres factores, cada uno de los cuales tiene tres niveles, se supone que noexisten interacciones entre los factores y puede resolverse con solo 32 = 9 observacionespor medio del diseño fraccional de cuadrado latino.

Se calculan las medias y parámetros del modelo como sigue

�y�� = 242

Page 18: Prácticas y problemas de dise^o de experimentos

18 Modelos estadísticos aplicados. Juan Vilar

Medias y estimaciones�yi�� �i = �yi�� � �y�� �y�j� �j = �y�j� � �y�� �y��k �k = �y��k � �y��

242067 +0067 237067 �4033 262067 +20067

248033 +6033 241067 �0033 233033 �8067235000 �7000 246067 +4066 230000 �12000

A partir de estos valores se calculan las predicciones

yij(k) = �+ �i + �j + �(k); i; j = 1; 2; 3;

obteniendoPredicciones

259000 230033 238067

235033 268067 241000

218067 226000 260033

Los residuos soneij(k) = yij(k) � yij(k); i; j = 1; 2; 3;

se obtiene

Residuos�1000 �0033 1033

�0033 1033 �10001033 �1000 �0033

Cálculo de las sumas de cuadrados

scT (�) = scT (tipo letra) = 3 ��00672 + 60332 + 72

�= 268067:

scT (�) = scT (papel) = 3 ��40332 + 00332 + 40662

�= 122000:

scT ( ) = scT (iluminación) = 3 ��200672 + 80672 + 122

�= 1;938067:

scT = scT (�) + scT (�) + scT (�) =

= 268067 + 122000 + 1;938067 = 2;329034:

La suma de cuadrados total es

scG =3Xi=1

3Xj=1

�yij(k) � �y��

�2= ns2Y = n

��1

n

Xi

Xjy2ij(k)

�� �y2��

�= 2;338

La suma de cuadrados no explicada (residual) es

scR = scG� scT = 2;338� 2;329034 = 8067:

También scR puede calcularse directamente de los residuos

Page 19: Prácticas y problemas de dise^o de experimentos

Prácticas y problemas de diseño de experimentos. 19

scR =

3Xi=1

3Xj=1

e2ij(k) =

3Xi=1

3Xj=1

�yij(k) � yij(k)

�2=

�12 + 00332 + 10332 + 00332 + 10332 + 12 + 10332 + 12 + 00332

�= 8067:

Los coe�cientes de determinación son:

R2 (�) = R2 (tipo letra) =scT (�)

scG=268067

2;338= 001149) 11049%:

R2 (�) = R2 (papel) =scT (�)

scG=122000

2;338= 00522) 5022%:

R2 (�) = R2 (iluminación) =scT (��)

scG=1;938067

2;338= 008292) 82092%:

R2 =sgT

scG= R2 (�) +R2 (�) +R2 (�) =

2;329034

2;338= 009962) 99062%:

La tabla ANOVA que se obtiene es la siguiente

Tabla ANOVAEfecto Sum cuad. g.l. Varianza estadíst. F p-valorscT (�) 268067 2 s2� = 134

033 31 00031

scT (�) 122000 2 s2� = 61000 14008 00066

scT (�) 1;938067 2 s2� = 969033 223069 00004

scT 2;329034 6

scR 8066 2 s2R = 4033 sR = 2

008

scG 2;33800 8 s2Y = 292025 sY = 17

009

De esta tabla se deducen los siguientes contrastes:

1. Sobre la in�uencia del factor tipo de letra.

H(1)0 : �el factor tipo de letra no in�uye�: �i = 0; i = 1; 2; 3:

F� =s2�s2R=134033

4033= 31 � F2;2?) p� val = 00031:

Se rechaza para niveles de � > 00031 (por ejemplo � = 0005) la hipótesis nula de noin�uencia del factor tipo de letra. El grá�co de medias con�rma este hecho.

Page 20: Prácticas y problemas de dise^o de experimentos

20 Modelos estadísticos aplicados. Juan Vilar

Figura 3.11. Grá�co de medias respecto al tipo de letra.

2. Sobre la in�uencia del factor tipo de papel se obtiene,

H(2)0 : �el factor tipo de papel no in�uye�: �i = 0; i = 1; 2; 3:

F� =s2�s2R=61000

4033= 14008 � F2;2?) p� val = 00066:

Se acepta para niveles de � < 00066 (por ejemplo � = 0005) la hipótesis nula de noin�uencia del factor tipo de papel. El grá�co de medias del factor tipo de papel es

Figura 3.11. Grá�co de medias respecto al tipo de papel.

3. Sobre la in�uencia del factor tipo de iluminación, se deduce el siguiente contraste

H(3)0 : �el factor tipo de iluminación no in�uye�: �i = 0; i = 1; 2; 3:

F� =s2�s2R=969033

4033= 233039 � F2;2?) p� val = 00004:

Page 21: Prácticas y problemas de dise^o de experimentos

Prácticas y problemas de diseño de experimentos. 21

Se rechaza para niveles de � > 00004 (por ejemplo � = 0005) la hipótesis nula de noin�uencia del factor tipo de iluminación. Esto puede observarse en el grá�co de medias delfactor

Figura 3.13. Grá�co de medias respecto al tipo de iluminación.

1.3. Problemas propuestos de diseño de experimentos.

Problema 3.8.�Los siguientes datos proporcionan la presión, sistólica y diastólica, de la sangre (en

mm Hg) de 15 pacientes con hipertensión moderada, medidas antes y después de probarun nuevo fármaco. En base a estos datos ¿puede a�rmarse que el nuevo fármaco es efectivopara bajar la tensión arterial?�

.

Sistólica DiastólicaPac Ant Desp Ant Desp1 210 201 130 125

2 169 165 122 121

3 187 166 124 121

4 160 157 104 106

5 167 147 112 101

6 176 145 101 85

7 185 168 121 98

8 206 180 124 105

Sistólica DiastólicaPac Ant Desp Ant Desp9 173 147 115 103

10 146 136 102 98

11 174 151 98 90

12 201 168 119 98

13 198 179 106 110

14 148 129 107 103

15 154 131 100 82

Problema 3.9.

�Una empresa desea contrastar si el lunes es el día de la semana en que se presentanmás bajas por enfermedad común. Para ello, en base a los datos de cinco años, se eligenal azar 10 lunes, 10 martes, 10 miércoles, 10 jueves y 10 viernes, anotando el número debajas durante tales días. Los resultados obtenidos son los de la tabla adjunta

Page 22: Prácticas y problemas de dise^o de experimentos

22 Modelos estadísticos aplicados. Juan Vilar

Muestreo 1Día número de bajas por díaLunes 26 37 22 55 23 38 46 25 25 23

Martes 35 20 28 12 17 17 57 42 25 63

Miércoles 25 40 63 18 62 30 38 23 37 26

Jueves 51 20 30 13 42 28 17 73 25 22

Viernes 30 62 40 15 26 37 52 12 16 25

Un segundo estudio se realizó en base al mismo experimento pero cambiando el esquemadel muestreo, ahora se eligieron al azar diez semanas completas de los cinco años. Losresultados que se obtuvieron son los siguientes:

Muestreo 2Semana (número de bajas por día)

Día S1 S2 S3 S4 S5 S6 S7 S8 S9 S10Lunes 40 32 56 65 18 43 30 51 46 38

Martes 32 51 34 35 23 22 45 35 32 58

Miércoles 42 30 29 30 15 30 42 51 31 26

Jueves 20 32 30 40 21 28 46 36 36 22

Viernes 26 27 27 17 23 37 53 22 15 22

En base a estos datos:

1. Indicar los modelos matemáticos asociados a ambos tipos de muestreo.

2. Calcular en ambos casos la tabla ANOVA. Conclusiones.

3. Utilizando los dos tipos de muestreo ¿existe un día o más en que el número de bajaspor enfermedad común sea signi�cativamente mayor?

4. En ambos casos ¿se veri�can las hipótesis del modelo? En caso negativo, transformarlos datos y recalcular los modelos.

5. Comparar razonadamente ambos esquemas de muestreo. Proponer un modelo demuestreo más adecuado�.

Problema 3.10.�Se realiza un experimento para investigar el proceso de obtención de la penicilina,

siendo la variable de interés la producción obtenida. El estudio se centra en observar losresultados de 4 variantes del proceso básico, denominadas tratamientos A, B, C y D. Sequiere controlar una materia prima importante, el licor de maíz, para ello se utilizan cincomezclas de licor de maíz (bloques) con los que se realiza el experimento. Los resultadosobservados son los de la tabla adjunta. En base a estos datos ¿in�uye la variante delproceso en la producción obtenida? ¿El resultado sería el mismo si no se tiene en cuentael tipo de maíz utilizado?�.

Page 23: Prácticas y problemas de dise^o de experimentos

Prácticas y problemas de diseño de experimentos. 23

TratamientosBloque A B C DMezcla 1 89 88 97 94

Mezcla 2 84 77 92 79

Mezcla 3 81 87 87 85

Mezcla 4 87 92 89 84

Mezcla 5 79 81 80 88

Problema 3.11.�Un experimento consiste en anotar las décimas de segundo que se tarda en parar el

cronómetro después de ponerlo en marcha. Para ello, se inicializa el cronómetro en 0:00:00,se pone en marcha pulsando un botón para, después, pararlo pulsando el mismo botón. Seanota el tiempo que se ha tardado en pararlo, ésto es, el tiempo que aparece indicado enel cronómetro.Con este experimento se desea estudiar la in�uencia en la variable de interés (tiempo quese tarda en detener el cronómetro en décimas de segundo) de dos factores: el tipo de relojutilizado (se han utilizado cuatro relojes: R1, R2, R3 y R4) y de la mano utilizada (derecha(D) o izquierda (I)).Todos los datos de este experimento han sido realizados por una sola persona que ha real-izado cinco réplicas de cada tratamiento. Los datos obtenidos son los de la tabla adjunta.En base a ellos estudiar la in�uencia de los factores y analizar la existencia de interacciónentre los dos factores, ¿veri�can los residuos las hipótesis del modelo?�.

RelojMano R1 R2 R3 R4

Derecha11 1116 1211

10 1820 1713

18 1617 2015

12 1415 1616

Izquierda17 1711 1716

30 2228 2220

21 2522 2326

21 1618 2118

Problema 3.12.�Se ha realizado un experimento para comprobar si existen diferencias signi�cativas

en el tiempo de ejecución entre tres programas que calculan el factorial de un número.También se desea investigar si in�uye en la variable de interés el intervalo al que perteneceel número del que se calcula el factorial.

Los programas utilizados son tres:- Recfact, que calcula el factorial de forma recursiva.- Tailfact, calcula el factorial de usando tail-recursion.- Loopfact, calcula el factorial utilizando un bucle en el que calcula en sucesivas itera-

ciones el producto �nal.

Page 24: Prácticas y problemas de dise^o de experimentos

24 Modelos estadísticos aplicados. Juan Vilar

Los intervalos elegidos para hacer el estudio son de longitud cien unidades: [1,100],[101,200], [201,300], [301,400], [401,500].

En el experimento se generaba para cada uno de los cinco intervalos diez númerosaleatorios (diez réplicas) y para cada número se calculaba el tiempo de ejecución de lostres programas que calculan el factorial.Los datos obtenidos del experimento son los de latabla adjunta.

IntervaloPrograma I.1. I.2. I.3. I.4. I.5.

Recfact

106 709

708 1108

805 405

507 208

802 406

1703 1303

1407 2304

1900 2202

1903 1408

2408 1500

2808 3502

3109 2902

3200 3100

2909 3101

3405 2605

3909 4409

4009 4408

3609 3905

4604 4301

3705 3902

5105 5107

5206 5001

5501 5006

4900 5606

4901 5509

Tailfact

302 1107

1009 1700

107 709

509 1102

601 1109

2105 2804

3606 2709

2505 2106

2200 3208

3405 3405

4603 5106

5206 4307

4300 3905

4706 4408

4604 4708

5809 6800

5509 6502

5906 5501

6002 6705

7002 6109

8506 7401

7606 8407

7802 7906

8305 7508

7706 7401

Loopfact

1007 107

1100 302

708 1107

600 1106

509 1607

3307 2105

2708 2100

2409 2101

3508 2703

1809 3200

4205 4604

4607 4108

5003 4305

3804 4501

4502 5103

5304 5405

5807 6601

6803 6304

5704 5708

6508 6004

7204 7603

7406 7704

8206 7508

7202 8305

7400 8103

Las variables en estudio son:Programa: programa utilizado (1=Recfact, 2=Tailfact, 3=Loopfact)Intervalo: intervalo del que se elegía el número (1,2,3,4, 5).Réplica: réplica del experimento (1,...,10)Tiempo: tiempo de ejecución en cada caso.En base a estos datos,

1. Estudiar de la in�uencia de los tres factores.

2. ¿Qué modelo estadístico se debe utilizar? ¿Se ajusta bien el modelo propuesto alos datos? ¿Existe interacción entre los factores?, en caso a�rmativo interpretar lainteracción.

3. Analizar las hipótesis básicas del modelo.�

Problema 3.13.�Se diseña un experimento para estudiar la in�uencia del �tipo de cinta�(dos niveles)

y del �tipo de impresora�(dos niveles) en la variable �duración de la cinta en horas�. Losdatos se recogen en la tabla adjunta

Page 25: Prácticas y problemas de dise^o de experimentos

Prácticas y problemas de diseño de experimentos. 25

Impresora I 1 Impresora I 2Cinta A Cinta B Cinta A Cinta B1701 1502

1605 1607

1409

1904 1702

1809 2007

2001

1203 1106

1308 1201

1008

1506 1601

1702 1803

1607

En base a estos datos

1. Escribir el modelo matemático asociado al problema y las hipótesis que se suponen.

2. Calcular la tabla ANOVA y obtener los contrastes que se deducen.

3. Si suponemos que la interacción es nula ¿cómo in�uye en la tabla ANOVA? ¿Semodi�can las conclusiones?

4. Calcular un intervalo de con�anza al 90% para la duración media de la cinta con laimpresora I1.�

Problema 3.14.�Se realiza un experimento para estudiar el efecto del tipo de material y el tratamiento

empleado en el desgaste de unas piezas mecánicas. Los datos obtenidos son los de la tablaadjunta. En base a estos datos analizar la in�uencia de los dos factores (diseño anadidadoo jerarquizado)�.

Material A B C D ETratamiento a b a b a b a b a bRéplica 1 23 30 42 45 37 39 41 44 20 24Réplica 2 25 31 44 50 38 39 42 49 25 30

Problema 3.15.�Se realiza un experimento para comparar la energía que se requiere para llevar a

cabo tres actividades físicas: correr, pasear y montar en bicicleta. La variable de interéses Y=�número de kilocalorías consumidas por kilómetro recorrido�. Se cree que las dife-rencias metabólicas entre los individuos puede afectar al número de kilocalorías requeridaspara llevar a cabo una determinada actividad y se quiere controlar esta variable extraña.Para ello se seleccionan ocho individuos al azar y se les pide que hagan las tres actividadesmencionadas. Se mide el número de kilocalorías consumidas por kilómetro obteniendo losdatos de la tabla adjunta. Las actividades se realizan en orden aleatorio con tiempo derecupeación entre una y otra. ¿Puede pensarse que no in�uye la actividad realizada en elnúmero de kilocalorías consumidas?.�

B.1. B.2. B.3. B.4. B.5. B.6. B.7. B.8Correr 104 105 108 107 106 105 107 200

Caminar 101 102 103 103 007 102 101 103

Pedalear 007 008 007 008 001 007 004 006

Page 26: Prácticas y problemas de dise^o de experimentos

26 Modelos estadísticos aplicados. Juan Vilar

Problema 3.16.�Se están investigando los efectos que sobre la resistencia del papel produce el por-

centaje de concentración de �bra de madera (hardwood) en la pulpa, la presión del tanquey el tiempo de cocción de la pulpa. Se seleccionan tres niveles de concentración de maderay de presión, y dos niveles de tiempo de cocción. Por tanto, los factores son: concentraciónporcentual de �bra que se estudia a tres niveles (2, 4 y 8); presión durante el tiempo decocción que se estudia a tres niveles (400, 500 y 650); y tiempo de cocción que se estudiaa dos niveles, 3 y 4 horas.

Se realiza un experimento completamente aleatorizado con dos réplicas y se registranlos datos que se recogen en el �chero problema-3-16.

1. Analizar los datos y obtener conclusiones.

2. Obtener los grá�cos de residuos apropiados y comentar la adecuación del modelo.�