diseño de experimentos y análisis de la varianza.doc

19
Diseño de experimentos y análisis de la varianza Las técnicas estadísticas del diseño experimental tienen su razón de ser en la investigación empírica que trata de indagar cómo ciertas variables, conocidas como factores, actúan sobre una variable respuesta registrada tras la realización del experimento. Es importante hacer destacar que los factores que influyen sobre el valor de la variable respuesta sólo pueden tomar un número finito de estados o niveles. Los tests básicos en estos modelos se centran en contrastar si los factores realmente alteran los resultados de los experimentos al fijarlos en sus diferentes niveles. La técnica, que consiste en descomponer la variablidad total en las variabilidades aportadas por los diferentes factores y sus interacciones mutuas, recibe el nombre de análisis de la varianza. Cuando los experimentos se realizan combinandos todos los niveles posibles de los factores, hablamos de diseños completos: Diseño unifactorial Diseño bifactorial completo sin réplicas Diseño bifactorial completo con réplicas Si el número de factores y de niveles por factor va aumentando, pronto nos encontraremos en la situación en la que el número de combinaciones se hace muy grande y el experimento impracticable. Surge entonces la necesidad de tomar en consideración tan sólo una parte de todas las posibles combinaciones de niveles y hablamos entonces de diseños incompletos o fraccionales:

Upload: caincastillo

Post on 06-Nov-2015

216 views

Category:

Documents


0 download

TRANSCRIPT

Diseo de experimentos y anlisis de la varianza

Diseo de experimentos y anlisis de la varianza

Las tcnicas estadsticas del diseo experimental tienen su razn de ser en la investigacin emprica que trata de indagar cmo ciertas variables, conocidas como factores, actan sobre una variable respuesta registrada tras la realizacin del experimento.

Es importante hacer destacar que los factores que influyen sobre el valor de la variable respuesta slo pueden tomar un nmero finito de estados o niveles.

Los tests bsicos en estos modelos se centran en contrastar si los factores realmente alteran los resultados de los experimentos al fijarlos en sus diferentes niveles. La tcnica, que consiste en descomponer la variablidad total en las variabilidades aportadas por los diferentes factores y sus interacciones mutuas, recibe el nombre de anlisis de la varianza.

Cuando los experimentos se realizan combinandos todos los niveles posibles de los factores, hablamos de diseos completos:

Diseo unifactorial

Diseo bifactorial completo sin rplicas

Diseo bifactorial completo con rplicas

Si el nmero de factores y de niveles por factor va aumentando, pronto nos encontraremos en la situacin en la que el nmero de combinaciones se hace muy grande y el experimento impracticable. Surge entonces la necesidad de tomar en consideracin tan slo una parte de todas las posibles combinaciones de niveles y hablamos entonces de diseos incompletos o fraccionales:

Cuadrado latino de orden 4

Cuadrado latino de orden 5

Diseo unifactorial

El diseo unifactorial se utiliza cuando ciertas observaciones sufren la influencia de cierto factor a, el cual se puede presentar en T niveles diferentes, de forma que para cada uno de ellos se realizan muestras independientes de tamao ni, con i= 1, 2, ..., T, siendo

el tamao muestral total.

Los datos se presentan en la forma

siendo yij la j-sima observacin realizada bajo el i-simo nivel del factor.

El modelo que se ajusta es

yi j = ai + ui j,

siendo ai los coeficientes asociados a sus respectivos niveles y ui j los errores aleatorios independientes, distribuidos normalmente, con media nula y varianza comn .

El modelo propuesto incorpora ciertos parmetros que es necesario estimar:

Los coeficientes ai, medias asociadas a los diferentes niveles, cuyos estimadores son de la forma

La varianza comn , cuyo estimador insesgado es la varianza residual:

A la vista de los datos, es importante estudiar si los T niveles son todos ellos equivalentes o, al contrario, existen diferencias entre ellos. Formalmente, esto se reduce a contrastar la hiptesis nula:

H0: "el factor no acta sobre la variable respuesta: ai= 0, para todo i"

frente a la alternativa:

H1: "el factor acta sobre la respuesta: algunos ai no se anulan".

Definiendo

el estadstico para este contraste es

que se distribuye segn una FT-1, n-T de Snedecor. El contraste se realiza con un nivel de significacin del 5%.

CasoEn un tratamiento contra la hipertensin se seleccionaron 40 enfermos de caractersticas similares. A cada enfermo se le administr uno de los frmacos P, A, B, AB, al azar, formando 4 grupos de 10. El grupo P tom placebo (frmaco inocuo), el grupo A tom un frmaco "A", el grupo B un frmaco "B" y el grupo AB una asociacin entre "A" y "B". Para valorar la eficacia de los tratamientos, se registr el descenso de la presin diastlica desde el estado basal (inicio del tratamiento) hasta el estado al cabo de una semana de tratamiento. Los resultados, despus de registrarse algunos abandonos, fueron los siguientes:

P:10,0,15,-20,0,15,-5

A:20,25,33,25,30,18,27,0,35,20

B:15,10,25,30,15,35,25,22,11,25

AB:10,5,-5,15,20,20,0,10

Interesa saber si existen diferencias significativas entre los cuatro tratamientos.

Sin ms que observar las medias de los tratamientos, (2.1, 23.3, 21.3 y 9.4), ya se aprecia la no equivalencia entre ellos; esta impresin se ratifica objetivamente al observar que el valor del estadstico de contraste A alcanza un valor de 8.526169, cantidad suficientemente grande como para rechazar la hiptesis nula de igualdad de medias con un nivel de significacin del 5%. (Fuente: C. M. Cuadras. Problemas de Probabilidades y Estadstica. PPU, Barcelona.) Diseo bifactorial completo sin rplicas

Ciertas observaciones se suponen influenciadas por dos factores diferentes, a y b, admitiendo el primero k niveles diferentes y n el segundo. Para cada una de las k n combinaciones posibles de ambos factores se realiza una nica observacin, obtenindose una matriz de resultados de la forma

( (y1 1 ,y1 2 ,... ,y1 n),

(y2 1 ,y2 2 ,... ,y2 n),

... ... ... ...

(yk 1 ,yk 2 ,... ,yk n) )

donde yij es el valor observado en la variable respuesta al aplicar el i-simo nivel de a, factor fila, y el j-simo de b, factor columna.

El modelo que se ajusta es

yi j = m + ai + bj + ui j,

siendo m la media global, ai y bj los coeficientes asociados a sus respectivos niveles y ui j los errores aleatorios independientes, distribuidos normalmente, con media nula y varianza comn .

Hiptesis adicionales son:

y que ambos factores actan independientemente, sin interaccin alguna que afecte el comportamiento de la variable respuesta yij. En caso de sospechar interaccin, acudir al diseo bifactorial con rplicas.

El modelo propuesto incorpora ciertos parmetros que es necesario estimar:

La media global m, cuyo estimador es

Los coeficientes ai asociados al factor fila:

Los coeficientes bj asociados al factor columna:

La varianza comn , cuyo estimador insesgado es la varianza residual:

Los contrastes de inters se reducen a chequear si realmente las respuestas se ven influenciadas por los factores fila y columna, a y b.

En el primer caso, la hiptesis nula es

H0a: "el efecto fila es nulo: ai= 0, para todo i"

frente a la alternativa:

H1a: "alguno de los niveles del efecto fila no es nulo".

El estadstico de contraste es

que se distribuye como una Fk-1, (k-1)(n-1) de Snedecor.

Por otro lado, para contrastar si existe efecto columna, se plantea la hiptesis nula

H0b: "el efecto columna es nulo: bj= 0, para todo j"

frente a la alternativa:

H1b: "alguno de los niveles del efecto columna no es nulo".

El estadstico de contraste en este caso es

que se distribuye como una Fn-1, (k-1)(n-1) de Snedecor.

CasoClasificados los pacientes en tres grupos (G1, G2 y G3), se han seleccionado al azar dentro de cada grupo cuatro individuos y se les ha suministrado cuatro medicamentos diferentes (M1, M2, M3 y M4), midindose para cada combinacin paciente/medicamento cierta variable indicadora de la mejora experimentada por el paciente:

M1M2M3M4

G115182020

G21081215

G317152022

Se quiere saber si los pacientes de cada grupo responden de igual manera a los tratamientos y si existen diferencias entre las efectividades de los medicamentos.

Los coeficientes asociados a los grupos de pacientes son 2.25, -4.75 y 2.5, dando a entender que el grupo G2 parece responder peor durante la experiencia. En cuanto a los medicamentos, los dos primeros son menos efectivos al tener coeficientes negativos (-2.00 y -2.33). Esto sugiere que efectivamente tanto la pertenencia a los grupos de enfermos como el medicamento suministrado actan sobre la mejora de los pacientes; tal conclusin se ve ratificada por los dos contrastes de nulidad de los factores, ya que ambos rechazan las hiptesis nulas con niveles de significacin del 5%. Diseo bifactorial completo con rplicas

Ciertas observaciones se suponen influenciadas por dos factores diferentes, a y b, admitiendo el primero k niveles y n el segundo. Para cada una de las k n combinaciones posibles de ambos factores se realizan p observaciones, obtenindose una matriz de resultados de la forma

donde yijr es el valor observado en la r-sima rplica realizada al aplicar el i-simo nivel de a, factor fila, y el j-simo de b, factor columna.

El modelo que se ajusta es

yi j r = m + ai + bj + (ab)i j + ui j r ,

siendo m la media global, ai y bj los coeficientes asociados a sus respectivos niveles, (ab)i j las interacciones y ui j r los errores aleatorios independientes, distribuidos normalmente, con media nula y varianza comn .

Hiptesis adicionales son:

El modelo propuesto incorpora ciertos parmetros que es necesario estimar:

La media global m, cuyo estimador es

Los coeficientes ai asociados al factor alfa:

Los coeficientes bj asociados al factor beta:

Los coeficientes (ab)i j asociados a las interacciones entre los factores:

La varianza comn , cuyo estimador insesgado es la varianza residual:

Los contrastes de inters se reducen a chequear si realmente las respuestas se ven influenciadas por los efectos a y b, as como de sus interacciones.

En el primer caso, la hiptesis nula es

H0a: "el efecto fila es nulo: ai= 0, para todo i"

frente a la alternativa:

H1a: "alguno de los niveles del efecto a no es nulo".

El estadstico de contraste es

que se distribuye como una Fk-1, kn(p-1) de Snedecor.

Para contrastar si acta el efecto b, se plantea la hiptesis nula

H0b: "el efecto columna es nulo: bj= 0, para todo j"

frente a la alternativa:

H1b: "alguno de los niveles del efecto b no es nulo".

El estadstico de contraste en este caso es

que tiene distribucin Fn-1, kn(p-1) de Snedecor.

Finalmente, para averiguar si los efectos interactan, se plantea el contraste

H0i: "no existen interacciones entre a y b: (ab)i j= 0, para cualesquiera i y j"

frente a la alternativa:

H1i: "algunos de los niveles interactan".

El estadstico de contraste es

que se distribuye como una F(k-1)(n-1), kn(p-1) de Snedecor.

CasoSe desea comparar tres genotipos distintos de Drosophila Melanogaster, observando si existen diferencias de viabilidad sembrando 100 y 800 huevos. De este modo, para cada una de las seis casillas del experimento (2 siembras y 3 genotipos) se dispusieron seis preparados (6 rplicas) y al cabo de un tiempo suficiente de ser sembrados los huevos, se obtuvo el porcentaje de huevos que haban eclosionado. Los resultados obtenidos despus de transformarlos para obtener normalidad fueron:

+ ++ -- -

100 huevos(74.7, 75.8, 74.7,71.6, 74.7, 68)(77.8, 66, 73.6,74.1, 64.9, 65.3)(73.6, 72.5, 71.6,77.1, 66.4, 62)

800 huevos(65.9, 69.4, 64.8,63.5, 63.1, 44.7)(66.4, 66.7, 61.3,54.9, 56.2, 70.1)(67.5, 71, 67.5,69.2, 46.1, 61.3)

Se quiere saber si las siembras de 100 y 800 huevos (factor alfa de 2 niveles) se diferencian en cuanto a viabilidad, as como los genotipos ++, +- y -- (factor beta de 3 niveles); finalmente, se quiere estudiar si existe interaccin entre genotipo y nmero de huevos sembrados.

A la vista de las estimaciones de los coeficientes, parece que en los cultivos de 100 huevos hay un mayor porcentaje de eclosiones (alfa1=4.3) frente a los cultivos de 800 huevos (alfa2=-4.3). Esta idea se confirma prestando atencin a los resultados de los contrastes: la hiptesis nula de no influencia del nmero de huevos se rechaza al nivel del 5%; por otro lado, ni la pertenencia de los individuos a los diferentes genotipos ni las interacciones entre los dos factores son significativas, por lo que las respectivas hiptesis nulas se aceptan al nivel del 5%. (Fuente: C. M. Cuadras (1982) Problemas de probabilidades y estadstica II. Promociones Publicaciones Universitarias, BarcelonaCuadrado latino de orden 4

El diseo basado en cuadrados latinos de orden cuatro se utiliza cuando el nmero de factores es tres y todos ellos tienen exactamente n = 4 niveles.

Se trata de un diseo fraccional porque no es necesario ensayar durante la fase experimental las 43 = 64 combinaciones posibles de los niveles de los tres factores, siendo suficiente utilizar nicamente 42 = 16 de ellas. En consecuencia, este diseo se hace especialmente til cuando el nmero de niveles hace impracticable o encarece un diseo completo.

Un cuadrado latino de orden 4 es una disposicin de cuatro smbolos diferentes en un cuadrado 4x4, de manera que cada uno de ellos aparezca una sola vez en cada fila y en cada columna:

b1b2b3b4

a1c1c2c3c4

a2c3c4c1c2

a3c4c3c2c1

a4c2c1c4c3

En el esquema anterior, las filas estn etiquetadas con los smbolos a1, a2, a3 y a4, representando los cuatro niveles diferentes del factor fila; a su vez, cada columna va encabezada con los smbolos b1, b2, b3 y b4, asociados a los cuatro niveles del factor columna. Finalmente, cada una de las 16 casillas estn marcadas con c1, c2, c3 y c4, formando un cuadrado latino y representando los cuatro niveles del factor casilla o tratamiento.

Los datos muestrales se guardan en una matriz de la forma

( (y1 1 (1) ,y1 2 (2) ,y1 3 (3) ,y1 4 (4)),

(y2 1 (3) ,y2 2 (4) ,y2 3 (1) ,y2 4 (2)),

(y3 1 (4) ,y3 2 (3) ,y3 3 (2) ,y3 4 (1)),

(y4 1 (2) ,y4 2 (1) ,y4 3 (4) ,y4 4 (3)) )

siendo yi j (k) el resultado experimental al combinar el nivel ai del primer factor, con el bj del segundo y el ck del tercer y ltimo factor. Obsrvese que no se ensayan durante la fase experimental algunas de las combinaciones posibles, como la (a2, b3, c3) o la (a3, b1, c2), razn por la cual recibe este diseo el apelativo de fraccional.

El modelo formal es aditivo sin interacciones:

yi j (k) = m + ai + bj + c(k) + ui j (k),

siendo m la media general, ai, bj y c(k) los coeficientes asociados a sus respectivos niveles y ui j (k) los errores aleatorios independientes, distribuidos normalmente, con media nula y varianza comn . Hiptesis adicionales son:

Para asegurar aleatoriedad y disminuir sesgos, los cuatro niveles de cada factor debe asignarse aleatoriamente a cada fila, columna y casilla.

Llamando yi j (k) al valor de la casilla situada en la fila i y en la columna j y haciendo n = 4, se defienen:

con los que podemos dar los estimadores de los coeficientes del modelo:

Por ltimo, la varianza residual o estimador insesgado de viene dado por

El objetivo del experimento es investigar hasta qu punto los factores intervienen en las respuestas observadas yi j (k). As se plantean los tres contrastes siguientes.

En el primer caso, la hiptesis nula es

H0a: "el efecto fila es nulo: ai = 0, para todo i"

frente a la alternativa:

H1a: "alguno de los niveles del efecto fila no es nulo".

El estadstico de contraste es

que se distribuye como una Fn-1, (n-1)(n-2) de Snedecor.

Por otro lado, para contrastar si existe efecto columna, se plantea la hiptesis nula

H0b: "el efecto columna es nulo: bj = 0, para todo j"

frente a la alternativa:

H1b: "alguno de los niveles del efecto columna no es nulo".

El estadstico de contraste en este caso es

que se distribuye como una Fn-1, (n-1)(n-2) de Snedecor.

Y ya para terminar, para contrastar si existe en las casillas o tratamientos, se plantea la hiptesis nula

H0c: "el efecto casilla es nulo: c(k) = 0, para todo k"

frente a la alternativa:

H1c: "alguno de los niveles del efecto casilla no es nulo".

El estadstico de contraste en este caso es

que se distribuye como una Fn-1, (n-1)(n-2) de Snedecor.

CasoPara comparar cuatro variedades de avena se dividi una finca en 16 parcelas y se dispusieron las variedades de acuerdo con un diseo de cuadrado latino. La produccin ha sido la siguiente:

c1=12c2=18c3=15c4=20

c3=17c4=22c1=13c2=14

c4=24c3=14c2=20c1=12

c2=12c1=15c4=31c3=18

Se quiere saber si hay diferencias entre filas, entre columnas y entre variedades.

Puesto que no se rechazan las hiptesis nulas H0a ni H0b , se concluye que las localizaciones de los cultivos no inciden sobre la produccin. En cambio s lo hace la variedad plantada, ya que se rechaza H0c , que es la hiptesis nula asociada al tratamiento o variedad. Cuadrado latino de orden 5

El diseo basado en cuadrados latinos de orden cinco se utiliza cuando el nmero de factores es tres y todos ellos tienen exactamente n = 5 niveles.

Se trata de un diseo fraccional porque no es necesario ensayar durante la fase experimental las 53 = 125 combinaciones posibles de los niveles de los tres factores, siendo suficiente utilizar nicamente 52 = 25 de ellas. En consecuencia, este diseo se hace especialmente til cuando el nmero de niveles hace impracticable o encarece un diseo completo.

Un cuadrado latino de orden 5 es una disposicin de cinco smbolos diferentes en un cuadrado 5x5, de manera que cada uno de ellos aparezca una sola vez en cada fila y en cada columna:

b1b2b3b4b5

a1c1c2c3c4c5

a2c3c4c1c5c2

a3c4c1c5c2c3

a4c2c5c4c3c1

a5c5c3c2c1c4

En el esquema anterior, las filas estn etiquetadas con los smbolos a1, a2, a3, a4 y a5, representando los cuatro niveles diferentes del factor fila; a su vez, cada columna va encabezada con los smbolos b1, b2, b3, b4 y b5, asociados a los cuatro niveles del factor columna. Finalmente, cada una de las 25 casillas estn marcadas con c1, c2, c3, c4 y c5, formando un cuadrado latino y representando los cinco niveles del factor casilla o tratamiento.

Los datos muestrales se guardan en una matriz de la forma

( (y1 1 (1) ,y1 2 (2) ,y1 3 (3) ,y1 4 (4) ,y1 5 (5)),

(y2 1 (3) ,y2 2 (4) ,y2 3 (1) ,y2 4 (5) ,y2 5 (2)),

(y3 1 (4) ,y3 2 (1) ,y3 3 (5) ,y3 4 (2) ,y3 5 (3)),

(y4 1 (2) ,y4 2 (5) ,y4 3 (4) ,y4 4 (3) ,y4 5 (1)),

(y5 1 (5) ,y5 2 (3) ,y5 3 (2) ,y5 4 (1) ,y5 5 (4)) )

siendo yi j (k) el resultado experimental al combinar el nivel ai del primer factor, con el bj del segundo y el ck del tercer y ltimo factor.

El modelo formal es aditivo sin interacciones:

yi j (k) = m + ai + bj + c(k) + ui j (k),

siendo m la media general, ai, bj y c(k) los coeficientes asociados a sus respectivos niveles y ui j (k) los errores aleatorios independientes, distribuidos normalmente, con media nula y varianza comn . Hiptesis adicionales son:

Para asegurar aleatoriedad y disminuir sesgos, los cinco niveles de cada factor debe asignarse aleatoriamente a cada fila, columna y casilla.

Llamando yi j (k) al valor de la casilla situada en la fila i y en la columna j y haciendo n = 5, se defienen:

con los que podemos dar los estimadores de los coeficientes del modelo:

Por ltimo, la varianza residual o estimador insesgado de viene dado por

El objetivo del experimento es investigar hasta qu punto los factores intervienen en las respuestas observadas yi j (k). As se plantean los tres contrastes siguientes.

En el primer caso, la hiptesis nula es

H0a: "el efecto fila es nulo: ai = 0, para todo i"

frente a la alternativa:

H1a: "alguno de los niveles del efecto fila no es nulo".

El estadstico de contraste es

que se distribuye como una Fn-1, (n-1)(n-2) de Snedecor.

Por otro lado, para contrastar si existe efecto columna, se plantea la hiptesis nula

H0b: "el efecto columna es nulo: bj = 0, para todo j"

frente a la alternativa:

H1b: "alguno de los niveles del efecto columna no es nulo".

El estadstico de contraste en este caso es

que se distribuye como una Fn-1, (n-1)(n-2) de Snedecor.

Y ya para terminar, para contrastar si existe en las casillas o tratamientos, se plantea la hiptesis nula

H0c: "el efecto casilla es nulo: c(k) = 0, para todo k"

frente a la alternativa:

H1c: "alguno de los niveles del efecto casilla no es nulo".

El estadstico de contraste en este caso es

que se distribuye como una Fn-1, (n-1)(n-2) de Snedecor.

CasoSe ha asegurado que cualquier estmulo (auditivo, olfatorio, tctil) produce cambios en la sensibilidad de un ojo humano adaptado a la oscuridad. Para investigar si tal cosa es cierta, se dise una experiencia de cuadrado latino consistente en someter a cinco sujetos (factor fila) durante cinco das consecutivos (factor casilla) a cinco estmulos diferentes (factor columna con niveles: ningn estmulo, sonido fuerte, sonido dbil, presin grande y presin pequea) una vez sus ojos se haban adaptado a la oscuridad. Los resultados registrados son sus sensibilidades a la prueba de bajo contraste de Luckiesh-Moss. Por ejemplo, el dato c1=14 de la tercera fila y segunda columna indica que el sujeto nmero 3 obtuvo en el primer da de la prueba la puntuacin 14 tras habrsele estimulado con un sonido fuerte.

c1=22c2=21c3=22c4=20c5=22

c3=23c4=22c1=16c5=23c2=19

c4=20c1=14c5=14c2=23c3=24

c2=28c5=29c4=24c3=24c1=24

c5=13c3=16c2=15c1=14c4=15

Se quiere contrastar con un nivel de significacin del 5% la hiptesis de que los estmulos auditivos y tctiles tienen todos ellos el mismo efecto que la ausencia de estmulo.

El prueba que interesa es H0b, que contrasta la igualdad de los niveles del factor columna, que es el correspondiente a los diferentes estmulos, incluido la falta del mismo. Puesto que no hay evidencia de que sus influencias son significativas al nivel del 5%, no podemos decir que los estmulos considerados acten sobre la sensibilidad del ojo. Sin embargo, el contraste de H0a, asociado al factor fila o individuo, se rechaza al mismo nivel del 5%, lo que sugiere que las diferencias observadas se explican por las diferentes capacidades de reaccin de diferentes personas. (Fuente: A. Chapanis, R. Rouse, S. Schachter (1949)The Effect of Inter-Sensory Stimulation on Dark Adaptation and Night Vision. Journal of Experimental Psychology, 39, 425-437.)