la prueba anova
DESCRIPTION
TRANSCRIPT
Análisis de Varianza (ANOVA)
9. Comparando más de dos medias. Análisis de Varianza.
Objetivos:• Al finalizar esta unidad el estudiante será capaz de:9.1 Describir los elementos estadísticos de un diseño experimental.9.2 Definir el objetivo de un análisis de varianza.9.3 Formular hipótesis adecuadas para las diferentes situaciones.9.4 Describir la distribución de F.9.5 Construir la tabla de análisis de varianza.9.6 Calcular F e interpretar los resultados de la prueba de hipótesis.
Contenidos:9.1 Elementos del diseño de experimentos.9.2 Supuestos para la aplicación del análisis.9.3 Análisis de varianza simple.9.4 Análisis de varianza de dos vías.
SITUACION BASICA
Un factor ( tratamientos) Categórica
Una variable de respuesta: Cuantitativa
Pregunta principal: Las medias de cada grupo difieren o están “afectadas” por el tratamiento?
Número de grupos: El caso particular de dos grupos , utilizamos test de t
Número de grupos: Cuando son más de 2 grupos: Problema de las comparaciones multiples
COMPARACION DE MAS DE DOS MEDIASCOMPARACION DE MAS DE DOS MEDIAS
Cuando se comparan dos medias a nivel de significación ,
la probabilidad de cometer un error de tipo I es
Cuando se comparan de a dos a medias tenemos comparaciones posibles.
P(x=0)=(1-p)^n P(x>0)=1-[(1-p)^n]
Probabilidad de cometer un erro tipo I = 1-[(1-α) ]
Para 5 grupos tenemos 10 comparaciones posibles
Para un = 0,05 :
P(x>0)=1-[(1-0,05)^10]= 0,40
aC2
aC2
Una solución para este problema es la CORRECCION DE BONFERRONI :
aC2'
Suele ser excesivamente severa
En el ejemplo: 005,010
05.0'
HAY OTRAS ALTERNATIVAS: UNA DE ELLAS ES EL
ANALISIS DE LA VARIANZA
2
2
ˆ
ˆ
dentro
entre
s
sFc
bioestadistica
ANOVA (ANalysis Of Variance)ANOVA (ANalysis Of Variance)
FinalidadComparar simultáneamente
varias medias
Modelo I – efectos fijos
ijiijx
x
gruposA B C
A
B
C
Bj
B
Variación total
xBj
iijxiijx
iijiij xxxx xx
iijiiijiij xxxxxxx xxx 2222
ijijij ixijxixijx xx 222
En la población
iij
En la muestra
Elevando al cuadrado:
Sumando:
SC TOTAL SC ENTRE grupos
SC DENTRO de grupos (residual)
ijijij ixijxixijx xx 222
SC TOTAL SC ENTRE grupos
SC DENTRO de grupos (residual)
1
)(ˆ
2
2
a
xx
gl
SCentres ij
ij
entreentre
an
xx
gl
SCdentros ij
iij
dentroresidualodentro
2
2
)(ˆ
Recordar
MEDIAS DE CUADRADOSMEDIAS DE CUADRADOS ESTIMA
MC entre = SC entre/(a-1)a = no de grupos
tamaño medio del grupo
Mod I
MC dentro = SC dentro/(n-a )n = tamaño de la muestra total
1
22
an i
i
2Si Ho es verdadera : MC entre = MC dentro en la población
0::0 iiH α
HIPOTESIS
Modelo I
En general
iiH ::0
in
TEST DE HIPOTESIS
Fcalc = MC entre/ MC dentro
se compara con Ftab (a-1) y (n-a) grados de libertad
Supuestos para la validez del test
Normalidad de
los residuos (ij)Homocedasticidad de los residuos
Independencia de las observaciones
AC B
nT
n
Tentre SC
2
i i
2i n
Ttotal SC2
ij
2ij x
entre SCtotal SCdentro SC
j
ijxTi
ij
ijxT
i
inn
in
Donde: En el i-ésimo grupo
Tamaño del i-ésimo grupo
Gran total
Tamaño total de la muestra
170.0
0.2
0.4
0.0 1.5 3.0 4.5
f (x )
FUENTE DE VARIACION
SUMA DE CUADRADOS
GL MEDIA DE CUADRADOS
Fcalc
ENTRE GRUPOS
SC entre a-1
DENTRO DE GRUPOS
SC dentro n-a
TOTAL SC total n-1
1)(aentre SC
a)(ndentro SC dentro MC
entre MC
El Fcalculado se compara con
el Ftabulado con (a-1) y (n-a) GL
CALCULO DE LAS SUMAS DE CUADRADOS
A B C D
4.4 8.6 3.4 8.9
5.9 4.5 7.3 0.0
6.2 8.4 8.8 1.7
6.3 8.7 0.2
0.1
Ti 22.8 30.2 19.8 10.6 T =83.4
ni 4 4 5 3 n = 16
162.477516283.4597.2total SC
39.108816
283.4
3
210.6
5
219.8
4
230.2
4
222.8entre SC
123.368739.1088162.4775entre SC total SCdentro SC
2.597ij
2ijx
iiH ::0
16 inn
4a
gl numerador (trat-1) gl denominador (n-trat)
FUENTE DE VARIACION
SUMA DE CUADRADOS
GL MEDIA DE CUADRADOS
Fcalc
ENTRE GRUPOS
39.1088 3 13.036 1.27
DENTRO DE GRUPOS
123.3687 12 10.281
TOTAL 162.4775 15F0.95(3, 12)= 3.49
Fcalc menor que Ftab No Se rechaza Ho
las medias no difieren entre sí
3
12
A B C2.6 3.2 2.42.4 3 2.82.9 2.8 2.52.6 2.9 2.72.7 3.3 2.52.9 3.1 2.92.5 3 2.42.8 3.4 2.62.5 3.2 2.23 3.2 2.6
-> trat = A | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- | 10 2.69 .2024846 2.4 3
-> trat = B | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- | 10 3.11 .1852926 2.8 3.4
-> trat = C | Obs Mean Std. Dev. Min Max-------------+-------------------------------------------------------- | 10 2.56 .2065591 2.2 2.9
22
.53
3.5
gan
anci
a d
e pe
so (
kg)
A B C
(30 Preoperative Patients)
Ganancia de Peso por Tratamiento
. oneway x y,b Analysis of Variance Source SS df MS F Prob > F------------------------------------------------------------------------Between groups 1.65266668 2 .826333338 21.01 0.0000 Within groups 1.06200005 27 .039333335------------------------------------------------------------------------ Total 2.71466672 29 .093609197
Bartlett's test for equal variances: chi2(2) = 0.1124 Prob>chi2 = 0.945
Comparison of x by y (Bonferroni)Row Mean-|Col Mean | A B---------+---------------------- B | .42 | 0.000 C | -.13 -.55 | 0.463 0.000
Supuestos del ANOVA
• Observaciones Independientes.
• Distribución Normal.
• Varianzas Homogéneas.
Independencia de las Observaciones
• Con el fin de obtener inferencias válidas, resulta importante determinar si los errores se encuentran correlacionados.
• El supuesto más importante es la independencia de las observaciones, pues si no hubo asignación aleatoria de tratamientos a unidades experimentales, entonces los resultados pueden incluir un efecto persistente de factores no considerados en el análisis. Esto invalida el experimento
Normalidad• No es tan importante como la Independencia de
las Observaciones, pues el ANOVA es robusto. Esto quiere decir que, aunque las observaciones no sean normales, las medias de los tratamientos son aproximadamente normales debido al Teorema Central del Limite.
• Ante la falta de normalidad se puede optar por el uso de transformaciones o, como último recurso, el uso de métodos no paramétricos.
Homogeneidad de varianzas• Esta prueba resulta fundamental, pues cualquier situación
de heterogeneidad de las varianzas invalida las inferencias realizadas.
• Pueden existir grupos muy homogéneos y, en el caso de existir un grupo muy heterogéneo, sería posible no detectar diferencias entre los grupos con varianzas homogéneas por el efecto de la contribución a la varianza de ese grupo heterogéneo.
• Cuando existe el problema de heterogeneidad de varianzas, lo apropiado es emplear transformaciones o métodos no paramétricos.
Análisis de residuos
• Homogeneidad de Varianzas– Bartlett
• Normalidad– Kolmogorov-Smirnov
• Autocorrelación– Durbin-Watson
• Es importante mencionar que el empleo de estadística no paramétrica o el uso de transformaciones no elimina el problema de la falta de aleatoriedad (falta de independencia), es decir, la ejecución incorrecta de un experimento no tiene un remedio en la etapa del análisis.