técnicas estadísticas paramétricas univariantes: anova y su familia fernando tuya, investigador...
TRANSCRIPT
![Page 1: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/1.jpg)
Técnicas estadísticas paramétricas univariantes: ANOVA y su familia
Fernando Tuya, Investigador I3Universidad de Las Palmas de G.C.
www.fernandotuya.org
![Page 2: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/2.jpg)
2
ANOVAConocer el efecto de un factor categórico sobre una variable continua ¿diferencias entre los niveles de distintas variables categóricas causan diferencias sign. sobre la variable respuesta/dependiente?
Ej. 1 factor con 4 niveles y medimos respuesta Y en n réplicas para cada nivel del factor; ¿Son las medias diferentes entre los 4 tratamientos?
Y
X (categorías/grupos/tratamientos)
µ1
µ2
µ3µ4
![Page 3: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/3.jpg)
3
ANOVA: comparamos medias entre categorías /grupos/tratamientos
Ho: µ1 = µ2 = µiH1: µ1 = µ2 ≠ µi (al menos una diferencia entre grupos)
Ej: Hay diferencias en el rendimiento (variable continua, dependiente) entre 4 grupos sometidos a
distintos niveles de entrenamiento (factor o variable categórica)
T-student (caso más sencillo): comparamos medias entre 2 categorías /grupos
Ho: µ1 = µ2H1: µ1 ≠ µ2
![Page 4: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/4.jpg)
4
IDEA GENERAL: ANOVA parte la varianza ( = variabilidad) total = toda la variabilidad debida a los factores que contrastamos y un término residual (“cajón desastre”) que incluye todos aquellos factores, variables q influyen a la variabilidad natural dentro de los grupos, pero q decidí no contrastar (“ruido”)
Var total = Var entre grupos + Var dentro de grupos (residual)
Idea conceptual: comparar ambas fuentes de variabilidad Si Var entre grupos > Var residual – diferencias entre grupos son importantes; evidencia para rechazar Ho; es decir, mi factore(s) son importantes
Si Var entre grupos < Var residual – diferencias entre grupos NO son importantes; evidencia para no rechazar Ho, mi factore(s) NO son importantes
![Page 5: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/5.jpg)
5
Var entre grupos/Var residual
0-1 si Var entre grupos < Var residual
> 1 si Var entre grupos > Var residual
Idea para construir el estadístico¡¡¡ (F-ratios = cociente: variabilidad entre grupos/variabilidad dentro de grupos)
![Page 6: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/6.jpg)
6
Lenguaje del ANOVA: Funcionamiento del ANOVA-I
Como hemos visto: ANOVA estima 2 fuentes de variabilidad y compara sus tamaños
Fuente de variación Suma de cuadrados
Grados libertad
Cuadrados medios
F-ratio P-valor
Entre grupos = niveles SS g a-1 SS g/df
Dentro de grupos (Residual)
SS res n-1 SS res/df
Total SS tot an -1
F-ratio = Var entre grupos/Var dentro grupos
![Page 7: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/7.jpg)
CMa
F = -----------CMw
Fuentes de variación Suma de cuadrados (SS)
Entre muestras(entre grupos)
Dentro muestras(dentro grupos)
Total
å å (Xij- Xi)2
å å ( Xi-X)2
å å (Xij- X)2
g.l. (d.f.)
k-1
k (n -1)
(k n ) -1
Cuadrados medios (MS)
SCa / k-1
SCw / k (n-1)
SCt /( kn)-1
El nombre de ANOVA procede de la utilización de la comparación de las varianzas para determinar si aceptamos la hipótesis de igualdad de medias: medias = supone = varianzas y si las medias son ≠, la varianza entre los tratamientos es > que el error (dentro de muestras).
Lenguaje del ANOVA: Funcionamiento del ANOVA-I
![Page 8: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/8.jpg)
8
Vamos a complicar la cosa….más de un factor
Precisamente, es lo q hace de ANOVA una técnica muy empleada
![Page 9: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/9.jpg)
9
Efectos principales (efecto independiente y aditivo de cada factor; promediando el efecto del otro u otros factores)
Interacción (efecto interactivo entre factores; es decir, si las diferencias que A causa sobre Y varían en función de los niveles de B)
Precisamos de un estadístico para cada término para testar (contrastar) su significancia
ANOVA-2: modelo lineal de fuentes de variación
Yijk = µ + Ai + Bj + ABij + Residual k(ij)
![Page 10: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/10.jpg)
10
Variación total
ANOVA-2 parte la variabilidad
Variación debida al factor A
Variación residualVariación debida a la interacción A x B
• SSE
• SSFA +
SSAB +
SST =
Variación debida al factor B
SSFB +
![Page 11: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/11.jpg)
11
Yijkl = µ + Ai + Bj + Ck + ABij + ACik + BCjk + ABCijk + Residual l(kij)
ANOVA-3 y así sucesivamente…
En teoría no hay limitación, en la práctica la cosa se complica: recomiendo análisis fáciles al principio, ya tendrás tiempo de complicarlo¡
![Page 12: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/12.jpg)
12
La significancia de todo término F ratio =MS numerador/MS denominador; si F está cercano a 0-1 = no hay efecto significativo del factor; si F=↑ hay efecto.
df SS MS F-ratio P
A a-1 Ssa Ssa/dfa MS A/MS denominador
B b-1 SSb Ssb/dfb MS B/MS denominador
A x B (a-1)(b-1) Ssab Ssab/dfab MS AB/MS denominador
Residual ab(n-1) Ssred Ssres/dfresTotal abn-1
ANOVA-2: “su lenguaje”
![Page 13: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/13.jpg)
13
La gran ventaja de ANOVA es precisamente el q podamos contrastar el efecto de las interacciones en diseños multifactoriales (incluyen muchos factores); además de los efectos principales (efectos aditivos): es decir, si el efecto de un factor depende del otro¡…¿Por qué son tan importantes las interacciones?
Interacciones: sinergias, antagonismo vs. efectos aditivos. Es decir, las interacciones cuantifican si los tratamientos actúan aditivamente, sinergísticamente o antagonísticamente.
…se lo muestro con un ej.
¿Influye el recibir fisioterapia en el número de lesiones de corredores? ¿Depende del nivel de intensidad, p.e. élite, sub-élite y amateurs?
¿Y todo este rollo de las interacciones?
![Page 14: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/14.jpg)
14
Tests a posteriori
Test de todos los posibles pares de medias: SNK, Tukey, etc.–”cada maestrillo su librillo” (nosotros ya veremos los nuestros en las prácticas)
¿Pq? - ANOVA te dice q hay diferencias pero no entre quién (e.g. entre qué niveles)
Student-Newman-Keuls (SNK)extensión secuencial del t-test
![Page 15: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/15.jpg)
Incrementar la probabilidad de cometer error de Tipo I
Ho: µ1 = µ2 = µ3
Ho: µ1 = µ2µ1 = µ3µ2 = µ3
a = 0.05
a = 0.05
a = 0.05
a = 0.05
a total = 0.15
Tests a posteriori: “problemilla”
“Inflamos” error Tipo I
Solución: aunque podemos aplicar ajuste (corrección de Bonferroni), una decisión salomónica es reducir α de 0.05 a 0.01
![Page 16: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/16.jpg)
16
Asunciones del ANOVA: test paramétricos
Homogeneidad de varianzas (entre niveles/tratamientos). Hay batería de Tests: Cochran’s, Levene’s . Si no hay: ↑ error tipo I
Peligro¡¡
![Page 17: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/17.jpg)
17
Asunciones del ANOVA
Normalidad (recuerda si n> 30- Teorema Central del Límite - no problema. Realmente, es la asunción menos estricta: ANOVA (diseños balanceados) es robusta a desviaciones de la normalidad
· Independencia Si no hay independencia: muestras son muy similares; error residual pequeño y consecuentemente ↑ error tipo I. En el planteamiento del experimento está la solución: problema biológico no estadístico
![Page 18: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/18.jpg)
18
¿Qué hago si se violan las asunciones del ANOVA
(2) Trasforma datos: raíz, log, doble raíz, arc-sen
(3) Si la trasformación no funciona, pero diseño es balanceado y n> 30 – corre ANOVA y aumenta el nivel de confianza. Juega con el nivel de significación (α); de 0.05 a 0.01; aumentamos nuestra confianza de un 95 a un 99% y así reduzco la P(error tipo I)
(4) Si la trasformación no funciona, pero el diseño es pequeño – alternativa no paramétrica (e.g. K-W, Wilcoxon) –los vemos en Rcom.
(1) “outliers” como causa de la violación de las asunciones; si datos siguen distribución bimodal puedes dividir los datos en 2 niveles
![Page 19: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/19.jpg)
Transformación de datos
Raíz cuadrada
•Poblaciones que siguen una distribución de Poisson: medias y varianzas son iguales
Ö X + 1
![Page 20: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/20.jpg)
Logarítmo
•Muestreos con valores muy altos: medias mayores y varianza mucho mayores (distribución log-normal)
•Medidas de tasas, concentraciones, relaciones,...
•Independiente del tipo de logaritmo usado
•Sumar una constante (1) para aplicar logaritmos por los valores que son 0
log (X+1)Transformación de datos
![Page 21: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/21.jpg)
Arcoseno
•Porcentajes y proporciones (distribución binomial)
•Ej. Porcentaje de cobertura algal
sen-1 Ö X
Transformación de datos
![Page 22: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/22.jpg)
22
Corolario
Procura diseños con n alto y distribución balanceada de muestras
Toma extra muestras
Fuerza siempre que puedas ANOVA frente técnicas no paramétricas: al usar rangos pierdo información. En tal caso, reporta tus conclusiones con la precaución que requiere el análisis
![Page 23: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/23.jpg)
23
ANCOVA
Conceptualmente, mismo fundamentos q ANOVA, pero nos permite incluir una o + covariables, cuyo efecto quiero eliminar para determinar exclusivamente el efecto de ciertos factores sobre dicha variable respuesta.
Forma de eliminar “ruido”, pq eliminamos la varianza debido a las covariables; es decir, a la varianza total le quitamos la varianza debida a la covariable(s); esto nos permite aumentar el poder del análisis
Covariables: variables continuas que influyen en la variable respuesta, pero cuyo efecto no es de interés
![Page 24: Técnicas estadísticas paramétricas univariantes: ANOVA y su familia Fernando Tuya, Investigador I3 Universidad de Las Palmas de G.C](https://reader036.vdocuments.co/reader036/viewer/2022062500/5665b4331a28abb57c8feae7/html5/thumbnails/24.jpg)
24
Ejemplo de ANCOVA
¿Influye el recibir fisioterapia en el número de lesiones de corredores? ¿Depende del nivel de intensidad, p.e. élite, sub-élite y amateurs? ANOVA-2
Pero queremos quitar el posible efecto del peso de los individuos. Establezco el peso como covariable en el análisis.