Download - AnáLisis EstadíStico De Datos Usando R 1
Análisis estadístico de datos de cultivos in-vitro usando R
Juan Pablo Angamarca G.Becario Escuela de Ciencias de la Computación
[email protected]. Pablo Ramón C.
Docente Investigador Docente Investigador – LFV – UTPL
[email protected] de Fisiología y Ecología Vegetal
Objetivos
• Realizar el análisis estadístico de los datos de cultivos in-vitro usando el lenguaje estadístico R como una mejor alternativa entre el software estadístico clásico.
• Incorporar nuevos procedimientos al análisis estadístico mediante el lenguaje R, concretamente representaciones gráficas, con la finalidad de optimizar la interpretación biológico-estadística.
• Aprovechar la flexibilidad que ofrece este lenguaje estadístico en dicho análisis.
Metodología• Fase 1: Entender el funcionamiento del
lenguaje R mediante la lectura de artículos y tutoriales.
• Fase 2: Realizar aplicaciones sencillas de análisis de datos en el lenguaje.
• Fase 3: Utilizar los datos de las investigaciones realizadas en el laboratorio de Fisiología Vegetal para un análisis estadístico adecuado.
• Fase 4: Extender la fase 3 utilizando las características de programación del lenguaje.
Análisis de Varianza
• Identificar el origen de la variabilidad de una o más fuentes potenciales, llamadas “tratamientos” o “factores”.
• Variando los factores o niveles en un diseño predeterminado y analizando los resultados.
Análisis de Varianza• Comparar promedios de
tratamientos.• Identificar si la variabilidad depende
de los diferentes tratamientos o de un error aleatorio.
• Hipótesis:H0: μ1 = μ2 = … = μα
Donde μi representa la media de cada nivel (one-way) o tratamiento (two-way).
Condiciones de ANOVA• Test de Bartlett (variabilidad)
El test de Bartlett (Snedecor y Cochran, 1983) tiene como utilidad el determinar si k muestras tienen varianzas iguales (homogeneidad de varianzas).
• Test Kolmogorov-SmirnovEs un test de ajuste a una ley continua (normal).
• Test Shapiro-Wilk (Normalidad de los residuos)El test Shapiro-Wilk es un análisis de varianza (semi/no) paramétrico que nos dota de evidencia para afirmar que existen ciertos tipos de normalidad, mas no garantiza “normalidad”.
Condiciones del ANOVA
• Test de Bartlett (variabilidad)El test de Bartlett (Snedecor y Cochran, 1983) tiene como utilidad el determinar si k muestras tienen varianzas iguales (homogeneidad de varianzas).
• Test Kolmogorov-SmirnovEs un test de ajuste a una ley continua (normal).
• Test Shapiro-Wilk (Normalidad de los residuos)El test Shapiro-Wilk es un análisis de varianza (semi/no) paramétrico que nos dota de evidencia para afirmar que existen ciertos tipos de normalidad, mas no garantiza “normalidad”.
Análisis de Varianza
• Luego de realizar el test ANOVA, se realiza una prueba post-hoc, ejm: test Tukey
• Test post-hoc = test comparaciones múltiples
Lenguaje y Entorno R
• R lenguaje y entorno para computación estadística y gráficos
• Es un proyecto GNU (software libre)• Posibilidad de crear gráficos, incluir
símbolos y fórmulas matemáticas donde se necesiten.
• R es una suite integrada de utilitarios de software
• Un bien logrado, simple y efectivo lenguaje de programación que incluye sentencias condicionales, bucles, funciones definidas por usuario y facilidades para ingreso y presentación de datos
Lectura de datos con R• R puede obtener datos desde varias fuentes• Ejm: datos en Excel, así que, para facilitarnos
la importación de datos, podemos exportar una hoja de Excel como un archivo de texto.
• Luego importarlo con la función read.table de R, que al leer el archivo, creará un objeto de datos llamado “Data frame”, que contendrá los datos del archivo.
• Asignación a un objeto brotacionCinchona los datos del archivo:
> brotacionCinchona <-read.table(“datos_anova.txt”, header = TRUE)
Lectura de datos con R
CASO DE ESTUDIO: Brotación de C. officinalis
• Desarrollar un test de Bartlett para determinar si las varianzas en cada tratamiento son iguales estadísticamente.
H0 = No existe diferencia significativa entre las varianzas de los tratamientos.
> bartlett.test(brotacionCinchona$Brotacion, brotacionCinchona$Tratamientos)
Bartlett test for homogeneity of variancesdata: brotacionCinchona$Brotacion and brotacionCinchona$Tratamientos Bartlett's K-squared = 6.6692, df = 11, p-value = 0.8252
• Conclusión: Puesto que p-value es mayor que 0.05, no se rechaza la hipótesis de homogeneidad de varianzas.
Test ANOVA
H0 = No existe diferencia significativa en la brotación media de cada tratamiento.
> aov.brotacionCinchona <- aov(brotacionCinchona$Brotacion ~ brotacionCinchona$Tratamientos)> aov.brotacionCinchonaCall: aov(formula = brotacionCinchona$Brotacion ~ brotacionCinchona$Tratamientos)Terms: brotacionCinchona$Tratamientos ResidualsSum of Squares 45 230Deg. of Freedom 11 24Residual standard error: 3.095696 Estimated effects may be unbalanced> summary(aov.brotacionCinchona) Df Sum Sq Mean Sq F value Pr(>F)brotacionCinchona$Tratamientos 11 45.000 4.091 0.4269 0.9287Residuals 24 230.000 9.583
Puesto que Pr > 0.05, no se rechaza la hipótesis de igualdad de promedios entre cada tratamiento.
Gráficas de ANOVA
Test TUKEY HSD
OBJETIVO: Determinar tratamientos significativamente diferentes
> resultados.tukey <- TukeyHSD(aov.cinchona)> resultados.tukey Tukey multiple comparisons of means 95% family-wise confidence levelFit: aov(formula = Brotación ~ Tratamientos)
RESULTADOS TEST DE TUKEY
Tratamientos significativos
> parejas.dif.significativa
Parejas.de.tratamientos Valores.p
1 T-B1N0 0.00157922 T-B1N1 0.02303173 T-B1N2 0.01202604 T-B1N3 0.00111905 T-B2N0 0.00313456 T-B2N1 0.00617557 T-B2N2 0.00111908 T-B2N3 0.00440489 T-B3N0 0.002226410 T-B3N1 0.003134511 T-B3N2 0.001119012 T-B3N3 0.0002812
Gráfica Test Tukey> plot(datos.tukey)