dirigida anova soluciones

16
Dirigida ANOVA (soluciones) David Sulmont - Pontificia Universidad Católica del Perú 29 de octubre de 2014 Carga de datos Se trabajará con los datos de la encuesta de Roles de Género y Familia 2012 del IOP-PUCP library (foreign) genero <- as.data.frame(read.spss("IOP_1212_01_B.sav")) Factores asociados a la dedicación al trabajo doméstico Vamos a analizar los factores asociados a las horas que le dedican los entrevistados al trabajo doméstico por semana. Primero preparamos la variable dependiente retirando algunos casos atípicos: genero$p19ar <- genero$P19A genero$p19ar[genero$P19A > 112] <- NA Nivel socioeconómicos y dedicación al trabajo doméstico ¿Las diferencias en la dedicación a labores domésticas en el propio hogar según NSE son estadísticamente significativas según el nivel socioeconómico? Como sabemos que el sexo del entrevistado es un factor que provoca muchas diferencias, vamos a diferenciar el análisis por género. Primero veamos los estadísticos descriptivos: library (Rmisc) ## Loading required package: lattice ## Loading required package: plyr data <- genero library (Rmisc) est.des <- summarySE(data, measurevar="p19ar", groupvars=c("NSEGrup", "SEXO"), na.rm=T) est.des

Upload: mayi-morales-gomez

Post on 10-Apr-2016

27 views

Category:

Documents


1 download

DESCRIPTION

uso de ANOVA en ciencias sociales

TRANSCRIPT

Page 1: Dirigida ANOVA Soluciones

Dirigida ANOVA (soluciones)David Sulmont - Pontificia Universidad Católica del Perú29 de octubre de 2014

Carga de datosSe trabajará con los datos de la encuesta de Roles de Género y Familia 2012 del IOP-PUCP

library(foreign)

genero <- as.data.frame(read.spss("IOP_1212_01_B.sav"))

Factores asociados a la dedicaciónal trabajo domésticoVamos a analizar los factores asociados a las horas que le dedican los entrevistados al trabajo domésticopor semana. Primero preparamos la variable dependiente retirando algunos casos atípicos:

genero$p19ar <- genero$P19A

genero$p19ar[genero$P19A > 112] <- NA

Nivel socioeconómicos y dedicación altrabajo doméstico¿Las diferencias en la dedicación a labores domésticas en el propio hogar según NSE sonestadísticamente significativas según el nivel socioeconómico? Como sabemos que el sexo delentrevistado es un factor que provoca muchas diferencias, vamos a diferenciar el análisis por género.Primero veamos los estadísticos descriptivos:

library(Rmisc)

## Loading required package: lattice

## Loading required package: plyr

data <- genero

library(Rmisc)

est.des <- summarySE(data, measurevar="p19ar", groupvars=c("NSEGrup", "SEXO"), na.rm=T)

est.des

Page 2: Dirigida ANOVA Soluciones

## NSEGrup SEXO N p19ar sd se ci

## 1 A/B Masculino 124 13.89516 11.91898 1.0703560 2.118704

## 2 A/B Femenino 138 28.23188 19.18838 1.6334236 3.229983

## 3 C Masculino 183 12.77049 12.08540 0.8933786 1.762711

## 4 C Femenino 173 28.45665 19.87445 1.5110264 2.982543

## 5 D/E Masculino 280 14.22500 14.97583 0.8949768 1.761765

## 6 D/E Femenino 298 34.16107 22.74987 1.3178644 2.593535

Hagamos un gráfico de las medias con sus respectivos intervalos de confianza al 95% para observarmejor esas diferencias:

library(ggplot2)

grafico <- ggplot(est.des, aes(x=NSEGrup, y=p19ar)) + geom_point() + ylim(0, 40) +

geom_errorbar(aes(ymin=p19ar-ci, ymax=p19ar+ci), width = 0.2) +

facet_grid(.~SEXO)

grafico

Pruebas de ANOVA: Para el caso de las mujeresGeneramos la tabla de ANOVA de horas semanales dedicadas al trabajo doméstico según NSE, para elcaso de las mujeres:

Page 3: Dirigida ANOVA Soluciones

data <- subset(genero, SEXO=="Femenino")

anova <- aov(data$p19ar~data$NSEGrup)

summary(anova)

## Df Sum Sq Mean Sq F value Pr(>F)

## data$NSEGrup 2 5131 2565 5.713 0.00348 **

## Residuals 606 272096 449

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

## 5 observations deleted due to missingness

Si tomamos en cuenta un y lo comparamos con la significancia del estadístico F de la prueba(Pr(>F)), podemos rechazar la hipótesis cero que sostiene que las medias de los grupos son iguales.

Prueba de comparaciones múltiples de Tukey *

Al rechazar la H0, podemos proceder a una prueba Post-Hoc para identificar entre qué grupos existendiferencias estadísticamente significativa. Para ello emplearemos la prueba de Diferencias Significativas deTukey (TukeyHSD):

TukeyHSD(anova)

## Tukey multiple comparisons of means

## 95% family-wise confidence level

##

## Fit: aov(formula = data$p19ar ~ data$NSEGrup)

##

## $data$NSEGrup

## diff lwr upr p adj

## C-A/B 0.2247633 -5.4574106 5.906937 0.9952496

## D/E-A/B 5.9291898 0.8030258 11.055354 0.0185326

## D/E-C 5.7044264 0.9458593 10.462994 0.0138709

El test de comparaciones múltiples nos muestra el intervalo de confianza al 95% de las diferencias demedias entre los tres pares de comparaciones. La “probabilidad ajustada” (p adj) nos ayudará a decidir siaceptamos o rechazamos la H0 de que las diferencias no son estadísticamente significativas. Si tomamosen cuenta un concluimos que, en el caso de las mujeres el grupo que se distingue de los demáses el del NSE D/E: en este NSE las mujeres trabajan significativamente más horas en labores domésticasque en los otros dos. No se encuentran diferencias estadísticamente significativas entre los NSE A/B vs C.

Para mostrar nuestras conclusiones, podemos graficar los intervalos de confianza de las diferencias demedias entre los grupos:

tab <- TukeyHSD(anova) # se crea un objeto tipo lista a partir del resultado de Tukey

tab.dif <- as.data.frame(tab[[1]]) # se selecciona la tabla dentro de esa lista

tab.dif$grupos <- row.names(tab.dif) # se añade una columna con los nombres

graf.dif <- ggplot(tab.dif, aes(x=grupos, y = diff)) + geom_point() +

geom_errorbar(aes(ymin=lwr, ymax=upr), width=0.2)

graf.dif

α = 0.05

α = 0.05

Page 4: Dirigida ANOVA Soluciones

Mejoramos un poco el gráfico:

graf.dif <- graf.dif + ylim(-10, 15) +

geom_hline(yintercept = 0, col="red", linetype = "longdash")

graf.dif

Page 5: Dirigida ANOVA Soluciones

Le damos la vuelta al gráfico:

graf.dif + coord_flip()

Page 6: Dirigida ANOVA Soluciones

Pruebas de ANOVA: Para el caso de los hombresGeneramos la tabla de ANOVA de horas semanales dedicadas al trabajo doméstico según NSE, para elcaso de los hombres:

data <- subset(genero, SEXO=="Masculino")

anova <- aov(data$p19ar~data$NSEGrup)

summary(anova)

## Df Sum Sq Mean Sq F value Pr(>F)

## data$NSEGrup 2 240 120.0 0.657 0.519

## Residuals 584 106629 182.6

## 2 observations deleted due to missingness

En este caso, el p-value (Pr(>F)) del estadístico de la prueba es mayor que el nivel de significancia, lo quenos lleva a aceptar la H0. Por lo tanto no se puede decir que en el caso de los hombres existan diferenciasestadísticamente significativas en las horas dedicadas a labores domésticas entre diferentes NSE.

EjerciciosProceda a realizar el mismo tipo de comparaciones que mostramos en los ejemplos anteriores. Para cadagénero, compare las horas dedicadas a labores domésticas entre:

Grupos de Edad (GEDAD)Ámbito de estudio (Ambito)

Page 7: Dirigida ANOVA Soluciones

TRABAJO DOMÉSTICO Y SATISFACCIÓNCON LA VIDA FAMILIARAlgunos estudios sugieren que hay una asociación entre la cantidad de horas que los hombres le dedicana labores domésticas y la satisfacción con la vida familiar: los hombres más satisfechos son aquellos quecolaboran más con labores domésticas (o colaborar con labores domésticas puede tener sus“recompensas”). ¿Los datos de esta encuesta son consistentes con esa teoría?

Primero recodificaremos la variable P40 de la siguiente manera:

library(descr)

freq(ordered(genero$P40), plot=FALSE)

## ordered(genero$P40)

## Frequency Percent Cum Percent

## Me siento completamente satisfecho/a 161 13.38321 13.38

## Muy satisfecho/a 406 33.74896 47.13

## Bastante satisfecho/a 409 33.99834 81.13

## Ni satisfecho ni insatisfecho/a 175 14.54697 95.68

## Bastante insatisfecho/a 25 2.07814 97.76

## Muy insatisfecho/a 11 0.91438 98.67

## Completamente insatisfecho/a 4 0.33250 99.00

## No sabe 1 0.08313 99.09

## No contesta 11 0.91438 100.00

## Total 1203 100.00000

satisf.fam <- as.numeric(genero$P40)

library(car)

satisf.fam <- recode(satisf.fam, "6:7 = 5; 8:9=NA")

satisf.fam <- factor(satisf.fam)

levels(satisf.fam) <- c("Comp. Satisf","Muy Satisf.", "Bast. Satisf.", "Ni sat. ni insat."

, "Insatif.")

genero$satisf.fam <- satisf.fam

freq(ordered(genero$satisf.fam), plot=FALSE)

## ordered(genero$satisf.fam)

## Frequency Percent Valid Percent Cum Percent

## Comp. Satisf 161 13.3832 13.518 13.52

## Muy Satisf. 406 33.7490 34.089 47.61

## Bast. Satisf. 409 33.9983 34.341 81.95

## Ni sat. ni insat. 175 14.5470 14.694 96.64

## Insatif. 40 3.3250 3.359 100.00

## NA's 12 0.9975

## Total 1203 100.0000 100.000

Con la nueva variable proceda a generar el gráfico de medias con sus respectivos intervalos de confianza;la prueba de ANOVA; si corresponde, la prueba de Tukey.

Page 8: Dirigida ANOVA Soluciones

CÓDIGOS PARA LAS RESPUESTASTrabajo doméstico por grupos de edad

# Estadísticos descriptivos

data <- genero

est.des <- summarySE(data, measurevar="p19ar", groupvars=c("GEDAD", "SEXO"), na.rm=T)

est.des

## GEDAD SEXO N p19ar sd se ci

## 1 18 a 29 Masculino 203 13.51232 12.67896 0.8898886 1.754662

## 2 18 a 29 Femenino 204 26.57843 20.35761 1.4253177 2.810326

## 3 30 a 44 Masculino 187 13.70588 14.26531 1.0431827 2.057991

## 4 30 a 44 Femenino 195 33.09744 21.17175 1.5161406 2.990235

## 5 45 a más Masculino 197 13.89340 13.65216 0.9726760 1.918254

## 6 45 a más Femenino 210 33.91905 21.82199 1.5058602 2.968622

# Gráfico de intervalos de confianza por grupos

library(ggplot2)

grafico <- ggplot(est.des, aes(x=GEDAD, y=p19ar)) + geom_point() + ylim(0, 40) +

geom_errorbar(aes(ymin=p19ar-ci, ymax=p19ar+ci), width = 0.2) +

facet_grid(.~SEXO)

grafico

Page 9: Dirigida ANOVA Soluciones

## Prueba de anova para mujeres

data <- subset(genero, SEXO=="Femenino")

anova <- aov(data$p19ar~data$GEDAD)

summary(anova)

## Df Sum Sq Mean Sq F value Pr(>F)

## data$GEDAD 2 6612 3306 7.403 0.000666 ***

## Residuals 606 270615 447

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

## 5 observations deleted due to missingness

## Prueba de Tukey para mujeres

TukeyHSD(anova)

## Tukey multiple comparisons of means

## 95% family-wise confidence level

##

## Fit: aov(formula = data$p19ar ~ data$GEDAD)

##

## $data$GEDAD

## diff lwr upr p adj

## 30 a 44-18 a 29 6.5190045 1.546609 11.491400 0.0061153

## 45 a más-18 a 29 7.3406162 2.459861 12.221371 0.0012808

## 45 a más-30 a 44 0.8216117 -4.115945 5.759169 0.9192204

# Gráfico de Tukey para mujeres

tab <- TukeyHSD(anova)

tab.dif <- as.data.frame(tab[[1]])

tab.dif$grupos <- row.names(tab.dif)

graf.dif <- ggplot(tab.dif, aes(x=grupos, y = diff)) + geom_point() +

geom_errorbar(aes(ymin=lwr, ymax=upr), width=0.2) + ylim(-10, 15) +

geom_hline(yintercept = 0, col="red", linetype = "longdash") +

coord_flip()

graf.dif

Page 10: Dirigida ANOVA Soluciones

## Prueba de anova para hombres

data <- subset(genero, SEXO=="Masculino")

anova <- aov(data$p19ar~data$GEDAD)

summary(anova)

## Df Sum Sq Mean Sq F value Pr(>F)

## data$GEDAD 2 15 7.26 0.04 0.961

## Residuals 584 106854 182.97

## 2 observations deleted due to missingness

Trabajo doméstico por Ámbito

# Estadísticos descriptivos

data <- genero

est.des <- summarySE(data, measurevar="p19ar", groupvars=c("Ambito", "SEXO"), na.rm=T)

est.des

Page 11: Dirigida ANOVA Soluciones

## Ambito SEXO N p19ar sd se ci

## 1 Lima-Callao Masculino 218 14.49083 14.27131 0.9665754 1.905078

## 2 Lima-Callao Femenino 229 30.15721 19.83378 1.3106528 2.582541

## 3 Interior Urbano Masculino 246 12.68293 12.26298 0.7818591 1.540023

## 4 Interior Urbano Femenino 264 29.62500 19.59105 1.2057460 2.374144

## 5 Interior Rural Masculino 123 14.34146 14.42552 1.3007051 2.574876

## 6 Interior Rural Femenino 116 36.82759 26.70557 2.4795498 4.911511

# Gráfico de intervalos de confianza por grupos

library(ggplot2)

grafico <- ggplot(est.des, aes(x=Ambito, y=p19ar)) + geom_point() + ylim(0, 50) +

geom_errorbar(aes(ymin=p19ar-ci, ymax=p19ar+ci), width = 0.2) +

facet_grid(.~SEXO)

grafico

## Prueba de anova para mujeres

data <- subset(genero, SEXO=="Femenino")

anova <- aov(data$p19ar~data$Ambito)

summary(anova)

Page 12: Dirigida ANOVA Soluciones

## Df Sum Sq Mean Sq F value Pr(>F)

## data$Ambito 2 4578 2288.8 5.087 0.00644 **

## Residuals 606 272649 449.9

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

## 5 observations deleted due to missingness

## Prueba de Tukey para mujeres

TukeyHSD(anova)

## Tukey multiple comparisons of means

## 95% family-wise confidence level

##

## Fit: aov(formula = data$p19ar ~ data$Ambito)

##

## $data$Ambito

## diff lwr upr p adj

## Interior Urbano-Lima-Callao -0.5322052 -5.0325062 3.968096 0.9583398

## Interior Rural-Lima-Callao 6.6703810 0.9910051 12.349757 0.0164115

## Interior Rural-Interior Urbano 7.2025862 1.6512358 12.753937 0.0067769

# Gráfico de Tukey para mujeres

tab <- TukeyHSD(anova)

tab.dif <- as.data.frame(tab[[1]])

tab.dif$grupos <- row.names(tab.dif)

graf.dif <- ggplot(tab.dif, aes(x=grupos, y = diff)) + geom_point() +

geom_errorbar(aes(ymin=lwr, ymax=upr), width=0.2) + ylim(-10, 15) +

geom_hline(yintercept = 0, col="red", linetype = "longdash") +

coord_flip()

graf.dif

Page 13: Dirigida ANOVA Soluciones

## Prueba de anova para hombres

data <- subset(genero, SEXO=="Masculino")

anova <- aov(data$p19ar~data$Ambito)

summary(anova)

## Df Sum Sq Mean Sq F value Pr(>F)

## data$Ambito 2 441 220.7 1.211 0.299

## Residuals 584 106427 182.2

## 2 observations deleted due to missingness

Trabajo doméstico y satisfacción con la vida(HOMBRES)# Estadísticos descriptivos

data <- subset(genero, SEXO=="Masculino")

est.des <- summarySE(data, measurevar="p19ar", groupvars="satisf.fam", na.rm=T)

est.des

Page 14: Dirigida ANOVA Soluciones

## satisf.fam N p19ar sd se ci

## 1 Comp. Satisf 71 18.69014 19.506476 2.3149928 4.617108

## 2 Muy Satisf. 204 15.04902 14.071512 0.9852029 1.942543

## 3 Bast. Satisf. 215 10.99070 10.456850 0.7131512 1.405700

## 4 Ni sat. ni insat. 77 13.90909 11.794492 1.3441071 2.677021

## 5 Insatif. 15 11.26667 11.322964 2.9235768 6.270449

## 6 <NA> 5 8.60000 9.099451 4.0693980 11.298460

est.des <- est.des[-6, ]

est.des

## satisf.fam N p19ar sd se ci

## 1 Comp. Satisf 71 18.69014 19.50648 2.3149928 4.617108

## 2 Muy Satisf. 204 15.04902 14.07151 0.9852029 1.942543

## 3 Bast. Satisf. 215 10.99070 10.45685 0.7131512 1.405700

## 4 Ni sat. ni insat. 77 13.90909 11.79449 1.3441071 2.677021

## 5 Insatif. 15 11.26667 11.32296 2.9235768 6.270449

# Gráfico de intervalos de confianza por grupos

library(ggplot2)

grafico <- ggplot(est.des, aes(x=satisf.fam, y=p19ar)) + geom_point() + ylim(0, 30) +

geom_errorbar(aes(ymin=p19ar-ci, ymax=p19ar+ci), width = 0.2)

grafico

Page 15: Dirigida ANOVA Soluciones

## Prueba de anova

anova <- aov(data$p19ar~data$satisf.fam)

summary(anova)

## Df Sum Sq Mean Sq F value Pr(>F)

## data$satisf.fam 4 3808 952.1 5.354 0.000307 ***

## Residuals 577 102598 177.8

## ---

## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

## 7 observations deleted due to missingness

## Prueba de Tukey

TukeyHSD(anova)

## Tukey multiple comparisons of means

## 95% family-wise confidence level

##

## Fit: aov(formula = data$p19ar ~ data$satisf.fam)

##

## $data$satisf.fam

## diff lwr upr p adj

## Muy Satisf.-Comp. Satisf -3.641121 -8.669024 1.3867815 0.2762370

## Bast. Satisf.-Comp. Satisf -7.699443 -12.694028 -2.7048584 0.0002756

## Ni sat. ni insat.-Comp. Satisf -4.781050 -10.784779 1.2226793 0.1890608

## Insatif.-Comp. Satisf -7.423474 -17.792530 2.9455814 0.2875672

## Bast. Satisf.-Muy Satisf. -4.058322 -7.624783 -0.4918609 0.0165449

## Ni sat. ni insat.-Muy Satisf. -1.139929 -6.020352 3.7404946 0.9685933

## Insatif.-Muy Satisf. -3.782353 -13.544068 5.9793621 0.8267505

## Ni sat. ni insat.-Bast. Satisf. 2.918393 -1.927698 7.7644848 0.4673553

## Insatif.-Bast. Satisf. 0.275969 -9.468627 10.0205650 0.9999918

## Insatif.-Ni sat. ni insat. -2.642424 -12.940776 7.6559270 0.9559822

# Gráfico de Tukey

tab <- TukeyHSD(anova)

tab.dif <- as.data.frame(tab[[1]])

tab.dif$grupos <- row.names(tab.dif)

graf.dif <- ggplot(tab.dif, aes(x=grupos, y = diff)) + geom_point() +

geom_errorbar(aes(ymin=lwr, ymax=upr), width=0.2) + ylim(-20, 15) +

geom_hline(yintercept = 0, col="red", linetype = "longdash") +

coord_flip()

graf.dif

Page 16: Dirigida ANOVA Soluciones