sesión iii josé bustos 1 & alex mellado 2 1 magister estadística aplicada, análisis...

22
Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento de Salud Pública, PUC. Martes 19 de Julio de 2011

Upload: faramundo-manuel

Post on 28-Jan-2016

214 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

Sesión III

José Bustos1 & Alex Mellado2

1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro.2 Magister (c) Epidemiología, Departamento de Salud Pública, PUC.

Martes 19 de Julio de 2011

Page 2: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

2

• Test de Kolmogorov-Smirnov

> ks.test(x,y) # si x e y tienen la misma distribución

• Test de Shapiro-Wilk

Test de Normalidad

H0: p1 = p2 Son normalesH1: p1 ≠ p2 No son normales

Dócima de hipótesis para las pruebas de normalidad

Para evaluar la normalidad de un conjunto de datos

Con el valor p decidimos si aceptamos o rechazamos la H0

Page 3: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

3

Test de Shapiro-Wilk n<30 # describe mejor cuando los n son pequeños # no significa que no pueda usarse para n>30

sintaxisshapiro.test(name)

ejemplo?shapiro.testname=rnorm(29,0,1) #generación números aleatorios(n,media,sd) mean(name) sd(name) qqnorm(x)qqline(x)shapiro.test(name) #interpretar resultado W= valor del test, p-value.

Test de Normalidad

Page 4: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

4

Test de Kolmogorov-Smirnov n>30 #evalúa 1 o 2 muestras simulneamente

sintaxisks.test(name,pnorm)ks.test(name1, name2)

ejemplo?ks.testname1=rnorm(500,0,1) #generación números aleatorios(n,media,sd) mean(name1) sd(name1)ks.test(name1,pnorm) # #interpretar resultado KS= valor del test, p-valueks.test(name1,name2) #interpretar resultado KS= valor del test, p-value.

Test de Normalidad

También hay otras distribuciones disponibles. Las más importantes (y los parámetros necesarios en cada una) son:

ks.test(x,ppois,lambda) # si x ~ Poisson con tasa lambda. Ej: ks.test(x,ppois,3)ks.test(x,pbinom,n,p) # si x ~ Binomial con n y p dados.

Page 5: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

5

2. Test de Chi-cuadrado X2

ejemplo

Supóngase que la proporción observada de mujeres normales y con cuadros de depresión en una cuadra de la comuna de Maipú es de 29/12, respectivamente.

Test Chi-cuadrado. 1 variable categórica con n niveles

Cual es la variable y el factor de la variable?

H0: p1 = p2 Las proporciones son igualesH1: p1 ≠ p2 Las proporciones diferentes

sintaxischisq.test(names)names<-c(valores1, val2….,)

sexo<- c(29,12) # vector formado guarda las frecuencias o proporciones

Page 6: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

6> ks.test(x,y) # si x e y tienen la misma distribución

ejercicio 1

El 35% de erizos de tierra mantenidos en cautiverio enfermaron y el 65% murió. ¿La proporción de muertos y enfermos es significativamente diferente? .

Sin embargo, ½ de los enfermos comen pellet (n=50) y enferman menos que aquellos que tienen una dieta casera (½) y mixta (½). ¿Serán las proporciones observadas diferentes?

2. Test de Chi-cuadrado X2

Page 7: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

7

ejercicio 2

La encuesta nacional de Salud revelo que el 18% de los escolares chilenos es obeso. Supóngase que una muestra obtenida de un colegio privado donde estudian 1200, 240 son obsesos. ¿La proporción observada en el colegio es diferente de los resultados obtenidos en la encuesta nacional?

chisq.test(a,p=b)

# vector a almacena frecuencias observadas # vector b almacena probabilidades esperadas# Test chi-cuadrado # alternativamente los vectores a y b pueden ir concatenados

2. Test de Chi-cuadrado X2

Test Chi-cuadrado. 1 variable categórica con n niveles cuando conocemos una proporción

H0: p = 0.18H1: p ≠ 0.18

sintaxisa<-c(240,960)b<-c(0.18,0.82)chisq.test(a,p=b)

Page 8: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

8

2. Test de Chi-cuadrado X2

Test Chi-cuadrado. 2 variable categórica con n niveles

H0: p1 = p2 No existe asociación son independientesH1: p1 ≠ p2 Existe asociación no son independientes

sintaxischisq.test(name, correct=F) # chi de Pearsonname=matrix(c(valores), nc=columnas)

Page 9: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

9

ejercicio 3

Supóngase que interesa saber si sexo da cuenta de la asociación con el parasitismo por la lombriz solitaria Taenia solium. De a base de datos de julio del ISP 2011, resultaron parasitados 38 de 50 y de 60 mujeres sólo 4. Los hombres comen mas carne en cebiche y cruda que las mujeres. Realice el test mas adecuado.

2. Test de Chi-cuadrado X2

Page 10: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

10

ejercicio 4

Interesa determinar si hay diferencias significativas en el porcentaje de personas con depresión entre dos poblaciones A y B. Para esto, se tomó una muestra de 150 personas de la población A y 200 de la población B, encontrándose 45 y 120 personas con depresión en cada una de las ciudades respectivamente. La ciudad B aparentemente esta mas contaminada que la población A.

1. Construya su tabla de contingencia.2. Realice la rutina en R para obtener el valor de X2 Pearson.3. Señale si acepta o rechaza la Ho

2. Test de Chi-cuadrado X2

Page 11: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

11

Chi-cuadrado desde un Dataframe

sintaxischisq.test(namevar1,namevar2, correct=F) # Test X2 de Pearson. Var1 vs Var2

.

# Buscando dataframe .txt en el directorio

name<-read.table(file.choose(), header=T)attach(name)chisq.test(namevar1,namevar2, correct=F)

2. Test de Chi-cuadrado X2

Page 12: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

12

2. Test de Chi-cuadrado X2

Test Exacto de Fisher. n< 5 en algunas celdas

H0: p1 = p2 No existe asociación son independientesH1: p1 ≠ p2 Existe asociación no son independientes

sintaxisfisher.test(name, correct=F) # chi2 de Pearsonname=matrix(c(valores), nc=columnas)

fisher.test(namevar1,namevar2, correct=F) # chi 2de Pearson usando dataframe

Page 13: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

13

sintaxis

t.test(x) # si vector numérico x tiene media μ=0 (por defecto μ0=0)t.test(x,mu=10) # si vector numérico x tiene media μ=10)t.test(x1,x2,paired=T) # si x1-x2 (datos pareados) tiene media 0

T Student comparación de medias: para 1 muestra.

3. T Student

H0: μ = 0 Media es igual a 0H1: μ ≠ 0 Media diferente de 0

Ejemplo x=rnorm(100,20,1)test.t(x)test(x, mu=20)

Page 14: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

14

ejercicio 5

paciente Antes después

1 31 71

2 157 93

3 4 53

4 109 240

5 283 181

6 141 181

7 36 64

8 164 367

9 154 114

10 22 48

ResultadoPaired t-testdata: antes and después t = -1.1006, df = 9, p-value = 0.2996alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -95.02074 32.82074 sample estimates:mean of the differences -31.1

3. T Student

A un total de 10 pacientes con diagnostico de VIH se les midió el número delinfocitos T en la sangre /ml. La siguiente tabla muestra el conteo de linfocitosAntes y después de un tratamiento naturista. Genere los vectores de la tablaconservando los nombres de cabecera. Determine si la intervención essignificativa o no.

Page 15: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

15

El test t de Student para muestras independientes permite docimar la hipótesis nula de igualdad de promedios de dos vectores numéricos x1 y x2. Es decir, H0: μ1 = μ2.

3. T Student

T Student comparación de medias muestras independientes (N=2).

H0: μ1 = μ2 Media muestra 1 es igual a la media muestra 2H1: μ 1 ≠ μ2 ambas medias muestréales son diferentes

sintaxis

t.test(x1,x2) # ambos vectores numéricos

Page 16: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

16

Ciudad 1 Ciudad 2

31 71

157 93

4 53

109 240

283 181

141 181

36 64

164 367

154 114

22 48

Ejercicio 6

Considerando el numero de linfocitos encontrados en 10 pacientes en la ciudad 1 y en 10 pacientes en la ciudad 2.1. Genere los vectores de la tabla conservando los nombres de cabecera y determine si existen diferencias significativas en el número de linfocitos en ambas ciudades.

Resultado

Welch Two Sample t-testdata: ciudad1 and ciudad2 t = -0.7308, df = 17.564, p-value = 0.4745alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -120.66331 58.46331 sample estimates:mean of x mean of y 110.1 141.2

Page 17: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

17

t.test requiere que las muestras estén en columnas distintas, cuando lo habitual es tener los datos en una columna (por ejemplo, en vector x) y los grupos a comparar en otra columna (por ejemplo, en vector grupo, con valores 1 y 2). La solución es:

>t.test(x[grupo==1], x[grupo==2])

Ejercicio 7Tomando los valores de linfocitos y ciudad. Determine si existen diferencias significativas entre una ciudad y otra. Genere los vectores de la tabla conservando los nombres de cabecera.

Ciudad linfocitos

1 31

1 157

1 4

1 109

1 283

1 141

1 36

1 164

1 154

1 22

2 71

2 93

2 53

2 240

2 181

2 181

2 64

2 367

2 114

2 48

ciudad<-c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2)linfocitos<c(31,157,4,109,283,141,36,164,154,22,71,93,53,240,181,181,64,367,114,48)t.test(linfocitos[ciudad==1],linfocitos[ciudad==2])

Welch Two Sample t-testdata: linfocitos[ciudad == 1] and linfocitos[ciudad == 2] t = -0.7308, df = 17.564, p-value = 0.4745alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -120.66331 58.46331 sample estimates:mean of x mean of y 110.1 141.2

Page 18: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

18

4. Test kruskall wallis

T Kruskal Wallis. comparación de mas de dos medias.

H0: μ1 = μ2 = μ3 Media muestra 1,2,3 son igualesH1: μ 1 ≠ μ2 ≠ μ3 ambas medias muestréales son diferentes

sintaxis

kruskal.test(x,grupos) # si la mediana de x (variable numérica) se # diferencia entre grupos (variable categórica)

kruskal.test(list(x1,x2,x3)) # si existe diferencias entre promedios # de x1, x2 y x3 (no requiere variable categórica

El test de rangos de Kruskal-Wallis permite comparar el parámetro de tendencia central (mediana) entre dos o más poblaciones. Cuando se comparan solo 2 grupos, el test es equivalente al test de rangos de Wilcoxon.

Page 19: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

19

El comando cor permite obtener la correlación entre dos vectores x e y.

sintaxiscor(x, y) # correlacion (Pearson) entre x e y.cor.test(x, y) # correlacion (Pearson) entre x e y, test e IC95%

Por defecto, cor entrega la correlación de pearson. Con el subcomando method se controla cuál correlación obtener: pearson, spearman o kendall.

> cor(x, y,method=“pearson”) # igual a cor(x,y) > cor(x, y,method=“spearman”) # correlacion de Spearman ordinal/continua> cor(x, y,method=“kendall”) # correlacion de Kendall ordinal/ordinal

Si hay observaciones faltantes en x o y el comando producirá un error. La opción use=“complete.obs” borra registros con NA en cualquiera de las dos variables.

xyz=cbind(x,y,z)> cor(xyz)

4. Test de asociación correlacion

Page 20: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

20

• Lea la base de datos Litiasis.txt (archivo de texto delimitado por tabulaciones) en R.

• Observe las características del dataframe como list(), names(), summary()• Acceda a los vectores del dataframe usando attach()• Determine si existe asociación entre las variables HTA y PESO

Determine si existe asociación entre las variables HTA y FUMA.• Determine si existe asociación entre las variables EDAD y FUMA.• Determine si existe asociación entre TALLA y EDAD. (grafique).• Finalmente agregue la siguiente instrucción • abline(lm(PESO~TALLA))

ejercicio 8

Page 21: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

21

6. Modelos de Regresión.Es una técnica para analizar una variable dependiente numérica (Y) frente a una o mas variables independientes (X) también numéricas sean categóricas o continuas.

Formula:

Y = β0 + β1 x1 + ……+ βn xn + e

Tipos de modelo de regresión

1. Modelos de regresión Lineal Y= v.a. numérica continua

2. Modelos de regresión Logística Y= v.a. categórica

3. Modelos de regresión Poisson Y= v.a conteo o tasa

6. Modelos de regresión

Page 22: Sesión III José Bustos 1 & Alex Mellado 2 1 Magister Estadística Aplicada, Análisis Estadístico Profesional AESpro. 2 Magister (c) Epidemiología, Departamento

22

lm (formula = variable Y ~ variable X)

Modelos de regresión Lineal simple

lm (formula = variable Y ~ variable X1+ variable X2 +…+ variable Xn)

Modelos de regresión Lineal múltiple