descargar el manual ii

28
Pr´ acticas de Estad´ ıstica con R Parte II Escuela T´ ecnica Superior Ing. Industrial y Qu´ ımica Universidad de Cantabria Fco Javier Glez Ortiz Curso 2007–2008

Upload: dinhdan

Post on 04-Feb-2017

232 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Descargar el Manual II

Practicas de Estadıstica con R

Parte II

Escuela Tecnica Superior

Ing. Industrial y Quımica

Universidad de Cantabria

Fco Javier Glez Ortiz

Curso 2007–2008

Page 2: Descargar el Manual II

2

Page 3: Descargar el Manual II

Indice general

3. Variables aleatorias 5

3.1. Variabilidad a corto plazo. Regularidad a la larga . . . . . . . . . . . . . . . . . . . . 5

3.1.1. Variabilidad a corto plazo: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

3.1.2. Variabilidad a largo plazo: . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

3.1.3. Concepto frecuentista de la probabilidad . . . . . . . . . . . . . . . . . . . . . 8

3.1.4. ¿Es siempre admisible el concepto clasico de probabilidad? . . . . . . . . . . 8

3.2. Simulacion del problema del aniversario . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.3. Simulacion del problema de los dados de Galileo . . . . . . . . . . . . . . . . . . . . 10

4. Distribuciones discretas y continuas 11

4.1. Distribuciones de probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

4.1.1. Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

4.1.2. Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4.1.3. Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4.2. Distribucion de la media muestral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

5. Bondad de Ajuste 17

5.1. Contraste Chi-cuadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

5.1.1. ¿Es un dado regular? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

5.1.2. Bombardeo de Londres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5.2. Contraste de Shapiro-Wilk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

5.3. Contraste de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

5.3.1. Contraste de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

5.4. Mas ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

7. Intervalos de confianza y contrastes de hipotesis 21

7.1. Intervalo de confianza de la media. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

7.2. Intervalos de confianza y contraste de la proporcion. . . . . . . . . . . . . . . . . . . 24

3

Page 4: Descargar el Manual II

4 INDICE GENERAL

7.3. Intervalos de confianza y contraste de diferencia de dos medias: . . . . . . . . . . . . 25

7.4. Intervalos de confianza y contraste de diferencia de dos proporciones. . . . . . . . . . 27

Page 5: Descargar el Manual II

Tema 3

Variables aleatorias

3.1. Variabilidad a corto plazo. Regularidad a la larga

3.1.1. Variabilidad a corto plazo:

Simular 12 lanzamientos de un dado regular (no trucado), almacenando los resultados de loslanzamientos en la columna 1 (”dado_1”).

Repetir el apartado anterior almacenando los resultados en la columna 2 (”dado_2”) y(”dado_3”).

Dibujar diagramas de barras de los datos de las dos columnas.

>barplot(table(LosDados$dado3))

Calcular las frecuencias relativas de los 6 sucesos posibles. ¿Son estas frecuencias relativasiguales a 1

6?

>table(LosDados$dado 3)/12

5

Page 6: Descargar el Manual II

6 TEMA 3. VARIABLES ALEATORIAS

1 2 3 4 5 6

05

1015

2025

Figura 3.1: Diagrama de barras de tirada de un dado 120 veces

3.1.2. Variabilidad a largo plazo:

Simular 1200 lanzamientos de un dado regular (no trucado), almacenando los resultados delos lanzamientos en la columna 4 (”dado_4”).

El entorno grafico nos impide obtener los 1200 datos, ¿como lo hacemos? Se puede entrar enel editor y avanzar paginas hasta la fila de datos 1200, e introducir en esta casilla un NA.

Otra posibilidad desde la lınea de comandos, es escribir

LosDados[1200,] <- c(NA,NA,NA)

y a continuacion simular el lanzamiento del cuarto dado.

Y por supuesto lo mas comodo serıa abrir un nuevo data.frame

Repetir el apartado anterior almacenando los resultados en la columna 5 y 6 (”dado_5”) y(”dado_6”).

Dibujar diagramas de barras de los datos de las dos columnas.

>barplot(table(LosDados$dado_4))

Calcular las frecuencias relativas de los 6 sucesos posibles. ¿Son estas frecuencias relativasiguales a 1

6?

Page 7: Descargar el Manual II

3.1. VARIABILIDAD A CORTO PLAZO. REGULARIDAD A LA LARGA 7

Figura 3.2: Diagrama de barras de tirada de un dado 1200 veces

¡OJO! con el valor NA

Por ejemplo si ejecutamos desde el resumen numerico y hay valores de NA no hay problemas,pero si lo realizamos desde la linea de comandos necesitamos algo ası como

mean(LosDados$dado 1,na.rm=TRUE)

pues

mean(LosDados$dado 1)

devuelve el valor NA.

Page 8: Descargar el Manual II

8 TEMA 3. VARIABLES ALEATORIAS

Otra posibilidad para evitar los valores omitidos y poder calcular con datos que incluyen unNA es,

x[!is.na(x)]

ya que, este comando elimina del vector x todos aquellos el mentos que sean NA o NaN. Lafuncion which(is.nan(x)) nos devolvera las posiciones de los elementos de x que toman el valorNaN.

3.1.3. Concepto frecuentista de la probabilidad

La concepcion frecuentista interpreta que la probabilidad de un suceso es el lımite de lafrecuencia relativa de dicho suceso cuando el numero de veces que se repite el experimento asociadotiende a infinito.

Por ejemplo, que la probabilidad de sacar cruz al tirar una moneda es 0,5 significa que, en unasucesion de tiradas, la frecuencia relativa de las cruces obtenidas se ir aproximando paulatinamentea 0,5 segun avanza la sucesion.

Generamos un vector que represente la sucesion de tiradas; suponiendo n = 500 tiradas.

dadoplot <- data.frame(caras=sample(c(0, 1), 500,replace=TRUE))dadoplot$FA <- with(dadoplot, cumsum(caras))plot (FR, type=’l’)abline (0.5, 0, col=’red’)

Calculamos las frecuencias relativas de las cruces en cada tirada.

Representamos la secuencia de frecuencias relativas acumuladas.

Podemos anadir la asıntota, a la altura del valor teorico de la probabilidad p = 0,5

3.1.4. ¿Es siempre admisible el concepto clasico de probabilidad?

Simular 120 lanzamientos de un dado en cuyo interior se han introducido asimetricamente bolasde acero, de forma que P (1) = 0,5;P (2) = 0,25;P (3) = 0,15;P (4) = 0,04 y P (5) = P (6) = 0,03.Almacenar los resultados de los lanzamientos en la variable dado7.

Page 9: Descargar el Manual II

3.2. SIMULACION DEL PROBLEMA DEL ANIVERSARIO 9

sample(1:6,120,replace=TRUE,c(0.5,0.25,0.15,0.04,0.03,0.03))

Repetir el apartado anterior almacenando los resultados en la columna dado8.

Dibujar diagramas de puntos de los datos de las dos columnas.

¿Son aproximadamente iguales las frecuencias relativas de los 6 sucesos posibles? ¿A que con-cepto de la probabilidad conduce este experimento aleatorio?

3.2. Simulacion del problema del aniversario

1. Extraer1 una muestra con reemplazamiento de tamano 40. “grupo.1”

nacidos<-data.frame(grupo.1=sample(1:365, 40, repl=TRUE))nacidos$grupo.2<-sample(1:365, 40, repl=TRUE)is.element(0,diff(nacidos$grupo.2))

2. Analizar los datos repetidos de muestra.nac.40 y comprobar si hay dos personas con el mismodıa de nacimiento.

3. Extraer una muestra con reemplazamiento de tamano 23, muestra.nac.23 y efectuar al mismacomprobacion que antes.

1Para mantener el generador de numeros aleatorios, se puede utilizar el comando set.seed(21)

Page 10: Descargar el Manual II

10 TEMA 3. VARIABLES ALEATORIAS

3.3. Simulacion del problema de los dados de Galileo

1. Cargar un conjunto nuevo de datos en R. Simular el lanzamiento de un dado 1000 vecesvariable dado.1

2. Realizar lo mismo para las columnas dado.2 y dado.3

3. Establecer en la columna suma, la suma de las tres dados.

4. Estimar la probabilidad de que la suma de los dados sea 10. 0.126

5. Estimar la probabilidad de que la suma de los dados sea 9. 0.118

Page 11: Descargar el Manual II

Tema 4

Distribuciones discretas y continuas

4.1. Distribuciones de probabilidad

El menu Distribuciones de R-Commander permite trabajar con todas las distribuciones es-tadısticas vistas en clase de teorıa. Para cada una de ellas, se puede obtener:

Cuantil El menor valor c tal que, para un probabilidad dada p, se cumple que P (x ≤ c) = p

probabilidad Discretas: valores de la funcion masa de probabilidad.

probabilidad acumulada Para un cuantil c dado, da el valor P (x ≤ c) (cola inferior) o bienP (x > c) (cola superior).

grafico Se representa la funcion de densidad (masa de probabilidad en las distribuciones discretas)o la funcion de distribucion.

muestra aleatoria Permite generar un juego de datos aleatorio especificando el numero de mues-tras (numero de filas) y el tamano muestral (numero de columnas).

A cada uno de los nombres en R, se le anade por delante la letra

d para funcion de densidad (masa de probabilidad en discretas)p para funcion de distribucionq para cuantilr para generar numeros aleatorios

4.1.1. Binomial

pbinom(c(45), size=100, prob=0.5, lower.tail=TRUE)

1. Sea X ∼ B(p = 0,5, n = 100), np = 50, npq = 25. Hallar:

a) p(X ≤ 45), p(X ≤ 52) p(X < 60)

0.1841 0.6914 0.9716

11

Page 12: Descargar el Manual II

12 TEMA 4. DISTRIBUCIONES DISCRETAS Y CONTINUAS

b) Calcular las probabilidades anteriores con la aproximacion binomial-normal.

0.1841 0.6915 0.9713

c) Calcular las probabilidades anteriores con la aproximacion binomial-Poisson.

0.0 1 1

y analiza porque es mala la aproximacion utilizada.

4.1.2. Poisson

P (X ≤ n) =n∑

k=0

e−λ λk

k!

ppois(c(2), lambda=0.5, lower.tail=TRUE)

2. La centralita telefonica de un hotel recibe un numero de llamadas por minuto que sigue unaley de Poisson con parametro λ = 0,5. Determinar la probabilidad de que en un minuto alazar:

a) Se reciba una unica llamada. 0.303

b) Se reciban un maximo de dos llamadas. 0.9856

c) La centralita quede bloqueada, sabiendo que no puede realizar mas de 3 conexiones por

minuto. 0.00175

4.1.3. Normal

pnorm(c(40), mean=50, sd=5, lower.tail=TRUE)

3. Sea X una variable aleatoria normal con µ = 50 y σ2 = 25. Calcular:

a) p(X ≤ 40) p(X ≤ 60) p(X > 65)

0.02275 0.9772 0.0013

b) p(X > 35) p(40 < X < 60) p(30 < X < 42)

0.9986 0.9544 0.05476

Page 13: Descargar el Manual II

4.1. DISTRIBUCIONES DE PROBABILIDAD 13

Parametros de N(µ;σ)

Ejecutar en R el siguiente script y obervar el efecto del valor de los parametros.

x <- seq ( -6, 6, len=100 ) #%y <- cbind ( dnorm ( x, -2, 1 ), dnorm (x, 0, 2 ), #%

dnorm ( x, 0, .5), dnorm ( x, 2, .3 ),#%dnorm ( x, -.5, 3 ) )

matplot ( x, y, type="l", col=1 )legend ( -6, 1.3, paste( "mu =", c(-2,0,0,2,-.5),"; sigma =",c(1,2,.5,.3,3) ), lty=1:5, col=1, cex=.75 )

−6 −4 −2 0 2 4 6

0.0

0.2

0.4

0.6

0.8

1.0

1.2

x

y

mu = −2 ; sigma = 1mu = 0 ; sigma = 2mu = 0 ; sigma = 0.5mu = 2 ; sigma = 0.3mu = −0.5 ; sigma = 3

Page 14: Descargar el Manual II

14 TEMA 4. DISTRIBUCIONES DISCRETAS Y CONTINUAS

4.2. Distribucion de la media muestral

4. Abrir un fichero nuevo:

a) Abrimos un nuevo conjunto de datos o data.frame de nombre media.muestra y gener-amos1 mediante muestreo aleatorio una muestra de tamano 100 de la variable Altura delos alumnos de una poblacion con distribucion N(µ = 1, 75;σ = 0,05).

media.muestra<-data.frame(rnorm(100, mean=1.75, sd=0.05))

b) Generar de esta forma 25 columnas, lo que supone 25 muestras aleatorias de la variableAltura.

media.muestra<-data.frame(media.muestra,matrix(rnorm(2500,1.75,0.05),ncol =25))

c) Calcular las medias de las columnas C1-C25 y representarlas en un grafico de puntosentre los valores 1.73 y 1.77

apply(media.muestra,2,mean)plot(apply(media.muestra,2,mean),ylim = c(1.73, 1.77))abline(1.75,0,col=red”)

x ≈ 1.749595

d) Calcular las desviaciones tıpicas de las columnas C1-C25 y representarlas en un grafico

de puntos entre los valores 0.04 y 0.06. Sx ≈ 0.04906891

e) Representa en diagramas de cajas las 15 primeras columnas.

f ) Calcular una nueva columna con el promedio de las columnas C1-C25. Dar a esta colum-na el nombre de Media.n25

media.muestra$Media.n25 <- apply(media.muestra,1,mean)

g) Representar el diagrama de cajas para comparar las columnas 1, 2 y 3 junto con la nuevavariable Media.n25. ¿Que se aprecia frente a los histogramas anteriores?

h) Calcular la media x25 de esta columna Media.n25

i) ¿Que se aprecia entrex25 y x

j ) Calcular la desviacion tıpica Sx25 de la variable Media.n25 0.00978171

k) ¿Que se diferencia aprecia entre (redondear a 3 dıgitos)

SX 0.05 y Sx25 0.01

1para que coincidan los resultados aleatorios fijamos la misma semilla con set.seed(27)

Page 15: Descargar el Manual II

4.2. DISTRIBUCION DE LA MEDIA MUESTRAL 15

●●

X1 X2 X3 X4 X5 X6 X7 X8 X9 X11 X13 X15

1.6

1.7

1.8

1.9

N(1

.75;

0.05

)

Figura 4.1: Diagrama de las 15 muestras de la altura N(1,75; 0,05)

Page 16: Descargar el Manual II

16 TEMA 4. DISTRIBUCIONES DISCRETAS Y CONTINUAS

●●

X1 X2 X3 Media.n25

1.60

1.65

1.70

1.75

1.80

1.85

1.90

N(1

.75;

0.05

)

Figura 4.2: Boxplot de X1, X2 y X3 junto a x25

Page 17: Descargar el Manual II

Tema 5

Bondad de Ajuste

En el caso de contrastes de normalidad, se recomienda el uso del test de Shapiro-Wilk paramuestras pequenas n ≤ 50, mientras que si las muestras son grandes es preferible utilizar el test deKolmogorov-Smirnov, salvo que los datos vengan dados en una distribucion de frecuencias en cuyocaso emplearemos la distribucion χ2

5.1. Contraste Chi-cuadrado

La distancia χ2 entre la distribucion de frecuencias observada en la muestra y la distribucionde probabilidad especificada por la hipotesis nula se define como

χ2 =k∑

i=1

(ni − npi)2

npi=

k∑i=1

(Oi − Ei)2

Ei, (5.1)

donde n1, n2, . . . , nk son las frecuencias absolutas de los k posibles resultados y p1, p2, . . . , pk sonlas probabilidades de dichos resultados si es cierta la hipotesis nula.

5.1.1. ¿Es un dado regular?

Se lanza un dado 1200 veces y se obtienen los siguientes resultados:

Xi 1 2 3 4 5 6Oi: frecuencia 175 215 220 190 170 230

1. Calcular el estadıstico de contraste χ2. χ2g.l. 15.75

2. Hallar el nivel de significacion (P-valor) de la prueba y decidir si se acepta que el dado esregular.

P-valor 0.007595

Abrimos un conjunto de datos nuevo con dos columnas. En frec almacenamos las frecuencias ob-servadas y en prob las probabilidades teoricas respectivas para cada cara del dado 1

6 .

17

Page 18: Descargar el Manual II

18 TEMA 5. BONDAD DE AJUSTE

>chisq.test(frec,p=prob)

Chi-squared test for given probabilitiesdata: frec X-squared = 15.75, df = 5, p-value = 0.007595

5.1.2. Bombardeo de Londres

Durante la Segunda Guerra Mundial se dividio el mapa de Londres en cuadrıculas de 1/4 kmy se conto el numero de bombas caıdas en cada cuadrıcula durante un bombardeo aleman. Losresultados fueron:

x: Impactos en cuadrıcula 0 1 2 3 4 5Oi: frecuencia 229 211 93 35 7 1

Se quiere contrastar la hipotesis de que los datos siguen una distribucion de Poisson. Se pide:

1. Disenar las columnas adecuadas que registren las frecuencias observadas y las esperadas.

lambda<-sum(fre*impac)/sum(fre)

Calculamos las probabilidades de Poisson con

londres$prob <- with(londres, round(dpois(0:5, lambda=0.9288194),4))

2. Calcular el estadıstico del contraste χ2.

>chisq.test(londres$fre.a[1:5],p=londres$prob[1:5])

data: londres$fre.a[1:5] X-squared = 1.0118, df = 4, p-value =0.908

3. Hallar el cuantil 0,95 de la distribucion χ2g.l. y decidir si se acepta que los datos de la muestra

se ajustan a la distribucion teorica.

Page 19: Descargar el Manual II

5.2. CONTRASTE DE SHAPIRO-WILK 19

5.2. Contraste de Shapiro-Wilk

Con Datos - Conjunto de datos en paquetes Leer conjunto de datos.. del paquete datasetscargar el fichero de nombre trees.

1. Efectuar el contraste de normalidad para la variable volumen de madera Volumen.

Con Estadısticos Resumenes. y Test de normalidad de Shapiro-Wilk. obtenemos

W 0.8876

Como el p-value = 0.003579 rechazamos que sea una distribucion normal.

2. Efectuar el contraste de normalidad para la variable logaritmo del volumen de madera Volu-men.

Con Estadısticos Resumenes. y Test de normalidad de Shapiro-Wilk. obtenemos para lanueva variable log(Volume)

W 0.9643

Como el p-value = 0.3766 aceptamos que el logaritmo del volumen sea normal.

5.3. Contraste de Kolmogorov-Smirnov

5.3.1. Contraste de normalidad

Vamos a realizar el contraste de normalidad de la variable PESO del fichero pesoaltura.rdat.Dado que el numero de individuos es grande, n = 100, se utilizara el test de Kolmogorov-Smirnov.

1. Con Datos - Cargar conjunto de datos ... incorporamos el fichero pesoaltura.rdat en Rcom-mander con el nombre de peso.altura.

2. Calculamos los estimadores de µ y σ

attach(peso.altura)mean(PESO)sd(PESO)

resultando x = 73,37 y s = 12,69.

3. A continuacion se contrastan las diferencias entre la funcion de distribucion empırica muestraly la distribucion teorica normal de parametros, N(73,37; 12,69). Para ello se empleara elprocedimiento ks.test.

ks.test(PESO,pnorm,73.37,12.69)

>ks.test(PESO,pnorm,73.37,12.69)One-sample Kolmogorov-Smirnov test

data: PESO D = 0.136, p-value = 0.04939 alternative hypothesis: two-sided

En este caso y para un α = 0,05 se rechaza la hipotesis de que los pesos sigan una distribucionnormal.

Page 20: Descargar el Manual II

20 TEMA 5. BONDAD DE AJUSTE

5.4. Mas ejemplos

1. Los siguientes datos corresponden a la duracion de diez pilas de cierta marca en cientos dehoras.

i 1 2 3 4 5 6 7 8 9 10xi 0,023 0,406 0,538 1,267 2,343 2,563 3,334 3,491 5,088 5,587

Se quiere contrastar si la variable aleatoria duracion de vida de las pilas se ajusta a unadistribucion de tipo exponencial. Se pide:

a) Sabiendo que la funcion de distribucion exponencial es FX(x) = 1 − e−α x, determinarsu expresion si α se estima con α = x−1.

α 0.40584

b) Determinar la distancia de Kolmogorov. D 0.2136

c) Concluir si los datos se ajustan a la distribucion exponencial dada.

Page 21: Descargar el Manual II

Tema 7

Intervalos de confianza y contrastesde hipotesis

7.1. Intervalo de confianza de la media.

44. Cargar (abrir) el conjunto de Datos ElPulso.rda. Se pide:

a) Calcular el intervalo de confianza para el peso medio de todos los individuoscon α = 0,05.Para realizar el contraste de la media o hallar el intervalo de confianza, se elige en elMenu, Medias->Test para una muestra

21

Page 22: Descargar el Manual II

22 TEMA 7. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPOTESIS

t.test(Pulso$Peso, alternative=’two.sided’, mu=0.0, conf.level=.95)

One Sample t-testdata: Pulso$Peso t = 58.6473, df = 91, p-value <2.2e-16alternative hypothesis: true mean is not equal to 0 95 percent confidence interval:63.66709 68.13108sample estimates: mean of x 65.89909

help(t.test)

b) Calcular el intervalo de confianza para el peso medio de las mujeres conα = 0,05.En este caso, si se quiere trabajar con el data.frame habrıa que crear una columna conlos pesos de las mujeres dejando NA para los pesos de los hombres. A continuacion seprocederıa como en el apartado anterior.Pero la forma mas sencilla es recuperar el comando de t.test del apartado anterior eindicarle la variable adecuada.t.test(Peso[Sexo==’mujer’], alternative=’two.sided’, mu=0.0,conf.level=.95)

intervalo 54.12-58.29

c) Estudios recientes afirman que la altura media de las mujeres de esta poblaciones µ = 167 cm. A la vista de estos datos, ¿podemos aceptar dicha hipotesis?Como en el caso anterior para el intervalo, ahora indicamos el valor de µ a contrastarmu=167

t.test(Altura[Sexo==’mujer’], alternative=’two.sided’,mu=167, conf.level=.95)

p-value 0.4273

Se observa que el p-valor obtenido es superior al nivel de significacion fijado en α = 0,05,luego aceptarıamos la hipotesis.

d) Calcular el intervalo de confianza para el Pulso1 medio de las mujeres que no fuman.

t.test(Pulse1[Sexo==’mujer’ & Fumar==’no’],alternative=’two.sided’,mu=0.0, conf.level=.95)

(70,36− 78,83)

e) Calcular el intervalo de confianza para la media del incremento del pulso (Pulso2-Pulso1)para los individuos que corrieron.

t.test(increpulso[Correr==’corrio’], alternative=’two.sided’,mu=0.0, conf.level=.95)

(13,74− 24,08)

Page 23: Descargar el Manual II

7.1. INTERVALO DE CONFIANZA DE LA MEDIA. 23

45. Se espera que la resistencia en kg/cm2 de cierto material suministrado por un proveedor sedistribuya normalmente, con media 220 y desviacion tıpica 7.75. Se toma una muestra de 9elementos y se obtiene: 203, 229, 215, 220, 223, 233, 208, 228, 209. Se pide:

a) Contrastar la hipotesis µ = 220 y σ cualquiera.

En la Ventana de instrucciones asignamos la variable resistencia conresistencia <- c(203, 229, 215, 220, 223, 233, 208, 228, 209)

Como en el ejercicio anterior efectuamos el contraste t.test

t.test(resistencia,alternative=’two.sided’,mu=220,conf.level=.95)

Y obtenemos el resultado en la Ventana de resultados

————————————-One Sample t-test————————————-data: resistencia$resist = -0.6665, df = 7, p-value =0.5265alternative hypothesis: true mean is not equal to 22095 percent confidence interval:208.6298 226.3702sample estimates: mean of x 217.5

b) Contrastar la hipotesis σ = 7,75 y µ cualquiera.

Este contraste no aparece entre las opciones de Rcommander, por ello vamos a utilizarlas formulas. Calculamos el estadıstico de contraste con

(n− 1)s2X

σ2∼ χ2

n−1

D <- (length(x)-1)*var(x)/7.75^2

Calculamos el nivel crıtico (p-valor) de la distribucion, es decir, el area que quedaa la derecha de D, teniendo en cuenta que el estadıstico del contraste sigue unaChi-cuadrado.

pchisq(D,length(x)-1, ncp=0, lower.tail = FALSE)%

Como p-value=0.06416552 aceptamos la hipotesis nula si el nivel de significaciones 0.05.

Page 24: Descargar el Manual II

24 TEMA 7. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPOTESIS

7.2. Intervalos de confianza y contraste de la proporcion.

47. Cargar (abrir) el conjunto de Datos Pulso.rda y calcular el intervalo de confianza parala proporcion pF de individuos que fuman con α = 0,05.

Para realizar el contraste de la proporcion o hallar el intervalo de confianza, se elige en elMenu, Proporciones->Test de Proporciones para una muestra

> .Table <- xtabs( Fumar , data= Pulsaciones )

>.Table Fumarfuma no fuma28 64

> prop.test(rbind(.Table), alternative=’two.sided’, p=.5, conf.level=.95, correct=FALSE)1-sample proportions test without continuity correctiondata: rbind(.Table), null probability 0.5X-squared = 14.087, df = 1, p-value = 0.0001746 alternative hypothesis: true p is notequal to 0.5 95 percentconfidence interval: 0.2197369 0.4046427 sample estimates: p 0.3043478

prop.test(c(28),c(92) alternative=’two.sided’, p=.5, conf.level=.95, correct=FALSE)

Page 25: Descargar el Manual II

7.3. INTERVALOS DE CONFIANZA Y CONTRASTE DE DIFERENCIA DE DOS MEDIAS:25

7.3. Intervalos de confianza y contraste de diferencia de dosmedias:

52. Cargar (abrir) el conjunto de Datos Pulso.rda y determinar si hay diferencia signi-ficativa entre la altura media de hombres y mujeres con un nivel de significacionα = 0,05.

Si llamamos a la altura media de hombres µH y a la altura media de mujeres µM , se trata derealizar el contraste

H0 ≡ µH = µM = µ0

H1 ≡ µH 6= µM

}

Este ejercicio lo vamos a resolver de 2 formas.

La primera acudimos en el Menu, a Medias->Test de para muestras indepeendientes. Acontinuacion elegimos la variable explicada Altura desglosada por la variable de GruposSexo, dejando por defecto la opcion de contraste Bilateral y tambien por defecto nosuponer varianzas iguales (σ2

1 6= σ22)

La salida en la Ventana de resultados nos dice que el p-value = 9.778e-15 muy inferiorque el α = 0,05 que habıamos fijado. Por ello se rechaza la igualdad de medias. A suvez, llegamos a la misma conclusion, si nos fijamos en queconfidence interval: 10.80570 16.39458, no incluye el valor nulo.

Page 26: Descargar el Manual II

26 TEMA 7. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPOTESIS

> t.test(Altura~Sexo, alternative=’two.sided’, conf.level=.95,var.equal=FALSE, data=Pulsaciones)

Welch Two Sample t-test

data: Altura by Sexo t = 9.7007, df = 72.514, p-value = 9.778e-15alternative hypothesis: true difference in means is not equal to 095 percent confidence interval:10.80570 16.39458sample estimates: mean in group hombre mean in group mujer

179.7161 166.1160

El metodo anterior con menus requiere tener los valores de las dos variables en unamisma columna y a su vez desglosada con otra columna que hace de factor. La segundaforma es mas versatil.A partir del comando t.test de arriba bastarıa escribir:

t.test(Altura[Sexo==’hombre’],Altura[Sexo==’mujer’],var.equal=FALSE, alternative=’two.sided’, conf.level=.95,

Teniendo en cuenta que la seleccion de las variables puede ser mas complicado que las opcionesque ofrece el Menu de Rcommander, la segunda forma es mas flexible que la primera.

Page 27: Descargar el Manual II

7.4. INTERVALOS DE CONFIANZA Y CONTRASTE DE DIFERENCIA DE DOS PROPORCIONES.27

7.4. Intervalos de confianza y contraste de diferencia de dosproporciones.

52. Cargar (abrir) el conjunto de Datos Pulso.rda y determinar si hay diferencia signi-ficativa entre la proporcion de hombres y mujeres que fuman con un nivel designificacion α = 0,05.

Si llamamos a la proporcion de hombres que fuman pF |H y a la proporcion de mujeres quefuman pF |M , se trata de realizar el contraste

H0 ≡ pF |H = pF |M = p0

H1 ≡ pF |H 6= pF |M

}

Este ejercicio lo vamos a resolver de 2 formas.

La primera acudimos en el Menu, a Proporciones->Test de Proporciones para dos mues-tras. A continuacion elegimos la variable explicada Fumar desglosada por la variable deGrupos Sexo, dejando por defecto la opcion de contraste Bilateral y tambien por defectola aproximacion normal

La salida en la Ventana de resultados nos dice que el p-value = 0.2158 mayor que elα = 0,05 que habıamos fijado. Por ello se acepta la igualdad de proporciones. A su vez,

Page 28: Descargar el Manual II

28 TEMA 7. INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPOTESIS

llegamos a la misma conclusion, si nos fijamos en queconfidence interval: -0.06398087 0.30859240, incluye el valor nulo,

> .Table <- xtabs(~Sexo+Fumar, data=Pulsaciones)> rowPercents(.Table)

FumarSexo fuma no fuma Total Counthombre 35.1 64.9 100 57mujer 22.9 77.1 100 35

> prop.test(.Table, alternative=’two.sided’, conf.level=.95, correct=FALSE)2-sample test for equality of proportions without continuity correction

data: .Table X-squared = 1.5321, df = 1, p-value = 0.2158alternative hypothesis: two.sided 95 percent confidence interval:-0.06398087 0.30859240sample estimates:

prop 1 prop 20.3508772 0.2285714

La segunda es hacer el recuento de las frecuencias respectivas, con:x1<-sum(Sexo==’hombre’ & Fumar==’fuma’);n1<-sum(Sexo==’hombre’)x2<-sum(Sexo==’mujer’ & Fumar==’fuma’);n2<-sum(Sexo==’mujer’)

prop.test(c(x1,x2),c(n1,n2), alternative=’two.sided’, conf.level=.95, correct=FALSE)

Teniendo en cuenta que el recuento de las variables puede ser mas complicado que las opcionesque ofrece el Menu de Rcommander, la segunda forma es mas flexible que la primera.