intervalos de confianza y contrastes de...

22
Prácticas de Estadística con R Práctica 3. Inferencia: Intervalos de Confianza y Contraste de Hipótesis INTERVALOS DE CONFIANZA Para poder realizar el cálculo de los intervalos de confianza, así como de los contrastes de hipótesis referentes a las distribuciones de probabilidad para representar el comportamiento estadístico de poblaciones, se supone que la muestra de datos recogida es representativa del comportamiento de la población, y una de las formas más usuales de garantizar esa representatividad es mediante muestras aleatorias simples. Intervalo de confianza de la media poblacional Vamos a comenzar por hallar el intervalo de confianza para la media poblacional. Existen dos tipos de estimación, la puntual se halla calculando la media de la muestra, y es de cálculo sencillo, pero es difícil que esta estimación coincida con el verdadero valor de la media poblacional, aparte de no informar sobre el error que cometemos. Otra forma es la estimación por intervalos que consiste en calcular a partir de la muestra, un intervalo con una probabilidad dada (nivel de confianza), de contener el valor de la media poblacional, informándonos del error. Ejemplo: Queremos estudiar la altura media de todos los individuos con un nivel de confianza de =0.05. Utilizamos como conjunto de datos activo el de Pulso. Lo hemos asociado al data.frame Pulsea1. Caso de desconocida: Para calcular el intervalo de confianza empleamos la secuencia:se hace la secuencia: >Estadísticos >Medias >Test t para una muestra… Para el intervalo de confianza bilateral hay que marcar En Hipótesis alternativa >Media poblacional = 0, 1/22

Upload: trinhque

Post on 29-May-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Intervalos de confianza y contrastes de hipótesispersonales.unican.es/gonzaleof/Itop/jaime/Pract_3_R.doc · Web viewintervalo con el R Commander, aparece el siguiente aviso en los

Prácticas de Estadística con R

Práctica 3. Inferencia: Intervalos de Confianza y Contraste de Hipótesis

INTERVALOS DE CONFIANZA

Para poder realizar el cálculo de los intervalos de confianza, así como de los contrastes de hipótesis referentes a las distribuciones de probabilidad para representar el comportamiento estadístico de poblaciones, se supone que la muestra de datos recogida es representativa del comportamiento de la población, y una de las formas más usuales de garantizar esa representatividad es mediante muestras aleatorias simples.

Intervalo de confianza de la media poblacionalVamos a comenzar por hallar el intervalo de confianza para la media poblacional. Existen dos tipos de estimación, la puntual se halla calculando la media de la muestra, y es de cálculo sencillo, pero es difícil que esta estimación coincida con el verdadero valor de la media poblacional, aparte de no informar sobre el error que cometemos. Otra forma es la estimación por intervalos que consiste en calcular a partir de la muestra, un intervalo con una probabilidad dada (nivel de confianza), de contener el valor de la media poblacional, informándonos del error.

Ejemplo: Queremos estudiar la altura media de todos los individuos con un nivel de confianza de =0.05.Utilizamos como conjunto de datos activo el de Pulso. Lo hemos asociado al data.frame Pulsea1.

Caso de desconocida:

Para calcular el intervalo de confianza empleamos la secuencia:se hace la secuencia:>Estadísticos >Medias >Test t para una muestra…

Para el intervalo de confianza bilateral hay que marcar En Hipótesis alternativa >Media poblacional = 0, Aunque hay un error y debería mostrar el texto Media poblacional <> 0, como hipótesis alternativa.Hay que elegir la Variable Height para altura, y dar un nivel de confianza, aquí del 95%

La instrucción R generada:> t.test(Pulsea1$Height, alternative='two.sided', mu=0.0, conf.level=.95)

One Sample t-testdata: Pulsea1$Height t = 180.1207, df = 91, p-value < 2.2e-16alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: (67.95957 69.47521)sample estimates:

mean of x 68.71739 Estimador puntual

Si se pusiera mu=5.8, el intervalo calculado sería el mismo, siempre que indiquemos alternative='two.sided' (Bilateral).El cálculo anterior se basa en la distribución t de Student para un estadístico asociado a la media muestral, que es el más adecuado si no se conoce la varianza poblacional. El intervalo de confianza bilateral se formula:

xm t(n-1, 1-α/2) s/ ,

1/15

Page 2: Intervalos de confianza y contrastes de hipótesispersonales.unican.es/gonzaleof/Itop/jaime/Pract_3_R.doc · Web viewintervalo con el R Commander, aparece el siguiente aviso en los

con s la cuasi-desviación típica muestral, xm la media muestral, t(n-1, 1-α/2) el valor tal que Pr(tn-1 <= t(n-1, 1-α/2)) = 1- α/2, esto es, el valor de la variable tn-1 de Student de (n-1) grados de libertad que deja a su izquierda un área de valor (1- α/2) bajo la función de densidad, o sea el cuantil (1- α/2) de la t de Student con (n-1) g.l.

La función sd calcula la cuasi desviación típica de la muestra. Y la siguiente secuencia de instrucciones R , los extremos del intervalo de confianza buscado:> n=length(Pulsea1$Height)-sum(is.na(Pulsea1$Height))> s=sd(Pulsea1$Height, na.rm = TRUE)>extrIzq=mean(Pulsea1$Height,na.rm=TRUE)-qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n)>extrDer=mean(Pulsea1$Height,na.rm=TRUE)+qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n)>extrIzq;extrDer[1] 67.95957[1] 69.47521

Se ha utilizado la función is.na(), que vale TRUE o FALSE al aplicarse a una secuencia de datos. Es muy útil cuando faltan algunos datos que aparecen reflejados en el conjunto de ellos con el valor “NA”. No ocurre aquí, pero en previsión de que ocurra, se ofrece la anterior programación. Con los datos de Pulsos, podemos ver que para la variable Activity falta 1 dato, en la fila 54 del data.frame de Pulsos:> sum(is.na(Pulsea1$Activity))[1] 1La función is.na() devuelve aquí un vector con 1 componente FALSE y 91 componentes TRUE. Al aplicar la función sum() a este vector de valores lógicos (con un valor igual a 1 y 91 valores nulos), da la suma de los 1’s, que es 1.

Caso de conocida:

Si se conociese la varianza de la población de alturas, se podría construir un intervalo de confianza bilateral basándose en la distribución normal:

Recuérdese que el intervalo de confianza al 95% es , con xm la media muestral y el cuantil 1-

α/2 de la variable normal N(0,1). (1- α /2=1-0.025=0.975).

Con el mismo ejemplo, suponiendo que la desviación típica poblacional es =3.7 , la siguiente secuencia de instruccions R nos da los extremos del intervalo de confianza:> sigma=3.7;n=length(Pulsea1$Height)-sum(is.na(Pulsea1$Height))> extrIzq= mean(Pulsea1$Height,na.rm=TRUE) - qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE)*sigma/sqrt(n)> extrDer= mean(Pulsea1$Height,na.rm=TRUE) + qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE)*sigma/sqrt(n)> extrIzq;extrDer[1] 67.96133[1] 69.47345

Tamaño de la muestra para estimar cuando es conocida.

Cuando la es conocida, se puede calcular el tamaño de muestra aleatoria simple necesario para obtener un intervalo de confianza con un margen de error dado.

Se llama margen de error, o simplemente error, E a la semiamplitud del intervalo de confianza.

Para el intervalo de confianza bilateral de la media, el margen de error es: E= , y despejando de aquí el

tamaño muestral:

Vamos a hacer una pequeña tabla que recoja la variación del tamaño de la muestra para un conjunto de valores del margen de error , cuando sigma=3.7. Considerando un nivel de confianza del 95%, z1-α/2 = z0,975 = 1,96 .

Recordemos cómo obtener con R el valor z0.975 =aprox 1.96:> qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE)[1] 1.959964

2/15

Page 3: Intervalos de confianza y contrastes de hipótesispersonales.unican.es/gonzaleof/Itop/jaime/Pract_3_R.doc · Web viewintervalo con el R Commander, aparece el siguiente aviso en los

Calcularemos una pequeña tabla para diferentes valores de E, desde el valor inicial 0.5 al valor final 5 a incrementos de 0.5, estarán contenidos en un vector de nombre Evector

Una secuencia de valores equidistantes se puede hacer con R:> 2.3:8[1] 2.3 3.3 4.3 5.3 6.3 7.3

> Evector=seq(0.5,5, by=0.5);Evector [1] 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

> Elongi=seq(length=12,from=0.5, by=0.2);Elongi [1] 0.5 0.7 0.9 1.1 1.3 1.5 1.7 1.9 2.1 2.3 2.5 2.7

La siguiente secuencia de instrucciones da la tabla de tamaños de muestra buscada:> sigma=3.7;> cuantil=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE);cuantil[1] 1.959964> Evector=seq(0.5,5, by=0.5);Evector [1] 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0> nvector=cuantil^2*sigma^2/Evector^2;nvector;ceiling(nvector) [1] 210.358285 52.589571 23.373143 13.147393 8.414331 5.843286 4.293026 [8] 3.286848 2.597016 2.103583 [1] 211 53 24 14 9 6 5 4 3 3

Los últimos valores son los enteros para n en correspondencia con las componentes del vector Evector (la función ceiling () da el entero mayor inmediato al valor del argumento.

Así obtenemos cada Tamaño de la muestra con su correspondiente Margen de Error. Para tener menor Margen de error se ha de aumentar la muestra, como es natural.

Tamaño de la muestra para estimar cuando es desconocida. El Margen de error o semiamplitud del intervalo de confianza es en el caso de es desconocida :

E= t(n-1, 1-α/2) s/ .Aquí no se puede despejar el tamaño muestral n cuando se quiere elegir uno de antemano para garantizar un error dado con un cierto nivel de confianza, pues s, cuasi desviación típica muestral. no es conocida a priori de la extracción de la muestra. Pero se podría hacer una tabla relacionando n y E, para diversos valores de s considerando estimaciones de s que seas sensatas.

Ejemplos de Aplicación de los Intervalos de Confianza para contrastar hipótesis

Ejemplo: Con el conjunto de datos de Pulsos, queremos estudiar la altura media de los hombres solamente, por medio de un intervalo de confianza al nivel de significación =0.05, o de confianza del 95%, y utilizarlo para contrastar la hipótesis de si la altura media de los hombres es de 171 cms. Vamos a generar un conjunto de datos con las alturas de los hombres.En principio debemos filtrar la altura por medio del Género para separar los hombres de las mujeres con la secuencia::>Datos >Conjunto de datos activos>Filtrar datos.

Como marcamos Incluir todas las variables, va a generar unData.frame con todos los datos referidossólo a Hombres: Gender==”Male”

El nuevo conjunto de datos activo, que tiene siempre el tipodata.frame, se llamará Alturahombres

El intervalo de confianza para la media de altiras ,Emplando el R Commander, lo producen los menús:

3/15

Page 4: Intervalos de confianza y contrastes de hipótesispersonales.unican.es/gonzaleof/Itop/jaime/Pract_3_R.doc · Web viewintervalo con el R Commander, aparece el siguiente aviso en los

>Estadísticos > Medias >Test para una muestra….Resultando en la Ventana de resultados de R Commander

One Sample t-test

data: Alturahombres$Height t = 206.8254, df = 56, p-value < 2.2e-16alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 70.06908 71.43969 sample estimates:mean of x 70.75439

Basándonos en el intervalo de confianza para la media de alturas de hombres: (70.06908 71.43969) consideremos ahora el contraste de hipótesis sobre que la altura media es 171 cms. Pasando esta altura media a pulgadas, que es la información extraída de la tabla: 171/2.54= 67.3228 pulgadas.

Se concluye afirmando con el 95% de confianza que la altura media no es 171 cms, pues 67.3228 pulgadas no está contenido en el intervalo de confianza calculado.

Ejemplo: Calcular el intervalo de confianza de la media del pulse1 de los hombres que fuman en los datos de Pulsos. Vamos a filtrar los datos de de Pulsos generando un nuevo data.frame que recoja la variable Pulse1 con la restricción de que se refiera a Hombres (“Male”) que Fuman.(“Smoke”) . La secuencia de filtrado_> Datos >Conjunto de datos activo > Filtrar conjunto de datos activo…

Llamamos al conjunto de dato activo resultante:Pulso1HombresFuman, que tiene 1 sola Variable (columna) con Pulse1,con tantos datos como hombres fumadores.

La instrucción R asociada al filtrado:> Pulso1HombresFuman <-subset(Pulsea1, subset=(Gender=="Male")&(Smokes=="Smoke"), select=c(Pulse1))

Con el menu. > Estadísticos > Medias > Test t para una muestra…se genera la instrución R y el resultado con el intervalo de confianza bilateral de la media de pulsos con el 95% de confianza::

> t.test(Pulso1HombresFuman$Pulse1, alternative='two.sided', mu=0.0, conf.level=.95)

Ventana de resultados de R Commander:data: Pulso1HombresFuman$Pulse1 t = 25.777, df = 19, p-value = 3.026e-16alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 65.41875 76.98125 sample estimates:mean of x 71.2

4/15

Page 5: Intervalos de confianza y contrastes de hipótesispersonales.unican.es/gonzaleof/Itop/jaime/Pract_3_R.doc · Web viewintervalo con el R Commander, aparece el siguiente aviso en los

Ejemplo: Se espera que la resistencia en kg/cm2 de cierto material suministrado por un proveedor se distribuya normalmente, con media 220 y desviación típica 7.75. Se toma unaa muestra de 9 elementos y se obtiene: 203, 229, 215, 220, 223, 233, 208, 228, 209. Se pide: Hallar el intervalo de confianza del 95% para la media y contrastar la hipótesis de =220, sin considerar conocida la desviación típica poblacional..

Vamos a interpretar el resultado del test de hipótesis con hipótesis nula mu=220, y alternativa que mu<> 220

Las instrucciones R asociadas:> t.test(Resistencia$Resis, alternative='two.sided', mu=220, conf.level=.95)

One Sample t-testdata: Resistencia$Resis t = -0.3801, df = 8, p-value = 0.7138alternative hypothesis: true mean is not equal to 220 95 percent confidence interval: (210.5774 226.7560) sample estimates:mean of x: 218.6667 Este es el estimador puntual

Como el valor p-value=0.7138 es mayor que =0.05, nivel de significación, no rechazamos la hipótesis nula. Observando por otro lado el intervalo de confianza al 95%, como el valor 220 está en el intervalo, no rechazamos que la resistencia media es 220.

Ejemplos propuestos:1º.-Calcular el intervalo de confianza para el peso medio de las mujeres con =0.05.2º.-Estudios recientes afirman que la altura media de las mujeres de esta población es =167cms. A la vista de los datos ¿podemos aceptar dicha hipótesis?3º.-Calcular el intervalo de confianza para el Pulse1 medio de las mujeres que no fuman con =0.05

Intervalo de confianza para una proporciónEjemplo: En los datos de Pulsos, calcular el intervalo de confianza para la proporción de los individuos que no fuman, con un nivel de confianza del 95%, (nivel de significación =0.05)

El programa realiza el intervalo de la proporción de los individuos con un valor del factor atendiendo al orden alfabético de la denominación de los niveles del factor. Aquí realizará el análisis sobre los NonSmoker y no sobre los Smoke. Si quisiéramos calcular el intervalo de los fumadores, tendríamos que cambiar el nombre a los campos: Smoke=Fumador, NonSmoker= Nofumador. La secuencia de menús es:

> Estadísticos > Proporciones >Test de proporciones para una muestra…

Para hace rl intervalo bilateral, se marca Proporción de la población=p0, (R debería escribir <> (distinto) en vez de = (igual)El valor para la Hipótesis nula: p=0.5 por defecto,no importa para intervalo de confianza, pero sí para test.

Se elige Aproximación normal si se considera admisible. Se generan las siguientes instrucciones y respuestas en que incluimos nuestros comentarios:

5/15

Page 6: Intervalos de confianza y contrastes de hipótesispersonales.unican.es/gonzaleof/Itop/jaime/Pract_3_R.doc · Web viewintervalo con el R Commander, aparece el siguiente aviso en los

#Genera una tabla de frecuencias> .Table <- xtabs(~ Smokes , data= Pulsea1 )> .Table

SmokesNonSmoker Smoke 64 28

# La function rbind agrupa la fila numérica 64 28 como iun vector fila para aplicarle la # función prop.test para test de proporciones.

> prop.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95, correct=FALSE)

1-sample proportions test without continuity correction

data: rbind(.Table), null probability 0.5 X-squared = 14.087, df = 1, p-value = 0.0001746 alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.5953573 0.7802631 sample estimates: p 0.6956522 estimador puntual

- Con corrección de continuidad, intervalo con el 95% de confianza: 0.5897050 0.7850303> prop.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95, correct=TRUE)

- Con la distribución binomial exacta, con el 95% de confianza: 0.5909669 0.7873276> binom.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95)

Ejemplo: Calcular el intervalo de confianza para la proporción de las mujeres que no fuman, con un nivel de confianza del 95% (nivel de significación =0.05)

Vamos a actuar utilizando sólo instrucciones R: la siguiente secuencia de instrucciones y respuestas que apoortan al intervalo de confianza buscado:# Se seleccionan los datos> Smokesmujer <- subset(Pulsea1, subset=Gender=="Female")# Se genera una variable MiTabla con las frecuencias observadas> MiTabla <- xtabs(~ Smokes , data= Smokesmujer )# Se muestra el contenido de MiTabla> MiTablaSmokesNonSmoker Smoke 27 8 # Aplicar prop.test() function que da el intervalo deconfianza,# aproximación normal, sin corrección de continuidad> prop.test(rbind(MiTabla),+ alternative='two.sided', p=.5, conf.level=.95,+ correct=FALSE)

1-sample proportions test without continuity correction

data: rbind(MiTabla), null probability 0.5 X-squared = 10.3143, df = 1, p-value = 0.00132alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.6098268 0.8793412 sample estimates: p 0.7714286

Con aproximación normal y corrección de continuidad:95 percent confidence interval: 0.5944798 0.8895560 Con modelo Binomial exacto:

6/15

Page 7: Intervalos de confianza y contrastes de hipótesispersonales.unican.es/gonzaleof/Itop/jaime/Pract_3_R.doc · Web viewintervalo con el R Commander, aparece el siguiente aviso en los

> binom.test(rbind(MiTabla), alternative='two.sided', p=.5, conf.level=.95)Exact binomial test

95 percent confidence interval: 0.5986367 0.8957896

Ejemplo: Con los datos de Pulsos, calcular el intervalo de confianza para la proporción de no fumadoras entre las mujeres de baja actividad física. Es un caso en que el conjunto de datos que resulta es muy reducido. Se puede obtener desde el R Commander utilizando el proceso de filtrado de datos, conservando la variable Smokes y seleccionando los individuos con la restricción (Gender==’Female’) &( Activity==”Slight”)

Al seleccionar el proceso para el intervalo con el R Commander, aparece el siguiente aviso en los mensajes de error, indicando que los datos, por su escasez, no son adecuados para este tipo de análisis basado en el modelo normal:

AVISO: Warning in prop.test(rbind(.Table), alternative = "two.sided", p = 0.5, : Chi-squared approximation may be incorrect1-sample proportions test without continuity correctiondata: rbind(.Table), null probability 0.5 X-squared = 1, df = 1, p-value = 0.3173alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.3006418 0.9544127 sample estimates: p 0.75

*** Lo que procede hacer es utilizar la distribución binomial exacta, resultando:

> .Table <- xtabs(~ Smokes , data= F1 )> .TableSmokesNonSmoker Smoke 3 1 > binom.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95)

Exact binomial testdata: rbind(.Table) number of successes = 3, number of trials = 4, p-value = 0.625alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.1941204 0.9936905 sample estimates:probability of success 0.75

Obsérvese que el proceso binomial exacto da como intervalo de confianza al 95%: (0.1941204 0.9936905), que es muy poco informativo por la escasez de datos.

Ejemplo de proporción con datos numéricos (Libro Luceño&González, pg 339).- Con objeto de estudiar la resistencia a compresión de un determinado hormigón, se han realizado 10 probetas que posteriormente han sido sometidas a un ensayo de rotura, habiéndose observado las siguientes resistencias (medidas en Kg/cm2)

348.3, 378.9, 329.6, 379.3, 348.8, 367.7, 358.4, 378.2, 377.9, 341.8Se pide:Estimar puntualmente y mediante intervalos de confianza, a niveles de confianza 0,95 y 0.99 , la proporción de probetas cuya resistencia supera 350 kg/cm2

Proceso con instrucciones R:

7/15

Page 8: Intervalos de confianza y contrastes de hipótesispersonales.unican.es/gonzaleof/Itop/jaime/Pract_3_R.doc · Web viewintervalo con el R Commander, aparece el siguiente aviso en los

> Resis=c(348.3,378.9,329.6,379.3,348.8,367.7,358.4,378.2,377.9,341.8)> N=length(Resis)> x=sum(as.numeric(Resis>350))> binom.test(x,N,alternative='two.sided', p=.5, conf.level=.95)

Exact binomial test# Da el intervalo con la distrib F, expresión 7.8, libro Luceño&González, p 317data: x and N number of successes = 6, number of trials = 10, p-value = 0.7539alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.2623781 0.8784477 sample estimates:probability of success 0.6

Lo comprobamos hallando dicho intervalo con la citada expresión 7.8:> iz=x/(x+(N+1-x)*qf(c(0.975), df1=2*N+2-2*x, df2=2*x, lower.tail=TRUE));iz[1] 0.2623781> der=(x+1)/(x+1+(N-x)/qf(c(0.975), df1=2*x+2, df2=2*N-2*x, lower.tail=TRUE));der[1] 0.8784477

Si se emplea la aproximación normal de la binomial sin corrección de continuidad y la expresión (7.7), Luceño&Glez, p316 :> Resis=c(348.3, 378.9, 329.6, 379.3, 348.8, 367.7, 358.4,

378.2, 377.9, 341.8)> x=sum(as.numeric(Resis>350))> N=length(Resis)> prop.test(x,N,alternative='two.sided', p=.5, conf.level=.95, correct=FALSE)

1-sample proportions test without continuity correction

data: x out of N, null probability 0.5 X-squared = 0.4, df = 1, p-value = 0.5271alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.3126738 0.8318197 sample estimates: p0.6

Comprobamos la expresión (7.7), Luceño&Glez, p316 :> z=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE)> p=x/N;> iz77=(p+z^2/(2*N)-z*sqrt(p*(1-p)/N+z^2/(4*N^2)))/(1+z^2/N);iz77[1] 0.3126738> der77=(p+z^2/(2*N)+z*sqrt(p*(1-p)/N+z^2/(4*N^2)))/(1+z^2/N);der77[1] 0.8318197

Si se trabaja con la aproximación normal de prop.test de R, y CON corrección de continuidad:> prop.test(x,N,alternative='two.sided', p=.5, conf.level=.95, correct=TRUE)

1-sample proportions test with continuity correction

data: x out of N, null probability 0.5 X-squared = 0.1, df = 1, p-value = 0.7518alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.2736697 0.8630694 sample estimates: p 0.6

Si se trabaja con el intervalo expr. 7.6 Luceño&Glez, p316, que no es adecuado en este caso, por ser 8/15

Page 9: Intervalos de confianza y contrastes de hipótesispersonales.unican.es/gonzaleof/Itop/jaime/Pract_3_R.doc · Web viewintervalo con el R Commander, aparece el siguiente aviso en los

N-x=10-6=4 , QUE ES MENOR O IGUAL QUE 5, veamos que sale de aplicar la citada expresión, programándola en R:> iz76=p-z*sqrt(p*(1-p)/N);iz76[1] 0.2963637> der76=p+z*sqrt(p*(1-p)/N);der76[1] 0.9036363

Con nivel de confianza del 99%, intervalo con la distribución F basado en la binomial exacta:> binom.test(x,N,alternative='two.sided', p=.5, conf.level=.99)

Exact binomial testdata: x and N number of successes = 6, number of trials = 10, p-value = 0.7539alternative hypothesis: true probability of success is not equal to 0.5 99 percent confidence interval: 0.1909163 0.9232318 sample estimates:probability of success 0.6

Se observa que el intervalo es más ancho, al exigir mayor confianza.

Proceso con RCommander:

Se introducen los datos como activos en el data.frame ResiProp, bien a través del gestor interactivo de tablas de RCommander o mediante:ResiProp=data.frame(Resis)

Y seleccionando dede el botón Conjunto de datos el data.frame Resiprop, Añadimos una columna a esta tabla:>Datos>Modificar variables del conjunto de datos activo>Recodificar variables…

Y ya en esta situación:> Estadísticos >Proporciones >Test de proporciones para una muestra… con la columna que tiene estructura de variable factor, con el binomial exacto el nivel de confianza 95%

> .Table <- xtabs(~ Resis350 , data= ResiProp )> .TableResis350Grande Peque 6 4 > binom.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95)

Exact binomial testdata: rbind(.Table) number of successes = 6, number of trials = 10, p-value = 0.7539alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.2623781 0.8784477

9/15

Page 10: Intervalos de confianza y contrastes de hipótesispersonales.unican.es/gonzaleof/Itop/jaime/Pract_3_R.doc · Web viewintervalo con el R Commander, aparece el siguiente aviso en los

sample estimates:probability of success 0.6

Al nivel del factor que se considera “éxito” y cuya proporción se estudia, debe dársele un valor que alfabéticamente esté antes que el no deseado, para que R haga el cálculo adecuado. Aquí se ha elegido “Grande”, que está antes que “Peque”.

Tamaño de muestra (aleatoria simple) para estimar una proporción

Llamamos error E al semiancho del intervalo de confianza para la proporción. Basándose en la validez de la aproximación normal de la variable binomial, si se tiene idea del posible valor de la proporción poblacional p

(con base en un muestreo previo, por ejemplo), el tamaño de la muestra es: n

Si no se sabe nada de la magnitud de p, se elige una muestra de tamaño:

n

puesto que el valor p(1-p) es siempre no mayor que 1/4 .

Obsérvese que a menor error E que se desee, el tamaño de la muestra debe ser mayor. Y a mayor nivel de confianza ( o menor nivel de significación), el tamaño también crece.

Ejemplo: Qué tamaño de muestra hay que elegir para estimar una proporción de modo que el error en la estimación sea menor o igual que 0,05, con un nivel de confianza del 95%? (Emplear la aproximación normal con el criterio más desfavorable).> z=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE);z[1] 1.959964> E=0.05; n=ceiling(z^2/(4*E^2));n[1] 385

¿Qué tamaño resultaría en el caso de que se emplee una primera estimación de la proporción de valor 0.17 ? > p=0.17> n=ceiling(z^2*p*(1-p)/E^2);n[1] 217

Naturalmente, con más información, se reduce el tamaño de la muestra necesaria.

Intervalo de confianza para la varianzaR no da con un menú específico el intervalo de confianza para la varianza, aunque permite comparar varianzas de dos poblaciones a partir de sendas muestras de cada una.

Admitiendo la hipótesis de normalidad en la población de partida, se puede calcular el intervalo de confianza para la varianza:

[(n-1)*s2/χ2(n-1, 1-α/2) ; (n-1)*s2/χ2(n-1, α/2) ], calculando cada componente de las fórmulas.

Ejemplo.- Para el caso de las 10 probetas de hormigón sometidas a un ensayo de rotura, con los datos de resistencia en el vector columna Resis del data.frame ResiProp, se obtienen el intervalo de confianza de nivel 95% para la varianza y el de la desviación típica (los extremos son raíz cuadrada de los de la varianza), como sigue:

> n=length(ResiProp$Resis);s=sd(ResiProp$Resis);s[1] 18.11387> chi_iz=qchisq(c(0.975), df=n-1, lower.tail=TRUE)

10/15

Page 11: Intervalos de confianza y contrastes de hipótesispersonales.unican.es/gonzaleof/Itop/jaime/Pract_3_R.doc · Web viewintervalo con el R Commander, aparece el siguiente aviso en los

-1.5 -1.0 -0.5 0.0 0.5 1.0 1.5

330

340

350

360

370

380

norm quantiles

Res

iPro

p$R

esis

> chi_der=qchisq(c(0.025), df=n-1, lower.tail=TRUE)> iz=(n-1)*s^2/chi_iz;der=(n-1)*s^2/chi_der;iz;der [1] 155.2355[1] 1093.549> izDtipica=sqrt(iz);> derDtipica=sqrt(der);izDtipica;derDtipica[1] 12.45935[1] 33.06886> print(c(iz,der));print(c(izDtipica,derDtipica))[1] 155.2355 1093.5493[1] 12.45935 33.06886

Para valorar la normalidad de los datos, podemos utilizar la gráfica de comparación de cuantiles con el modelo normal, al 95% de confianza, que nos señala que es admisible.

También´podemos valorar la normalidad de los datos mediante el test de Shapiro-Wilk:>Estadísticos > Resúmenes > Test de normalidad de Shapiro-Wilk…> shapiro.test(ResiProp$Resis)

Shapiro-Wilk normality testdata: ResiProp$Resis W = 0.8833, p-value = 0.1425

Como el valor de p-value es mayor que el nivel de significación 0.05 por ejemplo, se puede admitir la normalidad de los datos con un nivel de confianza del 95%.

Intervalos de confianza y contraste para la diferencia de dos medias.Se puede realizar la comparación del comportamiento de dos variables aleatorias (de una característica cuantitativa presente en dos poblaciones diferentes), basándose en comparar sus medias a partir de los datos.

Puede ocurrir que se parta de dos muestras aleatorias simples de cada una, obtenidas independientemente una de otra. Es el caso de DATOS INDEPENDIENTES, como las alturas (Height) de mujeres y hombres en los datos de Pulsos.

Otro caso es que los DATOS estén EMPAREJADOS o APAREADOS, y aunque la obtención de cada pareja es independiente de la obtención de las otras, los dos datos de cada pareja sí están relacionados y hay una dependencia entre ellos.

Ejemplo1: Queremos saber ahora si hay diferencia significativa entre la altura media de hombres y mujeres con un nivel de significación =0.05.La secuencia a seguir sería: >Estadísticos >Medias >Test t para muestras independientes…

Dejamos por defecto la opción de contraste bilateral y de no suponer varianzas iguales:Ventana de resultados:

11/15

Page 12: Intervalos de confianza y contrastes de hipótesispersonales.unican.es/gonzaleof/Itop/jaime/Pract_3_R.doc · Web viewintervalo con el R Commander, aparece el siguiente aviso en los

> t.test(Height~Gender, alternative='two.sided', conf.level=.95, var.equal=FALSE, data=Pulsos)

Welch Two Sample t-testdata: Height by Gender t = -9.7007, df = 72.514, p-value = 9.778e-15alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -6.454559 -4.254213 sample estimates:mean in group Female mean in group Male 65.40000 70.75439

Conclusión: El p-value 9.778e-15 es más pequeño que =0.05 que habíamos fijado, luego no se acepta la igualdad de alturas, la misma conclusión que hubiéramos tenido si nos fijamos en el intervalo de confianza que nos dice que la 2ª media es mayor que la primera. Téngase en cuenta que R que ha hecho la diferencia de medias entre Female (Mujeres) y Male (Hombres), atendiendo al orden alfabético del factor Gender de los datos.

Ejemplo 2, Datos Emparejados:

Para comparar dos materiales A y B para suela de zapatos deportivos, se eligen 10 niños al azar, y a cada uno se le proporciona un par de zapatos, uno con la suela del material A y el otro con la suela del material B. A fin de eliminar en lo posible la influencia de que un material vaya al pie derecho o al izquierdo, la asignación de orden dentro de cada par se hace al azar. Al cabo de 3 meses se mide una característica en cada zapato que refleja su comportamiento ante el uso, que se interpreta con que si la característica medida tiene mayor valor es porque ese tipo de material ofrece mejor calidad. Así resulta:

Niño MatA MatB1 13,2 14,02 8,2 8,83 10,9 11,24 14,3 14,25 10,7 11,86 6,6 6,47 9,5 9,88 10,8 11,39 8,8 9,310 13,3 13,6

Considerando los datos de los desgastes en 10 pares de zapatos según el material A y B, efectuamos la comparación.> t.test(Zapatillas$MatA, Zapatillas$MatB, alternative='two.sided',

conf.level=.95, paired=TRUE)

Paired t-test

data: Zapatillas$MatA and Zapatillas$MatB t = -3.3489, df = 9, p-value = 0.008539alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.6869539 -0.1330461 sample estimates:mean of the differences -0.41

El intervalo de confianza (nivel del 95%) para la diferencia de medias en el Material A y en el B es (-0,687; -0,133),

12/15

Page 13: Intervalos de confianza y contrastes de hipótesispersonales.unican.es/gonzaleof/Itop/jaime/Pract_3_R.doc · Web viewintervalo con el R Commander, aparece el siguiente aviso en los

lo que indica que el valor de la característica de uso (por tanto la satisfacción) es mayor con el Material B que con el A. Desde la visión de contraste de hipótesis, el reducido valor del p-valor: 0,009, indica que la hipótesis de igualdad de medias se rechazaría con un nivel de significación del 5%, frente a la hipótesis de que los dos materiales son igualmente satisfactorios.

Vamos a tratar los datos, erróneamente respecto al diseño del experimento, comparando como si fuesen independientes. Con R es necesario apilar el valor de la variable que mide la Calidad en una sola columna o variable, e introducir otra columna que indica el tipo de Material. Se opera con los menús,

>Datos>Conjunto de datos activo>Apilar variables del conjunto de dats activo…, con instrucciones R:> ZapatillasApilados <- stack(Zapatillas[, c("MatA","MatB")])> names(ZapatillasApilados) <- c("Calidad", "Material")

Al aplicar el test de diferencia de medias de Calidad con datos independientes, resulta:> t.test(Calidad~Material, alternative='two.sided', conf.level=.95, var.equal=FALSE, data=ZapatillasApilados)

Welch Two Sample t-testdata: Calidad by Material t = -0.3689, df = 17.987, p-value = 0.7165alternative hypothesis:

true difference in means is not equal to 0 95 percent confidence interval: -2.745046 1.925046 sample estimates:mean in group MatA mean in group MatB 10.63 11.04

Obsérvese que el intervalo de confianza del 95%, (-2.745046 1.925046)Incluye el valor ‘cero’, es decir, no se puede afirmar que un material es de más calidad que el otro.

El realizar el experimento con datos apareados aumenta la sensibilidad del contraste, detectando mejor las diferencias entre los datos.

Intervalo de confianza y contraste para la diferencia de dos proporciones. Se puede realizar la comparación del comportamiento de dos variables aleatorias (de una característica CUALITATIVA presente en dos poblaciones diferentes), basándose en comparar sus proporciones a partir de los datos.

Queremos determinar en los datos de Pulsos si hay diferencia significativa entre la proporción de mujeres y hombres que no fuman con un nivel del =0.05. La secuencia para el caso sería:

Observar en la ventana de diálogo que apareceDiferencia: Female – Male, es decir, se va a considerar diferencia de proporciones entre mujeres y hombres en relación con la variable Smokes (Fumar)

13/15

Page 14: Intervalos de confianza y contrastes de hipótesispersonales.unican.es/gonzaleof/Itop/jaime/Pract_3_R.doc · Web viewintervalo con el R Commander, aparece el siguiente aviso en los

La secuencia de instrucciones R y respuestas es:> .Table <- xtabs(~Gender+Smokes, data=Pulsea1)> rowPercents(.Table) SmokesGender NonSmoker Smoke Total Count Female 77.1 22.9 100 35 Male 64.9 35.1 100 57> prop.test(.Table, alternative='two.sided', conf.level=.95, correct=FALSE)

2-sample test for equality of proportions without continuitycorrection

data: .Table X-squared = 1.5321, df = 1, p-value = 0.2158alternative hypothesis: two.sided 95 percent confidence interval: -0.06398087 0.30859240 sample estimates: prop 1 prop 2 0.7714286 0.6491228

> remove(.Table)

La diferencia (prop 1 - prop 2) será el estimador puntual de la diferencia de proporciones:= 0.7714286- 0.6491228=0.1223058

Observar que R ha calculado la diferencia entre proporciones de Mujeres y Hombres que NO FUMAN (NonSmoker), dando prioridad al nivel NonSmoker que está alfabéticamente antes que Smoke. Si se quisiera estudiar la diferencia de proporciones de fumadores , habría que asignar otros valores a los niveles NonSmoker y Smoke, de manera que esté alfabéticamente antes el de Fumador, por ejemplo: Fuma y NoFuma. Esto se puede hacer con el RCommander con el menú Recodificar variables... Más sencillo desde los resultados anteriores: cambiar el signo de los extremos del intervalo y complementar a 1 las proporciones calculadas.

La salida en la ventana de resultados nos muestra que el p-value = 0.2158 es mayor que el que nos habíamos fijado, 0.05, luego aceptamos la igualdad de proporciones. A su vez llegamos a la misma conclusión si nos fijamos que el intervalo de confianza (-0.06398087, 0.30859240) contiene a la hipótesis nula Ho: p1-p2 = 0

Observar que si se realiza el proceso con un nivel de confianza del 80%, el intervalo que sale es . (Aproximación normal sin corrección de continuidad):

> .Table <- xtabs(~Gender+Smokes, data=Pulsea1)> rowPercents(.Table) SmokesGender NonSmoker Smoke Total Count Female 77.1 22.9 100 35 Male 64.9 35.1 100 57

> prop.test(.Table, alternative='two.sided', conf.level=.80, correct=FALSE)2-sample test for equality of proportions withoutcontinuity correction

data: .Table X-squared = 1.5321, df = 1, p-value = 0.2158alternative hypothesis: two.sided 80 percent confidence interval: 0.0004994808 0.2441120480 sample estimates: prop 1 prop 2 0.7714286 0.6491228 > remove(.Table)

Es decir, que con ese nivel de confianza, la evidencia que aporta la muestra indica que las mujeres fuman más de los hombres.

14/15

Page 15: Intervalos de confianza y contrastes de hipótesispersonales.unican.es/gonzaleof/Itop/jaime/Pract_3_R.doc · Web viewintervalo con el R Commander, aparece el siguiente aviso en los

Intervalo de confianza para el cociente de dos varianzas (datos independientes)En este proceso, que es muy sensible a la hipótesis de normalidad de los datos, se quiere valorar si las varianzas de dos poblaciones son iguales o no a partir de la evidencia de dos muestras.

Llamando teta=12/22 , se puede calcular un intervalo de este cociente de varianzas empleando la distribución F de Snedecor, haciéndose notar que el proceso es poco robusto, es decir, muy sensible a la hipótesis de normalidad d e los datos. (Luceño&González, expresión 7.20, pg 328). El intervalo es:

(teta/F(n1-1,n2-1,1- /2), teta*F(n2-1,n1-1,1- /2)

siendo teta el cociente de cuasivarianzas muestrales.

Se calcula con las intrucciones R:> cv1=sd(Pulsea1$Height[Pulsea1$Gender=="Female"])^2;> cv2=sd(Pulsea1$Height[Pulsea1$Gender=="Male"])^2> alfa=0.05> n1=sum(Pulsea1$Gender=="Female");n2=sum(Pulsea1$Gender=="Male")> print(c(n1,n2));print(c(cv1,cv2))[1] 35 57[1] 6.566912 6.670739> teta=cv1/cv2;> Fiz=qf(c(1-alfa/2), df1=n1-1, df2=n2-1, lower.tail=TRUE);> Fder=qf(c(0.975), df1=n2-1, df2=n1-1, lower.tail=TRUE)> iz=teta/Fiz;der=teta*Fder;print(c(iz,der))

[1] 0.5467021 1.8561761 # este es el intervalo de confianza

Por otra parte, con el menu de RCommander: > Estadísticos > Varianzas > Test F para 2 varianzas…

> tapply(Pulsea1$Height, Pulsea1$Gender, var, na.rm=TRUE) #calcula varianzas de datos

Female Male 6.566912 6.670739

> var.test(Height ~ Gender, alternative='two.sided', conf.level=.95, data=Pulsea1)

F test to compare two variancesdata: Height by Gender F = 0.9844, num df = 34, denom df = 56, p-value = 0.9796alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.5467021 1.8561761 sample estimates:ratio of variances 0.9844354

La conclusión es que se acepta la igualdad de varianzas, pues el valor ‘1’ está en el intervalo.

También se puede aplicar el test de Levene de igualdad de varianzas, que es más robusto que el de Bartlett:> Estadísticos > Varianzas > Test de Levene…

> levene.test(Pulsea1$Height, Pulsea1$Gender)Levene's Test for Homogeneity of Variance Df F value Pr(>F)group 1 0.009 0.9247 90

Como Pr(>F)=0.9247, mayor que 0.05., se acepta la igualdad de varianzas al nivel del 95%

Habría que contrastar la hipótesis normalidad de la altura de hombres y de mujeres.

15/15