PostData Curso de Introduccioacuten a la Estadiacutestica
Tutorial 09 Inferencia sobre dos poblaciones
Atencioacuten
Este documento pdf lleva adjuntos algunos de los cheros de datos necesarios Y estaacute pensadopara trabajar con eacutel directamente en tu ordenador Al usarlo en la pantalla si es necesariopuedes aumentar alguna de las guras para ver los detalles Antes de imprimirlo piensa sies necesario Los aacuterboles y nosotros te lo agradeceremos
Fecha 10 de septiembre de 2015 Si este chero tiene maacutes de un antildeo puede resultar obsoletoBusca si existe una versioacuten maacutes reciente
Iacutendice
1 Diferencia de proporciones en dos poblaciones 1
2 Diferencia de medias en dos poblaciones muestras grandes 4
3 Cociente de varianzas en dos poblaciones normales Distribucioacuten F de Fisher-Snedecor 9
4 Diferencia de medias en dos poblaciones muestras pequentildeas 13
5 Datos en bruto con R 22
6 Ejercicios adicionales y soluciones 29
PLANTILLAS DE R PARA CONTRASTES E INTERVALOS DE CONFIANZA 44
Introduccioacuten
Este tutorial contiene la parte praacutectica del Capiacutetulo 9 del libro Como hemos dicho en la introduc-cioacuten de ese capiacutetulo las ideas baacutesicas (intervalos de conanza y contrastes) resultan ya conocidasy aquiacute de lo que se trata es de aplicarlas al caso en el que estudiamos una misma variable aleatoriaen dos poblaciones independientes Las operaciones necesarias en la praacutectica son muy parecidasa las que hemos visto en anteriores capiacutetulos y tutoriales para el caso de una poblacioacuten Para usarel ordenador en estos problemas soacutelo necesitamos en principio ser capaces de resolver problemasde probabilidad (directos e inversos) en las distribuciones correspondientes la normal Z la t deStudent la χ2 y como novedad de este capiacutetulo la F de Fisher Cualquiera de las herramientascon las que nos hemos familiarizado podriacutea ser suciente para este trabajo R por supuesto oGeoGebra Wolfram Alpha incluso Calc permita calcular los valores de cualquiera de esas distri-buciones Pero como ya sabe el lector algunas herramientas son mucho maacutes coacutemodas y ables queotras En este tutorial se incluye en la Tabla 1 (paacuteg 44) una coleccioacuten de plantillas de R quejunto con los de los anteriores tutoriales cubren todos los casos que aparecen en las Tablas delApeacutendice B del libro Ilustraremos el uso de cada una de estas plantillas con un ejemplo detalladoy aprovecharemos algunos de esos ejemplos para abordar el uso de otras herramientas como laCalculadora de Probabilidades de GeoGebra
1 Diferencia de proporciones en dos poblaciones
Ver la Seccioacuten 91 del libro (paacuteg 296)
1
Usando la plantilla de R
Vamos a usar las plantillas de R de la la Tabla 1 para obtener los resultados que aparecen enel Ejemplo 911 del libro (paacuteg 300) Recordemos que en ese ejemplo se trata de contrastar lahipoacutetesis nula
H0 = p1 = p2
Y que para ello se han obtenido dos muestras independientes de tamantildeos n1 = 456 y n2 = 512 enlas que los respectivos nuacutemeros de eacutexitos eran 139 y 184 con lo que las proporciones muestralesde eacutexitos son
p1 =139
456asymp 03048 p2 =
184
512asymp 03594
mientras que las proporciones de fracasos son
q1 asymp 06952 q2 asymp 06406
El caacutelculo del p-valor de este contraste se obtiene muy faacutecilmente con el chero plantilla
de la la Tabla 1 Incluimos aquiacute soacutelo la parte inicial del chero en la que hemos introducido losdatos de este ejemplo Fiacutejate especialmente en que las proporciones muestrales se introducen comococientes no mediante el nuacutemero de eacutexitos Esto se ha hecho asiacute por si en alguacuten caso el enunciadodel problema contiene directamente la proporcioacuten sin mencionar expliacutecitamente el nuacutemero de eacutexitos
PRIMERA MUESTRA Numero de elementos(n1 = 456)
[1] 456
proporcion muestral(pMuestral1 = 139456)
[1] 030482
SEGUNDA MUESTRA Numero de elementos(n2 = 512)
[1] 512
proporcion muestral(pMuestral2 = 184512)
[1] 035938
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateralTipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
El nal del chero plantilla contiene las instrucciones que producen los resultados del contraste(no incluimos la regioacuten de rechazo porque no la vamos a usar)
2
Usando la plantilla de R
Vamos a usar las plantillas de R de la la Tabla 1 para obtener los resultados que aparecen enel Ejemplo 911 del libro (paacuteg 300) Recordemos que en ese ejemplo se trata de contrastar lahipoacutetesis nula
H0 = p1 = p2
Y que para ello se han obtenido dos muestras independientes de tamantildeos n1 = 456 y n2 = 512 enlas que los respectivos nuacutemeros de eacutexitos eran 139 y 184 con lo que las proporciones muestralesde eacutexitos son
p1 =139
456asymp 03048 p2 =
184
512asymp 03594
mientras que las proporciones de fracasos son
q1 asymp 06952 q2 asymp 06406
El caacutelculo del p-valor de este contraste se obtiene muy faacutecilmente con el chero plantilla
de la la Tabla 1 Incluimos aquiacute soacutelo la parte inicial del chero en la que hemos introducido losdatos de este ejemplo Fiacutejate especialmente en que las proporciones muestrales se introducen comococientes no mediante el nuacutemero de eacutexitos Esto se ha hecho asiacute por si en alguacuten caso el enunciadodel problema contiene directamente la proporcioacuten sin mencionar expliacutecitamente el nuacutemero de eacutexitos
PRIMERA MUESTRA Numero de elementos(n1 = 456)
[1] 456
proporcion muestral(pMuestral1 = 139456)
[1] 030482
SEGUNDA MUESTRA Numero de elementos(n2 = 512)
[1] 512
proporcion muestral(pMuestral2 = 184512)
[1] 035938
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es p1 gt p2 2 si es p1 lt p2 3 si es bilateralTipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
El nal del chero plantilla contiene las instrucciones que producen los resultados del contraste(no incluimos la regioacuten de rechazo porque no la vamos a usar)
2
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 00723854663297254
Estadistico
[1] -17967
Como puede verse el p-valor coincide con lo que aparece en ese ejemplo
Usando la funcioacuten proptest
Esta funcioacuten que ya conocimos en el Tutorial08 sirve tambieacuten para este tipo de contrastes Parael Ejemplo 911 del libro que acabamos de calcular el comando a ejecutar seriacutea
proptest(c(139 184) c(456 512) correct=FALSE
alternative=twosided conflevel=095)
2-sample test for equality of proportions without continuity
correction
data c(139 184) out of c(456 512)
X-squared = 323 df = 1 p-value = 0072
alternative hypothesis twosided
95 percent confidence interval
-01138167 00047159
sample estimates
prop 1 prop 2
030482 035938
Como ves
Se introducen dos vectores conteniendo cada uno de ellos respectivamente los eacutexitos y lostamantildeos muestrales frac12Cuidado con este formato
La hipoacutetesis alternativa se indica como en otros casos eligiendo entre less para Ha = p1 ltp2 greater para Ha = p1 gt p2 y twosided para Ha = p1 6= p2
Es necesario incluir la opcioacuten correct=FALSE si queremos obtener el mismo resultado quecon la plantilla De lo contrario R aplica una correccioacuten de continuidad para mejorar laaproximacioacuten de la binomial por la normal
Por uacuteltimo como producto secundario del contraste bilateral obtenemos un intervalo deconanza para p1 minus p2 al nivel de conanza que hayamos indicado
Vamos a usar ese intervalo de conanza como excusa para proponerte un ejercicio
Ejercicio 1
1 Usa el chero plantilla de R de la Tabla 1 (paacuteg 44) para obtener este mismo intervalo deconanza
2 Haz lo mismo usando la pestantildea Estadiacutesticas de la Calculadora de Probabilidades de Geo-Gebra La opcioacuten que tienes que usar tiene un nombre poco claro se llama Z estimadadiferencia de proporciones Luego usa el comando
IntervaloProporcionesZ[ ltProporcioacuten (muestra 1)gt ltTamantildeo (muestra 1)gt
ltProporcioacuten (muestra 2)gt ltTamantildeo (muestra 2)gt ltNivelgt ]
3
para hacer la misma cuenta directamente
3 En Wolfram Alpha puedes teclear two proportion confidence interval para llegar a unainterfaz web en la que hacer este tipo de caacutelculos
2 Diferencia de medias en dos poblaciones muestras gran-des
Para ilustrar este tipo de situaciones vamos a usar un ejemplo relacionado con el que abriacutea elCapiacutetulo 7 del libro
Los dos laboratorios han seguido trabajando y ahora tenemos dos tratamientos de segunda gene-racioacuten para aliviar la depresioacuten en los canguros el Saltaplus Extraforte y el Pildoriacuten con GinsengPara establecer cuaacutel de los dos tratamientos es superior los hemos usado para tratar a los cangu-ros deprimidos de dos muestras independientes midiendo la altura media de sus saltos en metrosLlamando micro1 a la altura media (en metros) de los canguros tratados con Saltaplus y micro2 a la alturamedia de los tratados con Pildoriacuten queremos contrastar la hipoacutetesis (alternativa)
Ha = micro1 lt micro2
que sostiene que la nueva versioacuten de Pildoriacuten es mejor que el Saltaplus renovado Los datos mues-trales son estos (la muestra 1 corresponde a Saltaplus la 2 a Pildoriacuten)
n1 = 245
X1 = 273
s1 = 04
n2 = 252
X2 = 281
s2 = 03
Como las dos muestras son grandes para hacer este contraste podemos usar la plantilla
Incluimos los datos del problema en las primeras liacuteneas de este chero como se muestra aquiacuteFiacutejate en que hemos usado descomentaacutendolas las liacuteneas de s1 y s2
PRIMERA MUESTRA
Numero de elementos
(n1 = 245)
[1] 245
Media muestral
(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)
(s1 = 04)
[1] 04
(sigma1 = )
SEGUNDA MUESTRA
Numero de elementos
(n2 = 252)
[1] 252
4
para hacer la misma cuenta directamente
3 En Wolfram Alpha puedes teclear two proportion confidence interval para llegar a unainterfaz web en la que hacer este tipo de caacutelculos
2 Diferencia de medias en dos poblaciones muestras gran-des
Para ilustrar este tipo de situaciones vamos a usar un ejemplo relacionado con el que abriacutea elCapiacutetulo 7 del libro
Los dos laboratorios han seguido trabajando y ahora tenemos dos tratamientos de segunda gene-racioacuten para aliviar la depresioacuten en los canguros el Saltaplus Extraforte y el Pildoriacuten con GinsengPara establecer cuaacutel de los dos tratamientos es superior los hemos usado para tratar a los cangu-ros deprimidos de dos muestras independientes midiendo la altura media de sus saltos en metrosLlamando micro1 a la altura media (en metros) de los canguros tratados con Saltaplus y micro2 a la alturamedia de los tratados con Pildoriacuten queremos contrastar la hipoacutetesis (alternativa)
Ha = micro1 lt micro2
que sostiene que la nueva versioacuten de Pildoriacuten es mejor que el Saltaplus renovado Los datos mues-trales son estos (la muestra 1 corresponde a Saltaplus la 2 a Pildoriacuten)
n1 = 245
X1 = 273
s1 = 04
n2 = 252
X2 = 281
s2 = 03
Como las dos muestras son grandes para hacer este contraste podemos usar la plantilla
Incluimos los datos del problema en las primeras liacuteneas de este chero como se muestra aquiacuteFiacutejate en que hemos usado descomentaacutendolas las liacuteneas de s1 y s2
PRIMERA MUESTRA
Numero de elementos
(n1 = 245)
[1] 245
Media muestral
(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)
(s1 = 04)
[1] 04
(sigma1 = )
SEGUNDA MUESTRA
Numero de elementos
(n2 = 252)
[1] 252
4
Media muestral
(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)
(s2 = 03)
[1] 03
(sigma2 = )
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
Los resultados de la ejecucioacuten del chero son (de nuevo excluimos la regioacuten de rechazo)
pValor(Estadistico TipoContraste)
[1] El p-Valor es 000591772613290591
Estadistico
[1] -2517
Con ese p-valor rechazariacuteamos la hipoacutetesis nula de forma que no hay base experimental para creerque los canguros tratados con Saltaplus saltan maacutes que los tratados con Pildoriacuten
Vamos a aprovechar este ejemplo para explorar otras herramientas con las que puedes hacer estetipo de contrastes y los intervalos de conanza asociados
Ejercicio 2
1 Usa el chero plantilla de R
de la la Tabla 1 (paacuteg 44) para obtener un intervalo de conanza al 95 para la diferenciamicro1 minus micro2
2 Haz lo mismo con la Calculadora de Probabilidades de GeoGebra En este caso debes usarZ estimada diferencia de medias Tambieacuten puedes hacerlo directamente con el comando
IntervaloMediasZ[ ltMedia (muestra 1)gt lts1gt ltTamantildeo (muestra 1)gt
ltMedia (muestra 2)gt lts2gt ltTamantildeo (muestra 2)gt ltNivelgt ]
3 Volviendo al contraste de hipoacutetesis en Wolfram Alpha puedes teclear hypothesis test for
the difference between two means para llegar a una interfaz web con la que hacer con-trastes de diferencias de medias usando Z Si usas confidence interval for the difference
between two means podraacutes calcular intervalos de conanza para micro1 minus micro2 usando Z
4 Usa cualquiera de estos meacutetodos (auacuten mejor varios de ellos) para comprobar las cuentas delEjemplo 921 del libro (paacuteg 305) A pesar de que en ese ejemplo disponemos de los datos setrata de que uses los valores n1 n2 X1 X2 s1 s2 que aparecen en el texto del ejemplo Maacutesadelante en el tutorial volveremos sobre el caacutelculo a partir de los datos en bruto
Soluciones en la paacutegina 30
5
frac34Y el caso de datos en bruto Advertencia sobre dataframes
No hemos incluido cheros plantilla para el caso de datos en bruto frac34Por queacute Bueno una posi-bilidad seriacutea cargar los datos de cada una de las muestras desde un chero csv uno para cadamuestra Pero eso resultariacutea muy forzado y articioso La praacutectica habitual (y recomendable) enestadiacutestica es usar para esto un uacutenico chero con dos columnas Cada la de ese chero correspondea una observacioacuten Una de las columnas contiene los valores de la variable X La otra es un factorF con dos niveles que identica a cuaacutel de las poblaciones pertenece esa observacioacuten Por ejemploel comienzo del chero podriacutea tener un aspecto similar al de esta tabla
X F
735 A823 A775 B
La primera columna contiene los valores de X mientras que la segunda permite conocer a cuaacutelde las dos poblaciones pertenece ese valor (en este ejemplo identicadas respectivamente por losniveles A y B del factor F ) La estructura de datos natural para trabajar con este tipo de cherosen R es el data frame del que hemos hablado por primera vez en el Tutorial04 Y para gestionarde forma adecuada un dataframe que contenga un chero como el que estamos describiendo espreciso usar factores de R de los que hemos hablado en la Seccioacuten del Tutorial08 (paacuteg )Por otra parte en el Capiacutetulo 11 al hablar del Anova unifactorial nos vamos a encontrar con unageneralizacioacuten natural de los problemas que estamos tratando en este capiacutetulo Asiacute que podemosposponer parte de la discusioacuten sobre la mejor forma de gestionar esos datos hasta ese capiacutetulo Perono es menos cierto que R incluye algunas funciones interesantes para trabajar con datos en brutoespeciacutecamente dedicadas a los problemas de este capiacutetulo los de dos poblaciones Por eso vamos aincluir en la Seccioacuten 5 de este tutorial (paacuteg 22) la discusioacuten de esas funciones Advertencia el lectorque no haya practicado el uso de dataframes en los tutoriales anteriores tendraacute algunos problemaspara entender el coacutedigo que se usa con esa funciones En cualquier caso recuerda que usando uneditor de texto (como el Bloc de Notas) y una hoja de caacutelculo como Calc) puedes manipular loscheros y en la mayoriacutea de los casos extraer asiacute la informacioacuten necesaria
21 El caso de datos emparejados
El caso de datos emparejados se describe en la Seccioacuten 922 del libro (paacuteg 312) En este apartadosoacutelo queremos destacar que como hemos dicho alliacute no hay nada nuevo en realidad en esa situacioacutenporque en realidad se trata de un contraste en una uacutenica poblacioacuten como los que hemos aprendidoa realizar en el Capiacutetulo 7 y en el tutorial que lo acompantildea Para evidenciar esto vamos a realizarlos caacutelculos necesarios para el Ejemplo 923 del libro y usaremos una plantilla del Tutorial07Concretamente la plantilla titulada
Tut07-Contraste-Media-UsandoT-DatosEnBrutoR
en la que uacutenicamente es necesario hacer una pequentildea modicacioacuten para acomodar el hecho de queahora tenemos datos antes y despueacutes del tratamiento El coacutedigo de esa plantilla con los datosnecesarios aparece a continuacioacuten Fiacutejate en que hemos antildeadido dos liacuteneas al bloque inicial paradenir los vectores antes y despues y que los hemos usado para obtener los valores del vector Ydel libro mediante
(muestra = despues - antes)
En particular ten en cuenta que lo que en libro se denomina Y en el coacutedigo seraacute xbar El restode las adaptaciones del coacutedigo deberiacutean resultar evidentes Revisa el coacutedigo cotejando los valoresque se obtienen con los que aparecen en el libro
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-07
6
Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos
CASO sigma desconocida muestra pequentildea nlt30
rm(list = ls())
antes = c(180 248 233 328 124 249 244 254 259 390)
despues = c(331 233 265 216 162 315 214 401 242 291)
Una posibilidad es que tengas la muestra como un vector
(muestra = despues - antes)
[1] 151 -015 032 -112 038 066 -030 147 -017 -099
Si lees la muestra de un fichero csv
1 Recuerda seleccionar el directorio de trabajo
2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc
muestra = scan(file=sep= dec=)
Valor a contrastar de la media (aparece en la hipotesis nula)
(mu0 = 0)
[1] 0
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0
(TipoContraste = 1)
[1] 1
Nivel de significacion
(nSig = 095)
[1] 095
NO CAMBIES NADA DE AQUIacute PARA ABAJO
7
(alfa = 1 - nSig)
[1] 005
Numero de elementos en la muestra
(n = length(muestra))
[1] 10
Grados de libertad
(k = n - 1)
[1] 9
Media muestral
(xbar = mean(muestra))
[1] 0161
Cuasidesviacion tipica muestral
(s = sd(muestra))
[1] 089691
Calculo del estadistico del contraste
(Estadistico = (xbar - mu0) (ssqrt(n)))
[1] 056764
Funcion para el calculo del p-valor
pValor = function(EstadCon tipoCon)
if(tipoCon == 1)
(pV = 1 - pt(EstadCon df=k ))
if(tipoCon == 2)
(pV = pt(EstadCon df=k ))
if(tipoCon == 3)
pV = 2 (1 - pt(abs(EstadCon) df=k ))
return(paste0(El p-Valor es pV collapse=))
Funcion para el calculo del liacutemite de la regioacuten de rechazo
RegionRechazo = function(alfa tipoCon)
if(tipoCon == 1)
(regionRech = paste(mayores que
qt(1 - alfa df=k)))
8
if(tipoCon == 2)
(regionRech = paste(menores que
qt(alfa df=k)))
if(tipoCon == 3)
(regionRech = paste(mas alejados del origen que
qt(1 - (alfa2) df=k)))
regionRech = paste0(La region de rechazo la forman los valores del Estadistico
regionRech collapse=)
return(regionRech)
Y ahora se aplican ambas funciones para mostrar los resultados
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0292078879999332
paste0(El valor del estadiacutestico es Estadistico collapse = )
[1] El valor del estadiacutestico es 056764281922141
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624
3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor
Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten
Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador
31 La distribucioacuten F de Fisher
En R
Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad
P (F138 gt 3)
hariacuteamos
1 - pf(3 df1=13 df2=8)
[1] 0062372
o tambieacuten
9
pf(3 df1=13 df2=8 lowertail=FALSE)
[1] 0062372
Y para calcular el valor K tal que
P (F79 lt K) = 0975
hariacuteamos
qf(0975 df1=7 df2=9)
[1] 4197
frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1
y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas
En GeoGebra
Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema
P (1 lt F129 lt 2)
basta con ejecutar
DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]
y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad
Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36
10
En Wolfram Alpha y Calc
Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto
P(X gt 3) for X ~ F(138)
y para un problema inverso por ejemplo para calcular el valor K tal que
P (F1216 lt K) = 0975
usariacuteamos este comando
975th percentile for F(12 16)
frac12Ten en cuenta que la probabilidad se ha traducido en percentiles
Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo
32 Contrastes e intervalos de conanza sobre cocientes de varianzas
Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es
Ξ =s21s22
y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste
Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos
A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)
Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto
En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes
Un ejemplo baacutesico de contrastes de cocientes de varianzas
Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral
Ha = σ21 = σ2
2
Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales
n1 = 59
s1 = 31
n2 = 64
s2 = 45
11
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
Fichero de instrucciones R para calcular un contraste de hipotesis para la media de una poblacion normal N(musigma) a partir de un fichero con una muestra de esa poblacion El fichero no funcionara si no introduces todos los datos Ademaacutes tendraacutes que descomentar algunas lineas para elegir la forma en la que lees los datos
CASO sigma desconocida muestra pequentildea nlt30
rm(list = ls())
antes = c(180 248 233 328 124 249 244 254 259 390)
despues = c(331 233 265 216 162 315 214 401 242 291)
Una posibilidad es que tengas la muestra como un vector
(muestra = despues - antes)
[1] 151 -015 032 -112 038 066 -030 147 -017 -099
Si lees la muestra de un fichero csv
1 Recuerda seleccionar el directorio de trabajo
2 Ahora introduce entre las comillas el nombre del fichero y el tipo de separador etc
muestra = scan(file=sep= dec=)
Valor a contrastar de la media (aparece en la hipotesis nula)
(mu0 = 0)
[1] 0
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu gt mu0 2 si es mu lt mu0 3 si es mu distinto de mu0
(TipoContraste = 1)
[1] 1
Nivel de significacion
(nSig = 095)
[1] 095
NO CAMBIES NADA DE AQUIacute PARA ABAJO
7
(alfa = 1 - nSig)
[1] 005
Numero de elementos en la muestra
(n = length(muestra))
[1] 10
Grados de libertad
(k = n - 1)
[1] 9
Media muestral
(xbar = mean(muestra))
[1] 0161
Cuasidesviacion tipica muestral
(s = sd(muestra))
[1] 089691
Calculo del estadistico del contraste
(Estadistico = (xbar - mu0) (ssqrt(n)))
[1] 056764
Funcion para el calculo del p-valor
pValor = function(EstadCon tipoCon)
if(tipoCon == 1)
(pV = 1 - pt(EstadCon df=k ))
if(tipoCon == 2)
(pV = pt(EstadCon df=k ))
if(tipoCon == 3)
pV = 2 (1 - pt(abs(EstadCon) df=k ))
return(paste0(El p-Valor es pV collapse=))
Funcion para el calculo del liacutemite de la regioacuten de rechazo
RegionRechazo = function(alfa tipoCon)
if(tipoCon == 1)
(regionRech = paste(mayores que
qt(1 - alfa df=k)))
8
if(tipoCon == 2)
(regionRech = paste(menores que
qt(alfa df=k)))
if(tipoCon == 3)
(regionRech = paste(mas alejados del origen que
qt(1 - (alfa2) df=k)))
regionRech = paste0(La region de rechazo la forman los valores del Estadistico
regionRech collapse=)
return(regionRech)
Y ahora se aplican ambas funciones para mostrar los resultados
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0292078879999332
paste0(El valor del estadiacutestico es Estadistico collapse = )
[1] El valor del estadiacutestico es 056764281922141
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624
3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor
Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten
Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador
31 La distribucioacuten F de Fisher
En R
Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad
P (F138 gt 3)
hariacuteamos
1 - pf(3 df1=13 df2=8)
[1] 0062372
o tambieacuten
9
pf(3 df1=13 df2=8 lowertail=FALSE)
[1] 0062372
Y para calcular el valor K tal que
P (F79 lt K) = 0975
hariacuteamos
qf(0975 df1=7 df2=9)
[1] 4197
frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1
y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas
En GeoGebra
Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema
P (1 lt F129 lt 2)
basta con ejecutar
DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]
y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad
Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36
10
En Wolfram Alpha y Calc
Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto
P(X gt 3) for X ~ F(138)
y para un problema inverso por ejemplo para calcular el valor K tal que
P (F1216 lt K) = 0975
usariacuteamos este comando
975th percentile for F(12 16)
frac12Ten en cuenta que la probabilidad se ha traducido en percentiles
Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo
32 Contrastes e intervalos de conanza sobre cocientes de varianzas
Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es
Ξ =s21s22
y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste
Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos
A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)
Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto
En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes
Un ejemplo baacutesico de contrastes de cocientes de varianzas
Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral
Ha = σ21 = σ2
2
Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales
n1 = 59
s1 = 31
n2 = 64
s2 = 45
11
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
(alfa = 1 - nSig)
[1] 005
Numero de elementos en la muestra
(n = length(muestra))
[1] 10
Grados de libertad
(k = n - 1)
[1] 9
Media muestral
(xbar = mean(muestra))
[1] 0161
Cuasidesviacion tipica muestral
(s = sd(muestra))
[1] 089691
Calculo del estadistico del contraste
(Estadistico = (xbar - mu0) (ssqrt(n)))
[1] 056764
Funcion para el calculo del p-valor
pValor = function(EstadCon tipoCon)
if(tipoCon == 1)
(pV = 1 - pt(EstadCon df=k ))
if(tipoCon == 2)
(pV = pt(EstadCon df=k ))
if(tipoCon == 3)
pV = 2 (1 - pt(abs(EstadCon) df=k ))
return(paste0(El p-Valor es pV collapse=))
Funcion para el calculo del liacutemite de la regioacuten de rechazo
RegionRechazo = function(alfa tipoCon)
if(tipoCon == 1)
(regionRech = paste(mayores que
qt(1 - alfa df=k)))
8
if(tipoCon == 2)
(regionRech = paste(menores que
qt(alfa df=k)))
if(tipoCon == 3)
(regionRech = paste(mas alejados del origen que
qt(1 - (alfa2) df=k)))
regionRech = paste0(La region de rechazo la forman los valores del Estadistico
regionRech collapse=)
return(regionRech)
Y ahora se aplican ambas funciones para mostrar los resultados
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0292078879999332
paste0(El valor del estadiacutestico es Estadistico collapse = )
[1] El valor del estadiacutestico es 056764281922141
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624
3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor
Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten
Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador
31 La distribucioacuten F de Fisher
En R
Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad
P (F138 gt 3)
hariacuteamos
1 - pf(3 df1=13 df2=8)
[1] 0062372
o tambieacuten
9
pf(3 df1=13 df2=8 lowertail=FALSE)
[1] 0062372
Y para calcular el valor K tal que
P (F79 lt K) = 0975
hariacuteamos
qf(0975 df1=7 df2=9)
[1] 4197
frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1
y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas
En GeoGebra
Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema
P (1 lt F129 lt 2)
basta con ejecutar
DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]
y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad
Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36
10
En Wolfram Alpha y Calc
Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto
P(X gt 3) for X ~ F(138)
y para un problema inverso por ejemplo para calcular el valor K tal que
P (F1216 lt K) = 0975
usariacuteamos este comando
975th percentile for F(12 16)
frac12Ten en cuenta que la probabilidad se ha traducido en percentiles
Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo
32 Contrastes e intervalos de conanza sobre cocientes de varianzas
Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es
Ξ =s21s22
y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste
Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos
A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)
Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto
En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes
Un ejemplo baacutesico de contrastes de cocientes de varianzas
Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral
Ha = σ21 = σ2
2
Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales
n1 = 59
s1 = 31
n2 = 64
s2 = 45
11
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
if(tipoCon == 2)
(regionRech = paste(menores que
qt(alfa df=k)))
if(tipoCon == 3)
(regionRech = paste(mas alejados del origen que
qt(1 - (alfa2) df=k)))
regionRech = paste0(La region de rechazo la forman los valores del Estadistico
regionRech collapse=)
return(regionRech)
Y ahora se aplican ambas funciones para mostrar los resultados
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0292078879999332
paste0(El valor del estadiacutestico es Estadistico collapse = )
[1] El valor del estadiacutestico es 056764281922141
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico mayores que 183311293265624
3 Cociente de varianzas en dos poblaciones normales Dis-tribucioacuten F de Fisher-Snedecor
Como hemos discutido en la Seccioacuten 92 del libro (paacuteg 303) cuando las muestras son pequentildeas(y como suele ocurrir las varianzas poblacionales son desconocidas) el contraste de diferencias delas medias nos conduce a un contraste de cociente de varianzas como paso previo para decidir siestamos en el caso (c) o en el caso (d) de los casos que aparecen en esa Seccioacuten
Vamos por tanto a aprender primero a hacer un contraste sobre el cociente de varianzas antesde retornar a los contrastes de diferencia de medias Y para eso tenemos que aprender maacutes sobrela forma de trabajar con la distribucioacuten de Fisher en el ordenador
31 La distribucioacuten F de Fisher
En R
Muy brevemente en R disponemos de las funciones pf y qf con el comportamiento esperableLa uacutenica novedad es que para trabajar con la distribucioacuten Fk1k2 debemos indicarlo mediante losargumentos opcionales df1 y df2 de esas funciones de R Por ejemplo para calcular la probabilidad
P (F138 gt 3)
hariacuteamos
1 - pf(3 df1=13 df2=8)
[1] 0062372
o tambieacuten
9
pf(3 df1=13 df2=8 lowertail=FALSE)
[1] 0062372
Y para calcular el valor K tal que
P (F79 lt K) = 0975
hariacuteamos
qf(0975 df1=7 df2=9)
[1] 4197
frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1
y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas
En GeoGebra
Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema
P (1 lt F129 lt 2)
basta con ejecutar
DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]
y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad
Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36
10
En Wolfram Alpha y Calc
Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto
P(X gt 3) for X ~ F(138)
y para un problema inverso por ejemplo para calcular el valor K tal que
P (F1216 lt K) = 0975
usariacuteamos este comando
975th percentile for F(12 16)
frac12Ten en cuenta que la probabilidad se ha traducido en percentiles
Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo
32 Contrastes e intervalos de conanza sobre cocientes de varianzas
Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es
Ξ =s21s22
y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste
Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos
A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)
Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto
En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes
Un ejemplo baacutesico de contrastes de cocientes de varianzas
Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral
Ha = σ21 = σ2
2
Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales
n1 = 59
s1 = 31
n2 = 64
s2 = 45
11
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
pf(3 df1=13 df2=8 lowertail=FALSE)
[1] 0062372
Y para calcular el valor K tal que
P (F79 lt K) = 0975
hariacuteamos
qf(0975 df1=7 df2=9)
[1] 4197
frac12Es muy importante recordar que no podemos cambiar el orden de los valores de df1
y df2 Las distribuciones de Fisher Fk1k2 y Fk2k1 aunque relacionadas son distintas
En GeoGebra
Para trabajar con la distribucioacuten de Fisher en GeoGebra podemos usar los comandos DistribucioacutenFy DistribucioacutenFInversa que como sugieren los nombres permiten resolver respectivamenteproblemas directos e inversos de probabilidad que involucren a la F de Fisher Por ejemplo pararesolver el problema
P (1 lt F129 lt 2)
basta con ejecutar
DistribucioacutenF[12 9 2] - DistribucioacutenF[12 9 1]
y se obtiene aproximadamente 03601 Naturalmente tambieacuten podemos usar la Calculadora deProbabilidades como se muestra en la siguiente gura que ilustra ese mismo caacutelculo de la probabi-lidad
Ejercicio 3 Repite con GeoGebra los caacutelculos de probabilidades (directas e inversas) que hemoshecho antes con R Solucioacuten en la paacutegina 36
10
En Wolfram Alpha y Calc
Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto
P(X gt 3) for X ~ F(138)
y para un problema inverso por ejemplo para calcular el valor K tal que
P (F1216 lt K) = 0975
usariacuteamos este comando
975th percentile for F(12 16)
frac12Ten en cuenta que la probabilidad se ha traducido en percentiles
Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo
32 Contrastes e intervalos de conanza sobre cocientes de varianzas
Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es
Ξ =s21s22
y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste
Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos
A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)
Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto
En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes
Un ejemplo baacutesico de contrastes de cocientes de varianzas
Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral
Ha = σ21 = σ2
2
Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales
n1 = 59
s1 = 31
n2 = 64
s2 = 45
11
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
En Wolfram Alpha y Calc
Para trabajar en Wolfram Alpha puedes usar comandos como los de estos dos ejemplos que conligeras modicaciones cubren todas nuestras necesidades Para un problema directo usamos algocomo esto
P(X gt 3) for X ~ F(138)
y para un problema inverso por ejemplo para calcular el valor K tal que
P (F1216 lt K) = 0975
usariacuteamos este comando
975th percentile for F(12 16)
frac12Ten en cuenta que la probabilidad se ha traducido en percentiles
Y nalmente no queremos dejar de mencionar las funciones DISTRF y DISTRFINV de Calc quepermiten trabajar con esta distribucioacuten en la hoja de caacutelculo
32 Contrastes e intervalos de conanza sobre cocientes de varianzas
Ahora que ya sabemos coacutemo trabajar con la distribucioacuten F de Fisher podemos usarla para hacercontrastes de hipoacutetesis e intervalos de conanza relativos al cociente de varianzas Recuerda que elestadiacutestico adecuado para esos contrastes es
Ξ =s21s22
y que en la Tabla B4 del libro (paacuteg 580) tienes la informacioacuten necesaria para saber coacutemo usar elvalor del estadiacutestico Ξ2 para calcular el p-valor del contraste
Antes de hacer algunos ejemplos unas observaciones geneacutericas sobre las herramientas de las quedisponemos
A nuestro juicio y para las versiones actuales del software que usamos la opcioacuten maacutes venta-josa para hacer este tipo de contrastes con la menor cantidad de errores es usar la plantillade R que hemos incluido en la Tabla 1 de este tutorial (paacuteg 44)
Siguiendo con R la funcioacuten vartest es especialmente interesante si trabajamos con muestrasen bruto
En GeoGebra la Calculadora de Probabilidades no permite hacer este tipo de contrastes ytampoco hay un comando que se pueda usar directamente en la Liacutenea de Entrada o el panelde Caacutelculo Simboacutelico A fecha de hoy la uacutenica forma de hacer este contraste es calculandodirectamente el p-valor mediante un problema directo de probabilidad con la F de Fisher EnWolfram Alpha hasta donde sabemos sucede algo similar no hay una herramienta especiacutecapara este tipo de contrastes
Un ejemplo baacutesico de contrastes de cocientes de varianzas
Vamos a supone que estamos estudiando una variable X en dos poblaciones normales N(micro1 σ1) yN(micro2 σ2) y queremos contrastar la hipoacutetesis alternativa bilateral
Ha = σ21 = σ2
2
Para ello hemos tomado muestras aleatorias independientes en cada una de las poblaciones y hemosobtenido estos valores muestrales
n1 = 59
s1 = 31
n2 = 64
s2 = 45
11
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
Para hacer este contraste de la forma maacutes raacutepida posible lo maacutes recomendable es usar la plantillade R de la Tabla 1 Incluimos aquiacute las primeras liacuteneas de esa plantilla con los datos que debesintroducir
PRIMERA MUESTRA Numero de elementos(n1 = 59)
[1] 59
Cuasidesviacion tipica muestral(s1 = 31)
[1] 31
SEGUNDA MUESTRA Numero de elementos(n2 = 64)
[1] 64
Cuasidesviacion tipica muestral(s2 = 45)
[1] 45
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que se obtienen al ejecutar el chero son
pValor(EstadisticoTipoContraste)
[1] El p-Valor es 000459021398523596
Estadistico
[1] 047457
Asiacute que por ejemplo para un nivel de signicacioacuten del 99 rechazariacuteamos la hipoacutetesis nula yconcluiriacuteamos que los datos no permiten armar que las varianzas sean iguales
Y un intervalo de conanza
Anaacutelogamente la forma maacutes raacutepida de obtener elintervalo de conanza es usando la plantillaque aparece al nal de este tutorial en la Tabla 1 Vamos a usarla para calcular un intervalo deconanza al 95 para los mismos datos que acabamos de usar para el contraste El coacutedigo de laplantilla para ese ejemplo es este
12
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un INTERVALO DE CONFIANZA PARA EL COCIENTE DE VARIANZAS al nivel (1-alfa) en dos poblaciones normales El fichero no funcionara si no introduces todos los datos
Introducimos los valores de las desviaciones tipicas muestraless1 = 31
s2 = 45
los tamantildeos de las muestrasn1 = 59
n2 = 64
y el nivel de confianza deseadonc = 095
--- NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos los valor criticos necesarios
(f_alfamedios = qf(alfa2 df1=n1 - 1 df2=n2 - 1))
[1] 059935
(f_unomenosalfamedios = qf(1 - alfa2 df1=n1 - 1 df2= n2-1))
[1] 16594
El intervalo de confianza para el cociente de varianzas es este(intervalo = c( (1f_unomenosalfamedios) (1f_alfamedios)) (s1^2s2^2))
[1] 028598 079180
Podemos aprovechar este caacutelculo para conrmar las conclusiones del contraste puesto que el in-tervalo no contiene al 1 estamos en condiciones de rechazar H0 al 95
4 Diferencia de medias en dos poblaciones muestras peque-ntildeas
41 Los contrastes de los ejemplos de la Seccioacuten 931 del libro
Vamos a empezar mostrando como comprobar los datos de esos ejemplos usando R En todoslos casos es necesario realizar un contraste previo de varianzas para luego pasar al contraste de
13
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
diferencia de medias La forma maacutes raacutepida de proceder es usando las plantillas de R Concretamenteusaremos la plantilla
Tut09-Contraste-2Pob-CocienteVarianzasR
para los contrastes sobre cocientes de varianzas y despueacutes usaremos una de las plantillas
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ejemplo 931
Empezamos por este ejemplo que aparece en la paacutegina 319 del libro Alliacute puedes ver los valoresnecesarios asiacute que soacutelo mostraremos el principio del coacutedigo de la plantilla que usamos para elcontraste de varianzas Ten en cuenta que puede haber pequentildeos discrepancias con respecto a losvalores del libro debidos al redondeo porque aquiacute no estamos tomando como partida los datos enbruto que aparecen en el ejemplo
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 0985618870598065
14
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
Estadistico
[1] 098772
Como puedes ver y salvo la pequentildea discrepancia numeacuterica conrmamos la conclusioacuten que apareceen el texto no tenemos razones para pensar que las varianzas sean distintas Asiacute que de las dosposibles usamos la plantilla Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR Vamosa ver la parte inicial del coacutedigo de esa plantilla con los datos del problema Ten en cuentainsistimos que puede haber pequentildeas discrepancias numeacutericas con los valores que aparecen en ellibro Ademaacutes en este ejemplo estamos llamando microt microb a lo que normalmente llamamos micro1 micro2Ten presente esto a la hora de elegir el tipo de contraste
PRIMERA MUESTRA Numero de elementos(n1 = 10)
[1] 10
Media muestral(xbar1 = 942)
[1] 942
Cuasidesviacion tipica muestral(s1 = 2098)
[1] 2098
SEGUNDA MUESTRA Numero de elementos(n2 = 10)
[1] 10
Media muestral(xbar2 = 977)
[1] 977
Cuasidesviacion tipica muestral(s2 = 2111)
[1] 2111
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000785741251043506
15
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
Estadistico
[1] -37188
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico menores que -173406360661754
respaldando las conclusiones que hemos obtenido en este ejemplo
Ejemplo 931
Este ejemplo aparece en la paacuteg 932 del libro Como en el anterior empezamos con el coacutedigonecesario para el contraste de varianzas El comienzo de la plantilla seriacutea asiacute
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Cuasidesviacion tipica muestral(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA Numero de elementos(n2 = 12)
[1] 12
Cuasidesviacion tipica muestral(s2 = 01740)
[1] 0174
TIPO DE CONTRASTE Escribe 1 si la HIP ALTERNATIVA es sigma gt sigma2 2 si es sigma1 lt sigma2 3 si es bilateralTipoContraste = 3
NIVEL DE SIGNIFICACION(nSig = 095)
[1] 095
Y los resultados que obtenemos
Y ahora se aplican ambas funciones para mostrar los resultadospValor(EstadisticoTipoContraste)
[1] El p-Valor es 000666781125885452
Estadistico
16
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
[1] 58709
En este caso como el punto de partida son los propios valores que se han usado en el libro no hayerrores de redondeo apreciables La conclusioacuten como se explica en el libro es que rechazamos lahipoacutetesis nula de igualdad de varianzas
Por tanto de vuelta al contraste de medias vamos a usar la plantilla de la Tabla 1 titulada
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
Ten en cuenta ademaacutes la notacioacuten Ha = micro2 minus micro3 que se ha usado en este ejemplo a la horade seleccionar el tipo de contraste Con los datos del ejemplo la primera parte de esa plantillaquedariacutea asiacute
PRIMERA MUESTRA Numero de elementos
(n1 = 12)
[1] 12
Media muestral
(xbar1 = 1914)
[1] 1914
Cuasidesviacion tipica muestral
(s1 = 04216)
[1] 04216
SEGUNDA MUESTRA
Numero de elementos
(n2 = 12)
[1] 12
Media muestral
(xbar2 = 2344)
[1] 2344
Cuasidesviacion tipica muestral
(s2 = 01740)
[1] 0174
frac34Que tipo de contraste estamos haciendo
Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2
2 si es mu1 lt mu2
3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion
(nSig = 095)
[1] 095
En este caso vamos a mostrar el nuacutemero de grados de libertad que se obtienen usando la aproximacioacuten de
Welch
17
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
Grados de libertad aproximacion de Welch
(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Los resultados son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0002676528260678
Estadistico
[1] -32659
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los valores del Estadistico menores que -175587212046059
Contrastes de diferencia de medias con GeoGebra en el caso de muestras pequentildeas
La Calculadora de Probabilidades de GeoGebra incluye en la pestantildea titulada Estadiacutesticas laopcioacuten de calcular estos contrastes de diferencia de medias introduciendo los valores muestralesen los campos del formulario que se muestra Para revisar el funcionamiento de esta herramientavamos a usar los datos de los dos ejemplos que hemos hecho antes con las plantillas de R y luegocomentaremos algunos aspectos particulares En esta primera gura se ilustra la forma de obtenerel contraste del Ejemplo 931 del libro
18
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
Mientras que para el Ejemplo 932 del libro debemos proceder como se muestra en esta gura
Vamos a comentar algunos aspectos resentildeables de esta herramienta
Aunque GeoGebra es un programa que las maacutes de las veces resulta intuitivo y faacutecil de usaresta interfaz no es tal vez de las maacutes conseguidas En la versioacuten actual se ha colado ademaacutesuna errata que hace que en la hipoacutetesis nula aparezca la foacutermula micro1minusmicro1 donde deberiacutea decirmicro1minusmicro2 Esta diferencia aparece igualada inicialmente a 0 aunque ese valor puede modicarsepara dar cabida a posibles hipoacutetesis nulas como por ejemplo (tambieacuten podriacutea ser con ge o=)
H0 = (micro1 minus micro2) le ∆micro0donde ∆micro0 es una cantidad dada en el mismo sentido que hemos discutido para el caso deproporciones en la Seccioacuten 911 del libro (paacuteg 297) En particular eso signica que en lamayoriacutea de las ocasiones queremos mantener el valor micro1 minus micro2 = 0
Los programadores de GeoGebra usan descripciones de la hipoacutetesis nula que podemos resumiren la forma
Ha = micro1 minus micro2 F 0donde F es un siacutembolo que puede ser lt gt 0 6= Pero hay que tener en cuenta que porejemplo
Ha = micro1 minus micro2 lt 0 = micro1 lt micro2Asiacute que decir que micro1 minus micro2 F 0 es lo mismo que decir micro1 Fmicro2 sea cual sea la interpretacioacutendel siacutembolo F de entre las tres posibles
Para elegir entre el caso en que asumimos varianzas iguales y el caso de varianzas distintasdebemos usar la casilla titulada Agrupado Como hemos indicado en las guras marcamosesa casilla para el caso de varianzas iguales y la dejamos sin marcar en el caso de varianzasdistintas
19
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
42 Intervalos de conanza para la diferencia de medias con R
Vamos a calcular intervalos de conanza al 95 para la diferencia micro1minusmicro2 en los Ejemplos 931 y932 del libro que estamos usando en estos uacuteltimos apartados Para ello usaremos los dos cherosplantilla de la Tabla 1
Para el Ejemplo 931 usamos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasIgualesREl coacutedigo con los datos del ejemplo seriacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 10
n2 = 10
Medias muestralesbarX1 = 942
barX2 = 977
Cuasidesviaciones tipicas muestraless1 = 2098
s2 = 2111
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO Calculamos los grados de libertad(k = n1 + n2 - 2)
[1] 18
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1 - alfa2 df=k))
[1] 21009
La semianchura del intervalo es(semianchura = t_alfa2 sqrt((((n1 - 1) s1^2 + (n2 - 1) s2^2) k) (1n1 + 1n2)))
[1] 19773
Intervalo de confianza(intervalo = (barX1 - barX2) + c(-1 1) semianchura)
[1] -54773 -15227
20
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
Para el Ejemplo 932 usaremos el chero Tut09-IntConf-2Pob-DifMedias-UsandoT-VarianzasDistintasRCon los datos del Ejemplo el coacutedigo quedariacutea asiacute
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES Es el caso de MUESTRAS PEQUENtildeAS bajo la hipotesis de VARIANZAS IGUALES
Introducimos los tamantildeos de las muestrasn1 = 12
n2 = 12
Medias muestralesbarX1 = 1914
barX2 = 2344
Cuasidesviaciones tipicas muestraless1 = 04216
s2 = 01740
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
Calculamos los grados de libertad usando la aprox de Welch(k = (s1^2n1 + s2^2n2)^2 ((s1^4(n1^2 (n1 - 1))) + (s2^4 (n2^2 (n2 - 1)))))
[1] 14642
Calculamos el valor critico(alfa = 1 - nc)
[1] 005
(t_alfa2 = qt(1-alfa2 df=k))
[1] 2136
La semianchura del intervalo es(semianchura = t_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 028123
El intervalo de confianza es(intervalo = (barX1 - barX2) + c(-1 1) semianchura )
[1] -071123 -014877
21
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
Con GeoGebra
En la Calculadora de Probabilidades de GeoGebra podemos usar la opcioacuten Intervalo T diferen-cia de Medias Las siguientes guras muestran el caacutelculo de los intervalos que hemos obtenidopreviamente con R
5 Datos en bruto con R
Opcional esta seccioacuten puede omitirse en una primera lectura De hecho para leeresta seccioacuten es necesario haber aprendido previamente a manejar los dataframe deR Se recomienda en particular la lectura de la Seccioacuten 2 (paacuteg 9) del Tutorial04
Vamos a dedicar esta seccioacuten a profundizar en el uso de varias funciones de R que son especialmenteuacutetiles para realizar contrastes entre paraacutemetros de dos poblaciones Las funciones son
proptest
ztest
ttest
vartest
Ya hemos discutido la funcioacuten proptest en la Seccioacuten 1 (paacuteg 3) Y la funcioacuten ttest ha aparecidoen Tutoriales previos La funcioacuten vartest estaacute disponible por defecto en la instalacioacuten estaacutendarde R mientras que la funcioacuten ztest se puede obtener instalando la libreriacutea BSDA Esta libreriacuteacuyo autor es Alan T Arnholt contiene numerosos conjuntos de datos relacionados con el libroBasic Statistics and Data Analysis de Larry J Kitchens1 Puedes encontrar maacutes informacioacuten eneste enlace
cranr-projectorgwebpackagesBSDABSDApdf
1Kitchens L J (2003) Basic Statistics and Data Analysis Duxbury ISBN 978-0534384654
22
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
Hemos visto en el Tutorial07 otra funcioacuten llamada igualmente ztest incluida en Puede sucederque libreriacuteas distintas a menudo escritas por diferentes autores contengan funciones con el mismonombre En cualquier caso si alguna vez necesitas las dos funciones puedes referirte a ellas sinambiguumledad usando nombres como
BSDAztest
TeachingDemosztest
Como ves la inclusioacuten del nombre de la libreriacutea elimina las posibles confusiones
Vamos a empezar instalando la libreriacutea BSDA Puedes hacerlo desde RStudio o tambieacuten simple-mente ejecutando este comando en R
installpackage(BSDA)
Una vez instalada la libreriacutea la cargamos mediante
library(BSDA)
Warning package BSDA was built under R version 322
Loading required package e1071 Loading required package lattice Attaching package BSDA The following object is masked from packagedatasets Orange
Un contraste de igualdad de medias con muestras pequentildeas las funciones ttest yvartest
Como hemos dicho esa libreriacutea incluye ademaacutes de la funcioacuten ztest numerosos conjuntos dedatos almacenados en dataframes de R Vamos a usar uno de ellos para empezar nuestro trabajoConcretamente vamos a usar un conjunto de datos llamado Statisti Para empezar a trabajarcon ese conjunto de datos escribimos
data(Statisti)
y para verlo puedes usar este comando que en RStudio abriraacute un nuevo panel en el que puedesinspeccionar los datos
View(Statisti)
Cuando se abra esa pestantildea veraacutes que el dataframe Statisti contiene una tabla de datos condos columnas llamadas Class1 y Class2 Cada columna representa las puntuaciones obtenidaspor los alumnos de dos grupos de un curso de Estadiacutestica Ademaacutes si te desplazas hacia la parteinferior de la tabla veraacutes que el nuacutemero de alumnos de los dos grupos es distinto y que la columnaClass2 contiene varias observaciones cuyo valor es NA (recuerda not available no disponible) Estaes la situacioacuten maacutes comuacuten cuando trabajamos con muestras de tamantildeos distintos
Recuerda tambieacuten que para acceder a los datos de cada uno de los grupos por separado puedesusar una notacioacuten matricial como en
Statisti[ 1]
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
23
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
o tambieacuten la notacioacuten $ combinada con el nombre de la variable (columna) como en
Statisti$Class1
[1] 81 73 86 90 75 80 75 81 85 87 83 75 70 65 80 76 64 74 86 80 83 67 82
[24] 78 76 83 71 90 77 81 82
Vamos a suponer que las poblaciones muestreadas son normales y que las muestras son indepen-dientes Llamamos micro1 y micro2 respectivamente a las puntuaciones medias de ambos grupos y usaremosesas dos muestras para contrastar la hipoacutetesis nula
H0 = micro1 6= micro2
Si tratas de usar length para hallar los tamantildeos de ambas muestras
length(Statisti$Class1)
[1] 31
length(Statisti$Class2)
[1] 31
comprobaraacutes que R incluye los valores NA de Class2 en ese recuento de la longitud Y es razo-nable que asiacute sea porque es la opcioacuten menos problemaacutetica en la mayoriacutea de los casos Cuandotrabajamos con dataframes y queremos saber si hay datos ausentes una buena opcioacuten es usar lafuncioacuten completecases que devuelve un vector de valores loacutegicos iguales a TRUE cuando la lacorrespondiente del dataframe no contiene valores ausentes e igual a FALSE en caso contrarioPara nuestro conjunto de datos
(noAusentes = completecases(Statisti))
[1] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[12] TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE
[23] TRUE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE
Usando completecases junto con which y otros meacutetodos que hemos visto en tutoriales previos(por ejemplo la suma de valores loacutegicos) se puede gestionar de forma my ecaz la presencia devalores NA en un dataframe de R
Pero para el trabajo que nos ocupa no es necesario hacer nada complicado Aunque hemos dichovarias veces a lo largo del curso que las muestras de maacutes de 30 elementos pueden considerarsegrandes en este caso estamos al lo de ese tamantildeo y de hecho a causa de los datos ausentesuna de las muestras es de un tamantildeo menor que 30 Asiacute que vamos a usar la distribucioacuten t paraeste contraste Eso implica com ya sabemos que debemos empezar haciendo el contraste de lahipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
Para hacer este contraste vamos a recurrir a la funcioacuten vartest Simplemente escribimos
vartest(Statisti$Class1 Statisti$Class2 alternative = twosided conflevel = 095)
F test to compare two variances
data Statisti$Class1 and Statisti$Class2
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
24
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
025541 116350
sample estimates
ratio of variances
05508
Fiacutejate en que hemos usado twosided para obtener el contraste bilateral que buscaacutebamos Comoves el p-valor permite rechazar la hipoacutetesis alternativa y por tanto seguir trabajando bajo lahipoacutetesis de que las varianzas de ambos grupos son iguales No queremos dejar pasar sin mencionarloque ademaacutes hemos obtenido un intervalo de conanza para el valor del cociente de varianzas
Teniendo en cuenta este resultado podemos volver al contraste de diferencia de medias usandoahora la funcioacuten ttest Es tan simple como hacer
ttest(Statisti$Class1 Statisti$Class2
alternative = twosided conflevel = 095 varequal = TRUE)
Two Sample t-test
data Statisti$Class1 and Statisti$Class2
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean of x mean of y
78581 80815
Fiacutejate en que la opcioacuten varequal nos permite ajustar el meacutetodo que usa ttest al resultadodel contraste de igualdad de varianzas que hemos hecho antes Y como ves el p-valor permiterechazar Ha para concluir que no hay base empiacuterica para creer que las medias de los dos gruposson distintas
Como ves el uso combinado de vartest y ttest hace que los contrastes de igualdad de mediassean muy faacuteciles de llevar a cabo
Sobre el formato del dataframe de este ejemplo Datos con readtable
A pesar de la facilidad con la que hemos trabajado en el apartado anterior no podemos tampocodejar pasar el hecho de que el formato del conjunto de datos que hemos usado en este ejemplo noes el recomendable En el Tutorial11 volveremos sobre esto pero queremos avanzar la idea baacutesicapara que el lector se vaya acostumbrando a oiacuterla Una tabla de datos en el formato correcto debetener una variable por columna y una observacioacuten por la Hemos creado una nueva versioacutendel dataframe Statisti en este formato correcto y la hemos almacenado en el chero
Descarga este chero y guaacuterdalo en tu carpeta datos Antes de continuar inspeccioacutenalo con uneditor de textos como el Bloc de Notas Vamos a aprovechar esta oportunidad para refrescar lo quesabemos del uso de la funcioacuten readtable Para leer el chero y almacenarlo en un dataframe
llamado Statisti2 hacemos
Statisti2 = readtable(datosTut09-Statisti2csv header = TRUE sep = )
Y para ver que todo ha ido bien usamos head y tail asiacute
head(Statisti2)
scores group
1 81 1
25
2 73 1
3 86 1
4 90 1
5 75 1
6 80 1
tail(Statisti2)
scores group
53 74 2
54 77 2
55 87 2
56 69 2
57 96 2
58 65 2
Como ves Statisti2 contiene tambieacuten dos columnas pero ahora la primera llamada scores
(puntuaciones en ingleacutes) contiene las puntuaciones de ambos grupos mientras que la segundallamada group es un factor que identica el grupo al que pertenece esa puntuacioacuten Como sucedemuchas veces los factores sirven para clasicar en grupos Y de esta forma el respeta el principiode una variable por columna una observacioacuten por la
frac34Queacute ocurre ahora con los contrastes de hipoacutetesis Pues que son igual de faacuteciles pero debemoscambiar ligeramente la forma en que usamos la funcioacuten para explicarle a R que group es un factorque agrupa las observaciones de scores en grupos o niveles Primero hacemos el contraste deigualdad de varianzas con vartest
vartest(scores ~ group data = Statisti2 alternative = twosided conflevel = 095)
F test to compare two variances
data scores by group
F = 0551 num df = 30 denom df = 26 p-value = 012
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
025541 116350
sample estimates
ratio of variances
05508
El resultado es desde luego exactamente el mismo que cuando usaacutebamos el otro formato Ypraacutecticamente con la misma forma hacemos el contraste para las medias
ttest(scores ~ group data = Statisti2
alternative = twosided conflevel = 095 varequal=TRUE)
Two Sample t-test
data scores by group
t = -107 df = 56 p-value = 029
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-63993 19310
sample estimates
mean in group 1 mean in group 2
78581 80815
que de nuevo es ideacutentico al que hicimos con anterioridad
26
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
Vamos a proponerte un ejercicio para que practiques estas ideas
Ejercicio 4 El chero adjunto
contiene muestras de una variable X en dos poblaciones normales que llamamos poblacioacuten A ypoblacioacuten B Usa esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
Aseguacuterate de explorar primero los datos del chero Solucioacuten en la paacutegina 36
La funcioacuten ztest de la libreriacutea BSDA
En el caso de muestras grandes en lugar de ttest podemos usar la funcioacuten ztest de la libreriacuteaBSDA para hacer los contrastes e intervalos de conanza correspondientes a ese tipo de problemas
Para practicar esto vamos a usar los datos del chero adjunto
Este chero contiene de forma anaacuteloga a lo que sucediacutea en el Ejercicio 4 muestras de una variableX en dos poblaciones normales que llamamos poblacioacuten A y poblacioacuten B Y de nuevo vamos ausar esos datos para contrastar la hipoacutetesis nula
H0 = microA = microB
La principal diferencia como vamos a comprobar enseguida es que ahora las muestras son detamantildeo grande Recuerda que la primera tarea consiste siempre en explorar el chero de datos Alabrirlo en un editor de texto veraacutes algo como esto
Para leer los datos del chero usamos readtable y comprobamos que la lectura ha sido correctacon head asiacute
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
head(datos)
X T
1 234606 A
2 155983 B
3 519988 B
4 216967 A
5 38108 B
6 234239 A
La funcioacuten z-test de la libreriacutea BSDA no es tan coacutemoda como las funciones ttest o vartestEn particular con esta funcioacuten no podemos usar una foacutermula como X ~ T para describir lo quequeremos hacer Asiacute que vamos a hacer algo mucho maacutes manual Denimos dos vectores quecontienen los valores de X para cada uno de los grupos (niveles) denidos por el factor T
27
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
Y ahora aplicamos asiacute la funcioacuten
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Fiacutejate que ademaacutes debemos incluir las cuasidesviaciones tiacutepicas (calculadas con sd) porque de locontrario se produce un error ya que la funcioacuten no las calcula por defecto
Con esto hemos obtenido el p-valor del contraste Es posible que te pregunte queacute sucederiacutea si enlugar de ztest usaacuteramos ttest en este caso de muestras grandes Y si la usamos frac34debemosusar la opcioacuten de varianzas iguales o distintas
Ejercicio 5 Usa la funcioacuten ttest para realizar este contraste Prueba las dos opciones posi-bles sobre las varianzas frac34Cuaacutel de ellas produce un resultado maacutes parecido al que hemos obtenidocon ztest frac34Queacute sucede si al usar ttest no indicas ninguna opcioacuten sobre la igualdad de lasvarianzas Es decir frac34cuaacutel es el comportamiento por defecto de R Solucioacuten en la paacutegina 37
La funcioacuten ttest para datos emparejados
En la Seccioacuten 922 del libro (paacuteg 312) y tambieacuten en este mismo tutorial en la Seccioacuten 21 (paacuteg 6)hemos discutido el caso de los datos emparejados Este tipo de contrastes cuando disponemos de losdatos en bruto se llevan a cabo con mucha comodidad usando ttest con la opcioacuten paired=TRUE
Veamos un ejemplo La libreriacutea BSDA que hemos usado antes contiene un conjunto de datosllamado Fitness Este conjunto de datos representa el nuacutemero de un cierto tipo de exiones queun grupo de sujetos podiacutean hacer antes (en la columna Before) y despueacutes (columna After) desometerse a un programa de entrenamiento deportivo Vamos a cargar ese conjunto de datos y aexplorar su estructura
library(BSDA)
data(Fitness)
head(Fitness)
Before After
1 28 32
2 31 33
3 17 19
4 22 26
5 12 17
6 32 30
str(Fitness)
dataframe 9 obs of 2 variables
$ Before int 28 31 17 22 12 32 24 18 25
$ After int 32 33 19 26 17 30 26 19 25
28
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
Ademaacutes de head hemos usado la funcioacuten str que puede ser de mucha utilidad en este tipo deexploraciones preliminares Como ves el conjunto de datos contiene 5 observaciones dos paracada individuo que se sometioacute al programa de entrenamiento Por eso es un ejemplo tiacutepico delas situaciones que englobamos bajo esta etiqueta de datos emparejados Llamando microa a la mediaantes del entrenamiento y microd a la media despueacutes del entrenamiento queremos usar los datos paracontrastar la hipoacutetesis alternativa unilateral
Ha = microa lt microd
Y para hacer esto basta con usar ttest asiacute
ttest(Fitness$Before Fitness$After
alternative = less paired = TRUE conflevel = 095)
Paired t-test
data Fitness$Before and Fitness$After
t = -275 df = 8 p-value = 0012
alternative hypothesis true difference in means is less than 0
95 percent confidence interval
-Inf -064907
sample estimates
mean of the differences
-2
La clave por supuesto es la opcioacuten paired=TRUE Fiacutejate aparte de esto en que el conjunto dedatos no cumple el principio deseable de una variable por columna una observacioacuten por la Poreso hemos usado la notacioacuten $ para acceder a las columnas Before y After La conclusioacuten esque al 95 rechazamos H0 pero no al 99 Con una muestra tan pequentildea eso signicariacutea en lapraacutectica casi siempre que los datos no son concluyentes Se necesitan maacutes datos maacutes potencia enel contraste en el sentido que hemos discutido en el Capiacutetulo 7
6 Ejercicios adicionales y soluciones
Ejercicios adicionales
Hemos usado R en todos los casos para obtener las soluciones de los siguientes ejercicios Pero esrecomendable que pruebes alguna de las otras herramientas a tu disposicioacuten al menos en algunode estos ejercicios
Ejercicio 6 Para hacer un contraste de proporciones en dos poblaciones disponemos de estosdatos muestrales procedentes de dos muestras aleatorias independientes tomadas respectivamentede cada una de esas dos poblaciones
n1 = 532nuacutemero de eacutexitos en la primera muestra = 197
n2 = 486nuacutemero de eacutexitos en la segunda muestra = 151
Usa estos datos para contrastar la hipoacutetesis nula H0 = p1 = p2
Ejercicio 7 Para hacer un contraste de diferencia de medias de la variable X entre dos po-blaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 286
X1 = 1375
s1 = 22
n2 = 331
X2 = 1424
s2 = 156
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 39
29
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
Ejercicio 8 De nuevo para hacer un contraste de diferencia de medias de la variable X entre dospoblaciones normales disponemos de estos datos muestrales procedentes de dos muestras aleatoriasindependientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 12
X1 = 453
s1 = 37
n2 = 14
X2 = 404
s2 = 39
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 le micro2 Solucioacuten en la paacutegina 40
Ejercicio 9 Y por uacuteltimo para hacer un contraste de diferencia de medias de la variable Xentre dos poblaciones normales disponemos de estos datos muestrales procedentes de dos muestrasaleatorias independientes tomadas respectivamente de cada una de esas dos poblaciones
n1 = 7
X1 = 09
s1 = 096
n2 = 7
X2 = 12
s2 = 027
Usa estos datos para contrastar la hipoacutetesis nula H0 = micro1 ge micro2 Solucioacuten en la paacutegina 42
Soluciones de algunos ejercicios
bull Ejercicio 2 paacuteg 5
1 El coacutedigo del chero con los datos de este ejercicio aparece a continuacioacuten Hemos descomen-tado las liacuteneas donde aparecen los valores de s1 y s2
wwwpostdata-statisticscom POSTDATA Introduccioacuten a la Estadiacutesitica Tutorial-09 Fichero de instrucciones R para calcular un intervalo de confianza para la DIFERENCIA DE MEDIAS DE 2 POBLACIONES NORMALES usando la distribucioacuten Z Es el caso de MUESTRAS GRANDES o (poco frecuente) de varianzas poblacionales conocidas
rm(list=ls())
PRIMERA MUESTRA Numero de elementos(n1 = 245)
[1] 245
Media muestral(xbar1 = 273)
[1] 273
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 04)
[1] 04
30
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 252)
[1] 252
Media muestral(xbar2 = 281)
[1] 281
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 03)
[1] 03
(sigma2 = )
Nivel de confianza deseadonc = 095
NO CAMBIES NADA DE AQUI PARA ABAJO
(alfa = 1 - nc)
[1] 005
Calculamos el valor critico(z_alfa2 = qnorm( 1 - alfa 2))
[1] 196
La diferencia de las medias muestrales es
(xbar1 - xbar2)
[1] -008
Comprobamos si se ha usado sigma como sustituto de s
if(exists(sigma1))s1 = sigma1
if(exists(sigma2))s2 = sigma2
La semianchura del intervalo es(semianchura = z_alfa2 sqrt(s1^2n1 + s2^2n2))
[1] 0062295
El intervalo de confianza es este
(intervalo = xbar1 - xbar2 + c(-1 1) semianchura )
[1] -0142295 -0017705
31
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
2 Esta es la forma de usar la Calculadora de Probabilidades
3 En la siguiente gura se muestra como introducir ls datos para este ejercicio Observa laforma de elegir entre muestras grandes y pequentildeas como indica la echa roja
32
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
Y en esta gura puedes ver la salida de Wolfram Alpha
4 Introducimos los datos para el contraste en Wolfram Alpha como se muestra en la guraFiacutejate en las opciones que te permiten trabajar con muestras pequentildeas que hemos destacadocon las echas rojas
33
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
La respuesta que se obtiene es esta Fiacutejate de nuevo en las opciones disponibles para usarcontrastes unilaterales o bilaterales
Para hacer el mismo contraste usando la plantilla de R llamada
34
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
Tut09-Contraste-2Pob-DifMedias-UsandoZR
introducimos los datos del ejemplo al principio del coacutedigo Recuerda descomentar las liacuteneasde s1 y s2
PRIMERA MUESTRA Numero de elementos(n1 = 2783)
[1] 2783
Media muestral(xbar1 = 4975)
[1] 4975
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 6317)
[1] 6317
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos(n2 = 2402)
[1] 2402
Media muestral(xbar2 = 4813)
[1] 4813
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 5191)
[1] 5191
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2TipoContraste = 3
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen coinciden como cabiacutea esperar con los de Wolfram Alpha
pValor(Estadistico TipoContraste)
[1] El p-Valor es 031089244301084
35
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
Estadistico
[1] 10134
RegionRechazo(alfa TipoContraste)
[1] La region de rechazo la forman los Valores del Estadistico mas alejados del origen que 195996398454005
bull Ejercicio 3 paacuteg 10
Las siguientes guras muestran la solucioacuten de ambos problemas de probabilidad
bull Ejercicio 4 paacuteg 27
El coacutedigo R para leer el chero es
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-01csv header = TRUE sep = )
head(datos)
X T
1 43056 A
2 65297 A
3 60386 A
4 91185 A
5 24946 A
6 65334 A
tail(datos)
X T
36
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
23 1087338 B
24 -660762 B
25 -271845 B
26 2150246 B
27 1735569 B
28 -018161 B
Ahora podemos hacer el contraste de igualdad de varianzas en una sola liacutenea de coacutedigo
vartest(X ~ T data = datos alternative = twosided conflevel = 095)
F test to compare two variances
data X by T
F = 0056 num df = 11 denom df = 15 p-value = 0000027
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0018605 0186344
sample estimates
ratio of variances
005596
El p-valor obtenido nos lleva a rechazar la hipoacutetesis nula de varianzas iguales Asiacute que podemoshacer el contraste de igualdad de medias teniendo en cuenta este resultado para elegir el valor dela opcioacuten varequal de ttest
ttest(X ~ T data = datos
alternative = twosided conflevel = 095 varequal=FALSE)
Welch Two Sample t-test
data X by T
t = 158 df = 172 p-value = 013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-12807 88807
sample estimates
mean in group A mean in group B
67 29
El p-valor que hemos obtenido indica que debemos rechazar la hipoacutetesis alternativay concluir queno hay evidencia basada en los datos para creer que las medias de ambas poblaciones sean distintas
bull Ejercicio 5 paacuteg 28
Vamos a recordar primero el contraste con Z
datos = readtable(datosTut09-Ejemplos-ContrasteMedias-02csv header = TRUE sep = )
XA = datos$X[datos$T==A]
XB = datos$X[datos$T==B]
ztest(x = XA y = XB alternative = twosided sigmax = sd(XA) sigmay = sd(XB))
Two-sample z-Test
data XA and XB
37
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
z = -322 p-value = 00013
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48238 -11762
sample estimates
mean of x mean of y
23 26
Y ahora veamos las tres posibilidades con t
ttest(x = XA y = XB alternative = twosided varequal=FALSE)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided varequal=TRUE)
Two Sample t-test
data XA and XB
t = -342 df = 607 p-value = 000067
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-47235 -12765
sample estimates
mean of x mean of y
23 26
ttest(x = XA y = XB alternative = twosided)
Welch Two Sample t-test
data XA and XB
t = -322 df = 295 p-value = 00014
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-48313 -11687
sample estimates
mean of x mean of y
23 26
Como ves la maacutes parecida es aquella en la primera en la que suponemos que las varianzas sondistintas y que es ademaacutes la opcioacuten por defecto que usa R
bull Ejercicio 6 paacuteg 29
Podemos usar asiacute la funcioacuten proptest
38
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
proptest(c(197151)n=c(532486)alternative=twosidedconflevel=095correct=FALSE)
2-sample test for equality of proportions without continuity
correction
data c(197 151) out of c(532 486)
X-squared = 401 df = 1 p-value = 0045
alternative hypothesis twosided
95 percent confidence interval
00014931 01177092
sample estimates
prop 1 prop 2
03703 03107
Como puedes ver hemos usado la opcioacuten correct=FALSE para evitar que R use una correccioacuten decontinuidad en la aproximacioacuten normal a la binomial De esa forma y aunque perdamos un pocode precisioacuten tratamos de obtener los resultados a los que conduce el estadiacutestico que aparece en laEcuacioacuten 92 (paacuteg 297) del Capiacutetulo 9 del libro
bull Ejercicio 7 paacuteg 29
Este es el coacutedigo de la plantilla de R con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos
(n1 = 286)
[1] 286
Media muestral(xbar1 = 1375)
[1] 1375
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s1 = 156)
[1] 156
(sigma1 = )
SEGUNDA MUESTRA Numero de elementos
(n2 = 331)
[1] 331
Media muestral(xbar2 = 1424)
[1] 1424
Cuasidesviacion tipica muestral o sigma (descomenta el que uses)(s2 = 194)
39
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
[1] 194
(sigma2 = )
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 2
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 0000255131809259936
Estadistico
[1] -34753
bull Ejercicio 8 paacuteg 30
Al tratarse de un contraste de diferencia de medias con muestras pequentildeas debemos usar la t deStudent y previamente para ello debemos hacer un contraste de la hipoacutetesis nula de igualdad devarianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste es
(EstadisticoVar = s1^2s2^2)
[1] 090007
Y puesto que este estadiacutestico es menor que 1 usamos la cola izquierda de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 043589
Puedes calcularlo igualmente con la Calculadora de Probabilidades de GeoGebra como en la gura
40
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
Con este p-valor rechazamos la hipoacutetesis alternativa de que las varianzas sean distintas Teniendoesto en cuenta volvamos al contraste sobre la diferencia de medias Esta es la parte inicial delcoacutedigo de la plantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarIgualesR
con los datos del ejercicio
PRIMERA MUESTRA Numero de elementos(n1 = 12)
[1] 12
Media muestral(xbar1 = 453)
[1] 453
Cuasidesviacion tipica muestral(s1 = 37)
[1] 37
SEGUNDA MUESTRA Numero de elementos(n2 = 14)
[1] 14
Media muestral(xbar2 = 404)
41
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
[1] 404
Cuasidesviacion tipica muestral(s2 = 39)
[1] 39
frac34Que tipo de contraste estamos haciendo Escribe 1 si la HIP ALTERNATIVA es mu1 gt mu2 2 si es mu1 lt mu2 3 si es mu1 distinto de mu2
TipoContraste = 1
Nivel de significacion(nSig = 095)
[1] 095
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 00015847637376516
Estadistico
[1] 32833
La conclusioacuten es que rechazamos la hipoacutetesis nula los datos no permiten armar que sea micro1 ge micro2
bull Ejercicio 9 paacuteg 30
De nuevo puesto que las muestras son pequentildeas debemos usar la t de Student y eso nos lleva aempezar con un contraste de la hipoacutetesis nula de igualdad de varianzas
H0 = σ21 = σ2
2
El estadiacutestico de este contraste vale en este caso
(EstadisticoVar = s1^2s2^2)
[1] 12642
Y puesto que este estadiacutestico es mayor que 1 usamos la cola derecha de la distribucioacuten de Fisherpara calcular el p-valor
(pValorVar = 1 - pf(EstadisticoVar df1 = n1 - 1 df2 = n2 - 1))
[1] 00035184
Tambieacuten puedes calcularlo con GeoGebra desde luego
42
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
Con este p-valor rechazamos la hipoacutetesis nula de que las varianzas sean iguales Usamos esto paradecidir lo que hay que hacer en el contraste sobre la diferencia de medias Este es el coacutedigo de laplantilla de R
Tut09-Contraste-2Pob-DifMedias-UsandoT-VarDistintasR
con los datos del ejercicio
Y los resultados que se obtienen son
pValor(Estadistico TipoContraste)
[1] El p-Valor es 022621403141095
Estadistico
[1] -079592
La conclusioacuten es que rechazamos la hipoacutetesis alternativa los datos no permiten armar que seamicro1 lt micro2
43
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44
Plantillas de R para contrastes e intervalos de conanza
Diferencia medias
Usando Z
Usando la t de Student
Varianzas desconocidas pero iguales
Varianzas desconocidas pero distintas
Cociente varianzas
Diferencia proporciones
Tabla 1 Ficheros para los contrastes de hipoacutetesis e intervalos de conanza en dos poblacionesindependientes
Fin del Tutorial09 frac12Gracias por la atencioacuten
44