práctica 3 vgaribay prÁctica 3. intervalos de confianza...

25
Práctica 3 vgaribay 1 PRÁCTICA 3. INTERVALOS DE CONFIANZA OBJETIVOS: Comprobación del concepto de intervalo de confianza. Construcción de intervalos de confianza para poblaciones normales. Cálculo del tamaño muestral. Datos en los ficheros: Datos3IC.sgd, Cardata.sgd y Municipios.sgd. 1.- COMPROBACIÓN DEL CONCEPTO DE INTERVALO DE CONFIANZA Construir 100 intervalos de confianza al 95% para la media μde una población Normal de varianza 36, basados en muestras de tamaño 5, y comprobar que aproximadamente 95 contienen al verdadero valor del parámetro μ(desconocido). Intervalo de confianza para μ al nivel α (con σ conocido): 1.1 Generar cinco variables según una distribución N(10, 6). Describe / Distribution Fitting / Probability Distributions o bien Plot / Prob. Distributions Botón disquete / repetir 5 veces cambiando nombre de la columna, desde Rand1 a Rand5 (disquete RAND1…RAND5)

Upload: others

Post on 05-Apr-2020

7 views

Category:

Documents


1 download

TRANSCRIPT

Práctica 3 vgaribay

1

PRÁCTICA 3. INTERVALOS DE CONFIANZA OBJETIVOS:

• Comprobación del concepto de intervalo de confianza. • Construcción de intervalos de confianza para poblaciones normales. • Cálculo del tamaño muestral.

Datos en los ficheros: Datos3IC.sgd, Cardata.sgd y Municipios.sgd. 1.- COMPROBACIÓN DEL CONCEPTO DE INTERVALO DE CONFIANZA Construir 100 intervalos de confianza al 95% para la media μde una población Normal de varianza 36, basados en muestras de tamaño 5, y comprobar que aproximadamente 95 contienen al verdadero valor del parámetro μ(desconocido). Intervalo de confianza para μ al nivel α (con σ conocido): 1.1 � Generar cinco variables según una distribución N(10, 6). Describe / Distribution Fitting / Probability Distributions o bien Plot / Prob. Distributions

Botón disquete / repetir 5 veces cambiando nombre de la columna, desde Rand1 a Rand5

(disquete RAND1…RAND5)

Práctica 3 vgaribay

2

También pueden generarse las 5 columnas de golpe, generando 5 Normales(10,6)

y luego (disquete dist1…dist5)

1.2 � Hallar : Describe / Numeric Data / Rowwise Statistics Describe / Numeric Data / Rowwise Statistics

Práctica 3 vgaribay

3

Cada una de las 100 filas en la hoja de datos constituye una muestra aleatoria simple de tamaño 5 de la distribución N(10,6) Calculemos la media muestral para cada una de estas 100 muestras

Botón disquete marcar promedios (Means)

Cada una de las 100 muestras de tamaño 5 permite construir un I. de C para ( conocida =6) Para ello necesitamos el percentil zα/2

Práctica 3 vgaribay

4

1.3 � Hallar zα/2: Describe / Distribution Fitting /Probability Distributions Describe / Distribution Fitting / Probability Distributions

Pane Options de Inverse CDF: pedimos el valor α/2=0.025

zα/2= z0,025 = 1,959967736

1.4 � Calcular los límites superior e inferior de los intervalos correspondientes a cada una de las 100 muestras de tamaño 5. Se crean 2 nueva variables: lim_inf y lim_sup MEAN±1,959967736*6/sqrt(5)

Práctica 3 vgaribay

5

1.5 � Representar gráficamente los intervalos utilizando el operador count(1;100;1)

… junto a un Scatterplots / Multiple X-Y plot.

Cambiar escala del eje Y a -5 (5) 25 mediante Ventana Plot / Botón derecho / Graphics Options / Y Axis

Práctica 3 vgaribay

6

Llevar plot a Stat Gallery: Botón derecho > Copy // Botón derecho > Paste … y añadir línea a altura 10: Botón dcho>Add Item

1.6 � Comprobar cuántos de los intervalos contienen el valor 10.

Creamos una variable CUBRE_10 que vale 1 si el intervalo para cubre el valor verdadero lim_inf_95 <10 & lim_sup_95 >10

Práctica 3 vgaribay

7

Proporción de intervalos que realmente aciertan a cubrir el verdadero valor de mu (mu=10)

SUM(CUBRE_10)

Práctica 3 vgaribay

8

2.- INTERVALO DE CONFIANZA CON UNA MUESTRA Y CÁLCULO DEL TAMAÑO MUESTRAL (VARIANZA DESCONOCIDA Y VARIANZA CONOCIDA) Se está investigando el alcance de un nuevo tipo de cartuchos para mortero. Los alcances observados en metros, para 16 cartuchos seleccionados aleatoriamente son: 2216, 2237, 2249, 2204, 2225, 2301, 2281, 2263, 2318, 2255, 2275, 2295, 2250, 2238, 2300, 2217. Se considera que el alcance se distribuye normalmente.

Introduzco datos o abro el archivo Datos3IC.sgd , que los contienee. 2.0 (Complemento: comprobación de normalidad Describe / Distribution Fitting/ Fitting Uncensored Data alcance

Estos datos soportan la hipótesis de normalidad. Son compatibles con ella.

Práctica 3 vgaribay

9

2.1 a) Elaborar un intervalo de confianza del 95% para el alcance medio. Describe / Numeric Data / One-Variable Analysis alcance

Selecciono I de C (y plot de Normalidad)

Confidence Intervals for ALCANCE Solución: 95,0% confidence interval for mean: 2257,75 +/- 18,3916 [2239,36; 2276,14]

(Para ver otras opciones de IdeC: Botón Secundario / Pane Options )

2.2 b) Hallar una cota inferior de confianza del 95% para el alcance medio. Describe / Numeric Data / One-Variable Analysis alcance o directamente sobre la tabla salida I. de C. anterior, botón derecho

Confidence Bounds for ALCANCE 95,0% lower confidence bound for mean: 2257,75 - 15,1265 [2242,62]

Práctica 3 vgaribay

10

2.3 c) Construir un intervalo de confianza del 95% para el alcance medio, considerando que σ=36. Comparar este intervalo con el de a). En la base de datos construiremos los extremos del I.de C. según la fórmula: Para ello, en la ventana de salida de

Describe / Numeric Data / One-Variable Análisis alcance Copio la media o la guardo en la hoja de datos mediante Botón Diskete

Calculo ahora límites mediante dos nuevas columnas en hoja de datos (z0,025= 1,959967736 calculado ya en apartado 1.3 )

Solución: Intervalo de confianza = [2240,11; 2275,39] Este intervalo es algo más pequeño que el obtenido en a): [2239,36; 2276,14]

al conocer el valor de σ=36 la estimación es ahora más precisa. 2.4 d) ¿Valdría esta muestra si queremos tener una confianza del 95% de que el error al estimar el alcance medio sea menor de 20 metros?; ¿y menor de 5 metros?; ¿y menor de 1 metro? Calcular el tamaño muestral necesario en cada una de las tres situaciones anteriores. Suponer conocida σ=36.

Tools / Sample-Size Determination / One Simple

Práctica 3 vgaribay

11

Marca Normal Mean y escribe Hypothesized Sigma = 36

Absolute Error = 20 (5 en el Segundo caso, 1 en el tercero) Dejar Confidence Level=95% Marcar Sigma known

Sample-Size Determination Parameter to be estimated: normal mean Desired tolerance: +- 20,0 Confidence level: 95,0% Sigma: 36,0 (known) The required sample size is n=13 observations.

Práctica 3 vgaribay

12

Sample-Size Determination Parameter to be estimated: normal mean Desired tolerance: +- 5,0 Confidence level: 95,0% Sigma: 36,0 (known) The required sample size is n=200 observations.

Sample-Size Determination Parameter to be estimated: normal mean Desired tolerance: +- 1,0 Confidence level: 95,0% Sigma: 36,0 (known) The required sample size is n=4979 observations. Nota: Si σ es desconocida, como no es posible despejar n en la ecuación se toma σ=Sn y tn-1,0.025≡z0.025.

Práctica 3 vgaribay

13

3.- INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS Y PARA EL COCIENTE DE VARIANZAS DE DOS POBLACIONES Normales (VARIANZAS DESCONOCIDAS)

3.1 a) Abrir el fichero de datos Cardata.sgd. Crear dos nuevas columnas de datos: una con los datos de la variable mpg cuando la variable cylinders es menor que 6 y otra con los valores de la variable mpg cuando cylinders es mayor o igual que 6. Para hacerlo se usa el operador select(?;?): Doble click en cabecera de Nueva Columna / Formula select(mpg;cylinders>5) Doble click en cabecera de Nueva Columna / Formula select(mpg;cylinders>6)

3.1.1 b) Comparar las medias y las desviaciones típicas de las dos variables creadas antes. Para ello usar: Compare / Two Simples / Independent Samples

en Tablas y Gráficos marcar Comparison of Means + Comparison of Standard Deviations

Práctica 3 vgaribay

14

Comparison of Means 95,0% confidence interval for mean of MPG_C1: 32,1467 +/- 1,0923 [31,0544; 33,239] 95,0% confidence interval for mean of MPG_C2: 21,1596 +/- 1,3286 [19,831; 22,4882] 95,0% confidence interval for the difference between the means assuming equal variances:

10,9872 +/- 1,85688 [9,13027; 12,844] Este intervalo NO contiene el 0 los datos NO soportan la igualdad de medias al 95%

t test to compare means Null hypothesis: mean1 = mean2 Alt. hypothesis: mean1 NE mean2 assuming equal variances: t = 11,6902 P-value = 0 Reject the null hypothesis for alpha = 0,05. Comparison of Standard Deviations MPG_C1 MPG_C2 Standard deviation 5,699 4,52503 Variance 32,4786 20,4759 Df 106 46 Ratio of Variances = 1,58618 95,0% Confidence Intervals Standard deviation of MPG_C1: [5,02421; 6,58495] Standard deviation of MPG_C2: [3,76019; 5,68338] Ratio of Variances: [0,944351; 2,53772] Los datos son compatibles con igualdad de sigmas F-test to Compare Standard Deviations Null hypothesis: sigma1 = sigma2 Alt. hypothesis: sigma1 NE sigma2 F = 1,58618 P-value = 0,0804817 Do not reject the null hypothesis for alpha = 0,05.

Práctica 3 vgaribay

15

3.1.2 b) opción 2) Se llega al mismo resultado directamente con los datos en una sola columna (mpg)

y seleccionando las muestras según el valor de cilindres: Compare / Two Simples / Independent Samples

Marcar ͼ Data and Code Columns (en lugar de Two Data Columns) y codificar por cylinders>5

Práctica 3 vgaribay

16

EJERCICIOS Ejercicio 3.1: Repetir el apartado 1 suponiendo la y comparar los intervalos obtenidos en ambos casos. Ahora el intervalo de confianza para μ al nivel α (σ desconocido) es: � Hallar S: Describe / Numeric Data / Rowwise Statistics (disquete Desviación Estándar). � Hallar tα/2: Describe / Distribution Fitting / Probability Distributions t0,975 = 2,776453604 � Calcular los límites superior e inferior de los intervalos correspondientes a cada muestra. Se crean 2 nueva variables: lim_inf_descono y lim_sup_descono

MEAN +/- 2,776453604*SIGMA/sqrt(5) Error max estimación: 2,776453604*SIGMA/sqrt(5) (era 5,26 en ejercicio 1) � Representar gráficamente los intervalos utilizando el operador count junto a un Gráfico X-Y.

� Comprobar cuántos de los intervalos contienen el valor 10. Nueva variable CUBRE_10 indicadora de cobertura correcta : lim_inf_descono <10 & lim_sup_descono >10 porcentaje de intervalos que aciertan SUM(CUBRE_10) SUM(cubre_mu10)

Práctica 3 vgaribay

17

Ejercicio 3.2: Repetir el apartado 1 para intervalos de confianza para la varianza. El intervalo de confianza para σ2 al nivel α es:

� Hallar S2

en cada una de las 100 muestras de tamaño 5: Describe / Numeric Data / Rowwise Statistics (disquete Varianza : variable S2). � Hallar percentiles 0,025 y 0.0975 de la chi-2 (n = 4, α = 0,95): Describe / Distribution Fitting / Probability Distributions :

=0,4844185559 y =11,14328678 � Calcular los límites superior e inferior de los intervalos correspondientes a cada muestra. Se crean 2 nueva variables: lim_inf_varianza y lim_sup_varianza

lim_inf_varianza 5*S2/11,14328678 lim_sup_varianza 5*S2/0,4844185559

� Representar gráficamente los intervalos utilizando el operador count junto a un Gráfico X-Y.

� Comprobar cuántos de los intervalos contienen el valor 36. Variable cubre_sigma_36 : lim_inf_varianza <36 & lim_sup_varianza >36 Cuento aciertos, variable : SUM(cubre_sigma_36)

Práctica 3 vgaribay

18

Ejercicio 3.3: Suponiendo normalidad, obtener un intervalo de confianza de nivel 0.01 para la media de la variable -2*log(DistanciaCapital/Altitud), obtenida a partir del fichero Municipios.sgd.

Abro Municipios.sgd Creo nueva variable: -2*log(DistanciaCapital/Altitud) Describe/ Distribution Fittinf / Fitting Uncensored Data

Es medianamente razonable razonable suponer normalidad?

Normal

Goodness-of-fit Tests y Quantile Plot

Práctica 3 vgaribay

19

Summary Statistics for -2log_dist_ampli Count 62 Average 3,73213 Standard deviation 0,856565 Confidence Intervals for -2log_dist_ampli 99,0% confidence interval Describe/ Numeric data / One-Variable Analisys

Confidence Intervals , Frecuency Histogram y Normal Probability Plot

Pane Options

Confidence Intervals for Col_10 99,0% confidence interval for mean: 3,73213 +/- 0,289241 [3,44288; 4,02137]

Práctica 3 vgaribay

20

Ejercicio 3.4: Se sabe que la duración en horas de una bombilla eléctrica de 75W se distribuye aproximadamente en forma normal. Para una muestra aleatoria de 20 bombillas se obtienen las siguientes duraciones: 1014, 1015, 1018, 1007, 980, 1001, 971, 1009, 1033, 997, 1003, 1028, 1036, 998, 982, 1011, 998, 1024, 1031, 1058. Se pide: a) Elaborar un intervalo de confianza del 95% para la vida media. (mu, sigma desconocida) Describe / Numeric Data / One-Variable Análisis

Summary Statistics for DURACION

Count 20 Average 1010,7 Variance 440,432 Standard deviation 20,9865

Confidence Intervals for DURACION 95,0% confidence interval for mean: 1010,7 +/- 9,82199 [1000,88; 1020,52] Complemento Normalidad: Describe/ Distribution Fittinf / Fitting Uncensored Data

95,0% confidence interval for mean: 1010,7 +/- 9,82199 [1000,88; 1020,52]

Práctica 3 vgaribay

21

b) Encontrar una cota inferior de confianza al 99% para la vida media. Describe / Numeric Data / One-Variable Análisis Tabla I.de C Pane Options: 99% y Cota inferior

Confidence Bounds for DURACION

99,0% lower confidence bound for mean: 1010,7 - 11,9171 [998,783] c) Si se desea obtener un intervalo con una confianza del 95% de que el error al estimar la duración media sea menor de 5 horas, ¿cuál debe ser el tamaño muestral? Tools / Sample-Size Determination / One Simple

Absolute Error = 5 Sigma To be estimed Confidence Level 95%

Sample-Size Determination Parameter to be estimated: normal mean Desired tolerance: +- 5,0 Confidence level: 95,0% Sigma: 20,9865 (to be estimated) The required sample size is n=71 observations

Práctica 3 vgaribay

22

Ejercicio 3.5: Se recogen 5 muestras de un control antidoping correspondientes a 50 deportistas. Interesa anotar el valor mínimo obtenido por cada deportista. Los valores están en el fichero Datos3IC. Se crea un nueva variable que es el mínimo Describe / Numeric Data / Rowwise Statistics ; (Save Mínimum a Diskete) Suponiendo normalidad, proporcionar un intervalo de confianza al 97% para la media de las anotaciones (valor mínimo de cada atleta). Describe / Numeric Data / One-Variable Análisis Tabla I.de C

Pane Options CI alfa=97%

Confidence Intervals for MINIMUM 97,0% confidence interval for mean: 16,7531 +/- 0,610151 [16,1429; 17,3632]

Práctica 3 vgaribay

23

Ejercicio 3.6: A continuación se presentan los tiempos que tardan en consumirse bengalas de dos tipos diferentes:

Tipo I: 65, 81, 57, 66, 82, 82, 67, 59, 75, 70. Tipo II: 64, 71, 83, 59, 65, 56, 69, 74, 82, 79.

Calcular el intervalo de confianza del 95% para la diferencia de medias y el intervalo de confianza del 95% para el cociente de las varianzas. Los valores están en el fichero Datos3IC. Compare / Two Simples / Independent Samples

en Tabulación abrir Comparison of Means y Comparison of Standard Deviations

Comparison of Means

95,0% confidence interval for mean of tipo1: 70,4 +/- 6,6271 [63,7729; 77,0271] 95,0% confidence interval for mean of tipo2: 70,2 +/- 6,70048 [63,4995; 76,9005] 95,0% confidence interval for the difference between the means assuming equal variances:

0,2 +/- 8,75246 [-8,55246; 8,95246] t test to compare means Null hypothesis: mean1 = mean2 Alt. hypothesis: mean1 NE mean2 assuming equal variances: t = 0,0480077 P-value = 0,962239 Do not reject the null hypothesis for alpha = 0,05. Comparison of Standard Deviations tipo1 tipo2 Standard deviation 9,26403 9,36661 Variance 85,8222 87,7333 Df 9 9 Ratio of Variances = 0,978217 95,0% Confidence Intervals Standard deviation of tipo1: [6,37212; 16,9125] Standard deviation of tipo2: [6,44268; 17,0998] Ratio of Variances: [0,242975; 3,9383] F-test to Compare Standard Deviations Null hypothesis: sigma1 = sigma2 Alt. hypothesis: sigma1 NE sigma2 F = 0,978217 P-value = 0,974366

Práctica 3 vgaribay

24

Do not reject the null hypothesis for alpha = 0,05. Ejercicio 3.7: a) Generar 500 observaciones del número de veces que aparece un 2 al tirar 5 dados, utilizando la distribución binomial. Describe / Distritution Fitting / Probability Distributions

1/6 = 0,16666667 Binomial (5, 0,16666667)

Pane Options n=500

Botón Save Datos a disckete

Práctica 3 vgaribay

25

b) Estimar la probabilidad de sacar exactamente 3 doses en una tirada de 5 dados. Describe / Categorical Data / Frequency Tables Probabilidades Teóricas: Probability Mass (=)

Frecuencias en la muestra Frequency Table for Bin(5,1/6) Relative Cumulative Cum. Rel. Class Value Frequency Frequency Frequency Frequency 1 0 207 0,4140 207 0,4140 2 1 193 0,3860 400 0,8000 3 2 79 0,1580 479 0,9580 4 3 19 0,0380 498 0,9960 5 4 2 0,0040 500 1,0000

c) Calcular un I.C. al 90% para dicha proporción.

P estimada en esta muestra = 0,0380 en Describe / Categorical Data / Frequency Tables z0,95 = 1,644856922 en Describe / Distritution Fitting / Probability Distributions Normal(0,1) dos nuevas variables, para calcular directamente LI y LS

0,0380 +/- 1,644856922*sqrt(0,0380*0,062/100)

Límite Inferior: 0,0190534 Límite Superior: 0,0449466

Variable Dist. 1

0 0,401877

1 0,401878

2 0,160752

3 0,0321504

4 0,00321505