práctica 4: inferencia estadística...

30
Práctica 6: Inferencia Estadística Práctica 6: Inferencia Estadística Objetivos específicos Al finalizar esta práctica deberás ser capaz de: Contrastar la independencia de dos variables. Comprender el significado del intervalo de confianza y del nivel de confianza del intervalo. Relacionar la amplitud del intervalo con el nivel de confianza y el tamaño de la muestra. Estimar de forma puntual y por intervalo de confianza la media y la varianza de una población normal. Comparar la media de una población normal con varianza conocida con un valor de referencia. Interpretar correctamente los resultados proporcionados por la función PRUEBA.Z para el cálculo del p-valor del contraste de comparación de medias. Comparar las varianzas de dos poblaciones normales independientes. Comparar la diferencia de medias de dos poblaciones normales independientes, con varianzas conocidas o no, con un valor de referencia. Comparar la diferencia de medias de dos poblaciones relacionadas con un valor de referencia. Interpretar correctamente los resultados proporcionados por las funciones PRUEBA.T y PRUEBA.F para el cálculo de los p-valores de los contrastes de comparación de medias y varianzas, respectivamente. 1. Independencia de dos variables En ocasiones puede resultar necesario determinar si existe alguna relación entre dos variables observadas sobre una población. Una primera aproximación al estudio de la independencia de estas dos variables sería mediante el análisis de la tabla dinámica bidimensional y del diagrama de barras conjunto, como ya se hizo en la Práctica 1. Ejemplo.- Imagina que podemos fabricar un determinado artículo en tres líneas de producción distintas (que llamaremos línea 1, línea 2 y línea 3). El ingeniero de calidad Isolina Alberto Moralejo 83

Upload: phungkiet

Post on 26-Sep-2018

218 views

Category:

Documents


0 download

TRANSCRIPT

Práctica 6: Inferencia Estadística

Práctica 6: Inferencia Estadística

Objetivos específicos Al finalizar esta práctica deberás ser capaz de:

• Contrastar la independencia de dos variables.

• Comprender el significado del intervalo de confianza y del nivel de confianza

del intervalo.

• Relacionar la amplitud del intervalo con el nivel de confianza y el tamaño de la

muestra.

• Estimar de forma puntual y por intervalo de confianza la media y la varianza de

una población normal.

• Comparar la media de una población normal con varianza conocida con un valor

de referencia.

• Interpretar correctamente los resultados proporcionados por la función

PRUEBA.Z para el cálculo del p-valor del contraste de comparación de medias.

• Comparar las varianzas de dos poblaciones normales independientes.

• Comparar la diferencia de medias de dos poblaciones normales independientes,

con varianzas conocidas o no, con un valor de referencia.

• Comparar la diferencia de medias de dos poblaciones relacionadas con un valor

de referencia.

• Interpretar correctamente los resultados proporcionados por las funciones

PRUEBA.T y PRUEBA.F para el cálculo de los p-valores de los contrastes de

comparación de medias y varianzas, respectivamente.

1. Independencia de dos variables En ocasiones puede resultar necesario determinar si existe alguna relación entre dos

variables observadas sobre una población. Una primera aproximación al estudio de la

independencia de estas dos variables sería mediante el análisis de la tabla dinámica

bidimensional y del diagrama de barras conjunto, como ya se hizo en la Práctica 1.

Ejemplo.- Imagina que podemos fabricar un determinado artículo en tres líneas de

producción distintas (que llamaremos línea 1, línea 2 y línea 3). El ingeniero de calidad

Isolina Alberto Moralejo 83

Práctica 6: Inferencia Estadística

está interesado en saber si alguna de las líneas produce más artículos defectuosos que

las otras, o si, por el contrario, la proporción de artículos defectuosos es la misma para

todas las líneas. Es decir, está interesado en saber si la proporción de artículos

defectuosos es independiente de la línea de producción. Para llevar a cabo el estudio, el

ingeniero de calidad recoge datos y genera el fichero Excel Líneas de producción.xls.

En este fichero, la variable Artículo indica si el artículo es correcto o defectuoso; y la

variable Línea, la línea de producción en la que se ha fabricado (ver Figura 1).

Figura 1: Vista del fichero Líneas de producción.xls

Con los datos del fichero construimos la tabla dinámica con las frecuencias relativas

condicionadas, poniendo la variable Artículo en el campo columna; y la variable Línea,

en el campo fila, obteniendo el resultado de la Figura 2 y el gráfico de la Figura 3.

Figura 2: Tabla dinámica de los datos del fichero Líneas de producción.xls

Figura 3: Gráfico de barras agrupadas de los datos del fichero Líneas de producción.xls

Isolina Alberto Moralejo 84

Práctica 6: Inferencia Estadística

Como puede observarse en el gráfico de barras agrupadas de la Figura 3, la distribución

de los artículos correctos y defectuosos es prácticamente la misma para las líneas 1 y 3,

y difiere notablemente para la línea 2, con lo que concluiríamos que la proporción de

elementos defectuosos depende de la línea de producción.

Si, como en el ejemplo, las variables tienen pocas categorías, realizar este análisis

gráfico para determinar la dependencia o independencia de las variables puede resultar

relativamente sencillo; sin embargo, cuando el número de categorías de las variables es

grande, se complica. En estos casos, se recomienda llevar a cabo un contraste chi-

cuadrado de independencia. Esta prueba contrasta la hipótesis nula H0: Las variables X

e Y son independientes frente a la hipótesis alternativa H1: Las variables X e Y son

dependientes. El p-valor del contraste (también llamado significación) nos indicará

cómo de creíble resulta la hipótesis nula de independencia planteada a la luz de la

información proporcionada por la muestra recogida.

En el cálculo del p-valor intervienen las frecuencias conjuntas observadas, nij, (i=1,...,k;

j=1,...,h) y las frecuencias conjuntas esperadas, eij, calculadas mediante la expresión:

Nnn

e jiij

•• ×= ; i=1,...,k; j=1,...,h

donde ni• y n•j son las frecuencias marginales de las variables X e Y respectivamente, y

N es el tamaño de la muestra.

Nota: Las frecuencias eij se llaman frecuencias esperadas porque es el número de

observaciones que esperaríamos obtener en cada casilla de la tabla de doble entrada en

caso de que las variables X e Y fueran independientes.

Con estas frecuencias se calcula el valor del estadístico del contraste en la muestra,

denotado con : 20X

∑∑= =

−=

k

1i

h

1j ij

2ijij2

0 e)e(n

X

El p-valor del contraste es la probabilidad siguiente:

( )20

21)1)(h(k XχPvalorp ≥=− −−

Isolina Alberto Moralejo 85

Práctica 6: Inferencia Estadística

La regla de aceptación y rechazo de la hipótesis nula es la siguiente: si el p-valor≥α

aceptaremos H0 (concluyendo entonces que las variables son independientes); y si el p-

valor<α, rechazaremos H0 (concluyendo, por tanto, que las variables son dependientes).

Nota: Para realizar la prueba de independencia, las variables continuas deberán estar

agrupadas en clases. Además, si al calcular las frecuencias esperadas eij, alguna sale

menor que 5, la deberemos agrupar con las categorías contiguas hasta obtener una tabla

en la que todas las frecuencias esperadas sean mayores o iguales que 5.

Nota: La función PRUEBA.CHI, que veremos en el siguiente apartado, calcula el p-

valor del contraste de independencia. Sin embargo, esta función no calcula las

frecuencias esperadas eij, sino que son uno de los argumentos que necesita. Es por esto

por lo que deberemos calcularlas nosotros con ayuda de las funciones matemáticas

habituales de Excel una vez construida la tabla dinámica de doble entrada.

Continuando con el ejemplo anterior y como ya se ha comentado, la tabla de las

frecuencias esperadas la tenemos que construir nosotros utilizando su definición y las

funciones de Excel, obteniendo la tabla de la Figura 4.

Figura 4: Tabla de frecuencias esperadas

En este momento, estamos en disposición de utilizar la función PRUEBA.CHI, que nos

proporcionará el p-valor del contraste de independencia.

2. Función PRUEBA.CHI Esta función devuelve el p-valor del contraste chi-cuadrado de independencia. Se

accede a ella a través de la opción INSERTAR>FUNCIÓN>ESTADÍSTICAS>

PRUEBA.CHI. La ventana de diálogo correspondiente a esta función se muestra en la

Figura 5.

Isolina Alberto Moralejo 86

Práctica 6: Inferencia Estadística

Figura 5: Ventana de diálogo de la función estadística PRUEBA.CHI

En la casilla RANGO ACTUAL deberemos introducir las frecuencias conjuntas

observadas que proporciona la tabla dinámica; y en la casilla RANGO ESPERADO,

las frecuencias esperadas obtenidas como se ha comentado en el punto anterior.

Ejemplo.- Continuando con el ejemplo anterior, contrastamos la independencia de las

variables Artículo y Línea. Para ello, introducimos los valores de las frecuencias

observadas y esperadas en las casillas RANGO ACTUAL y RANGO ESPERADO,

tal y como se muestra en la Figura 6.

Figura 6: Función PRUEBA.CHI con los datos del fichero Líneas de producción.xls

Tal y como se observa en esta misma Figura 6, el resultado de la fórmula, es decir, el p-

valor del contraste de independencia, vale 5.17197×10-6, con lo que la hipótesis de

independencia se rechazará. Es decir, la proporción de artículos defectuosos producidos

sí depende de la línea de producción.

Ejercicio.- Haz el Ejercicio 1 del final de la práctica.

Isolina Alberto Moralejo 87

Práctica 6: Inferencia Estadística

3. ¿Qué representa el nivel de confianza de un intervalo? Vamos a conectarnos a la siguiente dirección electrónica:

http://www.ruf.rice.edu/~lane/stat_sim/conf_interval/index.html

Esta dirección contiene un programa interactivo programado en lenguaje Java que nos

va a permitir comprender mejor los conceptos de intervalo de confianza y nivel de

confianza del intervalo; y a relacionar la amplitud del intervalo con el tamaño de la

muestra y el nivel de confianza. El programa genera aleatoriamente 100 muestras de

tamaño 10, 15 ó 20, de una población de media µ = 50 y desviación típica σ = 10. Con

cada una de las muestras generadas calcula dos intervalos de confianza para la media,

con niveles de confianza del 95 y 99%, mediante la expresión ya conocida

⎥⎦

⎤⎢⎣

⎡+− −−−− α/21;1nα/21;1n t

nsx,t

nsx . Los intervalos calculados los representa

gráficamente mediante líneas horizontales. El intervalo al 95% lo representa con una

línea horizontal de color amarillo; y el intervalo al 99%, con una línea de color azul.

Aquellos intervalos que no contienen al verdadero valor de la media poblacional, µ =

50, los representa en rojo.

La página principal de este applet de Java aparece en la Figura 7 y funciona de la

siguiente manera. Al pinchar en el botón BEGIN, aparece una ventana como la que se

muestra en la Figura 8, donde deberemos seleccionar el tamaño de la muestra entre los

valores 10, 15 y 20. Al pinchar en el botón SAMPLE, se generarán aleatoriamente las

100 muestras del tamaño especificado.

Figura 7: Página principal del applet “Confidence Intervals”

Isolina Alberto Moralejo 88

Práctica 6: Inferencia Estadística

Con las muestras generadas se calculan los intervalos para la media de la población.

Figura 8: Ventana de diálogo del applet “Confidence Intervals”

La línea vertical que aparece en el cuadro gris de la Figura 8 es la media de la población

(µ = 50) y los intervalos obtenidos con las 100 muestras se representan gráficamente por

en ese mismo cuadro (los intervalos al 95% en amarillo y los intervalos al 99% en azul).

En la parte inferior derecha de la Figura 8 van a aparecer el número de intervalos que

contienen al valor µ = 50, el número de intervalos que no contienen al valor µ = 50 y la

proporción de intervalos que contienen al valor µ = 50. Se podrá observar que la

proporción de intervalos que contienen al valor µ = 50 está muy próxima al nivel de

confianza del intervalo.

Por ejemplo, si ejecutamos el applet con tamaño muestral igual a 10 (es decir, cada

muestra consta de 10 observaciones de una población de media 50 y desviación típica

10), la proporción de intervalos al 95% que contienen al valor µ = 50 es igual a 0.960; y

la proporción de intervalos al 99%, a 0.980 (ver Figura 9).

Figura 9: Intervalos de confianza obtenidos con tamaño muestral igual a 10

Como puede observarse en la Figura 9, al aumentar el nivel de confianza, el intervalo se

hace más grande, pero los intervalos están centrados en el mismo valor, que es

Isolina Alberto Moralejo 89

Práctica 6: Inferencia Estadística

precisamente la media de la muestra, x . Por otro lado, también podremos observar que

al aumentar el tamaño muestral, el intervalo de confianza se hace más pequeño

(comparar, por ejemplo, los resultados que se muestran en la Figura 9 y la Figura 10).

Figura 10: Intervalos de confianza obtenidos con tamaño muestral igual a 20

Así, intuitivamente, si calculamos 100 intervalos de confianza para un parámetro (con

100 muestras distintas obtenidas de la misma población), con un nivel de confianza del

95%, aproximadamente 95 de esos intervalos contendrán al verdadero valor del

parámetro y 5 de ellos no. Cuando con una única muestra de tamaño n calculamos un

intervalo, “confiaremos” en nuestra buena suerte y pensaremos que el intervalo obtenido

es uno de los 95 que sí contienen al verdadero valor del parámetro.

Ejercicio.- Haz el Ejercicio 2 del final de la práctica.

4. Función INTERVALO.CONFIANZA Esta función estadística devuelve la semiamplitud del intervalo de confianza para la

media de una población normal de varianza conocida, es decir, el valor α/21znσ

− . Para

obtener el intervalo de confianza para µ no tenemos más que restar y sumar esta

cantidad a la media de la muestra, x .

Para acceder a esta función, hay que seleccionar la opción del menú

INSERTAR>FUNCIÓN>ESTADÍSTICAS como se muestra en la Figura 11, o bien a

través de la barra de herramientas pinchando en el botón INSERTAR FUNCIÓN, .

Isolina Alberto Moralejo 90

Práctica 6: Inferencia Estadística

Figura 11: Menú INSERTAR>FUNCIÓN

Una vez allí seleccionamos la función INTERVALO.CONFIANZA, como se muestra

en la Figura 12.

Figura 12: Función INTERVALO.CONFIANZA

Al hacerlo, entramos en la ventana de diálogo que se muestra en la Figura 13, en la que

debemos indicar en la casilla ALFA el valor del nivel de significación, α, del intervalo;

en la casilla DESV_ESTÁNDAR el valor de la desviación típica de la población, σ; y

el tamaño de la muestra, n, en la casilla TAMAÑO.

Figura 13: Ventana de diálogo de la función INTERVALO.CONFIANZA

Isolina Alberto Moralejo 91

Práctica 6: Inferencia Estadística

Al pinchar el botón de ACEPTAR, la función nos devuelve, como ya hemos dicho, el

valor de la semiamplitud del intervalo de confianza. Para construir el intervalo de

confianza, necesitamos la media de la muestra, x , que aprendimos a calcularla en la

Práctica 1.

5. Menú ESTADÍSTICA DESCRIPTIVA A través de la función INTERVALO.CONFIANZA que acabamos de ver, podemos

calcular el intervalo de confianza para la media de una población normal de varianza

conocida. Pero, ¿qué ocurre si desconocemos la varianza poblacional, σ2? En este caso,

Excel nos permite calcular la semiamplitud del intervalo de confianza a través de la

opción estadística avanzada ESTADÍSTICA DESCRIPTIVA que ya conocemos de

prácticas anteriores. Para acceder a ella, pinchamos en HERRAMIENTAS>

ANÁLISIS DE DATOS>ESTADÍSTICA DESCRIPTIVA, entrando en la ventana de

diálogo que se muestra en la Figura 14, en la que deberemos introducir los datos en la

casilla RANGO DE ENTRADA, y deberemos seleccionar la opción NIVEL DE

CONFIANZA PARA LA MEDIA, indicando el nivel de confianza (que por defecto es

el 95%).

Figura 14: Ventana de diálogo de la opción del menú ESTADÍSTICA DESCRIPTIVA

Isolina Alberto Moralejo 92

Práctica 6: Inferencia Estadística

Al pinchar en el botón ACEPTAR, la función devuelve la semiamplitud del intervalo

de confianza calculada con la expresión α/21;1ntns

−− . Para calcular el intervalo de

confianza no tenemos más que restar y sumar esta cantidad a la media muestral.

Ejercicio.- Haz el Ejercicio 3 del final de la práctica.

6. Función PRUEBA.Z Con la función PRUEBA.Z podemos calcular los p-valores de los contrastes de

comparación de la media de una distribución normal con varianza conocida o

desconocida con un valor de referencia, es decir, los p-valores de los contrastes:

Bilateral Unilaterales H0: µ = µ0 H1: µ ≠ µ0

H0: µ ≤ µ0

H1: µ > µ0

H0: µ ≥ µ0 H1: µ < µ0

Para acceder a la función, seleccionamos la opción del menú principal

INSERTAR>FUNCIÓN>ESTADÍSTICAS, o a través del botón PEGAR FUNCIÓN

de la barra de herramientas. La ventana de diálogo de esta función aparece en la Figura

15, en la que deberemos introducir los datos de la muestra en la casilla MATRIZ; el

valor de referencia, µ0, en la casilla X; y el valor de la desviación típica poblacional,σ,

en la casilla SIGMA. Si omitimos el valor de la desviación típica de la población, Excel

utilizará para el cálculo de la función el valor de la desviación típica de la muestra.

Figura 15: Ventana de diálogo de la función PRUEBA.Z

La función PRUEBA.Z devuelve el valor 1-P(Z≤z), siendo z el valor del estadístico en

la muestra, que se calcula mediante la expresión nσ/

µxz 0−= , si la varianza es conocida;

Isolina Alberto Moralejo 93

Práctica 6: Inferencia Estadística

o mediante n/sµx 0− , si la varianza es desconocida. Para calcular el p-valor de un

contraste unilateral, utilizaremos la tabla siguiente:

H0: µ ≤ µ0

H1: µ > µ0

H0: µ ≥ µ0

H1: µ < µ0p-valor = PRUEBA.Z p-valor = 1 - PRUEBA.Z

En el caso de contrastes bilaterales, para calcular el p-valor tenemos que obtener el

signo del estadístico del contraste en la muestra, z, (signo de z = signo de 0µ-x ).

Dependiendo de su signo, el p-valor del contraste bilateral se calcula con ayuda de la

tabla siguiente:

H0: µ = µ0

H1: µ ≠ µ0z >0 p-valor = 2 × PRUEBA.Z z <0 p-valor = 2 × (1 - PRUEBA.Z)

Nota: Al igual que con la función PRUEBA.T que veremos más adelante, pondremos

especial cuidado en el uso de esta función y en la interpretación de los resultados

proporcionados.

Ejercicio.- Haz el Ejercicio 4 del final de la práctica.

7. Función PRUEBA.F Esta función devuelve el p-valor (significación) del contraste de comparación de

varianzas de dos poblaciones normales independientes X e Y, con hipótesis nula H0:

; e hipótesis alternativa H2Y

2X σσ = 1: . 2

Y2X σσ ≠

El procedimiento para insertar esta función es el mismo que para la anterior. Al

seleccionarla de entre las funciones estadísticas, accedemos a la ventana de diálogo que

se muestra en la Figura 16. En la casilla MATRIZ1 debemos poner los datos de la

muestra de la población X; y en la casilla MATRIZ2, los de la muestra de la población

Y. El orden en que introduzcamos las poblaciones es indiferente.

Isolina Alberto Moralejo 94

Práctica 6: Inferencia Estadística

Figura 16: Ventana de diálogo de la función PRUEBA.F

8. Función PRUEBA.T Con esta función se pueden calcular los p-valores (significación) de los contrastes de

comparación de medias de dos poblaciones con varianzas desconocidas (iguales o

distintas) en muestras independientes o apareadas (ver la Nota más adelante):

Bilateral Unilaterales H0: µX = µY H1: µX ≠ µY

H0: µX ≤ µY

H1: µX > µY

H0: µX ≥ µY H1: µX < µY

Se accede a ella a través de la opción del menú INSERTAR>FUNCIÓN>

ESTADÍSTICAS>PRUEBA.T, entrando entonces a la ventana de diálogo que se

muestra en la Figura 17. En la casilla MATRIZ1 introduciremos el rango de datos

(muestra) de la población de X; en la casilla MATRIZ2, el rango de datos (muestra) de

la población Y; en la casilla COLAS especificaremos si el contraste es unilateral

(COLAS=1) o bilateral (COLAS=2); y, finalmente, en la casilla TIPO indicaremos si

el contraste es para datos emparejados (TIPO=1), variables independientes con igual

varianza (TIPO=2), o variables independientes con distinta varianza (TIPO=3).

Figura 17: Ventana de diálogo de la función PRUEBA.T

Isolina Alberto Moralejo 95

Práctica 6: Inferencia Estadística

Nota importante: Hay que ser muy cuidadosos en el uso de esta función ya que,

aunque para contrastes bilaterales sí que devuelve exactamente el p-valor, en el caso de

contrastes unilaterales no es así. Para contrastes unilaterales, la función devuelve el

mínimo entre P(T≤t) y P(T≥t), siendo T el estadístico (variable aleatoria) usado en el

contraste y t el valor que el estadístico del contraste ha tomado en las muestras de que

disponemos. Para saber si el valor que devuelve la función PRUEBA.T es el p-valor de

un contraste unilateral, tendremos que calcular también el signo de t (signo de t = signo

de y-x ). Si t es negativo, la función PRUEBA.T devuelve P(T≤t); y si es positivo,

P(T≥t). Las combinaciones posibles y el cálculo del p-valor del contraste unilateral se

muestran en la tabla siguiente:

H0: µX ≤ µY

H1: µX > µY

H0: µX ≥ µY

H1: µX < µYt >0 p-valor = PRUEBA.T p-valor = 1 - PRUEBA.T t <0 p-valor = 1 - PRUEBA.T p-valor = PRUEBA.T

9. Menú PRUEBA Z PARA MEDIAS DE DOS MUESTRAS Entre las opciones estadísticas avanzadas se encuentra la función PRUEBA Z PARA

MEDIAS DE DOS MUESTRAS, que nos permite comparar la diferencia de medias de

dos poblaciones normales independientes de varianzas conocidas con un valor de

referencia, es decir, nos permite realizar los siguientes contrastes:

Bilateral Unilaterales H0: µX - µY = µ0

H1: µX - µY ≠ µ0

H0: µX - µY ≤ µ0

H1: µX - µY > µ0

H0: µX - µY ≥ µ0

H1: µX - µY < µ0

Para acceder a esta función, no tenemos más que seleccionar las opciones estadísticas

avanzadas mediante HERRAMIENTAS>ANÁLISIS DE DATOS, y una vez allí,

seleccionar la opción PRUEBA Z PARA MEDIAS DE DOS MUESTRAS (ver

Figura 18).

Figura 18: Funciones estadísticas avanzadas

Isolina Alberto Moralejo 96

Práctica 6: Inferencia Estadística

Entramos entonces en la ventana de diálogo de la Figura 19, en la que deberemos

introducir los datos de la muestra de X en la casilla RANGO PARA LA VARIABLE

1; los datos de la Y, en la casilla RANGO PARA LA VARIABLE 2; el valor de µ0, en

DIFERENCIA HIPOTÉTICA ENTRE LAS MEDIAS; las varianzas de las dos

poblaciones, en las casillas VARIANZA PARA LA VARIABLE 1 y 2; y el valor del

nivel de significación, en la casilla ALFA. Podemos, además, indicarle el rango de

salida de los resultados.

Figura 19: Ventana de diálogo del menú PRUEBA Z PARA MEDIAS DE DOS MUESTRAS

Nota: Como siempre, se recomienda pedir que los resultados los muestre en una hoja

nueva.

Al pinchar en el botón ACEPTAR se obtienen los resultados que se muestran en la

Figura 20, y que pasamos a comentar.

Figura 20: Resultados obtenidos con el menú PRUEBA Z PARA MEDIAS DE DOS MUESTRAS

MEDIA: proporciona la media muestral de cada una de las muestras.

VARIANZA (CONOCIDA): devuelve la varianza poblacional que habíamos

introducido en la ventana de diálogo.

OBSERVACIONES: es el tamaño de cada una de las muestras.

Isolina Alberto Moralejo 97

Práctica 6: Inferencia Estadística

DIFERENCIA HIPOTÉTICA DE MEDIAS: es el valor µ0 que habíamos

introducido en la ventana de diálogo.

z: proporciona el valor que toma el estadístico del contraste en las muestras de

que disponemos. Para este contraste se calcula mediante la expresión:

Y

2Y

X

2X

0

µ)yx(z

+

−−=

P(Z≤z) UNA COLA: proporciona el mínimo entre P(Z≤z) y P(Z≥z) y nos

permitirá calcular los p-valores de los contrastes unilaterales.

VALOR CRÍTICO DE Z (UNA COLA): proporciona el percentil z1-α para el

α introducido en la ventana de diálogo.

VALOR CRÍTICO DE Z (DOS COLAS): debería poner P(Z≤z) DOS

COLAS (es un error de Excel) y proporciona 2×mín{P(Z≤z), P(Z≥z)}, es

decir, el p-valor del contraste bilateral.

VALOR CRÍTICO DE Z (DOS COLAS): proporciona el percentil z1-α/2 para

el α introducido en la ventana de diálogo.

Nota: Para el cálculo de los p-valores de los contrastes unilaterales debemos tener en

cuenta el signo del valor del estadístico en la muestra, z, y la siguiente tabla:

H0: µX - µY ≤ µ0

H1: µX - µY > µ0

H0: µX - µY ≥ µ0

H1: µX - µY < µ0z > 0 p-valor = P(Z≤z) UNA COLA p-valor = 1 - P(Z≤z) UNA COLA z < 0 p-valor = 1 - P(Z≤z) UNA COLA p-valor = P(Z≤z) UNA COLA

10. Menú PRUEBA T PARA DOS MUESTRAS SUPONIENDO

VARIANZAS IGUALES Igual que la anterior, ésta es una opción estadística avanzada, a la que se accede a través

de HERRAMIENTAS>ANÁLISIS DE DATOS, seleccionando después la opción

PRUEBA T PARA DOS MUESTRAS SUPONIENDO VARIANZAS IGUALES.

Esta opción nos va a permitir realizar los contrastes de comparación de medias, en

poblaciones normales independientes con la misma varianza (desconocida) siguientes:

Isolina Alberto Moralejo 98

Práctica 6: Inferencia Estadística

Bilateral Unilaterales H0: µX - µY = µ0

H1: µX - µY ≠ µ0

H0: µX - µY ≤ µ0

H1: µX - µY > µ0

H0: µX - µY ≥ µ0

H1: µX - µY < µ0

Al seleccionar la opción, entramos en la ventana de diálogo que se muestra en la Figura

21, donde introduciremos la muestra de las dos poblaciones en las casillas RANGO

PARA LA VARIABLE 1 y 2 y el valor de µ0 en la casilla DIFERENCIA

HIPOTÉTICA ENTRE LAS MEDIAS.

Figura 21: Ventana de diálogo del menú PRUEBA T PARA DOS MUESTRAS SUPONIENDO

VARIANZAS IGUALES

Los resultados obtenidos se muestran en la Figura 22 y a continuación los pasamos a

comentar.

Figura 22: Resultados obtenidos con el menú PRUEBA T PARA DOS MUESTAS SUPONIENDO

VARIANZAS IGUALES

MEDIA: proporciona la media muestral de cada muestra.

VARIANZA: proporciona la cuasivarianza muestral de cada muestra.

OBSERVACIONES: es el tamaño de cada muestra.

Isolina Alberto Moralejo 99

Práctica 6: Inferencia Estadística

VARIANZA AGRUPADA: devuelve la estimación de la varianza común,

obtenida combinando las cuasivarianzas muestrales. Se calcula mediante la

expresión:

2nns1)(ns1)(ns

YX

2YY

2XX2

p −+−+−

=

DIFERENCIA HIPOTÉTICA DE LAS MEDIAS: es el valor µ0 introducido

en la ventana de diálogo.

GRADOS DE LIBERTAD: son los grados de libertad del estadístico del

contraste y se calculan mediante nX + nY – 2.

ESTADÍSTICO t: proporciona el valor que el estadístico del contraste ha

tomado en las muestras de que disponemos. Se calcula con la expresión:

YXp

0

n1

n1s

µ)yx(t

+

−−=

P(T≤t) UNA COLA: devuelve el mínimo entre P(T≤t) y P(T≥t) y nos permitirá

calcular los p-valores de los contrastes unilaterales.

VALOR CRÍTICO DE T (UNA COLA): devuelve el percentil del (1-

α)×100% del estadístico del contraste, t1-α, para el α introducido en la ventana

de diálogo.

P(T≤t) DOS COLAS: devuelve 2×mín{P(T≤t), P(T≥t)}, es decir, el p-valor del

contraste bilateral.

VALOR CRÍTICO DE T (DOS COLAS): devuelve el percentil del (1-

α/2)×100% del estadístico del contraste, t1-α/2, para el α introducido en la

ventana de diálogo.

Nota: Para el cálculo de los p-valores de los contrastes unilaterales debemos tener en

cuenta el signo del valor del estadístico en la muestra, t, y la siguiente tabla:

H0: µX - µY ≤ µ0

H1: µX - µY > µ0

H0: µX - µY ≥ µ0

H1: µX - µY < µ0t > 0 p-valor = P(T≤t) UNA COLA p-valor = 1 - P(T≤t) UNA COLA t < 0 p-valor = 1 - P(T≤t) UNA COLA p-valor = P(T≤t) UNA COLA

Ejercicio.- Haz el Ejercicio 5 del final de la práctica.

Isolina Alberto Moralejo 100

Práctica 6: Inferencia Estadística

11. Menú PRUEBA T PARA DOS MUESTRAS SUPONIENDO

VARIANZAS DESIGUALES El funcionamiento de esta opción del menú de funciones estadísticas avanzadas es

análogo al de las funciones anteriores y proporciona los resultados de los contrastes de

comparación de medias de dos poblaciones normales independientes con varianzas

desconocidas y distintas de la tabla siguiente:

Bilateral Unilaterales H0: µX - µY = µ0

H1: µX - µY ≠ µ0

H0: µX - µY ≤ µ0

H1: µX - µY > µ0

H0: µX - µY ≥ µ0

H1: µX - µY < µ0

La ventana de diálogo a la que se accede al seleccionarla aparece en la Figura 23, en la

que la forma de introducción de datos es la habitual.

Figura 23: Ventana de diálogo del menú PRUEBA T PARA DOS MUESTRAS SUPONIENDO

VARIANZAS DESIGUALES

Los resultados proporcionados son los que se muestran en la Figura 24.

Figura 24: Resultados obtenidos con el menú PRUEBA T PARA DOS MUESTRAS SUPONIENDO

VARIANZAS DESIGUALES

MEDIA: proporciona la media muestral de cada muestra.

VARIANZA: proporciona la cuasivarianza muestral de cada muestra.

Isolina Alberto Moralejo 101

Práctica 6: Inferencia Estadística

OBSERVACIONES: es el tamaño de cada muestra.

DIFERENCIA HIPOTÉTICA DE LAS MEDIAS: es el valor µ0 introducido

en la ventana de diálogo.

GRADOS DE LIBERTAD: son los grados de libertad del estadístico del

contraste calculados mediante la expresión:

1n)/ns(

1n)/ns(

ns

ns

libertad de grados

Y

2Y

2Y

X

2X

2X

2

Y

2Y

X

2X

−+

⎟⎟⎠

⎞⎜⎜⎝

⎛+

=

ESTADÍSTICO t: proporciona el valor que el estadístico del contraste ha

tomado en las muestras de que disponemos. Se calcula con la expresión:

Y

2Y

X

2X

0

ns

ns

µ)yx(t

+

−−=

P(T≤t) UNA COLA: devuelve el mínimo entre P(T≤t) y P(T≥t) y nos permitirá

calcular los p-valores de los contrastes unilaterales.

VALOR CRÍTICO DE T (UNA COLA): devuelve el percentil del (1-

α)×100% del estadístico del contraste, t1-α, para el α introducido en la ventana

de diálogo.

P(T≤t) DOS COLAS: devuelve 2×mín{P(T≤t), P(T≥t)}, es decir, el p-valor del

contraste bilateral.

VALOR CRÍTICO DE T (DOS COLAS): devuelve el percentil del (1-

α/2)×100% del estadístico del contraste, t1-α/2, para el α introducido en la

ventana de diálogo.

Nota: Para el cálculo de los p-valores de los contrastes unilaterales debemos tener en

cuenta el signo del valor del estadístico en la muestra, t, y la siguiente tabla:

H0: µX - µY ≤ µ0

H1: µX - µY > µ0

H0: µX - µY ≥ µ0

H1: µX - µY < µ0t > 0 p-valor = P(T≤t) UNA COLA p-valor = 1 - P(T≤t) UNA COLA t < 0 p-valor = 1 - P(T≤t) UNA COLA p-valor = P(T≤t) UNA COLA

Isolina Alberto Moralejo 102

Práctica 6: Inferencia Estadística

12. Menú PRUEBA T PARA MEDIAS DE DOS MUESTRAS

EMPAREJADAS Esta opción permite realizar los contrastes de comparación de medias de dos

poblaciones relacionadas siguientes:

Bilateral Unilaterales H0: µX - µY = µ0

H1: µX - µY ≠ µ0

H0: µX - µY ≤ µ0

H1: µX - µY > µ0

H0: µX - µY ≥ µ0

H1: µX - µY < µ0

La principal diferencia de esta opción con las anteriores es que en este caso, el número

de observaciones de las dos muestras ha de coincidir, y cada observación de X tiene que

estar en la misma fila que la observación que le corresponde de la variable Y. La

ventana de diálogo correspondiente a este menú aparece en la Figura 25. Las casillas se

rellenan de la forma habitual.

Figura 25: Ventana de diálogo del menú PRUEBA T PARA MEDIAS DE DOS MUESTRAS

EMPAREJADAS

Los resultados proporcionados aparecen en la Figura 26.

Figura 26: Resultados obtenidos con el menú PRUEBA T PARA MEDIAS DE DOS MUESTRAS

EMPAREJADAS

Isolina Alberto Moralejo 103

Práctica 6: Inferencia Estadística

MEDIA: proporciona la media muestral de cada muestra.

VARIANZA: proporciona la cuasivarianza muestral de cada muestra.

OBSERVACIONES: es el tamaño de cada muestra, n (recuerda que en este

caso coinciden).

COEFICIENTE DE CORRELACIÓN DE PEARSON: muestra el valor de

este coeficiente, que, como ya sabemos, mide el grado de asociación lineal entre

X e Y.

DIFERENCIA HIPOTÉTICA DE LAS MEDIAS: es el valor µ0 introducido

en la ventana de diálogo.

GRADOS DE LIBERTAD: del estadístico del contraste son n-1.

ESTADÍSTICO t: proporciona el valor que el estadístico del contraste ha

tomado en las muestras de que disponemos. Se calcula con la expresión:

n/sµd

td

0−=

donde d y son la media y cuasidesviación típicas muestrales de las n

diferencias observadas x

ds

i-yi.

P(T≤t) UNA COLA: devuelve el mínimo entre P(T≤t) y P(T≥t) y nos permitirá

calcular los p-valores de los contrastes unilaterales

VALOR CRÍTICO DE T (UNA COLA): devuelve el percentil del (1-

α)×100% del estadístico del contraste, t1-α, para el α introducido en la ventana

de diálogo.

P(T≤t) DOS COLAS: devuelve 2×mín{P(T≤t), P(T≥t)}, es decir, el p-valor del

contraste bilateral.

VALOR CRÍTICO DE T (DOS COLAS): devuelve el percentil del (1-

α/2)×100% del estadístico del contraste, t1-α/2, para el α introducido en la

ventana de diálogo.

Nota: Para el cálculo de los p-valores de los contrastes unilaterales debemos tener en

cuenta el signo del valor del estadístico en la muestra, t, y la siguiente tabla:

H0: µX - µY ≤ µ0

H1: µX - µY > µ0

H0: µX - µY ≥ µ0

H1: µX - µY < µ0t > 0 p-valor = P(T≤t) UNA COLA p-valor = 1 - P(T≤t) UNA COLA t < 0 p-valor = 1 - P(T≤t) UNA COLA p-valor = P(T≤t) UNA COLA

Isolina Alberto Moralejo 104

Práctica 6: Inferencia Estadística

Ejercicio.- Haz el Ejercicio 6 del final de la práctica.

13. Apéndice Tablas resumen de los menús y funciones de comparación de medias y varianzas de dos

poblaciones:

Comparación de medias de dos poblaciones X e Y Poblaciones X e Y independientes Varianzas

conocidas

Varianzas desconocidas pero iguales

Varianzas desconocidas y

distintas

Poblaciones X e Y relacionadas

Menú estadístico avanzado

PRUEBA Z PARA MEDIAS DE DOS MUESTRAS

PRUEBA T PARA DOS MUESTRAS SUPONIENDO VARIANZAS IGUALES

PRUEBA T PARA DOS MUESTRAS SUPONIENDO VARIANZAS DESIGUALES

PRUEBA T PARA MEDIAS DE DOS MUESTAS EMPAREJADAS

Función PRUEBA.T con TIPO=2

PRUEBA.T con TIPO=3

PRUEBA.T con TIPO=1

Comparación de varianzas de dos poblaciones X e Y independientesFunción PRUEBA.F

Tabla resumen para el cálculo de los p-valores de los contrastes de comparación de

medias:

Cálculos realizados con el menú de herramientas estadísticas avanzadas

H0Signo del estadístico del

contraste, r, en la muestra p-valor

µX - µY = µ0 Positivo o negativo P(R≤r) dos colas Positivo P(R≤r) una cola

µX - µY ≤ µ0 Negativo 1-P(R≤r) una cola Positivo 1-P(R≤r) una cola

µX - µY ≥ µ0 Negativo P(R≤r) una cola

donde R es el estadístico (variable aleatoria) del contraste y r es el valor que toma el

estadístico del contraste en la muestra aleatoria simple recogida y P(R≤r) dos colas y

P(R≤r) una cola son los valores que devuelve el menú que hemos utilizado para

realizar el contraste.

Isolina Alberto Moralejo 105

Práctica 6: Inferencia Estadística

Isolina Alberto Moralejo 106

Práctica 6: Inferencia Estadística

Apellidos y nombre: Profesor: Grupo:

Ejercicio 1.- La empresa de aerogeneradores CIERZO S.A. está haciendo un estudio

sobre los cuatro tipos de aerogenerador que fabrica y las tres averías más frecuentes.

Los cuatro tipos de aerogenerador son: asíncrono de rotor en cortocircuito, asíncrono de

rotor bobinado, síncrono de imanes permanentes y síncrono convencional. Los tres tipos

de averías más frecuentes son: que falle una fase del interruptor de conexión, que el

multiplicador se sobresaliente y que se produzca un fallo en los condensadores de

potencia reactiva. El técnico de calidad de CIERZO S.A. ha recogido los datos del

fichero Eólica.xls.

Obtén la tabla de doble entrada con las frecuencias absolutas conjuntas, nij,

correspondiente a las variables observadas y completa la tabla siguiente.

Tipo de avería Fase del interruptor de

conexión Condensadores potencia reactiva

Sobretemperatura del multiplicador

Asíncrono de rotor bobinado

Asíncrono de rotor en cortocircuito

Síncrono convencional

Tipo

de

máq

uina

Síncrono imanes permanentes

Representa conjuntamente las dos variables mediante un diagrama de barras agrupado.

A la vista del gráfico, ¿es el tipo de avería independiente del tipo de máquina?

............................... Justifica tu respuesta............................................................................

.............................................................................................................................................

.............................................................................................................................................

.............................................................................................................................................

.............................................................................................................................................

Isolina Alberto Moralejo 107

Práctica 6: Inferencia Estadística

Obtén la tabla de doble entrada con las frecuencias absolutas esperadas conjuntas, eij,

(suponiendo la independencia de las dos variables) y completa la tabla siguiente.

Tipo de avería Fase del interruptor de

conexión Condensadores potencia reactiva

Sobretemperatura del multiplicador

Asíncrono de rotor bobinado

Asíncrono de rotor en cortocircuito

Síncrono convencional

Tipo

de

máq

uina

Síncrono imanes permanentes

Calcula el p-valor del contraste chi-cuadrado de independencia.

p.valor =

Si α = 0.05, ¿a qué conclusión se llega?..............................................................................

.............................................................................................................................................

.............................................................................................................................................

¿Confirma esto tu apreciación observando el gráfico?..............................................

Justifica tu respuesta............................................................................................................

.............................................................................................................................................

.............................................................................................................................................

Ejercicio 2.- Ejecuta tres veces el applet “Confidence Intervals” con tamaños

muestrales igual a 10, 15 y 20 observaciones. Anota la proporción de intervalos que

contienen al valor µ = 50.

IC al 99% IC al 95% n = 10 n = 15 n = 20

Isolina Alberto Moralejo 108

Práctica 6: Inferencia Estadística

Ejercicio 3.- La tensión de ruptura de un líquido aislante indica su capacidad

dieléctrica. Los datos de la variable Voltaje del fichero Voltaje.xls recogen esta tensión

de ruptura, en kilovoltios, para 48 muestras de este líquido.

Calcula una estimación puntual de la media y la varianza poblacionales:

=µ =2σ

Obtén un intervalo de confianza al 90%, otro al 95% y otro al 99% para el voltaje

medio. Observa que, conforme aumenta el nivel de confianza, se pierde precisión en el

intervalo, es decir, al aumentar el nivel de confianza, los intervalos se hacen más

amplios.

IC al 90% IC al 95% IC al 99%

¿Puede ser 52 kV la media de la variable Voltaje? Justifica tu respuesta con la

información proporcionada con el intervalo de confianza al 99%......................................

.............................................................................................................................................

.............................................................................................................................................

.............................................................................................................................................

.............................................................................................................................................

Isolina Alberto Moralejo 109

Práctica 6: Inferencia Estadística

Ejercicio 4.- La empresa AIKON S.L. fabrica el cable necesario para los circuitos de

las conexiones de los chips de una conocida marca de teléfonos móviles. Las

especificaciones de calidad señalan que el grosor del cable producido debe ser de 8

micras. La variable Grosor del fichero Aikon.xls recoge los valores del grosor de una

muestra de 50 cables recogida a lo largo del día. Por estudios anteriores, se sabe que la

desviación típica de la variable Grosor es 0.2 micras.

Calcula una estimación puntual del grosor medio del cable producido:

Calcula un intervalo de confianza al 95% para el grosor medio:

IC al 95%

Calcula el p-valor del contraste bilateral con hipótesis nula H0: µ = 8 e hipótesis

alternativa H1: µ ≠ 8.

p-valor =

Tomando α = 0.05, ¿qué conclusión obtienes acerca de las especificaciones de calidad?

Justifica tu respuesta utilizando el valor del p-valor y el de α............................................

.............................................................................................................................................

.............................................................................................................................................

.............................................................................................................................................

.............................................................................................................................................

Isolina Alberto Moralejo 110

Práctica 6: Inferencia Estadística

Ejercicio 5.- Se desea comparar la cantidad de líquido introducida por dos máquinas de

llenado de botellas de agua mineral de 1/3 de litro. Los datos se encuentran en el fichero

Mineral.xls. La variable Cantidad recoge los centímetros cúbicos introducidos en las

botellas de 1/3; y la variable Maquinas recoge la máquina (1 ó 2) que lleva a cabo el

relleno de las botellas. Se supone que las máquinas trabajan independientemente la una

de la otra

A la vista de la forma en la que se han recogido los datos, ¿dirías que se trata de datos

apareados o por el contrario piensas que son independientes?............................................

Justifica tu respuesta. ..........................................................................................................

.............................................................................................................................................

Calcula una estimación puntual de las medias y las varianzas poblacionales:

=Xµ =2xσ

=Yµ =2Yσ

Plantea los contrastes de hipótesis de comparación de medias y varianzas que consideres

oportunos, indicando las hipótesis nulas y alternativas.

Para las varianzas Para las medias H0: H1:

H0: H1:

Una vez realizados los contrastes con Excel y tomando α = 0.05, ¿a qué conclusiones

llegas? Proporciona los p-valores de ambos contrastes:

Para las varianzas Para las medias p-valor = Conclusión del contraste:.......................................................................................................................................................

p-valor = Conclusión del contraste:.......................................................................................................................................................

Isolina Alberto Moralejo 111

Práctica 6: Inferencia Estadística

Ejercicio 6.- Se está investigando sobre un nuevo método experimental para la

determinación de los octanos de la gasolina. Se quiere comparar este nuevo método con

el habitual para tratar de saber si alguno de los dos indica un valor más alto que el otro.

Para llevar a cabo la comparación, se han tomado muestras de las 32 mezclas de

gasolina, midiendo los octanos con ambos métodos (primero con uno y luego con otro).

Los datos se encuentran en las columnas Nuevo y Habitual del fichero Gasolina.xls.

A la vista de la forma en la que se han recogido los datos, ¿dirías que se trata de datos

apareados o por el contrario piensas que son independientes?............................................

Justifica tu respuesta............................................................................................................

.............................................................................................................................................

.............................................................................................................................................

Plantea el contraste de hipótesis de comparación de medias que consideres oportuno,

indicando la hipótesis nula y la alternativa.

H0: H1:

Una vez realizado el contraste con Excel, ¿cuánto vale el p-valor?

p-valor =

Tomando α = 0.05, ¿se puede considerar que ambos métodos miden lo mismo?..............

Justifica tu respuesta............................................................................................................

.............................................................................................................................................

.............................................................................................................................................

.............................................................................................................................................

Isolina Alberto Moralejo 112