tema v. contrastaciÓn · hipÓtesis compuesta: es aquella en la que la característica de la...

68
ESTADÍSTICA II Tema V 487 TEMA V. CONTRASTACIÓN V.1.- Contrastes paramétricos. V.1.1.- Introducción. V.1.2.- Proceso de contrastación. V.1.3.- Diseño de criterios óptimos de contrastación. V.1.4.- Contrastes clásicos en poblaciones normales. V.2.- Contrastes no paramétricos. V.2.1.- Introducción. V.2.2.- Contrastes con dos muestras. V.2.2.1.- Contraste de correlación de rangos de Spearman. V.2.2.2.- Contraste de Wilcoxon-Mann-Whitney. V.2.3.- Crítica del modelo. Contrastes asociados. V.2.3.1.- Contrastes de ajuste. V.2.3.1.1.- χ 2 de Pearson. V.2.3.1.2.- Contraste de Kolmogorov-Smirnov.

Upload: others

Post on 21-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

487

TEMA V. CONTRASTACIÓN

V.1.- Contrastes paramétricos.

V.1.1.- Introducción.

V.1.2.- Proceso de contrastación.

V.1.3.- Diseño de criterios óptimos de contrastación.

V.1.4.- Contrastes clásicos en poblaciones normales.

V.2.- Contrastes no paramétricos.

V.2.1.- Introducción.

V.2.2.- Contrastes con dos muestras.

V.2.2.1.- Contraste de correlación de rangos de

Spearman.

V.2.2.2.- Contraste de Wilcoxon-Mann-Whitney.

V.2.3.- Crítica del modelo. Contrastes asociados.

V.2.3.1.- Contrastes de ajuste.

V.2.3.1.1.- χ2 de Pearson.

V.2.3.1.2.- Contraste de Kolmogorov-Smirnov.

Page 2: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 488

V.1.- Contrastación paramétrica

V.1.1.- Introducción y definiciones.

El término contrastar es de uso frecuente en la vida

cotidiana. En este ámbito, contrastar significa comparar,

viendo si existen diferencias notables entre dos o más

elementos. En el ámbito estadístico el significado será el

mismo, pero en este caso, la contrastación se realizará

entre un supuesto que nosotros hacemos y la realidad que

nos marcan los datos obtenidos de una muestra.

Llamaremos hipótesis estadística paramétrica a cualquier

afirmación acerca del valor de un parámetro de la función

de densidad de una distribución de probabilidad. Cualquier

otra afirmación de una característica no paramétrica es

también una hipótesis estadística a la que denominaremos

hipótesis "no paramétrica". Este tema lo dividimos en

función de este criterio en dos partes: en la primera

estudiaremos los contrastes estadísticos paramétricos, y

en la segunda algunos de los contrastes no paramétricos.

Por ejemplo, aseverar que una población se distribuye

según una distribución de Poisson de media 10 implica la

afirmación de dos hipótesis, por una parte se señala que

un parámetro vale 10, lo que constituye una hipótesis

estadística paramétrica, por otra se indica una

característica no paramétrica como es que la distribución

de la variable aleatoria se comporta como una Poisson. En

el primer caso nos encontramos con un contraste

paramétrico y en el segundo con uno no paramétrico.

Contrastar una hipótesis estadística no es más que

Page 3: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

489

compararla con los resultados de una muestra, de tal forma

que para ello debemos diseñar un procedimiento que nos

permita decidir si se acepta o se rechaza la hipótesis

propuesta.

El problema parece centrarse en el diseño del criterio que

emplearemos para la aceptación o rechazo de la hipótesis

propuesta, a esta hipótesis propuesta le llamaremos en lo

sucesivo HIPÓTESIS NULA, y escribiremos así:

H0 : q = q0

Por ejemplo, la hipótesis propuesta en el ejemplo anterior

será:

H0 : λ = 10

Frente a cualquier afirmación H0 , propondremos una

HIPÓTESIS ALTERNATIVA: H1, esta hipótesis negará

sistemáticamente la hipótesis nula.

De esta manera, un contraste estadístico se formularía

como

H0 : λ = 10

H1 : λ < 10

o también podríamos poner la siguiente alternativa:

H1 : λ = 12

Notese que se han propuesto dos hipótesis alternativas y

ambas niegan, de alguna forma, la hipótesis nula.

Las hipótesis, ya sean nulas o alternativas, pueden

clasificarse en SIMPLES O COMPUESTAS:

HIPÓTESIS SIMPLE: Es aquella que define totalmente la

característica de la población, por lo que asigna un único

Page 4: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 490

valor al parámetro a estimar.

Por ejemplo, queremos contrastar la hipótesis nula de que

la nota media obtenida en un examen de historia es de 6,5

puntos:

H0 : m = 6,5 puntos

HIPÓTESIS COMPUESTA: Es aquella en la que la

característica de la población no define completamente el

comportamiento probabilístico de la variable en estudio.

En estos casos se asigna más de un valor al parámetro a

contrastar.

Por ejemplo, queremos contrastar la hipótesis de que el

gasto medio de las familias españolas es superior a 65.000

ptas al mes.

H0 : m > 65.000 ptas

Según esta clasificación de hipótesis, cuando realizamos

un contraste nos podremos encontrar con todas las

combinaciones posibles entre hipótesis nula y alternativa:

- que ambas sean simples

- que ambas sean compuestas

- que una sea simple y otra compuesta

La contrastación de H0 frente a una H1 decíamos que la

realizaríamos con un procedimiento mediante el cual

aceptamos o rechazamos la H0, la aceptación de una de las

hipótesis implica el rechazo automático de la otra.

Una vez determinadas las hipótesis nula y alternativa

Page 5: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

491

debemos buscar un criterio (test) para resolver el dilema

de que hipótesis aceptaremos y cual rechazamos.

Por ejemplo, Un criterio sencillo, pero generalmente

inservible, podría ser: "Lanzamos una moneda si sale cruz

aceptamos la H0 en caso contrario........".

Esta sencilla forma de dilucidar el problema nos conducirá

a la idea de que podemos equivocarnos, efectivamente,

supongase que H0 sea cierta y resultó que al lanzar la

moneda salió cruz, rechazamos la H0 (lo que implica

aceptación automatica de la H1) por lo que evidentemente

nos hemos equivocado, así mismo pudo ocurrir que saliera

cara y que H0 (siendo falsa) sea aceptada.

En cualquier criterio que se adopte en el procedimiento de

contrastación, no podemos afirmar categóricamente que es

cierta o no la hipótesis nula, sino que realizamos un

proceso de toma de decisiones en función de una

información (generalmente muestral), y esta decisión la

tomamos con un cierto grado de incertidumbre.

Esto nos llevará a encontrarnos con las siguientes

situaciones a la hora de realizar un contraste de

hipótesis:

- Si tomamos la decisión de aceptar H0 puede que:

- H0 sea cierta

- H0 sea falsa

- Si tomamos la decisión de rechazar H0 puede que:

- H0 sea cierta

- H0 sea falsa

es decir, se pueden producir las siguientes posibilidades:

Page 6: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 492

EN LA REALIDAD PUEDE SER

CIERTA

FALSA

ACEPTAR

CORRECTA

ERROR TIPO

II

DECISIÓN

RECHAZAR

ERROR TIPO I

CORRECTA

Se comprueba que podemos cometer dos tipos de errores:

Page 7: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

493

- ERROR DE TIPO I (e1): el que se comete cuando rechazamos

H0, siendo ésta cierta.

- ERROR DE TIPO II(e2): el que se comete al aceptar H0

siendo ésta falsa.

Sin embargo, el conocer los tipos de errores no es

suficiente. Está claro que en la situación ideal el

contraste debiera buscar un método que nos garantizase que

ambos errores son cero. En el contraste estadístico en vez

de trabajar con el nivel de error de tipo I o II,

trabajamos con probabilidades de cometerlos. De esta

manera podemos denotar:

a) P(rechazar H0/H0 cierta) = α siendo 0 ≤ α ≤ 1

α es la probabilidad de rechazar H0 siendo cierta, por

lo que es la probabilidad de cometer un error de tipo

I )][P( Iε .

α también recibe el nombre de NIVEL DE SIGNIFICACIÓN

y 1-α IVEL DE CONFIANZA.

b) P(aceptar H0/H0 falsa) = β 0 ≤ β ≤ 1

β es la probabilidad de aceptar H0 siendo ésta falsa,

por lo que es la probabilidad de cometer un error de

tipo II )][P( IIε

El valor (1-β) recibe el nombre de POTENCIA DEL

CONTRASTE, cuyo significado es la probabilidad de

rechazar la hipótesis nula siendo ésta falsa.

La gravedad del hecho de cometer cada uno de estos

Page 8: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 494

errores, juzgará la prudente elección del criterio de

contrastación, es lo que denominaremos tamaño del error en

términos de probabilidad. Un sencillo principio aplicable

sería: "Entre todos los criterios que tengan el mismo

error de tipo I se elegirá el que tenga menor tamaño de

tipo II".

En inferencia, y para los niveles de nuestras necesidades,

se adopta un convenio según el cual se fija el error de

tipo I. (generalmente α se cifra en un 5%, lo que

significa que un 5% de las H0 ciertas serán rechazadas) .

El elemento básico para la validación de una hipótesis es

la información muestral. Esta información muestral será

empleada para evaluar la validez de algunas conjeturas o

hipótesis que hayamos formulado sobre las características

de la población. La información muestral empleada en

contrastación se sintetizará en el ESTADÍSTICO DE CONTRAS-

TE.

Como ya hemos acordado, para corroborar o no la hipótesis

nula, vamos a utilizar la información muestral, y para

llevar a cabo la contrastación utilizaremos un estadístico

que llamaremos ESTADÍSTICO DE CONTRASTE, siendo éste una

función de la muestra aleatoria, que tomará valores

distintos dependiendo de la muestra escogida, de manera,

que este estadístico podrá tomar valores que nos sirvan de

argumento para aceptar o rechazar la hipótesis nula.

Por ejemplo, si queremos contrastar la media poblacional,

lo más racional sería utilizar como estadístico de

contraste un buen estimador de dicho parámetro. Ya sabemos

que este estimador sería la media muestral.

Page 9: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

495

Por lo tanto, veremos que basándonos en los valores de la

media muestral podremos tomar decisiones con respecto a la

media poblacional.

El conjunto de valores del estadístico de contraste que

nos sirve de argumento para rechazar la hipótesis nula le

llamaremos REGIÓN CRÍTICA, y a la región complementaria la

denominamos REGIÓN DE ACEPTACIÓN.

REGION CRITICA: Se define así al conjunto de valores del

estadístico de contraste que nos lleva a tomar la decisión

de rechazar la hipótesis nula (H0).

REGION DE ACEPTACION: Es la región complementaria a la

región crítica, por lo tanto, es el conjunto de valores

que puede tomar el estadístico de contraste que nos lleva

a tomar la decisión de aceptar la hipótesis nula (H0).

V.1.2.- Proceso de contrastación.

Trataremos de ordenar las ideas señaladas en el epígrafe

anterior para lo que haremos hincapié en cada una de las

fases para realizar un contraste de hipótesis.

a).- Se tendrá una afirmación que compondrá la H0

b).- Se determinará la H1 negándose la H0

A la hora de plantear la H1 partimos de la base de que no

tratamos de estimar el parámetro, tratamos de verificar si

es cierta o no la H0, por lo tanto generalmente la H1 es

de tipo compuesto utilizándose las siguientes formas:

b.1).- H1 : q = q0

Page 10: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 496

esta forma nos conducirá a contrastaciones BILATERALES

b.2).- H1 : q > q0

o también

H1 : q < q0

esta relación de orden definida sobre la hipótesis

alternativa nos conducirá a contrastaciones UNILATERALES,

resultando más potentes que las bilaterales para un mismo

nivel de significación.

En la práctica, la determinación de la H1, con esta relación

de orden descrita, se hará a partir del conocimiento de la

estimación máximo verosímil del parámetro contrastable.

Por ejemplo, se trata de determinar la H1 para la

contrastación de la media de una población Normal en la

que se afirma que dicha media vale m0. Para ello se extrae

una muestra de tamaño n siendo los resultados muestrales:

Media muestral = m > m0

Al ser el EMV de la media poblacional la media muestral y

al resultar esta mayor que la definida por la H0, nos debe

hacer sospechar que de no ser cierta la H0 es porque debe

ser mayor, entonces la elección de la H1 será:

H1 : m > m0

El desconocimiento de las realizaciones muestrales a

priori no nos permitirá establecer una relación de orden,

lo que nos obligará a utilizar una forma bilateral y la

consiguiente perdida de potencia.

Page 11: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

497

c).- Se elegirá el tamaño de error tipo I (αα ) deseable

d).- Determinación del estadístico de contraste

Dada la necesidad de conocer la distribución estadistica

de estos estadísticos remitimos al alumno/a al capitulo de

Distribuciones Muestrales.

La determinación del estadístico de contraste la tendremos

que limitar al pequeño grupo de estadísticos muestrales

cuya distribución se conoce, por otra parte, ya utilizamos

para inferir parámetros en la estimación.

Por ejemplo, sea una población Normal de la que se extrae

una muestra de tamaño n. Si conocieramos la varianza de

esta población y deseamos tener información de la media

poblacional se recurriría al estimador máximo verosímil,

que como ya se ha visto es la media muestral Σxi/n, cuya

distribución es.

Σxi/n. → N(m,s/%n)

Lo mismo ocurriría para la contrastación de la varianza (o

desviación), sabemos que el EMV de la varianza poblacional

es la varianza muestral Sn2, de distribución en principio

desconocida pero no la de la siguiente función.

nSn2/ s2 → χ2

n-1

Por ejemplo, considerese una N(5;3) y supóngase que se

desea contrastar la media toda vez que sospechamos que es

7

Page 12: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 498

Ho : m = 5

H1 : m = 7

establezcamos un criterio (todavía de forma intuitiva) que

sea: "extraeré una muestra de tamaño 9 de la población y

si la media muestral es menor de 6 aceptaré la Ho".

Conocemos la distribución de la media muestral:

Σxi/n → N(m;s/%n) en el presente caso N(5;1)

Para este criterio hemos localizado la región crítica en

el intervalo x>6

Región crítica

____________________________________

5 6 7

Con este críterio (insisto que es intuitivo) ¿Qué errores

estamos cometiendo?

α = P(Σxi/n>6)Ho = P(5+z>6) = P(z>1) = 0,1587

β = P(Σxi/n<6)H1 = P(7+z<6) = P(z<-1) = 0,1587

En este mismo ejemplo vamos a dimensionar la región

crítica para que el error de tipo I tenga un tamaño de

0,05

α = 0,05 = P(Σxi/n >ε)Ho = P(5+z >ε) =P( z>ε-5)

por tanto, ε-5 = 1,64 y ε = 6,64

En consecuencia, el error de tipo II será:

Page 13: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

499

β = P(Σxi/n <6,64)H1 = P(7+z < 6,64) = P(z <-0,36) = 0,3594

e).- Localización de la región crítica y dimensionarla en

función de α

f).- Cálculo del valor muestral ai del estadístico de

contraste.

ai = F(x1,x2,.........xn)

g).- Toma de decisión a la vista de la región que contenga

a ai

V.1.3.- Diseño de criterios óptimos de contrastación.

En la introducción de este tema enunciamos un sencillo

principio que decía: "Entre todos los criterios que tengan

el mismo error de tipo I se elegirá el que tenga menor

tamaño de tipo II". Basándonos en él demostraremos la

existencia de test óptimos generadores de la máxima

potencia, esto es con el menor β posible, para las

significaciones acordadas.

a).- CRITERIO ÓPTIMO PARA HIPÓTESIS SIMPLES

Se plantea el objetivo de obtener, localizar y dimensionar

una región crítica, a la que denominamos Región Crítica

Óptima (RCO), para la verificación de hipótesis

estadísticas simples, habiéndose acordado un tamaño de

error tipo I, mediante la optimización de la potencia

(minimización del error tipo II). El procedimiento se basa

en un cociente entre verosimilitudes y se conoce como:

Lema de Neyman-Pearson.

Page 14: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 500

Sea una población con función de densidad continua f(x;q),

de la que se extrae una muestra aleatoria simple de tamaño

n cuya realización resultó ser: x1,x2,.........xn, Se

entiende la existencia de una hipótesis nula (simple):

H0 : q = q0

frente a una alternativa simple:

H1 : q = q1

El Teorema de NEYMAN-PEARSON se expresa así:

Si existe una región crítica R de tamaño α y una constante K

tal que:

Verosimilitud(H1) / Verosimilitud(H0) ≥≥ K dentro región

crítica, y

Verosimilitud(H1) / Verosimilitud(H0) ≤≤ K fuera de la región

crítica,

Entonces R es una región crítica óptima de tamaño αα.

Es decir.

R de dentro K);xf(

);xf(

0i

n

1

1i

n

1 ≥∏

θ

θ

en donde, en el numerador se encuentra la verosimilitud

que nos da la muestra bajo el cumplimiento de la hipótesis

alternativa, y en el denominador bajo la hipótesis nula.

El valor de K, que pertenece al conjunto de los números

reales positivos, es calculable para los casos de

hipótesis simples, pero como se apreciará en los

ejercicios no es necesario su calculo, simplemente se

Page 15: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

501

localizará la Región Crítica Óptima (RCO).

El Lema de Neyman Pearson, diseñado para contrastación de

hipótesis simples, es también aplicable en la verificación

de hipótesis nulas simples frente a hipótesis alternativas

compuestas en la que se ha definido una relación de orden.

Estas son los casos más realistas y satisfactorios en las

verificaciones paramétricas.

Ejercicio. Encontrar las regiones críticas óptimas para la

contrastación de la media en poblaciones normales, para

muestras de tamaño n.

Si aplicamos el Lema de Neyman Pearson:

que para el caso de la distribución Normal que nos ocupa

se convierte en:

R de dentro K

e )-x()

21

(

e )-x()

21

(

20in

121

-n

21in

121

-n

≥∑

σµ

σπ

σµ

σπ

donde operando convenientemente resulta:

Tomamos ln, y seguimos llamando K al Ln(K)

R de dentro K);xf(

);xf(

0i

n

1

1i

n

1 ≥∏

θ

θ

Ke ))-x(+)-x( 20i

n

1

21i

n

1

(2

1- 2 ≥∑∑ µµ

σ

Page 16: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 502

pasando las constantes al segundo termino y siguiendo

llamando K al resultado:

K))-x(+)-x((- 20i

n

1

21i

n

1

≥∑∑ µµ

cambiando el signo y el sentido de la desigualdad:

K))-x(+)-x(( 20i

n

1

21i

n

1

≤∑∑ µµ

operando resulta la condición:

K x )-( 2 - ) - ( n i0120

21 ≤∑µµµµ

sobre la que se harán las consideraciones para encontrar

la RCO.

Las alternativas que se nos presenta son:

- Si µo > µ1 entonces H1 : µ < µo

-2(µ1 - µo ) Σxi < K

(µ1 - µo ) Σxi > K ⇒ Σxi < K

- Si µo < µ1 entonces H1: µ > µo

-2(µ1 - µo ) Σxi < K

(µ1 - µo ) Σxi > K ⇒ Σxi > K

Una vez localizada la RCO la dimensionamos para el tamaño

α acordado, debemos conocer del estadístico a utilizar, en

este caso la distribución de: Σxi

Por ejemplo, Sea una población N(?;3), establezcamos las

hipótesis:

K))-x(+)-x((2

1- 20i

n

1

21i

n

12

≥∑∑ µµσ

Page 17: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

503

Ho : µ = µo

H1 : µ < µo

α =0,05

La región crítica óptima como hemos visto es: Σxi < K

La distribución de Σxi /n < K/n=Ko es conocida y la RCO se

encuentra en la cola izquierda de la normal:

b).- CONTRASTES DE SIGNIFICACION TEST DE LA RAZON DE

VEROSIMILITUDES

Se ha visto, para el caso de hipótesis simples, que el

criterio de razón de verosimilitudes constituye el

criterio óptimo de contrastación, en el que prefijado la

probabilidad de error de tipo I se obtiene la mayor

potencia de un contraste, esto es, la menor probabilidad

del error de tipo II.

Generalmente, en el intento de contrastar una hipótesis de

tipo paramétrica simple (H0), establecemos una hipótesis

alternativa de tipo compuesto, ya que verdaderamente lo

que interesa es verificar la certeza o no de la afirmación

Función de densidad Normal

Región de aceptación Región de rechazo

Page 18: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 504

H0.

Como primer paso para establecer la hipótesis alternativa

que nos proporcione una mayor potencia, estudiaremos el

ESTADISTICO DE MAXIMA VEROSIMILITUD del parámetro que

deseamos contrastar.

Ejemplo: Supóngase que se afirma que una población normal

tiene una media de tres unidades, esto es: Ho:µ=3 y

deseamos verificarlo. Más tarde o más temprano tendríamos

que extraer una muestra de tamaño n. Para el parámetro

media el estimador máximo verosímil es la media muestral,

como ya se ha visto. En el presente caso supóngase que

para una realización muestral de 20 elementos nos dió una

media muestral de 3,7.

Este valor de la media muestral, superior a la afirmación

de la hipótesis nula, nos debe hacer "sospechar" que si la

media poblacional no es 3 es porque debe ser mayor que 3,

con lo cual ya estamos en disposición de poder establecer

una hipótesis alternativa de tipo compuesto acorde con

nuestras sospechas: H1:µ>3.

Considérese entonces la siguiente razón (cociente) de

verosimilitudes, que como se ha visto en el Lema de

NEYMAN-PEARSON constituye el criterio óptimo para la

determinación de la región óptima de hipótesis

paramétricas.

en el que:

θ0 = valor del parámetro según la hipótesis nula.

λθθ =

);xL();xL(

*i

0i

Page 19: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

505

θ* = estadístico estimador máximo verosímil del

parámetro.

Evidentemente esta razón (cociente), al ser el denominador

un estadístico muestral, es una variable aleatoria a la

que hemos denominado λ, y que estará definida entre los

valores máximos y mínimos de la razón, esto es: 0<λ<1. Para

una realización muestral determinada valores de λ próximos

a 1 conceden una gran CREDIBILIDAD a la Ho, mientras que

valores próximos a cero seria un crédito de la

IRRACIONALIDAD de la hipótesis nula.

Con las condiciones anteriormente expuestas, y tras lograr

la distribución del estadístico λ, el dimensionamiento de

la región crítica está definido por:

λλαλ

)dg( = 0

0∫

en donde α es el nivel de significación y g(λ) es la

función de densidad de λ.

La región crítica vendría dada por

0 <λ < λ0

En general no existe una relación sencilla y la obtención

de la distribución de λ puede resultar difícil.

Ejemplo: El consumo de energía eléctrica diario, medido en

KWh, de una industria se distribuye normalmente. Se desea

conocer los parámetros de dicha distribución para lo que

se extrae una muestra aleatoria simple de las lecturas

diarias de consumo, resultando:

57.6 62.1 60.3 51.4 55.3 55.3

Page 20: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 506

63.7 58.9 55.7 54.3 59.0 55.5

57.0 56.8 60.3 52.9

Se pide:

¿Es aceptable, utilizando un criterio óptimo, que la media

vale 58,83 Kwh?

Los datos, según nuestra notación, son los siguientes:

n=16

X=57,256

Sn=3,209

Sn-1=3,315

Contrastación bilateral de la media:

H0: µ = 58,83

H1: µ Ö 58,83

α = 0,05

Estadístico de contraste,

Ec = 4(57,256 - 58,83)/3,315 = -1,89

Si se cumple la hipótesis nula, el estadístico de

contraste demostraremos que se distribuye como una

variable t-student de 15 grados de libertad, y en

consecuencia sabemos que se cumple

Función de densidad t-Student de 15 grados de libertad

Page 21: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

507

Conclusión: ACEPTAMOS H0

Por tanto la región de aceptación viene dado por el

intervalo (-2.131,2.131). Dado que el estadístico de

prueba cae dentro de este intervalo, se encuentra dentro

de la zona de aceptación y en consecuencia no podemos

rechazar la hipótesis nula. Es decir, no puedo rechazar

que la media sea igual a 58’83.

Obsérvese que hemos dicho no se puede rechazar, no hemos

dicho que aceptamos la hipótesis nula. La razón es simple.

Veámoslo con un ejemplo. Si mi hipótesis nula es que todos

los individuos de una clase son de pelo negro, y se extrae

un individuo de la clase y este es rubio, es evidente que

la hipótesis es falsa, ya que al menos hay uno rubio. Sin

embargo, si al extraer una muestra de tamaño 1 sale un

individuo de pelo negro, podemos decir que no existe

evidencia empírica para rechazar la hipótesis nula, pero

no podemos aceptarla. Para poder aceptarla tendríamos que

estudiar a toda la población, no podemos aceptarla con una

muestra, puesto que puede suceder que todos los de la

muestra sean de pelo negro y sin embargo en la población

existan individuos rubios.

Page 22: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 508

Volvamos a realizar la contrastación pero de forma

unilateral basandonos en que al ser la media muestral

inferior a la propuesta en H0, optamos por una hipótesis

alternativa de la siguiente forma:

H0: µ = 58,83

H1: µ < 58,83

entonces la RCO será para el mismo tamaño de α = 0,05:

con lo que obtenemos la conclusión de RECHAZAR H0, puesto

que el estadístico de prueba vale –1.86 y como se puede

observar en la gráfica los valores más pequeños que –1.753

se encuentran en la zona de rechazo de la hipótesis nula.

Por tanto, rechazamos que la media sea igual a 58’83.

V.1.4.- Contrastes paramétricos en poblaciones normales

Veremos algunas aplicaciones del contraste de hipótesis de

parámetros poblacionales correspondientes a poblaciones

Normales. Se incluyen los contrastes bilaterales y

unilaterales para los estadísticos de contraste basados en

los estimadores máximo verosímiles obtenidos en el

capítulo anterior y cuya distribución, en consecuencia, ya

hemos obtenido.

Función de densidad t-Student de 15 grados de libertad

t=-1.753 P(t<-1.753)=0.05

Región de aceptación R. rechazo

Page 23: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

509

V.1.4.1.- Contraste para de la media µ conocida la varianza σ2

Supongamos que tenemos una muestra aleatoria de tamaño n,

que proviene de una población Normal de la que conocemos

su varianza, N(µ,σ2). La muestra observada tiene una media

muestral _

x .

Nos interesa, bajo estas condiciones, contrastar las

siguientes hipótesis:

µµ

µµ

01

00

> :H

= :H

Como ya hemos visto, lo más adecuado es basar el contraste

de la media poblacional en la información que nos

suministra la media muestral, por lo tanto, el estadístico

de contraste estará basado en dicha media muestral, que se

distribuye como una N (n

,σµ ). Pero, si además tipificamos

esta variable aleatoria obtenemos la expresión del

estadístico muestral

n

-x=Z 0

σµ

, que no es más que una

variable aleatoria normal tipificada Z = N(0,1).

Según la distribución que sigue el estadístico de

contraste se definen la región crítica y de aceptación:

Región crítica: Si αα =)Z>P(Z la región crítica la

componen todos aquellos valores de Z que sean iguales

o mayores a Zα .

Page 24: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 510

Región de aceptación: Si αα -1=)Z<P(Z la región de

aceptación la componen todos aquellos valores de Z

que sean menores a Zα .

En función de que el estadístico de contraste que

calculemos con la información muestral se encuentre en la

región de aceptación o de crítica, aceptaremos o

rechazaremos la hipótesis nula.

Veamos un ejemplo. Si el proceso de fabricación de

cojinetes está funcionando correctamente, se obtienen

piezas de 5 onzas de peso medio, y desviación típica de

0.1 onzas. Como la máquina que los produce ha sufrido una

serie de ajustes en su funcionamiento, se sospecha que

hayan aparecido algunos cambios en el proceso de

fabricación.

Para comprobar esto, se tomó una muestra de 16 cojinetes y

se obtuvo una media de 5.038 onzas de peso. Se quiere

contrastar a un nivel de significación del 5% si la

hipótesis nula de que la media de peso de los cojinetes

sigue siendo 5 onzas, contra la alternativa que indica un

peso superior después del ajuste realizado.

Si planteamos las hipótesis del contraste tendríamos:

5> > :H

5== :H

01

00

µµµ

µµ

contraste unilateral, con un 0.05=α

El estadístico de contraste en este caso será:

Page 25: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

511

1.52=

160.1

5-5.038=

n

-x=Z 0

σµ

El criterio de aceptación de la hipótesis nula sería por

tanto:

H0 es cierta si Z (estadístico de

contraste) < Zα , o la que es lo mismo si

se cumple que 1.52 < 1.645

Dado que se cumple esta condición, no se puede rechazar la

hipótesis nula, por lo que a pesar de haber sufrido

modificaciones en el ajuste del proceso de producción,

según la información muestral, y con un nivel de

significación del 5%, se siguen fabricando cojinetes de 5

onzas como peso medio.

Intentaremos ahora hacer otro tipo de contrastación, bajo

las mismas condiciones poblacionales, pero modificando las

hipótesis planteadas:

Supongamos que el fabricante de microcomponentes

electrónicos que suministra a la empresa "ELECTRON S.A."

garantiza al gerente de dicha empresa que la duración

media de estos componentes es de 500 horas de

funcionamiento, con una desviación típica de 80 horas

(sabiendo que dicha variable aleatoria se distribuye como

una Normal).

Para poder comprobar este nivel de calidad, la empresa

compradora realiza cada cierto tiempo un muestreo

aleatorio simple sobre los pedidos que llegan de esos

componentes, y en el último, sobre una muestra de 45

componentes se obtuvo como resultado una media de 503

horas de duración. ¿Se podría decir, a la vista de estos

Page 26: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 512

datos, que la calidad de los microcomponentes sigue siendo

la que afirma el fabricante?

Para poder contestar a esta pregunta necesitaremos

realizar un contraste de hipótesis, ya que el fabricante

realiza una afirmación sobre una característica de la

población (media poblacional), y el gerente de la empresa

"Electron S.A." quiere saber si con la información

muestral de la que dispone puede aceptar dicha afirmación.

Pero para realizar este contraste necesitamos determinar

bajo qué condiciones nos encontramos:

Variable aleatoria en estudio: duración en horas de los

microcomponentes.

Distribución: Normal ( 500=µ , 80=σ )

Muestra en estudio

Muestra de tamaño: 45

Distribución muestral de la media:

Normal ( 503=x ,45

80=n

σ)

Esto es, una población normal con varianza conocida, de la

que tenemos datos muestrales y queremos contrastar la

validez de su media.

Para ello formularemos las hipótesis:

500 :H

500== :H

01

00

≠≠ µµ

µµ

contraste bilateral y fijamos el nivel de significación

0.05=α

El siguiente paso sería preguntarnos qué estadístico de

Page 27: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

513

contraste utilizaremos, y por la que sabemos de temas

anteriores, el estimador máximo verosímil de la media

poblacional es la media muestral, y ya hemos visto como se

distribuye esta variable aleatoria media muestral, Normal

( 503=x ,45

80=n

σ), de manera que el estadístico de contraste

que utilizaremos será

n

-x=Z 0

σµ

, que no es más que la

variable media muestral tipificada.

Al trabajar con valores de la distribución Normal

tipificada como estadístico de contraste, utilizaremos

esta misma distribución para determinar las regiones de

aceptación y rechazo de este contraste.

Esto nos permite poder tomar una decisión, con un

determinado nivel de significación α. Al ser el

estadístico de contraste Z = 0.2515, y los valores

críticos que delimitan las regiones de rechazo y la de

aceptación por los valores (-1.96,1.96), vemos que el

estadístico de contraste se encuentra dentro de la región

de aceptación, por lo que podemos ACEPTAR la hipótesis

nula, rechazando así la alternativa.

Por lo que podemos decir que la calidad de los

microcomponentes es realmente la que afirma el fabricante,

con un nivel de significación del 5%.

V.1.4.2.- Contrastes de la media µ con varianza desconocida. Muestras

pequeñas (n<30)

Plantearemos el siguiente ejemplo. En el proceso de

llenado de cajas de cereales se sabe que el peso en gramos

Page 28: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 514

que contiene cada caja es una variable que se distribuye

según una normal, de la cual desconocemos sus

características. Para poder hacer una verificación del

proceso se tomó una muestra de 16 elementos y se obtuvo un

peso medio de 498.9 gramos y una desviación de 6.2.

¿ Podríamos afirmar que el proceso de llenado fabrica

paquetes de cereales de 500 gramos como mínimo?

La hipótesis a plantear serían las siguientes:

500<:H

500:H

1

0

µ

µ ≥

contraste unilateral con α =0,05

Notese que la hipótesis alternativa viene condicionada a

ser unilateral por la forma de la hipótesis nula. El

estadístico de contraste a utilizar sería una t student ya

que estamos ante una población de la que desconocemos la

varianza y además la muestra es de pequeño tamaño. El

estadístico de prueba es

-0.69=15/6.2500-498.9=

1-n/S

-x=t

x

01-n

µ

En función del estadístico de contraste definiremos las

regiones de aceptación y crítica:

Función de densidad t-Student de 15 grados de libertad

Región de aceptación de H0 Región de rechazo

Page 29: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

515

Vemos que el estadístico de contraste se encuentra dentro

de la región de aceptación, por tanto, aceptaremos (no

podemos rechazar) la Hipótesis Nula que afirma que en el

proceso de llenado se obtienen cajas de 500 gramos de peso

como mínimo, con un nivel de significación del 5%.

V.1.4.3.- Contrastes de la media µ con varianza desconocida. Muestras grandes

(n>30)

Supongamos que el estudio de una muestra de los salarios

de cuarenta oficiales de taller en una determinada empresa

arrojó los siguientes resultados:

media= 2556 ptas/hora desviación: 589 ptas/hora

Sabiendo que esta variable aleatoria sigue una

distribución Normal, el sindicato de esta empresa quiere

comprobar si se está en concordancia con la media de

salarios del sector, para esta categoría profesional, que

es de 3000 ptas /hora.

Para ello realizaremos un contraste bajo las siguientes

hipótesis:

Page 30: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 516

3000:H

3000=:H

1

0

≠µ

µ

contraste bilateral con 0.05=α , donde el estadístico de

contraste a utilizar sería una variable Z que se

distribuye como una Normal(0,1), ya que aunque estamos

ante una población de la que desconocemos la varianza, la

muestra es de tamaño grande (n>30).

El estadístico de contraste toma el siguiente valor

-4.77=40/589

3000-2556=n/S

-x=Z

x

En función de cómo se distribuye el estadístico de

contraste bajo el cumplimiento de la hipótesis nula,

definimos las regiones de aceptación y rechazo de dicha

hipótesis:

Vemos que el valor del estadístico de contraste se

encuentra dentro de la región de rechazo (toma el valor –

4.77, por tanto, rechazaremos la Hipótesis Nula que afirma

Función de densidad Normal (0,1)

-1.96 1.96

Región de Aceptación

Región de Rechazo

Región de Rechazo

Page 31: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

517

que en esta empresa los oficiales de taller tienen como

salario medio el mismo que el sector, con un nivel de

significación del 5%, lo que implica que aceptamos la

hipótesis alternativa, por lo que los salarios no están en

concordancia con los del sector.

Page 32: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 518

Podríamos realizar un contraste más potente e incluso que

contenga más cantidad de información si para este mismo

ejercicio se plantease la hipótesis para un contraste

unilateral.

En efecto, el EMV de µ sabemos que es _

x , observando en

esta muestra que _

x = 2556 nos hace sospechar no solo que

es diferente sino incluso menor que la media propuesta

µ=3000.

Si realizamos el contraste bajo las siguientes hipótesis:

3000<:H

3000=:H

1

0

µ

µ

y realizamos, por tanto, un contraste unilateral con

0.05=α , siendo el estadístico de contrate y las

realizaciones muestrales las mismas del ejercicio

anterior. La nueva región crítica (que resulta ser óptima

por la aplicación del Lema de Neyman-Pearson) será:

El estadístico de contraste bajo la hipótesis nula, que

vale Z=-4,77, se encuentra en la región crítica, al

rechazar la H0 aceptamos que los salarios no solo no están

Función de densidad Normal (0,1)

-1.645

Región de Aceptación Región de Rechazo

Page 33: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

519

en concordancia con la media del sector sino que son

menores, la potencia de esta afirmación es mayor que en el

caso anterior.

V.1.4.4.- Contraste de la varianza σ2 de una población normal

Seguiremos con más ejemplos. En un proceso de llenado, se

admite una tolerancia en el peso. Para reunir este

requisito, la desviación standard en el peso debe ser de

dos gramos.

Los pesos de 25 recipientes seleccionados al azar dieron

como resultado una desviación standard de 2.8 gramos. Si

suponemos que los pesos se distribuyen normalmente,

¿podríamos decir que el proceso de llenado sigue un ritmo

adecuado con respecto al peso?.

Para saberlo realizaremos un contraste bajo las siguientes

hipótesis:

2:H

2==:H

220

21

220

20

≠≠σσ

σσ

contraste bilateral con 0.05=α

Notese como la hipótesis alternativa se toma de tipo

bilateral pues es tan malo llenar poco los recipientes

como llenarlos mucho ya que desbordarían.

Tal y como se hizo en el caso de la estimación por

intervalos, el estadístico del cual conocemos la

distribución es el siguiente

σχ

2

2x2

1-nSn

=*

Sabemos que este estadístico se distribuye como una chi-

Page 34: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 520

cuadrado de n-1 grados de libertad, en donde n es el

tamaño muestral.

En consecuencia, si la hipótesis nula es cierta el

estadístico

σχ

2

2x2

1-nSn=0

*

se distribuye como una chi-cuadrado de n-1 grados de

libertad. Obsérvese que en esta última expresión, en el

denominador tenemos el valor de la varianza bajo la

hipótesis nula. Lo que tenemos que ver es si la evidencia

empírica apoya la hipótesis nula o no. De esta manera lo

primero que calculamos es el valor del estadístico de

contraste bajo el cumplimiento de la hipótesis nula y la

información muestral.

Estadístico de contraste: 49=2

82.25=Sn=2

2

20

2x2

1-n

**

σχ

En función del estadístico de contraste definiremos las

regiones de aceptación y crítica:

Criterio de Rechazo de H0: χχ α2

/2,1-n2

1-n < ó χχ α2

/2,1-n2

1-n > −1,

siendo /2=)<P( 2/2,1-n

21-n αχχ α y /2=)>P( 2

/2,1-n2

1-n αχχ α−1,

es decir,

Distribución chi-cuadrado

Región de Aceptación

I II

Región de Rechazo, zonas I y II

χ2α/2 χ2

1-α/2

Page 35: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

521

Page 36: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 522

Para el caso de que n sea igual a 25, tenemos que trabajar

con la chi-cuadrado de 24 grados d libertad, siendo

4011.12025.0, =χ21-n , y 3641.39975.0, =χ2

1-n . Vemos que el estadístico de

contraste se encuentra dentro de la región de rechazo II,

por tanto, rechazaremos la Hipótesis Nula que afirma que

en el proceso de llenado la desviación típica es de 2

gramos, ya que con los datos muestrales obtenidos no se

puede aceptar, con un nivel de significación del 5%, lo

que implica que aceptamos la hipótesis alternativa.

V.1.4.5.- Contraste para la diferencia de medias de dos poblaciones normales

varianzas conocidas.

Un inversionista desea comparar los riesgos asociados a

dos diferentes mercados, A y B. El riesgo de un mercado se

mide por la variación en los cambios diarios de precios, y

se sabe que se comporta, en ambos casos, como una variable

aleatoria Normal independiente con las siguientes

desviaciones típicas: para el mercado A es de 0.5 y para

el B 0.7.

El inversionista piensa que el riesgo en el mercado B es

igual al del mercado A, aunque hay otros inversionistas

que piensan que el del mercado B es mayor. Para poder

contrastarlo, se toman muestras aleatorias de 21 cambios

de precios diarios para el mercado A y 16 para el mercado

B, obteniéndose una media para el mercado A de 0.8 y para

el mercado B de 1.1 ¿ Podríamos encontrar evidencia

empírica para la creencia del inversionista?.

Ordenando la información de la que disponemos,

mercado A mercado B

desviación población 0.5 0.7

Page 37: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

523

media muestral 0.8 1.1

tamaño muestral 21 16

Con esto plantearemos las hipótesis:

0<-:H

0=-:H

BA1

BA0

µµ

µµ

contraste unilateral con un 0.05=α , donde el estadístico de

contraste a utilizar sería una Z Normal(0,1), cuya

expresión genérica es

n/+n/

)-(-)x-x(=Z

B2BA

2A

BABA

σσ

µµ

Para el caso que nos ocupa, el estadístico de prueba toma

el siguiente valor

-1.43=/1670.+/2150.

0-1.1)-(0.8=n/+n/

)-(-)x-x(=Z

22B

2BA

2A

BABA

σσµµ

En función del estadístico de contraste definiremos las

regiones de aceptación y rechazo

Función de densidad Normal

Región de aceptación Región de rechazo

-1.645

Page 38: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 524

Vemos que el estadístico de contraste se encuentra dentro

de la región de aceptación, por tanto, aceptaremos la

Hipótesis Nula que afirma que ambos mercados tienen el

mismo riesgo medio, con un nivel de significación del 5%.

Page 39: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

525

V.1.4.6.- Contraste para la diferencia de medias de dos poblaciones normales varianzas

desconocidas (muestras grandes).

De las facturas pendientes de cobro de este mes se han tomado

120 al azar, con un importe medio de 112517.8 ptas y una

desviación de 27304.1, y de las facturas que hay que pagar se

eligieron 110 al azar con una media de 107862.6 ptas y una

desviación de 32417.6.

Teniendo en cuenta que se tomaron muestras independientes,

contrastaremos la hipótesis de que las medias de importe de

ambos tipos de facturas son iguales.

Enunciaremos las hipótesis: llamaremos 1 a las facturas

pendientes de cobro y 2 a las que hay que pagar, y µ1 de las

facturas pendientes de cobro y µ2 de las facturas a pagar. En

contraste lo planteamos como

0- :H

0=- :H

211

210

≠µµ

µµ

contraste bilateral con un nivel de significación de 0.05

Calcularemos el estadístico de contraste correspondiente a la

diferencia de medias de dos poblaciones normales de varianza

desconocida, pero de muestras grandes:

Page 40: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 526

1.1384=/100632417.+/120127304.

107862.6)-(112517.8=

=n/2S+n/1S

)-(-)x-x(=Z

22

22

x12

x

2121 µµ

siendo el criterio de Rechazo de H0 similar al de cualquier

contraste basado en una estadístico de prueba que se

distribuye como una normal. Por tanto, al estar el estadístico

de contraste en la región de aceptación se acepta la hipótesis

nula de igualdad de medias para ambos tipos de facturas, con

un nivel de significación del 5%.

V.1.4.7.- Contraste para la diferencia de medias de dos poblaciones normales varianzas

desconocidas (pero supuestamente iguales).

Utilicemos el caso anteriormente expuesto, pero imaginemos que

no tenemos información acerca de las varianzas poblacionales,

sino que lo único que sabemos es que son iguales, y conocemos

las varianzas muestrales. ¿ Qué podríamos decir acerca de la

opinión del inversionista?.

Ordenando de nuevo la información de la que disponemos,

mercado A mercado B

media muestral 0.8 1.1

varianza muestral 0.4 0.5

tamaño muestral 21 16

Con esto plantearemos las hipótesis:

Page 41: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

527

0<-:H

0=-:H

BA1

BA0

µµ

µµ

contraste unilateral con un a =0,05,donde el estadístico de

contraste a utilizar sería una t-student, cuya expresión

genérica es

=

2-n+nn

1+

n

1

_n_2S+n_1S

)-(-)x-x(=t

21

212

2x1

2x

21212-n+n 21

µµ

Y, para el caso que nos ocupa, el estadístico de prueba toma

el valor

-2=

2-16+211/16+1/21

x_1650.+_2140.

0-1.1)-(0.8=

=

2-n+nn

1+

n

1

_n_2S+n_1S

)-(-)x-x(=t

22

21

212

2x1

2x

21212-n+n 21

µµ

En función del estadístico de contraste definiremos las

regiones de aceptación y crítica para -1.64=t- ,2-n+n 21 α

Vemos que el estadístico de contraste se encuentra dentro de

la región de rechazo, por tanto, rechazaremos la Hipótesis

Nula que afirma que ambos mercados tienen el mismo riesgo

medio, con un nivel de significación del 5%, y aceptaremos la

alternativa, en la que el mercado A aparece con menor riesgo

que el mercado B.

Page 42: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 528

V.1.4.8.- Contraste para la igualdad de varianzas de dos poblaciones normales.

Un inversor desea comparar la dispersión que presentan las

cotizaciones de dos títulos bursátiles y para ello ha elegido

13 días de cotizaciones para el primero de ellos, calculando

una desviación estandar de 21.51 y 6 días de cotización para

el segundo con una desviación de 17.09.

Partiendo de la base que las cotizaciones siguen una Ley

Normal, se quiere contrastar que las varianzas de ambas

cotizaciones son iguales.

Para ello llevaremos a cabo un contraste que se plantea bajo

las siguientes hipótesis:

σσ

σσ

22

211

22

210

:H

= :H

contraste bilateral con a = 0,05

Calcularemos entonces el estadístico de contraste:

1.584=0917.5121.=F=2

S1S=F 2

2

13,62

x

2

x-1n-1,n 21

Como el criterio de rechazo H0 es:

F < F /2-2,n-1,n-2n-1,n 2121 α ó F > F /2-2,n-1,n-2n-1,n 2121 α (0.32 , 4.68)

Podemos concluir que al estar el estadístico de contraste en

la región de aceptación, aceptaremos la hipótesis nula de

Page 43: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

529

igualdad de varianzas en ambas cotizaciones.

V.1.4.9.- Contraste de proporciones.

Hemos visto al estudiar la estimación por intervalos de la

proporción que esta, cuando el tamaño muestral es grande se

comporta como una normal de media la proporción poblacional y

de varianza (p+q)/n, en consecuencia es inmediato demostrar

que

nqppp

Z*

^

−=

se distribuye como una Normal de media cero y varianza 1.

Basándonos en este resultado podemos plantear un contraste de

la forma:

H0: p=p0

H1: p≠p0

Fijamos un nivel de signifiación y, si la hipótesis nula se

cumple el estadístico

nqp

ppZ

^^

0

^

*

−=

se debe comportar como una normal de media cero y varianza 1.

Con este resultado, determinar las zonas de aceptación y

rechazo no presenta ningún problema puesto que se determinan

de la misma forma que para el caso en el cual el estadístico d

contraste se distribuya como una Normal(0,1) bajo el

cumplimiento de la hipótesis nula.

Page 44: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 530

V.2.- Contrastes no paramétricos

V.2.1.- Introducción

En ocasiones, el supuesto que hemos utilizado en el tema de

contrastes de hipótesis paramétricos sobre el conocimiento de

la distribución que sigue la variable objeto de estudio no se

cumple. Es decir, que no sabemos como se distribuye la

población estudiada. Si esto es así, los contrastes estudiados

hasta ahora puede que no los podamos aplicar o no son los que

nos permiten decidir sobre la hipótesis que nosotros

realmente tenemos. Por ejemplo, nuestro interés puede ser

saber si los datos se ajustan o no a una determinada

distribución, es decir, si nosotros tenemos una muestra de una

variable X podemos estar interesados en saber si los datos de

la muestra ofrecen evidencia empírica o no sobre que la

población de la que se han extraídos es normal. O puede

interesarnos si disponemos de dos muestras, saber si pueden

proceder ambas de la misma distribución, al margen del cual

sea esta. Por ejemplo si dos profesores evalúan a una clase,

podemos estar interesados en saber el nivel de coherencia

entre las dos calificaciones.

Obsérvese que en ningún caso hemos hablado al plantear este

tipo de contrates de valores de los parámetros de las

distribuciones asociadas a nuestra variable en estudio. Es por

esto que a este tipo de contrates se le denominan contrastes

no paramétricos para distinguirlos de los estudiados hasta

ahora que habíamos denominado contrastes paramétricos.

En el presente capítulo nos referiremos solo a cuatro

contrastes no paramétricos, aunque el número de contrastes de

Page 45: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

531

este tipo es mucha más amplio. En primer lugar abordaremos dos

contrastes para comparar la relación existente entre dos

muestras. El primero de estos contrastes, el contraste de

rangos de Spearman, se realiza para el caso de disponer de

muestras pareadas, es decir, existen dos valores para el mismo

individuo, y el segundo, el de Wilconxon-Mann-Whitney, se

aplica a muestras no pareadas.

En segundo lugar, abordamos el estudio de dos contrates que

tienen como objetivo analizar el nivel de ajuste de los datos

muestrales a una determinada distribución. Por ejemplo, si

nosotros estamos midiendo el volumen de ingresos de las

empresas y no sabemos como se comporta esta variable, pero

creemos que se distribuye como una distribución normal, tanto

el contraste de la chi-cuadrado como el de Kolmogorov-Smirnov,

podrían permitirnos decidir sobre el ajuste de los datos

muestrales a la distribución supuesta.

V.2.2.- Contrastes para el caso de dos muestras.

V.2.2.1.- Contrastes de correlación de rangos de Spearman.

Este contraste se aplica sobre pares de valores los cuales

representan una distinta clasificación sobre la misma

población. Como ejemplo, podemos considerar que dos profesores

distintos evalúan a la misma clase sobre la misma materia. Al

final cada alumno estará representado por dos notas. Este

contraste permitirá decidir si ambos profesores coinciden en

sus calificaciones. Para aplicar este contraste es necesario

que ambos puntúen en la misma escala.

Page 46: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 532

Supongamos que tenemos una muestra de pares de valores (x,y)

en donde x e y toman los mismos valores (están en la misma

escala) aunque no obligatoriamente en el mismo orden. Es

decir, los dos profesores evalúan entre 1 y 10, por tanto, si

x es la nota del profesor 1 e y la nota del profesor 2, tanto

x como y toman valores entre 1 y 10, pero evidentemente no en

el mismo orden. Si para todos los pares (x,y) x fuese igual a

y ello supondría una total coincidencia entre las

calificadciones de los dos profesores.

El contraste lo que pretende es determinar la coincidencia o

no que existe entre las dos calificaciones mediante el uso de

la correlación de rangos de Spearman definido como:

en donde rs es el coeficiente de correlación de rangos de

Spearman, n es el tamaño muestral y d es la diferencia que hay

entre x e y en cada par posible de valores.

Si la correlación entre los valores de x y de y es perfecta

positiva, entonces el coeficiente de correlación de rangos de

Spearman será igual a uno, puesto que di será siempre igual a

cero. Por el contrario, se puede demostrar que si la

correlación es perfecta pero negativa, es decir cuando un

profesor da una nota más alta el otro pone una nota más baja,

el coeficiente de correlación de rangos de Spearman será igual

a -1. Para el caso de que la relación no existe, el

coeficiente de correlación de rangos de Spearman tomará el

1)-n(n

d6-1=r

2i

n

1=is 2

Page 47: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

533

valor cero.

Si denotamos por rs al coeficiente de correlación de rangos de

Spearman poblacional, el contraste lo definiremos de la

siguiente manera:

Ho: rs = 0

H1: rs distinto de cero

α nivel de significación

Estadístico de prueba: rs

Si se cumple la hipótesis nula y el tamaño de la muestra es

superior o igual a 10, el estadístico de prueba se distribuye

como una normal de media cero y varianza 1/(n-1).

Obsérvese que aunque hemos definido el contraste bilateral no

habría ningún problema en definir uno unilateral. Es decir,

podemos estar interesados en contrastar que la correlación es

cero frente a que es positiva o negativa por separado.

Recordemos que el contraste unilateral será más potente que el

bilateral.

Ejemplo: Dos controladores de calidad califican la calidad de

12 piezas obteniendo los siguientes resultados:

Piezas

Control 1

Control 2

|d|

d2

1

5

4

1

1

2

8

6

2

4

3

3

1

2

4

4

10

8

2

4

Page 48: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 534

5

7

9

2

4

6

1

2

1

1

7

9

5

4

16

8

2

7

5

25

9

11

10

1

1

10

4

3

1

1

11

6

11.5

5.5

30.25

12

12

11.5

0.5

0.25

A un nivel de significación del 5% contrastar si los dos

controladores tienen a coincidir en la valoración de la

calidad del producto.

En la tabla anterior ya se han calculado las distancias al

cuadrado, en consecuencia el estadístico de prueba tomará el

valor

En consecuencia, el contraste lo plantearíamos como

Ho: rs ≠ 0

H1: rs > cero

α nivel de significación

Estadístico de prueba: rs

0.68=1)-1212(

91.5*6-1=r 2s

Page 49: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

535

Si se cumple la hipótesis nula

1-n1

0-r=z s

se distribuye como una N(0,1). Para la muestra z toma el valor

2.25, siendo el punto crítico para un nivel de significación

del 5% (en una cola) de 1.64. Por tanto, se rechaza la

hipótesis nula, es decir, se acepta la alternativa y por tanto

se acepta que existe concordancia entre lo que los

controladores dicen.

V.2.2.2.- Contraste de Wilcoxon-Mann-Whitney.

F. Wilconxon en 1945 propuso un test de suma de rangos, basado

en dos muestras aleatorias independientes entre sí, con el fin

de contrastar la hipótesis de que las dos poblaciones

contínuas tienen la misma distribución, es decir:

Ho: F(z) = G(z) Ho: F(z) ≤ G(z) Ho: F(z) ≥ G(z)

∀ z ∈ R

H1: F(z) ≠ G(z) H1: F(z) > G(z) H1:F(z) < G(z)

Dos años más tarde , en 1947, los estadísticos Mann y Whitney

propusieron otro contraste basado también en la suma de rangos

de las dos muestras, probando que su test era equivalente al

de la suma de rangos de Wilconxon. Razón por la cual en la

literatura estadística se le conoce con el nombre de test de

Wilconxon-Mann-Whitney.

Page 50: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 536

En este contraste, suponemos que las dos muestras proceden de

dos poblaciones X e Y con funciones de distribución continuas

F(x) y G(y), respectivamente, que son del mismo tipo y por

tanto solo difieren en ubicación. Por este motivo los

contrastes se pueden plantear en función de las medias o de

las medianas.

El procedimiento se inicia combinando las dos muestras y

ordenándolas conjuntamente en orden de su magnitud, obteniendo

una ordenación de n1+ n2 números, a los que se les asigna su

rango es decir un valor de 1, 2 , ....., n1+ n2 para cada

observación. En caso de empates (observaciones idénticas) se

les asigna como rango el promedio de los rangos que les

corresponderían si todas ellas fueran diferentes.

Los estadísticos U de Mann-Whitney están relacionados con los

estadísticos de suma de rangos de Wilconxon mediante la

siguiente expresión:

2122

21

2111

21

02

)1(

02

)1(

nnUWnn

nnU

nnUWnn

nnU

yyy

xxx

≤≤⇒−++=

≤≤⇒−++=

siendo:

Wx = suma de los rangos correspondientes a la muestra de X

(muestra más pequeña), y

Wy = suma de los rangos correspondientes a la muestra de Y

(muestra más grande).

También se verifica que Ux+ Uy= n1 * n2

Page 51: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

537

Para obtener los valores críticos es necesario conocer la

distribución del estadístico U de Mann-Whitney bajo la

hipótesis nula Ho cierta, pero esto no lo veremos aquí y

únicamente nos limitaremos a la utilización de tablas

estadísticas en donde se da tabulada la función del

estadístico U, donde U = Ux o bien U = Uy .

Teniendo en cuenta que Ux y Uy proporcionan información

complementaria, cualquiera de los dos serviría como

estadístico de prueba. Sin pérdida de generalidad tomaremos Ux

Los tres contrastes que pueden realizarse se resumen en la

siguiente tabla:

Ho H1 Región crítrica utilizando Ux como estadístico de prueba

F(z) ≤ G(z) (µx ≥ µx)

F(z) > G(z) (µx < µx)

α 0 uα n1 n2

F(z) ≥ G(z) (µx ≤ µx)

F(z) < G(z) (µx > µx)

α 0 u′α n1 n2

F(z) = G(z) (µx = µx)

F(z) ≠ G(z) (µx ≠ µx)

α/2 α/2 0 u′α/2 uα/2 n1 n2

En la tabla de Wilconxon-Mann-Whitney, se da la función de

distribución del estadístico U, (que puede ser tanto Ux como

Uy ), obteniéndose la probabilidad de que un valor de la

variable U sea menor que algún valor especificado Uo, es

Page 52: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 538

decir:

α=≤ )( 0UUP

para n1≤ n2 y n2 = 3, 4, .., 10 y esa probabilidad obtenida es

el valor del nivel de significación, α, para los test de una

cola.

Puede demostrarse que la distribución de probabilidad de Ux es

simétrica respecto a su media [(n1 n2)/2] bajo la hipótesis

nula. Esto, junto con el hecho de que 0 ≤ Ux ≤ n1 n2 nos

permite dar una relación entre los valores críticos uα y u′α

uα = n1 n2 - u′α

que es útil para la búsqueda de regiones críticas mediante la

tabla disponible, en los contrastes unilaterales por la

derecha y en los bilaterales.

APROXIMACIÓN PARA MUESTRAS DE TAMAÑOS SUPERIORES A 10

Para muestras grandes n1 > 10 y n2 > 10, y bajo la hipótesis

nula Ho, se demuestra que el estadístico U de Mann-Whitney, en

donde U = Ux o bien U = Uy, tiene como media y varianza:

121) n (nn n

)(

2n n

)(

2121

21

++=

=

UVar

UE

Y se distribuye asintóticamente según una normal:∼

Page 53: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

539

++∼12

1) n (nn n,

2n n 212121NU

y en consecuencia el estadístico

)1,0(

12)1n (n n n

2n n

)(

)(

2121

21

NU

UVar

UEUZ →

++

−=−=

para muestras superiores a 10. El valor de U será el de Ux.

Ejemplo:

El contenido en azúcar, medido en gramos, de dos muestras

independientes de naranjas seleccionadas aleatoriamente, en

dos cooperativas citrícolas, viene dado en la tabla adjunta:

Muestra

X

2.1 6.3 4.2 5.5 4.8 3.7 6 3.3

Muestra

Y

4.3 0.9 3.1 2.5 4.2 6.2 1.6 2.2 1.9 5.5

Contrastar, al nivel de significación del 0.05, las siguientes

hipótesis sobre las variedades de procedencia de las dos

muestras de naranjas:

la primera muestra procede de una variedad con más gramos de

azúcar, por término medio, que la segunda

la primera muestra procede de una variedad con menos gramos de

azúcar, por término medio, que la segunda

las dos muestras proceden de variedades con diferentes

Page 54: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 540

contenidos en azúcar

Solución:

a) el contraste a realizar en este caso es:

Ho: F(z) ≥ G(z) ⇒ Ho: µx ≤ µy

H1: F(z) < G(z) ⇒ H1: µx > µy

b) el contraste a realizar en este caso es:

Ho: F(z) ≤ G(z) ⇒ Ho: µx ≥ µy

H1: F(z) > G(z) ⇒ H1: µx < µy

c) el contraste a realizar en este caso es:

Ho: F(z) = G(z) ⇒ Ho: µx = µy

H1: F(z) ≠ G(z) ⇒ H1: µx ≠ µy

Para resolver estos tres contrastes utilizando el test de

Wilconxon-Mann-Whitney, empezaremos combinando ambas muestras,

ordenándolas conjuntamente en orden de su magnitud y

asignándoles su correspondiente rango.

Y Y Y X Y Y Y X X X Y Y X Y Observaciones

Muestrales 0.9 1.6 1.9 2.1 2.2 2.5 3.1 3.3 3.7 4.2 4.2 4.3 4.8 5.5

Rangos 1 2 3 4 5 6 7 8 9 10.

5

10.

5

12 13 14.

5

n1= 8, n2= 10 y α = 0.05

Page 55: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

541

Calculamos las sumas de rangos correspondientes a ambas

muestras:

Wx = 4 + 8 + 9 + 10.5 + 13 + 14.5 + 16 + 18 = 93

Wy = 1 + 2 + 3 + 5 +6 + 7 + 10.5 + 12 + 14.5 + 17 = 78

Los valores de los estadísticos U de Mann-Whitney para las

muestras seleccionadas se obtienen utilizando las expresiones:

57782

1110108

2)1(

23932

98108

2)1(

2221

1121

=−∗+∗=⇒−++=

=−∗+∗=⇒−++=

yyy

xxx

UWnn

nnU

UWnn

nnU

Utilizando la tabla, para n1= 8 y n2= 10, se tiene que el

valor crítico es u′α = 20 (el 0.05 está entre el 20 y el 21).

a) Como este es un contraste unilateral por la izquierda, se

acepta la hipótesis nula, porque el estadístico de contraste

toma un valor superior que el valor crítico (23 > 20) y por lo

tanto se rechaza la alternativa, es decir, no es cierto que la

primera muestra procede de una variedad con más gramos de

azúcar, por término medio, que la segunda.

b) Este es un contraste unilateral por la derecha. En este

caso tenemos que utilizar la fórmula: uα = n1 n2 - u′α . uα

= 8*10 – 20 = 60. Al ser el estadístico de contraste 23, es

menor que el valor crítico 60, por lo que se acepta la

hipótesis nula y por tanto se rechaza la alternativa, es

decir, no es cierto que la primera muestra proceda de una

variedad con menos gramos de azúcar, por término medio, que la

segunda.

Page 56: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 542

c) Este es un contraste bilateral, por lo que los tamaños de

las regiones críticas son igual a α/2 = 0.025. Utilizando las

tablas, vemos que el valor crítico u′α/2 es 17 (está entre el

valor 17 y el 18) y uα = n1 n2 - u′α = 8*10 – 17 = 63. Al

ser el estadístico de contraste 23 cae en la región de

aceptación (17 < 23 < 63), por lo que se acepta la hipótesis

nula, es decir, no hay diferencia en los contenidos en azúcar

entre las dos muestras, luego ambas muestras proceden de la

misma variedad (población).

Page 57: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

543

V.2.3.- Críticas al modelo. Contrastes asociados.

V.2.3.1.- Contrate de ajuste.

V.2.3.1.1.- El contraste ji-cuadrado de Pearson.

Otra hipótesis habitual en nuestro estudio es partir del hecho

de que nosotros conocemos la distribución que sigue la

característica en estudio. De esta manera decimos que la

estatura es una variable Normal (puede que no conozcamos sus

parámetros), decimos que el tiempo de ocurrencia de la primera

avería de una determinada máquina sigue una ley exponencial,

etc... Pero, ¿cómo podemos tener evidencia empírica para

afirmar que realmente la variable en estudio tiene esta

distribución? Para ello, entre otras cosas, es para lo que se

utiliza el contraste de la ji-cuadrado.

Este contraste tiene como base comparar dos situaciones, una

real y otra teórica. Por real se entiende aquella situación

que pone de manifiesto los datos da la muestra. Por teórica

entendemos aquella situación que se corresponde con el

cumplimiento de la hipótesis de partida. El contraste,

mediante esta comparación, determina si la distancia que

existe entre estas dos situaciones es lo suficientemente

grande como para decir que las dos situaciones no son

compatibles, o por el contrario, esta distancia es lo

suficientemente pequeña como para afirmar que la situación

teórica y la real son iguales.

Para la presentación del contraste partamos primero de una

variable X que sea discreta, pudiendo tomar únicamente k

valores, {x1,x2,..., xn}. Además, conocemos el comportamiento

Page 58: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 544

probabilístico de esta variable. Denotemos por pi la

probabilidad de xi.

Tomamos una muestra aleatoria de tamaño n. Sea oi la

frecuencia observada de la modalidad xi. Por tanto,

Es decir, tenemos dos situaciones:

a) Situación teórica. Viene dada por la función de cuantía.

Esto es

resto 0

}x,...,x,x{=x si p = f(x)

k21i

b) La situación observada viene dada por la distribución de

frecuencias

X

x1 x2 ... xk

o

o1 o2 ... ok

Suma=n

(1)

De la situación teórica, situación a), podemos deducir la

frecuencia esperada teórica de cada modalidad de X. A esta

frecuencia la denotaremos por Ei

p*n=E nE=p ii

ii ⇒

Por tanto, la situación a), situación teórica vendrá dada por

la distribución de frecuencias

n = oi

k

1=i∑

Page 59: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

545

X

x1 x2 ... xk

E

E1 E2 ... Ek

Suma=n

(2)

El contraste de la ji-cuadrado lo que hace es comparar las

frecuencias de la tabla (1) con las frecuencias de la tabla

(2). Si cada Ei es muy parecido a oi, ello indica que la

situación teórica de partida es muy parecida a la situación

observada, lo cual nos llevaría a aceptar que la distribución

de la variable en estudio es la que hemos supuesto.

El planteamiento formal del contraste es el siguiente:

H0: La variable X se distribuye de una manera concreta

(Normal, exponencial, etc..)

H1: La hipótesis nula no es cierto.

α, nivel de significación.

Estadístico de prueba:

Si H0 se cumple, la variable Z se distribuye como una ji-

cuadrado de (k-r-1) grados de libertad, en donde k es el

número de modalidades y r es el número de parámetros que hay

que estimar para definir completamente la distribución

teórica.

La regla de decisión es la de todo contraste. Es decir, si el

valor de nuestro estadístico es mayor que el correspondiente

valor de una ji-cuadrado de (k-r-1) grados de libertad que

deja a su derecha una masa probabilística igual a α,

E

)E-o(=Z

i

2ii

k

1=i∑

Page 60: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 546

rechazaremos la hipótesis nula para un nivel de significación

α. Esto implicaría, que los datos muestrales no nos ofrecen

evidencia de que la población en estudio se comporta como se

supone en la hipótesis nula.

En el caso de que la variable X sea continua el proceso es el

mismo pero hay que realizar los siguientes pasos:

1) Agrupar los datos muestrales en 5 o más clases que cubran

todo el recorrido de la muestra.

2) Calcular la frecuencia observada para cada una de las

clases.

3) Calcular la frecuencia teórica para cada una de las clases

como Ei = n*pi, en donde pi es la probabilidad de la clase i

si se cumple la hipótesis nula.

4) Realizar el contraste de forma similar para el caso de

variables discretas.

Para que este contraste se pueda aplicar es necesario que los

valores de los Ei sean todos ellos mayores o iguales que 3.

Ejercicio: Durante la Segunda Guerra Mundial se dividió el

mapa de Londres en cuadrículas de 0.25 km2 y se contó el

número de bombas caídas en cada cuadrícula. Los resultados

fueron los siguientes

X=N1 de

impactos

0 1 2 3 4 5

o

229 211 93 35 7 1

Suma=576

Page 61: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

547

¿Podemos afirmar que el número de impactos sigue una

distribución de Poisson?

Solución: Lo primero es estimar el valor λ, que como sabemos

coincide con la media poblacional.

X=N1 de

impactos

0 1 2 3 4 5

o

229 211 93 35 7 1

Suma=576

Xi*oi

0 211 186 105 28 5

Suma=535

Lo segundo es calcular la probabilidad de que X =

{0,1,2,3,4,5}, siendo X una variable de Poisson de parámetro λ

= 0.929, y calcular las frecuencias teóricas Ei

227.52=0.395*576=E 0.395=0!

)(0.929e=0)=P(X=p 0

0-0.929

0 _

211.39=0.367*576=E 0.367=1!

)(0.929e=1)=P(X=p 1

1-0.929

1 _

97.92=0.17*576=E 0.17=2!

)(0.929e=2)=P(X=p 2

2-0.929

2 _

0.929=576535=

o

ox=x=

i

6

1=i

ii

6

1=i

∑ *ˆλ̂

Page 62: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 548

30.528=0.053*576=E 0.053=3!

)(0.929e=3)=P(X=p 3

3-0.929

3 _

7.06=0.01226*576=E 0.01226=4!

)(0.929e=4)=P(X=p 4

4-0.929

4 _

1.3=0.0022779*576=E 0.0022779=5!

)(0.929e=5)=P(X=p 5

5-0.929

5 _

Esto nos lleva a la siguiente tabla de frecuencias teóricas y

observadas, y a los siguientes cálculos

Page 63: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

549

Xi

0

1

2

3

4

5

oi

229

211

93

35

7

1

Ei

227.52

211.89

97.92

30.53

7.06

1.3

(oi-Ei)2/Ei

0.0096

0.0004

0.247

0.65

0.051

0.07

1.03

El planteamiento del contraste es el siguiente,

H0: X se distribuye como una distribución de Poisson

H1: H0 no se cumple.

α = 5%

Estadístico de prueba

E

)E-o(=Z

i

2ii

k

1=i∑

Si H0 se cumple, Z se distribuye como una ji-cuadrado de (k-r-

1) = (6-1-1) = 4 grados de libertad

Nuestro estadístico de prueba toma el valor 1.03, el valor

crítico de la ji-cuadrado de 4 grados de libertad para el

nivel de significación del 5% es 9.48, con lo cual concluimos

que la hipótesis nula no se puede rechazar. Es decir, la

muestra nos ofrece evidencia empírica que nos lleva a aceptar

que la población en estudio se distribuye como una

distribución de Poisson. Los resultados se muestran

gráficamente en la figura.

Page 64: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 550

Ejercicio: La vida de 70 motores ha tenido la siguiente

distribución de frecuencias

Años de �

funcionamiento�(0-1)(1-2)(2-3)(3-4)(4-6)

��������������������������������������������������������������

N1 de motores � 30 23 6 5 6

¿ Puede suponerse, para un nivel de significación del 5%, que

la duración de los motores sigue una distribución exponencial

Page 65: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

551

?

Solución:Valor del estadístico de prueba: 4.10

Valor crítico χ23,0.05 = 7.81

Por tanto, aceptamos la hipótesis de que la duración de los

motores se comporta como una distribución exponencial.

V.2.3.1.2.- Contraste de Kolmogorov-Smirnov.

El contraste de Kolmogorov-Smirnov es similar al anterior pero

en vez de trabajar con la función de densidad o cuantía

trabaja con las funciones de distribución. En consecuencia,

los pasos a dar para su realización serán los siguientes:

1.- Calcular la función de distribución de la muestra.

2.- Calcular la función de distribución poblacional para los

valores establecidos por la muestra.

3.- Las hipótesis son las mismas que las enunciadas para el

caso del contraste chi-cuadrado.

El estadístico de Kolmogorov-Smirnov viene denotado por Dn y

se define como el valor máximo en términos absolutos que toma

la diferencia entre el valor de la función de distribución

muestral y la poblacional.

La decisión sobre la aceptación o rechazo de la hipótesis nula

se establece en función de los valores críticos de las tablas

de Kolmogorov-Smirnov. En estas tablas, conociendo en tamaño

de la muestra y definido el nivel de significación, obtenemos

el valor crítico. Si Dn es mayor que el valor crítico,

Page 66: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 552

rechazamos la hipótesis nula, es decir, los datos muestrales

no se ajustan a los datos poblacionales.

En el caso de que n sea superior a 35 los puntos críticos se

obtienen según la fórmula que se indica en la tabla de

Kolmogorov-Smirnov.

Ejemplo. Estamos interesados en saber si un dado es correcto o

no. Para ello lo hemos lanzado 300 veces saliendo cada

resultado en las siguientes proporciones

Resultado

1

2

3

4

5

6

Proporciones

muestrales

0.145

0.208

0.174

0.15

0.166

0.157

Realizar el contraste de Kolmogorov-Smirnov para determinar si

existe evidencia empírica par afirmar que el dado está

trucado.

En este caso la hipótesis nula es que el dado es correcto

frente a la alternativa que dice que no es correcto. Si la

hipótesis nula es correcta, cada resultado del dado tiene una

probabilidad de 1/6 de salir, en consecuencia podemos calcular

las funciones de distribución muestral y teórica para el caso

que nos ocupa.

Page 67: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

ESTADÍSTICA II

Tema V

553

Resultado

1

2

3

4

5

6

Función de

distribución

muestral

0.145

0.353

0.527

0.677

0.843

1

Función de

distribución si

se cumple la

hipótesis nula

0.167

0.333

0.5

0.667

0.833

1

Dn

0.022

0.020

0.027

0.01

0.01

0

Como se puede ver el valor máximo, que coincide con el

estadístico de prueba, es 0.027. Si nos vamos a las tablas de

Kolmogorov-Smirnov vemos que para un nivel de significación

del 5% el valor crítico se calcula como 1.36/(n)(1/2). Para

nuestro caso n=300 y, por tanto, el valor crítico es

0.0785196.

Dado que nuestro estadístico de prueba es menor que el valor

crítico, no podemos rechazar la hipótesis nula de que el dado

es correcto.

Page 68: TEMA V. CONTRASTACIÓN · HIPÓTESIS COMPUESTA: Es aquella en la que la característica de la población no define completamente el comportamiento probabilístico de la variable en

Contrastación

Tema V 554