bondad de ajuste

13
Prueba de Bondad de Ajuste En este capítulo nos hemos ocupado de la prueba de hipótesis estadísticas acerca de parámetros individuales de la población, tales como µ, 2 y p. Ahora estudiaremos una prueba para determinar si una variable sigue una distribución específica. La prueba se basa en el grado de ajuste que hay entre la frecuencia de ocurrencia de las observaciones de una muestra observada y las frecuencias esperadas que se obtienen de una distribución hipotética. La idea de comparar las distribuciones teóricas y empíricas es la base de la prueba de Kolmogrov – Smirnov (K-S). Son pruebas no paramétricas que se utilizan para diferencias entre distribuciones acumuladas. La prueba unimuestral se refiere a la concordancia entre una distribución acumulada continua con una determinada distribución teórica, es pues, una prueba de bondad de ajuste. La prueba bimuestral ésta relacionada con la conformidad entre dos distribuciones observadas, donde se prueba la hipótesis de que dos muestras independientes provienen de distribuciones continuas idénticas y es sensible a diferencias de la población con respecto a la localización, dispersión o sesgo. La prueba de Bondad de Ajuste o prueba chi- cuadrada , se aplica a variables aleatorias tanto discretas como continúas. Se basa en comparar funciones de densidad de probabilidad, en vez de las funciones de densidad acumuladas, como en la prueba K-S. a) Prueba de Bondad de Ajuste para Distribuciones Continuas No Tabuladas Ejemplo : Consideremos el conjunto de datos en la siguiente tabla, que representan los tiempos de servicio (en minutos) para una muestra de 60 clientes. Se quiere probar si los datos se han sacado de una distribución exponencial. Prof. Mónica Ansin Antille 1 / 13

Upload: eduu-velazquez

Post on 20-Nov-2015

220 views

Category:

Documents


2 download

DESCRIPTION

estadística para ingeniería

TRANSCRIPT

Prueba de Bondad de Ajuste

Prueba de Bondad de AjusteEn este captulo nos hemos ocupado de la prueba de hiptesis estadsticas acerca de parmetros individuales de la poblacin, tales como , ( 2 y p. Ahora estudiaremos una prueba para determinar si una variable sigue una distribucin especfica. La prueba se basa en el grado de ajuste que hay entre la frecuencia de ocurrencia de las observaciones de una muestra observada y las frecuencias esperadas que se obtienen de una distribucin hipottica.

La idea de comparar las distribuciones tericas y empricas es la base de la prueba de Kolmogrov Smirnov (K-S). Son pruebas no paramtricas que se utilizan para diferencias entre distribuciones acumuladas. La prueba unimuestral se refiere a la concordancia entre una distribucin acumulada continua con una determinada distribucin terica, es pues, una prueba de bondad de ajuste. La prueba bimuestral sta relacionada con la conformidad entre dos distribuciones observadas, donde se prueba la hiptesis de que dos muestras independientes provienen de distribuciones continuas idnticas y es sensible a diferencias de la poblacin con respecto a la localizacin, dispersin o sesgo.

La prueba de Bondad de Ajuste o prueba chi- cuadrada, se aplica a variables aleatorias tanto discretas como continas. Se basa en comparar funciones de densidad de probabilidad, en vez de las funciones de densidad acumuladas, como en la prueba K-S.

a) Prueba de Bondad de Ajuste para Distribuciones Continuas No Tabuladas

Ejemplo: Consideremos el conjunto de datos en la siguiente tabla, que representan los tiempos de servicio (en minutos) para una muestra de 60 clientes. Se quiere probar si los datos se han sacado de una distribucin exponencial.

Tabla 1

0.70.43.44.82.01.05.56.21.24.4

1.52.43.46.43.74.82.55.50.38.7

2.70.42.22.40.51.79.38.04.75.9

9.61.65.20.60.93.93.30.20.24.9

0.71.99.11.310.63.00.32.92.94.8

8.72.47.21.57.911.76.33.86.95.3

Una manera rpida de verificar si un conjunto de datos se ajusta a una distribucin terica dada es comparar, grficamente, la distribucin emprica acumulada con la correspondiente funcin de densidad acumulada de la distribucin terica propuesta. Si las dos funciones no muestran una desviacin excesiva, existe la probabilidad de que la distribucin terica se ajuste a los datos.

Entonces, el primer paso en el procedimiento chi-cuadrada es elaborar un histograma de frecuencia. Esto nos permite decidir visualmente cul de las funciones tericas de densidad se ajusta mejor a los datos del histograma.

Tabla 2: Tabla de distribucin de frecuencias

Intervalo

[ )Conteo de las

observacionesFrecuencias

Observadas

(( i)Frecuencias

Relativas

(f i)Frecuencias

Relativas Acumuladas (Fi)

0 - 1

EMBED Equation.3 /110.18330.1833

1 - 2///80.13330.3166

2 - 3////90.15000.4666

3 - 4//70.11670.5833

4 - 5/60.10000.6833

5 - 6

50.08330.7866

6 - 7////40.06670.8333

7 - 8//20.03330.8666

8 - 9///30.05000.9166

9 - 10///30.05000.9666

10 - 11/10.01670.9833

11 - 12/1 0.0167 1.0000

601.0000

Comparando la distribucin emprica con la F(t) (funcin acumulada), est sugiere que la distribucin exponencial podra dar un ajuste razonable. Tambin si observamos el histograma, este parece corresponder a una funcin de densidad exponencial. 1) H0: X ( Exp (()

H1: X Exp (()

2) Estimamos al parmetro ( con la inversa de la media aritmtica (estimador de mxima verosimilitud) .

De los valores de la tabla 1, calculamos la = 3.937 minutos, por lo tanto = 0.254 minutos, entonces

f (t) = 0.254 e 0.254 t t > 0

y

F (T) = 1 - e 0.254 T T > 0

La prueba de Bondad de Ajuste se basa en la medicin de la cantidad de desviacin entre las funciones de densidad emprica y terica. Para lograr esto, supongamos que [ I i 1 , I i ] representa las fronteras del intervalo i , y supongamos que f (t) es la funcin de densidad hipottica.

Dada una muestra de tamao n, la frecuencias terica o esperada asociada al intervalo i, se calcula como

i = 1, 2, . . . , k

donde k es el nmero de celdas ( de intervalos ) usados en la f (t) emprica.

La estadstica apropiada en que se basa el criterio de decisin para un experimento con k celdas la define el siguiente

TEOREMA: La prueba de bondad de ajuste entre las frecuencias observadas (( i) y las frecuencias esperadas (e i) se basa en la cantidad

(

donde U es el valor de la variable aleatoria cuya distribucin muestal se aproxima a la distribucin chi cuadrada; cuando el nmero de celdas (k) es muy grande y r es el nmero de parmetros estimados en la prueba ( tambin se lo define como el nmero de cantidades que se obtengan de los datos observados que se necesitan para calcular las frecuencias esperadas ).

Si las frecuencias observadas estn cercanas a sus correspondientes frecuencias esperadas el valor de U ser pequeo, lo cual indica un buen ajuste.

Si las frecuencias observadas difieren considerablemente de las frecuencias esperadas, el valor de U ser grande y el ajuste ser pobre. Un buen ajuste lleva al no rechazo de la hiptesis nula (H0), mientras que un ajuste deficiente conduce a un rechazo. Por lo tanto, la regin crtica o de rechazo caer en el extremo derecho de la distribucin chi cuadrada.

Este criterio de decisin no debe usarse si las frecuencias observadas no son iguales a 5, por lo menos. En nuestro ejemplo, para usar la distribucin exponencial es necesario estimar (, la media de la variable aleatoria exponencial. Esto significa que r = 1. La funcin exponencial hipottica es:f (t) = 0.254 e 0.254 t t > 0

Para la celda i obtenemos la frecuencia esperada (terica) como:

= 60

Tabla 3: Tabla de distribucin de frecuencias

Intervalo

[ )Frecuencias

Observadas ( ( i )Frecuencias

Esperadas ( e i )

0 1 11 13.470.453

1 2 8 10.440.570

2 3 9 8.100.100

3 4 7 6.280.083

4 5 6 4.87

5 6 5 3.88

6 7 4 2.93

7 8 2 2.27

8 9 3 25 1.76 21.710.499

9 10 3 1.37

10 11 1 1.06

11 12 1 0.82

12 0 2.75

Totales n = 60 n = 60U = 1.705

No debemos olvidar que el criterio de decisin de sta prueba no debe usarse si las frecuencias observadas en cualquier intervalo no son, por lo menos, iguales a 5. Esto se logra combinando intervalos sucesivos hasta que la regla se satisfaga. Entonces, el nmero efectivo de celdas es k = 5 y como estimamos un solo parmetro, los grados de libertad de la son k r 1 = 5 1 1 = 3. Si suponemos ( = 0.05, el valor critico se obtiene de tabla

Puesto que el valor de la prueba es U = 1.705 y siendo

R. de R.: U > / = (Decidimos aceptar la hiptesis de que la muestra se obtuvo de una distribucin exponencial hipottica, ya que 1.705 < 7.81, el valor de U cae en la regin de aceptacin. Esto quiere decir que podemos usar la distribucin.f (t) = 0.254 e 0.254 t t > 0

b) Pruebas de Bondad de Ajuste para Distribuciones Discretas Tabuladas

Ejemplo: El nmero de camiones petroleros que llegan a una refinera por da, ha sido registrado durante 1000 das. Los resultados se muestran en la siguiente tabla:

N de camiones por da 0 1 2 3 4 5 6 7

(frecuencias observadas) ( i 372 360 191 57 16 2 1 1

Es razonable suponer que el nmero de camiones que lleguen a la refinera por da, en base a los datos, es una variable aleatoria discreta que sigue una distribucin de Poisson?. Suponer ( = 0.05

1) H 0: X ( P 0 (()

H 1: X P 0 (()

2) Estimamos el parmetro ( con , , donde k es el nmero de celdas (resultados posibles de un experimento), en nuestro caso k = 8.

Las frecuencias esperadas o tericas las hallamos de tabla, haciendo e i = n p i donde n es el tamao total de la muestra y p i = P (X = x i) es la probabilidad asociada a la distribucin que esta en juego.

e 0 = n P ( X = 0 ) = 1000 x 0.3679 ( 368

e 1 = n P ( X = 1 ) = 1000 x 0.3679 ( 368

e 2 = n P ( X = 2 ) = 1000 x 0.1839 ( 184

e 3 = n P ( X = 3 ) = 1000 x 0.0613 ( 61

e 4 = n P ( X = 4 ) = 1000 x 0.0153 ( 15

e 5 = n P ( X = 5 ) = 1000 x 0.0031 ( 3

e 6 = n P ( X = 6 ) = 1000 x 0.0005 ( 1

e 7 = n P ( X = 7 ) = 1000 x 0.0001 ( 0

N de camiones por da 0 1 2 3 4 5 6 7

(frecuencias observadas) ( i 372 360 191 57 16 2 1 1

(frecuencias esperadas) e i 368 368 184 61 15 3 1 0

Analizando los datos vemos que no varan las frecuencias observadas de las tericas, entonces aceptamos la suposicin de una distribucin de Poisson. La estadstica apropiada en que se basa el criterio de decisin para un experimento con k celdas la define el siguiente

3) R. de R.: U > / P (U > = ( constituye la regin crtica de rechazo.

Este criterio de decisin no debe usarse si las frecuencias esperadas no son iguales a 5, por lo menos. En nuestro ejemplo, combinamos las celdas cuyos valores son menores que 5 y obtenemos:

N de camiones por da 0 1 2 3 4

(frecuencias observadas) ( i372 360 191 57 20

(frecuencias esperadas) e i 368 368 184 61 19

EMBED Equation.3 = 1.535

= = = = 7.81

4) Conclusin: Como U < (1.535 < 7.81) entonces aceptamos la hiptesis nula, es decir el nmero de camiones que llegan por da a la refinera siguen una distribucin de Poisson

con una significancia del 5 %.c) Pruebas de Bondad de Ajuste para Distribuciones Continuas Tabuladas

Ejemplo: Los datos de la tabla representan la vida de cuarenta acumuladores para automviles redondeados en dcima de aos. Los acumuladores tienen una vida garantizada de tres aos.

Tabla 4

4.7

3.8

3.2

2.6

3.9

3.0

4.2

3.5

2.2

4.1

3.5

4.5

3.2

3.7

3.0

2.6

3.4

1.6

3.1

3.3

3.8

3.1

4.7

3.7

2.5

4.3

3.4

3.6

2.9

3.3

3.9

3.1

3.3

3.1

3.7

4.4

3.0

4.1

1.9

3.6

Tabla 5: Tabla de distribucin de frecuencias

Intervalo de

Clase [ )Punto

MedioFrecuencias Observadas (( i)Frecuencias Relativas ( f r )

1.45 1.951.720.025

1.95 2.452.211.025

2.45 2.952.740.100

1.95 3.453.2150.100

3.45 3.953.7100.375

3.95 4.454.250.250

4.45 4.954.730.125

401.000

Viendo el histograma podemos suponer que los datos siguen una distribucin normal. H 0: X ( N (, (2)

H 1: X N (, (2)

De los datos de la tabla 4, se obtienen = 3.4125 y s = 0.703. Estos valores se usarn para estimar a y a ( en el calculo de los valores de z correspondientes a los lmites de clase. Por ejemplo, el valor de z correspondiente a los lmites de la cuarta clase son:

Entonces el rea entre z 1 y z 2 es

Area = P (( 0.658 < Z < 0.053) = F N ( 0.053 ) F N (( 0.658 ) = 0.5211 0.2552 = 0.2659

Por lo tanto la frecuencia esperada para la cuarta clase es:

e 4 = n P = 40 x 0.2659 = 10.6

Cuando queremos hallar la frecuencia esperada para el primer intervalo de clase, la obtenemos usando el rea total bajo la curva normal hacia la izquierda del lmite 1.95, es decir P (X < 1.95) y para el ltimo intervalo de clase se emplea el rea total hacia la derecha del lmite inferior del intervalo, el cual es de 4.45, P (X > 4.45). Todas las otras frecuencias esperadas se determinan por el mtodo descrito para la cuarta clase. Entonces

Tabla 6: Tabla de distribucin de frecuencias

Intervalo de

Clase [ )Frecuencias

Observadas (( i)Frecuencias

Esperadas (e i)

1.45 1.9520.6

1.95 2.45 1 7 2.7 10.10.9515

2.45 2.9546.8

1.95 3.451510.61.8264

3.45 3.951010.30.0087

3.95 4.45 5 8 6.1 8.30.0108

4.45 4.9532.2

2.7974

H 0 : X ( N ( , (2 )H 1 : X N ( , (2 )

R. de R.: = (U = = 2.7974

= = =

Como el valor de la U es menor que (2.7974 < 3.841), no hay razn para rechazar la hiptesis nula y concluir que la distribucin normal

proporciona un buen ajuste para la distribucin de la vida de los acumuladores. EMBED Excel.Sheet.8

EMBED Excel.Sheet.8

(=0.05

X

f(x)

1-(

(c2

(=0.05

X

f(x)

1-(

(c2

(=0.05

X

f(x)

1-(

(c2

EMBED Equation.3

Prof. Mnica Ansin Antille

9 / 9

_1100973274.unknown

_1242206106.unknown

_1242206120.unknown

_1242206698.unknown

_1100980461.unknown

_1100980606.unknown

_1100982254.xlsGrfico1

0.05

0.025

0.1

0.375

0.25

0.125

0.075

Vida de los acumuladores (en aos)

Histograma de fracuencias relativas

Hoja1

[0;1)0.18330.18330.50.197025717710.1970257177

[1;2)0.13330.31661.50.15283123420.3498569517

[2;3)0.150.46662.50.118549935330.4684068871

[3;4)0.11670.58333.50.09195821340.5603651

[4;5)0.10.68334.50.071331231950.631696332

[5;6)0.08330.76665.50.055331051860.6870273838

[6;7)0.06670.83336.50.042919843370.7299472271

[7;8)0.03330.86667.50.033292570680.7632397977

[8;9)0.050.91668.50.025824774190.7890645718

[9;10)0.050.96669.50.0200320655100.8090966374

[10;11)0.01670.983310.50.015538709110.8246353464

[11;12)0.0167111.50.0120532492120.8366885956

0.50.1833

1.50.3166

2.50.4666

3.50.5833

4.50.6833

5.50.7666

6.50.8333

7.50.8666

8.50.9166

9.50.9666

10.50.9833

11.51

Hoja1

0

0

0

0

0

0

0

0

0

0

0

0

t en minutos

Frecuencia relativa

Hoja2

0

0

0

0

0

0

0

0

0

0

0

0

t (minutos)

Frecuencia acumulada

Hoja3

0

0

0

0

0

0

0

0

0

0

0

0

t (minutos)

Frecuencia acumulada

00

00

00

00

00

00

00

00

00

00

00

00

Distribucion exponencial acumulada

Distribucion empirica acumulada

0.05

0.025

0.1

0.375

0.25

0.125

0.075

Vida de los acumuladores (en aos)

Histograma de fracuencias relativas

4.71.70.05

3.82.20.025

3.22.70.1

2.63.20.375

3.93.70.25

34.20.125

4.24.70.075

3.5

2.2

4.1

3.5

4.5

3.2

3.7

3

2.6

3.4

1.6

3.1

3.3

3.8

3.1

4.7

3.7

2.5

4.3

3.4

3.6

2.9

3.3

3.9

3.1

3.3

3.1

3.7

4.4

3

1.1

1.9

3.6

0.05

0.025

0.1

0.375

0.25

0.125

0.075

Vida de los acumuladores (en aos)

Histograma de fracuencias relativas

4.71

3.8

3.2

2.6

3.9

3

4.2

3.5

2.2

4.1

3.5

4.5

3.2

3.7

3

2.6

3.4

1.6

3.1

3.3

3.8

3.1

4.7

3.7

2.5

4.3

3.4

3.6

2.9

3.3

3.9

3.1

3.3

3.1

3.7

4.4

3

1.1

1.9

3.6

_1242205787.unknown

_1242205772.unknown

_1100980719.unknown

_1100980870.unknown

_1100980551.unknown

_1100980568.unknown

_1100980478.unknown

_1100977224.unknown

_1100977367.unknown

_1100977023.unknown

_1100695756.unknown

_1100767833.unknown

_1100773116.unknown

_1100773923.unknown

_1100963060.xlsGrfico7

0.19702571770.1833

0.34985695170.3166

0.46840688710.4666

0.56036510.5833

0.6316963320.6833

0.68702738380.7666

0.72994722710.8333

0.76323979770.8666

0.78906457180.9166

0.80909663740.9666

0.82463534640.9833

0.83668859561

Distribucion exponencial acumulada

Distribucion empirica acumulada

Hoja1

[0;1)0.18330.18330.50.197025717710.1970257177

[1;2)0.13330.31661.50.15283123420.3498569517

[2;3)0.150.46662.50.118549935330.4684068871

[3;4)0.11670.58333.50.09195821340.5603651

[4;5)0.10.68334.50.071331231950.631696332

[5;6)0.08330.76665.50.055331051860.6870273838

[6;7)0.06670.83336.50.042919843370.7299472271

[7;8)0.03330.86667.50.033292570680.7632397977

[8;9)0.050.91668.50.025824774190.7890645718

[9;10)0.050.96669.50.0200320655100.8090966374

[10;11)0.01670.983310.50.015538709110.8246353464

[11;12)0.0167111.50.0120532492120.8366885956

0.50.1833

1.50.3166

2.50.4666

3.50.5833

4.50.6833

5.50.7666

6.50.8333

7.50.8666

8.50.9166

9.50.9666

10.50.9833

11.51

Hoja1

Frecuencia relativa

Hoja2

t (minutos)

Frecuencia acumulada

Hoja3

t (minutos)

Frecuencia acumulada

Distribucion exponencial acumulada

Distribucion empirica acumulada

0.05

0.025

0.1

0.375

0.25

0.125

0.075

Vida de los acumuladores (en aos)

Histograma de fracuencias relativas

4.71.70.05

3.82.20.025

3.22.70.1

2.63.20.375

3.93.70.25

34.20.125

4.24.70.075

3.5

2.2

4.1

3.5

4.5

3.2

3.7

3

2.6

3.4

1.6

3.1

3.3

3.8

3.1

4.7

3.7

2.5

4.3

3.4

3.6

2.9

3.3

3.9

3.1

3.3

3.1

3.7

4.4

3

1.1

1.9

3.6

0.05

0.025

0.1

0.375

0.25

0.125

0.075

Vida de los acumuladores (en aos)

Histograma de fracuencias relativas

4.71

3.8

3.2

2.6

3.9

3

4.2

3.5

2.2

4.1

3.5

4.5

3.2

3.7

3

2.6

3.4

1.6

3.1

3.3

3.8

3.1

4.7

3.7

2.5

4.3

3.4

3.6

2.9

3.3

3.9

3.1

3.3

3.1

3.7

4.4

3

1.1

1.9

3.6

_1100962337.xlsGrfico4

0.1833

0.1333

0.15

0.1167

0.1

0.0833

0.0667

0.0333

0.05

0.05

0.0167

0.0167

Frecuencia relativa

Hoja1

[0;1)0.18330.18330.50.197025717710.1970257177

[1;2)0.13330.31661.50.15283123420.3498569517

[2;3)0.150.46662.50.118549935330.4684068871

[3;4)0.11670.58333.50.09195821340.5603651

[4;5)0.10.68334.50.071331231950.631696332

[5;6)0.08330.76665.50.055331051860.6870273838

[6;7)0.06670.83336.50.042919843370.7299472271

[7;8)0.03330.86667.50.033292570680.7632397977

[8;9)0.050.91668.50.025824774190.7890645718

[9;10)0.050.96669.50.0200320655100.8090966374

[10;11)0.01670.983310.50.015538709110.8246353464

[11;12)0.0167111.50.0120532492120.8366885956

0.50.1833

1.50.3166

2.50.4666

3.50.5833

4.50.6833

5.50.7666

6.50.8333

7.50.8666

8.50.9166

9.50.9666

10.50.9833

11.51

Hoja1

Frecuencia relativa

Hoja2

t (minutos)

Frecuencia acumulada

Hoja3

t (minutos)

Frecuencia acumulada

Distribucion exponencial acumulada

Distribucion empirica acumulada

0.05

0.025

0.1

0.375

0.25

0.125

0.075

Vida de los acumuladores (en aos)

Histograma de fracuencias relativas

4.71.70.05

3.82.20.025

3.22.70.1

2.63.20.375

3.93.70.25

34.20.125

4.24.70.075

3.5

2.2

4.1

3.5

4.5

3.2

3.7

3

2.6

3.4

1.6

3.1

3.3

3.8

3.1

4.7

3.7

2.5

4.3

3.4

3.6

2.9

3.3

3.9

3.1

3.3

3.1

3.7

4.4

3

1.1

1.9

3.6

0.05

0.025

0.1

0.375

0.25

0.125

0.075

Vida de los acumuladores (en aos)

Histograma de fracuencias relativas

4.71

3.8

3.2

2.6

3.9

3

4.2

3.5

2.2

4.1

3.5

4.5

3.2

3.7

3

2.6

3.4

1.6

3.1

3.3

3.8

3.1

4.7

3.7

2.5

4.3

3.4

3.6

2.9

3.3

3.9

3.1

3.3

3.1

3.7

4.4

3

1.1

1.9

3.6

_1100773162.unknown

_1100772977.unknown

_1100698151.unknown

_1100766126.unknown

_1100698030.unknown

_1100695811.unknown

_1100689487.unknown

_1100692995.unknown

_1100695569.unknown

_1100692888.unknown

_1100689581.unknown

_1100689606.unknown

_1100689828.unknown

_1100689528.unknown

_1100680349.unknown

_1100686536.unknown

_1100688552.unknown

_1100689357.unknown

_1100688403.unknown

_1100680507.unknown

_1100680276.unknown