bondad de ajuste
DESCRIPTION
estadística para ingenieríaTRANSCRIPT
Prueba de Bondad de Ajuste
Prueba de Bondad de AjusteEn este captulo nos hemos ocupado de la prueba de hiptesis estadsticas acerca de parmetros individuales de la poblacin, tales como , ( 2 y p. Ahora estudiaremos una prueba para determinar si una variable sigue una distribucin especfica. La prueba se basa en el grado de ajuste que hay entre la frecuencia de ocurrencia de las observaciones de una muestra observada y las frecuencias esperadas que se obtienen de una distribucin hipottica.
La idea de comparar las distribuciones tericas y empricas es la base de la prueba de Kolmogrov Smirnov (K-S). Son pruebas no paramtricas que se utilizan para diferencias entre distribuciones acumuladas. La prueba unimuestral se refiere a la concordancia entre una distribucin acumulada continua con una determinada distribucin terica, es pues, una prueba de bondad de ajuste. La prueba bimuestral sta relacionada con la conformidad entre dos distribuciones observadas, donde se prueba la hiptesis de que dos muestras independientes provienen de distribuciones continuas idnticas y es sensible a diferencias de la poblacin con respecto a la localizacin, dispersin o sesgo.
La prueba de Bondad de Ajuste o prueba chi- cuadrada, se aplica a variables aleatorias tanto discretas como continas. Se basa en comparar funciones de densidad de probabilidad, en vez de las funciones de densidad acumuladas, como en la prueba K-S.
a) Prueba de Bondad de Ajuste para Distribuciones Continuas No Tabuladas
Ejemplo: Consideremos el conjunto de datos en la siguiente tabla, que representan los tiempos de servicio (en minutos) para una muestra de 60 clientes. Se quiere probar si los datos se han sacado de una distribucin exponencial.
Tabla 1
0.70.43.44.82.01.05.56.21.24.4
1.52.43.46.43.74.82.55.50.38.7
2.70.42.22.40.51.79.38.04.75.9
9.61.65.20.60.93.93.30.20.24.9
0.71.99.11.310.63.00.32.92.94.8
8.72.47.21.57.911.76.33.86.95.3
Una manera rpida de verificar si un conjunto de datos se ajusta a una distribucin terica dada es comparar, grficamente, la distribucin emprica acumulada con la correspondiente funcin de densidad acumulada de la distribucin terica propuesta. Si las dos funciones no muestran una desviacin excesiva, existe la probabilidad de que la distribucin terica se ajuste a los datos.
Entonces, el primer paso en el procedimiento chi-cuadrada es elaborar un histograma de frecuencia. Esto nos permite decidir visualmente cul de las funciones tericas de densidad se ajusta mejor a los datos del histograma.
Tabla 2: Tabla de distribucin de frecuencias
Intervalo
[ )Conteo de las
observacionesFrecuencias
Observadas
(( i)Frecuencias
Relativas
(f i)Frecuencias
Relativas Acumuladas (Fi)
0 - 1
EMBED Equation.3 /110.18330.1833
1 - 2///80.13330.3166
2 - 3////90.15000.4666
3 - 4//70.11670.5833
4 - 5/60.10000.6833
5 - 6
50.08330.7866
6 - 7////40.06670.8333
7 - 8//20.03330.8666
8 - 9///30.05000.9166
9 - 10///30.05000.9666
10 - 11/10.01670.9833
11 - 12/1 0.0167 1.0000
601.0000
Comparando la distribucin emprica con la F(t) (funcin acumulada), est sugiere que la distribucin exponencial podra dar un ajuste razonable. Tambin si observamos el histograma, este parece corresponder a una funcin de densidad exponencial. 1) H0: X ( Exp (()
H1: X Exp (()
2) Estimamos al parmetro ( con la inversa de la media aritmtica (estimador de mxima verosimilitud) .
De los valores de la tabla 1, calculamos la = 3.937 minutos, por lo tanto = 0.254 minutos, entonces
f (t) = 0.254 e 0.254 t t > 0
y
F (T) = 1 - e 0.254 T T > 0
La prueba de Bondad de Ajuste se basa en la medicin de la cantidad de desviacin entre las funciones de densidad emprica y terica. Para lograr esto, supongamos que [ I i 1 , I i ] representa las fronteras del intervalo i , y supongamos que f (t) es la funcin de densidad hipottica.
Dada una muestra de tamao n, la frecuencias terica o esperada asociada al intervalo i, se calcula como
i = 1, 2, . . . , k
donde k es el nmero de celdas ( de intervalos ) usados en la f (t) emprica.
La estadstica apropiada en que se basa el criterio de decisin para un experimento con k celdas la define el siguiente
TEOREMA: La prueba de bondad de ajuste entre las frecuencias observadas (( i) y las frecuencias esperadas (e i) se basa en la cantidad
(
donde U es el valor de la variable aleatoria cuya distribucin muestal se aproxima a la distribucin chi cuadrada; cuando el nmero de celdas (k) es muy grande y r es el nmero de parmetros estimados en la prueba ( tambin se lo define como el nmero de cantidades que se obtengan de los datos observados que se necesitan para calcular las frecuencias esperadas ).
Si las frecuencias observadas estn cercanas a sus correspondientes frecuencias esperadas el valor de U ser pequeo, lo cual indica un buen ajuste.
Si las frecuencias observadas difieren considerablemente de las frecuencias esperadas, el valor de U ser grande y el ajuste ser pobre. Un buen ajuste lleva al no rechazo de la hiptesis nula (H0), mientras que un ajuste deficiente conduce a un rechazo. Por lo tanto, la regin crtica o de rechazo caer en el extremo derecho de la distribucin chi cuadrada.
Este criterio de decisin no debe usarse si las frecuencias observadas no son iguales a 5, por lo menos. En nuestro ejemplo, para usar la distribucin exponencial es necesario estimar (, la media de la variable aleatoria exponencial. Esto significa que r = 1. La funcin exponencial hipottica es:f (t) = 0.254 e 0.254 t t > 0
Para la celda i obtenemos la frecuencia esperada (terica) como:
= 60
Tabla 3: Tabla de distribucin de frecuencias
Intervalo
[ )Frecuencias
Observadas ( ( i )Frecuencias
Esperadas ( e i )
0 1 11 13.470.453
1 2 8 10.440.570
2 3 9 8.100.100
3 4 7 6.280.083
4 5 6 4.87
5 6 5 3.88
6 7 4 2.93
7 8 2 2.27
8 9 3 25 1.76 21.710.499
9 10 3 1.37
10 11 1 1.06
11 12 1 0.82
12 0 2.75
Totales n = 60 n = 60U = 1.705
No debemos olvidar que el criterio de decisin de sta prueba no debe usarse si las frecuencias observadas en cualquier intervalo no son, por lo menos, iguales a 5. Esto se logra combinando intervalos sucesivos hasta que la regla se satisfaga. Entonces, el nmero efectivo de celdas es k = 5 y como estimamos un solo parmetro, los grados de libertad de la son k r 1 = 5 1 1 = 3. Si suponemos ( = 0.05, el valor critico se obtiene de tabla
Puesto que el valor de la prueba es U = 1.705 y siendo
R. de R.: U > / = (Decidimos aceptar la hiptesis de que la muestra se obtuvo de una distribucin exponencial hipottica, ya que 1.705 < 7.81, el valor de U cae en la regin de aceptacin. Esto quiere decir que podemos usar la distribucin.f (t) = 0.254 e 0.254 t t > 0
b) Pruebas de Bondad de Ajuste para Distribuciones Discretas Tabuladas
Ejemplo: El nmero de camiones petroleros que llegan a una refinera por da, ha sido registrado durante 1000 das. Los resultados se muestran en la siguiente tabla:
N de camiones por da 0 1 2 3 4 5 6 7
(frecuencias observadas) ( i 372 360 191 57 16 2 1 1
Es razonable suponer que el nmero de camiones que lleguen a la refinera por da, en base a los datos, es una variable aleatoria discreta que sigue una distribucin de Poisson?. Suponer ( = 0.05
1) H 0: X ( P 0 (()
H 1: X P 0 (()
2) Estimamos el parmetro ( con , , donde k es el nmero de celdas (resultados posibles de un experimento), en nuestro caso k = 8.
Las frecuencias esperadas o tericas las hallamos de tabla, haciendo e i = n p i donde n es el tamao total de la muestra y p i = P (X = x i) es la probabilidad asociada a la distribucin que esta en juego.
e 0 = n P ( X = 0 ) = 1000 x 0.3679 ( 368
e 1 = n P ( X = 1 ) = 1000 x 0.3679 ( 368
e 2 = n P ( X = 2 ) = 1000 x 0.1839 ( 184
e 3 = n P ( X = 3 ) = 1000 x 0.0613 ( 61
e 4 = n P ( X = 4 ) = 1000 x 0.0153 ( 15
e 5 = n P ( X = 5 ) = 1000 x 0.0031 ( 3
e 6 = n P ( X = 6 ) = 1000 x 0.0005 ( 1
e 7 = n P ( X = 7 ) = 1000 x 0.0001 ( 0
N de camiones por da 0 1 2 3 4 5 6 7
(frecuencias observadas) ( i 372 360 191 57 16 2 1 1
(frecuencias esperadas) e i 368 368 184 61 15 3 1 0
Analizando los datos vemos que no varan las frecuencias observadas de las tericas, entonces aceptamos la suposicin de una distribucin de Poisson. La estadstica apropiada en que se basa el criterio de decisin para un experimento con k celdas la define el siguiente
3) R. de R.: U > / P (U > = ( constituye la regin crtica de rechazo.
Este criterio de decisin no debe usarse si las frecuencias esperadas no son iguales a 5, por lo menos. En nuestro ejemplo, combinamos las celdas cuyos valores son menores que 5 y obtenemos:
N de camiones por da 0 1 2 3 4
(frecuencias observadas) ( i372 360 191 57 20
(frecuencias esperadas) e i 368 368 184 61 19
EMBED Equation.3 = 1.535
= = = = 7.81
4) Conclusin: Como U < (1.535 < 7.81) entonces aceptamos la hiptesis nula, es decir el nmero de camiones que llegan por da a la refinera siguen una distribucin de Poisson
con una significancia del 5 %.c) Pruebas de Bondad de Ajuste para Distribuciones Continuas Tabuladas
Ejemplo: Los datos de la tabla representan la vida de cuarenta acumuladores para automviles redondeados en dcima de aos. Los acumuladores tienen una vida garantizada de tres aos.
Tabla 4
4.7
3.8
3.2
2.6
3.9
3.0
4.2
3.5
2.2
4.1
3.5
4.5
3.2
3.7
3.0
2.6
3.4
1.6
3.1
3.3
3.8
3.1
4.7
3.7
2.5
4.3
3.4
3.6
2.9
3.3
3.9
3.1
3.3
3.1
3.7
4.4
3.0
4.1
1.9
3.6
Tabla 5: Tabla de distribucin de frecuencias
Intervalo de
Clase [ )Punto
MedioFrecuencias Observadas (( i)Frecuencias Relativas ( f r )
1.45 1.951.720.025
1.95 2.452.211.025
2.45 2.952.740.100
1.95 3.453.2150.100
3.45 3.953.7100.375
3.95 4.454.250.250
4.45 4.954.730.125
401.000
Viendo el histograma podemos suponer que los datos siguen una distribucin normal. H 0: X ( N (, (2)
H 1: X N (, (2)
De los datos de la tabla 4, se obtienen = 3.4125 y s = 0.703. Estos valores se usarn para estimar a y a ( en el calculo de los valores de z correspondientes a los lmites de clase. Por ejemplo, el valor de z correspondiente a los lmites de la cuarta clase son:
Entonces el rea entre z 1 y z 2 es
Area = P (( 0.658 < Z < 0.053) = F N ( 0.053 ) F N (( 0.658 ) = 0.5211 0.2552 = 0.2659
Por lo tanto la frecuencia esperada para la cuarta clase es:
e 4 = n P = 40 x 0.2659 = 10.6
Cuando queremos hallar la frecuencia esperada para el primer intervalo de clase, la obtenemos usando el rea total bajo la curva normal hacia la izquierda del lmite 1.95, es decir P (X < 1.95) y para el ltimo intervalo de clase se emplea el rea total hacia la derecha del lmite inferior del intervalo, el cual es de 4.45, P (X > 4.45). Todas las otras frecuencias esperadas se determinan por el mtodo descrito para la cuarta clase. Entonces
Tabla 6: Tabla de distribucin de frecuencias
Intervalo de
Clase [ )Frecuencias
Observadas (( i)Frecuencias
Esperadas (e i)
1.45 1.9520.6
1.95 2.45 1 7 2.7 10.10.9515
2.45 2.9546.8
1.95 3.451510.61.8264
3.45 3.951010.30.0087
3.95 4.45 5 8 6.1 8.30.0108
4.45 4.9532.2
2.7974
H 0 : X ( N ( , (2 )H 1 : X N ( , (2 )
R. de R.: = (U = = 2.7974
= = =
Como el valor de la U es menor que (2.7974 < 3.841), no hay razn para rechazar la hiptesis nula y concluir que la distribucin normal
proporciona un buen ajuste para la distribucin de la vida de los acumuladores. EMBED Excel.Sheet.8
EMBED Excel.Sheet.8
(=0.05
X
f(x)
1-(
(c2
(=0.05
X
f(x)
1-(
(c2
(=0.05
X
f(x)
1-(
(c2
EMBED Equation.3
Prof. Mnica Ansin Antille
9 / 9
_1100973274.unknown
_1242206106.unknown
_1242206120.unknown
_1242206698.unknown
_1100980461.unknown
_1100980606.unknown
_1100982254.xlsGrfico1
0.05
0.025
0.1
0.375
0.25
0.125
0.075
Vida de los acumuladores (en aos)
Histograma de fracuencias relativas
Hoja1
[0;1)0.18330.18330.50.197025717710.1970257177
[1;2)0.13330.31661.50.15283123420.3498569517
[2;3)0.150.46662.50.118549935330.4684068871
[3;4)0.11670.58333.50.09195821340.5603651
[4;5)0.10.68334.50.071331231950.631696332
[5;6)0.08330.76665.50.055331051860.6870273838
[6;7)0.06670.83336.50.042919843370.7299472271
[7;8)0.03330.86667.50.033292570680.7632397977
[8;9)0.050.91668.50.025824774190.7890645718
[9;10)0.050.96669.50.0200320655100.8090966374
[10;11)0.01670.983310.50.015538709110.8246353464
[11;12)0.0167111.50.0120532492120.8366885956
0.50.1833
1.50.3166
2.50.4666
3.50.5833
4.50.6833
5.50.7666
6.50.8333
7.50.8666
8.50.9166
9.50.9666
10.50.9833
11.51
Hoja1
0
0
0
0
0
0
0
0
0
0
0
0
t en minutos
Frecuencia relativa
Hoja2
0
0
0
0
0
0
0
0
0
0
0
0
t (minutos)
Frecuencia acumulada
Hoja3
0
0
0
0
0
0
0
0
0
0
0
0
t (minutos)
Frecuencia acumulada
00
00
00
00
00
00
00
00
00
00
00
00
Distribucion exponencial acumulada
Distribucion empirica acumulada
0.05
0.025
0.1
0.375
0.25
0.125
0.075
Vida de los acumuladores (en aos)
Histograma de fracuencias relativas
4.71.70.05
3.82.20.025
3.22.70.1
2.63.20.375
3.93.70.25
34.20.125
4.24.70.075
3.5
2.2
4.1
3.5
4.5
3.2
3.7
3
2.6
3.4
1.6
3.1
3.3
3.8
3.1
4.7
3.7
2.5
4.3
3.4
3.6
2.9
3.3
3.9
3.1
3.3
3.1
3.7
4.4
3
1.1
1.9
3.6
0.05
0.025
0.1
0.375
0.25
0.125
0.075
Vida de los acumuladores (en aos)
Histograma de fracuencias relativas
4.71
3.8
3.2
2.6
3.9
3
4.2
3.5
2.2
4.1
3.5
4.5
3.2
3.7
3
2.6
3.4
1.6
3.1
3.3
3.8
3.1
4.7
3.7
2.5
4.3
3.4
3.6
2.9
3.3
3.9
3.1
3.3
3.1
3.7
4.4
3
1.1
1.9
3.6
_1242205787.unknown
_1242205772.unknown
_1100980719.unknown
_1100980870.unknown
_1100980551.unknown
_1100980568.unknown
_1100980478.unknown
_1100977224.unknown
_1100977367.unknown
_1100977023.unknown
_1100695756.unknown
_1100767833.unknown
_1100773116.unknown
_1100773923.unknown
_1100963060.xlsGrfico7
0.19702571770.1833
0.34985695170.3166
0.46840688710.4666
0.56036510.5833
0.6316963320.6833
0.68702738380.7666
0.72994722710.8333
0.76323979770.8666
0.78906457180.9166
0.80909663740.9666
0.82463534640.9833
0.83668859561
Distribucion exponencial acumulada
Distribucion empirica acumulada
Hoja1
[0;1)0.18330.18330.50.197025717710.1970257177
[1;2)0.13330.31661.50.15283123420.3498569517
[2;3)0.150.46662.50.118549935330.4684068871
[3;4)0.11670.58333.50.09195821340.5603651
[4;5)0.10.68334.50.071331231950.631696332
[5;6)0.08330.76665.50.055331051860.6870273838
[6;7)0.06670.83336.50.042919843370.7299472271
[7;8)0.03330.86667.50.033292570680.7632397977
[8;9)0.050.91668.50.025824774190.7890645718
[9;10)0.050.96669.50.0200320655100.8090966374
[10;11)0.01670.983310.50.015538709110.8246353464
[11;12)0.0167111.50.0120532492120.8366885956
0.50.1833
1.50.3166
2.50.4666
3.50.5833
4.50.6833
5.50.7666
6.50.8333
7.50.8666
8.50.9166
9.50.9666
10.50.9833
11.51
Hoja1
Frecuencia relativa
Hoja2
t (minutos)
Frecuencia acumulada
Hoja3
t (minutos)
Frecuencia acumulada
Distribucion exponencial acumulada
Distribucion empirica acumulada
0.05
0.025
0.1
0.375
0.25
0.125
0.075
Vida de los acumuladores (en aos)
Histograma de fracuencias relativas
4.71.70.05
3.82.20.025
3.22.70.1
2.63.20.375
3.93.70.25
34.20.125
4.24.70.075
3.5
2.2
4.1
3.5
4.5
3.2
3.7
3
2.6
3.4
1.6
3.1
3.3
3.8
3.1
4.7
3.7
2.5
4.3
3.4
3.6
2.9
3.3
3.9
3.1
3.3
3.1
3.7
4.4
3
1.1
1.9
3.6
0.05
0.025
0.1
0.375
0.25
0.125
0.075
Vida de los acumuladores (en aos)
Histograma de fracuencias relativas
4.71
3.8
3.2
2.6
3.9
3
4.2
3.5
2.2
4.1
3.5
4.5
3.2
3.7
3
2.6
3.4
1.6
3.1
3.3
3.8
3.1
4.7
3.7
2.5
4.3
3.4
3.6
2.9
3.3
3.9
3.1
3.3
3.1
3.7
4.4
3
1.1
1.9
3.6
_1100962337.xlsGrfico4
0.1833
0.1333
0.15
0.1167
0.1
0.0833
0.0667
0.0333
0.05
0.05
0.0167
0.0167
Frecuencia relativa
Hoja1
[0;1)0.18330.18330.50.197025717710.1970257177
[1;2)0.13330.31661.50.15283123420.3498569517
[2;3)0.150.46662.50.118549935330.4684068871
[3;4)0.11670.58333.50.09195821340.5603651
[4;5)0.10.68334.50.071331231950.631696332
[5;6)0.08330.76665.50.055331051860.6870273838
[6;7)0.06670.83336.50.042919843370.7299472271
[7;8)0.03330.86667.50.033292570680.7632397977
[8;9)0.050.91668.50.025824774190.7890645718
[9;10)0.050.96669.50.0200320655100.8090966374
[10;11)0.01670.983310.50.015538709110.8246353464
[11;12)0.0167111.50.0120532492120.8366885956
0.50.1833
1.50.3166
2.50.4666
3.50.5833
4.50.6833
5.50.7666
6.50.8333
7.50.8666
8.50.9166
9.50.9666
10.50.9833
11.51
Hoja1
Frecuencia relativa
Hoja2
t (minutos)
Frecuencia acumulada
Hoja3
t (minutos)
Frecuencia acumulada
Distribucion exponencial acumulada
Distribucion empirica acumulada
0.05
0.025
0.1
0.375
0.25
0.125
0.075
Vida de los acumuladores (en aos)
Histograma de fracuencias relativas
4.71.70.05
3.82.20.025
3.22.70.1
2.63.20.375
3.93.70.25
34.20.125
4.24.70.075
3.5
2.2
4.1
3.5
4.5
3.2
3.7
3
2.6
3.4
1.6
3.1
3.3
3.8
3.1
4.7
3.7
2.5
4.3
3.4
3.6
2.9
3.3
3.9
3.1
3.3
3.1
3.7
4.4
3
1.1
1.9
3.6
0.05
0.025
0.1
0.375
0.25
0.125
0.075
Vida de los acumuladores (en aos)
Histograma de fracuencias relativas
4.71
3.8
3.2
2.6
3.9
3
4.2
3.5
2.2
4.1
3.5
4.5
3.2
3.7
3
2.6
3.4
1.6
3.1
3.3
3.8
3.1
4.7
3.7
2.5
4.3
3.4
3.6
2.9
3.3
3.9
3.1
3.3
3.1
3.7
4.4
3
1.1
1.9
3.6
_1100773162.unknown
_1100772977.unknown
_1100698151.unknown
_1100766126.unknown
_1100698030.unknown
_1100695811.unknown
_1100689487.unknown
_1100692995.unknown
_1100695569.unknown
_1100692888.unknown
_1100689581.unknown
_1100689606.unknown
_1100689828.unknown
_1100689528.unknown
_1100680349.unknown
_1100686536.unknown
_1100688552.unknown
_1100689357.unknown
_1100688403.unknown
_1100680507.unknown
_1100680276.unknown