ajustando distribución (datos censurados)

17
STATGRAPHICS – Rev. 9/14/2006 © 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 1 Ajustando Distribución (Datos Censurados) Resumen El procedimiento Ajustando Distribución (Datos Censurados) ajusta cualquiera de las 45 distribuciones de probabilidad a una columna numérica de datos censurados. La censura ocurre cuando alguno de los valores de los datos no son conocidos exactamente. Por ejemplo, cuando medimos tiempos de falla, algunos artículos bajo estudio pueden no haber fallado cuando termino el estudio, resultando en una cota inferior para el tiempo de falla para estos artículos. Ejemplo StatFolio: distfit censored.sgp Datos del Ejemplo: El archivo absorbers.sf3 contiene n = 38 observaciones identificando el numero de kilómetros de uso para una muestra de amortiguadores de choque del vehículo, tomadas de Meeker y Escobar (1998). Cuando se inspecciono, algunos de los amortiguadores de choque del vehículo habían fallado mientras que otros no. La siguiente tabla muestra una lista parcial de los datos de este archivo: Distance (Distancia) Censores (Censurado) 6700 0 6950 1 7820 1 8790 1 9120 0 9660 1 9820 1 11310 1 11690 1 11850 1 11880 1 12140 1 El archivo contiene 11 observaciones que corresponden a amortiguadores de choque que han fallado. Los datos de estos amortiguadores son tiempos de falla. El archivo también contiene 27 amortiguadores que no hay fallado. Estos datos representan información censurada por la derecha en los tiempos de falla de estos amortiguadores, ya que la verdadera distancia de falla es más grande que el número registrado. Cuando analizamos datos censurados, STATGRAPHICS requiere que crees una columna con un indicador de censura, definida por: 0 si el valor no ha sido censurado 1 si el valor es censurado por la derecha (el valor verdadero es más grande) -1 si el valor es censurado por la izquierda (el valor verdadero es más pequeño)

Upload: justorfc

Post on 10-Jun-2015

1.247 views

Category:

Documents


7 download

TRANSCRIPT

Page 1: Ajustando Distribución (Datos Censurados)

STATGRAPHICS – Rev. 9/14/2006

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 1

Ajustando Distribución (Datos Censurados) Resumen El procedimiento Ajustando Distribución (Datos Censurados) ajusta cualquiera de las 45 distribuciones de probabilidad a una columna numérica de datos censurados. La censura ocurre cuando alguno de los valores de los datos no son conocidos exactamente. Por ejemplo, cuando medimos tiempos de falla, algunos artículos bajo estudio pueden no haber fallado cuando termino el estudio, resultando en una cota inferior para el tiempo de falla para estos artículos. Ejemplo StatFolio: distfit censored.sgp Datos del Ejemplo: El archivo absorbers.sf3 contiene n = 38 observaciones identificando el numero de kilómetros de uso para una muestra de amortiguadores de choque del vehículo, tomadas de Meeker y Escobar (1998). Cuando se inspecciono, algunos de los amortiguadores de choque del vehículo habían fallado mientras que otros no. La siguiente tabla muestra una lista parcial de los datos de este archivo:

Distance (Distancia)

Censores (Censurado)

6700 0 6950 1 7820 1 8790 1 9120 0 9660 1 9820 1 11310 1 11690 1 11850 1 11880 1 12140 1

El archivo contiene 11 observaciones que corresponden a amortiguadores de choque que han fallado. Los datos de estos amortiguadores son tiempos de falla. El archivo también contiene 27 amortiguadores que no hay fallado. Estos datos representan información censurada por la derecha en los tiempos de falla de estos amortiguadores, ya que la verdadera distancia de falla es más grande que el número registrado. Cuando analizamos datos censurados, STATGRAPHICS requiere que crees una columna con un indicador de censura, definida por: 0 si el valor no ha sido censurado 1 si el valor es censurado por la derecha (el valor verdadero es más grande) -1 si el valor es censurado por la izquierda (el valor verdadero es más pequeño)

Page 2: Ajustando Distribución (Datos Censurados)

STATGRAPHICS – Rev. 9/14/2006

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 2

Entrada de Datos Los datos que serán analizados consisten de una columna numérica que contiene n observaciones y una segunda columna que contiene indicadores de censura.

• Datos: columna que contiene las n observaciones que serán ajustadas. El número de datos no

perdidos debe ser al menos tan grande como el número de parámetros que serán estimados. • Censura: columna que contiene los indicadores de censura. Esta columna debería contener

un 0 para cualquier renglón en el que el dato no sea censurado, un 1 si es censurado por la derecha y -1 si es censurado por la izquierda.

Resumen del Análisis El Resumen del Análisis muestra el número de observaciones, los rangos de los datos, y los valores de los parámetros estimados para cada distribución que es ajustada a los datos. Datos Censurados - Distance Datos/Variable: Distance Censura: Censored 38 valores con rango desde 6700.0 a 28100.0 Número de observaciones censuradas a la izquierda: 0 Número de observaciones censuradas a la derecha: 27 Distribuciones Ajustadas Normal Valor Extremo Inferior Weibull media = 24570.9 modo = 26896.4 forma = 3.16047 desviación estándar = 8356.32 escala = 5668.58 escala = 27718.7

Los parámetros desplegados dependen de la distribución seleccionada (ver la documentación del procedimiento Distribuciones de Probabilidad). Los estimadores son obtenidos usando

Page 3: Ajustando Distribución (Datos Censurados)

STATGRAPHICS – Rev. 9/14/2006

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 3

Estimación de Máxima Verosimilitud (EMV). Puedes ajustar entre1 y 5 distribuciones al mismo tiempo usando Opciones del Análisis.

En la tabla anterior, 3 distribuciones han sido ajustadas a n = 38 distancias. La distribución normal es definida por su media y desviación estándar. La distribución de valores extremos para mínimos es definida por su moda y el parámetro de escala. La distribución Weibull esta definida por un parámetro de forma y un parámetro de escala.

Opciones del Análisis

• Distribución: selecciona entre 1 y 5 distribuciones para ajustar los datos. Cada distribución

es descrita en detalle en la documentación de Distribuciones de Probabilidad. Para ayudar a determinar cual distribución ajusta, el panel Comparación de Distribuciones Alternas descrito abajo puede ser de gran ayuda. Las siguientes tablas pueden ser también de ayuda.

Distribuciones Discretas Distribución Rango de los Datos Uso común Bernoulli 0 o 1 Modelo para eventos con solo dos posibles

resultados. Binomial 0, 1, 2, …, m Numero de éxitos en m ensayos Bernoulli. Uniforme Discreta a, a+1, a+2, …, b Modelo para enteros con limites fijos Geométrica 0, 1, 2, … Numero de ensayos hasta el primer éxito

Bernoulli. Hipergeométrica 0, 1, 2, …, m Conteo cuando se muestrea de una población

finita. Binomial Negativa 0, 1, 2, … Numero de ensayos hasta el k-esimo éxito

Bernoulli. Poisson 0, 1, 2, … Numero de eventos en un intervalo fijo.

Page 4: Ajustando Distribución (Datos Censurados)

STATGRAPHICS – Rev. 9/14/2006

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 4

Distribuciones Continuas Distribución Rango de los Datos Uso común Beta 0 ≤ X ≤ 1 Distribución de una proporción aleatoria. Beta (4-parámetros) a ≤ X ≤ b Modelo para datos con umbrales superior e

inferior. Birnbaum-Saunders X > 0 Tempo de Fallas. Cauchy all real X Medidas que exhiben colas pesadas. Chi-Cuadrada X ≥ 0 Distribución de referencia para la varianza

muestral. Erlang X > 0 Tiempo entre k arribos en un proceso Poisson. Exponencial X > 0 Tiempo entre consecutivos eventos Poisson. Exponencial(2-parms)

X > a Tiempos de vida con umbral inferior fijo.

Exponencial power all real X Datos simétricos con kurtosis variable. F X ≥ 0 Razón de dos estimadores de varianzas

independientes. Folded Normal X ≥ 0 Valores absolutos de datos de una distribución

normal Gamma X ≥ 0 Modelo para medidas positivamente sesgada. Gamma (3-parámetros)

X ≥ a Datos positivamente sesgados con umbral inferior.

Gamma Generalizada

X > 0 Incluye varias distribuciones con casos especiales.

Logística Generalizada

All real x Usada para el análisis de valores extremos.

Normal Truncada X ≥ μ Datos normales doblados alrededor de su media. Gausiana Inversa X > 0 Primer paso de tiempo en el movimiento

Browniano. Laplace todos los reales X Datos con picos pronunciados y colas pesadas. Valores Extremos Máximos

todos los reales X Valores más grandes en una muestra.

Logistica todos los reales X Modelo de crecimiento; alternativa común a la normal.

Loglogistica X > 0 Logs de datos de una distribución logística. Loglogistica (3-parámetros)

X > a Logs de datos con umbral inferior fijo.

Lognormal X > 0 Datos positivamente sesgados. Lognormal (3-parámetros)

X > a Datos positivamente sesgados con umbral inferior.

Maxwell X > a Velocidad de una molécula en un gas ideal. Chi-cuadrada No central

X ≥ 0 Calculo de potencia de una prueba chi-cuadrada.

F No central X ≥ 0 Calculo de potencia de una prueba F. t No central todos los reales X Calculo de potencia de una prueba t Normal todos los reales X Datos con muchas fuentes de variabilidad. Pareto X ≥ 1 Cantidades socio-económicas con colas pesadas

en la derecha Pareto (2- X ≥ a Cantidades socio-económicas con umbral

Page 5: Ajustando Distribución (Datos Censurados)

STATGRAPHICS – Rev. 9/14/2006

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 5

parámetros) inferior. Rayleigh X > a Distancia entre objetos vecinos. Valores Extremos Mínimos

todos los reales X Valore más pequeños en una muestra.

t de Student todos los reales X Distribución de referencia para la media. Triangular a ≤ X ≤ b Modelo áspero en ausencia de datos. Uniforme a ≤ X ≤ b Datos con la misma probabilidad sobre un

intervalo. Weibull X ≥ 0 Tiempo de vida de productos. Weibull (3-parámetros)

X ≥ a Tiempo de vida de productos con umbral inferior.

• Ensayos Binomial – cuando se ajusta la distribución binomial, debes especificar el tamaño

de la muestra n. • Ensayos Hypergeométrica – cuando se ajusta la distribución hypergeométrica, puedes

especificar el tamaño de la muestra n. puedes especificar el parámetro tamaño de la población N o estimarlo de los datos.

• Ensayos Binomial Negativa– cuando se ajusta la distribución binomial negativa, puedes

especificar el parámetro k o estimarlo de los datos. • Parámetros del umbral extendidos– cuando se ajusta distribuciones que tienen uno o mas

parámetros umbrales, puedes especificar estos parámetros o estimarlos de los datos. Las distribuciones relevantes son:

Beta (4-parámetros) – inferior y superior Exponencial (2-parámetros) – inferior solamente Normal truncada (2-parámetros) – inferior solamente Gamma (3-parámetros) – inferior solamente loglogistica (3-parámetros) – inferior solamente lognormal (3-parámetros) – inferior solamente Maxwell (2-parámetros) – inferior solamente Pareto (2-parámetros) – inferior solamente Rayleigh (2-parámetros) – inferior solamente Weibull (2-parámetros) – inferior solamente

Page 6: Ajustando Distribución (Datos Censurados)

STATGRAPHICS – Rev. 9/14/2006

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 6

Prueba de Bondad-de-Ajuste El panel de Prueba de Bondad-de-Ajuste realiza hasta 7 diferentes pruebas para determinar si es razonable que los datos provengan de la distribución ajustada. Para todas las pruebas, las hipótesis de interés son:

• Hipótesis Nula: los datos son muestras independientes de la distribución especificada • Hipótesis Alternativa: los datos no son muestras independientes de la distribución

especificada La prueba que será corrida es seleccionada usando las Opciones del Panel.

Pruebas de Bondad-de-Ajuste para Distance Prueba de Kolmogorov-Smirnov Normal Valor Extremo Inferior Weibull DMAS 0.0760417 0.0818301 0.0901357 DMENOS 0.0903629 0.122783 0.087023 DN 0.0903629 0.122783 0.0901357 Valor-P 0.915578 0.615589 0.917047

Las prueba de bondad-de-ajuste es descrita con detalle en la documentación de Ajustando Distribución (Datos No Censurados). Para datos censurados, las pruebas son modificadas de forma que dependan de cómo los datos fueron censurados. Usando las Opciones del Panel, se puede seleccionar entre 3 tipos de censura: Aleatoria, Tipo I, o Tipo II, situadas en dicho panel. Modificaciones para las pruebas son descritas en las secciones de cálculos al final de este documento.

De acuerdo a la prueba desplegada en la tabla anterior, cualquiera de las 3 distribuciones ajusta bien los datos, ya que los P-valores son iguales o no exceden 0.10.

Page 7: Ajustando Distribución (Datos Censurados)

STATGRAPHICS – Rev. 9/14/2006

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 7

Opciones del Pane l

• Incluir: Seleccione una o mas pruebas a realizar. Para la prueba chi-cuadrada, selecciones

use clases equiprobables para agrupar los datos en clases con frecuencia esperadas iguales. . Si esta opción no es elegida las clases serán creadas del Histograma de Frecuencias.

• Calculo de los P-Valores en la distribución específica – Si es seleccionado, los Valores-P

serán basados en tablas o formulas específicamente desarrolladas para la distribución que es probada. De otra manera, los P-Valores serán basados en tablas o formulas generales que aplican a todas las distribuciones. La aproximación general es mas conservadora (no rechazar una distribución tan fácilmente) pero puede ser preferida cuando comparamos Valores-P entre distribuciones diferentes.

• Censura – Seleccione el tipo de censura. Los tipos son definidos:

Aleatoria – Indica que los datos han sido aleatoriamente censurados. La censura aleatoria ocurre cuando los valores son censurados por varias razones, no caen dentro de los mecanismos Tipo I o Tipo II. Tipo I - Indica que los datos son “censura por tiempo”, i.e., artículos han sido removidos de una prueba en un tiempo preespecificado. Si este tipo de censura es seleccionado, todos los valores censurados deben de ser igual o un mensaje de error será generado. Tipo II – Indica que la prueba fue detenida después de que ocurrió un número predeterminado de fallas. Si este tipo de censura es seleccionado, todos los valores censurados deben de ser igual o un mensaje de error será generado.

Page 8: Ajustando Distribución (Datos Censurados)

STATGRAPHICS – Rev. 9/14/2006

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 8

Histograma de Frecuencias El Histograma de Frecuencias muestra un histograma de los datos como un conjunto de barras verticales, junto con la densidad de probabilidad estimada o funciones de masa.

Histograma para Distance

0 0.5 1 1.5 2 2.5 3(X 10000.0)

Distance

0

2

4

6

8

frecu

enci

a

DistribuciónNormalValor Extremo Weibull

Si los datos contienen muchas observaciones censuradas, como en la grafica anterior, las distribuciones ajustadas pueden no parecer emparejar las barras. Opciones del Panel

• Numero de Clases: El numero de intervalos en los cuales los datos serán divididos. Los

intervalos son adyacentes y tienen igual anchura. El numero de intervalos en los cuales los datos serán divididos por defecto es fijado en la pestaña EDA de la caja de dialogo de Preferencias en el menú Editar.

• Limite Inferior: Limite inferior del primer intervalo.

Page 9: Ajustando Distribución (Datos Censurados)

STATGRAPHICS – Rev. 9/14/2006

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 9

• Limite Superior: Limite superior del primer intervalo. • Mantener: Mantiene el número de intervalos y limites iguales aunque la fuente de datos

cambie. Por defecto, el número de clases y los límites son recalculados cuando los datos cambian. Es necesario que todas las observaciones sean desplegadas por si algún dato actualizado cae más allá de los límites originales.

• Desplegar: La manera en la cual las frecuencias son desplegadas. Un Histograma escala las

barras de acuerdo al número de observaciones en cada clase. Un Rotograma escala las barras de acuerdo a la raíz cuadrada del número de observaciones. Un Rotograma Suspendido escala por la raíz cuadrada y suspende las barras de la curva. La idea de usar raíces cuadradas es para igualar la varianza de las desviaciones entre las barras y la curva, lo cual de otra forma incrementaría con una frecuencia creciente. La idea de suspender las barras de la curva es permitir una comparación visual sencilla con la línea horizontal graficada en 0, ya que la comparación visual con una línea curva puede ser engañosa.

Comparación de Distribuciones Alternas Este panel automáticamente muestra una colección de distribuciones diferentes y las despliega en orden de acuerdo a que tan bien ajustan los datos.

Comparación de Distribuciones Alternas Distribución Parámetros Est. Log Verosimilitud KS D Weibull 2 -404.991 0.0901357 Normal 2 -406.4 0.0903629 Logística 2 -408.408 0.103344 Laplace 2 -413.516 0.108477 Valor Extremo Inferior 2 -409.469 0.122783 Valor Extremo Superior 2 -405.653 0.128409 Gamma 2 -404.845 0.128419 Loglogística 2 -406.131 0.131113 Lognormal 2 -405.125 0.155015 Uniforme 2 -400.338 0.159942 Exponencial 1 -427.009 0.329046 Pareto 1 -510.249 0.448162

La tabla muestra:

• Distribución – El nombre de la distribución ajustada. Tú puedes seleccionar distribuciones adicionales usando las Opciones del Panel.

• Parámetros Est. – El numero de parámetros estimados para esta distribución. • Log Verosimilitud – El logaritmo natural de la función de verosimilitud. Valores

mas grandes tienden a indicar mejores ajustes de las distribuciones. • KS D, A^2, y otras estadísticas – Valores de varias estadísticas de bondad-de-ajuste,

seleccionadas usando el botón Pruebas en la caja de dialogo de las Opciones del Panel. Valores mas pequeños tienden a indicar mejores ajustes de las distribuciones.

Las distribuciones son ordenadas de mejor a peor de acuerdo a una de las columnas de bondad-de-ajuste. Esta columna es seleccionada usando el botón Pruebas en la caja de dialogo de las Opciones del Panel. La tabla anterior muestra las distribuciones ordenadas de acuerdo al valor de

Page 10: Ajustando Distribución (Datos Censurados)

STATGRAPHICS – Rev. 9/14/2006

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 10

la estadística Kolmogorov-Smirnov D. De acuerdo a esta estadística, la distribución de valores extremos para mínimos ajusta mejor

Opciones del Panel

• Distribución: Seleccione las distribuciones que ajustaran los datos. Las distribuciones

seleccionadas actualmente son transparentadas ya que ellas siempre estarán incluidas. • Más Común – Presionar este botón para seleccionar las distribuciones mas comúnmente

usadas (continuas). • Todas Discretas – Presionar este botón para seleccionar todas las distribuciones discretas. • Todas Continuas – Presionar este botón para seleccionar todas las distribuciones continuas. • Localización-Escala – Presionar este botón para seleccionar todas las distribuciones que son

parametrizadas por un parámetro de localización (como la media) y uno de escala (como la desviación estándar).

• Umbral - Presionar este botón para seleccionar todas las distribuciones que contienen un parámetro umbral inferior.

• Todas – Presionar este botón para seleccionar todas las distribuciones. • Limpiar – Presionar este botón para deseleccionar todas las distribuciones. • Pruebas – Presionar este botón para desplegar la caja de dialogo usada para especificar las

estadísticas deseadas de bondad-de-ajuste:

Page 11: Ajustando Distribución (Datos Censurados)

STATGRAPHICS – Rev. 9/14/2006

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 11

• Incluir – Las estadísticas de bondad-de-ajuste que serán incluidas en la tabla. La lista

incluye funciones de verosimilitud y varias estadísticas desplegadas en el panel Bondad-de-ajuste.

• Ordenar Por – Seleccione una de las estadísticas para ordenar las distribuciones de

mejor a peor.

Gráfico Cuantil El Gráfico Cuantil muestra la fracción de observaciones en o por debajo de X, junto con la función de distribución de acumulación de la distribución ajustada.

Gráfico Cuantil

0 0.5 1 1.5 2 2.5 3(X 10000.0)Distance

0

0.2

0.4

0.6

0.8

1

prob

abili

dad

acum

ulad

a

DistribuciónNormalValor Extremo InferiorWeibull

Para crear la grafica, los datos son ordenados del más pequeño al más grande y los valores no censurados son graficados en las coordenadas

( )( ))(,ˆii xpF (1)

Page 12: Ajustando Distribución (Datos Censurados)

STATGRAPHICS – Rev. 9/14/2006

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 12

donde pi son las probabilidades de Kaplan-Meier. Las probabilidades de Kaplan-Meier son calculadas de acuerdo a

∏≤∈

⎟⎟⎠

⎞⎜⎜⎝

⎛+−−+−−

+−+−

−=

ijSj

iR

cjncjn

cncnp

21

1211 (2)

para todas las observaciones no censuradas mayores que el valor mas grande de los datos censurados por la izquierda, donde SR es el conjunto de todos los valores los cuales no son censurados por la derecha, y

∏≥∈

⎟⎟⎠

⎞⎜⎜⎝

⎛+−

−+−+−

=

ijSj

iL

cjcj

cncnp

1121

(3)

para todas las observaciones no censuradas menores o iguales a el valor mas grande de los datos censurados por la izquierda, donde es el conjunto de todos los valores los cuales no son censurados por la izquierda, y c = 0.3175.

Idealmente, los puntos deberían estar cerca de la línea de la distribución ajustada, como es el caso en la grafica anterior

Áreas de Cola Este panel muestra el valor de la distribución de acumulación hasta en 5 valores de X.

Áreas de Cola para Distance Área Cola Inferior (<=) X Normal Valor Extremo Inferior Weibull 10000.0 0.040606 0.0494898 0.0390841 20000.0 0.29219 0.256386 0.299858 30000.0 0.74206 0.822526 0.723066 40000.0 0.967583 0.999959 0.958716 50000.0 0.998829 1.0 0.998423

Área Cola Superior (>) X Normal Valor Extremo Inferior Weibull 10000.0 0.959394 0.95051 0.960916 20000.0 0.70781 0.743614 0.700142 30000.0 0.25794 0.177474 0.276934 40000.0 0.0324166 0.000041464 0.0412835 50000.0 0.00117082 0.0 0.00157716

La tabla muestra:

• Área de Cola Inferior – La probabilidad de que la variable aleatoria sea menor o igual a X.

• Área de Cola Superior – La probabilidad de que la variable aleatoria sea mayor o

igual a X.

Page 13: Ajustando Distribución (Datos Censurados)

STATGRAPHICS – Rev. 9/14/2006

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 13

Por ejemplo, la probabilidad de ser menor o igual a X = 10,000 para la distribución normal es aproximadamente 0.0406. Opciones del Panel

• Valores Críticos: Valores de X en los cuales la probabilidad acumulada será calculada.

Valores Críticos Este panel calcula el valor de una variable aleatoria X debajo del cual yace una probabilidad especificada.

Valores Críticos para Distance Área Cola Inferior (<=) Normal Valor Extremo Inferior Weibull 0.01 5131.13 820.116 6466.15 0.1 13861.8 14140.0 13600.0 0.5 24570.9 24818.8 24683.6 0.9 35279.9 31624.2 36089.5 0.99 44010.6 35553.4 44939.6

La tabla muestra los valores mas pequeños de X tal que la probabilidad de ser menor o igual a X es al menos el área de cola deseada. La tabla anterior muestra que la c.d.f. de una distribución normal ajustada es igual a 0.01 en X = 5,131.13. Opciones del Panel

Page 14: Ajustando Distribución (Datos Censurados)

STATGRAPHICS – Rev. 9/14/2006

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 14

• Áreas de Cola: Valores de la c.d.f. por lo menos para determinar porcentajes de las distribuciones ajustadas.

Gráfico Cuantil-Cuantil El gráfico Cuantil-Cuantil muestra la fracción de observaciones en o por debajo de X graficadas versus los percentiles equivalentes de las distribuciones ajustadas.

Gráfica Cuantil-Cuantil

0 0.5 1 1.5 2 2.5 3(X 10000.0)Normal distribución

0

0.5

1

1.5

2

2.5

3(X 10000.0)

Dis

tanc

e

DistribuciónNormalValor Extremo InferiorWeibull

Una distribución, seleccionada usando Opciones del panel, es usada para definir el eje X y es representada por la línea diagonal. Las otras son representadas por curvas. En la grafica anterior, la distribución ajustada normal ha sido usada para definir el eje X. Con una muestra pequeña, es muy difícil elegir entre las distribuciones. Opciones del Panel

• Distribución de Escala para el Eje X: La distribución usada para escalar el eje horizontal,

correspondiente a la línea diagonal. • Resolución del Eje X: El número de valores de X en los cuales las funciones son graficadas.

Incrementa este valor si las líneas no son suficientemente suaves.

Page 15: Ajustando Distribución (Datos Censurados)

STATGRAPHICS – Rev. 9/14/2006

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 15

Funciones de Distribución 1 y 2 Estos dos paneles grafica varias funciones para las distribuciones ajustadas.

Función de Densidad

0 1 2 3 4 5 6(X 10000.0)Distance

0

2

4

6

8(X 0.00001)

dens

idad

DistribuciónNormalValor Extremo InferiorWeibull

Usando Opciones del Panel, se pueden graficar cualquiera de las siguientes:

1. Densidad de Probabilidad o función de masa 2. Función de Distribución Acumulada 3. Función de Supervivencia 4. Log Función de Supervivencia 5. Función de Riesgo

Para las definiciones de estas funciones, ver la documentación para Distribuciones de Probabilidad. Opciones del Panel

• Graficar: La función a graficar. • Resolución del Eje X: El número de valores de X en los cuales las funciones son graficadas.

Incrementa este valor si las líneas no son suficientemente suave.

Page 16: Ajustando Distribución (Datos Censurados)

STATGRAPHICS – Rev. 9/14/2006

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 16

Cálculos Estimación de Parámetros Los estimadores de los parámetros son obtenido usando Estimación de Máxima Verosimilitud (EMV), donde la función de verosimilitud es dada por

∏=

=n

iixlL

1

)( (4)

y

⎪⎩

⎪⎨

−=

)(1)()(

)(

i

i

i

i

xFxfxF

xl if xi is censoredright

uncensoredcensoredleft

− (5)

Prueba Chi-Cuadrada – Cuando realizamos esta prueba, después de que los intervalos iniciales son construidos, todas las clases incluyendo la observación más grande de las censuradas por la izquierda son combinadas en una sola clase inferior. Adicionalmente, todas las clases incluyendo la las observación mas pequeña de las censuradas por la derecha son combinadas en una sola clase superior. En algunos casos, esto puede no dejar suficientes clases para realizar la prueba. Prueba EDF – Para la prueba Kolmogorov-Smirnov y otras pruebas EDF, las pruebas son realizadas modificando la c.d.f. empírica. Para censura aleatoria, las estadísticas Kolmogorov-Smirnov y Kuiper son calculadas remplazando la simple función de pasos i/n por el estimador de Kaplan-Meier

0)( =xFn , x < x(1) (6)

∏≤

∈⎟⎟⎠

⎞⎜⎜⎝

⎛+−

−−

xxSjj

jnjn

)(

11 , x(1) ≤ x ≤ x(n) (7)

1 x > x(n) (8) donde S es el conjunto de todas las observaciones no censuradas. Ninguna de las otras estadísticas son calculadas en este caso. Para la censura de Tipo I y Tipo II, la muestra de los valores no censurados es transformada una muestra completa sobre la región no censurada modificando la c.d.f. ajustada de acuerdo a

AB

AXFXF i

i −−

=)(ˆ

)(ˆ * (9)

Para la censura de Tipo I, A es la c.d.f. ajustada evaluada en los valores de censura inferior (si hay), mientras que B es la c.d.f. ajustada evaluada en los valores de censura superior (si hay). Para la censura de Tipo II, A es la fracción de las observaciones que son censuradas por la izquierda, y B es la fracción de las observaciones que son censuradas por la derecha. Las

Page 17: Ajustando Distribución (Datos Censurados)

STATGRAPHICS – Rev. 9/14/2006

© 2005 por StatPoint, Inc. Ajustando Distribución (Datos Censurados) - 17

formulas usuales e.d.f. son entonces usadas, remplazando n por el numero de datos no censurados y definiendo

( )ii xFz *ˆ= (10)