análisis probit

6
 STATGRAPHICS – Rev. 4/25/2007 © 2006 por StatPoint, Inc. Análisis Probit - 1  Anál is is Pro bi t Resumen  El procedimiento Análisis Probit  está diseñado para ajustar un modelo de regresión en el cual la variable dependiente Y  caracteriza un evento con sólo dos posibles resultados. Se pueden modelados dos tipos de datos: 1. Datos en los que Y  consiste en un conjunto de 0’s y 1’s, donde 1 representa la ocurrencia de uno de los dos resultados. 2. Datos en los cuales Y  representa la proporción de veces que ocurre uno de los dos resultados. El modelo de regresión relaciona a Y  con una o más variables predictoras X , que pueden ser cuantitativas o categóricas. En este procedimiento, se asume que la probabilid ad de un evento está relacionada con los predictores a través de la función probit. El procedimiento  Regresión  Logística puede usarse para ajustar el mismo tipo de datos pero emplea una forma funcional diferente. El procedimiento ajusta un modelo usando máxima verosimilitud o mínimos cuadrados  ponderados. La selecció n por pasos de v ariables es una opció n. Para probar la sign ificancia de los coeficientes del modelo se realizan pruebas de cociente de verosimilitu d. Se puede graficar e l modelo ajustado y predicciones generados a partir del mismo. Se identifican y grafican residuos atípicos. Dado que el procedimiento Análisis Probit  es análogo al de Regresión Logística, debe remitirse a la documentación de éste último para una descripción detallada de las diferentes opciones. Esta documentación resalta las diferencias entre los dos modelos y cubre un ejemplo simple. StatFolio de Ejemplo:   probit.sgp Datos de Ejemplo :  El archivo beetles.sf3 contiene un bien conocido conjunto de datos de Bliss (1935) que muestra los resultados de experimentos en los cuales se expusieron escarabajos a diferentes concentraciones de bisulfuro de carbono. El archivo de datos muestra la dosis ( dose), el número de escarabajos expuestos (exposed ), y el número de escarabajos muertos ( killed ).  Dose Exposed Killed 1.6907 59 6 1.7242 60 13 1.7552 62 18 1.7842 56 28 1.8113 63 52 1.8369 59 53 1.861 62 61 1.8839 60 60

Upload: jutll

Post on 07-Oct-2015

7 views

Category:

Documents


0 download

DESCRIPTION

estadistico

TRANSCRIPT

  • STATGRAPHICS Rev. 4/25/2007

    2006 por StatPoint, Inc. Anlisis Probit - 1

    Anlisis Probit Resumen El procedimiento Anlisis Probit est diseado para ajustar un modelo de regresin en el cual la variable dependiente Y caracteriza un evento con slo dos posibles resultados. Se pueden modelados dos tipos de datos:

    1. Datos en los que Y consiste en un conjunto de 0s y 1s, donde 1 representa la ocurrencia de uno de los dos resultados.

    2. Datos en los cuales Y representa la proporcin de veces que ocurre uno de los dos resultados.

    El modelo de regresin relaciona a Y con una o ms variables predictoras X, que pueden ser cuantitativas o categricas. En este procedimiento, se asume que la probabilidad de un evento est relacionada con los predictores a travs de la funcin probit. El procedimiento Regresin Logstica puede usarse para ajustar el mismo tipo de datos pero emplea una forma funcional diferente. El procedimiento ajusta un modelo usando mxima verosimilitud o mnimos cuadrados ponderados. La seleccin por pasos de variables es una opcin. Para probar la significancia de los coeficientes del modelo se realizan pruebas de cociente de verosimilitud. Se puede graficar el modelo ajustado y predicciones generados a partir del mismo. Se identifican y grafican residuos atpicos. Dado que el procedimiento Anlisis Probit es anlogo al de Regresin Logstica, debe remitirse a la documentacin de ste ltimo para una descripcin detallada de las diferentes opciones. Esta documentacin resalta las diferencias entre los dos modelos y cubre un ejemplo simple. StatFolio de Ejemplo: probit.sgp Datos de Ejemplo: El archivo beetles.sf3 contiene un bien conocido conjunto de datos de Bliss (1935) que muestra los resultados de experimentos en los cuales se expusieron escarabajos a diferentes concentraciones de bisulfuro de carbono. El archivo de datos muestra la dosis (dose), el nmero de escarabajos expuestos (exposed), y el nmero de escarabajos muertos (killed).

    Dose Exposed Killed 1.6907 59 6 1.7242 60 13 1.7552 62 18 1.7842 56 28 1.8113 63 52 1.8369 59 53 1.861 62 61 1.8839 60 60

  • STATGRAPHICS Rev. 4/25/2007

    2006 por StatPoint, Inc. Anlisis Probit - 2

    Para estos datos, la variable dependiente Y es la proporcin de escarabajos expuestos a cada dosis que murieron, calculada por Y = Killed / Exposed, es decir, Y = muertos / expuestos. Hay una sola variable predictora X = Dose (dosis). Hay un total de n = 481 sujetos. Ingreso de Datos La caja de dilogo del ingreso de datos solicita informacin sobre las variables de entrada:

    Variable Dependiente: una variable numrica que contiene a la variable dependiente Y. Y

    puede consistir en un conjunto de s proporciones, cada una entre 0 y 1, o un conjunto de n 0s y 1s binarios que representan la ocurrencia o no ocurrencia de un resultado.

    (Tamao de Muestra): Si Y contiene un conjunto de proporciones, ingrese una columna con

    los tamaos de muestra correspondientes a cada proporcin. Si Y contiene un conjunto de 0s y 1s, deje este campo en blanco.

    Factores Cuantitativos: columnas numricas que contienen los valores de cualesquiera

    factores cuantitativos a ser incluidos en el modelo. Factores Categricos: columnas numricas o no numricas que contienen los niveles de

    cualesquiera factores categricos a ser incluidos en el modelo. Seleccin: seleccin de un subgrupo de datos.

  • STATGRAPHICS Rev. 4/25/2007

    2006 por StatPoint, Inc. Anlisis Probit - 3

    Modelo Estadstico El modelo probit relaciona la probabilidad de ocurrencia P del resultado contado por Y con las variables predictoras X. El modelo toma la forma

    )...()( 22110 kk XXXXP ++++= (1) donde (Z) es la funcin de distribucin acumulada normal estndar.

    Resumen del Anlisis El Resumen del Anlisis presenta una tabla que muestra el modelo estimado y las pruebas de significancia para coeficientes del modelo. A continuacin se muestra una salida tpica. Anlisis Probit - Killed/Exposed Variable dependiente: Killed/Exposed Tamaos de muestra: Exposed Factores: Dose Modelo Estimado de Regresin (Mxima Verosimilitud) Error Parmetro Estimado Estndar CONSTANTE -34.9349 2.65395 Dose 19.7277 1.49062

    Anlisis de Desviacin Fuente Desviacin Gl Valor-P Modelo 274.083 1 0.0000 Residuo 10.1198 6 0.1197 Total (corr.) 284.202 7

    Porcentaje de desviacin explicado por el modelo = 96.4392 Porcentaje ajustado = 95.0318 Pruebas de Razn de Verosimilitud Factor Chi-Cuadrada Gl Valor-P Dose 274.083 1 0.0000

    Anlisis de Residuos Estimacin Validacin n 8 MSE 0.131797 MAE 0.0562163 MAPE 17.4188 ME -0.0211148 MPE -3.25668

    La salida incluye: Resumen de los Datos: un resumen de los datos que fueron ingresados.

    Modelo Estimado de Regresin: estimaciones de los coeficientes del modelo de regresin,

    con errores estndar.

  • STATGRAPHICS Rev. 4/25/2007

    2006 por StatPoint, Inc. Anlisis Probit - 4

    Anlisis de Desviacin: descomposicin de la desviacin de los datos en un componente

    explicado (Modelo) y un componente no explicado (Residuo). La Desviacin compara la funcin de verosimilitud de un modelo con el valor ms grande que puede alcanzar la funcin de verosimilitud, de tal forma que un modelo perfecto tendra una desviacin igual a 0. Hay tres renglones en la tabla:

    1. Total (corr.) la desviacin de un modelo que contiene nicamente un trmino

    constante, (0).

    2. Residuo la desviacin que queda despus de haber ajustado el modelo.

    3. Modelo la reduccin en la desviacin debida a las variables predictoras, (1,2,,k|0), igual a la diferencia entre los otros dos componentes.

    El Valor de P para el Modelo prueba si el aadir las variables predictoras reduce significativamente la desviacin comparada con un modelo que contiene slo un trmino constante. Un Valor de P pequeo (menor de 0.05 si se trabaja con un nivel de significancia del 5%) indica que el modelo ha reducido significativamente la desviacin y es as til para predecir la probabilidad del resultado estudiado. Un Valor de P pequeo indica que una desviacin significativa queda an en los residuos, as que puede haber un mejor modelo.

    Porcentaje de Desviacin el porcentaje de desviacin explicada por el modelo, calculada

    por medio de ( )

    ( )00212 |,...,,

    kR = (2)

    Es similar a una estadstica R cuadrada en regresin mltiple, en que va de 0% a 100%. Tambin se calcula una desviacin ajustada con

    ( )( )0

    0212 2|,...,,

    pR kadj = (3)

    donde p es igual al nmero de coeficientes en el modelo ajustado, incluyendo al trmino constante. Es semejante a la estadstica R-cuadrada ajustada en que compensa el nmero de variables en el modelo.

    Pruebas de Razn de Verosimilitud una prueba de significancia para cada efecto en el modelo ajustado. Estas pruebas comparan la funcin de verosimilitud del modelo completo con la del modelo en el cual slo el efecto indicado ha sido removido. Valores de P pequeos indican que el modelo ha mejorado significativamente por el efecto correspondiente.

    Anlisis de Residuos si un subgrupo de filas en la hoja de datos ha sido excluido del anlisis usando el campo Seleccionar en la caja de dilogo de ingreso de datos, el modelo ajustado se usa para hacer predicciones de los valores de Y para estas filas. Esta tabla muestra estadsticas sobre los errores de prediccin, definidos por

  • STATGRAPHICS Rev. 4/25/2007

    2006 por StatPoint, Inc. Anlisis Probit - 5

    )( iii XPye = (4) Se incluyen el cuadrado medio del error (CME), el error absoluto medio (EAM), el error porcentual absoluto medio (EPAM), el error medio (EM), y el error porcentual medio (EPM). Estas estadsticas de validacin pueden ser comparadas con las estadsticas del modelo ajustado para determinar qu tan bien el modelo predice las observaciones fuera de los datos usados para ajustarlo.

    El modelo ajustado para los datos del ejemplo es ( )Dose 19.7277 34.9349- )( +=KilledP (5) La regresin explica alrededor del 96.4% de la desviacin de un modelo sin Dose. El valor de P para Dose es muy pequeo, indicando que es un predictor estadsticamente significativo para la proporcin de escarabajos muertos (Killed). Advierta que el valor de P para los Residuos no es significativo, indicando que no queda falta de ajuste significativa sin explicar.

    Grfico del Modelo Ajustado El Grfico del Modelo Ajustado presenta la probabilidad estimada de un resultado )( XP versus cualquier variable predictora sola, con las otras variables constantes.

    1.6 1.65 1.7 1.75 1.8 1.85 1.9Dose

    Grfica del Modelo Ajustadocon intervalos de confianza del 95.0%

    0

    0.2

    0.4

    0.6

    0.8

    1

    Kille

    d/Ex

    pose

    d

    Se incluyen en el grfico lmites de confianza para P(X).

  • STATGRAPHICS Rev. 4/25/2007

    2006 por StatPoint, Inc. Anlisis Probit - 6

    Grfico Probit El Grfico Probit es similar al Grfico del Modelo Ajustado, excepto que el eje vertical est escalado de manera que el modelo ajustado ser una lnea recta.

    1.6 1.65 1.7 1.75 1.8 1.85 1.9Dose

    Probit(Killed/Exposed)con intervalos de confianza del 95.0%

    0.1

    1

    5

    20

    50

    80

    95

    99

    99.9

    porc

    enta

    je a

    cum

    ulad

    o