regression logistica

4
LA REGRESION LOGISTICA (II) Preparado por Luis M. Molinero (Alce Ingeniería) CorreoE: bioestadistica alceingenieria.net Febrero 2001 Artículo en formato PDF Interacción y confusión Algunas precauciones Tamaño de muestra Selección de modelos Enlaces de interés Regresión logística (I) Interacción y confusión El empleo de técnicas de regresión sirve para dos objetivos: Estimar la relación entre dos variables teniendo en cuenta la presencia de otros factores 1. Construir un modelo que permita predecir el valor de la variable dependiente (en regresión logística la probabilidad del suceso) para unos valores determinados de un conjunto de variables pronóstico 2. Cuando el objetivo es estimar la relación o asociación entre dos variables, los modelos de regresión permiten considerar que puede haber otros factores que modifiquen esa relación. Así, por ejemplo, si se está estudiando la posible relación, como factor de riesgo, entre el síndrome de apnea nocturna y la probabilidad de padecer hipertensión, dicha relación puede ser diferente si se tiene en cuenta otras variables como pueden ser la edad, el sexo o el índice de masa corporal. Por ello en un modelo de regresión logística podrían ser incluidas como variables independientes, además del dato de apnea. En la ecuación obtenida al considerar como variables independientes APNEA, EDAD, SEXO, IMC, el exp(coeficiente de la ecuación para APNEA) nos determina el odds ratio debido a la apena, ajustado o controlado para el resto de los factores. A las variables que, además del factor de interés (en el ejemplo EDAD, SEXO, IMC), se introducen en el modelo, se las denomina en la literatura de diferentes formas: variables control, variables extrañas, covariantes, o factores de confusión. Interacción Cuando la relación entre el factor en estudio y la variable dependiente se modifica según el valor de una tercera estamos hablando de interacción. Así en nuestro ejemplo, supongamos que la probabilidad de padecer HTA cuando se tiene síndrome de apnea aumenta con la edad. En este caso decimos que existe interacción entre las variables EDAD y APNEA. Si nos fijamos sólo en el exponente del modelo logístico, en el caso de no considerar interacción éste será: LA REGRESION LOGISTICA II 1/4

Upload: ariel-aldava-pardave

Post on 14-Nov-2015

212 views

Category:

Documents


0 download

DESCRIPTION

Regresion Logistica II

TRANSCRIPT

  • LA REGRESION LOGISTICA (II)Preparado por Luis M. Molinero (Alce Ingeniera)CorreoE: bioestadistica alceingenieria.net

    Febrero 2001

    Artculo en formato PDF

    Interaccin y confusin Algunas precauciones Tamao de muestra Seleccin de modelos Enlaces de inters

    Regresin logstica (I)

    Interaccin y confusinEl empleo de tcnicas de regresin sirve para dos objetivos:

    Estimar la relacin entre dos variables teniendo en cuenta la presencia de otros factores1. Construir un modelo que permita predecir el valor de la variable dependiente (en regresinlogstica la probabilidad del suceso) para unos valores determinados de un conjunto de variablespronstico

    2.

    Cuando el objetivo es estimar la relacin o asociacin entre dos variables, los modelos de regresin permitenconsiderar que puede haber otros factores que modifiquen esa relacin.

    As, por ejemplo, si se est estudiando la posible relacin, como factor de riesgo, entre el sndrome de apneanocturna y la probabilidad de padecer hipertensin, dicha relacin puede ser diferente si se tiene en cuentaotras variables como pueden ser la edad, el sexo o el ndice de masa corporal. Por ello en un modelo deregresin logstica podran ser incluidas como variables independientes, adems del dato de apnea. En laecuacin obtenida al considerar como variables independientes APNEA, EDAD, SEXO, IMC, elexp(coeficiente de la ecuacin para APNEA) nos determina el odds ratio debido a la apena, ajustado ocontrolado para el resto de los factores.

    A las variables que, adems del factor de inters (en el ejemplo EDAD, SEXO, IMC), se introducen en elmodelo, se las denomina en la literatura de diferentes formas: variables control, variables extraas,covariantes, o factores de confusin.

    Interaccin

    Cuando la relacin entre el factor en estudio y la variable dependiente se modifica segn el valor de unatercera estamos hablando de interaccin. As en nuestro ejemplo, supongamos que la probabilidad de padecerHTA cuando se tiene sndrome de apnea aumenta con la edad. En este caso decimos que existe interaccinentre las variables EDAD y APNEA.

    Si nos fijamos slo en el exponente del modelo logstico, en el caso de no considerar interaccin ste ser:

    LA REGRESION LOGISTICA II

    1/4

  • Si deseamos considerar la presencia de interaccin entre APNEA y EDAD el modelo cambia:

    Si la variable APNEA es dicotmica (valores 0 y 1) la relacin entre HTA y APNEA vendr cuantificada porb1 en el primer modelo mientras que en el segundo

    es decir que ahora esa relacin se modifica en funcin del valor de la EDAD.

    Algunas precauciones

    La amplia disponibilidad de potentes programas que permiten el acceso a sofisticadas pruebas estadsticaspuede conducir a la utilizacin inadecuada y mecnica de stas. En particular los modelos de regresinrequieren de quien los construye un mnimo de comprensin de la filosofa subyacente, as como no slo elconocimiento de las ventajas, sino tambin de los problemas y debilidades de stas tcnicas. La utilizacin deprocedimientos matemticos a menudo nos convece de que estamos introduciendo "objetividad" en losresultados y ello es as en cierta medida, pero tambin lleva aparejada una gran carga de subjetividad, dondese incluye desde la misma eleccin de un modelo matemtico determinado, hasta la seleccin de las variablesen l contenidas.

    Una de la primeras consideraciones que hay que hacer es que la relacin entre la variable independiente y laprobabilidad del suceso no cambie de sentido, ya que en ese caso no nos sirve el modelo logstico. Esto esalgo que habitualmente no ocurre en los estudios clnicos, pero por ello es ms fcil pasarlo por alto cuando sepresenta.Un ejemplo muy claro de esa situacin se da si estamos evaluando la probabilidad de nacimiento un nio conbajo peso (de riesgo) en funcin de la edad de la madre. Hasta una edad esa probabilidad puede aumentar amedida que la edad de la madre disminuye (madres muy jvenes) y a partir de una edad (madres muymayores) la probabilidad puede aumentar a medida que lo hace la edad de la madre. En este caso el modelologstico no sera adecuado.

    Colinealidad

    Otro problema que se puede presentar en los modelos de regresin, no slo logsticos, es que la variables queintervienen estn muy correlacionadas, lo que conduce a un modelo desprovisto de sentido y por lo tanto aunos valores de los coeficientes no interpretables. A esta situacin, de variables independientescorrelacionadas, se la denomina colinealidad.

    Para entenderlo supongamos el caso extremo, en el que se introduce en el modelo dos veces la mismavariable, tendramos entonces el siguiente trmino

    o lo que es lo mismo

    Donde la suma b1+b2 admite infinitas posibilidades a la hora de dividir en dos sumandos el valor de uncoeficiente, por lo que la estimacin obtenida de b1 y b2 no tiene realmente ningn sentido.

    Un ejemplo de esta situacin se podra dar si incluimos en la ecuacin variables como la hemoglobina y elhematocrito que est altamente correlacionadas.

    LA REGRESION LOGISTICA II

    2/4

  • Tamao de muestra

    Como regla "de andar por casa" podemos considerar necesario disponer de al menos 10 . (k + 1) casos paraestimar un modelo con k variables independientes; es decir, al menos 10 casos por cada variable queinterviene en el modelo, considerando tambin la variable dependiente (la probabilidad del suceso).

    Conviene llamar la atencin respecto a que las cualitativas intervienen como c 1 variables en el modelo, alconstruir a partir de ellas las correspondientes variables internas.

    Seleccin de modelos

    Al estar hablando de modelos que pueden ser multivariantes, un aspecto de inters es cmo seleccionar elmejor conjunto de variables independientes a incluir en el modelo.

    La definicin de mejor modelo depende del tipo y el objetivo del estudio. En un modelo con finalidadpredictiva se considerar como mejor modelo quel que produce predicciones ms fiables, mientras que en unmodelo que pretende estimar la relacin entre dos variables (corrigiendo el efecto de otras, como se vi msarriba), se considerar mejor quel con el que se consigue una estimacin ms precisa del coeficiente de lavariable de inters. Esto se olvida a menudo y sin embargo conduce a estrategias de modelado completamentedirefentes. As en el segundo caso un covariante con coeficiente estadsticamente significativo pero cuyainclusin en la ecuacin no modifica el valor del coeficiente de la variable de inters, ser excludo de laecuacin, ya que no se trata de un factor de confusin: la relacin entre la variable de inters y la probabilidadno se modifica si se tiene en cuenta esa variable. Sin embargo si lo que se busca un modelo predicitivo s quese incluir en la ecuacin pues ahora lo que buscamos es predicciones ms fiables.

    Otra consideracin que hay que hacer siempre que se analizan datos es distinguir entre diferencias numricas,diferencias estadsticamente significatifvas y diferencias clnicamente relevantes. No siempre coinciden lostres conceptos.

    Lo primero que habr que plantear es el modelo mximo, o lo que es lo mismo el nmero mximo devariables independientes que pueden ser incluidas en la ecuacin, considerando tambin las interacciones sifuera conveniente.

    Aunque existen diferentes procedimientos para escoger el modelo slo hay tres mecanismos bsicos para ello:empezar con una sola variable independiente e ir aadiendo nuevas variables segn un criterio prefijado(procedimiento hacia adelante), o bien empezar con el modelo mximo e ir eliminando de l variables segnun criterio prefijado (procedimiento hacia atrs). El tercer mtodo, denominado en la literatura "stepwise" ,combina los dos anteriores y en cada paso se puede tanto aadir una variable como eliminar otra que ya estabaen la ecuacin.

    En el caso de la regresin logstica el criterio para decidir en cada paso si escogemos un nuevo modelo frenteal actual viene dado por el logaritmo del cociente de verosimilitudes de los modelos.La funcin de verosimilitud de un modelo es una medida de cun compatible es ste con los datos realmenteobservados. Si al aadir una nueva variable al modelo no mejora la verosimilitud de forma apreciable, ensentido estadstico, sta variable no se incluye en la ecuacin.

    Para evaluar la significacin estadstica de una variable concreta dentro del modelo, nos fijaremos en el valorde chi (estadstico de Wald) correspondiente al coeficiente de la variable y en su nivel de probabilidad

    LA REGRESION LOGISTICA II

    3/4

  • Enlaces de inters

    Logistic regression models used in medical research are poorly presented. BMJ 1996;313: 628

    Prognostic models: clinically useful or quickly forgotten?. Wyatt JC, Altman, DG. BMJ1995;311:15391541

    Indice de artculos Regresin logstica (I)

    LA REGRESION LOGISTICA II

    4/4