analisis de regresion maestria en ciencias medicas alumna: laura laue noguera

Post on 23-Jan-2016

222 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ANALISIS DE REGRESION

MAESTRIA EN CIENCIAS MEDICASAlumna:

Laura Laue Noguera

SINERGISMO

Interacción positiva en donde la combinación delos efectos de 2 ó más variables es mayor quelos efectos separados de cada variable.

Existen 2 modelos:• Modelo aditivo• Modelo multiplicativo

Modelo AditivoEfectos medidos como suma de tasas.Si hay sinergismoSignificativo para:

• magnitud absoluta de un problema de salud pública

• riesgo individual- Riesgo en hombres = 9.3 por 100,000- Riesgo en raza blanca = 2.5 por

100,000- Sinergismo: 9.3 + 2.5 = 11.8

Modelo Multiplicativo

Efectos medidos como multiplicación de razones.

Tiene implicaciones etiológicas.

No hay sinergismo.

• Riesgo en hombres = 5.9• Riesgo en raza blanca = 2.3• Sinergismo: 5.9 x 2.3 = 13.6

Pregunta ¿La asociación entre uso de anticonceptivosorales e infarto del miocardio, es confundida porla edad?

RO = 1.7 IC 95% = 1.1 – 2.8 P = 0.011

Anticonceptivos Orales

Infarto al Miocardio

Controles

SI 29 135

NO 205 1,607

Respuesta

La diferencia entre los hallazgos basados en los datoscrudos y los estratificados por edad, son evidencia de que la edad es un confusor.

Anticonceptivos

25 – 29 a. IM C

30 – 34 a. IM C

35 – 39 a. IM C

40 – 44 a. IM C

45 – 49 a. IM C

SI 4 62 9 33 4 26 6 9 6 5

NO 2 224 12 390 33 330 65 362 93 301

Odds 7.2 8.9 1.5 3.7 3.9

Pregunta

¿La asociación anticonceptivos orales-infarto es modificada por la edad?

Respuesta

Si, la asociación es modificada por la edad dadoque los odds son distintos en los diferentesgrupos de edad.

Variaciones de la muestra ???Prueba de heterogeneidad: P = 0.17 No hay heterogeneidad significativa.

Pregunta

¿Puedes sugerir alguna prueba para obteneruna razón de odds que anule la confusión por la edad?

Respuesta

Combinar los odds de estratos específicos

para obtener un promedio 4 (2.4 – 6.7) que no

se ve afectado por la confusión de la edad.

• Mantel – Haenszel

Estratificación

• La estratificación de variables también

se usa para controlar el efecto confusor.

• Los datos pueden ser estratificados por 2 o

más variables.

TIPOS DE REGRESION

El entendimiento de los procesos multivariadoses esencial para su uso inteligente.

Existen 3 tipos:• Análisis de Regresión Lineal• Análisis de Regresión Logística • Análisis de Regresión del Riesgo Proporcional

ANALISIS MULTIVARIADOS

Evalúa un set de variables en relación con unavariable dependiente, utilizando un modelomatemático (aditivo o multiplicativo) que representa el proceso en estudio.

Tiene 2 propósitos:– Evaluar la fuerza y significancia de la relación

entre un set de variables y la variable dependiente– Hacer predicciones de riesgo

ECUACION DE REGRESION

Y = a + b1X1 + b2X2 + …… + bkXk

X1 = primer variable independiente

b1 = primer coeficiente de regresión

k = número de variables independientes

INTERPRETACION DE LA ECUACIONVARIABLE INDEPENDIENTE COEFICIENTE DE REGRESION

Intersección - 8.3748

Edad 0.1603

IMC 1.3710

Raza - 0.9151

Género - 10.2746

Los autores estudian la forma en que el género, la edad y el grupo étnico afectan la relación entre el IMC y el porcentaje de grasa corporal (variable dependiente) .

REGRESION MULTIPLE

Método ideal para controlar diferencias basales y variables de confusión.

Similar a la regresión simple pero con 2 o másvariables independientes bajo estudio.

Las variables dependientes e independientesdeben ser numéricas.

Las variables nominales deben ser convertidasmediante un código.

REGRESIÓN LINEAL

Y = variable …………….Y* = valor de predicciónX = variable …………….X* = valor dado de Xa = punto de ………….b = ……….. de la líneae = error

REGRESION LINEAL MÚLTIPLEMétodo de elección cuando la pregunta deinvestigación predice el valor de una variable derespuesta.

Y = a + b1X1 + …… bkXk

Y = variable dependiente Y’ = valor predicho X = variable independiente a = punto de intersección b = coeficiente de regresión

Regresión lineal múltiple

Se basa en el modelo aditivo.

La variable dependiente tiene escala métrica.

Mide el cambio promedio en Y por unidad de

cambio en X.

Calcula Y.

REGRESIÓN LOGÍSTICA MÚLTIPLE

Modelo multiplicativo respecto al odds,aditivo respecto a log odds.

Suma de logaritmos de números =multiplicación de los números.

Log odds de enfermedad = a + b1X1 + ….. bkXk

Pr enf. = 1/{1 + exp[-(log odds de la enf.)]}

Regresión logística múltiple

• La variable de interés es dicotómica• Los valores de X pueden ser categóricos o

métricos• Si la variable tiene más de 2 categorías: una es la categoría de referencia y las otras son

variables fantasmas

Regresión logística múltiple

• Cambio de odds de la enfermedad cuando hay un cambio de una unidad en la variable independiente

• Calcula el log de odds y la probabilidad de la enfermedad

REGRESION DEL RIESGO PROPORCIONAL: COX

Modelo aditivo respecto al log del riesgo ymultiplicativo respecto al riesgo.

Relacionada con sobrevida.

Utiliza datos evento-tiempo.

Sobrevida se mantiene constante en el tiempo.

Log riesgo = log(a) + b1X1 + …… bkXk Pr sobrevida = exp {- exp[log (Ht) + biXi + bkXk

Regresión del riesgo proporcional

• Ht = riesgo acumulado en función del tiempo• Cambio en el riesgo de un evento cuando hay

un cambio de una unidad en la variable independiente

• Calcula el log del riesgo y la probabilidad de sobrevida

• Similar a Kaplan-Meier, excepto por el ajuste de efecto de otras variables

Regresión de riesgo proporcional

Para evaluar la conveniencia del modelo:• Graficar• Comparar las curvas log-menos-log• La conveniencia del modelo es cuestionada si las curvas no son paralelas

VALIDEZ DE MODELOS

• Probándolo en varias muestras• Coeficiente de correlación múltiple al

cuadrado (R2)• Goodness-of-fit-test• Razón de probabilidad de Chi cuadrada

Análisis de regresión logística:anticonceptivos orales e infarto

Variable Coeficiente E E P Razón de odds (IC 95%)

Anticonceptivos(0 = no, 1 = si)

1.188 0.206 0.032 3.28 (1.97 – 5.47)

Edad (años)

0.152 0.014 0.0011 1.16 (1.13 – 1.20)

1 – 24 cigarros(0 = no, 1 = si)

1.125 0.209 0.020 3.08 (2.04 – 4.64)

25 cigarros/día(0 = no, 1 = si)

2.137 0.208 0.0013 8.47 (5.64 – 12.74)

Constante - 9.283 0.629

Pregunta

Explique el resultado de 8.47 de la tabla. ¿Sabes como se obtuvo?

Respuesta

8.47 es el OR de las mujeres que fuman 25cigarrillos/día, comparado con las que nofuman, manteniendo constantes las otrasvariables.Se obtiene por el exponencial del coeficiente

2.137, e 2.137 = 8.47

Pregunta

¿Qué asociación con infarto es más fuerte, edad o anticonceptivos orales?

Respuesta

El coeficiente y OR para edad expresa el efectode 1 año de diferencia en la edad, cuando lasotras variables permanecen sin cambio.

Para una diferencia de 20 años: 0.152 X 20 = 3.04 (ln de 20.9)El valor P no es para medir fuerza de asociación.

Pregunta

Los resultados de la tabla ¿señalan que la asociación anticonceptivos – infarto esconfundida por el tabaquismo?¿Qué información necesitas?

Respuesta

Para saber si la asociación anticonceptivosinfarto está confundida por el tabaquismo,comparar los hallazgos con los de otro análisis en el que el tabaquismo no estécontrolado o sea excluido.

Pregunta

Los resultados ¿señalan que la asociaciónanticonceptivos-infarto está modificada por eltabaquismo?

La tabla no dice nada sobre modificación deefecto.

Pregunta

Acorde a los resultados de la tabla, ¿cuál es elOR a favor de infarto, cuando las mujeres usananticonceptivos orales y fuman 25 cigarros aldía, en relación con las que no fuman?

Respuesta

El modelo logístico múltiple es multiplicativo:OR para uso de anticonceptivos = 3.28OR para tabaquismo = 8.473.28 X 8.47 = 27.8

OR de la asociación anticonceptivos orales – infarto: 3 modelos de regresión logística

Variables incluidas en el modelo Razón de odds

Anticonceptivos orales 1.68

Anticonceptivos orales y edad 3.81

Anticonceptivos, edad y tabaquismo 3.28

Pregunta

¿Qué procedimiento se utiliza para obtenerestos datos?

Compare esta tabla con la de Mantel-Haenszel

Respuesta

• Diferentes modelos logísticos pueden proveer diferentes razones de odds; OR expresa la fuerza de asociación después de controlar los efectos de las otras variables del modelo.

• La adición de nuevas variables puede cambiar los resultados.

• Los OR de la tabla anterior son similares a los de M-H: 4 controlado solo por edad, 3.3 controlado por edad y tabaquismo.

OR ajustados por edad. Asociación anticonceptivos – infarto por uso de anticonceptivos y tabaquismo: modelo de no interacción y de interacción

Cigarrillos/día Anticonceptivos NO Anticonceptivos SI

Ninguno 1.0 3.6

1 – 24 3.3 10.1

25 8.5 27.8

Cigarrillos/día Anticonceptivos NO Anticonceptivos SI

Ninguno 1.0 3.6

1 – 24 3.1 3.7

25 8.0 40.3

Conclusión de Autores

• El efecto combinado de anticonceptivos y tabaquismo fue mayor que el encontrado por los efectos separados de estos factores.

• Importante incremento de casos de infarto por el efecto del tabaquismo sobre el uso de anticonceptivos.

Pregunta

¿Los resultados del análisis logístico múltiple,corroboran esta conclusión?

Respuesta

• El modelo y las interacciones muestran un efecto sinergista, sin embargo, los términos de interacción no son estadísticamente significativos.

• Se sugiere que la interpretación se base en el modelo de no interacción, dado que el de interacción indica que los anticonceptivos incrementan el riesgo de infarto en no y grandes fumadores, pero no en moderados. Esto es imposible.

OR relación baja clase social y bajo nivel educativo con obesidad: 4 modelos de regresión

logística

Variables del estudio OR Clase social OR Educación

Clase social 0.30

Educación 0.30

Clase social, educación 0.50 0.50

Clase social, educación eInteracción de ambas

0.50 0.50

Pregunta

Relación clase social y educación (dicotómicas:alta y baja) con obesidad.El 90 % de gente con baja categoría en unavariable, tuvo también baja en la otra.Lo mismo ocurrió en 90% de los de categoríaalta.

¿Cómo pueden explicarse las diferencias?

Respuesta

• La fuerza de asociación de un modelo de regresión logística puede variar cuando el modelo es cambiado

• La asociación con clase social y educación es débil (OR cercana a 1) cuando las variables fueron incluidas

Análisis de regresión logística: anticonceptivos orales e infarto miocárdico

Variable Coeficiente EE P OR (IC 95%)

Anticonceptivos orales(0 = no, 1 = si)

1.188 0.206 0.032 3.28 (1.97 – 5.47)

Edad (años) 0.152 0.014 0.0011 1.16 (1.13 – 1.20)

1 – 24 cigarros/día(0 = no, 1 = si)

1.125 0.209 0.020 3.08 (2.04 – 4.64)

25 cigarros/día(0 = no, 1 = si)

2.137 0. 208 0.0013 8.47 (5.64 – 12.74)

Constante - 9.283 0.629

Pregunta

¿Sabes como calcularon el riesgo de tenerinfarto en los siguientes 10 años, para una mujer de 30 años que usa anticonceptivos y fuma 30 cigarros al día?

¿Cómo evalúa la validez del modelo comopredictor de riesgo?

Respuesta

• Log odds a favor de infarto:

- 9.283 + (1.188 x 1) + (0.152 x 30) + (1.125 x 0) +

2.137 x 1) = 1.398

• Riesgo de la enfermedad: 1/[1 + exp(1.398) = 1/(1 + 4.047) = 0.198 ó 19.8%

• La validez del modelo se obtiene aplicándolo a otras

muestras. También podemos utilizar chi cuadrada.

Riesgo logístico múltiple: datos predichos y observados. Incidencia de diabetes

Riesgo (cuartil) Casos esperados Casos observados

1 72.1 70

2 31.3 28

3 19.5 23

4 10.5 10

Pregunta

¿La tabla muestra una adecuada predicción de datos?

Respuesta

• Si, por inspección visual. Debe confirmarse con goodness-of-fit test

• La prueba Hosmer-Lemeshow da p = 0.58• No existe una diferencia estadísticamente

significativa entre lo observado y la predicción

Razón de riesgo para publicación: Regresión de Cox

Tipo de análisis RR (IC 95%)

Univariado 2.32 (1.47 – 3.66)

Multivariado 2.34 (1.47 – 3.43)

Pregunta

¿El análisis de regresión del riesgo proporcional fue apropiado para este estudio?

Respuesta

La regresión de Cox es adecuada para elestudio.

Se asume que el RR permanece constante a diferentes tiempos, pero no hay evidencia de esto.

Pregunta

¿Qué sucedió con los estudios no publicados?

El análisis de regresión puede tener datoscensurados.Todos los estudios fueron considerados(incluyendo no publicados).

Pregunta

¿Qué significa una razón de riesgo de 2.32?

RO de 2.32 significa que el riesgo depublicación fue 2.32 veces mayor paraestudios significativos, en relación con los no significativos.

Pregunta

¿El tipo de estudio y la consistencia externa, endonde actúan como factores confusores?

No pueden considerarse confusores.

Pregunta

¿El análisis de tablas de vida de Kaplan Meier, ha sido utilizado en vez de la regresión de Cox?

Kaplan Meier analiza la sobrevida de un sologrupo.

EjercicioEstudio de 40,000 bebés mostró bajo peso alnacer, sobre todo en madres con riesgo deenfermedad cardiovascular.El análisis de Cox reportó RR = 2.26 con IC 95%1.48 – 3.41 para la diferencia de l kg.Ajustando el modelo por estrato marital ysocioeconómico, RR = 2.22 con IC 95%1.46 – 3.38

Pregunta¿Qué información fue requerida para esteanálisis?

• Tiempo de sobrevida del binomio bebé-madre

• Conocer si la muerte ocurrió por enf. cardiovascular o no

• Peso al nacer, estado socioeconómico y marital

Pregunta

Comparando los bebés pequeños con los de 2 kg ó más, ¿Qué tan alto fue el riesgo demuerte cardiovascular en sus madres?Controlando el estado socioeconómico y elmarital.

Respuesta

Razón de riesgo ajustada para niños condiferencia de peso de 1 kg = 2.22Razón de riesgo para diferencia de 2 kgs = 2.22 x 2.22 = 4.93

Pregunta

¿Cómo explica estos hallazgos?El RR para otras causas importantes de muertefue: 1.33 para cáncer y 1.06 para muerteviolenta o accidental.

Respuesta

Los autores sugieren 3 explicaciones:• Condiciones de pobreza llevan a bajo peso y riesgo de muerte• Muerte materna, perfil nutricional y de

conducta, pueden influir en el peso del bebé y la mortalidad cardiovascular

• Factores genómicos y epigenéticos

Ejercicio

4,000 niños con edad de 16 años o menores,sometidos a dieta, fueron seguidos paraidentificar muerte y sus causas. El análisis de Cox mostró asociación positivaentre ingesta de energía y riesgo de cáncer.

Asociación ingesta de energía en la infancia y mortalidad en adultos: RO por 239 kcal/día

Causa de muerte Razón de riesgo IC 95 %

Todas las causas 1.04 0.99 – 1.09

Todos los cánceres 1.15 1.06 – 1.24

Cáncer no relacionado a tabaquismo 1.20 1.07 – 1.34

Cáncer relacionado a tabaquismo 1.09 0.86 – 1.23

Causas distintas al cáncer 0.99 0.93 – 1.05

Pregunta

¿Cuáles RO son estadísticamente significativas?

¿Qué porcentaje del incremento del riesgo de

cáncer no ligado a tabaquismo se asocia con

ingesta de 1,000 kcal por día?

Respuesta• La asociación con todos los tipos de cáncer y

aquellos no relacionados con tabaquismo son estadísticamente significativos. El IC no está a ambos lados del 1

• Un incremento de 239 kcal en la ingesta tiene RO de 1.20 para Ca no relacionado a tabaco. La ingesta de 1,000 kcal tiene un riesgo de 1.2 x 1.2 x 1.2 x 1.2 = 2.07 ó un incremento de 107%

Ejercicio

Estudio de posibles factores de riesgo para

infarto del miocardio, realizado en 3,000

hombres de edad media, libres de enfermedad

coronaria.

Factores de riesgo e infarto miocárdico

Factor de riesgo RR IC 95 % P

Tabaquismo(años)

1.40 1.15 – 1.70 0.0008

Niveles de vitamina C(< 2 mg/L vs > 2 mg/L)

2.55 1.26 – 5.17 0.0095

Ingreso de oxígeno(ml/min x kg)

0.65 0.47 – 0.92 0.0137

Historia familiar de enfermedad coronaria (si vs no)

1.86 1.14 – 3.02 0.0129

Mercurio en cabello (> 2 mcg/g vs < 2 mcg/g)

1.68 1.01 – 2.81 0.0448

Apolipoproteina B sérica (g/L) 1.29 1.01 – 1.66 0.0454

Pregunta

¿Qué factores de riesgo fueron asociados con

mayor fuerza con el riesgo de infarto?

Respuesta

Los resultados no permiten una decisión dadoque muestran diferentes categorías y unidadesde medición.

Ejercicio

Datos del Sistema Nacional de Salud: • Relación entre parientes fumadores y

desarrollo del niño• Incluyó 5,903 niños entre 5 a 11 años• Variable dependiente: score DE (talla del niño - talla media de niños de la misma

edad, sexo y ciudad) / desviación estándar del grupo

Pregunta

¿Por qué se utilizó el score de desviaciónestándar como variable dependiente en vez dela talla?

Respuesta

El z score o score DE sirve para controlar: • El efecto confusor de edad, sexo y ciudad• La dispersión de la muestra• La tendencia central de la distribución

RESIDUALES

• Diferencia entre los valores reales y los predeterminados por el análisis de regresión

• Medida no influenciada por atributos biológicos

• Puede ser utilizada como variable dependiente

• Controla la confusión• Sirve para validar modelos

Variables Independientes

• Tabaquismo en casa: tabaquismo pasivo• Tabaquismo en el embarazo• Peso al nacer• Talla de papá y mamá• Número de hermanos• Clase social• Duración del embarazo• Indice personas - cuarto

Pregunta

¿Por qué fueron incluidas las variables norelacionadas directamente con tabaquismo?

Porque se pensó que tienen efecto confusor en la asociación tabaquismo – talla.

Pregunta

Un análisis de regresión múltiple con las mismas

variables, mostró una R = 0.56.

¿Qué nos dice ese valor en relación con la

validez del modelo?

Respuesta

R2 representa la varianza de la variabledependiente, que es explicada por el set devariables independientes.El cuadrado de 0.56 es 0.31 ó 31%.Este valor es mayor que el de la mayoría deestudios epidemiológicos.

Varianza de talla explicada por tabaquismo en hogar, embarazo o ambos:

Regresión lineal múltiple

Variables del modelo Tabaquismo en casa

Tabaquismo en embarazo

Ambos tabaquismos

Tabaquismo en casa, tabaquismo en embarazo

1.34 % 0.67 % 1.41 %

Tabaquismo en casa, tabaquismo en embarazo, las demás variables

0.23 % 0.14 % 0.26 %

Pregunta

¿Qué nos dice la discrepancia entre los valores

de las 2 primeras columnas y la tercera?

Respuesta

Cuando variables no ligadas a tabaco no sonconsideradas:

1.41 – 0.67 = 0.74% = tabaquismo en casa1.41 – 1.34 = 0.07% = tabaquismo en embarazo1.41 – 0.74 = 0.60% = tabaquismo compartido

Cuando otras variables son incluidas:tabaquismo en casa = 0.12%tabaquismo en embarazo = 0.03%tabaquismo compartido = 0.11%

Respuesta

Discrepancia en la varianza explicada porfactores del tabaquismo, juntos o separados,traducen que los efectos se solapan.Coeficiente de correlación por tabaquismomaterno: 0.64, no se puede determinar queparte es atribuida a tabaquismo actual y cual al del embarazo (multicolinealidad).

Pregunta

¿Qué nos dice la discrepancia entre las 2primeras columnas?

¿Podemos concluir que tales diferencias son debidas a un efecto confusor?

Respuesta

• Reducción en la varianza explicada por una variable independiente, cuando se incluyen otros factores en el modelo, puede significar que aquellos son confusores o causas intermedias.

• Causa intermedia: peso al nacer.Tabaquismo en embarazo se asocia a bajo peso al nacer y éste a baja estatura.

Pregunta

Clase social y duración del embarazo fueronomitidas en el análisis por no mostrarsignificancia sobre la talla.

¿Cuál sería una razón más válida para omitirestas variables?

Respuesta• Ausencia de asociación estadísticamente

significativa no implica que la variable no sea un confusor.

• No existen criterios establecidos sobresignificancia estadística para decidir:

- potenciales confusores a controlar- cuando es suficiente para producir confusión

Relación tabaquismo de parientes – talla de los niños (SDE): Coeficientes de regresión lineal

Variables del modelo Tabaquismo en casaCoeficiente P

Tabaquismo en embarazoCoeficiente P

Tabaquismo en casa - 0.0099 < 0.001

Tabaquismo en embarazo - 0.0122 < 0.001

Tabaquismo en casa y embarazo

- 0.0086 < 0.001 - 0.0045 NS

Tabaquismo en casa y embarazo + otras variables

- 0.0034 < 0.01 - 0-0028 NS

Pregunta

Explique que representan los coeficientes deregresión.

¿Cuáles son los hechos?

Respuesta

Coeficiente de regresión múltiple: cambio en lavariable dependiente debido a un cambio deuna unidad en la variable independiente, con nocambios en las demás variables del modelo.

• Cada cigarrillo fumado en casa, está asociado a

una disminución de la talla de 0.0099 desviaciones

estándar.

respuesta

• Cuando tabaquismo en embarazo es adicionado al modelo, el efecto específico conectado con tabaquismo en casa (sin área de traslape), es 0.0086

• La talla disminuye 0.0034 desviaciones estándar por cada cigarrillo fumado, cuando se adicionan las otras variables y se ajustan sus efectos

Pregunta

¿Podemos concluir que el tabaquismo en el

embarazo no afecta la talla de los niños?

Respuesta

No debemos concluir eso, sin embargo, losresultados no nos dicen como se afecta latalla de los niños por el tabaquismo durante el embarazo.• Ausencia de significancia estadística no

traduce que una asociación sea un hallazgo necesariamente al azar.

Pregunta

¿Qué explicaciones sugiere para la asociación

entre tabaquismo pasivo y talla de los niños?

RespuestaLa asociación es estadísticamente significativa yse hace aparente cuando expresiones genéticas,atributos biológicos y circunstancias sociales, semantienen constantes en el análisis.Asociación causal indirecta mediada por:

- consumo de alimentos- incremento de enfermedades respiratorias- efecto directo del tabaco en el crecimiento

Pregunta

¿Cuál es la utilidad de este estudio?

Respuesta:- identificar factores que afectan el

crecimiento- disminuir la prevalencia de tabaquismo

Si tiene niños ……. no fume

Tabaquismo en casa de 50 cigarrillos diariosentre todos, reduce la talla de los niños en 0.17desviaciones estándar (50 x 0.0034), lo cualequivale a 1 cm.

GRACIAS

top related