estadÍstica avanzada en ciencias de la salud: … · ¿cúal es la asociación entre el bajo peso...

33
ESTADÍSTICA AVANZADA EN CIENCIAS DE LA SALUD: Modelos Lineales Actividades prácticas con ordenador ©Andreu Nolasco

Upload: dokien

Post on 12-May-2018

217 views

Category:

Documents


2 download

TRANSCRIPT

ESTADÍSTICA AVANZADA EN CIENCIAS DE LA SALUD:

Modelos Lineales

Actividades prácticas con ordenador

©Andreu Nolasco

SUMARIO

Introducción al análisis multivariante.............................................................4 Prácticas sobre el modelo de regresión lineal múltiple ..............................7 Prácticas sobre el modelo de regresión logística.......................................13 Prácticas sobre el modelo de regresión de Poisson...................................18 Prácticas sobre el modelo de regresión de Cox.........................................22 Práctica de aplicación de diversos modelos..............................................25 Anexos. Bases de Datos..................................................................................28

Estadística Avanzada: Modelos lineales. Prácticas con ordenador Introducción al análisis multivariante

4

IIINNNTTTRRROOODDDUUUCCCCCCIIIOOONNN AAALLL AAANNNAAALLLIIISSSIIISSS MMMUUULLLTTTIIIVVVAAARRRIIIAAANNNTTTEEE Para las aplicaciones de esta guía es necesario disponer del software SPSS y EGRET. Las bases de datos utilizadas se suministrarán como material complementario aparte. Esta práctica persigue como objetivo familiarizar al alumno con las estructuras y elementos generales de los modelos lineales. Para los casos que a continuación se describe, se propondrá una serie de aplicaciones a contestar a través de los modelos lineales descritos en la sesión de teoría. Caso 1 Considere un estudio sobre efecto del consumo de tabaco en las madres y el peso al nacimiento de los niños, del cual se dispone de observaciones sobre 200 casos representativos de la población objeto de estudio. Las variables que se consideraron fueron:

NSERIE: Número identificador de cada observación EDAD: Edad en años de la madre PARTOS: 0 Ningún parto previo 1 Algún parto previo TABACO: 0 No fuma 1 Fuma PESONAC: Peso al nacimiento en gramos BAJOPESO: 1 Peso al nacer < 3000grs. 0 Peso al nacer > 3000grs TALLAMA: Talla de la madre en cm. PESOMA: Peso de la madre en Kg. TALLAPA: Talla del padre en cm. TALLANAC: Talla del recién nacido en mm. ESTUDIOS: 1 Anbalfabetas 2 EGB 3 BUP 4 Univ/super. SITLABOR: 0 No trabaja 1 Trabaja SEXO: 1 Niño 2 niña

¿A través de que procedimiento (modelo lineal o técnica univariante) contestaría Vd. las siguientes preguntas?

Respuestas

Estadística Avanzada: Modelos lineales. Prácticas con ordenador Introducción al análisis multivariante

5

1. ¿Existe diferencia en el peso al nacimiento según la madre sea primípara o no? 2. ¿Existe relación lineal entre el peso al nacimiento y la edad de la madre? 3. ¿Existe diferencia en la edad de las madres según sean primíparas o no? 4. ¿Cúal es el efecto de la edad de la madre sobre el peso al nacimiento, ajustado por el

hecho de ser primípara o no? ¿Qué quiere decir ajustado? 5. ¿Existe diferencia en el peso al nacimiento según nivel de estudios de la madre? 6. ¿Existe diferencia en el peso al nacimiento según nivel de estudios de la madre y

situación laboral? 7. Creemos que el peso de la madre y el número de partos previos pueden interaccionar

para producir efectos específicos sobre el peso al nacimiento que dependan simultáneamente de ambas variables ¿Qué modelo utilizaría para comprobar esta situación?

8. ¿Cúal es el peso al nacimiento pronosticado para un recién nacido de perfil madre primípara de 25 años, de 50 Kg. de peso, con situación laboral trabajando y nivel de estudios universitarios?

9. ¿Existe asociación entre el bajo peso (según está definido en la base de datos) y que la madre sea primípara o no?

10. ¿Existe asociación entre el consumo de tabaco y el bajo peso? 11. ¿Existe asociación entre el consumo de tabaco y ser o no primípara? 12. ¿Cúal es la asociación entre el bajo peso y el consumo de tabaco ajustada por ser o no

primípara? 13. ¿Existe asociación entre el bajo peso y el nivel de estudios de la madre? 14. ¿Cúal es la probabilidad de que un recién nacido pese menos de 3000 grs. si el perfil de

la madre es fumadora, primípara, con peso 48 Kg., trabaja, universitaria y de 28 años de edad?

Respuestas

Estadística Avanzada: Modelos lineales. Prácticas con ordenador Introducción al análisis multivariante

6

Caso 2 Estudio sobre remisión de leucemias tras un tratamiento. Treinta pacientes son aleatoriamente asignados a un grupo de tratamiento, y otros treinta a un grupo de control. Se recoge información relativa a las siguientes variables:

GRUPO: 1 Tratamiento 0 Control TIEMPO: Tiempo de seguimiento en meses LBLANCOS: Logaritmo del número de glóbulos blancos RESULTA: Resultado tras el seguimiento. 1 Recidiva 0 No recidiva EDAD: Edad en años SEXO: 1 Hombre 2 Mujer

¿A través de que procedimiento (modelo lineal o técnica univariante) contestaría Vd. las siguientes preguntas? 1. ¿Cúal es la probabilidad de que no se haya producido recidiva a los 3 meses del

tratamiento? 2. ¿Cúanto vale el riesgo relativo de recidiva de tratar a no tratar? 3. ¿Cúanto vale el riesgo relativo de recidiva de tratar a no tratar ajustado por edad y

glóbulos blancos? 4. ¿Cúanto vale la probabilidad de no presentar recidiva de un paciente de perfil tratado,

de 30 años, hombre y logaritmo de glóbulos blancos 3.00, a los 10 meses de seguimiento? ¿Será la misma que a los 20 meses de seguimiento?

Respuestas

Estadística Avanzada: Modelos lineales. Prácticas con ordenador Prácticas sobre el modelo de regresión lineal múltiple

7

PPPRRRAAACCCTTTIIICCCAAASSS SSSOOOBBBRRREEE EEELLL MMMOOODDDEEELLLOOO DDDEEE RRREEEGGGRRREEESSSIIIOOONNN LLLIIINNNEEEAAALLL MMMUUULLLTTTIIIPPPLLLEEE Práctica 1 Abra el archivo EJEMPLO REGRESION LINEAL.SAV (Anexo 1) con SPSS. Inspeccione las variables incluidas:

COLESTOT = Nivel de colesterol medido en mg/100ml QUETELET = Indice de quetelet en sus unidades

EDAD = Edad en años ALCOHOL = Consumo de alcohol: 0 ‘nunca’ 1 ‘bajo’ 2 ‘moderado/alto’

1. Construya el modelo de regresión lineal simple del colesterol como función de la edad, utilizando como variable respuesta el colesterol y explicativa la edad

2. ¿Cuántos parámetros tiene el modelo especificado? 3. Evalúe la hipótesis de linealidad. ¿Qué porcentaje de variabilidad del

colesterol es explicada por la edad?. ¿Podemos decir que el modelo es generalizable a la población? Interprete este resultado

4. Verifique los requerimientos del modelo - A través de los residuos estandarizados - A través de los residuos estudentizados - A través de los residuos eliminados

5. ¿Hay algún valor extremo destacable? Justifíquelo 6. Interprete el efecto de la edad sobre el colesterol. ¿Es significativo? Con

confianza 95%, ¿cuánto vale en la población de la que proceden los datos?

Anotaciones y respuestas

Estadística Avanzada: Modelos lineales. Prácticas con ordenador Prácticas sobre el modelo de regresión lineal múltiple

8

Práctica 2

1. A partir del archivo EJEMPLO REGRESION LINEAL.SAV, Construya el modelo

de regresión lineal simple del colesterol como función de la edad y el índice de quetelet, utilizando como variable respuesta el colesterol y explicativas la edad y quetelet

2. ¿Cuántos parámetros tiene el modelo especificado? 3. Evalúe la hipótesis de linealidad. ¿Qué porcentaje de variabilidad del

colesterol es explicada por el modelo resultante?. ¿Podemos decir que el modelo es generalizable a la población? Interprete este resultado

4. Verifique los requerimientos del modelo 5. Evalúe la colinealidad existente entre las variables edad. ¿Qué variabilidad

del colesterol es explicada por la edad? ¿Y por el índice de quetelet? ¿Y por ambas conjuntamente?

6. Interprete los efectos de las variables explicativas. ¿Son significativos? Con confianza 95%, ¿Cuánto valen en la población?

7. Realice un pronóstico de colesterol para edad 40 años e índice de quetelet 27

- Para un individuo con ese perfil - Para la media de los individuos con ese perfil

8. Calcule e interprete los coeficientes de correlación simple, múltiple, parcial, de determinación y determinación corregido

Anotaciones y respuestas

Estadística Avanzada: Modelos lineales. Prácticas con ordenador Prácticas sobre el modelo de regresión lineal múltiple

9

Práctica 3 1. Abra el archivo LITIA.SAV. Inspeccione las variables que contiene 2. Se desea discutir el efecto lineal de las variables EDAD, QUETELET, TALLA,

PESO Y COLESTOT sobre la variable respuesta TRIGLICE. Introduzca todas las variables en un modelo forzado y discuta los efectos de las variables y los requerimientos del modelo. Realice diagnósticos de colinealidad

3. Seleccione el modelo óptimo utilizando stepwise. Discútalo 4. Calcule la variable LNTRIGLIC= Logaritmo neperiano de triglicéridos. 5. Construya el modelo de regresión lineal para la variable respuesta lntriglic

como función de edad, quetelet y coletot. Evalúe el modelo, efectos de las variables y requerimientos.

6. Reduzca el modelo anterior si procede eliminar alguna variable e interprete

los efectos finales de las variables

Anotaciones. Respuestas

Estadística Avanzada: Modelos lineales. Prácticas con ordenador Prácticas sobre el modelo de regresión lineal múltiple

10

Práctica 4 1. Abra el archivo EJEMPLO DE REGRESION LINEAL. SAV. Defina variables

dummy para la variable ALCOHOL, tomando como categoría de referencia la categoría ‘Nunca’ (valor 0).

2. Suponga que el investigador plantea la variable ALCOHOL como factor de

riesgo principal a contrastar y cuantificar, mientras que las variables EDAD y QUETELET son variables confundientes. Defina una secuencia de construcción de modelos que le permita comprobar secuencialmente estos efectos:

- ¿Es significativo el efecto crudo del ALCOHOL? - ¿Cuánto se incrementa el colesterol de ser del grupo ‘Nunca toma

alcohol’ a ser del grupo ‘Consumo bajo’? ¿Cuál es el intervalo de confianza al 95% para este efecto?

- ¿Es significativo el efecto del ALCOHOL ajustado por la EDAD y QUETELET? ¿Tienen efecto significativo EDAD y QUETELET?

- ¿Se modifica sustancialmente el efecto del ALCOHOL al ajustarlo por EDAD y QUETELET?

3. Se desea realizar un pronóstico para la media de colesterol de los sujetos

que toman alcohol de forma moderada/alta, edad de 50 años y quetelet de 28 unidades. Construya elintervalo de confianza correspondiente

Anotaciones. Respuestas

Estadística Avanzada: Modelos lineales. Prácticas con ordenador Prácticas sobre el modelo de regresión lineal múltiple

11

Práctica 5 Abra el archivo PESONAC.SAV. Contiene datos relativos a un estudio sobre efecto del consumo de tabaco en las madres y el peso al nacimiento de los niños. Las variables que se consideraron fueron:

1. A través de el/los modelos de regresión lineal que considere oportunos

contesta las siguientes preguntas:

a) ¿Podemos decir que el tabaco influye sobre el peso al nacimiento? ¿Cúal es la magnitud de su efecto?

b) ¿Qué porcentaje de la variabilidad del peso al nacimiento es explicado

por el consumo de tabaco?

Anotaciones. Respuestas

NSERIE: Número identificador de cada observación EDAD: Edad en años de la madre PARTOS: 0 Ningún parto previo 1 Algún parto previo TABACO: 0 No fuma 1 Fuma PESONAC: Peso al nacimiento en gramos BAJOPESO: 1 Peso al nacer < 3000grs. 0 Peso al nacer > 3000grs

TALLAMA: Talla de la madre en cm. PESOMA: Peso de la madre en Kg. TALLAPA: Talla del padre en cm. TALLANAC: Talla del recién nacido en mm. ESTUDIOS: 1 Anbalfabetas 2 EGB 3 BUP 4 Univ/super. SITLABOR: 0 No trabaja 1 Trabaja SEXO: 1 Niño 2 niña

Estadística Avanzada: Modelos lineales. Prácticas con ordenador Prácticas sobre el modelo de regresión lineal múltiple

12

2. El objetivo fundamental de este estudio era demostrar si el consumo de tabaco de las madres es un factor de riesgo sobre el peso al nacimiento de los niños. Por ello, el efecto del tabaco debe ser ajustado por el efecto del resto de variables para ver si está confundido. Añadiendo las variables PARTOS, EDAD, PESOMA, TALLAMA, TALLAPA y TALLANAC al efecto del tabaco,

a) ¿Qué variables añaden capacidad explicativa significativa a la del

tabaco sobre el peso al nacimiento? b) ¿Cúanto se espera que se incremente o disminuya el peso al nacimiento

por un kilo de incremento del peso de la madre? c) Realice un análisis de residuos para discutir los requerimientos del modelo

3. Las variables ESTUDIOS Y SITLABOR no han sido introducidas en el modelo.

Para evaluar si el entorno socioeconómico puede añadir capacidad explicativa, añade estas variables al mejor modelo anterior, evaluando su efecto sobre el peso al nacimiento

a) ¿Puede decirse que las nuevas variables incluidas en el modelo confunden el efecto del tabaco sobre el peso al nacimiento? b) ¿Mantiene el tabaco su efecto significativo?

4. Por ciertas razones se sospecha que las variables PESOMA y TALLANAC

pueden generar un efecto de interacción con el PESONAC. Compruebe si esto es cierto

Anotaciones. Respuestas

Estadística Avanzada: Modelos lineales . Prácticas con ordenador Prácticas sobre el modelo de regresión logística

13

PPPRRRAAACCCTTTIIICCCAAASSS SSSOOOBBBRRREEE EEELLL MMMOOODDDEEELLLOOO DDDEEE RRREEEGGGRRREEESSSIIIOOONNN LLLOOOGGGIIISSSTTTIIICCCAAA

Práctica 6 Abra el archivo INFARTO.SAV (Anexo 2). Contiene datos de un estudio sobre infarto y factores deriesgo asociados. Las variables incluidas son: ESTRATO = Indicador de diseño PERSONA= Nº de orden INFARTO = 0 ‘No’ 1 ‘Si’ EDAD= En años TABACO = 0 ‘No fuma’ 1 ‘Fumador’ SEXO = 1 ‘Hombre’ 2 ‘Mujer’ PAS = Presión sistólica (mmHg) PAS1 = 1 ‘<130’ 2 ‘130-150’ 3 ‘>150’ ECG = 0 ‘Normal’ 1 ‘Anormal’ PAS2 = 1 ‘<150’ 2 ‘>=150’ 1. Construya el modelo de regresión logística para infarto (variable respuesta)

y tabaco (variable explicativa) 2. ¿Cuántos parámetros tiene el modelo? Interprételos 3. Evalúe la bondad de ajuste del modelo. ¿Cuánto vale la discrepacia del

modelo completo? ¿Cuánto vale la discrepancia inicial total? ¿Cuánto vale el test del cociente de verosimilitudes para el efecto del tabaco añadido a la constante? ¿Cuánto vale la discrepancia del modelo con una constante?

4. Interprete la asociación existente entre tabaco e infarto. ¿Con confianza

95% cuánto podemos decir que vale en la población? 5. Evalúe el test de Wald sobre el parámetro de la variable tabaco

Anotaciones. Respuestas

Estadística Avanzada: Modelos lineales . Prácticas con ordenador Prácticas sobre el modelo de regresión logística

14

Práctica 7 A partir del archivo INFARTO.SAV realice Vd. lo siguiente: 1. Construya el modelo de regresión logística para infarto como función de las

variables tabaco, ecg, pas, edad y sexo. 2. Evalúe la bondad de ajuste del modelo. ¿Qué variables presentan

asociación significativa con infarto? 3. ¿Cuánto valen los odds ratios entre infarto y cada una de las variables

consideradas?Interprete sus intervalos de confianza 4. Reduzca el modelo a las variables para las que haya detectado efecto

significativo. ¿Cuánto vale el odds ratio de asociación entre infarto y los perfiles (fumador, 30 años, hombre, ecg anormal, pas de 160 mmHg) vs. (no fumador, 40 años, mujer, ecg normal, pas de 120 mmHg)?

5. Calcule el intervalo de confianza al 95% para el odds ratio anterior 6. Construya las probabilidades de infarto en función de las variables del

modelo que haya obtenido en 5. Queremos pronosticar los resultados de la variable infarto ¿a partir de qué punto de corte para clasificar como infarto se obtienen mejores pronósticos, para 0,5 o para 0,3?

7. Calcule el intervalo de confianza de la probabilidad de infarto de un

individuo fumador, con antecedentes de ECG anormal y pas de 160mmHg

Anotaciones. Respuestas

Estadística Avanzada: Modelos lineales . Prácticas con ordenador Prácticas sobre el modelo de regresión logística

15

Práctica 8 Sobre las variables de la práctica 7, seleccione el modelo óptimo a través de un procedimiento por pasos (stepwise) Práctica 9 Se define como objetivo del estudio analizar el tabaco como factor de riesgo principal, mientras que el resto de variables son potencialmente confundientes o de interacción. A partir de las variables TABACO, ECG y PAS2, 1. Introduzca la variable tabaco y registre la asociación con infarto 2. Añada jerárquicamente las variables ECG y PAS2. Evalúe los cambios de

bondad de ajuste. Evalúe si alguna o las dos de estas variables son confundientes del efecto del tabaco sobre infarto

3. Añada términos de interacción del tabaco con ECG y con PAS2. Discuta si

alguna de estas interacciones es significativa e interprétela 4. ¿Tiene sentido comprobar la significación de la interacción entre ECG y

PAS2? 5. ¿Cuánto vale el odds ratio entre infarto y tabaco en cuando ECG es

anormal? ¿Cuánto vale su intervalo deconfianza de nivel 95%?

Anotaciones. Respuestas

Estadística Avanzada: Modelos lineales . Prácticas con ordenador Prácticas sobre el modelo de regresión logística

16

Práctica 10 Sabiendo que en realidad el diseño del estudio es de casos-controles, apareado 3 a 1, y que la variable estrato identifica el estrato de apareamiento, repita las prácticas 7, 8 y 9 suponiendo verosimilitud condicional (tiene que utilizar el programa EGRET) Práctica 11 Abra el archivo PESONAC.SAV. Contiene datos relativos a un estudio sobre efecto del consumo de tabaco en las madres y el peso al nacimiento de los niños. Las variables que se consideraron fueron:

1. A través de el/los modelos de regresión logística que considere oportunos

conteste las siguientes preguntas: ¿Podemos decir que el tabaco influye sobre el peso al nacimiento medido a través de la variable BAJOPESO ?. ¿Cúal es la magnitud de la asociación ? Evalúe la bondad de ajuste del modelo a través de la discrepancia y el test del cociente de verosimilitudes

Anotaciones. Respuestas

NSERIE: Número identificador de cada observación EDAD: Edad en años de la madre PARTOS: 0 Ningún parto previo 1 Algún parto previo TABACO: 0 No fuma 1 Fuma PESONAC: Peso al nacimiento en gramos BAJOPESO: 1 Peso al nacer < 3000grs. 0 Peso al nacer > 3000grs

TALLAMA: Talla de la madre en cm. PESOMA: Peso de la madre en Kg. TALLAPA: Talla del padre en cm. TALLANAC: Talla del recién nacido en mm. ESTUDIOS: 1 Anbalfabetas 2 EGB 3 BUP

4 Univ/super. SITLABOR: 0 No trabaja 1 Trabaja SEXO: 1 Niño 2 niña

Estadística Avanzada: Modelos lineales . Prácticas con ordenador Prácticas sobre el modelo de regresión logística

17

2. El objetivo fundamental de este estudio era demostrar si el consumo de tabaco de las madres es un factor de riesgo sobre el peso al nacimiento de los niños. Por ello, el efecto del tabaco debe ser ajustado por el efecto del resto de variables para ver si está confundido. Añadiendo las variables PARTOS, EDAD, PESOMA, TALLAMA, TALLAPA y TALLANAC al efecto del tabaco, ¿Qué variables se asocian significativamente con el BAJOPESO? ¿Confunden estas variables la asociación entre TABACO y BAJOPESO?

3. Las variables ESTUDIOS Y SITLABOR no han sido introducidas en el modelo.

Para evaluar si el entorno socioeconómico puede añadir capacidad explicativa, añada estas variables al mejor modelo anterior, evaluando su asociación con BAJOPESO (modelo con tabaco, efecto a testar, peso de la madre y talla del recién nacido). ¿Puede decirse que las nuevas variables incluidas en el modelo confunden el efecto del tabaco sobre el BAJOPESO? ¿Qué tendencia manifiestan las variables dummys en la asociación con BAJOPESO?

4. Compruebe si la interacción entre tabaco y peso de la madre es

significativa en el mejor modelo anterior 5. Calcule la probabilidad de nacimiento de bajo peso para madre

fumadora, de 40 años, primípara, de 50 kg, 160 cm de talla de la madre y 170 cm de talla del padre, analfabeta, y no trabaja. Calcule el intervalo de confianza de nivel 95% para esta predicción

6. Explique la aparente contradicción entre los resultados que se obtuvieron a

través de la regresión múltiple al analizar el efecto del tabaco sobre el peso al nacimiento y los obtenidos a través de regresión logística.

Anotaciones. Respuestas

Estadística Avanzada: Modelos lineales. Prácticas con ordenador Prácticas sobre el modelo de regresión de Poisson

18

PPPRRRAAACCCTTTIIICCCAAASSS SSSOOOBBBRRREEE EEELLL MMMOOODDDEEELLLOOO DDDEEE RRREEEGGGRRREEESSSIIIOOONNN DDDEEE PPPOOOIIISSSSSSOOONNN Práctica 12 Abra el archivo EJ1POISS.DAT. Contiene datos de un estudio sobre mortalidad por áreas. Las variables incluidas son: AREA = 0 o 1 EDAD = 0 ‘<=30’ 1 ‘>30’ DEF = Muertes ocurridas POBLA = Personas-tiempo 1. Construya el modelo de regresión de Poisson para la tasa de mortalidad

como función de la edad 2. ¿Cuántos parámetros tiene el modelo? 3. Evalúe la bondad de ajuste del modelo. ¿Cuánto vale la discrepancia del

modelo completo? ¿Cuánto vale la discrepancia inicial total? ¿Cuánto vale el test del cociente de verosimilitudes para el efecto de la edad añadido a la constante?

4. Interprete el efecto de la edad sobre la tasa de mortalidad. ¿Con

confianza 95% cuánto podemos decir que vale en la población? 5. Evalúe el test de Wald sobre el parámetro de la variable edad 6. Inspeccione las estimaciones que produce el modelo, tanto de las

frecuencias de muerte como de las tasas

Anotaciones. Respuestas

Estadística Avanzada: Modelos lineales. Prácticas con ordenador Prácticas sobre el modelo de regresión de Poisson

19

Práctica 13 1. Añada la variable área al modelo anterior 2. ¿Cuántos parámetros tiene el modelo? 3. Evalúe la bondad de ajuste del modelo. ¿Cuánto vale la discrepacia del

modelo completo? ¿Cuánto vale el test del cociente de verosimilitudes para el efecto del área sobre el modelo anterior?

4. Interprete ahora el efecto de la edad y del área sobre la tasa de

mortalidad. ¿Con confianza 95% cuánto podemos decir que valen estos efectos en la población en la población? Ajustado por edad, ¿podemos decir que el riesgo de muerte es superior en un área? ¿En cuál?

5. Inspeccione las estimaciones que produce este modelo, tanto de las

frecuencias de muerte como de las tasas 6. Añada un término de interacción al modelo anterior. Observe que sucede

con la discrepancia del modelo resultante, con los efectos de las variables edad y área y con el test del cociente de verosimilitudes para el modelo con interacción respecto del modelo con efectos de edad y área

7. Inspeccione las estimaciones que produce el modelo con interacción,

tanto de las frecuencias de muerte como de las tasas

Anotaciones. Respuestas

Estadística Avanzada: Modelos lineales. Prácticas con ordenador Prácticas sobre el modelo de regresión de Poisson

20

Práctica 14 Los archivos EJ3POISS.DAT y EJ4POISS.DAT contienen datos de defunciones y población de las ciudades de Valencia y Alicante (mujeres y hombres, respectivamente). Las variables incluidas son: CIUDAD = 1 ‘Alicante’ 2 ‘Valencia’ PERIODO = 1’1990-92’ 2 ‘1996-98’ SEXO = 1 (Hombres) en EJ4POISS y 2 (Mujeres) en EJ3POISS EDAD = De 1 a 16, intervalos de edad de 5 años (0-4, 5-9,...) DEF = Muertes ocurridas POBLA = Población a riesgo Con los datos de cada uno de estos archivos, realice lo siguiente: 1. Evalúe el efecto simple de la variable ciudad. ¿Cuánto vale el riesgo

relativo de muerte entre Valencia y Alicante?. ¿En qué ciudad hay más riesgo de muerte?. Evalúe el modelo

2. ¿Se modifica el riesgo relativo anterior si ajustamos por la variable periodo?

¿Qué quiere decir el resultado que observa? ¿Existe efecto significativo del periodo? Interprete el efecto del periodo ¿Ha aumentado o ha disminuido el riesgo de muerte de uno a otro periodo?. Evalúe el modelo

3. Ajuste los resultados anteriores por edad. ¿Se mantienen los efectos de la

ciudad y del periodo? ¿Cómo es el efecto de la edad?. Evalúe el modelo 4. Evalúe las interacciones posibles. Para el modelo resultante, interprete los

efectos detectados

Anotaciones. Respuestas

Estadística Avanzada: Modelos lineales. Prácticas con ordenador Prácticas sobre el modelo de regresión de Poisson

21

Práctica 15 Abra la base EJ5POISS.DAT. Contiene datos de un estudio sobre trasplantes. Las variables incluidas son: TIEMPO: Tiempo de seguimiento (días) EDAD: En años EVENTO: Resultado al final del seguimiento 0 ‘Favorable’ 1 ‘Desfavorable’ TRATA: 0 ‘No Tratamiento’ 1 ‘Tratamiento SEXO: 1 ‘Hombre’ 2 ‘Mujer’ SCORE: Puntuación de compatibilidad entre tejidos 1. Obtenga el riesgo relativo (cociente de densidades de incidencia) de

resultado desfavorable por no tratar frente a tratar. Calcule el intervalo de confianza al 95%. Evalúe el modelo

2. Ajuste el resultado anterior por las variables edad, sexo y score. ¿Se

modifica el riesgo relativo anterior? Evalúe el modelo. Compruebe los grados de libertad de la discrepancia, y observe el efecto de trabajar con datos individuales en lugar de por subgrupos de las variables

3. Para el modelo que contenga todos los efectos significativos, compruebe la

significación de las interacciones 4. Inspeccione las estimaciones que produce el mejor modelo anterior

Anotaciones. Respuestas

Estadística Avanzada: Modelos lineales. Prácticas con ordenador Prácticas sobre el modelo de regresión de Cox

22

PPPRRRAAACCCTTTIIICCCAAASSS SSSOOOBBBRRREEE EEELLL MMMOOODDDEEELLLOOO DDDEEE RRREEEGGGRRREEESSSIIIOOONNN DDDEEE CCCOOOXXX Práctica 16 Abra el archivo EJ2COX.SAV (Anexo 3). Contiene datos sobre 60 individuos trasplantados, con las siguientes variables: TIEMPO: Tiempo de seguimiento (días) EDAD: En años EVENTO: Resultado al final del seguimiento 0 ‘Favorable’ 1 ‘Desfavorable’ TRATA: 0 ‘No Tratamiento’ 1 ‘Tratamiento SEXO: 1 ‘Hombre’ 2 ‘Mujer’ SCORE: Puntuación de compatibilidad entre tejidos de un estudio sobre mortalidad por áreas. Las variables incluidas son: 1. Identifique origen, evento, tiempo, casos censurados y defina tasa de riesgo

o peligro, función de supervivencia y tasa de riesgo acumulada. 2. A través de Kaplan-Meier, construya la curva de supervivencia para el

resultado desfavorable del evento en el tiempo 3. Observe las funciones de supervivencia, tasa de riesgo y tasa de riesgo

acumulada 4. Compare las curvas de supervivencia según el tratamiento. Observe las

funciones de supervivencia, tasas de riesgo y tasas de riesgo acumuladas 5. Utilice la prueba log-rank para comprobar si hay diferencias significativas en

la supervivencia según tratamiento

Anotaciones. Respuestas

Estadística Avanzada: Modelos lineales . Prácticas con ordenador Práctica de aplicación de diversos modelos

23

Práctica 17 Con los datos de la base EJ2COX.SAV 1. Construya el modelo de regresión de Cox para la tasa de ocurrencia de

evento desfavorable en el tiempo como función del tratamiento 2. ¿Cuántos parámetros tiene el modelo? 3. Evalúe la bondad de ajuste del modelo. ¿Cuánto vale la discrepancia del

modelo completo? ¿Cuánto vale la discrepancia inicial total? ¿Cuánto vale el test del cociente de verosimilitudes para el efecto del tratamiento?

4. Interprete el efecto del tratamiento sobre la tasa de de ocurrencia del

evento en el tiempo. ¿Con confianza 95% cuánto podemos decir que vale en la población?

5. Evalúe el test de Wald sobre el parámetro de la variable tratamiento 6. Inspeccione las estimaciones que produce el modelo de las funciones de

supervivencia en baseline (línea base) no tratamiento, en tratamiento, funciones de supervivencia acumulada o impacto

7. Inspeccione los gráficos estimados por el modelo para la función de

supervivencia según tratamiento y la función log(-log(supervivencia))

Anotaciones. Respuestas

Estadística Avanzada: Modelos lineales . Prácticas con ordenador Práctica de aplicación de diversos modelos

24

Práctica 18 Con los datos de la base EJ2COX.SAV 1. Ajuste el resultado obtenido para el efecto de la variable tratamiento con

las variables edad, sexo y score 2. Evalúe la bondad de ajuste del modelo. ¿Cuánto vale la discrepancia del

modelo completo? ¿Cuánto vale el test del cociente de verosimilitudes de las variables añadidas sobre el modelo con efecto del tratamiento?

3. Inspeccione el gráfico estimado por el modelo para las funciones de

supervivencia según tratamiento de un individuo con 40 años, hobre y score de 1 punto

4. ¿Qué variables mantienen efecto significativo sobre la tasa de ocurrencia

del evento desfavorable?. ¿Estaba confundido el efecto del tratamiento? 5. Discuta gráficamente la hipótesis de proporcionalidad de riesgos con la

función log(-log) 6. Introduzca en el modelo de tratamiento un término para contrastar la

hipótesis de proporcionalidad de riesgos. Compruebe si es significativo. Discuta el resultado

Anotaciones. Respuestas

Estadística Avanzada: Modelos lineales. Prácticas con ordenador Práctica de aplicación de diversos modelos

25

PPPRRRAAACCCTTTIIICCCAAA DDDEEE AAAPPPLLLIIICCCAAACCCIIIÓÓÓNNN DDDEEE DDDIIIVVVEEERRRSSSOOOSSS MMMOOODDDEEELLLOOOSSS Práctica 19 Abra el archivo LEUCEMIA.SAV. Contiene observaciones sobre 42 individuos de las siguientes variables: TIEMPO: Tiempo de seguimiento (meses) EDAD: En años RECIDIVA: Resultado al final del seguimiento 0 ‘Favorable’ 1 ‘Desfavorable’ TRATA: 0 ‘Control’ 1 ‘Tratamiento SEXO: 1 ‘Hombre’ 2 ‘Mujer’ LNGLOBLA: Logaritmo del número de glóbulos blancos DISLOGBL: Disminución del logaritmo de glóbulos blancos 1. Ajuste modelos le permitan averiguar si la disminución del logaritmo de

glóbulos blancos puede verse explicada, y en qué medida, por el tratamiento, teniendo en cuenta la edad y el sexo de los sujetos.

2. ¿Qué diferencia se espera en la disminución de no tratar a tratar? ¿Es la

misma a cualquier edad? ¿Y entre hombres y mujeres? ¿Está confundido el efecto del tratamiento por la edad y/o el sexo?

3. Realice un pronóstico para la disminución esperada de un individuo

tratado, de 30 años y hombre ¿Cuánto vale el intervalo de confianza (al 95%) de este pronóstico?. Discuta la verificación de requerimientos del modelo final ajustado

Anotaciones. Respuestas

Estadística Avanzada: Modelos lineales . Prácticas con ordenador Práctica de aplicación de diversos modelos

26

Práctica 20 Con el archivo LEUCEMIA.SAV, 1. Ajuste modelos le permitan averiguar si la probabilidad de que se produzca

recidiva en el conjunto del seguimiento puede verse explicada, y en qué medida, por el tratamiento, teniendo en cuenta la edad, el sexo y los glóbulos blancos de los sujetos.

2. ¿Cuál es la magnitud de la asociación entre recidiva y tratamiento? ¿Cuál

su intervalo de confianza al 95%? ¿Está confundida por el resto de variables?

3. Queremos obtener la asociación entre los perfiles hombre, tratado, de 30

años, con logaritmo de glóbulos blancos de 2, frente a mujer, no tratada de 40 años y logaritmo de glóbulos blancos de 4. ¿Cuánto vale el odds ratio correspondiente? ¿Y su intervalo de confianza al 95%?

4. Ajuste ahora modelos que le permitan incorporar el tiempo de seguimiento

de cada sujeto y estimar el riesgo relativo de recidiva de tratar a no tratar, ajustado por edad, sexo y logaritmo de glóbulos blancos(use el archivo LEUCEMIA.DAT)

5. Compruebe si existe interacción significativa entre tratamiento y logaritmo

de glóbulos blancos

Anotaciones. Respuestas

Estadística Avanzada: Modelos lineales . Prácticas con ordenador Práctica de aplicación de diversos modelos

27

Práctica 21 Con el archivo LEUCEMIA.SAV, 1. Ajuste modelos le permitan averiguar si la tasa de recidiva en el tiempo

puede verse explicada, y en qué medida, por el tratamiento, teniendo en cuenta la edad, el sexo y los glóbulos blancos de los sujetos.

2. Para el mejor modelo anterior, estime curvas de supervivencia según

tratamiento 3. ¿Cúal es la supervivencia esperada de un sujeto hombre, de 40 años, con

logaritmo de glóbulos blancos de 5, sometido a tratamiento, a los 300 días de seguimiento? ¿Es la misma que si fuera mujer? ¿Porqué?

Anotaciones. Respuestas

Estadística Avanzada: Modelos lineales . Prácticas con ordenador

28

Anexo 1.- Datos para ejemplo de regresión múltiple Edad Alcohol Colest. Quet. Edad Alcohol Colest. Quet. Edad Alcohol Colest. Quet. 47 2 263 23,1 67 1 163 23,4 67 2 304 29,1 23 2 195 24,6 25 2 211 24,0 58 1 268 29,1 20 2 206 18,7 56 2 199 27,4 34 1 235 23,6 65 1 237 31,5 65 1 305 34,7 70 1 235 33,8 41 0 159 23,6 57 1 344 29,8 65 0 206 28,8 53 1 242 32,5 20 0 163 23,7 27 0 161 21,4 41 2 269 32,2 57 2 322 33,1 62 1 266 32,4 46 2 156 27,1 67 1 278 25,5 40 1 254 28,9 46 1 347 32,4 41 1 239 31,3 39 1 218 23,4 59 1 222 30,0 27 2 185 22,2 20 1 180 19,8 65 0 311 31,3 34 2 299 24,2 50 2 256 29,7 45 1 251 24,2

50 1 . 27,6 28 1 216 26,1 66 2 250 23,7 57 1 217 32,9 65 0 268 30,2 55 2 228 26,5 71 1 167 32,0 62 1 218 28,8 39 0 182 26,3 28 1 160 23,2 59 1 290 29,3 46 1 314 27,3 72 2 299 27,4 45 1 245 30,4 35 2 336 29,4 26 1 212 21,7 45 2 230 27,1 61 0 197 27,6 55 1 212 27,2 38 2 176 24,9 31 2 184 29,3 67 1 302 30,2 55 2 262 28,4 53 1 228 30,8 45 1 209 31,1 48 1 167 29,7 38 0 185 23,7 60 2 188 24,5 66 2 209 25,4 25 1 226 24,4 54 2 180 28,4 28 1 251 21,5 65 1 326 27,3 60 1 195 34,9

26 0 156 25,3 70 1 241 24,2 64 1 294 24,3 26 0 198 25,8 56 1 209 31,3 23 1 239 25,1 60 1 234 27,8 56 1 241 36,0 38 2 224 23,2 54 0 188 23,3 51 1 266 29,5 43 1 227 25,2 56 2 232 27,0 25 0 156 21,4 48 1 261 28,2 29 1 231 28,3 65 1 202 24,2 64 1 225 29,4 49 2 306 32,2 57 2 355 22,5 60 1 310 25,4 45 1 232 29,1 69 2 169 24,5 29 2 334 26,1 25 0 173 19,3 59 1 301 29,0 68 1 203 20,3 68 0 193 27,8 70 1 188 28,8 64 1 263 31,7 63 2 196 30,1 24 1 187 25,7 48 0 180 26,5 29 2 191 25,7

Estadística Avanzada: Modelos lineales . Prácticas con ordenador

29

Edad Alcohol Colest. Quet. 47 1 206 28,2 36 1 214 21,7 32 1 263 29,1 25 1 160 20,2 60 2 298 29,1 36 2 226 21,2 65 2 237 25,8 60 2 337 29,0 69 1 259 30,5 74 1 313 26,9 55 2 219 26,7 34 2 223 19,0 63 1 254 25,5 58 1 316 27,2 30 1 203 27,1 22 0 162 19,3 66 1 214 29,3 54 2 289 28,8 57 1 250 30,4 57 1 290 35,0 70 2 172 23,0 70 1 247 28,5 71 0 209 30,7 75 1 235 26,6 62 2 233 21,2 67 1 248 29,7 62 1 225 24,8 63 1 366 28,6 61 0 210 29,4 57 1 236 30,0 60 2 188 28,9 60 0 200 27,7 69 1 314 24,3 58 1 251 24,4 57 1 244 26,3 31 0 164 21,1 73 1 233 31,3

Edad Alcohol Colest. Quet. 57 2 137 27,7 54 2 258 25,2 21 2 206 29,1 48 2 256 21,2 50 2 232 29,2 58 1 259 26,6 47 2 193 24,0 43 2 257 27,5 47 1 245 26,2 42 2 204 23,7 52 0 151 22,7 38 0 167 24,2 41 0 166 24,2 41 1 188 23,2 35 2 250 27,0 35 1 195 22,3 40 2 181 25,5 39 2 307 27,5 34 1 158 30,9 42 1 211 26,0 33 1 188 25,3 32 1 271 22,4 30 1 164 27,6 29 2 211 23,9 68 1 229 28,1 31 2 214 30,8 30 1 302 27,3 27 1 172 20,4 25 1 145 24,7 22 1 169 23,4 25 1 244 24,8 24 1 137 33,3 44 2 219 22,2 23 1 226 27,5 24 1 146 26,8 54 1 174 26,7 48 2 263 33,0

Edad Alcohol Colest. Quet. 21 1 137 22,4 54 1 244 27,3 52 1 303 35,9 45 1 305 27,5 39 1 154 32,2 40 1 206 29,6 29 2 187 23,4 27 1 173 33,8 26 1 159 22,6 58 2 237 28,7 54 1 227 27,9 47 1 244 24,3 39 2 301 27,0 39 1 200 22,6 26 1 133 18,9 31 1 252 21,1 65 1 193 27,7 66 1 268 27,4 60 2 247 23,2 25 1 160 23,0 50 2 220 20,6 50 1 190 28,2 29 1 164 27,9 35 1 226 21,0

Estadística Avanzada: Modelos lineales . Prácticas con ordenador

30

Anexo 2.- Datos para ejemplo de regresión logística

Estrato Perso. Infarto Tabac. Pas Ecg Edad Sexo Pas1 Pas2 Estrato Perso. Infarto Tabac. Pas Ecg Edad Sexo Pas1 Pas2 1 1 1 1 160 1 55 1 3 2 1 2 0 0 140 0 43 2 2 1 1 3 0 0 120 0 57 1 1 1 2 4 1 1 160 1 45 1 3 2 2 5 0 0 140 0 71 1 2 1 2 6 0 0 120 0 65 2 1 1 3 7 1 1 160 0 43 1 3 2 3 8 0 0 140 0 29 2 2 1 3 9 0 0 120 0 46 1 1 1 4 10 1 0 160 0 67 1 3 2 4 11 0 0 140 0 55 1 2 1 4 12 0 0 120 0 62 1 1 1 5 13 1 1 160 0 26 2 3 2 5 14 0 0 140 0 32 1 2 1 5 15 0 0 120 0 39 2 1 1 6 16 1 0 160 0 47 1 3 2 6 17 0 0 140 0 42 1 2 1 6 18 0 0 120 0 25 1 1 1 7 19 1 1 160 0 70 1 3 2 7 20 0 0 140 0 70 2 2 1 7 21 0 0 120 0 65 1 1 1 8 22 1 0 160 0 63 1 3 2 8 23 0 0 140 0 67 1 2 1 8 24 0 0 120 0 56 1 1 1 9 25 1 1 160 0 46 1 3 2 9 26 0 0 140 0 47 2 2 1 9 27 0 0 120 0 48 1 1 1 10 28 1 1 160 0 49 1 3 2 10 29 0 0 140 0 50 1 2 1 10 30 0 0 120 0 30 1 1 1 11 31 1 0 120 1 49 2 1 1 11 32 0 0 120 0 39 1 1 1 11 33 0 0 120 0 38 1 1 1

12 34 1 1 120 0 58 1 1 1 12 35 0 0 120 0 47 1 1 1 12 36 0 0 120 0 46 1 1 1 13 37 1 0 120 1 45 1 1 1 13 38 0 0 120 0 48 1 1 1 13 39 0 0 120 0 46 1 1 1 14 40 1 0 140 1 47 2 2 1 14 41 0 0 140 0 48 1 2 1 14 42 0 0 140 0 48 2 2 1 15 43 1 0 120 1 45 1 1 1 15 44 0 0 140 1 47 1 2 1 15 45 0 0 160 0 37 1 3 2 16 46 1 0 120 1 36 1 1 1 16 47 0 0 140 1 45 1 2 1 16 48 0 0 120 0 53 1 1 1 17 49 1 1 160 1 54 1 3 2 17 50 0 0 140 0 54 2 2 1 17 51 0 0 120 0 56 1 1 1 18 52 1 1 160 1 59 2 3 2 18 53 0 0 140 0 46 1 2 1 18 54 0 0 120 0 47 2 1 1 19 55 1 1 160 1 54 1 3 2 19 56 0 0 120 0 56 2 1 1 19 57 0 0 120 0 80 1 1 1 20 58 1 1 160 1 78 1 3 2 20 59 0 0 140 1 77 1 2 1 20 60 0 0 120 1 67 1 1 1 21 61 1 1 160 0 66 1 3 2 21 62 0 0 140 0 65 1 2 1 21 63 0 0 120 0 64 2 1 1 22 64 1 1 120 0 54 1 1 1 22 65 0 0 120 0 54 2 1 1 22 66 0 0 120 0 54 1 1 1

Estadística Avanzada: Modelos lineales . Prácticas con ordenador

31

Estrato Perso. Infarto Tabac. Pas Ecg Edad Sexo Pas1 Pas2 23 67 1 1 160 1 54 1 3 2 23 68 0 0 140 0 56 1 2 1 23 69 0 0 140 0 45 1 2 1 24 70 1 1 120 1 44 1 1 1 24 71 0 0 120 0 44 1 1 1 24 72 0 0 160 0 44 2 3 2 25 73 1 1 120 0 43 1 1 1 25 74 0 0 160 0 40 1 3 2 25 75 0 0 140 0 40 2 2 1 26 76 1 0 160 0 40 1 3 2 26 77 0 1 140 0 46 1 2 1 26 78 0 0 120 0 47 1 1 1 27 79 1 0 120 0 48 1 1 1 27 80 0 1 120 0 34 1 1 1 27 81 0 0 120 0 67 2 1 1 28 82 1 0 160 1 65 1 3 2 28 83 0 0 140 0 64 1 2 1 28 84 0 1 120 0 43 1 1 1 29 85 1 0 160 0 44 1 3 2 29 86 0 0 140 0 34 1 2 1 29 87 0 1 120 0 34 2 1 1 30 88 1 1 120 0 35 2 1 1 30 89 0 0 140 0 35 1 2 1 30 90 0 1 160 1 36 1 3 2 31 91 1 1 140 0 47 1 2 1 31 92 0 0 120 0 29 1 1 1 31 93 0 1 120 0 30 1 1 1 32 94 1 1 160 1 30 1 3 2 32 95 0 1 140 0 30 1 2 1 32 96 0 0 120 0 47 1 1 1 33 97 1 1 160 1 48 1 3 2 33 98 0 1 140 1 49 1 2 1 33 99 0 0 120 0 49 1 1 1

Estadística Avanzada: Modelos lineales. Prácticas con ordenador Práctica de aplicación de diversos modelos

32

Anexo 3- Datos para ejemplo de regresión de Cox Tiempo Evento Edad Score Sexo Trata 49 1 48 1,23 1 0 5 1 55 1,34 1 0 15 1 54 1,11 2 1 38 1 40 1,66 1 0 17 1 65 1,13 2 0 2 1 43 1,13 1 1 150 1 50 1,32 1 1 39 1 49 1,34 1 0 84 1 42 ,80 2 1 152 1 48 ,36 1 0 7 1 54 1,89 1 0 255 1 54 ,87 1 1 1 1 45 1,12 1 0 307 1 49 1,12 1 1 35 1 56 2,05 2 0 36 1 55 2,05 2 1 36 1 43 2,76 2 0 500 1 42 1,38 1 0 27 1 52 2,76 1 0 218 1 52 1,62 2 0 432 1 58 ,96 1 0 600 0 33 1,00 1 1 714 0 38 ,48 1 1 34 1 50 1,13 2 0 77 1 57 1,30 1 1 110 1 58 1,22 2 1 2 1 49 ,90 1 0 168 0 31 ,27 1 1 333 0 40 1,00 2 1

Tiempo Evento Edad Score Sexo Trata 232 0 30 1,10 1 1 38 0 45 1,20 1 0 116 0 41 ,87 1 1 231 0 36 ,28 1 1 87 0 50 ,65 1 0 112 0 29 1,10 1 0 450 0 33 ,45 1 1 338 0 29 ,56 2 0 23 0 35 1,45 2 0 79 0 29 1,30 1 1 234 0 39 1,10 2 1 289 0 41 ,30 1 1 25 0 55 1,90 1 0 45 0 49 2,04 2 1 340 0 40 ,76 1 1 180 0 40 ,81 2 0 76 0 49 1,30 1 0 334 0 38 ,65 2 1 488 0 41 1,00 1 0 500 0 29 ,65 1 1 750 0 30 ,54 2 0 255 0 37 ,58 1 0 673 0 54 ,33 2 1 33 1 53 2,06 1 1 32 1 50 1,10 2 1 345 1 46 ,69 1 1 220 1 37 ,29 2 0 36 1 55 1,90 1 1 2 1 49 2,05 2 0 78 0 46 ,10 1 0 650 0 35 ,56 2 1