prostata marçal

19
MASTER INTERUNIVERSITARIO DE ESTADÍSTICA E INVESTIGACIÓN OPERATIVA (MIEIO) 20102011 ANALISIS DE SUPERVIVENCIA Trabajo fin de asignatura Conjunto de datos: CancerProstata.txt Marçal Plans Maider Nuin Barcelona, enero 2011

Upload: marcalplans

Post on 04-Jul-2015

157 views

Category:

Documents


0 download

DESCRIPTION

Ejemplo práctico de análisis de Supervivenvia Comentado y programod en R

TRANSCRIPT

Page 1: Prostata Marçal

 

 MASTER INTERUNIVERSITARIO DE ESTADÍSTICA  

E INVESTIGACIÓN OPERATIVA (MIEIO)  2010­2011 

 

ANALISIS DE SUPERVIVENCIA 

Trabajo fin de asignatura 

Conjunto de datos: CancerProstata.txt 

Marçal Plans Maider Nuin 

 

Barcelona, enero 2011 

   

Page 2: Prostata Marçal

1

1. Introducción 

En este trabajo se analiza un conjunto de datos sobre 450 pacientes de cáncer de próstata. El objetivo es estudiar la eficacia del tratamiento de estrógeno con respecto a la supervivencia de pacientes con cáncer de próstata. Asimismo, se tendrán en cuenta otras variables como la edad, el estadio del cáncer o la presión sanguínea.

A continuación se presentan las variables del estudio:

1. Variables explicativas:

Identificador del paciente: se define por un número aleatorio.

Estadio del cáncer: factor con dos niveles, estadios 3 y 4, donde el 3 indica un estadio menos avanzado que el 4.

Tratamiento de estrógeno: es el factor principal del estudio, con 4 niveles (Placebo, 0.2 mg, 1 mg o 5 mg de estrógeno).

Edad: variable continua, sus unidades son años. A fin de hacer los datos más manejables se reparametriza en tres niveles teniendo en cuenta la proporción de datos (nombre Gedad):

40 < Grupo 1 < 70

70 ≤ Grupo 2 < 75

75 ≤ Grupo 3 < 95

Índice de peso: variable continua obtenida por la expresión: Peso (kg) - altura (cm) +200

Historial clínico de enfermedades cardiovasculares: variable dicotómica (1: sí; 0: no)

Presión sanguínea sistólica: variable continua, unidades en mmHg divididos por 10

Presión sanguínea diastólica: variable continua, unidades en mmHg divididos por 10

Nivel de hemoglobina: variable continua, sus unidades son en g/100ml

Tamaño del tumor inicial: variable continua, sus unidades son en cm2

Metástasis de huesos: variable dicotómica (1: sí; 0: no)

2. Variables de respuesta:

Tiempo de supervivencia (en meses a partir del comienzo del estudio) Indicador de censura (1: muerte, 0: censura)

De los pacientes muertos al final del estudio, no todos murieron debido al cáncer de próstata; sin embargo, para esta práctica no se ha distinguido entre las distintas causas de muerte. Al inicio del estudio, ninguno de los pacientes estuvo postrado en cama.

Para el análisis de estos datos se ha utilizado el software R. El código utilizado se adjunta al final del documento como Anexo.

Page 3: Prostata Marçal

2

2. Análisis descriptivo 

Para describir las covariantes continuas se utilizarán los descriptores habituales (media, varianza y coeficiente de variación C.V.=(SD/mean)×100) para caracterizar la población en cada nivel de los factores. (Tabla 1)

Algunos pacientes se perdieron en el estudio, ya que hay 505 ID y solo se tienen resultados de 450 pacientes.

Tabla 1. Descripción de las variables para cada nivel de los factores

Edad  Índice de Peso  Presión Sistólica  Presión Diastólica  Hemoglobina  Tamaño del Cánc

trat  estadio  card  metast  N  Media  Variancia  C.V.%  Media  Variancia  C.V.%  Media  Variancia  C.V.%  Media  Variancia  C.V.%  Media  Variancia  C.V.%  Media  Variancia 

0.2 mg  3  0  0  31  71.3  32.9  8.05  97  185.2  14.03  14.2  5.07  15.91  7.94  1.596  15.92  13.7  3.33  13.3  14.6  139.3 

0.2 mg  3  1  0  36  72.7  34.2  8.04  103  174  12.81  14.5  6.03  16.93  7.92  1.736  16.64  13.7  3.83  14.27  11.33  68.4 

0.2 mg  4  0  0  17  70.5  71.4  11.98  97.1  178.7  13.77  14.5  2.51  10.96  8.18  0.904  11.63  14  1.91  9.85  18.47  281.8 

0.2 mg  4  0  1  7  68.7  61.9  11.45  97  140.7  12.23  14.3  1.9  9.66  8.29  2.571  19.35  11.5  3.38  16.05  19.29  92.9 

0.2 mg  4  1  0  17  69.8  64.8  11.54  100.5  108.1  10.34  13.9  4.06  14.45  7.94  1.309  14.41  13.2  3.26  13.64  14.47  164.9 

0.2 mg  4  1  1  2  66  18  6.43  101.5  612.5  24.38  12.5  0.5  5.66  8  0  0  11.6  2.88  14.63  14.5  0.5 

1 mg  3  0  0  44  71.5  47  9.59  100.6  147.3  12.06  13.9  4.1  14.59  8.02  1.325  14.35  13.8  3.55  13.65  11.34  105.1 

1 mg  3  1  0  24  72.3  43.6  9.13  96.5  125  11.58  15.1  14.64  25.29  8.54  5.563  27.61  13.9  4.52  15.29  12.42  120.9 

1 mg  4  0  0  20  68.1  81.7  13.27  104.6  177.5  12.74  14.8  5.67  16.15  8.55  2.155  17.17  14.6  1.05  7.02  16.58  95.4 

1 mg  4  0  1  15  70.3  76.8  12.47  84.7  150.1  14.46  12.9  6.12  19.23  7.53  2.41  20.61  12.1  5.38  19.12  18.33  182 

1 mg  4  1  0  7  74.9  13.1  4.84  99.3  97.9  9.97  14.4  3.62  13.18  8.14  2.143  17.98  12.7  3.82  15.41  21.57  74.6 

1 mg  4  1  1  8  70.2  68.8  11.81  99  185.7  13.77  13.8  7.64  20.11  7.62  2.839  22.1  12.8  2.25  11.76  16.12  174.1 

5 mg  3  0  0  31  69.5  59.4  11.08  102.6  164  12.48  13.9  4.53  15.27  8.1  1.69  16.06  13.9  3.09  12.67  15.23  284.8 

5 mg  3  0  1  1  72  NA  NA  96  NA  NA  11  NA  NA  8  NA  NA  10.3  NA  NA  9  NA 

5 mg  3  1  0  34  73.9  42.8  8.86  96.7  103.7  10.53  14.3  4.03  14.05  8.26  2.261  18.19  13.9  3.27  13.04  9.03  48 

5 mg  4  0  0  18  71.3  22.4  6.63  100  157.5  12.55  14.2  3.91  13.96  8.22  1.359  14.18  13.7  1.9  10.08  14.22  96.4 

5 mg  4  0  1  13  70.2  111.4  15.03  94.9  147.6  12.8  14.3  2.56  11.19  8.08  2.244  18.54  13.1  4.19  15.61  21.62  134.3 

5 mg  4  1  0  9  75.1  25.4  6.7  103.2  410.9  19.64  14.8  6.69  17.51  8.33  2.25  18  13.9  4.02  14.42  13.22  202.2 

5 mg  4  1  1  3  74  4  2.7  94.7  57.3  8  13.7  4.33  15.23  6.33  0.333  9.12  12.7  16.41  31.82  37.67  684.3 

placebo  3  0  0  42  70.3  45.7  9.61  100.8  150.8  12.18  14.1  4.26  14.67  8.24  2.43  18.92  14  2.7  11.77  12.31  98.1 

placebo  3  1  0  25  72.2  38.2  8.56  102.9  245  15.21  15.8  6.36  16  8.76  3.19  20.39  13  2.95  13.2  8.16  31.3 

placebo  4  0  0  21  72.9  35.8  8.21  98.1  128.2  11.54  14  5.25  16.31  8.24  2.19  17.97  12.6  4.05  15.96  17.3  169.4 

placebo  4  0  1  7  65.9  110.5  15.96  102.3  127.2  11.03  14.9  6.81  17.56  8.71  0.905  10.92  11.5  2.88  14.8  25.14  100.8 

placebo  4  1  0  13  74.7  6.4  3.39  97.9  278.2  17.03  13.7  5.9  17.74  7.77  1.026  13.04  14  1.99  10.06  14.31  275.9 

placebo  4  1  1  5  73.6  14.3  5.14  101  211.5  14.4  15.4  11.8  22.31  8.2  2.2  18.09  14.3  1.58  8.8  23.4  122.3 

En la tabla 1 se observa que uno de los grupos sólo tiene un representante (5 mg, estadio 3 y metástasis 1), hecho que hará que el análisis para esta combinación de factores sea inviable. También se observa que no todos los factores están representados en cada uno de los niveles de los factores (se tendrán problemas para calcular interacciones), el diseño no es cuadrado.

Estudiamos las variables mediante un gráfico de dispersión, en el que se ha incluido una línea suavizada de tendencia y una recta de regresión para observar si tenemos correlaciones de las variables. En la diagonal tenemos la función de densidad de cada variable.

Page 4: Prostata Marçal

3

Se observa que prácticamente no hay ninguna correlación lineal entre las variables continuas, menos la presión sistólica y la diastólica. Se puede verificar en la tabla 2 de coeficientes de determinación como estas correlaciones son prácticamente inexistentes.

Tabla 2. Coeficientes de determinación de las covariables

edad  ipeso  psist  pdiast  hemog  tamaño 

edad  1  0.004  0.005  0.009  0.011  0.000 

ipeso  0.004  1  0.040  0.059  0.076  0.003 

psist  0.005  0.040  1  0.393  0.007  0.001 

pdiast  0.009  0.059  0.393  1  0.022  0.002 

hemog  0.011  0.076  0.007  0.022  1  0.006 

tama�  0.000  0.003  0.001  0.002  0.006  1 

Para el factor de interés, Tratamiento, se mira qué censura tienen sus datos ya que de esto dependerá la robustez de las afirmaciones que se podrán desprender.

Tabla 3. Tabla de contingencia para la censura según el nivel de Tratamiento de Estrógenos

Censura 

0  1  % de Censura 

Tratam

iento 

0.2 mg  26  84  23.6 

1 mg  55  63  46.6 

5 mg  31  78  28.4 

placebo  30  83  26.5 

Se observa que hay un alto porcentaje de censura, que ronda el 25% en todos los niveles del factor Tratamiento, y sobre todo en el nivel 1 mg de estrógenos, donde se acerca al 50% de los datos. La censura que tenemos es censura por la derecha. Solo tenemos casos en los que los pacientes “abandonan” el estudio. Consideraremos que todos los pacientes que mueren son debidos al cáncer de próstata, ya que sino, tendríamos que tener en cuenta los riesgos competitivos.

Page 5: Prostata Marçal

4

 3.  Análisis no paramétrico 

3.1. Estimación de la función de supervivencia 

Se estiman las funciones de supervivencia para todas las covariables. A continuación se presentan las curvas de las covariables definidas como factores.

En el gráfico se observa que los pacientes sometidos al tratamiento de 1 mg parecen tener en general una supervivencia mayor que los sometidos a un tratamiento de 0.2 mg, 5 mg y al placebo.

Las medianas (en meses) de cada grupo de pacientes según el tratamiento aplicado son 31.5, 49.5, 36 y 36 para los tratamientos de 0.2 mg, 1 mg, 5 mg y placebo respectivamente.

En cuanto a los grupos de edad, se observan diferencias, y el grupo de pacientes más jóvenes parece mostrar una supervivencia mayor que los grupos de mayor edad.

El factor estadio y metástasis tienen un comportamiento similar, mostrando una menor supervivencia en los niveles de estadio más avanzado y en el de tener metástasis frente a no tenerla.

Page 6: Prostata Marçal

5

3.2.  Comparación  de  dos  o más  funciones  de  supervivencia mediante  la prueba log­rango u otras 

Mediante la aplicación de diferentes pruebas no paramétricas para comparar las funciones de supervivencia, se han encontrado efectos significativos de todas las variables excepto del estadio, la presión sistólica y la presión diastólica. A continuación se muestran más detalles de algunos de los resultados obtenidos.

3.2.1. En función del tratamiento al que han sido sometidos los pacientes

Se obtiene:

La prueba log-rango da el mismo peso (W(ti)=1) a cada una de las diferencias entre el número de eventos observado y el esperado bajo la hipótesis nula (de que no hay diferencias entre las funciones de supervivencia del grupo control y de los grupos tratados). Observando el p-valor obtenido en esta prueba (0.0177), existen diferencias significativas entre la supervivencia del grupo tratado con 1 mg y la del resto de los grupos.

En cambio, la prueba de Peto-Peto da diferente peso a cada observación, W(ti)= S t , dando un mayor

peso a las diferencias que se producen al principio del tiempo de estudio (con supervivencia mayor) y un menor peso para las observaciones posteriores. Según este enfoque, las diferencias entre los efectos de los tratamientos no serían significativas.

La tercera prueba (rho=-1), da más peso a los valores del final del estudio, que según el gráfico es en los que más se manifiestan las diferencias entre los pacientes sometidos al tratamiento con 1 mg. Por ello, en los resultados de la tercera prueba se observa un p-valor=0.00367, mucho menor que en las dos pruebas anteriores, siendo significativamente mayor la supervivencia para el grupo tratado con 1 mg.

3.2.2. En función del estadio del tumor:

Page 7: Prostata Marçal

6

Se observa que solamente en la prueba de Peto-Peto (que da un mayor peso a las diferencias que se producen al principio del tiempo de estudio) se obtiene un p-valor cercano a 0.05, aunque ni siquiera en esta prueba resulta significativo el efecto del estadio del cáncer. Según las otras dos pruebas, tampoco hay diferencias en función del estadio.

3.2.3. En función del historial clínico de enfermedades cardiovasculares: El historial clínico de enfermedades cardiovasculares sí parece ser un factor estadísticamente significativo en la supervivencia del cáncer de próstata según los datos que tenemos y los p-valores obtenidos en las tres pruebas de comparación: log-rango (p-valor=8.69×10-6), Peto-Peto (p-valor=5.76×10-5) y prueba para detectar diferencias tardías (p-valor=3.51×10-6).

3.2.4. En función de la existencia de metástasis:

Asimismo, la existencia de metástasis resulta un factor estadísticamente significativo en la supervivencia del cáncer de próstata según los resultados y los p-valores (<0.05) obtenidos en las tres pruebas de comparación para un nivel de confianza del 95%: log-rango (p-valor=0.00767), Peto-Peto (p-valor=0.0116) y prueba para detectar diferencias tardías (p-valor=0.0116).

3.2.5. En función del historial clínico de enfermedades cardiovasculares y la existencia de metástasis al mismo tiempo:

Se observa que los pacientes sin un historial previo de enfermedades cardiovasculares tienen una mejor supervivencia que los que han tenido problemas cardiovasculares, para los dos niveles del estadio del tumor.

Page 8: Prostata Marçal

7

4.  Análisis paramétrico 

4.1. Ajuste de un modelo paramétrico (Weibull, log­logístico u otro) 

NOTA: Al ajustar modelos de la familia logística los 0 que se encuentran en algunos tiempos no se pueden modelizar, ya que ln(0)=?Inf¿, así que, se ha decidido suprimir todas aquellas muestras con valor de tiempo 0; en total son 12 muestras (individuos que morían al mes 0), que sobre 450 no suponen una gran pérdida de información.

Gráficos para comparar cual es la distribución más adecuada:

Se observa en la gráfica y en el pie de cada una con la correlación que la distribución más adecuada es la Exponencial o la Weibull. Por eso utilizaremos las dos para comentar las covariables, la introducción o la eliminación de cada muestra vendrá definido por el nivel de significación del 5% y se utilizará el procedimiento stepwise para la selección.

4.2. Interpretación del ajuste  Distribución Exponencial: g.l. 9; AIC: 2916.51 Call: survreg(formula = Surv(time, cens) ~ trat + edad + ipeso + card + tamaño + metast, data = prostata[-which(prostata$time == 0), c(2:14)], dist = "exponential") Value Std. Error z p (Intercept) 4.55821 0.83671 5.4478 5.10e-08 trat1 mg 0.49700 0.17415 2.8538 4.32e-03 trat5 mg 0.17260 0.16409 1.0519 2.93e-01 tratplacebo -0.00781 0.15851 -0.0493 9.61e-01 edad -0.01891 0.00917 -2.0615 3.93e-02

Page 9: Prostata Marçal

8

ipeso 0.01185 0.00493 2.4020 1.63e-02 card1 -0.50438 0.11997 -4.2043 2.62e-05 tamaño -0.01755 0.00474 -3.7019 2.14e-04 metast1 -0.42572 0.17039 -2.4986 1.25e-02 Scale fixed at 1 Exponential distribution Loglik(model)= -1449.3 Loglik(intercept only)= -1479.5 Chisq= 60.49 on 8 degrees of freedom, p= 3.7e-10 Number of Newton-Raphson Iterations: 4 n=433 (5 observations deleted due to missingness) Distribución de Weibull: g.l. 10 AIC:2911.1 Call: survreg(formula = Surv(time, cens) ~ trat + edad + ipeso + card + hemog + tamaño + metast, data = prostata[-which(prostata$time == 0), c(2:14)], dist = "weibull") Value Std. Error z p (Intercept) 3.91234 0.81667 4.7906 1.66e-06 trat1 mg 0.44454 0.15193 2.9259 3.44e-03 trat5 mg 0.14540 0.14289 1.0175 3.09e-01 tratplacebo -0.00178 0.13743 -0.0129 9.90e-01 edad -0.01531 0.00806 -1.9009 5.73e-02 ipeso 0.00927 0.00448 2.0723 3.82e-02 card1 -0.45625 0.10545 -4.3269 1.51e-05 hemog 0.04352 0.03004 1.4487 1.47e-01 tamaño -0.01637 0.00419 -3.9103 9.22e-05 metast1 -0.34903 0.15123 -2.3079 2.10e-02 Log(scale) -0.14351 0.05065 -2.8337 4.60e-03 Scale= 0.866 Weibull distribution Loglik(model)= -1444.5 Loglik(intercept only)= -1478 Chisq= 67.02 on 9 degrees of freedom, p= 5.8e-11 Number of Newton-Raphson Iterations: 5 n=433 (5 observations deleted due to missingness) Se encuentra una sola diferencia entre el modelo con la distribución Exponencial y la distribución Weibull, este último tiene en cuenta la hemoglobina a pesar de que su p-value sea muy grande.

Si comparamos el modelo con la hemoglobina o sin ella, se obtiene que no hay diferencias significativas entre los modelos con un p-value=0.145. Con lo que elegiremos el modelo más parsimonioso, sin la hemoglobina:

survreg(formula = Surv(time, cens) ~ trat + edad + ipeso + card + tamaño + metast, data = prostata[-which(prostata$time == 0), c(2:14)], dist = "weibull") Value Std. Error z p (Intercept) 4.4581 0.72942 6.112 9.85e-10 trat1 mg 0.4450 0.15231 2.922 3.48e-03 trat5 mg 0.1624 0.14289 1.137 2.56e-01 tratplacebo -0.0102 0.13750 -0.074 9.41e-01 edad -0.0171 0.00801 -2.136 3.27e-02 ipeso 0.0110 0.00433 2.543 1.10e-02 card1 -0.4578 0.10527 -4.349 1.37e-05 tamaño -0.0159 0.00415 -3.843 1.21e-04 metast1 -0.3938 0.14866 -2.649 8.07e-03 Log(scale) -0.1420 0.05070 -2.801 5.09e-03 Scale= 0.868 Weibull distribution Loglik(model)= -1445.5 Loglik(intercept only)= -1478 Chisq= 64.93 on 8 degrees of freedom, p= 5e-11 Number of Newton-Raphson Iterations: 5 n=433 (5 observations deleted due to missingness)

Las variables que resultan significativas al 95% según este análisis y por tanto se incluyen en el modelo son:

- Factor Tratamiento de estrógeno (Placebo, 0,2 mg, 1 mg o 5 mg de estrógeno) - Historial clínico de enfermedades cardiovasculares (1: sí; 0: no) - Metástasis de huesos (1: sí; 0: no) - Edad (como variable continua)

Page 10: Prostata Marçal

9

- Índice de peso - Tamaño del tumor

4.3. Interpretación de los parámetros en términos de riesgo relativo, odds  relativo o factor de aceleración 

La interpretación que se puede concluir, con los RR (Relative Hazard Ratios):

Para el factor Tratamiento: RR1mg:0.60 RR5mg:0.83 RRplacebo:1.01 Tomar 1 mg tiene un riesgo 0.60 veces inferior de morir de cáncer de próstata que tomar 0.25 mg, así tomar 5 mg tiene un 0.83 veces inferior que tomar 0.25 mg y el placebo tiene un riesgo 1.01 veces superior de morir de cáncer que el tratamiento con 0.25 mg. Se desprende que el placebo y el tratamiento 0.25 mg no tienen ningún efecto y el máximo de supervivencia está en la dosis de un miligramo. Variable Edad: (Saltos de 5 años) RRedad(5): 1.10 Cada 5 años el riesgo de morir por cáncer de próstata es 1.10 superior. Variable Índice de Masa Corporal: RRipeso:0.99 El incremento en una unidad de Índice de peso disminuye 0.99 veces el riesgo de morir por cáncer de próstata. Se ha comprobado centrando los datos si las conclusiones son iguales. Factor Historial Clínico de Enfermedades Cardiovasculares: RRcardio:1.69 Tener una enfermedad cardiovascular incrementa 1.69 veces el riesgo de morir por cáncer de próstata frente a los que no lo tienen la patología. Variable Tamaño del Cáncer: RRtamaño:1.02 Cada cm2 de tumor incrementa el riesgo de morir de cáncer en 1.02. Se ha comprobado centrando los datos si las conclusiones son iguales. Para el factor Metástasis en los Huesos: RRmetas:1.57 Tener un cáncer y Metástasis en los huesos incrementa 1.57 veces el riesgo de morir por cáncer de próstata frente los que no tienen la patología.

5. Análisis semi‐paramétrico 

5.1. Ajuste de un modelo de Cox 

Ajustamos el modelo de Cox para todas las variables a la vez. Mediante el procedimiento stepwise seleccionaremos los efectos principales que sean más significativos. El procedimiento es el mismo que se ha utilizado para el caso de los modelos Paramétricos.

Mediante la comparación (ANOVA) de los modelos ajustaremos las variables que durante el procedimiento stepwise hayan quedado en entredicho o que tengan una significación muy baja, se comparan los modelos con ella o sin ella.

Para las interacciones procederemos de la misma forma. Se construirá el modelo saturado con todas las interacciones y con el procedimento Stepwise se seleccionarán aquellas interacciones que tengan una

Page 11: Prostata Marçal

10

significación elevada. Para las interacciones que queden en entredicho se recalcularan los modelos con y sin ellas, y mediante la comparación de los modelos se calculará la significación de tener la interacción en cuenta o no.

Modelos con todos los efectos principales:

Call: coxph(formula = Surv(time, cens) ~ trat + edad + ipeso + card + tamaño + metast, data = prostata[complete.cases(prostata), 2:13]) n= 445 coef exp(coef) se(coef) z Pr(>|z|) trat1 mg -0.453791 0.635215 0.170835 -2.656 0.007900 ** trat5 mg -0.139868 0.869473 0.161878 -0.864 0.387568 tratplacebo 0.031111 1.031600 0.156562 0.199 0.842485 edad 0.022407 1.022660 0.009119 2.457 0.013998 * ipeso -0.012773 0.987308 0.004876 -2.620 0.008804 ** card1 0.514954 1.673562 0.118069 4.361 1.29e-05 *** tamaño 0.017691 1.017849 0.004631 3.820 0.000133 *** metast1 0.425824 1.530851 0.167478 2.543 0.011004 * --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 exp(coef) exp(-coef) lower .95 upper .95 trat1 mg 0.6352 1.5743 0.4545 0.8878 trat5 mg 0.8695 1.1501 0.6331 1.1941 tratplacebo 1.0316 0.9694 0.7590 1.4021 edad 1.0227 0.9778 1.0045 1.0411 ipeso 0.9873 1.0129 0.9779 0.9968 card1 1.6736 0.5975 1.3278 2.1093 tamaño 1.0178 0.9825 1.0087 1.0271 metast1 1.5309 0.6532 1.1025 2.1256 Rsquare= 0.136 (max possible= 1 ) Likelihood ratio test= 64.96 on 8 df, p=4.909e-11 Wald test = 65.36 on 8 df, p=4.103e-11 Score (logrank) test = 65.91 on 8 df, p=3.19e-11 Se observa que con el procedimiento stepwise la variable hemoglobina entra dentro del modelo, pero una vez concluido el proceso se compara el modelo con la variable hemoglobina y si y se observa que los modelos no son significativamente diferentes, así que por el principio de parsimonia escogemos el modelo con menos variables. Creamos un modelo que incluya todas las posibles interacciones con el efecto de relevancia Tratamiento. Volvemos a utilizar el mismo procedimiento de selección de variables pero para las interacciones. Este termina seleccionando la interacción Tratamiento por Edad y Tratamiento por Metástasis en los huesos. Comprobando mediante la comparación de modelos los modelos con estas interacciones o sin ellas, vemos que estas dos interacciones no son significativamente diferentes de cero, por lo que no incluiremos las interacciones en el modelo (ver la siguiente salida de R): Analysis of Deviance Table Cox model: response is Surv(time, cens) Model 1: ~ trat + edad + ipeso + card + hemog + tamaño + metast + trat:edad + trat:metast Model 2: ~ trat + edad + ipeso + card + hemog + tamaño + metast + trat:metast loglik Chisq Df P(>|Chi|) 1 -1665.6 2 -1668.7 6.2076 3 0.1019 Analysis of Deviance Table Cox model: response is Surv(time, cens) Model 1: ~ trat + edad + ipeso + card + tamaño + metast + trat:metast Model 2: ~ trat + edad + ipeso + card + tamaño + metast loglik Chisq Df P(>|Chi|) 1 -1668.7 2 -1671.9 6.3157 3 0.09722 . --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

5.2. Interpretación del ajuste  Las variables que resultan significativas al 95% según el análisis semi-paramétrico y por tanto se incluyen en el modelo de Cox son:

Page 12: Prostata Marçal

11

- Tratamiento de estrógeno (Placebo, 0,2 mg, 1 mg o 5 mg de estrógeno) - Historial clínico de enfermedades cardiovasculares (1: sí; 0: no) - Metástasis de huesos (1: sí; 0: no) - Edad (como variable continua) - Índice de peso - Tamaño del tumor

El Tratamiento sería la variable de interés y las demás serían variables confusoras.

En el modelo de Cox, los coeficientes beta son positivos, por lo que al incrementar el coeficiente, disminuye la función supervivencia, ya que incrementa el riesgo de ocurrencia.

5.3. Interpretación de los parámetros en términos de riesgo relativo 

El factor tratamiento (nivel de referencia: 0.25 mg estrógenos):

1

1 1

0

ln 0.454 ; =exp 0.454 ; =0.6352TT TRH RH

trat1 mg RR=0.6352 trat5 mg RR=0.8695 tratplacebo RR=1.0316 El tratamiento 1 mg reduce 0.635 veces el riesgo de morir que el de tratamiento de referencia 0.25 mg. El tratamiento con 5 mg reduce 0.87 veces el riesgo que el tratamiento de 0.25. El grupo con tratamiento placebo tiene el mismo riesgo que el tratado con 0.25 mg de estrógeno.

Variable continua edad: RR=1.0227 Cada año de edad a partir de 40 años (edad mínima) tiene 1.023 veces más de riesgo de morir por cáncer de próstata que el año anterior. Cada 5 años el riesgo se incrementa exp(0.022407×5)= 1.118 veces.

Variable continua índice de peso: RR=0.9873 Por cada unidad que se incremente el índice de peso existe 0.9873 veces menos riesgo de morir por cáncer de próstata, si el resto de las variables se mantienen constantes. Se ha comprobado centrando los datos si las conclusiones son iguales. Factor Historial de enfermedades cardiovasculares (nivel de referencia: 0, sin historial): card 1 RR=1.6736 El hecho de poseer un historial clínico previo de enfermedades cardiovasculares aumenta el riesgo de morir por cáncer de próstata 1.6736 veces, en relación con no tener un historial previo para unas mismas condiciones del resto de variables. Variable continua tamaño del tumor: RR=1.0178 Manteniéndose constantes el resto de variables, por cada cm2 que aumente el tamaño del tumor, el riesgo de morir por cáncer de próstata aumentaría 1.0178 veces. Factor metástasis de huesos (nivel de referencia: 0, sin metástasis): metast1 RR=1.5309 El riesgo de morir por cáncer de próstata aumenta 1.5309 veces, si la persona tiene metástasis en los huesos, con respecto a una persona que no la tenga, a igualdad del resto de los factores.

5.4.  Comprobación  de  la  bondad  del  ajuste  método  de  los  riesgos proporcionales.  Con la función cox.zph de R, que se basa en los residuos de Schoenfeld, se puede comprobar si podemos suponer que se cumple la condición de la proporcionalidad de riesgos:

Page 13: Prostata Marçal

12

rho chisq p trat1 mg -0.09987 3.16e+00 0.0757 trat5 mg -0.02666 2.34e-01 0.6287 tratplacebo 0.00440 5.94e-03 0.9386 edad -0.12624 5.58e+00 0.0182 ipeso -0.00854 2.87e-02 0.8655 card1 0.05026 7.88e-01 0.3746 tamaño -0.00115 4.08e-04 0.9839 metast1 0.03871 4.88e-01 0.4849 GLOBAL NA 1.05e+01 0.2335

El p-value Global es de 0.23 con lo que no podemos rechazar la Hipótesis nula de riesgos proporcionales iguales. Con esto podemos decir que las conclusiones extraídas del modelo semi-paramétrico de Cox son robustas.

A continuación se presentan los gráficos de los residuos de Schoenfeld para las variables del modelo:

6. Resumen y conclusiones 

En el análisis descriptivo de los datos se observa que hay un alto porcentaje de censura en el factor Tratamiento, que es el principal factor de estudio, y sobre todo en el nivel 1 mg de estrógenos (donde casi el 50% de los datos están censurados) que según el análisis posterior de los datos es la dosis efectiva del tratamiento para el cáncer de próstata.

Según el análisis no paramétrico realizado mediante las pruebas log-rango, Peto-Peto y pruebas para detectar diferencias tardías, el tratamiento tiene un efecto significativo, así como todas las demás variables excepto el estadio del tumor, y la presión sistólica y diastólica.

En el análisis paramétrico, los datos se han ajustado mediante un modelo de Weibull y un modelo exponencial. La diferencia hallada entre ellos es que el modelo de Weibull incluye la hemoglobina además del resto de variables del modelo exponencial. Tanto el análisis paramétrico exponencial como el semi-paramétrico coinciden en las variables significativas, que son: el tratamiento de estrógeno (siendo 1 mg la dosis efectiva sobre todo en supervivencias tardías), el historial previo de enfermedades cardiovasculares (enfermedades anteriores empeoran la supervivencia), la edad (menor riesgo para las edades tempranas), presencia de metástasis ósea (que reduce la supervivencia), tamaño del tumor (cuanto mayor sea aumenta el riesgo), e índice de peso (que al aumentar reduce el riesgo).

Page 14: Prostata Marçal

13

Fijándonos en los RR, se puede conocer cuáles son las variables más importantes en cada modelo. Los resultados coinciden tanto en los modelos paramétricos como en el semi-paramétrico: los factores más influyentes son el historial de enfermedades cardiovasculares (RR=1.69 en el paramétrico y RR=1.67 en el no paramétrico), la presencia de metástasis ósea (RR=1.57 en el paramétrico y RR=1.53 en el no paramétrico) y el tratamiento con dosis 1 mg de estrógeno (RR=0.60 en el paramétrico y RR=0.63 en el no paramétrico).

Por lo tanto, se puede concluir que el tratamiento con estrógeno 1 mg es efectivo para el cáncer de próstata, a pesar de que es el que tiene una censura mayor. Esto nos conduce a pensar que tendríamos que saber las causa del “abandono” del estudio, por que puede que estemos dando una visión poco real del tratamiento. Con la información que disponemos no podemos achacar el abandono a ningún efecto ya que el efecto de dosis demasiada elevada queda descartado por el nivel 5 mg con menor censura.

 

 

 

 

 

ANEXO 

 

Script de R utilizado 

Page 15: Prostata Marçal

1

prostata <- read.table("Prostata.txt", header=T) options(digits=3) library(rms) library(survival) library(doBy) library(stats4) library(car) library(Hmisc) prostata$estadio <-factor(prostata$estadio) prostata$card <-factor(prostata$card) prostata$metast <-factor(prostata$metast) prostata$ipesoC<-prostata$ipeso-mean(prostata$ipeso,na.rm=T) prostata$hemogC<-prostata$hemog-mean(prostata$hemog,na.rm=T) prostata$Gedad<-cut(prostata$edad,c(40,70,75,95)) prostata$Gedad<-factor(prostata$Gedad,labels=paste('Grup',1:3)) summary(prostata) #ANÁLISIS DESCRIPTIVO ##################################### sumfun <- function(x, ...) { c(media=mean(x, ...), var=var(x, ...),CV=(sd(x,...)*100/mean(x, ...)),n=length(x)) } sink('Descrip.txt') summaryBy(edad+ipeso+psist+pdiast+hemog+tamaño~trat+estadio+card+metast, FUN=sumfun,data=prostata,na.rm=T) summaryBy(edad+ipeso+psist+pdiast+hemog+tamaño~trat, FUN=sumfun,data=prostata,na.rm=T) sink() plot(prostata[,c(4,6,7,9,10,11,12)]) scatterplot.matrix(~edad+ipeso+psist+pdiast+hemog+tamaño, data=prostata, main="Descripción y correlación de los datos") sink('coef.determinació.txt') round(cor(prostata[,c(6:7,9:12)],use="pairwise.complete.obs")^2,3) sink() a<-with(prostata,table(trat,cens)) sink('censura.txt') (a<-cbind(a,Por.Censura=a[,1]/(a[,1]+a[,2]))) sink() #Creamos objeto (var respuesta) para supervivencia with(prostata,Surv(time,cens))->Sprostata svf<-survfit(Sprostata~1) #Creamos funcion de supervivencia svfT<-survfit(Sprostata~trat, data=prostata) #supervivencia comparada según tratamiento svfTG<-survfit(Sprostata~Gedad, data=prostata) #supervivencia comparada según grupos edad svfEd<-survfit(Sprostata~edad, data=prostata) #supervivencia comparada según edad como variable continua svfEs<-survfit(Sprostata~estadio, data=prostata) #supervivencia comparada según estadio svfPs<-survfit(Sprostata~psist, data=prostata) #supervivencia comparada según presión Sis svfPd<-survfit(Sprostata~pdiast, data=prostata) #supervivencia comparada según presiónDis svfM<-survfit(Sprostata~metast, data=prostata) #supervivencia comparada según metástasis plot() x11(height=10,width=15) par(font=2,font.axis=3,font.lab=4,las=1, mfrow=c(2,2)) plot(svfT,col=1:4,xlab='Meses en el estudio',ylab="Supervivencia",mark.time=F,lty=1:4,lwd=3) title('Supervivencia según tratamiento') legend('topright',c("0.2 mg","1 mg","5 mg","placebo"),col=1:4,lty=1:4,lwd=3,cex=0.8)

Page 16: Prostata Marçal

2

plot(svfTG,col=1:4,xlab='Meses en el estudio',ylab="Supervivencia",mark.time=F,lty=1:4,lwd=3) title('Supervivencia según Grupo de edad') legend('topright',c("40-70","70-75","75-95"),col=1:4,lty=1:4,lwd=3,cex=0.8) plot(svfEs,col=1:4,xlab='Meses en el estudio',ylab="Supervivencia",mark.time=F,lty=1:4,lwd=3) title('Supervivencia según estadio') legend('topright',c("3","4"),col=1:4,lty=1:4,lwd=3,cex=0.8) plot(svfM,col=1:4,xlab='Meses en el estudio',ylab="Supervivencia",mark.time=F,lty=1:4,lwd=3) title('Supervivencia según metástasis') legend('topright',c("0","1"),col=1:4,lty=1:4,lwd=3,cex=0.8) svfT #Medianas de supervivencia e IC para cada tratamiento #ANÁLISIS NO-PARAMETRICO ##################################################### #Comparación mediante contraste de hipótesis de la supervivencia según diferentes variables: #Por tratamiento: survdiff(Sprostata~trat+strata(Gedad),prostata,rho=0) # Prueba log-rango survdiff(Sprostata~trat,prostata,rho=0) survdiff(Sprostata~trat,prostata,rho=1) # Prueba de Peto-Peto survdiff(Sprostata~trat,prostata,rho=-1) #Estadio: no significativo survdiff(Sprostata~estadio,prostata,rho=0) # Prueba log-rango survdiff(Sprostata~estadio,prostata,rho=1) # Prueba de Peto-Peto survdiff(Sprostata~estadio,prostata,rho=-1) #card: significativo survdiff(Sprostata~card,prostata,rho=0) # Prueba log-rango survdiff(Sprostata~card,prostata,rho=1) # Prueba de Peto-Peto survdiff(Sprostata~card,prostata,rho=-1) #metast: significativo survdiff(Sprostata~metast,prostata,rho=0) # Prueba log-rango survdiff(Sprostata~metast,prostata,rho=1) # Prueba de Peto-Peto survdiff(Sprostata~metast,prostata,rho=-1) #Grupo de edad: significativo survdiff(Sprostata~Gedad,prostata,rho=0) # Prueba log-rango survdiff(Sprostata~Gedad,prostata,rho=1) # Prueba de Peto-Peto survdiff(Sprostata~Gedad,prostata,rho=-1) #Indice de peso: significativo survdiff(Sprostata~ipeso,prostata,rho=0) # Prueba log-rango survdiff(Sprostata~ipeso,prostata,rho=1) # Prueba de Peto-Peto survdiff(Sprostata~ipeso,prostata,rho=-1) #Tamaño: significativo survdiff(Sprostata~tamaño,prostata,rho=0) # Prueba log-rango survdiff(Sprostata~tamaño,prostata,rho=1) # Prueba de Peto-Peto survdiff(Sprostata~tamaño,prostata,rho=-1) #Hemoglobina: significativo survdiff(Sprostata~hemog,prostata,rho=0) # Prueba log-rango survdiff(Sprostata~hemog,prostata,rho=1) # Prueba de Peto-Peto survdiff(Sprostata~hemog,prostata,rho=-1) #Presión sistólica: no significativo survdiff(Sprostata~psist,prostata,rho=0) # Prueba log-rango survdiff(Sprostata~psist,prostata,rho=1) # Prueba de Peto-Peto survdiff(Sprostata~psist,prostata,rho=-1) #Presión diastólica: no significativo survdiff(Sprostata~pdiast,prostata,rho=0) # Prueba log-rango survdiff(Sprostata~pdiast,prostata,rho=1) # Prueba de Peto-Peto

Page 17: Prostata Marçal

3

survdiff(Sprostata~pdiast,prostata,rho=-1) # Estratificando según varias variables al mismo tiempo: #Según 'card y metast' survdiff(Sprostata~card+estadio,prostata,rho=0) survdiff(Sprostata~card+strata(estadio),prostata,rho=0) x11(width=10,height=8) par(font=2,font.axis=2,font.lab=4,las=1) plot(survfit(Sprostata~card+metast,prostata),xlab='Meses',ylab="Supervivencia",mark.time=F,col=c(3,3,4,4),lty=c(1,2,1,2),lwd=3) title('Supervivencia según historial cardiovascular y metastasis') legend('topright',c('Card=0, estadio=1','Card=0, estadio=2','Card=1, estadio=1','Card=1, estadio=2'), col=c(3,3,4,4),lty=c(1,2,1,2),lwd=3,text.width=strwidth('Card=2, estadio=2 ')) #Según 'trat, card y metast' survdiff(Sprostata~trat+card+estadio,prostata,rho=0) ### AJUSTE PARAMÉTRICO ######################################### summary(survreg(Surv(time,cens)~1,prostata[-which(prostata$time==0),]),dist='weibull') #Calcularemos todas las distribuciones, la que se ajuste más la utilizaremos #para calcular las covariables super1 <- survfit(Sprostata ~1, type = "fh2", data =prostata[-which(prostata$time==0),c(2:14)]) temps <- summary(super1)$time Acum.hazan <- -log(summary(super1)$surv) ################################################## #Grafico para escoger la distribución más adecuada x11(width = 18, height = 12) par(mfrow = c(2, 2), font.lab = 2, font = 2, font.axis = 2, las = 1, cex.main = 1.5, cex.lab = 1) #exponencial plot(Acum.hazan ~ temps, xlab = c('Temps', paste('Coef.Correlación',round(cor(Acum.hazan,temps),3))), ylab = 'Risc Acumunalt Hazard', pch = 19,col='black') abline(lm(Acum.hazan ~ temps - 1), col ='red' ,lwd = 1,lty=3) title('Distribución exponencial') #Weibull plot(log(Acum.hazan) ~ log(temps), xlab = c('ln(Temps)', paste('Coef.Correlación',round(cor(log(Acum.hazan)[-1],log(temps[-1])),3))), ylab = 'ln(Risc Acumunalt Hazard)', pch = 19,col='black') abline(lm(log(Acum.hazan)[-1] ~ log(temps)[-1]), col ='red' ,lwd = 1,lty=3) title('Distribución Weibull') #logNormal plot(qnorm(1-exp(-Acum.hazan)) ~ log(temps), xlab = c('ln(Temps)', paste('Coef.Correlación',round(cor(qnorm(1-exp(-Acum.hazan))[-1],log(temps)[-1]),3))) ,ylab = 'Normal Quartile(1-exp(-Risc Acumunalt Hazard))', pch = 19,col='black') abline(lm(qnorm(1-exp(-Acum.hazan))[-1] ~ log(temps)[-1]), col ='red' ,lwd = 1,lty=3) title('Distribución Log-Normal') #log-Logístic plot(log(exp(Acum.hazan)-1) ~ log(temps), xlab = c('ln(Temps)', paste('Coef.Correlación',round(cor(log(exp(Acum.hazan)-1)[-1],log(temps)[-1]),3))) ,ylab = 'ln(exp(Risc Acumunalt Hazard)-1)', pch = 19,col='black') abline(lm(log(exp(Acum.hazan)-1)[-1] ~ log(temps)[-1]), col ='red' ,lwd = 1,lty=3) title('Distribución Log-Logística')

Page 18: Prostata Marçal

4

cor(Acum.hazan,temps) #Exponencial cor(log(Acum.hazan)[-1],log(temps[-1])) #Weibull cor(qnorm(1-exp(-Acum.hazan))[-1],log(temps)[-1]) #Log-Normal cor(log(exp(Acum.hazan)-1)[-1],log(temps)[-1]) #Loglogistic #Trabajaremos con la distribución Exponencial y Weibull #Distribución Weibull: prost.wei<-step(survreg(Surv(time,cens)~.,prostata[-which(prostata$time==0), c(2:14)],dist='weibull'),direction = c("both")) extractAIC(prost.wei) summary(prost.wei) # AIC=2911.01 prost.exp<-step(survreg(Surv(time,cens)~.,prostata[-which(prostata$time==0), c(2:14)],dist='exponential'),direction = c("both")) extractAIC(prost.exp) summary(prost.exp) # AIC=2916.6 sink('modelPara.txt') extractAIC(prost.exp) summary(prost.exp) # AIC=2916.6 extractAIC(prost.weiH) summary(prost.weiH) # AIC=2911.01 sink() prost.weiH<-update(prost.wei, . ~ . - hemog) anova(prost.weiH,prost.wei,test='Chisq') summary(prost.weiH) #No fa falta, no s'ajusta bé a la distribució: prost.logN<-step(survreg(Surv(time,cens)~.,prostata[-which(prostata$time==0), c(2:14)],dist='lognormal'),direction = c("both")) summary(prost.logN) prost.log<-step(survreg(Surv(time,cens)~.,prostata[-which(prostata$time==0), c(4:5,6:7,9:12,14)],dist='logistic'),direction = c("both")) summary(prost.log) ############################################## #Explicación del modelo: #Tratamiento: (RR1mg<-exp(-0.4450/0.868)) #Los pacientes con tratamiento 1mg ti3nen 0.60 veces mayor #que el Tratamiento con 0.25mg de morir por el cáncer (RR5mg<-exp(-0.1624/0.868))#Los pacientes con tratamiento 5mg ti3nen 0.83 veces mayor #que el Tratamiento con 0.25mg de morir por el cáncer (RRpla<-exp(0.0102/0.868))#Los pacientes con tratamiento placebo ti3nen 1.01 veces mayor #que el Tratamiento con 0.25mg de morir por el cáncer #edad: -0.0171 (RRedad<-exp(0.0171*5/0.868)) #Cada 5 año tiene un efecto de 1.10 veces mayor #de morir por el cáncer #ipeso (RReipes<-exp(-0.0110*1/0.868)) #Cada 1 punto de ÍndiceM tiene un efecto de 0.987 veces # mayor de morir por el cáncer #Enfermedad cardiovascular (RRcard<-exp(0.4578*1/0.868)) #Los pacientes con enfermedades cardiovasculares tiene

# efecto de 1.69 veces mayor de morir por el cáncer que # los que no tienen enfermedades Cardiovasculares

#tamaño (RRtama<-exp(0.0159*1/0.868)) #Cada 1 cm2 de más del tumor tiene un efecto 1.02 veces # mayor en de morir por el cáncer #metast1 (RRmeta<-exp(0.3938/0.868)) #Los pacientes con metástasis tiene efecto de 1.57 veces # mayor de morir por el cáncer que los que no metástasis #### AJUSTE SEMIPARAMETRICO ###########################################

Page 19: Prostata Marçal

5

#edad en forma de variable contiuna cox.Total<-coxph(Surv(time,cens) ~ .,data=prostata[complete.cases(prostata),2:13]) cox.TotalT<-step(cox.Total) extractAIC(cox.TotalT) summary(cox.TotalT) # se observa que la hemoglobina está en el límite de significación cox.MH<-update(cox.TotalT, . ~ . - hemog) anova(cox.MH,cox.TotalT)#No Aceptamos la hemoglobina como significativamente dif de 0 sink('Cox.model.txt') summary(cox.MH) sink() ###Residuos plot(residuals(cox.MH)) cox.MH$coef #Miramos las interacciones interesantes, todas aquellas que puedan interaccionar con el Tratamiento cox.Inter<-coxph(Surv(time,cens) ~ trat*.,data=prostata[complete.cases(prostata),2:14]) cox.InterS<-step(cox.Inter,direction = c("both")) summary(cox.InterS) sink('inter.txt') cox.MInTxE<-update(cox.InterS, . ~ . -trat:edad) anova(cox.InterS,cox.MInTxE) #la interacción Tratamiento edad no es significativa cox.MInTxMe<-update(cox.MInTxE, . ~ . -trat:metast) anova(cox.MInTxE,cox.MInTxMe) #la interacción tratamiento por metástasis no es significariva sink() #Con la función cox.zph, que se basa en los residuos de Schoenfeld, se puede comprobar si # se cumple (más o menos) la condición de la proporcionalidad de riesgos: sink('riegosCox.txt') cox.zph(cox.MH) sink() #Graficos correspondientes: par(mfrow=c(2,4)) plot(cox.zph(cox.MH)) title('Gráficos de Residuos \n Comprobación de los Riesgos Proporcionales ',out=T)