itam - correo electrónico para académicos y empleados del...
Post on 10-Oct-2020
9 Views
Preview:
TRANSCRIPT
PROFESOR: LUIS E. NIETO BARAJAS
87 Análisis de Supervivencia
5. Modelos de regresión
En el análisis de tiempos de falla, es común suponer que el riesgo de
presentar la falla está en función de una serie de covariables o variables
explicativas inherentes a cada individuo. Es decir, la población bajo
estudio no es homogénea y es necesario reconocer las diferencias entre
los individuos como parte del análisis.
Existen varios modelos que incorporan variables explicativas para el
análisis de tiempos de falla. Estos modelos se conocen como modelos de
regresión de supervivencia. Los principales modelos son dos: Modelo de
vida acelerada y modelo de riesgos proporcionales.
5.1 Modelos de vida acelerada
Sea Ti el tiempo de falla del individuo i y suponga que pii2i1i X,,X,X'X
es un vector de p covariables correspondientes al mismo individuo i,
i1,…,n.
El modelo de vida acelerada se puede definir en términos de la v.a. Ti o en
términos de la función de riesgo hi(t). En términos de la v.a., el modelo de
vida acelerada se define como
,x
TT
i
0i
PROFESOR: LUIS E. NIETO BARAJAS
88 Análisis de Supervivencia
donde p1 ,' en un vector de dimensión p de coeficientes de
regresión, , es una función que liga las covariables con el tiempo de
fallo y T0 es un tiempo de fallo base.
Se puede observar que el modelo de vida acelerada especifica que el
efecto de la covariable es multiplicativo en t. Es decir, la covariable altera
la tasa en la que un individuo envejece o rejuvenece en el tiempo. Un
individuo con tiempo de fallo t bajo x00, tendría un tiempo de fallo
,xt i bajo xi.
La función , tiene por lo general una forma paramétrica y debe
satisfacer la condición 1,0 . La forma más común es
'xi
ie,x .
Nota que para que se satisfaga la condición el vector de covariables no
debe de incluir constante.
De manera alternativa, el modelo de vida acelerada se puede ver como un
modelo de regresión log‐lineal, i.e.,
0i0i 'xTlog
donde 00 TlogE y 000 Tlog es una v.a. con media cero y
distribución independiente de xi.
Las implicaciones del modelo de vida acelerada en las funciones de riesgo
y de supervivencia son las siguientes. Sea h0(t), f0(t) y S0(t) las funciones de
PROFESOR: LUIS E. NIETO BARAJAS
89 Análisis de Supervivencia
riesgo, densidad y de supervivencia, respectivamente, para el tiempo base
T0. Entonces, haciendo el cambio de variable, la función de densidad para
el tiempo Ti es
tefetf 'x0
'xi
ii .
Integrando la función de densidad de t a , la función de supervivencia es
teStS 'x0i
i .
Finalmente ala función de riesgo es
teheth 'x0
'xi
ii .
Si h0(t) tiene una forma paramétrica específica, el modelo de vida
acelerada en completamente paramétrico, en cambio, si h0(t) se deja sin
especificar, el modelo es semiparamétrico y se requieren de procesos de
inferencia específicos para este caso.
Por lo general, el modelo de vida acelerado, se considera completamente
paramétrico especificando la distribución de los errores mediante un
miembro de la familia de log‐localización y escala.
Recordemos que si T es una variable de tiempo de falla y YlogT es una
v.a. con distribución de localización y escala, entonces T tiene una
distribución de log‐localización‐escala. Es decir, sea Y0 una v.a. con
distribución con soporte en los reales con media cero y varianza uno.
Entonces 0ii bYaY tiene una función de supervivencia
b
aySb,ayS i*0i
*i ,
PROFESOR: LUIS E. NIETO BARAJAS
90 Análisis de Supervivencia
y iYi eT tienen función de supervivencia
b
atlogSb,atS i*0ii
Si tomamos 'xxaa i0ii en la especificación anterior obtenemos
el modelo de vida acelerada con 00 bY una v.a. con media cero y
varianza b2. Si 0ixa , el efecto del vector de covariables es desacelerar
el tiempo, mientras que si 0ixa , el efecto es de acelerar el tiempo.
Consideremos algunos casos específicos del modelo de vida acelerada
completamente paramétrico.
PROFESOR: LUIS E. NIETO BARAJAS
91 Análisis de Supervivencia
o T0 Weibull (o valor extremo para Y0logT0). Como distribución de log
localización y escala, este modelo se obtiene cuando z*0 eexpzS . Es
este caso la función de supervivencia para Ti de vida acelerada es
b/'xb/b/1b/ab/1i
i0i eetexpetexptS .
La función de riesgo acumulado es de la forma
b/ab/1ii
iettSlogtH .
Finalmente derivando obtenemos la función de riesgo
1b/1b/b/'xb/a1b/1i t
b
1eeet
b
1th 0ii .
Por otro lado, partiendo de la distribución de riesgo Weibull base
10 tth y tomando teheth 'x
0'x
iii como en la definición del
riesgo de vida acelerada obtenemos
1'xi teth i .
Si tomamos 1b y b/0e llegamos a la misma expresión anterior,
pero con parametrizaciones diferentes.
o Notemos que para el modelo Weibull de vida acelerada el efecto de las
covariables no afecta directamente el tiempo, sino que representa
únicamente un efecto multiplicativo “constante” sobre la función de
riesgo base, i.e.,
theth 0'x
i
*i ,
con * .
PROFESOR: LUIS E. NIETO BARAJAS
92 Análisis de Supervivencia
o T0 log‐logístico (o logístico para Y0logT0). Como distribución de log
localización y escala, este modelo se obtiene cuando z*0 e11zS . La
función de supervivencia para Ti de vida acelerada es
b/ab/1i
iet1
1tS .
Haciendo álgebra obtenemos que la función de riesgo para Ti es
b/ab/1
b/a1b/11
ii
i
et1
etbth
.
Alternativamente, si partimos de la función de riesgo log‐logística base
t1tth 10 obtenemos que la función de riesgo para Ti es
te1
teth
'x
1'x
ii
i
.
Si tomamos 1b y b/0e obtenemos la misma expresión anterior,
pero con parametrizaciones diferentes.
La inferencia para este tipo de modelos de vida acelerada paramétricos se
hace por máxima verosimilitud, como en el caso de los modelos de log
localización y escala.
Sean iii x,,t , i1,…,n un conjunto de observaciones independientes,
que incluyen los tiempos de fallo o de censura, indicador de censura por la
derecha y conjunto de variables explicativas. Sea 0ii Tlog baTlog ,
con 'xa i0i un modelo de vida acelerada. Es recomendable que las
variables explicativas estén centradas en cero para mejorar la
PROFESOR: LUIS E. NIETO BARAJAS
93 Análisis de Supervivencia
interpretación del intercepto. La función de verosimilitud para b,,0
es de la forma
ii 1
i0i*0
n
1i
i0i*0
i0
b
'xtlogS
b
'xtlogf
bt
1b,,L
.
La forma de la verosimilitud anterior depende de la elección particular de
S0*, ya sea valor extremo, logístico o normal. En cualquier caso los
estimadores se obtienen numéricamente. Estimación por intervalo de los
parámetros y pruebas de hipótesis se obtiene con teoría asintótica usando
la aproximación normal asintótica para los EMV’s o la distribución
asintótica ji‐cuadrada para menos dos veces el logaritmo de la estadística
cociente de verosimilitudes generalizado.
El comando survreg de la librería survival del paquete R obtiene estos
estimadores para las distintas opciones de familias S0*.
Además de estimar los parámetros del modelo de vida acelerada, es de
interés la estimación de los cuantiles. Sea xyp el cuantil de orden p del
logaritmo de un tiempo de fallo con vector de covariables x, entonces,
pp bwxaxy ,
donde p1Sw1*
0p
es el cuantil de orden p de una variable Y0. El
estimador puntual máximo verosímil es pp wbxaxy y estimación
por intervalo se puede hacer suponiendo normalidad asintótica.
PROFESOR: LUIS E. NIETO BARAJAS
94 Análisis de Supervivencia
Los modelos de vida acelerada son particularmente útiles cuando los
tiempos de fallo de diferentes individuos varían en órdenes de magnitud.
Es decir, en escala logarítmica de los tiempos de fallo, las funciones de
densidad y de supervivencia de los individuos tienen la misma forma, pero
están separados por una distancia ji aa . En aplicaciones de confiabilidad
en ingeniería, los tiempos de falla son acelerados por calentamiento,
voltaje u otro tipo de estrés.
EJEMPLO: Tiempos de supervivencia de leucemia. Feigl & Zelen (1965)
estudiaron datos de tiempos de supervivencia de 33 pacientes con
leucemia. Los tiempos de supervivencia están dados en semanas desde el
diagnóstico y adicionalmente hay dos covariables: conteo de glóbulos
blancos (WBC) al momento del diagnóstico y un indicador sobre las
características de los glóbulos blancos, (AG=1) positivo o (AG=0) negativo.
Los datos se presentan más abajo. Gráficas de diagnóstico inicial son logti
vs. wbc ó log(wbc) y gráficas de caja y brazos para la logti y cada valor de
la covariable AG.
PROFESOR: LUIS E. NIETO BARAJAS
95 Análisis de Supervivencia
EJEMPLO: Falla de fluido de aislamiento. Nelson (1972) presenta los
resultados de un experimento en donde especímenes de cierto fluido de
aislamiento fueron sujetos a estrés de voltaje constante con distintos
niveles. Se registró el tiempo de falla de cada espécimen. En particular se
desea estimar la distribución de falla a un voltaje “normal” de 20 kV.
Gráficas de diagnóstico sugeridas para el modelo Weibull son
tSloglog j vs. logt, para j1,…,7 los siete distintos niveles de voltaje.
Adicionalmente, para verificar la relación lineal con la variable explicativa
se sugiere graficar logTi vs. log(voltaje).
PROFESOR: LUIS E. NIETO BARAJAS
96 Análisis de Supervivencia
5.2 Modelos de riesgos proporcionales
El modelo de riesgos proporcionales fue introducido por Cox (1972) y ha
sido el modelo más utilizado en análisis de tiempos de fallo en presencia
de covariables. Este modelo también es conocido como modelo de
regresión de riesgos multiplicativos.
Sea Ti el tiempo de falla del individuo i y suponga que pii2i1i X,,X,X'X
es un vector de p covariables correspondientes al mismo individuo i,
i1,…,n.
El modelo de riesgos proporcionales se definió originalmente en términos
de la función de riesgo de la siguiente manera
th,xth 0.ii
PROFESOR: LUIS E. NIETO BARAJAS
97 Análisis de Supervivencia
donde p1 ,' en un vector de dimensión p de coeficientes de
regresión, , es una función que liga las covariables con el tiempo de
fallo y h0 es una función de riesgo base.
La función , debe satisfacer la condición 1,0 . La forma más
común es 'xi
ie,x . La condición anterior supone que xi no contiene
intercepto.
Usando la función liga anterior, en escala logarítmica, el cociente de la
función de riesgo del individuo i con respecto al riesgo base es
'xth
thlog i
0
i ,
el cual tiene forma lineal en los parámetros.
El nombre de riesgos proporcionales se debe al hecho de que el cociente
de las funciones de riesgo de dos individuos, digamos i y j,
'xx
i
i jieth
th (riesgo relativo)
es una constante en el tiempo cuyo valor depende de la diferencia en los
valores de las covariables de los dos individuos. En particular, si x1i1 y
x1j0 representan tratamiento y placebo respectivamente, y todas las
demás covariables se mantienen constante, entonces 1e es el riesgo de
presentar la falla con el tratamiento relativo a presentar la falla con
placebo.
PROFESOR: LUIS E. NIETO BARAJAS
98 Análisis de Supervivencia
El modelo de riesgos proporcionales implica que las funciones de
supervivencia y de densidad para el individuo i son, respectivamente
'xexp0i
itStS , y
'xexp00
'xi
ii tSthetf ,
donde tHexptS 00 es la función de supervivencia base y
t
0 00 duuhtH es la función de riesgo acumulado base.
Una consecuencia del supuesto de proporcionalidad entre los riesgos de
dos individuos con covariables xi y xj, es que las funciones de riesgo no se
intersectan y una debe de estar completamente por arriba de la otra. Lo
mismo ocurre con las funciones de supervivencia. Este comportamiento
se puede observar en la siguiente gráfica
PROFESOR: LUIS E. NIETO BARAJAS
99 Análisis de Supervivencia
Cuando h0 se especifica de manera paramétrica, el modelo de riesgos
proporcionales es completamente paramétrico, mientras que si h0 se deja
sin especificar, el modelo se convierte en semiparamétrico. A diferencia
del modelo de vida acelerada, el caso semiparamétrico en el modelo de
riesgos proporcionales es el más común en las aplicaciones.
Una característica del modelo de riesgos proporcionales es que si S0(t) es
miembro de una familia paramétrica específica, por lo general Si(t) no es
miembro de la misma familia.
Veamos algunos ejemplos del modelo de riesgos proporcionales
completamente paramétricos.
o Riesgo base Weibull: Sea 10 tth , entonces la función de riesgo
para un individuo i con covariables xi es
1'xi teth i
Lo que implica que Ti 'xie,Weibull .
Si comparamos este modelo de riesgos proporcionales Weibull con el
modelo de vida acelerada Weibull nos damos cuenta que se trata del
mismo modelo, pero con distinto vector de parámetros * . El
modelo Weibull es el único modelo paramétrico que es a la vez de vida
acelerada y de riesgos proporcionales.
PROFESOR: LUIS E. NIETO BARAJAS
100 Análisis de Supervivencia
o Riesgo base log‐logístico: Sea t1tth 10 , entonces la función
de riesgo para un individuo i con covariables xi es
t1teth 1'xi
i .
Esta nueva función de riesgo no pertenece a la misma familia.
o Riesgo base log‐normal: Sea tlog1tS0 , entonces la
función de supervivencia para un individuo i con covariables xi es
'xexpi
itlog1tS .
La forma analítica de Si(t) no es simple pero se puede manipular
numéricamente.
o Riesgo base gamma: Sea ,tIg1tS0 , entonces la función de
supervivencia para el individuo i con covariables xi es
'xexpi
i,tIg1tS .
La inferencia para los modelos de riesgos proporcionales paramétricos se
hace por máxima verosimilitud.
Sean iii x,,t , i1,…,n un conjunto de observaciones independientes,
que incluyen los tiempos de fallo o de censura, indicador de censura por la
derecha y conjunto de variables explicativas. Sean ,th0 y ,tS0
las funciones de riesgo base y de supervivencia base parametrizadas por
(,). La función de verosimilitud para ,, es de la forma
PROFESOR: LUIS E. NIETO BARAJAS
101 Análisis de Supervivencia
ii
i
i'xexp
i0
n
1ii0
'x ,tS,the,,L
.
La forma explicita de la función de verosimilitud anterior depende de la
elección de h0. En cualquier caso, los EMV’s se obtienen numéricamente e
inferencias para los parámetros más allá de estimación puntual se basan
en resultados asintóticos.
ESTIMACIÓN SEMIPARAMÉTRICA DEL MODELO DE RIESGOS PROPORCIONALES
El modelo de riesgos proporcionales semiparamétrico surge cuando la
función de riesgo base h0(t) se considera como un parámetro
desconocido. En este caso es necesario hacer inferencia para th, 0 .
El parámetro de interés más importante del modelo es y h0(t) es
considerado parámetro de ruido. En presencia de parámetros de ruido
existen dos técnicas muy útiles de inferencia: la verosimilitud parcial,
introducida por Cox (1972, 1975) y la verosimilitud marginal (Kalfleisch &
Sprott, 1970).
Suponga que los datos consisten de un vector de observaciones
n1 T,,TT de la densidad ,tf , donde es el vector de parámetros
de interés y es un parámetro de ruido, por lo general de dimensión
infinita o muy grande, como es el caso de la función de riesgo base en
nuestro modelo de riesgos proporcionales.
PROFESOR: LUIS E. NIETO BARAJAS
102 Análisis de Supervivencia
Suponga ahora que los datos T son transformados en un conjunto de
variables mm11 B,A,B,A de forma uno a uno, y sean j1j A,,AA y
j1j B,,BB . Suponga que la función de densidad conjunta de
mm B,A se puede escribir como el producto de una verosimilitud
marginal y otra condicional
mmm af,,abf,tf .
El segundo factor de la expresión anterior es llamado verosimilitud
marginal, e incluso en modelo complicados, no dependerá de y puede
ser usada para realizar inferencias sobre . Noten que el primer factor por
lo general depende de y de , por lo que parte de la información se
perderá al usar únicamente el segundo factor.
Un segundo enfoque para estimar es el descomponer la densidad
conjunta de mm B,A como
m
1j
1jjj
m
1j
1j1jj ,a,baf,,a,bbf,tf .
El segundo término es llamado verosimilitud parcial. Nuevamente
observamos que parte de la información de los datos sobre se perderá si
únicamente se usa el segundo término.
Sean )D()2()1( ttt los tiempos de fallo observados de manera exacta
ordenados. Sea )j(x la covariable asociada al individuo cuyo tiempo de
fallo es )j(t . Definimos el conjunto de riesgo )j(tR como el conjunto de
PROFESOR: LUIS E. NIETO BARAJAS
103 Análisis de Supervivencia
todos los individuos que están en riesgo justo antes de )j(t . Sin entrar en
detalles, si Aj especifica la información de los individuos que fallan y Bj la
información de las censuras y de las covariables en )t,t[ )j()1j( , se puede
demostrar que la verosimilitud parcial para es
D
1j tRi )j(i
)j()j(
)j(th
thpL .
Expresando esta verosimilitud parcial en términos de las covariables y la
función de riesgo base, tenemos
D
1j tRi i
)j(
)j('xexp
'xexppL ,
la cual no depende de h0(t). Vale la pena notar que el numerador depende
sólo de la información del individuo que falla, mientras que el
denominador usa información de todos los individuos que aún no han
experimentado el fallo, incluyendo aquellos que se censurarán después.
Esta verosimilitud parcial es tratada como cualquier otra verosimilitud. Se
saca logaritmo, se deriva, se iguala a cero y se obtienen los estimadores
máximo verosímiles parciales de . Recuerden que como es un vector de
dimensión p, se tendrán que obtener p derivadas parciales y se tendrán
que resolver p ecuaciones simultáneas. La mayoría de los paquetes
estadísticos obtienen estos estimadores de manera numérica mediante el
uso de algoritmos de Newton‐Raphson.
PROFESOR: LUIS E. NIETO BARAJAS
104 Análisis de Supervivencia
Pruebas de hipótesis e intervalos de confianza para se pueden obtener
notando que el estimador máximo verosímil parcial tiene una
distribución asintótica normal con media y matriz de varianzas y
covarianzas estimadas 1
.ˆI
. La prueba de hipótesis más común para
00 :H se basa en la normalidad asintótica y es llamada prueba de
Wald. La estadística de prueba es 0.
'
0ˆˆIˆW tal que 2
)p(W
si H0 es verdadera y para un tamaño de muestra grande.
Otras estadísticas de prueba se basan en menos dos veces el cociente de
verosimilitudes parciales generalizado, cuya distribución asintótica es una
ji‐cuadrada con p grados de libertad.
Vale la pena notar que en presencia de empates (múltiples individuos con
el mismo tiempo de falla), es necesario hacer un ajuste a la verosimilitud
parcial que reconozca la naturaleza discreta de las observaciones.
Si las funciones base son también de interés, es posible estimar H0(t) y
S0(t). Breslow (1974) propuso un estimador para la función de riesgo
acumulado generalizando el estimador de Nelson‐Aalen. Este estimador
se justifica mediante procesos de conteo. La forma del estimador es:
tt:i
n
1j
ˆ'xij
i0
ijetY
tH ,
PROFESOR: LUIS E. NIETO BARAJAS
105 Análisis de Supervivencia
donde ttItY i.i es una v.a. indicadora. Cuando 0ˆ este estimador
se reduce al estimador Nelson‐Aalen. Finalmente, usando la relación
continua entre las funciones de riesgo acumulado y la de supervivencia
tHexptS 00 .
Cuando 0ˆ , este estimador no se reduce al estimador Kaplan‐Meier,
sino al estimador conocido como Fleming‐Harrington.
Es posible obtener intervalos de confianza para los estimadores anteriores
calculando el error estándar y usando normalidad asintótica.
Vale la pena mencionar que el modelo de riesgos proporcionales, como lo
propuso originalmente Cox, permite la incorporación de covariables
dependientes del tiempo. Es decir, variables explicativas cuyo valor va
cambiando conforme avanza el tiempo de supervivencia.
EJEMPLO. Tiempos de remisión. Los siguientes datos consisten en tiempos
de remisión para 40 pacientes con leucemia asignados aleatoriamente a
los tratamientos A o B.
EJEMPLO. Pacientes con cáncer de mama. Se desarrolló un estudio para
determinar si los pacientes originalmente clasificados como “nodo
linfático negativo” se podían clasificar de una mejor manera mediante un
PROFESOR: LUIS E. NIETO BARAJAS
106 Análisis de Supervivencia
nuevo procedimiento. 45 pacientes con un mínimo de 10 años de
seguimiento fueron seleccionados. De los 45, 9 fueron inmunoperoxidasa
positivo y los restante 36 fueron negativos. Se registraron los tiempos de
supervivencia, desde el diagnóstico, en meses.
5.3 Validación de supuestos y ajuste del modelo
AJUSTE DEL MODELO. Una vez que un modelo de regresión de supervivencia
ha sido ajustado, es necesario validar los supuestos del modelo a la luz de
los datos y verificar sensibilidad de las conclusiones en cambios en los
modelos o los datos. Hay varias formas de hacer esta validación:
1. Mediante las gráficas empíricas de de ajuste usando el estimador KM
de la función de supervivencia.
2. Expansión del modelo agregando más parámetros que representen
modificaciones a las especificaciones actuales. La necesidad de un
PROFESOR: LUIS E. NIETO BARAJAS
107 Análisis de Supervivencia
parámetro extra se puede validar mediante pruebas de hipótesis. Por
ejemplo:
o Agregando más covariables, o interacciones de las covariables
actuales o términos no lineales.
o Permitir que el parámetro b en un modelo de vida acelerado sea
función de x.
o Permitir interacciones de las covariables con el tiempo mediante la
inclusión de covariables dependientes del tiempo (en el modelo de
riesgos proporcionales).
o Expandir la familia base S0* a que sea más general con más
parámetros.
ANÁLISIS DE RESIDUOS. Es común en análisis de regresión hacer un análisis de
residuos para validación de los supuestos del modelo. Si un modelo de
regresión es ajustado a variables independientes iii x,,t , i1,…,n,
entonces los residuos ˆ,x,tge iii deben de tener ciertas propiedades si
el modelo es correcto, como independencia con la misma distribución.
o Modelo de vida acelerada. En este caso nuestros parámetros de interés
son b,,0 . Si b,ˆˆ 0 denotan los EMV’s entonces los residuos
definidos como
PROFESOR: LUIS E. NIETO BARAJAS
108 Análisis de Supervivencia
b
atlogz iii
, i1,..,n
con ˆ'xˆa i0i deberían de parecer una m.a. de S0*. Nótese que estos
residuos sólo existen para observaciones exactas. Par el caso de
observaciones censuradas se sugiere hacer una corrección
iiiiiadji zZZE1zz
donde Zi es una v.a. con función de supervivencia S0*. Gráficas de zi o
adjiz
vs. covariables deberían de mostrar un patrón constante. Gráficas de zi o
adjiz vs. ia apoyarían el supuesto del parámetro b constante. Finalmente
gráficas de probabilidad de zi o adjiz con respecto a la distribución base S0
*
apoyarían el supuesto paramétrico.
o Modelo de riesgos proporcionales (y otros modelos de regresión). Una
forma genérica de definir los residuos es ˆ,x,tge iii . Por ejemplo,
,xTFe iii o ,xTSe iii tienen una distribución U(0,1). Una
transformación equivalente que es muy útil en análisis de supervivencia
es ,xTHe iii . Dado que ,xTSlog,xTH iiii , los ei’s obtenidos
con la función de riesgo acumulado son v.a.’s independientes con
distribución Exp(1). Definir los residuos ajustados para datos censurados
es simple si vemos que 1Expei entonces 1eeeeE iiii , por lo
tanto
ˆ,xTHe iii y iiadji 1ee .
PROFESOR: LUIS E. NIETO BARAJAS
109 Análisis de Supervivencia
Nótese que ˆ'x
0iietHˆ,xtH para el modelo de riesgos proporcionales,
con tH0 el estimador de Breslow. Los residuos ie son llamados residuos
de Cox‐Snell.
Para verificar que una muestra de residuos ie siguen una distribución
Exp(1), se calcula la función de riesgo acumulada empírica (estimador
Nelson‐Aalen) de los residuos y se compara con la función de riesgo
acumulado de un modelo Exp(1) que es ttH . Por lo tanto si el modelo
de riesgos proporcionales ajusta los datos, la gráfica del estimador
Nelson‐Aalen de los residuos debe de ser una línea recta que pasa por el
origen.
PROFESOR: LUIS E. NIETO BARAJAS
110 Análisis de Supervivencia
5.4 Comparación de curvas de supervivencia
En análisis de supervivencia es de interés probar si dos tratamientos dan
lugar a curvas de supervivencia distintas. Si la diferencia entre
tratamientos está parametrizada por un modelo de regresión
semiparamétrico, probar la diferencia entre curvas de supervivencia es
quivalente a realizar una prueba de hipótesis sobre el parámetro que
cuantifica la diferencia.
En un contexto general, fuera de modelos paramétricos, es de interés
probar tStS:H 210 , o equivalentemente thth:H 210 .
De manera introductoria, supongamos que un individuo puede presentar
su evento de fallo dentro de cierta ventana de tiempo t (fija). En este caso,
podemos dividir a los individuos de ambas poblaciones en aquellos que
presentaron su evento de fallo en un momento anterior o igual a t y
aquellos que no. Esta información se puede representar en una tabla de
contingencia:
Num. Fallas Num. No fallas
Pob. 1 a b n1
Pob. 2 c d n2
m1 m2 n
PROFESOR: LUIS E. NIETO BARAJAS
111 Análisis de Supervivencia
o Sea p1P(falla | Pob. 1) y p2P(falla | Pob. 1). La hipótesis de interés se
puede escribir como 210 pp:H .
o Prueba exacta de Fisher: Sea A la v.a. que da lugar a la observación “a” de
la celda (1,1). Considerando m1, m2, n1, n2 cantidades fijas, bajo H0, A
tienen una distribución hipergeométrica de la siguiente forma:
1
1
21
m
n
am
n
a
n
aAP ,
con media y varianza dadas por
n
mnAE 11 y
1nn
mmnnAVar
22121
.
Podemos definir la estadística de prueba
2
AVar
AEaW
,
la cual bajo H0 tiene una distribución asintótica 2)1( . La región de rechazo
sería 2),1(wRR .
o Prueba de log‐rangos . Sean t1,t2,…,tk, kn1+n2 los k tiempos de fallo
observados para la muestra combinada de las dos poblaciones. Suponga
que para cada tj, j1,…,k obtenemos valores n1j, n2j, m1j y m2j. Entonces
para probar la hipótesis j2j10 pp:H para j1,…,k, construimos la
estadística W de la siguiente manera:
PROFESOR: LUIS E. NIETO BARAJAS
112 Análisis de Supervivencia
2
k
1j j
k
1jjj
AVar
AEa
W
.
Aunque los componentes de la suma no sean independientes, bajo H0, W
tiene una distribución asintótica 2)1( . La región de rechazo es
2),1(wRR . La estadística W es también conocida como estadística
Mantel‐Haenszel (1959).
o Existe una versión más general de la prueba para comparar curvas de
supervivencia que permite ponderar la contribución de cada observación.
La estadística de prueba es
k
1j j1Y
dY
Y
Y
Y
Y2j
k
1j Y
d
1j1jj
d1tW
YdtWZ
i
jj
j
1j
j
1j
j
j
,
donde 1jd y 2jd son el número de fallos en el tiempo tj de la muestra
combinada, 1jY y 2jY son el número de individuos en riesgo al tiempo tj,
para las poblaciones 1 y 2 respectivamente; 2j1jj ddd ; 2j1jj YYY .
La estadística Z, bajo H0, tiene una distribución asintótica normal
estándar. Con esta estadística es posible hacer pruebas de una sola
cola para probar que una curva de supervivencia es mayor a otra, o de
dos colas para probar diferencias en cualquier sentido.
PROFESOR: LUIS E. NIETO BARAJAS
113 Análisis de Supervivencia
Opciones para la función de ponderación son: 1tW j con la que se
obtiene la prueba de log‐rangos, jj YtW con la que se obtiene una
generalización de la prueba de Mann‐Whitney‐Wilcoxon.
o Esta prueba se puede calcular en R con la librería survival mediante el
comando survdiff.
top related