imputacion de datos faltantes en un modelo de...

53
IMPUTACI ´ ON DE DATOS FALTANTES EN UN MODELO DE TIEMPO DE FALLO ACELERADO Autor: Mois´ es Castro Cacabelos Tutores: Francisco Gude Sampedro y Ana P´ erezGonz´alez aster en T´ ecnicas Estad´ ısticas Julio 2014

Upload: others

Post on 27-Jul-2020

11 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

IMPUTACION DE DATOS FALTANTES EN UN MODELO DE

TIEMPO DE FALLO ACELERADO

Autor: Moises Castro Cacabelos

Tutores: Francisco Gude Sampedro y Ana Perez Gonzalez

Master en Tecnicas Estadısticas

Julio 2014

Page 2: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha
Page 3: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

El presente documento que tiene como tıtulo “Imputacion de datos faltantes en un modelo detiempo de fallo acelerado” ha sido realizado por Moises Castro Cacabelos como Trabajo Fin de Masterde Tecnicas Estadısticas bajo la direccion de Francisco Gude Sampedro y Ana Perez Gonzalez, queautorizan la entrega del mismo.

Fdo.: Francisco Gude Sampedro Fdo.: Ana Perez Gonzalez

Page 4: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha
Page 5: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

Indice general

Resumen 7

1. Introduccion y objetivo 9

2. Datos faltantes 11

2.1. Modelos de datos faltantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2. Principales metodos para tratar datos faltantes . . . . . . . . . . . . . . . . . . . . . . 11

2.2.1. Analisis de casos completos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2.2. Analisis de casos disponibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2.3. Metodos de imputacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.2.4. Maxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3. Principales paquetes de R que implementan tecnicas de datos faltantes . . . . . . . . . 15

2.4. Utilizacion de la librerıa MICE para la imputacion multiple . . . . . . . . . . . . . . . 16

3. Analisis de supervivencia 21

3.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2. Conceptos basicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.3. Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.4. Estimadores de la funcion de supervivencia . . . . . . . . . . . . . . . . . . . . . . . . 23

3.4.1. Kaplan-Meier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.4.2. Actuarial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.4.3. Nelson-Aalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.5. Modelos de supervivencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.5.1. Modelo de riesgos proporcionales de Cox . . . . . . . . . . . . . . . . . . . . . . 24

3.5.2. Modelo de tiempo de fallo acelerado (AFT) . . . . . . . . . . . . . . . . . . . . 25

5

Page 6: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

6 INDICE GENERAL

3.5.3. Comparacion del modelo AFT respecto al de Cox . . . . . . . . . . . . . . . . . 26

4. Estudio de simulacion 29

5. Aplicacion a datos reales 39

5.1. Descripcion del problema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5.2. Descripcion del conjunto de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5.2.1. Descripcion de la poblacion y objetivo del estudio . . . . . . . . . . . . . . . . 39

5.2.2. Descripcion de las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.3. Imputacion a los datos reales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.4. Resultados del analisis de supervivencia . . . . . . . . . . . . . . . . . . . . . . . . . . 47

6. Conclusiones 49

Bibliografıa 51

A. Abreviaturas 53

Page 7: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

Resumen

Es frecuente en estudios de supervivencia, al igual que en otros estudios biomedicos, que nos encon-tremos con datos faltantes. Este problema ha sido tratado en estudios en los que se han analizado losdatos siguiendo modelos de riesgos proporcionales de Cox. Sin embargo, en modelos de supervivenciade tiempo de fallo acelerado, existe escasa informacion en la literatura en cuanto al tratamiento deeste tipo de estudios.

Este trabajo aborda el tratamiento de datos faltantes en modelos de tiempo de fallo acelerado condistribucion lognormal, mediante una revision de la literatura, para seguir con estudios de simulaciony finalizar con la aplicacion a un caso practico sobre un estudio de supervivencia en pacientes que hansido sometidos a trasplante hepatico.

En el estudio de simulacion se realiza una comparativa del comportamiento de diversos metodosde imputacion multiple. Para ello se utiliza una librerıa de R denominada “mice”. De los resultadosobtenidos se desprende que el comportamiento de los estimadores de los parametros varıa en funciondel mecanismo de imputacion utilizado.

De la aplicacion a datos reales, siguiendo el criterio AIC para valorar los resultados del analisis condatos imputados, las imputaciones en las que se aplicaron los metodos “pmm” para variables continuasy “logreg” para variables binarias son las que han mostrado mejores resultados. Los factores de riesgoque se obtienen tras el analisis de supervivencia pueden cambiar sustancialmente en caso de que seanalicen datos con casos completos o con datos imputados por los metodos anteriormente indicados.

7

Page 8: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha
Page 9: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

Capıtulo 1

Introduccion y objetivo

Los datos faltantes son un problema que surge con mucha frecuencia cuando un estadıstico afrontaun analisis de datos. Aparecen, por ejemplo, en el campo de la investigacion medica, psicologıa oestudios sociologicos, entre otros. Crean una dificultad anadida en la investigacion cientıfica debidoa que la mayor parte de los procedimientos de analisis de datos existentes no estan disenados (oadaptados) para la ausencia de observaciones. Un manejo inadecuado de los datos faltantes puedeconducir a un posterior analisis estadıstico erroneo.

Para el analisis de datos en estudios de supervivencia, uno de los modelos mas utilizados es elde riesgos proporcionales de Cox. De hecho, podemos encontrar bibliografıa abundante relativa a laasignacion de datos faltantes en modelos de Cox. Sin embargo, en este trabajo estamos interesadosen aplicar otros modelos de supervivencia, como es el caso del modelo de tiempo de fallo acelerado(AFT). A diferencia del modelo de Cox, en la literatura son escasas las referencias que nos acercan altratamiento de datos faltantes cuando se pretende analizar los datos con modelos AFT.

El objetivo de este trabajo es investigar los metodos de imputacion de datos faltantes que mejor seadecuan al analisis de supervivencia de tiempo de fallo acelerado. Para ello, se realizaran simulacionescon imputacion de datos faltantes en un modelo AFT y ademas, se aplicaran diferentes metodos deimputacion de datos faltantes a un caso real.

Para ello organizamos la memoria de la siguiente forma: en el capıtulo 2 se exponen los diferentesmetodos de imputacion que se utilizan habitualmente, en el capıtulo 3 se describe el modelo de super-vivencia de tiempo de fallo acelerado (AFT), en el capıtulo 4 se realiza un estudio de simulacion paraun modelo AFT con distribucion lognormal, en el capıtulo 5 se realiza un analisis descriptivo de losdatos e imputacion a los datos reales, en el capıtulo 6 se muestran las principales conclusiones y en elcapıtulo 7 se referencia la bibliografıa utilizada.

9

Page 10: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

10 CAPITULO 1. INTRODUCCION Y OBJETIVO

Page 11: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

Capıtulo 2

Datos faltantes

2.1. Modelos de datos faltantes

Rubin (1976) clasifico los modelos de perdida de datos en tres tipos diferentes: MCAR, MAR yMNAR. Vamos a describir a continuacion brevemente cada uno de ellos [1].

MCAR: una variable es MCAR (missing completely at random) si la probabilidad de perdidade una observacion para todos los individuos es la misma y no depende de las medidas de otrasvariables [2]. Por ejemplo, un tubo que contiene una muestra de sangre de un individuo es rotopor accidente o un cuestionario de individuo se pierde accidentalmente [3].

MAR: una variable es MAR (missing at random) si la probabilidad de perdida de la observacionde un individuo depende de la informacion observada. Por ejemplo, si se hace un test de aptituda unos alumnos y a los que superan una nota de corte establecida se les hace otro mas difıcilmientras que a los demas no, por tanto estos tienen datos perdidos para la segunda variable yse debe a las observaciones de la primera.

MNAR: una variable es MNAR (missing not at random) si la probabilidad de que la observacionde un individuo este perdida esta relacionada con los valores perdidos. Por ejemplo, un casoMNAR es cuando en un cuestionario le preguntas a alguien por su renta anual y este no contestaporque es muy alta.

2.2. Principales metodos para tratar datos faltantes

2.2.1. Analisis de casos completos

El analisis de casos completos es una estrategia simple que podemos aplicar a cualquier analisisestadıstico con observaciones faltantes. El analista descarta a todos los individuos que tenga valoresfaltantes en alguna de las variables seleccionadas inicialmente y luego procede con el analisis utilizandometodos estandar. La primera cuestion que hay que plantearse con este analisis es si la submuestraque se analiza es una muestra aleatoria de la muestra original. Si la perdida es MCAR, entonceslos resultados del analisis resultaran generalmente insesgados pero con la consiguiente perdida deeficiencia.

11

Page 12: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

12 CAPITULO 2. DATOS FALTANTES

Hay que tener en cuenta que es muy raro que ocurra una perdida MCAR en los datos del mundoreal. Cuando tengamos una perdida MAR (que la tendremos habitualmente para datos reales) elanalisis de las observaciones completas puede producir estimaciones sesgadas [4].

2.2.2. Analisis de casos disponibles

El analisis de casos disponibles intenta mitigar la perdida de datos eliminando casos en una baseanalisis por analisis. La aplicacion prototipo de este analisis ocurre cuando un investigador utiliza undiferente subconjunto de casos para calcular cada elemento en analisis. Por ejemplo, para el calculode una matriz de correlaciones, el tamano muestral para estimar la varianza de una variable notiene porque ser el mismo que el utilizado para otra variable o para alguna de las covarianzas. Sinembargo, este metodo no esta limitado a correlaciones, y es comun encontrar artıculos de investigacionpublicados que informan de diferentes tamanos de muestra a traves de analisis de regresion o unaANOVA. Utilizar tantos datos como sea posible es una buena idea, y es cierto que el analisis de casosdisponibles tiende a ser mas poderoso que el analisis de casos completos, particularmente cuando lasvariables en un conjunto de datos tienen bajas correlaciones. Sin embargo, las desventajas del analisisde casos disponibles limitan su utilidad.

Consistente con el analisis de casos completos, el principal problema del analisis de casos disponibleses que requiere datos MCAR y puede producir estimaciones de parametro distorsionadas cuando elsupuesto no se sostiene. Sin embargo, el analisis de casos disponibles tambien tiene un numero deproblemas unicos. Por ejemplo, utilizar diferentes subconjuntos de casos plantea problemas sutiles conmedidas de asociacion. Para ilustrarlo, consideramos la siguiente formula para la covarianza muestral:

σXY =∑ (xi − µX)(yi − µY )

N − 1.

El analisis de casos disponibles utiliza el subconjunto de casos con datos completos en ambas variablesX e Y para calcular la covarianza. La mayorıa de los paquetes software utilizan la misma submuestrapara calcular la media de las variables, pero tambien es posible calcular µX de los casos que tienendatos en X y calcular µY de los casos que tienen datos en Y. Una cuestion similar surge cuandocalculamos el denominador del coeficiente de correlacion.

r =σXY√σ2X σ

2Y

.

Los paquetes software tıpicamente utilizan el subconjunto de casos con datos completos en X e Y paracalcular las varianzas, pero otra opcion es calcular σ2X y σ2Y de submuestras separadas (por ejemplo,calcular σ2X de los casos que tienen datos solo en X). El ultimo enfoque es problematico porque puedeproducir valores de correlacion que exceden de ±1 [5].

2.2.3. Metodos de imputacion

Imputacion por media incondicional

La imputacion por media incondicional es una estrategia que consiste en calcular la media muestralpara cada una de las variables que tiene datos faltantes, y luego utilizar este valor para sustituir todoslos valores faltantes que tiene la variable correspondiente. Esta estrategia no suele funcionar muy bien

Page 13: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

2.2. PRINCIPALES METODOS PARA TRATAR DATOS FALTANTES 13

cuando la perdida de datos depende de otras variables. Sustituyendo estos valores faltantes por lamedia se reduce la varianza en la variable y causa estragos en las covarianzas y correlaciones. Ademas,no es facil estimar los errores estandar. Tambien hay que tener en cuenta que este metodo no esaplicable a variables cualitativas.

Imputacion por media condicional (regresion)

Como su nombre indica, la imputacion por regresion reemplaza valores faltantes con respuestaspredichas de un modelo de regresion. En un analisis multivariante, los casos completos son utilizadospara estimar un modelo de regresion donde la variable incompleta es la respuesta y las variablesexplicativas son algunas de las variables completas. El modelo de regresion estimado permite estimarrespuestas predichas para los casos incompletos. Aunque la idea de tomar informacion de las variablescompletas es buena, la imputacion por regresion tambien produce estimaciones de parametro sesgadas.Sobre todo si utilizamos modelos parametricos de regresion, por ejemplo regresion lineal. En tal caso,los valores imputados caeran en una lınea recta (en el caso de una sola covariable) o un hiperplano enel caso d-dimensional. Esto implica que los casos con valores imputados tienen correlacion igual a 1,y rellenar los datos con un conjunto de casos perfectamente correlacionados pueden sobreestimar lacorrelacion total.

Por ello en los ultimos anos se han publicado trabajos que realizan imputaciones a partir demodelos de regresion no parametricos.

Imputacion por regresion estocastica

La imputacion por regresion estocastica tambien utiliza ecuaciones de regresion para predecirlas variables incompletas a partir de las variables completas, pero requiere un paso adicional queconsiste en aumentar cada prediccion con un termino residual distribuido mediante la distribucion delerror, generalmente una distribucion normal. Anadir residuos a los valores imputados reestablece laperdida de variabilidad de los datos y efectivamente elimina el sesgo asociado con los esquemas deimputacion de regresion estandar. Con este metodo de imputacion obtenemos estimaciones insesgadasde los parametros bajo datos MAR.

Imputacion hot-deck

La imputacion hot-deck es una tecnica que imputa los valores faltantes con puntuaciones deotros encuestados con caracterısticas similares. Originalmente se desarrollo para tratar datos faltantesde encuestas poblacionales, y el procedimiento tiene una larga historia en aplicaciones de estudio. Laaplicacion mas tıpica este metodo de imputacion reemplaza cada valor faltante con un dibujo aleatoriode una submuestra de los encuestados que tienen puntuaciones similares en un conjunto de variables. Elprocedimiento hot-deck clasifica los encuestados en factores basados en caracterısticas demograficastales como sexo, edad y estado civil. Observar que las variables no necesitan ser categoricas. Laimputacion hot-deck generalmente preserva las distribuciones univariantes de los datos y no atenuanla variabilidad de los datos rellenados al mismo grado que otros metodos de imputacion. Sin embargo,este metodo de imputacion no es muy apropiado para estimar medidas de asociacion y puede producirestimaciones sesgadas de las correlaciones y los coeficientes de regresion.

Page 14: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

14 CAPITULO 2. DATOS FALTANTES

Last Observation Carried Forward

Last observation carried forward es una tecnica que requiere datos longitudinales. Imputa medidasrepetidas con la observacion que le precede. Esta estrategia se aplica a los casos que tienen datosperdidos permanentemente o de forma intermitente. Tambien asume que los valores no cambian signi-ficativamente despues de la ultima medida observada o durante el periodo intermitente donde faltanvalores.

Imputacion multiple

El metodo de imputacion multiple consiste en realizar varias imputaciones de las observacionesfaltantes para luego analizar los conjuntos de datos completados y combinar los resultados obtenidospara obtener una estimacion final. El analisis de imputacion multiple esta dividido en tres fases: fase deimputacion, fase de analisis y fase de puesta en comun. La fase de imputacion crea multiples copias delos conjuntos de datos (m), y cada una de ellas contiene diferentes estimaciones de los valores perdidos.Conceptualmente, este paso es una version iterativa de la imputacion por regresion estocastica, aunquesus fundamentos matematicos se basan en muchas ocasiones en los principios de estimacion bayesiana.El objetivo de la fase de analisis, como su nombre indica, es analizar los conjuntos de datos rellenados.Este paso aplica los mismos procedimientos estadısticos que un individuo hubiera utilizado si tuvieratodos los datos. La unica diferencia es que realizamos cada analisis m veces, una para cada conjunto dedatos imputados. La fase de analisis nos lleva a m conjuntos de estimaciones de parametros y erroresestandar, con lo que el proposito de la fase de puesta en comun es combinar todo en un conjuntosimple de resultados. Rubin (1987) perfilo formulas relativamente sencillas para poner en comun lasestimaciones de los parametros y los errores estandar. Por ejemplo, la estimacion del parametro puestoen comun es simplemente la media aritmetica de las m estimaciones de la fase de analisis. Combinarlos errores estandar es ligeramente mas complejo pero sigue la misma logica. El proceso de analizarconjuntos de datos multiples y poner en comun los resultados parece latoso, pero los paquetes desoftware de imputacion multiple automatizan completamente el procedimiento.

Las m estimaciones son combinadas en una estimacion en conjunto y una matriz de varianzas-covarianzas utilizando las reglas de Rubin, que estan basadas en la teorıa asintotica en un marcobayesiano [6]. La matriz de varianzas-covarianzas combinada incorpora la variabilidad dentro de laimputacion (incertidumbre sobre los resultados de unos conjuntos de datos imputados) y la variabilidadentre las imputaciones (reflejando la incertidumbre debido a la informacion perdida). Supongamos queθj es una estimacion de una cantidad univariante o multivariante de interes (por ejemplo, un coeficientede regresion) obtenida de los j-esimos conjuntos de datos imputados y que Wj es la varianza estimada

de θj . La estimacion combinada θ es la media de las estimaciones individuales:

θ =1

m

m∑j=1

θj .

La varianza total de θ esta formada por la suma de la varianza dentro de la imputacion W =1m

∑mj=1Wj y la varianza entre las imputaciones B = 1

m−1

∑mj=1 (θj − θ)2 :

var(θ) = W +

(1 +

1

m

)B.

Page 15: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

2.3. PRINCIPALES PAQUETES DE R QUE IMPLEMENTAN TECNICAS DE DATOS FALTANTES15

2.2.4. Maxima verosimilitud

La idea de utilizar el metodo de maxima verosimilitud para tratar datos faltantes viene desdehace mas de 50 anos. Las primeras soluciones de maxima verosimilitud fueron de alcance limitado ytuvieron relativamente pocas aplicaciones practicas. Muchos de los avances importantes se produjeronen los anos 70 cuando se apuntalan las tecnicas modernas de manejo de datos faltantes.

La estimacion por maxima verosimilitud extrae continuamente diferentes combinaciones de valoresde los parametros poblacionales hasta que identifica el particular conjunto de valores que produceel valor mas alto del log-verosimilitud (es decir, el mejor ajuste para los datos). Conceptualmente,el proceso de estimacion es el mismo con o sin datos faltantes. Sin embargo, los datos faltantesintroducen algunos matices adicionales que no son relevantes para los analisis de casos completos. Losregistros de los datos incompletos requieren una ligera alteracion para el calculo del log-verosimilitudde los individuos para acomodar el hecho de que los individuos ya no tienen el mismo numero deobservaciones. Los datos faltantes tambien necesitan un ajuste de los calculos de los errores estandar.Finalmente, el analisis de datos faltantes suele requerir algoritmos de optimizacion iterativos, inclusopara problemas de estimacion muy simples.

El algoritmo EM (Expectation-Maximization) es un algoritmo particularmente importante parael analisis de datos faltantes. Las primeras aplicaciones del algoritmo se enfocaron principalmente ala estimacion de un vector de medias y una matriz de covarianzas con datos faltantes, pero se haextendido el algoritmo para abordar una variedad de complicados problemas de estimacion de datoscompletos.

El algoritmo EM es un procedimiento iterativo de dos pasos: el paso de esperanza y el paso demaximizacion. Una de las aplicaciones mas comunes es la estimacion del vector de medias y la matriz decovarianzas. En este caso, el proceso iterativo comienza con una estimacion inicial del vector de medias(µ) y de la matriz de covarianzas (Σ). El primer paso utiliza los elementos del vector de medias y lamatriz de covarianzas para construir un conjunto de ecuaciones de regresion que predicen las variablesincompletas de las variables observadas. El proposito de este paso es rellenar los valores faltantes deforma que parezca una imputacion por regresion estocastica. El segundo paso aplica formulas de datoscompletos estandar a los datos rellenados para generar estimaciones actualizadas del vector de mediasy la matriz de covarianzas. El algoritmo lleva las estimaciones del parametro actualizadas hacia elprimer paso de nuevo, donde se construye un nuevo conjunto de ecuaciones de regresion para predecirlos valores faltantes. El segundo paso reestima el vector de medias y la matriz de covarianzas. Elalgoritmo EM repite los dos pasos hasta que los elementos µ y Σ no cambian, punto en el cual elalgoritmo ha convergido en las estimaciones de maxima verosimilitud. Es importante reiterar que elalgoritmo no imputa ni reemplaza los valores faltantes. Mas bien, utiliza todos los datos disponiblespara estimar el vector de medias y la matriz de covarianzas.

2.3. Principales paquetes de R que implementan tecnicas de datosfaltantes

MissingDataGUI

Este paquete proporciona resumenes numericos y graficos para los datos faltantes de varia-bles categoricas y cuantitativas. Se aplica una variedad de metodos de imputacion, incluyendoimputaciones univariantes como valores fijos o aleatorios, imputaciones multivariantes como lasvecinanzas mas cercanas e imputacion multiple, e imputaciones condicionadas a una variablecategorica [7].

Page 16: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

16 CAPITULO 2. DATOS FALTANTES

Amelia II

Amelia II imputa de forma multiple datos faltantes en una seccion cruzada unica (como unestudio), de una serie de tiempo (como variables coleccionadas por un ano en un paıs), o de unconjunto de datos de seccion cruzada de series de tiempo (tales como variables coleccionadasdurante anos para varios paıses). Amelia II implementa un algoritmo basado en bootstrap,por lo que generalmente es considerablemente mas rapido que otros enfoques y puede manejarmuchas mas variables. A diferencia de Amelia I y otro software de imputacion estadısticamenteriguroso, virtualmente nunca se bloquea. Amelia II tambien incluye diagnosticos utiles del ajustede modelos de imputacion multiple [8].

VIM

Este paquete introduce nuevas herramientas para la visualizacion de valores faltantes y/oimputados, que pueden ser utilizados para explorar los datos y la estructura de los valoresfaltantes y/o imputados. Dependiendo de la estructura de los valores faltantes, los metodoscorrespondientes pueden ayudar a identificar el mecanismo generando los valores perdidos ypermite explorar los datos incluyendo los valores faltantes. Ademas, la calidad de imputacionpuede ser visualmente explorada utilizando varios metodos graficos univariantes, bivariantes ymultivariantes. Un interfaz de usuario grafico disponible en el paquete VIMGUI permite un facilmanejo de los metodos graficos implementados [9].

MICE

Hace imputacion multiple utilizando Fully Conditionally Specification (FCS) implementadopor el algoritmo MICE (Multiple Imputation by Chained Equations). Cada variable tiene supropio modelo de imputacion. Se proporcionan modelos de imputacion incorporados para datoscontinuos (pmm), datos binarios (regresion logıstica), datos categoricos no ordenados (regresionlogıstica politomica) y datos categoricos ordenados (odds proporcional). Se puede utilizar impu-tacion pasiva para mantener consistencia entre las variables. Se dispone de varios graficos dediagnostico para examinar la calidad de las imputaciones [10].

2.4. Utilizacion de la librerıa MICE para la imputacion multiple

Dado que el objetivo de nuestro trabajo es la aplicacion de diferentes metodos de imputacionmultiple a un conjunto de datos reales, pasamos a indicar las pautas necesarias para llevar a cabo esteproceso [11]. La especificacion del modelo de imputacion es el paso mas importante en imputacionmultiple. El modelo de imputacion deberıa:

Explicar el proceso que creo los datos faltantes

Preservar las relaciones en los datos

Preservar la incertidumbre sobre estas relaciones

La idea es que la adhesion a estos principios producira imputaciones adecuadas, y ası da lugar ainferencias estadısticas validas. Necesitamos seguir los siguientes pasos:

1. Debemos decidir si el supuesto MAR es plausible. Las ecuaciones encadenadas [12] pueden mane-jar tanto datos MAR como MNAR. La imputacion multiple bajo datos MNAR requiere supuestosde modelado adicionales que influyen en las imputaciones generadas.

Page 17: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

2.4. UTILIZACION DE LA LIBRERIA MICE PARA LA IMPUTACION MULTIPLE 17

2. La segunda eleccion se refiere a la forma de imputacion del modelo. La forma abarca la parteestructural y la distribucion de error asumido. En el metodo de imputacion de datos multivarian-tes Fully Conditional Specification (FCS), la forma necesita ser especificada para cada variableincompleta en los datos. La eleccion dependera de la escala de la variable que se imputa, ypreferiblemente incorpora informacion sobre la relacion entre las variables.

Actualmente se dispone de distintos paquetes del software libre R que pueden disponerseen la pagina web cran.r-project.org/ como MissingDataGUI, Amelia II o VIM. El paquete quenosotros vamos a utilizar para imputar datos faltantes en nuestro conjunto de datos reales esel MICE (Multiple Imputation by Chained Equations). El paquete MICE en R imputa datosmultivariantes incompletos mediante ecuaciones encadenadas. El software MICE 1.0 aparecio enel ano 2000 como una librerıa S-PLUS, y en 2001 como un paquete de R. MICE 1.0 introdujoseleccion de predictores, imputacion pasiva y puesta en comun automatica. El MICE 2.9 ex-tiende la funcionalidad del MICE 1.0 de varias formas. En el MICE 2.9, el analisis de los datosimputados esta hecho de forma general, mientras el rango de modelos bajo el cual la puesta encomun trabaja esta sustancialmente extendido. MICE 2.9 anade una nueva funcionalidad paraimputar datos con varios niveles, seleccion de predictores automatica, manejo de datos, valoresde post-procesamiento imputados, rutinas de puesta en comun especializadas, herramientas deseleccion del modelo y graficos de diagnostico. La imputacion de datos categoricos esta mejo-rada para problemas derivados causados por la prediccion perfecta. Se presta especial atenciona las transformaciones, a la suma de las puntuaciones, a los ındices e interacciones utilizandoimputacion pasiva, y a la configuracion apropiada de la matriz predictora.

El algoritmo MICE requiere una especificacion de un metodo de imputacion univarianteseparadamente para cada variable incompleta. El nivel de medida determina en gran partela forma del modelo de imputacion univariante. La funcion mice() en R, distingue variablesnumericas, binarias, categoricas ordenadas y categoricas no ordenadas, y establece los valorespor defecto.

Tabla 2.1. Tecnicas de imputacion univariantes incorporadas.

Metodo Descripcion Tipo de escala

pmm Predictive mean matching Numerico

norm Regresion lineal bayesiana Numerico

norm.nob Regresion lineal no bayesiana Numerico

norm.predict Regresion lineal Numerico

mean Imputacion por media incondicional Numerico

logreg Regresion logıstica Factor, 2 niveles

polyreg Modelo logıstico multinomial Factor, > 2 niveles

polr Modelo logıstico ordenado Ordenado

lda Analisis lineal discriminante Factor

cart Arboles de clasificacion y regresion Cualquiera

sample Muestra aleatoria de los datos observados Cualquiera

La tabla 2.1 contiene una lista de algunos de los metodos de imputacion considerados en lalibrerıa mice. El argumento “method” de mice() especifica el metodo de imputacion. La fun-cion mice.impute.pmm() implementa predictive mean matching, un metodo de imputacion semi-parametrico. Sus principales ventajas son que los valores imputados coinciden con alguno de losvalores observados en la misma variable y que puede preservar relaciones no lineales incluso si laparte estructural del modelo de imputacion es incorrecta. Es un buen metodo de imputacion engeneral. Las funciones mice.impute.norm() y mice.impute.norm.nob() imputan de acuerdo a un

Page 18: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

18 CAPITULO 2. DATOS FALTANTES

modelo de imputacion lineal, y son rapidas y eficientes si los residuos del modelo son casi nor-males. La funcion mice.impute.norm.predict()aplica una regresion lineal entre las variables. Elmetodo mice.impute.mean() simplemente imputa la media de los datos observados. La funcionmice.impute.logreg() imputa factores con dos niveles mediante el modelo de regresion logıstica.La funcion mice.impute.polyreg() imputa factores con dos o mas niveles por el modelo multino-mial. La funcion mice.impute.polr() implementa el modelo logıstico ordenado, tambien conocidocomo modelo odds proporcional. La funcion mice.impute.lda() utiliza el analisis lineal discri-minante para calcular la probabilidad posterior de cada caso incompleto, y consecuentementemuestra imputaciones de estas posteriores. La funcion mice.impute.cart() imputa mediante unarbol de clasificacion si la variable es categorica, y si la variable es continua aplica un arbol deregresion. Finalmente, la funcion mice.impute.sample() coge solamente una muestra aleatoria delos datos observados, e imputa estos en lugar de los valores perdidos. Esta funcion no condicionaen ninguna otra variable.

A la hora de elegir metodo de imputacion, hay que tener en cuenta que con frecuencia las va-riables continuas no se distribuyen mediante una normal. El problema de imputar tales variablessuponiendo normalidad es que la distribucion de los valores imputados no se corresponde conlos valores observados en el caso de no normalidad de las observaciones. Una forma de tratar lano normalidad es utilizando el predictive mean matching (nombrado anteriormente). El pmm esun metodo de imputacion para valores perdidos con la propiedad de que los valores imputadosobtenidos son valores observados de la variable.

3. Una tercera eleccion se preocupa sobre el conjunto de variables que se incluyen como predictoresen el modelo de imputacion. El consejo general es incluir tantas variables relevantes como seaposible, incluyendo sus interacciones. Esto puede, sin embargo, conducir a especificaciones delmodelo difıciles de manejar.

Una caracterıstica util del algoritmo MICE es la habilidad para especificar el conjunto depredictores a ser utilizados para cada variable incompleta. La especificacion basica esta hecha atraves del argumento predictorMatrix, que es una matriz cuadrada de tamano ncol(data) con-teniendo ceros y unos. Cada fila en predictorMatrix identifica que predictores se van a utilizarpara la variable correspondiente a esa fila. El valor 1 en un elemento de la matriz indica que lavariable de la columna es predictora para imputar la variable objetivo (de la fila), y el 0 significaque no es utilizada. La configuracion por defecto de predictorMatrix especifica que los datosfaltantes de una variable son imputados utilizando el resto de variables del estudio.

Condicionado a todos los demas datos suele ser razonable para pequenos o medianos conjuntosde datos, contener hasta 20-30 variables aproximadamente, sin variables derivadas, efectos deinteraccion y otras complejidades. Como regla general, utilizar toda la informacion disponibleconduce a imputaciones multiples que tienen sesgo menor y maxima eficiencia. Para conjuntosde datos que contienen cientos o miles de variables, utilizar todos los predictores puede no serfactible (a causa de la multicolinealidad y problemas computacionales). Para la imputacion, esconveniente seleccionar un subconjunto apropiado de datos que no contiene mas de 15 a 25variables. Van Buuren et al (2011) proporciona la siguiente estrategia para seleccionar variablespredictoras de una base de datos grande:

a) Incluir todas las variables que aparecen en el modelo de datos completos, es decir, el modeloque sera aplicado a los datos despues de la imputacion. De no hacerlo puede sesgar el analisisde datos completos, especialmente si el modelo de datos completos contiene fuerte relacionespredictivas. Observar que este paso es algo contrario a la intuicion, como puede parecer esaimputacion fortalecerıa artificialmente las relaciones del modelo de datos completos, queserıa claramente indeseable. Si se hace correctamente, sin embargo, este no es el caso.

Page 19: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

2.4. UTILIZACION DE LA LIBRERIA MICE PARA LA IMPUTACION MULTIPLE 19

Observar que las interacciones de interes cientıfico tambien necesitan ser incluidas en elmodelo de imputacion.

b) Ademas, incluir las variables que estan relacionadas con la falta de respuesta. Los factoresque se conoce que van a influir en la ocurrencia de datos faltantes (estratificacion, razonespara la falta de respuesta) deben incluirse por razones de fondo. Otras variables de interesson aquellas en las que las distribuciones difieren entre los grupos de respuesta y de norespuesta. Estos pueden ser encontrados inspeccionando sus correlaciones con el indicadorde respuesta de la variable a ser imputada. Si la magnitud de esta correlacion excede uncierto nivel, entonces la variable deberıa ser incluida.

c) Incluir tambien variables que explican una considerable proporcion de la varianza. Talespredictores ayudan a reducir la incertidumbre de las imputaciones. Son basicamente iden-tificados por sus correlaciones con la variable objetivo.

d) Quitar de las variables seleccionadas en los pasos b y c aquellas variables que tienen dema-siados valores faltantes dentro del subgrupo de casos incompletos. Un simple indicador es elporcentaje de casos observados dentro de este subgrupo, el porcentaje de casos utilizables.

La mayorıa de los predictores utilizados para la imputacion estan incompletos. En principio, unopodrıa aplicar los pasos de simulacion citados para cada predictor incompleto a su vez, pero estopuede dar lugar a una cascada de problemas de imputacion auxiliares. Al hacerlo, se corre elriesgo de que cada variable necesite ser incluida despues de todo. En la practica, hay a menudoun pequeno conjunto de variables clave, para las cuales las imputaciones se necesitan, que sugiereque todos los pasos anteriores se realicen solo para las variables clave. Este fue el enfoque cogidoen Van Buuren y Groothuis-Oudshoorn (1999), pero puede perder importantes predictores de lospredictores. Una estrategia mas seguras y eficiente, aunque mas laboriosa, es realizar los pasosdel modelo tambien para los predictores de los predictores de las variables clave. Esto esta hechoen Groothuis-Oudshoorn (1999). Es raramente necesario ir mas alla de los predictores de lospredictores. En el nodo terminal, podemos aplicar un metodo simple como imputacion por unvalor aleatorio observado de la propia variable que no necesita predictores para ello.

4. La cuarta eleccion es si deberıamos imputar variables que son funciones de otras variables (in-completas). Muchos conjuntos de datos contienen variables derivadas, suma de puntuaciones,variables de interaccion, relaciones y ası sucesivamente. Puede ser util incorporar las variablestransformadas en el algoritmo de imputacion multiple.

Con frecuencia hay una necesidad para las versiones transformadas, combinadas o recodifi-cadas de los datos. En el caso de datos incompletos, uno podrıa imputar el original y despuestransformar el original completo, o transformar el original incompleto e imputar la version trans-formada. Sin embargo, si ambos (original y transformado) se necesitan dentro del algoritmo deimputacion, ninguno de estos metodos trabaja porque no podemos estar seguros de la transfor-macion que se da entre los valores imputados de las versiones originales y las transformadas.

La librerıa MICE implementa un mecanismo especial, llamado imputacion pasiva, para tratarcon tales situaciones. La imputacion pasiva mantiene la consistencia entre diferentes transforma-ciones de los mismos datos. El metodo puede ser utilizado para asegurar que la transformacionsiempre depende de las imputaciones generadas mas recientemente en los datos originales sintransformar. La imputacion pasiva se invoca especificando una tilde (∼) como primer caracter delmetodo de imputacion. Esto proporciona un metodo simple para especificar una gran variedadde dependencias entre las variables, tales como las variables transformadas, recodificaciones,interacciones, suma de puntuaciones, y ası sucesivamente, que pueden ser necesarios en otraspartes del algoritmo.

Page 20: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

20 CAPITULO 2. DATOS FALTANTES

5. La quinta eleccion se preocupa del orden en que las variables deberıan ser imputadas. La secuenciade visita puede afectar a la convergencia del algoritmo.

El algoritmo MICE imputa por defecto columnas incompletas de datos de izquierda a derecha.Teoricamente, el esquema de visita es irrelevante siempre y cuando cada columna sea visitadalo suficiente, pero algunos esquemas son mas eficientes que otros. En particular, para datos quefaltan monotonicamente, la convergencia es inmediata si las variables estan ordenadas de acuerdoal numero de casos faltantes. Mas que reordenar los datos, es mas conveniente cambiar el esquemade visita del algoritmo mediante el argumento visitSequence. De forma basica, el argumentovisitSequence es un vector de enteros de longitud igual al numero de variables del conjuntode datos, especificando la secuencia de numeros de columna para una iteracion del algoritmo.Cualquier columna dada puede ser visitada mas de una vez dentro de la misma iteracion, quepuede ser util para asegurar sincronizaciones propias entre variables. Es obligatorio que todas lascolumnas con datos faltantes que se utilizan como predictores sean visitadas, o sino el algoritmose interrumpira con un error.

6. La sexta eleccion se preocupa de la configuracion de las imputaciones de partida y el numero deiteraciones.

7. La septima eleccion es m, el numero de datos de imputacion multiple. Estableciendo un mdemasiado bajo puede dar lugar a grandes errores de simulacion e ineficiencia estadıstica, espe-cialmente si la fraccion de informacion perdida es alta.

Para fracciones de informacion perdida γ=(0.1, 0.3, 0.5, 0.7, 0.9) necesitamos establecerm=(20, 20, 40, 100, >100) imputaciones, respectivamente. Otros autores (Schafer (1997)) dicenque con pocas imputaciones (3-5) para un modelo univariante son suficientes.

Tener en cuenta que estas elecciones siempre se necesitan. La imputacion necesita hacerelecciones por defecto. Estas elecciones estan destinadas a ser utiles a traves de una ampliagama de aplicaciones. Sin embargo, las elecciones por defecto no son necesariamente las mejorespara los datos. Simplemente, no hay un ajuste magico que siempre trabaja, por lo que a menudose necesita alguna adaptacion.

Page 21: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

Capıtulo 3

Analisis de supervivencia

3.1. Introduccion

En muchos estudios, especialmente los relacionados con la medicina, la variable principal quequeremos valorar es el tiempo que transcurre hasta un suceso. A este tiempo, normalmente se le llama“supervivencia”, aunque el suceso en cuestion no tiene por que ser la defuncion. Cuando el suceso quequeremos evaluar ocurre en todos los pacientes, entonces disponemos de varias tecnicas estadısticasque pueden aplicarse. Sin embargo, lo mas habitual es que el suceso en cuestion (la defuncion, larecidiva, la reaparicion de los sıntomas) no se presente en todos los individuos. Ademas, comprobarla distribucion deberıa ser el primer paso antes de aplicar cualquier prueba, y es muy frecuente queestos datos de supervivencia no sigan la distribucion normal, con lo cual la mayorıa de las pruebasestadısticas no son aplicables. En esta situacion, hay una serie de tecnicas estadısticas (analisis de lasupervivencia) apropiadas para estudios en los que cada paciente es seguido durante un determinadoperıodo y en los que se recoge el intervalo que transcurre entre el hecho inicial y el hecho final, ohasta que acaba el seguimiento si no ocurre el hecho final. Ademas, entre estas tecnicas, disponemosde pruebas para comparar curvas de supervivencia, y modelos mas complejos basados en la regresionque permiten valorar el efecto de un conjunto de valores pronosticos [13].

En ciencias de la salud, el auge de estas tecnicas empieza hacia los anos setenta. La ventajaque ofrecen estas tecnicas y lo que las ha popularizado es que permiten generalizar el analisis derespuestas binarias (sı/no; fallecido/vivo), incluido el tiempo de seguimiento, es decir, el tiempo queha transcurrido desde el inicio del seguimiento hasta producirse la respuesta o hasta el final delseguimiento si la respuesta no se ha producido. Ademas, este tiempo que se analiza se puede valoraren condiciones muy flexibles, porque la duracion del perıodo de observacion puede ser muy diferentepara cada sujeto. Ası pues, el analisis de la supervivencia es una tecnica muy apropiada para analizarrespuestas binarias en estudios longitudinales o de seguimiento que se caractericen por:

1. Duracion variable del seguimiento: los estudios de seguimiento tienen fechas muy bien definidasde inicio y de cierre, pero los sujetos se incorporan al estudio en momentos diferentes.

2. Observaciones incompletas: en la fecha de cierre del estudio aun no se ha producido el eventoterminal en ciertos sujetos (sujetos retirados “vivos”). Ademas, puede haber perdidas (sujetosperdidos). Estas observaciones incompletas dan lugar a lo que se llama “datos censurados”, y elanalisis de supervivencia se caracteriza por incluir la informacion que aportan estos datos.

21

Page 22: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

22 CAPITULO 3. ANALISIS DE SUPERVIVENCIA

3.2. Conceptos basicos

Funcion de supervivencia

La funcion de supervivencia se define como la probabilidad de que una persona sobreviva (no leocurra el evento de interes) al menos hasta el tiempo t. Una definicion mas formal puede darse de lasiguiente manera: sea T una variable aleatoria positiva (o no negativa) con funcion de distribucionF(t) y funcion de densidad de probabilidad f(t). La funcion de supervivencia S(t) es:

S(t) = 1 − F (t) = P [T > t]

Funcion de riesgo

La funcion de razon de riesgos o tasa instantanea de fallas λ(t) se define como el cociente entre lafuncion de densidad y la funcion de supervivencia:

λ(t) =f(t)

S(t).

Se interpreta como la probabilidad de que a un individuo le ocurra el evento de interes en la siguienteunidad de tiempo ∆t dado que ha sobrevivido hasta el tiempo t [14].

3.3. Censura

En estudios longitudinales, solo se conoce el tiempo exacto de supervivencia para los individuosque muestran el evento de interes durante el perıodo de seguimiento. Para los otros (los que estanlibres de la enfermedad al final del perıodo de observacion o los que se perdieron) todo lo que podemosdecir es que no mostraron el evento de interes durante el perıodo de seguimiento. En esta situaciontenemos lo que se llaman observaciones censuradas. Podemos distinguir tres tipos de censura:

Censura por la derecha: un sujeto esta censurado por la derecha si lo que se sabe es que le ocurreel evento de interes algun tiempo despues del perıodo fijado de seguimiento.

Censura por la izquierda: un sujeto esta censurado por la izquierda si lo que se sabe es que leocurre el evento de interes algun tiempo antes del perıodo fijado de seguimiento.

Censura por intervalos: un sujeto esta censurado por intervalos si lo que se sabe es que le ocurreel evento de interes entre dos instantes, pero el tiempo de fallo exacto no se conoce.

En la figura 3.1 mostramos graficamente tiempos de vida censurados de las tres formas. La “X” indicamuerte y la “O” censura. El primer individuo muere el dıa 7. El segundo individuo no muere duranteel periodo de estudio y hay censura por la derecha el dıa 12. El tercer individuo no muere durante elperiodo de observacion y es censurado el dıa 10. El cuarto individuo es censurado por intervalos: esobservado de forma intermitente y muere en algun momento entre los dıas 6 y 7. El quinto individuoes censurado por la izquierda, porque se ve que en el dıa 1 ha muerto cuando entra en el estudio [15].

Page 23: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

3.4. ESTIMADORES DE LA FUNCION DE SUPERVIVENCIA 23

Figura 3.1: Representacion de los distintos tipos de censura.

3.4. Estimadores de la funcion de supervivencia

3.4.1. Kaplan-Meier

El metodo de Kaplan-Meier se basa en los tiempos de supervivencia individuales y asume que lacensura es independiente del tiempo de supervivencia. El estimador de Kaplan-Meier de supervivenciaen el tiempo t se define mediante la siguiente ecuacion:

S(t) =∏ti≤t

r(ti) − d(ti)

r(ti).

donde ti, i=1,2,...,n es el conjunto total de tiempos de fallo registrados, r(ti) es el numero de individuosen riesgo y d(ti) el numero de muertes (o de ocurrencia del evento de interes) en el momento ti.

3.4.2. Actuarial

El metodo actuarial (tambien conocido como tabla de la vida) es una aproximacion del estimadorde Kaplan-Meier. Se basa en tiempos de supervivencia agrupados y es adecuado para conjuntos dedatos grandes.

El metodo actuarial supone que los sujetos se extraen aleatoriamente dentro de cada intervalo, portanto, en promedio, se extraen en mitad del intervalo. Esto no es importante cuando los intervalos detiempo son cortos, pero puede haber sesgos cuando los intervalos de tiempo son largos. Este metodo

Page 24: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

24 CAPITULO 3. ANALISIS DE SUPERVIVENCIA

tambien supone que la tasa de fallo dentro de un intervalo es el mismo para todos los sujetos y esindependiente de la probabilidad de supervivencia en otros perıodos de tiempo. Las tablas de la vidase producen de un estudio de la poblacion a grande escala y se utilizan con menos frecuencia en estosdıas (se prefiere Kaplan-Meier porque es menos propenso al sesgo).

3.4.3. Nelson-Aalen

El riesgo instantaneo se define como la proporcion de la poblacion presente en el tiempo t quefalla por unidad de tiempo. El riesgo acumulativo en el tiempo t, H(t), es riesgo sumado para todoslos tiempos hasta t. La relacion entre el riesgo acumulativo y la supervivencia es la siguiente:

H(t) = −ln[S(t)], o S(t) = e−H(t)

El estimador de Nelson-Aalen del riesgo acumulativo en el tiempo t se define como:

H(t) =∑ti≤t

d(ti)

r(ti).

La estimacion de Flemington-Harrington de supervivencia se puede calcular utilizando la estima-cion de Nelson-Aalen del riesgo acumulativo utilizando la relacion entre la supervivencia y el riesgoacumulativo descrita anteriormente.

3.5. Modelos de supervivencia

3.5.1. Modelo de riesgos proporcionales de Cox

Este modelo es el mas utilizado para datos de supervivencia en la medicina. En este modelo,definiremos el riesgo para el i-esimo individuo de la siguiente forma:

λ(t;Zi(t)) = λ0(t)eβ′Zi(t)

donde Zi(t) es el vector de covariables para el i-esimo individuo en el tiempo t, λ0(t) es la funcion deriesgo basal y β es el vector de parametros.

El cociente entre el riesgo para dos sujetos con el mismo vector de covariables es constante en eltiempo, es decir:

λ(t;Zi(t))

λ(t;Zj(t))=λ0(t)e

β′Zi(t)

λ0(t)eβ′Zj(t)

=eβ′Zi(t)

eβ′Zj(t)

= eβ′(Zi(t)−Zj(t))

Suponiendo que haya una muerte en el tiempo t*, la verosimilitud de que la muerte le ocurra alindividuo i-esimo y no a otro individuo es:

Li(β) =λ0(t

∗)eβ′Zi(t

∗)∑j Yj(t

∗)λ0(t∗)eβ′Zj(t∗)

=eβ′Zi(t

∗)∑j Yj(t

∗)eβ′Zj(t∗)

.

Page 25: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

3.5. MODELOS DE SUPERVIVENCIA 25

Al producto de los terminos de la ultima expresion L(β) =∏Li(β) se le llama verosimilitud parcial.

La maximizacion de log(L(β)) da una estimacion para β sin necesidad de estimar el parametro deruido o funcion de riesgo basal λ0(t).

Una extension del modelo de Cox permite obtener la estimacion de los modelos para distintos gru-pos disjuntos o estratos. El modelo obtenido se conoce como modelo de Cox estratificado y esta definidopara el estrato j-esimo como:

λ(t;Zi(t)) = λj(t)eβ′Zi(t)

Este modelo permite obtener la estimacion del modelo en presencia de una variable de estratifica-cion sobre la cual se desean obtener funciones de supervivencia por cada uno de los distintos gruposy probablemente poder estudiar la existencia o no de las funciones de supervivencia entre los grupos.

El modelo de Cox estratificado tambien constituye una de las maneras de corregir el modelo deCox cuando no se cumple el supuesto de riesgos proporcionales para alguna de las covariables. En estecaso suele correrse el modelo estratificando por la covariable que no cumple con el supuesto de riesgoproporcional. Este procedimiento permite corregir el sesgo en la estimacion del parametro que se puedepresentar cuando se viola el supuesto de riesgo proporcional. Sin embargo, presenta una desventaja yes que no existe ningun β que permita estimar el efecto de la covariable de estratificacion.

3.5.2. Modelo de tiempo de fallo acelerado (AFT)

El modelo es el siguiente:

log(Ti) = β0 + β1xi1 + β2xi2 + ...+ βpxip + σεi

donde εi es el termino de error aleatorio, β0,...,βp los parametros de regresion y σ el parametro deescala.

Si no hay datos censurados, podemos facilmente estimar este modelo mediante mınimos cuadradosordinarios (OLS). Simplemente generamos una nueva variable, Y = log T, y utilizamos el modelode regresion lineal con Y como variable dependiente. Este proceso conduce a mejores estimacionesinsesgadas lineales de los coeficientes, sin suponer ninguna distribucion en ε. Si ε es normal, lasestimaciones OLS seran tambien estimaciones de maxima verosimilitud (MLE) y tendran mınimavarianza entre todos los estimadores, tanto lineales como no lineales.

Pero los datos de supervivencia suelen tener observaciones censuradas, y estas son difıciles demanejar con OLS. De forma alternativa, podemos utilizar MLE suponiendo diferentes distribucionesen ε. Para cada una de las distribuciones de ε, hay una distribucion correspondiente para T (tabla3.1).

Observar que todos los modelos AFT se nombran para la distribucion de T en lugar de la dis-tribucion de ε o log(T). La razon de que se permita suponer diferentes distribuciones es que tienendiferentes implicaciones para las formas de la funcion de riesgo [16].

Page 26: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

26 CAPITULO 3. ANALISIS DE SUPERVIVENCIA

Tabla 3.1. Correspondencias de distribuciones entre ε y T.

Distribucion de ε Distribucion de T

Valor extremo (2 parametros) Weibull

Valor extremo (1 parametro) Exponencial

Log-gamma Gamma

Logıstica Log-Logıstica

Normal Log-Normal

AFT con datos faltantes

En la practica, suele haber un gran numero de posibles factores pronostico asociados con losresultados. Una forma de reducir el numero de factores antes de intentar un analisis multivariante,es examinar la relacion entre cada factor individual y la variable dependiente (por ejemplo, tiempode supervivencia). Del analisis univariante, los factores que tienen poco o ningun efecto en la variabledependiente pueden ser excluidos del analisis multivariante. Sin embargo, serıa deseable incluir factoresque dicen tener valores de pronostico por otros investigadores y factores que se consideran importantesdesde el punto de vista biomedico. Suele ser util considerar los metodos de seleccion del modelo paraescoger estos factores significantes de entre todos los posibles y determinar un modelo adecuado contan pocas variables como sea posible. Con frecuencia, una variable con valor de pronostico significanteen un estudio no es importante en otro. Por tanto, la confirmacion en un estudio posterior es muyimportante para identificar factores de pronostico.

Otro problema frecuente en analisis de regresion es el de datos faltantes. Se puede hacer tresdistinciones sobre los datos faltantes: (1) variables dependientes frente a variables independientes,(2) muchos datos faltantes frente a pocos datos faltantes, y (3) perdida de datos aleatoria frentea la no aleatoria. Si el valor de la variable dependiente (por ejemplo, tiempo de supervivencia) esdesconocido, poco mas hay que hacer que quitar a ese individuo del analisis y reducir el tamanomuestral. El problema de datos faltantes es de diferente magnitud dependiendo de como de grande seala proporcion de datos faltantes, ya sea para variables dependientes o para variables independientes. Elproblema, obviamente, es menos crıtico si falta el 1 % de los datos para una variable independiente quesi falta el 40 % de los datos para varias variables independientes. Cuando una proporcion pequena desujetos tiene datos faltantes para una variable, podemos optar simplemente por eliminarlos y realizarel analisis con los otros individuos de la muestra. Es difıcil especificar como de grande o como depequeno, pero eliminar 10 o 15 de cientos de casos no plantearıa una objecion practica seria. Sinembargo, si la falta de datos se da en una gran proporcion de personas y el tamano muestral no esamplio, una cuestion de aleatoriedad puede ser elevada. Si la muestra con datos faltantes no muestradiferencias significantes en la variable dependiente, el problema no es serio. Si los datos son MNAR, losresultados obtenidos de los sujetos eliminados seran enganosos. Por lo que eliminar casos no siemprees una solucion adecuada al problema de datos faltantes [17].

3.5.3. Comparacion del modelo AFT respecto al de Cox

El modelo de riesgos proporcionales de Cox se utiliza principalmente en los campos de la medicinay la bioestadıstica, mientras que el modelo AFT se utiliza principalmente en fiabilidad y experimentosindustriales [18].

El modelo de riesgos proporcionales de Cox tiene la ventaja de que puede estimar y hacer inferenciasobre los parametros de interes sin asumir ninguna forma para la funcion de riesgo basal, o lo que

Page 27: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

3.5. MODELOS DE SUPERVIVENCIA 27

es lo mismo, no es necesario especificar una distribucion de supervivencia para modelar el efecto delas variables explicativas sobre la variable de duracion. Sin embargo, este modelo esta basado en lasuposicion de riesgos proporcionales y esto puede no sostenerse en algunos estudios de supervivencia.De ser ası, el modelo de Cox estandar no se deberıa utilizar y puede producir un sesgo importante alestimar o hacer inferencia sobre el efecto de un factor de pronostico dado en la mortalidad.

Por otra parte, si consideramos los modelos AFT, pueden ser de interes debido a que puedenser reescritos especificando una relacion directa entre el logaritmo del tiempo de supervivencia y lasvariables explicativas, al igual que un modelo de regresion lineal multiple. Sin embargo, su princi-pal desventaja es que habitualmente la estimacion de estos modelos se lleva a cabo asumiendo unadistribucion para la duracion, que en la mayorıa de los casos es desconocida.

Ademas, este metodo tiene varias ventajas respecto al modelo de Cox:

No necesita asumir riesgos proporcionales

Modela directamente el efecto de las variables explicativas en la supervivencia, por lo que lainterpretacion de los resultados es mas facil que en los modelos de riesgos proporcionales, dondemodelamos el efecto de las covariables en una probabilidad condicionada. Ademas, utilizandoesta metodologıa podrıamos estimar la media residual del tiempo de vida de un paciente que yaha sobrevivido hasta el tiempo t

Page 28: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

28 CAPITULO 3. ANALISIS DE SUPERVIVENCIA

Page 29: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

Capıtulo 4

Estudio de simulacion

En este capıtulo hemos simulado el siguiente modelo de supervivencia de tiempo de fallo aceleradocon observaciones faltantes en alguna de las covariables:

T = exp(β0 + β1x1 + β2x2 + β3x3 + σε)

El objetivo del estudio es comparar el comportamiento de los estimadores sobre la submuestracompleta y sobre las muestras imputadas por diversos metodos. Para ello, hemos optado por diversosmetodos de imputacion multiple utilizando la librerıa MICE que comentabamos en la seccion 2.4. Parapoder realizar la comparacion vamos a considerar distintas medidas de error:

Error cuadratico medio βj = sesgo2(βj) + var(βj)

Error relativo absoluto βj = 1500

∑500j=1

∣∣∣∣ βj−βjβj

∣∣∣∣Error global βj = 1

500

∑500j=1 (βj − βj)

2

Generamos 500 muestras de tamano 100 para un modelo AFT. Consideramos tres covariables queprovienen de una normal estandar multivariante. Asignamos distintos porcentajes de censura por laderecha (0 %, 15 % y 25 %) y distintas covarianzas entre la primera y segunda variable predictora (0,0.25, 0.5 y 0.9). La tercera variable predictora es incorrelada con las dos primeras. En el caso de datoscompletos, obtenemos los siguientes errores globales, errores cuadraticos medios y errores relativosabsolutos asignados a cada estimador (tabla 4.1).

Lo que podemos ver aquı es que los errores son mas altos cuanto mayor sea la censura, como era deesperar. Los errores cuadraticos medios y relativos absolutos asignados a β1 y β2 aumentan conside-rablemente cuando la covarianza entre las variables correspondientes es muy alta.

Para simular la perdida de datos, generaremos dos funciones donde los valores obtenidos seranla probabilidad de observacion de los datos de las covariables. Por simplicidad, hemos supuesto quela perdida depende solo de la primera covariable. Sea δ1 la variable indicadora de si la covariable x1es observada o no, es decir, δ1 = 1 si x1 es observada y δ1 = 0 en otro caso. Los modelos de datosfaltantes considerados en este estudio de simulacion han sido los siguientes:

P1 : P (X1 sea observada) = P (δ1 = 1/x1, x2, x3) =1

1 + exp(−1.5x2).

29

Page 30: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

30 CAPITULO 4. ESTUDIO DE SIMULACION

Tabla 4.1. Errores global, cuadratico medio y relativo absoluto para datos completos.

cov cens error mseβ0 mseβ1 mseβ2 mseβ3 areβ0 areβ1 areβ2 areβ30 0 0.042 0.011 0.010 0.010 0.010 0.041 0.081 0.041 0.027

0.25 0 0.041 0.011 0.010 0.012 0.010 0.041 0.079 0.043 0.027

0.5 0 0.041 0.011 0.013 0.015 0.010 0.041 0.089 0.048 0.027

0.9 0 0.042 0.011 0.053 0.056 0.011 0.041 0.181 0.094 0.028

0 0.15 0.048 0.012 0.011 0.011 0.014 0.043 0.084 0.043 0.031

0.25 0.15 0.052 0.013 0.012 0.014 0.015 0.045 0.087 0.047 0.031

0.5 0.15 0.053 0.013 0.015 0.017 0.015 0.046 0.097 0.052 0.031

0.9 0.15 0.051 0.012 0.058 0.060 0.014 0.044 0.191 0.098 0.031

0 0.25 0.059 0.015 0.012 0.014 0.019 0.048 0.086 0.047 0.037

0.25 0.25 0.066 0.017 0.015 0.017 0.020 0.053 0.094 0.052 0.037

0.5 0.25 0.065 0.017 0.018 0.020 0.019 0.052 0.104 0.057 0.036

0.9 0.25 0.066 0.017 0.067 0.071 0.019 0.051 0.205 0.106 0.036

P2 : P (X1 sea observada) = P (δ1 = 1/x1, x2, x3) =1

1 + exp(−1.5x22).

Podemos ver en las figuras 4.1 y 4.2 las representaciones graficas de los modelos anteriores.

La primera funcion sera P (δ1 = 1/xi1, x2, x3) = p1(x1, x2, x3) = 11+exp(−1.5x2)

que aparece repre-

sentada en la figura 4.1, y la segunda es P (δ1 = 1/xi1, x2, x3) = p2(x1, x2, x3) = 11+exp(−1.5x22)

que

esta representada en la figura 4.2.

Vamos a ver en las tablas 4.2 y 4.3 los distintos errores obtenidos para el estimador simplificado,utilizando solo la submuestra completa y descartando aquellas observaciones que tienen algun valorperdido. Los resultados figuran segun la funcion de probabilidad de observacion, ademas de los distintosporcentajes de censura y covarianzas.

Tabla 4.2. Errores global, cuadratico medio y relativo absoluto parael estimador simplificado con p1(x1, x2, x3) = 1

1+exp(−1.5x2).

cov cens error mseβ0 mseβ1 mseβ2 mseβ3 areβ0 areβ1 areβ2 areβ30 0 0.111 0.032 0.021 0.033 0.026 0.070 0.114 0.072 0.041

0.25 0 0.121 0.032 0.023 0.036 0.023 0.071 0.122 0.075 0.041

0.5 0 0.122 0.033 0.027 0.043 0.024 0.070 0.132 0.082 0.041

0.9 0 0.116 0.030 0.114 0.136 0.024 0.068 0.261 0.142 0.042

0 0.15 0.136 0.034 0.024 0.040 0.038 0.073 0.121 0.081 0.050

0.25 0.15 0.163 0.036 0.034 0.049 0.038 0.076 0.150 0.088 0.051

0.5 0.15 0.166 0.038 0.039 0.059 0.039 0.075 0.159 0.096 0.052

0.9 0.15 0.158 0.034 0.150 0.177 0.039 0.072 0.306 0.164 0.052

0 0.25 0.174 0.040 0.029 0.053 0.052 0.080 0.135 0.092 0.059

0.25 0.25 0.223 0.049 0.045 0.066 0.057 0.087 0.166 0.102 0.063

0.5 0.25 0.222 0.048 0.053 0.077 0.054 0.086 0.181 0.111 0.061

0.9 0.25 0.224 0.045 0.205 0.239 0.057 0.083 0.362 0.191 0.063

Al igual que para datos completos, lo que podemos ver aquı es que los errores son mas altos cuantomayor sea la censura. Los errores cuadraticos medios y relativos absolutos asignados a β1 y β2 son

Page 31: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

31

Figura 4.1: Funcion de probabilidad de observacion p1(x1, x2, x3) = 11+exp(−1.5x2)

.

Tabla 4.3. Errores global, cuadratico medio y relativo absoluto parael estimador simplificado con p2(x1, x2, x3) = 1

1+exp(−1.5x22).

cov cens error mseβ0 mseβ1 mseβ2 mseβ3 areβ0 areβ1 areβ2 areβ30 0 0.059 0.016 0.014 0.012 0.018 0.050 0.094 0.044 0.034

0.25 0 0.058 0.016 0.016 0.014 0.015 0.050 0.100 0.047 0.033

0.5 0 0.056 0.016 0.019 0.018 0.014 0.049 0.110 0.053 0.032

0.9 0 0.057 0.016 0.075 0.076 0.015 0.050 0.221 0.109 0.032

0 0.15 0.068 0.017 0.016 0.013 0.022 0.051 0.102 0.045 0.039

0.25 0.15 0.074 0.019 0.020 0.017 0.021 0.055 0.114 0.052 0.039

0.5 0.15 0.073 0.019 0.024 0.021 0.020 0.055 0.124 0.058 0.038

0.9 0.15 0.071 0.019 0.086 0.085 0.020 0.054 0.236 0.117 0.037

0 0.25 0.084 0.022 0.018 0.016 0.029 0.058 0.109 0.050 0.045

0.25 0.25 0.093 0.026 0.025 0.021 0.026 0.065 0.122 0.057 0.044

0.5 0.25 0.091 0.026 0.029 0.026 0.025 0.065 0.133 0.064 0.042

0.9 0.25 0.092 0.026 0.107 0.106 0.025 0.064 0.256 0.129 0.043

considerablemente mas altos cuando la covarianza entre las variables correspondientes es muy alta.Obtenemos mejores errores con la segunda funcion de perdida. En cualquiera de los dos casos, loserrores asignados a cada estimador son superiores si lo comparamos con el caso de datos completos.

En el caso de datos imputados, utilizaremos distintos metodos de imputacion en la primera variabley veremos cual es el mas efectivo. El primero que vamos a probar es el Predictive Mean Matching(pmm). Bajo los mismos escenarios considerados anteriormente, obtenemos los errores de las tablas

Page 32: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

32 CAPITULO 4. ESTUDIO DE SIMULACION

Figura 4.2: Funcion de probabilidad de observacion p2(x1, x2, x3) = 11+exp(−1.5x22)

.

4.4 y 4.5.

Tabla 4.4. Errores global, cuadratico medio y relativo absoluto paradatos imputados por PMM y con p1(x1, x2, x3) = 1

1+exp(−1.5x2).

cov cens error mseβ0 mseβ1 mseβ2 mseβ3 areβ0 areβ1 areβ2 areβ30 0 0.265 0.029 0.260 0.028 0.023 0.055 0.460 0.056 0.035

0.25 0 0.279 0.028 0.265 0.051 0.022 0.054 0.468 0.085 0.034

0.5 0 0.238 0.022 0.275 0.114 0.019 0.050 0.481 0.145 0.033

0.9 0 0.110 0.014 0.416 0.398 0.013 0.045 0.573 0.286 0.029

0 0.15 0.292 0.029 0.282 0.032 0.029 0.055 0.479 0.061 0.039

0.25 0.15 0.319 0.030 0.299 0.061 0.031 0.058 0.495 0.093 0.042

0.5 0.15 0.276 0.024 0.314 0.134 0.028 0.054 0.512 0.156 0.039

0.9 0.15 0.128 0.015 0.471 0.444 0.018 0.047 0.606 0.302 0.034

0 0.25 0.322 0.032 0.305 0.036 0.039 0.059 0.495 0.064 0.047

0.25 0.25 0.360 0.036 0.330 0.070 0.041 0.065 0.514 0.100 0.048

0.5 0.25 0.311 0.029 0.346 0.151 0.036 0.060 0.533 0.165 0.045

0.9 0.25 0.153 0.020 0.528 0.496 0.024 0.054 0.635 0.318 0.040

En este caso, parece que los errores son mas altos cuanto mayor sea la censura. Los errores cuadraticosmedios y relativos absolutos asignados a β1 y β2 son considerablemente mas altos cuando la covarianzaentre las variables correspondientes es muy alta, mientras que los errores restantes en el mismo casoson mas pequenos. Obtenemos mejores errores con la segunda funcion. Si comparamos este caso conla version simplificada en la primera funcion, veremos que los errores asignados a β1 y β2 son mas

Page 33: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

33

Tabla 4.5. Errores global, cuadratico medio y relativo absoluto paradatos imputados por PMM y con p2(x1, x2, x3) = 1

1+exp(−1.5x22).

cov cens error mseβ0 mseβ1 mseβ2 mseβ3 areβ0 areβ1 areβ2 areβ30 0 0.123 0.019 0.108 0.014 0.019 0.047 0.280 0.044 0.032

0.25 0 0.130 0.018 0.114 0.021 0.019 0.046 0.291 0.055 0.032

0.5 0 0.112 0.016 0.119 0.044 0.016 0.045 0.296 0.081 0.030

0.9 0 0.058 0.012 0.175 0.153 0.012 0.041 0.322 0.150 0.028

0 0.15 0.134 0.020 0.114 0.016 0.024 0.048 0.285 0.047 0.036

0.25 0.15 0.148 0.022 0.125 0.025 0.025 0.052 0.302 0.058 0.037

0.5 0.15 0.131 0.019 0.132 0.050 0.022 0.050 0.309 0.085 0.035

0.9 0.15 0.070 0.014 0.195 0.168 0.016 0.045 0.336 0.154 0.032

0 0.25 0.148 0.024 0.118 0.019 0.031 0.052 0.286 0.052 0.042

0.25 0.25 0.167 0.028 0.131 0.029 0.034 0.060 0.304 0.063 0.043

0.5 0.25 0.147 0.025 0.139 0.056 0.028 0.057 0.311 0.089 0.040

0.9 0.25 0.086 0.019 0.217 0.190 0.021 0.052 0.350 0.161 0.037

altos en el caso de imputacion, mientras que en los errores asignados a los otros estimadores y losglobales, solemos obtener mejores resultados en el caso de imputacion cuando la covarianza es muyalta. En la segunda funcion, los errores globales y los asignados a β1 y β2 obtenidos son mejores en laversion simplificada, mientras que los relativos asignados a los demas son mejores con la imputaciony los cuadraticos medios asignados tambien a los otros solo son mejores con la imputacion en el casoen que la covarianza sea alta.

Analogamente, obtenemos otras tablas de errores con los metodos sample (tablas 4.6 y 4.7), mean(tablas 4.8 y 4.9), norm.predict (tablas 4.10 y 4.11), cart (tablas 4.12 y 4.13) y norm (tablas 4.14 y4.15). Estos dos ultimos son metodos no parametricos.

Tabla 4.6. Errores global, cuadratico medio y relativo absoluto paradatos imputados por SAMPLE y con p1(x1, x2, x3) = 1

1+exp(−1.5x2).

cov cens error mseβ0 mseβ1 mseβ2 mseβ3 areβ0 areβ1 areβ2 areβ30 0 0.296 0.019 0.286 0.022 0.021 0.051 0.501 0.056 0.035

0.25 0 0.325 0.023 0.303 0.065 0.021 0.057 0.518 0.109 0.035

0.5 0 0.343 0.031 0.373 0.205 0.019 0.068 0.582 0.215 0.034

0.9 0 0.192 0.023 0.765 0.745 0.013 0.055 0.857 0.427 0.030

0 0.15 0.326 0.019 0.310 0.026 0.027 0.051 0.522 0.060 0.040

0.25 0.15 0.370 0.024 0.342 0.075 0.030 0.059 0.548 0.115 0.042

0.5 0.15 0.383 0.031 0.417 0.226 0.026 0.068 0.613 0.224 0.040

0.9 0.15 0.206 0.024 0.795 0.764 0.018 0.055 0.872 0.431 0.035

0 0.25 0.360 0.023 0.336 0.030 0.036 0.056 0.541 0.064 0.048

0.25 0.25 0.415 0.031 0.376 0.084 0.038 0.066 0.572 0.121 0.048

0.5 0.25 0.420 0.034 0.451 0.243 0.034 0.071 0.635 0.230 0.045

0.9 0.25 0.224 0.028 0.821 0.787 0.023 0.060 0.883 0.436 0.040

Parece que ocurre algo muy similar con los errores obtenidos por estos ultimos cinco metodos deimputacion comparado con el “pmm”, excepto para el error global del metodo de imputacion “mean”probado con la segunda funcion de probabilidad de observacion, que tambien son mas altos los errorescuanto mayor es la covarianza entre las dos primeras variables. Lo interesante aquı es ver cuales son

Page 34: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

34 CAPITULO 4. ESTUDIO DE SIMULACION

Tabla 4.7. Errores global, cuadratico medio y relativo absoluto paradatos imputados por SAMPLE y con p2(x1, x2, x3) = 1

1+exp(−1.5x22).

cov cens error mseβ0 mseβ1 mseβ2 mseβ3 areβ0 areβ1 areβ2 areβ30 0 0.128 0.016 0.112 0.014 0.018 0.045 0.290 0.045 0.032

0.25 0 0.143 0.016 0.127 0.025 0.018 0.046 0.314 0.062 0.033

0.5 0 0.162 0.015 0.186 0.074 0.017 0.046 0.389 0.115 0.032

0.9 0 0.141 0.012 0.613 0.531 0.013 0.043 0.754 0.349 0.030

0 0.15 0.140 0.017 0.118 0.016 0.023 0.046 0.296 0.048 0.036

0.25 0.15 0.163 0.020 0.139 0.029 0.025 0.051 0.325 0.065 0.037

0.5 0.15 0.183 0.019 0.202 0.082 0.023 0.051 0.404 0.119 0.036

0.9 0.15 0.155 0.014 0.634 0.545 0.017 0.046 0.765 0.352 0.034

0 0.25 0.154 0.021 0.122 0.020 0.030 0.051 0.298 0.053 0.042

0.25 0.25 0.182 0.026 0.146 0.033 0.032 0.060 0.328 0.069 0.043

0.5 0.25 0.200 0.024 0.210 0.088 0.029 0.058 0.406 0.121 0.041

0.9 0.25 0.170 0.019 0.646 0.560 0.023 0.054 0.768 0.354 0.039

Tabla 4.8. Errores global, cuadratico medio y relativo absoluto paradatos imputados por MEAN y con p1(x1, x2, x3) = 1

1+exp(−1.5x2).

cov cens error mseβ0 mseβ1 mseβ2 mseβ3 areβ0 areβ1 areβ2 areβ30 0 0.078 0.021 0.021 0.018 0.017 0.058 0.115 0.054 0.035

0.25 0 0.128 0.036 0.026 0.046 0.017 0.078 0.127 0.091 0.034

0.5 0 0.243 0.069 0.047 0.143 0.016 0.116 0.174 0.177 0.033

0.9 0 0.230 0.046 0.486 0.649 0.013 0.090 0.666 0.397 0.030

0 0.15 0.089 0.021 0.025 0.022 0.022 0.058 0.124 0.059 0.039

0.25 0.15 0.161 0.034 0.035 0.062 0.026 0.076 0.150 0.105 0.042

0.5 0.15 0.285 0.063 0.056 0.178 0.023 0.108 0.188 0.196 0.040

0.9 0.15 0.260 0.045 0.509 0.690 0.017 0.088 0.675 0.409 0.035

0 0.25 0.110 0.024 0.029 0.026 0.030 0.063 0.137 0.064 0.046

0.25 0.25 0.196 0.038 0.046 0.075 0.034 0.080 0.168 0.116 0.048

0.5 0.25 0.325 0.061 0.071 0.205 0.030 0.105 0.212 0.210 0.045

0.9 0.25 0.291 0.046 0.543 0.732 0.023 0.088 0.692 0.420 0.040

los metodos de imputacion con los que obtenemos mejores errores. En este caso son el “mean” yel “norm.predict”, pero con el primero en general no obtenemos mejores errores comparado con laversion simplificada mientras que con el segundo sı. Con lo cual, el “norm.predict” es el mejor metodode imputacion que podremos aplicar a estos datos. Cabe destacar que cuanto mayor es la covarianzaentre las variables, mejores errores obtenemos (como dijimos anteriormente), lo cual es logico teniendoen cuenta que lo que hace este metodo es aplicar una regresion lineal.

Notese que el metodo norm.predict funciona bien en este modelo, en parte porque hemos simuladovariables con distribucion normal. En muchas ocasiones los datos reales no siguen una distribucionNormal, por lo que metodos no parametricos ofrecen generalmente un mejor comportamiento enausencia de normalidad.

Page 35: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

35

Tabla 4.9. Errores global, cuadratico medio y relativo absoluto paradatos imputados por MEAN y con p2(x1, x2, x3) = 1

1+exp(−1.5x22).

cov cens error mseβ0 mseβ1 mseβ2 mseβ3 areβ0 areβ1 areβ2 areβ30 0 0.054 0.014 0.014 0.012 0.014 0.047 0.095 0.043 0.032

0.25 0 0.056 0.014 0.016 0.014 0.014 0.047 0.100 0.047 0.032

0.5 0 0.057 0.014 0.021 0.022 0.013 0.046 0.117 0.059 0.031

0.9 0 0.070 0.012 0.181 0.189 0.012 0.043 0.369 0.190 0.029

0 0.15 0.062 0.015 0.016 0.013 0.018 0.048 0.102 0.045 0.035

0.25 0.15 0.072 0.017 0.020 0.017 0.020 0.053 0.114 0.052 0.037

0.5 0.15 0.073 0.017 0.026 0.026 0.018 0.052 0.130 0.064 0.035

0.9 0.15 0.083 0.013 0.195 0.202 0.016 0.046 0.381 0.196 0.033

0 0.25 0.076 0.018 0.019 0.016 0.024 0.053 0.108 0.050 0.042

0.25 0.25 0.091 0.023 0.025 0.020 0.027 0.061 0.122 0.056 0.043

0.5 0.25 0.090 0.022 0.031 0.031 0.024 0.059 0.141 0.069 0.041

0.9 0.25 0.101 0.018 0.213 0.218 0.021 0.054 0.394 0.200 0.039

Tabla 4.10. Errores global, cuadratico medio y relativo absoluto paradatos imputados por NORM.PREDICT y con p1(x1, x2, x3) = 1

1+exp(−1.5x2).

cov cens error mseβ0 mseβ1 mseβ2 mseβ3 areβ0 areβ1 areβ2 areβ30 0 0.105 0.029 0.021 0.030 0.025 0.067 0.114 0.068 0.042

0.25 0 0.107 0.027 0.023 0.032 0.023 0.065 0.122 0.070 0.040

0.5 0 0.095 0.023 0.027 0.034 0.020 0.060 0.132 0.073 0.037

0.9 0 0.065 0.015 0.114 0.111 0.013 0.048 0.261 0.130 0.030

0 0.15 0.118 0.029 0.024 0.035 0.030 0.066 0.123 0.072 0.046

0.25 0.15 0.139 0.030 0.034 0.042 0.034 0.069 0.149 0.081 0.048

0.5 0.15 0.124 0.026 0.038 0.044 0.029 0.063 0.158 0.084 0.044

0.9 0.15 0.083 0.016 0.147 0.139 0.018 0.050 0.302 0.147 0.035

0 0.25 0.142 0.032 0.029 0.042 0.038 0.070 0.136 0.079 0.052

0.25 0.25 0.174 0.035 0.045 0.050 0.044 0.075 0.166 0.089 0.055

0.5 0.25 0.156 0.030 0.052 0.053 0.037 0.069 0.180 0.093 0.050

0.9 0.25 0.108 0.020 0.199 0.180 0.023 0.056 0.356 0.169 0.040

Page 36: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

36 CAPITULO 4. ESTUDIO DE SIMULACION

Tabla 4.11. Errores global, cuadratico medio y relativo absoluto paradatos imputados por NORM.PREDICT y con p2(x1, x2, x3) = 1

1+exp(−1.5x22).

cov cens error mseβ0 mseβ1 mseβ2 mseβ3 areβ0 areβ1 areβ2 areβ30 0 0.055 0.014 0.014 0.012 0.016 0.046 0.094 0.043 0.033

0.25 0 0.057 0.014 0.016 0.013 0.015 0.047 0.100 0.047 0.033

0.5 0 0.053 0.013 0.019 0.017 0.014 0.045 0.110 0.052 0.031

0.9 0 0.047 0.011 0.075 0.073 0.011 0.041 0.221 0.108 0.028

0 0.15 0.063 0.015 0.016 0.013 0.020 0.048 0.101 0.045 0.037

0.25 0.15 0.072 0.017 0.020 0.016 0.021 0.053 0.113 0.051 0.038

0.5 0.15 0.068 0.016 0.024 0.020 0.019 0.051 0.123 0.056 0.035

0.9 0.15 0.058 0.013 0.086 0.081 0.015 0.045 0.236 0.114 0.032

0 0.25 0.078 0.018 0.018 0.016 0.026 0.053 0.108 0.050 0.043

0.25 0.25 0.092 0.023 0.025 0.020 0.029 0.061 0.122 0.055 0.044

0.5 0.25 0.085 0.021 0.029 0.024 0.025 0.058 0.133 0.063 0.041

0.9 0.25 0.075 0.017 0.106 0.099 0.020 0.052 0.256 0.125 0.037

Tabla 4.12. Errores global, cuadratico medio y relativo absoluto paradatos imputados por CART y con p1(x1, x2, x3) = 1

1+exp(−1.5x2).

cov cens error mseβ0 mseβ1 mseβ2 mseβ3 areβ0 areβ1 areβ2 areβ30 0 0.289 0.021 0.267 0.025 0.021 0.054 0.482 0.059 0.036

0.25 0 0.294 0.022 0.267 0.047 0.020 0.054 0.480 0.086 0.035

0.5 0 0.251 0.019 0.283 0.118 0.018 0.051 0.494 0.151 0.034

0.9 0 0.127 0.014 0.489 0.470 0.013 0.045 0.646 0.322 0.030

0 0.15 0.318 0.021 0.290 0.028 0.028 0.054 0.501 0.063 0.041

0.25 0.15 0.336 0.024 0.301 0.056 0.029 0.059 0.508 0.094 0.043

0.5 0.15 0.291 0.021 0.324 0.139 0.026 0.055 0.527 0.163 0.040

0.9 0.15 0.146 0.015 0.540 0.514 0.017 0.047 0.677 0.337 0.034

0 0.25 0.351 0.024 0.314 0.033 0.037 0.059 0.519 0.067 0.048

0.25 0.25 0.380 0.030 0.334 0.066 0.039 0.066 0.531 0.101 0.049

0.5 0.25 0.330 0.026 0.358 0.157 0.034 0.061 0.550 0.172 0.046

0.9 0.25 0.170 0.020 0.591 0.564 0.023 0.054 0.703 0.352 0.040

Page 37: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

37

Tabla 4.13. Errores global, cuadratico medio y relativo absoluto paradatos imputados por CART y con p2(x1, x2, x3) = 1

1+exp(−1.5x22).

cov cens error mseβ0 mseβ1 mseβ2 mseβ3 areβ0 areβ1 areβ2 areβ30 0 0.127 0.016 0.103 0.014 0.017 0.047 0.283 0.045 0.033

0.25 0 0.133 0.017 0.110 0.020 0.017 0.047 0.288 0.054 0.032

0.5 0 0.115 0.015 0.115 0.042 0.016 0.046 0.293 0.081 0.032

0.9 0 0.059 0.012 0.172 0.150 0.012 0.042 0.320 0.148 0.029

0 0.15 0.138 0.018 0.108 0.016 0.022 0.049 0.286 0.048 0.036

0.25 0.15 0.152 0.020 0.120 0.024 0.023 0.053 0.299 0.058 0.037

0.5 0.15 0.135 0.018 0.128 0.049 0.022 0.051 0.307 0.085 0.036

0.9 0.15 0.071 0.013 0.190 0.162 0.016 0.045 0.333 0.152 0.032

0 0.25 0.152 0.021 0.112 0.019 0.029 0.055 0.287 0.053 0.042

0.25 0.25 0.170 0.026 0.125 0.028 0.030 0.061 0.301 0.062 0.042

0.5 0.25 0.151 0.023 0.134 0.054 0.028 0.059 0.310 0.089 0.041

0.9 0.25 0.088 0.019 0.213 0.187 0.021 0.053 0.350 0.160 0.038

Tabla 4.14. Errores global, cuadratico medio y relativo absoluto paradatos imputados por NORM y con p1(x1, x2, x3) = 1

1+exp(−1.5x2).

cov cens error mseβ0 mseβ1 mseβ2 mseβ3 areβ0 areβ1 areβ2 areβ30 0 0.316 0.027 0.314 0.029 0.023 0.053 0.524 0.054 0.035

0.25 0 0.320 0.026 0.314 0.048 0.022 0.051 0.523 0.078 0.034

0.5 0 0.261 0.023 0.318 0.105 0.020 0.048 0.524 0.133 0.033

0.9 0 0.093 0.014 0.393 0.334 0.014 0.043 0.533 0.239 0.029

0 0.15 0.347 0.026 0.339 0.033 0.030 0.053 0.544 0.059 0.039

0.25 0.15 0.367 0.027 0.353 0.057 0.032 0.055 0.553 0.085 0.042

0.5 0.15 0.305 0.024 0.362 0.122 0.028 0.053 0.559 0.142 0.039

0.9 0.15 0.112 0.016 0.455 0.383 0.018 0.046 0.571 0.254 0.033

0 0.25 0.381 0.029 0.364 0.038 0.039 0.058 0.562 0.063 0.047

0.25 0.25 0.413 0.033 0.386 0.065 0.042 0.063 0.576 0.093 0.048

0.5 0.25 0.343 0.029 0.397 0.138 0.036 0.060 0.582 0.150 0.045

0.9 0.25 0.135 0.020 0.521 0.443 0.024 0.053 0.606 0.271 0.039

Page 38: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

38 CAPITULO 4. ESTUDIO DE SIMULACION

Tabla 4.15. Errores global, cuadratico medio y relativo absoluto paradatos imputados por NORM y con p2(x1, x2, x3) = 1

1+exp(−1.5x22).

cov cens error mseβ0 mseβ1 mseβ2 mseβ3 areβ0 areβ1 areβ2 areβ30 0 0.134 0.017 0.123 0.014 0.019 0.045 0.304 0.045 0.032

0.25 0 0.138 0.017 0.125 0.022 0.019 0.046 0.306 0.056 0.032

0.5 0 0.116 0.016 0.129 0.046 0.016 0.044 0.308 0.083 0.030

0.9 0 0.057 0.012 0.186 0.162 0.012 0.041 0.324 0.150 0.028

0 0.15 0.146 0.018 0.129 0.016 0.024 0.046 0.309 0.047 0.035

0.25 0.15 0.157 0.021 0.137 0.025 0.025 0.051 0.317 0.059 0.037

0.5 0.15 0.136 0.019 0.144 0.052 0.022 0.050 0.322 0.087 0.035

0.9 0.15 0.069 0.014 0.208 0.179 0.016 0.044 0.340 0.156 0.032

0 0.25 0.160 0.022 0.134 0.019 0.031 0.052 0.311 0.053 0.042

0.25 0.25 0.176 0.028 0.144 0.030 0.033 0.060 0.320 0.064 0.043

0.5 0.25 0.152 0.025 0.151 0.058 0.029 0.057 0.325 0.090 0.040

0.9 0.25 0.086 0.019 0.232 0.203 0.021 0.052 0.355 0.162 0.037

Page 39: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

Capıtulo 5

Aplicacion a datos reales

5.1. Descripcion del problema

Es frecuente que previo a la realizacion del analisis estadıstico en estudios de investigacion clınicay epidemiologica, nos encontremos con datos faltantes. El caso que presentamos a continuacion no seescapa a este problema. En concreto, se trata de un estudio de supervivencia en pacientes que han sidosometidos a trasplante hepatico, y cuyo objetivo es conocer aquellas variables que pueden encontrarseasociadas a un peor pronostico. Es habitual en estudios de supervivencia, la utilizacion del modelo deriesgos proporcionales de Cox en el analisis de los datos, y es por ello que existen una serie de metodosde imputacion de datos faltantes implementados para estos modelos [19]. Sin embargo, en ocasionesdeseamos aplicar otros modelos, como por ejemplo, los modelos de tiempo de fallo acelerado (AFT).Los modelos AFT nos proporcionan una alternativa elegante al modelo de riesgos proporcionales encuanto relacionan el efecto de las variables predictoras con el tiempo de supervivencia en lugar delvalor de riesgo como ocurre en el modelo de Cox. Estas caracterısticas permiten una interpretacionmas sencilla de los resultados. Sin embargo, los modelos AFT no se utilizan tanto debido a la ausenciade algoritmos eficientes y fiables que permitan una estimacion adecuada de los parametros y suserrores estandar [20]. Asimismo, en los modelos AFT son escasas las referencias existentes [21, 22] enla literatura en relacion con las aproximaciones para tratar datos faltantes.

5.2. Descripcion del conjunto de datos

5.2.1. Descripcion de la poblacion y objetivo del estudio

Para ilustrar nuestra aproximacion, analizamos los datos referentes a un estudio de supervivenciaen todos los pacientes sometidos a trasplante hepatico ortotopico realizado en el Hospital ClınicoUniversitario de Santiago de Compostela (CHUS), entre Julio de 1994 y Julio de 2011. Se excluyerondel estudio a los 22 primeros pacientes trasplantados y otros 8 pacientes que no sobrevivieron mas de7 dıas posttrasplante. Finalmente, se incluyeron en el analisis 629 pacientes.

El estado vital de los pacientes y la fecha de muerte se obtuvieron a traves de los registros clınicosy el final del seguimiento data de Junio de 2012. La mediana (rango) de seguimiento fue de 67 meses (1semana - 17,5 anos). Durante este tiempo, 414 (65,8 %) personas permanecieron vivas y 215 (34,2 %)fallecieron.

39

Page 40: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

40 CAPITULO 5. APLICACION A DATOS REALES

El objetivo de este estudio es analizar aquellos factores que pueden influir en la supervivencia delos pacientes que han sido sometidos a trasplante hepatico.

5.2.2. Descripcion de las variables

Las variables recogidas para el estudio son aquellas ya descritas en la literatura y que han mostradoque pueden tener relacion con la supervivencia: edad, sexo, diagnostico previo de diabetes, ındice demasa corporal, etiologıa del trasplante (cancer de hıgado, abuso de alcohol, virus de la hepatitis C,enfermedades autoinmunes), tiempo de isquemia frıa del organo, transfusion de hematıes y de plaquetasdurante la cirugıa, existencia de trombosis portal previa al trasplante, nutricion en el postoperatorioinmediato, creatinina y/o filtrado glomerular previa al trasplante, y en los pacientes trasplantados apartir de 2004 el MELD, ya que previamente no se posee el INR, una medida del tiempo de coagulacion,para poder calcular este marcador pronostico. Ademas, dado que tambien formaba parte del objetivodel estudio, introducimos la glucosa basal y las medidas de glucosa en los dıas siguientes a la cirugıa.

Al igual que ocurre en otras bases de datos biomedicas, tenemos datos faltantes en la mayorıa delas variables descritas anteriormente. La ausencia de datos oscila desde el 0,16 % como ocurre en elvirus de la hepatitis C o en la trombosis portal, hasta perdidas del 57,23 % como ocurre con el MELD.Lo ilustramos en la tabla 5.1.

Tabla 5.1. Numero de observaciones faltantes en las variablesdel estudio con su correspondiente porcentaje.

Sexo 0 (0 %) Trasfusion de hematıes 27 (4.29 %)Edad 0 (0 %) Trasfusion de plaquetas 24 (3.82 %)

Indice de masa corporal 0 (0 %) Trombosis portal 1 (0.16 %)Diabetes mellitus 0 (0 %) Nutricion parenteral 9 (1.43 %)Meld 360 (57.23 %) Glucosa basal 22 (3.50 %)Abuso de alcohol 0 (0 %) Creatinina basal 18 (2.86 %)Virus de la hepatitis C 1 (0.16 %) Insulina media 27 (4.29 %)Ano del trasplante 0 (0 %) Muerte 0 (0 %)Carcinoma 0 (0 %) Tiempo de supervivencia 0 (0 %)Tiempo de isquemia frıa 17 (2.70 %) desde el trasplante

Tambien podemos verlo graficamente en la figura 5.1. Observese en la primera grafica como el por-centaje de individuos en la muestra con observaciones faltantes es significativamente superior en lavariable meld con respecto a las demas, y en la segunda grafica se puede apreciar las combinacionesexistentes de las observaciones faltantes y las no faltantes.

Antes de proceder al analisis, una cuestion importante es discernir los mecanismos que conducena la perdida de datos: MCAR, MAR o MNAR. Hemos podido comprobar que la fecha del trasplantetiene gran influencia en la perdida de datos. Ası por ejemplo, antes de 2004 la falta de datos es muchomayor. Esto es debido a la introduccion de la historia clınica electronica (IANUS) que empieza a estaroperativa en esta epoca y, por tanto, a partir de ahı no se pierden datos salvo aquellos que no seintroduzcan en la historia clınica.

El caso de la variable MELD merece mencion aparte. Es el acronimo de Model for End-stageLiver Disease, un sistema de puntuacion para medir la severidad de la enfermedad hepatica cronica.Fue inicialmente desarrollado para predecir la muerte dentro de 3 meses de cirugıa en pacientes quehabıan sido sometidos a TIPS (transjugular intrahepatic portosystemic shunt) y fue subsecuentementehallado util para determinar el pronostico y para priorizar los pacientes en espera de trasplante. Hemos

Page 41: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

5.2. DESCRIPCION DEL CONJUNTO DE DATOS 41

Figura 5.1: Proporcion y combinacion de datos faltantes en las variables.

recogido el MELD como indicador pronostico previo al trasplante en 269 pacientes (42,8 %), con unrango entre 4 y 42 con una media de 14.1, desviacion tıpica de 6,3 y una mediana de 14. No ha sidoposible recoger el MELD en los pacientes trasplantados antes de 2004, ya que en el laboratorio no serealizaba el INR, sino unicamente el tiempo de Quick, por lo que no ha sido posible el calculo delındice.

En la tabla 5.2 se muestra un analisis descriptivo de las variables. Para describir las variables cuan-titativas se utilizara la mediana (primer y tercer cuartil), mientras que para las variables cualitativasindicaremos el porcentaje correspondiente para cada categorıa.

En la figura 5.2, se puede apreciar la curva de supervivencia estimada con todos los individuos enriesgo y su intervalo de confianza al 95 %, obtenida por el estimador de Kaplan-Meier.

En las tres figuras que se muestran posteriormente (5.3, 5.4 y 5.5), se puede observar como cambianlos boxplots de las variables edad, tempo y timee en funcion de los datos faltantes de las otras. En ellaspodemos apreciar diferencias entre los boxplots para casi todas las variables con datos faltantes, sobretodo para la variable meld. El hecho de que haya tanta diferencia entre los boxplots que incluyen datosobservados y aquellos a cuyos individuos les falta la medida en esa variable, nos indica que la perdidade datos no es completamente aleatoria. No podemos suponer MCAR. Por lo tanto la estimacionutilizando solo la submuestra completa no parece la mas adecuada en esta situacion. Esto ha motivadoque consideremos la imputacion multiple como alternativa a la estimacion con la submuestra completa.

Page 42: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

42 CAPITULO 5. APLICACION A DATOS REALES

Tabla 5.2. Caracterısticas generales de las variables.

SexoHombre 471 (74.9 %)Mujer 158 (25.1 %)

Edad (anos) 54 [45, 60]

Diabetes mellitusNo 504 (80.1 %)Sı 125 (19.9 %)

Indice de masa corporal (Kg/m2) 27 [25, 29]

Abuso de alcoholNo 244 (38.8 %)Sı 385 (61.2 %)

Virus de la hepatitis CNo 498 (79.3 %)Sı 130 (20.7 %)

CarcinomaNo 456 (72.5 %)Sı 173 (27.5 %)

Trombosis portalNo 573 (91.2 %)Sı 55 (8.8 %)

Meld 14 [9, 17]

Tiempo de isquemia frıa (horas) 7 [6, 9]

Trasfusion de hematıes (unidades) 6 [2, 10]

Trasfusion de plaquetas (unidades) 0 [0, 1]

Nutricion parenteral 4 [3, 6]

Glucosa basal pretrasplante 105 [90, 137]

Creatinina basal pretrasplante 0.9 [0.7, 1.1]

Insulina media en los 7 dıas posttrasplante 39.57 [13.57, 115.50]

Tiempo de supervivencia desde el trasplante (anos) 5.63 [2.24, 9.79]

MuerteNo 414 (65.8 %)Sı 215 (34.2 %)

5.3. Imputacion a los datos reales

Despues de aplicar imputacion a los datos por distintos metodos, se procede a verificar si cumplela proporcionalidad de riesgos de acuerdo a los supuestos exigidos por el modelo de Cox. Primerose prueba con los casos completos e imputando por pmm, cart y sample todas las variables conobservaciones faltantes. Luego, se aplica logreg a las variables binarias al mismo tiempo que se aplicapmm, cart, sample, mean, norm y norm.predict a las variables continuas. Los resultados se muestranen la tabla 5.3.

Como puede apreciarse en esta tabla, utilizando el metodo de casos completos se cumple la pro-porcionalidad de riesgos. Sin embargo, si se utiliza pmm en la imputacion de todas las variables onorm.predict para las variables continuas y logreg para las binarias no se cumplen los supuestos deproporcionalidad de riesgos, como ocurre en la mayorıa de los casos. De ahı la conveniencia de utilizarel metodo AFT para analizar la supervivencia utilizando imputacion multiple.

Page 43: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

5.3. IMPUTACION A LOS DATOS REALES 43

Figura 5.2: Curva de Kaplan-Meier.

Tabla 5.3. P-valores obtenidos en las pruebas de proporcionalidadde riesgos tras los diferentes metodos de imputacion aplicados.

Metodo/s p-valor

Casos completos 2.88e-01

Pmm 1.66e-02

Cart 4.29e-02

Sample 7.36e-02

Pmm/logreg 8.61e-03

Cart/logreg 3.44e-03

Sample/logreg 4.71e-02

Mean/logreg 4.24e-02

Norm/logreg 1.86e-01

Norm.predict/logreg 1.12e-02

A continuacion, interesa saber que metodo de imputacion es el mas adecuado de todos ellos anuestros datos. Tras la aplicacion del criterio AIC a cada uno de los conjuntos de datos imputadospor los distintos metodos aplicados, obtenemos los siguientes resultados (tabla 5.4).

Puede apreciarse que los metodos pmm para la imputacion de variables continuas y logreg para lasbinarias, son los que obtienen menores valores de AIC. Cabe recordar que el metodo pmm es adecuadopara datos que no asumen normalidad como frecuentemente ocurre en datos reales.

Una vez conocido el metodo a utilizar en la imputacion, falta hallar el numero optimo de impu-taciones. Para ello se calcula el AIC global para cada caso. Una forma de hacerlo, es hallar el AIC

Page 44: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

44 CAPITULO 5. APLICACION A DATOS REALES

Figura 5.3: Boxplot de la edad en funcion de si tenemos los datos observados en las otras variables ono.

Tabla 5.4. AIC de los diferentes metodos de imputacion.

Metodo/s AIC

Pmm 1510.50

Cart 1517.97

Sample 1519.09

Pmm/logreg 1508.17

Cart/logreg 1511.78

Sample/logreg 1524.04

Mean/logreg 1519.04

Norm/logreg 1515.75

Norm.predict/logreg 1512.13

para cada conjunto de datos imputados de forma separada y luego calcular la media de esos valores[23]. Ası, se obtienen los resultados que aparecen recogidos en la tabla 5.5.

Se obtienen AIC similares para las diferentes imputaciones, encontrandose un menor AIC cuando elnumero de imputaciones es m=3. Puede apreciarse que con el aumento del numero de imputacionesno necesariamente se obtendran mejores resultados.

Tras realizar tres imputaciones (m=3) por el metodo pmm para variables cuantitativas y porel metodo logreg para variables cualitativas se obtienen los siguientes factores de riesgo para cadaimputacion (tabla 5.6).

Para hallar las covariables que finalmente entraran en el modelo de supervivencia, se utilizara pri-

Page 45: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

5.3. IMPUTACION A LOS DATOS REALES 45

Figura 5.4: Boxplot del ano de trasplante en funcion de si tenemos los datos observados en las otrasvariables o no.

Tabla 5.5. AIC global para cada numero de imputaciones.

m AIC

1 1508.17

2 1513.18

3 1499.80

5 1508.55

10 1509.23

15 1510.24

20 1510.16

25 1510.04

30 1507.96

Tabla 5.6. Factores de riesgo asociados a cada imputacion.

m Factores de riesgo

1 TH, sexo, imc, actrm, edad, carc, NPTt, meld, tempo, TIF

2 TH, sexo, imc, actrm, edad, carc, NPTt, meld, tempo

3 TH, sexo, imc, actrm, edad, carc, NPTt, meld, tempo

mero la tecnica de seleccion de variables majority, que consiste en seleccionar las variables que aparecenal menos en la mitad de los modelos. En este caso son: TH, sexo, imc, actrm, edad, carc, NPTt,meld y tempo. Posteriormente procederemos a verificar mediante el test de Wald si son necesariastodas estas variables o si se puede quitar alguna.

Page 46: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

46 CAPITULO 5. APLICACION A DATOS REALES

Figura 5.5: Boxplot del tiempo de supervivencia desde el trasplante en funcion de si tenemos los datosobservados en las otras variables o no.

En la tabla 5.7 se muestra un breve resumen de todas las variables con sus diferentes estimacio-nes, errores estandar y p-valores finales asociados a cada parametro, utilizando casos completos y laimputacion por pmm para variables cuantitativas y por logreg para variables cualitativas.

Las variables significativas obtenidas habiendo imputado los datos son: edad, tempo, carc, NPTty actrm. Por otra parte, si tenemos en cuenta unicamente los casos completos, obtenemos que lasvariables significativas son: carc y TH. De todas formas, nos apoyaremos en el criterio AIC paraobtener los factores de riesgo que mas influyen en la supervivencia. Ademas, puede observarse que lasestimaciones en algunos de los parametros varıan sensiblemente de un metodo a otro. Ası por ejemplo,la variable tempo alcanza significacion estadıstica cuando se realiza la imputacion mientras que en elanalisis de casos completos no la alcanza. Debemos tener en cuenta que debido al proceso de perdidade datos el analisis de casos completos se restringe a los ultimos anos del trasplante.

Para averiguar en que orden debemos chequear las variables para utilizar el test de Wald, intro-ducimos en el modelo todas las variables para ir eliminando “paso a paso” todas aquellas variablesque habıan sido introducidas siguiendo el criterio AIC. Finalmente, se aplica el test de Wald para esasvariables en el orden en que fueron eliminadas: meld, imc, sexo, edad, TH, carc, actrm, tempoy NPTt. Dado que las dos primeras variables meld e imc no alcanzan un p-valor<0.05, estas no seintroducen en el modelo final, mientras que las restantes variables sı alcanzan un p-valor<0.05, por loque estas sı se introducen en el modelo final.

Page 47: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

5.4. RESULTADOS DEL ANALISIS DE SUPERVIVENCIA 47

Tabla 5.7. Estimaciones de los coeficientes y errores estandar en las covariables introducidasen los modelos de supervivencia con casos completos y tras la imputacion.

Datos imputados Casos completos

Estimacion Error estandar p-valor Estimacion Error estandar p-valor

Intercepto -3.12e+02 7.94e+01 1.86e-04 -8.21e+01 2.15e+02 7.03e-01

Sexo -5.59e-01 3.27e-01 8.88e-02 -6.32e-01 5.33e-01 2.36e-01

Edad -3.88e-02 1.34e-02 4.40e-03 -2.61e-02 2.47e-02 2.90e-01

Imc 6.51e-02 3.67e-02 7.64e-02 3.69e-02 5.23e-02 4.80e-01

Dm 3.62e-01 3.99e-01 3.65e-01 -4.67e-03 5.29e-01 9.93e-01

Meld -8.39e-02 5.50e-02 2.33e-01 -2.99e-02 4.26e-02 4.82e-01

Oh 1.05e-02 3.16e-01 9.74e-01 2.97e-01 5.47e-01 5.87e-01

Vhc -2.80e-01 3.39e-01 4.10e-01 -3.22e-01 5.84e-01 5.82e-01

Tempo 1.59e-01 3.97e-02 1.49e-04 4.33e-02 1.07e-01 6.87e-01

Carc -1.02e+00 3.44e-01 4.06e-03 -1.62e+00 4.86e-01 8.30e-04

TIF 5.46e-02 7.40e-02 4.66e-01 1.01e-01 1.04e-01 3.32e-01

TH -3.25e-02 1.89e-02 1.00e-01 -8.79e-02 4.28e-02 4.00e-02

TP -5.28e-03 5.23e-02 9.20e-01 1.08e-01 1.86e-01 5.62e-01

TVP 1.06e-01 4.55e-01 8.16e-01 2.60e-01 7.98e-01 7.44e-01

NPTt -8.12e-02 3.40e-02 3.91e-02 -5.26e-03 8.54e-02 9.51e-01

Glu0 3.92e-04 2.21e-03 8.60e-01 -2.18e-04 3.52e-03 9.51e-01

Cr0 -4.12e-02 2.90e-01 8.88e-01 3.18e-01 6.32e-01 6.16e-01

Actrm -5.96e-03 1.81e-03 1.15e-03 -3.14e-03 2.93e-03 2.84e-01

5.4. Resultados del analisis de supervivencia

A continuacion se relatan aquellos factores que afectan a la supervivencia de estos individuos enrelacion a si el analisis se basa en los casos disponibles, en los casos completos o en los datos imputados.

Si aplicamos el modelo de supervivencia AFT a los casos disponibles, y utilizamos luego el criteriode seleccion de variables AIC obtenemos que las variables que mas influyen en la supervivencia de losindividuos son las siguientes: TIF, NPTt, TH, carc y meld.

Sin embargo, si aplicamos el metodo de imputacion de casos completos a estos datos, y luego elmodelo de supervivencia AFT, por el criterio AIC obtenemos que las variables que mas influyen en lasupervivencia son: sexo, TH y carc.

Aplicando el metodo de imputacion optimo a estos datos con el correspondiente numero de impu-taciones, obtenemos que las variables que mas influyen en la supervivencia son: sexo, edad, TH,carc, actrm, tempo y NPTt.

Tras la seleccion de estas ultimas variables en el caso datos imputados, obtenemos las siguientesestimaciones, errores estandar y p-valores para los parametros (tabla 5.8).

Page 48: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

48 CAPITULO 5. APLICACION A DATOS REALES

Tabla 5.8. Estimaciones finales de los coeficientes y errores estandar de las covariablesintroducidas en los modelos de supervivencia tras los pasos de imputacion.

Estimacion Error estandar p-valor

Intercepto -2.86e+02 7.43e+01 1.36e-04

Sexo -6.40e-01 3.24e-01 4.87e-02

Edad -2.82e-02 1.25e-02 2.51e-02

Dm 3.32e-01 4.12e-01 4.21e-01

Oh 1.70e-01 3.21e-01 5.97e-01

Vhc -2.60e-01 3.46e-01 4.53e-01

tempo 1.46e-01 3.71e-02 9.59e-05

carc -8.22e-01 3.21e-01 1.06e-02

TIF 2.97e-02 6.55e-02 6.51e-01

TH -3.86e-02 1.65e-02 1.96e-02

TP -4.67e-02 4.63e-02 3.13e-01

TVP 1.44e-01 4.70e-01 7.60e-01

NPTt -1.21e-01 2.47e-02 1.49e-06

Glu0 3.33e-04 2.32e-03 8.86e-01

Cr0 -2.22e-01 2.71e-01 4.14e-01

Actrm -5.30e-03 1.81e-03 3.69e-03

Page 49: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

Capıtulo 6

Conclusiones

En este trabajo, hemos tratado de abordar el analisis de los modelos de supervivencia AFT cuandoexisten datos faltantes. Los hallazgos mas importantes pueden resumirse en dos:

1. En los estudios de simulacion realizados el metodo de imputacion que ofrece mejores resultadoses el norm.predict.

2. De la aplicacion a datos reales se puede derivar que la seleccion de las variables predictoras en lasupervivencia de los pacientes cambia sensiblemente, ası como los coeficientes y errores estandarestimados en las mismas.

Entre los metodos de analisis en supervivencia, los mas frecuentemente utilizados son el modelo deriesgos proporcionales de Cox y el modelo AFT. Cada uno de ellos ofrece ventajas y desventajas desdeel punto de vista comparativo. Ası, el modelo de Cox tiene la ventaja de que no necesitamos especificaruna distribucion de supervivencia, mientras que el modelo AFT no necesita asumir proporcionalidaden los riesgos y modela directamente el efecto de las variables explicativas en la supervivencia.

En este trabajo hemos desarrollado la imputacion de datos faltantes en modelos AFT dadas lasescasas referencias en la literatura en relacion con la imputacion de datos faltantes en modelos AFT.

En el estudio de simulacion, de entre los distintos escenarios que hemos considerado (porcentajesde censura, covarianzas, metodos de imputacion), obtuvimos distintos errores dependiendo del metodode imputacion utilizado. Los errores siempre aumentan cuanto mas grande sea la censura, pero cuantomayor sea la correlacion entre las dos primeras variables en algunos metodos obtenemos errores masaltos mientras que en otros disminuyen. Con los resultados obtenidos llegamos a la conclusion de queel mejor metodo de imputacion para esos datos simulados era el norm.predict.

De los resultados obtenidos en el estudio de aplicacion a datos reales, destacar las diferenciasobtenidas en relacion con los diferentes metodos de imputacion que se utilizan. De entre los metodosde imputacion aplicados, se puede extraer, siguiendo el criterio AIC, que los mejores resultados seobtienen utilizando pmm para variables continuas y logreg para las binarias. Si aplicamos el modeloAFT a los datos disponibles obtenemos que los factores de riesgo son: TIF, NPTt, TH, carc y meld.Si lo aplicamos a los casos completos serıan: sexo, TH y carc. Y si lo aplicamos a los datos imputadosobtenemos que los factores de riesgo mas importantes son: TH, sexo, NPTt, edad, carc, actrm ytempo. Todas las variables predictoras obtenidas por los diferentes metodos son bien conocidas porser factores o marcadores de riesgo de supervivencia en pacientes sometidos a trasplante hepatico.

49

Page 50: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

50 CAPITULO 6. CONCLUSIONES

La necesidad de mayor cantidad de transfusion de hematıes, de nutricion parenteral y de trata-miento con insulina y el meld son marcadores que nos indican que estos individuos se encuentran enpeores condiciones en su estadıo de la enfermedad. La presencia de un hepatocarcinoma supone unbien conocido factor riesgo de mayor mortalidad, y resulta evidente que conforme al paso del tiempo,las tecnicas quirurgicas, y especialmente los tratamientos que se administran para evitar el rechazodel hıgado trasplantado, han mejorado de forma notable la supervivencia de estos pacientes.

Page 51: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

Bibliografıa

[1] Baraldi A.N., Enders C.K., 2010, An introduction to modern missing data analyses, Journalof School Psychology 48, 5–37.

[2] Gelman A., Hill J., 2006, Data Analysis Using Regression and Multilevel/Hierarchical Models.Analytical Methods for Social Research, Cambridge.

[3] Donders A.R., van der Heijdenc G.J., Stijnend D., Moons K.G., 2006, Review: A gentleintroduction to imputation of missing values, Journal of Clinical Epidemiology 59, 1087-1091.

[4] Graham J.W., 2012, Missing Data: Analysis and Design. Springer, New York.

[5] Enders C.K., 2010, Applied Missing Data Analysis. Guilford Press, New York.

[6] White I. R., Royston P., Wood A.M., 2011, Multiple imputation using chained equations:Issues and guidance for practice, Statistics in Medicine 30, 377–399.

[7] Cheng X., Cook D., Hofmann H., 2014, A GUI for Missing Data Exploration. http://cran.r-project.org/web/packages/MissingDataGUI/index.html [Ultima consulta: 25/06/2014]

[8] Honaker J., King G., Blackwell M., 2013, Amelia II: A Program for Missing Data.http://gking.harvard.edu/amelia [Ultima consulta: 25/06/2014]

[9] Templ M., Alfons A., Kowarik A., Prantner B., 2013, Visualization and Imputation ofMissing Values. https://github.com/alexkowa/VIM [Ultima consulta: 25/06/2014]

[10] van Buuren S., Groothuis-Oudshoorn K., Robitzsch A., Vink G., Doove L., JolaniS., 2014, Multivariate Imputation by Chained Equations. http://www.multiple-imputation.com[Ultima consulta: 25/06/2014]

[11] van Buuren S., 2012, Flexible Imputation of Missing Data. Chapman & Hall/CRC, New York.

[12] van Buuren S., Groothuis-Oudshoorn K., 2011, mice: Multivariate Imputation by ChainedEquations in R, Journal of Statistical Software 45.

[13] Rebasa P., 2005, Conceptos basicos del analisis de supervivencia, 78, 222-230.

[14] Borges R., 2004, Analisis de supervivencia basico utilizando el lenguaje R.

[15] Stevenson M., 2009, An Introduction to Survival Analysis.

[16] Allison P.D., 1995, Survival Analysis Using the SAS System: A Practical Guide, SAS Institute.

[17] Lee E.T., Wenyu Wang J., 2003, Statistical Methods for Survival Data Analysis. Wiley-Interscience, New Jersey.

51

Page 52: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

52 BIBLIOGRAFIA

[18] Orbe J., Ferreira E., Nunez-Anton V., 2002, Comparing proportional hazards and accele-rated failure time models for survival analysis, Statistics in Medicine 21, 3493-3510.

[19] Marshall A., Altman D., Holder R., 2010, Comparison of imputation methods for handlingmissing covariate data when fitting a Cox proportional hazards model: a resampling study, BMCMedical Research Methodology 10.

[20] Chiou S. H., 2013, Statistical Methods and Computing for Semiparametric Accelerated FailureTime Model with Induced Smoothing, Doctoral Dissertations.

[21] Zhang N., Little R.J., 2011, Subsample ignorable likelihood for accelerated failure time modelswith missing predictors, 95.

[22] Nan B., Kalbfleisch J.D., Yu M., 2009, Asymptotic theory for the semiparametric acceleratedfailure time model with missing data, The Annals of Statistics 37, 2351-2376.

[23] Consentino F., Claeskens G., 2010, Order Selection Tests with Multiply-Imputed Data. Bel-gium.

Page 53: IMPUTACION DE DATOS FALTANTES EN UN MODELO DE …eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto... · 2014-07-01 · Los datos faltantes son un problema que surge con mucha

Apendice A

Abreviaturas

imc: Indice de masa corporal

dm: diabetes mellitus

meld: Model for End-stage Liver Disease

oh: abuso de alcohol

vhc: virus de la hepatitis C

tempo: ano del trasplante

carc: carcinoma

TIF: tiempo de isquemia frıa

TH: trasfusion de hematıes

TP: trasfusion de plaquetas

TVP: trombosis portal

NPTt: nutricion parenteral

glu0: glucosa basal pretrasplante

cr0: creatinina basal pretrasplante

actrm: insulina media administrada en los 7 dıas posttrasplante

exitus: muerte

timee: tiempo de supervivencia desde el trasplante

INR: International Normalized Ratio

53