tratamiento de datos faltantes

Upload: timothy-barlow

Post on 26-Feb-2018

253 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/25/2019 Tratamiento de Datos faltantes

    1/25

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    Datos faltantes

    Claudio Bustos

    22 de agosto de 2015

    Claudio Bustos

    Datos faltantes

    http://find/http://goback/
  • 7/25/2019 Tratamiento de Datos faltantes

    2/25

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    Aspectos generales del analisis de datos faltantes

    Los datos faltantes son aquellos que no se poseen para un caso enparticular. Pueden producirse por ausencia inesperada de la

    respuesta deseada (omision o error) o por diseno, de formaplaneada.Es uno de los problemas mas importantes en investigacioncuantitativa, tanto por su frecuencia como por el dano que puedecausar en las conclusiones de los estudios.

    Claudio Bustos

    Datos faltantes

    http://find/http://goback/
  • 7/25/2019 Tratamiento de Datos faltantes

    3/25

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    Metodos para enfrentar los datos faltantes

    Los metodos antiguos de solucionar el problema de los datosfaltantes, particularmente aquellos que implican la eliminacion decasos, pueden sesgar fuertemente los resultados.Existen dos metodos que constituyen el estado del arte en casosfaltantes:estimacion de maxima verosimilitudeimputacionmultiple.

    Claudio Bustos

    Datos faltantes

    http://find/http://goback/
  • 7/25/2019 Tratamiento de Datos faltantes

    4/25

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    Patrones y Mecanismos de datos faltantes

    Patron de datos faltantes: Configuracion de datos observadosy perdidos en el conjunto de datos. Describe donde se

    encuentran los datos faltantes, pero no porque ocurre laausencia.

    Mecanismo de datos faltantes: Posible relacion entre lasvariables observadas y los datos faltantes. No representa unmecanismo causal, sino el tipo de relaciones matematicas

    genericas entre lo observado y lo faltante.

    Claudio Bustos

    Datos faltantes

    http://find/
  • 7/25/2019 Tratamiento de Datos faltantes

    5/25

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    Patrones de datos faltantes:Univariado

    DatosY1 Y2 Y3

    1 4 33 3 22 2 5 1

    Datos observados y perdidosM1 M2 M3

    1 1 11 1 11 1 01 1 0

    Claudio Bustos

    Datos faltantes

    P d d f l M d d f l M d

    http://find/http://goback/
  • 7/25/2019 Tratamiento de Datos faltantes

    6/25

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    Patrones de datos faltantes: No respuesta de unidad

    DatosY1 Y2 Y3

    1 4 33 3 22 5

    Datos observados y perdidosM1 M2 M3

    1 1 11 1 11 0 01 0 0

    Claudio Bustos

    Datos faltantes

    P d d f l M i d d f l M d

    http://find/
  • 7/25/2019 Tratamiento de Datos faltantes

    7/25

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    Patrones de datos faltantes: Monotono

    DatosY1 Y2 Y3

    1 4 33 3 2

    Datos observados y perdidosM1 M2 M3

    1 1 11 1 01 0 00 0 0

    Claudio Bustos

    Datos faltantes

    P t es de d t s f lt tes Me is s de d t s f lt tes Met d s

    http://find/
  • 7/25/2019 Tratamiento de Datos faltantes

    8/25

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    Patrones de datos faltantes:General

    DatosY1 Y2 Y3

    1 3 3 2 35 53 4 1

    Datos observados y perdidosM1 M2 M3

    1 0 10 1 00 1 11 0 11 1 1

    Claudio Bustos

    Datos faltantes

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    http://find/
  • 7/25/2019 Tratamiento de Datos faltantes

    9/25

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    Patrones de datos faltantes:Planificado

    DatosY1 Y2 Y3 Y4

    4 3 3 3 2 24 3 25 5 14 1 2

    3 3 3

    Datos observados y perdidosM1 M2 M3 M4

    0 1 1 10 1 1 11 0 1 11 0 1 11 1 0 1

    1 1 0 1

    Claudio Bustos

    Datos faltantes

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    http://find/
  • 7/25/2019 Tratamiento de Datos faltantes

    10/25

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    Patrones de datos faltantes:Variable latente

    DatosY1 Y2 Y3 Y4

    4 3 3 3 2 2 2 3 2 1 5 1 1 3 2

    3 2 3

    Datos observados y perdidosM1 M2 M3 M4

    0 1 1 10 1 1 10 1 1 10 1 1 10 1 1 1

    0 1 1 1

    Claudio Bustos

    Datos faltantes

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    http://find/http://goback/
  • 7/25/2019 Tratamiento de Datos faltantes

    11/25

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    Mecanismos de datos faltantes

    Rubin describe tres mecanismos de datos faltantes, en terminos dela relacion entre los datos observados y faltantes. Los nombres son

    un poco confusos, as que se debe tener cuidado al entenderlos.MCAR. Missing completely at random. Datos perdidoscompletamente al azar

    MAR. Missing at random. Datos perdidos al azar

    MNAR. Missing not at random. Datos no perdidos al azar

    Claudio Bustos

    Datos faltantes

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    http://goforward/http://find/http://goback/
  • 7/25/2019 Tratamiento de Datos faltantes

    12/25

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    MCAR: Datos perdidos completamente al azar

    La probabilidad de aparicion de datos perdidosobservadosno serelacionan con ninguna de las variables observadas y tampoco con

    el valor perdido en s. En notacion:p(R|)Si la variable Xtiene datos completos y la variable Y tiene datosfaltantes, la distribucion de Xpara los casos observados en Ydebera ser la misma que para los datos faltantes.Es el unico mecanismo que se puede verificar mediante pruebas.

    Claudio Bustos

    Datos faltantes

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    http://find/
  • 7/25/2019 Tratamiento de Datos faltantes

    13/25

    Ejemplo de MCAR

    library(psych)

    library(VIM)

    x1

  • 7/25/2019 Tratamiento de Datos faltantes

    14/25

    MAR: Datos perdidos al azar

    La probabilidad de datos perdidosobservadosno se relaciona conel valor perdido en s, pero si con las otras variables observadas.Ennotacion:p(R|Yobs, )Para que un modelo sea MAR, una vez que eliminamos el efectode las variables observadas, el que un dato este perdido o no sedebe exclusivamente al azar.

    Claudio Bustos

    Datos faltantes

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    http://find/
  • 7/25/2019 Tratamiento de Datos faltantes

    15/25

    Ejemplo de MAR

    library(psych)

    library(VIM)

    x1

  • 7/25/2019 Tratamiento de Datos faltantes

    16/25

    NMAR: Datos no perdidos al azar

    La probabilidad de datos perdidosobservadosse relaciona con elvalor perdido en s, incluso despues de controlar las otras variables

    observadas. En notacion: p(R|Yobs,Yperd, )Este caso es el mas complicado, ya que no tenemos referencia decuanto nos estamos alejando del valor perdido al estimar usando lainformacion disponible.

    Claudio Bustos

    Datos faltantes

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    http://find/
  • 7/25/2019 Tratamiento de Datos faltantes

    17/25

    Ejemplo de NMAR

    library(psych)

    library(VIM)

    x1

  • 7/25/2019 Tratamiento de Datos faltantes

    18/25

    Ejemplos

    MCAR: Se cuenta con un instrumento que registra cuantaspersonas ingresan por hora a un recinto. El dispositivo tienenuna probabilidad determinada de fallar, sin que esta dependade ningun factor externo.

    MAR: Se tienen dos variables: gusto por los videojuegos yasistencia promedio. A priori, no suponemos relacion entreambos. Los alumnos que no asisten en el da de la encuestano responden, pero con el dato de la asistencia promediopuedo predecir la probabilidad que ocurra la no respuesta.

    NMAR: En un cuestionario se consulta por el rendimientoacademico. Las personas con menor rendimiento suelen noresponder esta pregunta, por lo que la presencia del un datofaltante depende, precisamente, del valor real no observado.

    Claudio Bustos

    Datos faltantes

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    http://find/
  • 7/25/2019 Tratamiento de Datos faltantes

    19/25

    Metodos tradicionales

    Caso completo (listwise): Se eliminan todos los casos condatos faltantes.

    Caso disponible (pairwase): Se eliminan los casos con datosfaltantes en los analisis espcficos.

    Imputacion sencilla: Se rellena los casos faltantes para lograruna base de datos completa

    Claudio Bustos

    Datos faltantes

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    http://find/
  • 7/25/2019 Tratamiento de Datos faltantes

    20/25

    Metodos de imputacion sencilla

    Media no condicional (media de la variable)

    Media condicional (regresion)

    Regresion estocasticamazo-caliente (hot-deck)

    Promedio de tems disponibles (en escalas)

    Ultima observacion mantenida (last observation carried

    forward)

    Claudio Bustos

    Datos faltantes

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    http://find/
  • 7/25/2019 Tratamiento de Datos faltantes

    21/25

    Metodos modernos

    Los dos metodos modernos de trabajo con datos perdidos sonmaxima verosimilitud e imputacion multiple. Ambos metodospermiten realizar estimaciones insesgadas bajo MAR.

    Maxima verosimilitud : Se buscan los parametros que mejor

    respondan a los datos observados, asumiendo que los datosperdidos provienen de la misma distribucion de los datosobservados.

    Imputacion multiple : Se generan multiples bases de datos, en

    la cual a cada valor perdido se le imputa un valor al azar,dependiente de los datos observados. El resultado final es unagregado de los resultados parciales.

    Claudio Bustos

    Datos faltantes

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    http://find/
  • 7/25/2019 Tratamiento de Datos faltantes

    22/25

    Ventajas y desventajas de Maxima verosimilitud

    Ventaja: Mas rapida que IM. Entrega el resultado esperado(parametro) directamente, siendo optimo para la informacion

    disponible.

    Desventajas: Difcil de entender teoricamente. Se requiere queel metodo de estimacion este disenado para el problemaespecfico a resolver.

    Claudio Bustos

    Datos faltantes

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    http://find/
  • 7/25/2019 Tratamiento de Datos faltantes

    23/25

    Ventajas y desventajas de Imputacion multiple

    Ventaja: Facil de entender. Permite usar metodos para basescompletas. Permite calcular de forma facil el monto de

    variabilidad atribuible al dato perdido.

    Desventajas: Mas lento y laborioso que MV. Puede sercomplicado encontrar la forma de reunir los resultados demultiples pruebas.

    Claudio Bustos

    Datos faltantes

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    http://find/
  • 7/25/2019 Tratamiento de Datos faltantes

    24/25

    Ejemplo maxima verosimilitud

    library(mvnmle)

    pres.resultados Bien

    pres.resultados(df3) # NMAR -> MAL

    Claudio Bustos

    Datos faltantes

    Patrones de datos faltantes Mecanismos de datos faltantes Metodos

    http://find/
  • 7/25/2019 Tratamiento de Datos faltantes

    25/25

    Ejemplo imputacion multiple

    library(mice)pres.resultados Bien

    pres.resultados(df3) # NMAR -> MAL!

    Claudio Bustos

    Datos faltantes

    http://find/