Download - S6 1 Intro Imput
Taller de Análisis Estadístico COEP
Sesión 06-1Métodos de imputaciónPaul Ramírez De la Cruz
23 may 2008 Métodos de imputación 2
Introducción Se le llama método de imputación a cualquier
procedimiento mediante el cual se busca eliminar los datos perdidos de un archivo con información estadística, asignándoles un valor válido
En esta sesión hablaremos sobre algunos métodos de imputación
Algunos de estos son comúnmente utilizados en oficinas de estadística oficial
Otros han sido poco explorados, posiblemente por su nivel de sofisticación
23 may 2008 Métodos de imputación 3
¿Cuándo es necesario imputar? El tratamiento que la mayoría de los paquetes
estadísticos dan a los datos faltantes (missing data) es el de omitirlos del estudio
Se pueden omitir por pares o por lista La omisión de datos por pares consiste en excluir de
cualquier análisis que incluya a las variables Xj y Xk todo caso que tenga un valor perdido en Xj, en Xk o en ambas La ventaja es que se utiliza en cada análisis la mayor
cantidad posible de información disponible La desventaja es que los resultados obtenidos
estarán basados en distintos tamaños de muestra
23 may 2008 Métodos de imputación 4
¿Cuándo es necesario imputar? En la omisión de datos por lista se excluye de todos los
análisis cualquier caso que tenga al menos un dato perdido en una variable La ventaja es que todos los resultados están basados
en la misma muestra La desventaja es que produce una pérdida de
información mucho mayor que el enfoque por pares Si se tiene una pérdida de datos muy pequeña,
cualquiera de estos dos enfoques resulta suficiente Si la pérdida de información es mayor, puede resultar
de utilidad “completar” el archivo de datos
23 may 2008 Métodos de imputación 5
Consideraciones sobre la imputación
Debe tenerse cuidado al aplicar métodos de imputación a algún conjunto de datos
Una imputación mal conducida puede llegar a modificar las características estadísticas de la información en la que se aplica
Cualquiera que sea el método de imputación utilizado, debe verificarse que las distribuciones conjuntas de los datos producidos por este no difieran significativamente de las de aquellos datos obtenidos en campo
23 may 2008 Métodos de imputación 6
Clasificación de métodos de imputación
Poco recomendables Por medida de tendencia central Asignación aleatoria
Determinístico De donación
Cold deck Hot deck
23 may 2008 Métodos de imputación 7
Clasificación de métodos de imputación
Estadísticos Regresión Regresión aleatoria Análisis discriminante lineal
Computacionales (aprendizaje de máquina o inteligencia artificial) Árboles de clasificación y regresión Redes neuronales Máquinas de soporte vectorial
23 may 2008 Métodos de imputación 8
Métodos de imputación no recomendables: Tendencia central
Imputación por alguna medida de tendencia central (media, mediana, etc)
Ventajas Es muy simple de realizar Mantiene inalterada la medida de
tendencia central utilizada
23 may 2008 Métodos de imputación 9
Métodos de imputación no recomendables: Tendencia central
Desventajas Crea artificialmente un “bordo” en la
parte central de la distribución, en consecuencia cambiando la forma de esta
Disminuye artificialmente el valor de las medidas de dispersión
No toma en cuenta las relaciones de la variable imputada con otras del estudio
23 may 2008 Métodos de imputación 10
Métodos de imputación no recomendables: Asignación aleatoria
Asignación aleatoria de alguno de los valores válidos de la variable
Ventajas Es muy simple de realizar Mantiene la distribución y por tanto las medidas
de tendencia central y de dispersión Desventajas
No toma en cuenta las relaciones de la variable imputada con otras del estudio
Puede distorsionar la relación entre la variable imputada y otras variables
23 may 2008 Métodos de imputación 11
Método determinístico de imputación
Hace uso de relaciones entre las variables dentro de un instrumento, o entre instrumentos para deducir qué valor debería tener el dato perdido
Ventajas Fácil de implementar Hace uso explícito de ciertas relaciones
entre las variables del instrumento
23 may 2008 Métodos de imputación 12
Método determinístico de imputación
Desventajas Solamente se puede utilizar cuando hay
una relación clara entre variables Aún en el caso anterior, puede no dar un
valor puntual para el dato perdido, sino solamente un intervalo de valores entre los que pudiera estar
23 may 2008 Métodos de imputación 13
Ejemplo
Supongamos que un cuestionario para educadora no unitaria, primera parte, tiene un dato perdido en el año de acreditación de la licenciatura en educación primaria
Por otro lado, se cuenta con información de que la educadora tiene 25 años de edad
23 may 2008 Métodos de imputación 14
Ejemplo Se propone la hipótesis de que,
difícilmente, una educadora concluiría un programa de licenciatura antes de cumplir 20 años
Se deduce entonces que no podría haber concluido su instrucción antes de 2003
Notemos que el resultado no es un valor puntual, sino un intervalo y que el valor imputado podría ser cualquiera de entre 2003, 2004, 2005, 2006, 2007 y 2008
23 may 2008 Métodos de imputación 15
Métodos de imputación por donación: Hot deck
Los métodos de donación hacen uso de un dato tomado de un caso con información completa para imputar un valor perdido en otro caso
La aplicación del método requiere la identificación de k casos completos que sean “similares” al actual que está incompleto
23 may 2008 Métodos de imputación 16
Métodos de imputación por donación: Hot deck
Se hace uso del método del “vecino más cercano” para establecer dicha similitud
Consiste en crear conglomerados de observaciones a partir de la distancia que los separa Euclidiana Euclidiana ponderada De Mahalanobis
23 may 2008 Métodos de imputación 17
Métodos de imputación por donación: Hot deck
El término hot deck significa “mazo (de cartas) caliente”
Se refiere a los inicios de la computación cuando los datos se introducían mediante tarjetas perforadas
Al pasar por la máquina lectora, las tarjetas quedaban calientes
El nombre del método tiene que ver con el uso de un donador con información completa, tomado del mazo caliente de cartas, para completar la información de un caso que tuviera algún valor perdido
23 may 2008 Métodos de imputación 18
Métodos de imputación por donación: Cold deck
Es el mismo método que hot deck, con la diferencia de que se utiliza información de una investigación previa, muy similar a la actual
Dado que las tarjetas donadoras no acababan de ser leídas en la máquina, ya estaban frías, de allí el nombre del método
23 may 2008 Métodos de imputación 19
Métodos de imputación por donación
Ventajas Son relativamente simples, en realidad son
los más simples entre los métodos de aprendizaje máquina
Mantienen las distribuciones de la variable imputada y su relación con otras variables Siempre y cuando se tomen precauciones para
evitar caer en el caso de imputación por medida de tendencia central o en el de imputación aleatoria
23 may 2008 Métodos de imputación 20
Métodos de imputación por donación
Desventajas Requieren cierto grado de implementación
(aunque, por ejemplo, hay un par de opciones implementadas en paquetes de R)
Es posible que se necesite cierta cantidad de “experimentación” para establecer un modelo eficiente
23 may 2008 Métodos de imputación 21
Paquetes de R para imputación
yaImpute: Imputación por k-NN (k nearest neighbours o k vecinos más cercanos)
mitools: Herramientas para imputación múltiple de datos faltantes
23 may 2008 Métodos de imputación 22
Métodos estadísticos de imputación: Regresión
Se elabora un modelo de regresión (lineal, polinomial, logística o de otro tipo) con la variable que se busca imputar como variable respuesta y una o más variables relacionadas con la primera como variables explicativas
La selección de las variables que fungirán como explicativas debe estar basada en la teoría sustantiva del área del estudio y apoyada por información estadística: por ejemplo, correlaciones entre las variables
23 may 2008 Métodos de imputación 23
Imputación por regresión Ventajas
Es relativamente simple de implementar Toma en cuenta las relaciones entre la variable
que se imputa y otras Resulta de utilidad, principalmente, para
variables continuas (lineal, polinomial) o binarias (logística)
Desventajas Requiere del ajuste de un modelo para cada
variable a imputar Si el ajuste no es bueno, puede producir valores
improbables de la variable imputada
23 may 2008 Métodos de imputación 24
Métodos estadísticos de imputación: Regresión aleatoria
Es una extensión del modelo anterior Al resultado previo se le agrega un
error aleatorio para evitar que dos casos imputados con los mismos valores en las variables explicativas tengan el mismo valor en la variable imputada
23 may 2008 Métodos de imputación 25
Regresión aleatoria
Ventajas Es relativamente simple de
implementar Toma en cuenta las relaciones entre la
variable que se imputa y otras Permite mayor variabilidad en los
valores imputados
23 may 2008 Métodos de imputación 26
Regresión aleatoria Desventajas
Requiere del ajuste de un modelo para cada variable a imputar
Si el ajuste no es bueno, puede producir valores improbables de la variable imputada
Implica cierto conocimiento de la variable a imputar para saber de qué tamaño debe ser el error aleatorio agregado
23 may 2008 Métodos de imputación 27
Métodos estadísticos de imputación: Análisis discriminante lineal (ADL)
Es un método multivariado que se basa en un conjunto, llamado de entrenamiento, de observaciones que están clasificadas en dos o más categorías
El ADL tiene como objetivo encontrar una combinación lineal de las variables originales que produzca la mejor separación entre las categorías
23 may 2008 Métodos de imputación 28
Métodos estadísticos de imputación: Análisis discriminante lineal (ADL)
Una vez calculada dicha combinación lineal, esta se utiliza como un “clasificador” o método para asignar un nuevo caso a la categoría más adecuada, de acuerdo con sus valores en las otras variables
Ventajas Es relativamente simple de implementar, por ejemplo
se puede hacer de manera interactiva en SPSS Toma en cuenta las relaciones entre la variable que
se imputa y otras Funciona mucho mejor que los métodos de regresión
en variables categóricas
23 may 2008 Métodos de imputación 29
Análisis discriminante lineal
Desventajas Requiere del ajuste de un modelo para
cada variable a imputar Dependiendo de las relaciones entre las
variables y la dificultad para “separar bien” los distintos grupos (categorías de la variable que se imputa) puede dar un alto porcentaje de clasificaciones erróneas
23 may 2008 Métodos de imputación 30
Métodos computacionales Son métodos de desarrollo reciente (menos
de 10 años) que se utilizan en minería de datos y aprendizaje de máquina, entre otras cosas, para reconocimiento de patrones
La teoría detrás de ellos es compleja La aplicación puede ser medianamente
simple si se utilizan implementaciones disponibles, por ejemplo, en R
En general, producen clasificadores muy eficientes
23 may 2008 Métodos de imputación 31
Árboles de clasificación Consisten en la división binaria sucesiva de
los recorridos de variables seleccionadas Los árboles de clasificación dividen el
espacio de búsqueda en rectángulos y luego ajustan un modelo simple, por ejemplo una constante, en cada uno de ellos
Dicha constante corresponde con una de las categorías de la variable que se busca predecir
Separaci n de Grupos rbol de Clasificaci n
X
Y
-2 0 2 4 6 8
-4-2
02
4
0 0 0
0
1
0
0
1 1
0
1
11 0
1
0 0
0
|Y<1.52137
Y<0.943743Y<0.475154Y<0.587101 X<3.12812
X<0.785682
X<4.50567
Y<2.3659
X<1.47718X<3.78852
Y<2.0184
X<3.56239X<4.02114Y<3.89761X<3.70785
X<5.15816Y<2.25638
0
0
00 00 00
00 1
0
1
1
10 1
11 1 0
11 1111 1 0 1
000 0 0
23 may 2008 Métodos de imputación 35
Árboles de clasificación
Ventajas Comienzan con el grupo completo de
variables y utilizan solamente aquellas que proporcionan “la mejor separación”
Son de fácil interpretación Hay varias herramientas al respecto
implementadas en R Desventajas
Consideran las variables para separación una a la vez
23 may 2008 Métodos de imputación 36
Paquetes de R para árboles de clasificación
tree: Classification and regression trees http://cran.r-project.org/web/packages/tree/index.html
maptree: Mapping, pruning, and graphing tree models http://cran.r-project.org/web/packages/maptree/index.html
pinktoe: Graphically traverse a tree via GUI widgets or web based system http://cran.r-project.org/web/packages/pinktoe/index.html
23 may 2008 Métodos de imputación 37
Redes neuronales Una red neuronal es un
modelo de regresión o clasificación que se puede representar gráficamente como se indica a continuación:
Observemos que se cuenta con tres capas (aunque puede haber más): de entrada, oculta y de salida
En la capa de entrada se tienen m variables explicativas, en la capa de salida hay n variables respuesta y en la capa oculta hay k neuronas
Redes neuronales
Para regresión, típicamente se tiene n=1, es decir, una única salida
Cuando se quiere clasificar a las observaciones en n categorías, se tienen n unidades en la capa de salida y la i-ésima unidad de salida proporciona la probabilidad de que ocurra la clase i
-4 -2 0 2 4 6 8
-20
24
Separación de Grupos mediante una Red Neuronal
X
Y
-4 -2 0 2 4 6 8
-20
24
Separación de Grupos mediante una Red Neuronal
X
Y
Redes neuronales Ventajas
Toman en cuenta las relaciones entre las variables Son muy modificables y potentes para separar
grupos con un alto grado de precisión Existen implementaciones en R
Desventajas La teoría subyacente es altamente compleja La interpretación de la forma en que participan las
variables en el modelo final no es sencilla La obtención de un modelo parsimonioso no es
sencilla
23 may 2008 Métodos de imputación 42
Paquetes de R
nnet: Modelos de redes neuronales de alimentación progresiva y modelos log-lineales multinomiales
neuralnet: Entrenamiento de redes neuronales
neural: Paquete para trabajo con modelos de redes neuronales
23 may 2008 Métodos de imputación 43
Métodos computacionales de imputación: Máquinas de soporte vectorial
Una máquina de soporte vectorial (MSV) es un método de clasificación en dos categorías que obtiene el mejor clasificador con el margen más amplio de separación entre las categorías
Una MSV realiza la clasificación construyendo un hiperplano n-dimensional que separa de manera óptima las dos categorías
Está relacionado de manera cercana con las redes neuronales
-11
-2 0 2 4 6
-2
0
2
4
6
o
o
o
o
o
oo
o
o
o
o
o oo
o
o
ooo
o
oo
o
o
ooo
oo
o
o
oo
oo
o
o
o
o
o
o
o
o
o
o
o
oo
o
o
o
o
oo
o
o
o
ooo
o
o
o
o
o
o
oo
o
oo
o
o oo
o
o
ooo
o
oo o
o
oo
ooo
o
oo
ooo
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
o
oo
o
oo
o
o
oo
o
o
o o
o
o
oo
o
oo
o
o
o
o
o
ooo
o
o oo
o
o
o
oo
o
o
o
o
o
o
oo
o
oo
o
o
o
o
oo
oo
oo
o
oo
o
o
o
o
o oo
o
oo
o
o
o
o
o
oo
o
oo
o
o
o
o
oo
o
o
oo
o
x
x
x
SVM classification plot
Y
X
23 may 2008 Métodos de imputación 45
Máquinas de soporte vectorial
Ventajas Superan en desempeño a los árboles de
clasificación y a las redes neuronales, es decir, cometen menos errores en la clasificación
Existen implementaciones en R Desventajas
La teoría requerida es compleja Funcionan solamente para dos categorías La interpretación del modelo resultante puede
no ser simple
23 may 2008 Métodos de imputación 46
Conclusiones
Se ha visto un panorama amplio de los distintos tipos de métodos que podrían utilizarse en la imputación de datos faltantes
De estos, algunos son claramente no recomendables, otros podrían tenerse en consideración y algunos más parecen costosos en implementación debido al nivel de sofisticación
23 may 2008 Métodos de imputación 47
Conclusiones
Sin embargo no habría que descartar para futuros estudios la utilización de métodos de mayor complejidad que por otro lado permitan aumentar notablemente la calidad de la información imputada, y en consecuencia, de los resultados del estudio
23 may 2008 Métodos de imputación 48
Propuesta Se considera que se pueden utilizar dos
tipos de imputación: Hot deck como método por omisión, para la
mayoría de las variables que cumplan al menos una de las siguientes características: Tengan un nivel muy bajo de omisión de
respuesta No sean variables eje del estudio No se utilizarían en análisis posteriores
23 may 2008 Métodos de imputación 49
Propuesta
Regresión lineal múltiple, para aquellas variables no imputadas por hot deck que sean de tipo numérico
Análisis discriminante, para aquellas variables no imputadas por hot deck que sean de tipo categórico
23 may 2008 Métodos de imputación 50
Referencias Backhoff, E. (2007). Factores Escolares y Aprendizaje en
México. El caso de la Educación Básica. INEE. México Blanco, E. (2007). Eficacia Escolar en México. Factores
escolares asociados a los aprendizajes en la Educación Primaria. Tesis Doctoral no publicada. Facultad Latinoamericana de Ciencias Sociales. México
Hair, J.; Anderson, R.; Tatham, R. & Black, W. (1999) Análisis multivariante. 5ª. Edición. Pearson Prentice Hall. España
Hastie, T.; Tibshirani, R. & Friedman, J. (2001) The elements of statistical learning. Springer-Verlag. EUA
National Center for Education Statistics (2002). NCES statistical standards. NCES. EUA
23 may 2008 Métodos de imputación 51
Referencias R Contributors. R packages repository en http://
cran.cnr.berkeley.edu/ y http://hosho.ees.hokudai.ac.jp/~kubo/Rdoc/doc/html/packages.html , consultados el 21 de mayo de 2008
Soares, F.(2007). Recursos Familiares e o Desempenho Cognitivo dos Alunos do Ensino Básico Brasileiro
Tourkin, S.; Warner, T.; Parmer, R.; Cole, C.; Jackson, B.; Zukerger, A.; Cox, S. & Soderborg, A. (2007) Documentation for the 2003-04 Schools and Staffing Survey. National Center for Education Statistics. EUA
Lewis, R. An introduction to classification and regression trees. UCLA Medical Center. Documento en http://www.saem.org/download/lewis1.pdf consultado el 23 de mayo de 2008