outliers
TRANSCRIPT
Métodos de detección de valores desviados (outliers) en datos univariados
Es una observación que se desvía del resto de observaciones, por lo que se sospecha que fue generada por un mecanismo diferente (Hawkins, 1980) Es una observación (o un grupo de observaciones) que aparecen como inconsistentes considerando el resto de la base de datos (Barnet & Lewis, 1994) Una observación que se sitúa fuera de un patrón general de comportamiento en una distribcuión (Moore & McCabe, 1999) Son aquellos registros que no siguen un patrón de aplicación (Chen et al., 2003)
La presencia de valores erróneos se atribuye a las siguientes causas:
Error: la medición es observada, registrada o incorporada incorrectamente
Contaminación: la medición proviene de una diferente población
Variabilidad inherente: la medición es correcta, pero representa un evento raro
La noción de “outlier” es altamente dependiente del sistema a estudiar
Valores desviados en una distribución que tiende a la normalidad
Valores desviados en un patrón lineal
Valores desviados en datos obtenidos con monitoreo temporal/ series de tiempo
Aplicaciones de la detección de “outliers”
Eliminación de datos erróneos (Control de Calidad) Detección de fraudes (Manejo financiero en Bolsa de Valores ; Manejo de Tarjeta de Crédito ; Votaciones) Análisis de alto rendimiento (proceso de “scouting” en empresas o atletas de alto rendimiento) Predicción climática (protección ambiental, riesgo) Detección de anomalías en tiempo real (sistemas de salud, transporte)
1900 1925 1950 1975 2000
0
200
400
600
800
Precip
itación
(mm
)
Sep1904
425 mm
Ago1909
791 mm
Sep1923
438 mm
Sep1932
538 mm
Ago1938
454 mm
Monterrey, N.L.
Sep2004
438 mm
Sep1988
427 mm
Ago1967
489 mm
Tormenta # 5
Huracán # 3
Huracán Beulah
Huracán Gilberto
Huracán Emily
Dificultades de la detección de “outliers”
1er. Problema : El proceso de detección es cíclico
El modelo propuesto
representa el sistema
Por ejemplo: “Los datos pertenecen a una distribución
normal”
Identificación correcta de “outliers”
Selección de pruebas
estadísticas
Falacia de círculo vicioso: ¿Qué fue primero el huevo o la gallina?
2do. Problema : Enmascaramiento (Masking) o Desbordamiento (Swamping)
Si el sistema contiene un valor desviado el problema es simple. Sin embargo, la presencia de más de un “outlier” puede complicar se debido a estos efectos
Enmascaramiento (5) La prueba de detección falla en detectar los valores desviados (falso negativo)
Desbordamiento (3, 7, 8) La prueba de detección falla señalando incorrectamente valores desviados (falso positivo)
Pruebas de detección de “outliers”
(Velasco y Verma, 2000)
Pruebas de detección de “outliers”
(Velasco y Verma, 2000)
Considerar la serie de datos: 4 , 4 , 4 , 5 , 5 , 5 , 6 , 6 , 7 , 50
-5 0 5 10 15 20 25 30 35 40 45 50 550
1
2
3
4
5
6
7
Nú
mero
de o
bserva
cion
es
n = 10 x = 9.6 s = 14.22
Detección de valores desviados: Prueba N1(u) = (50 – 9.6) / 14.22 = 2.84 Valor crítico N1 n = 10 / 2.41 a 99%
N1(u) > VcN1 a 99%
El valor 50 es detectado como desviado por N1