series temporales

60
Minería de datos en salud: Series temporales Jairo cesar Alexander 2017

Upload: jairo-cesar

Post on 10-Apr-2017

41 views

Category:

Healthcare


7 download

TRANSCRIPT

Page 1: Series temporales

Minería de datos en salud:

Series temporalesJairo cesar Alexander 2017

Page 2: Series temporales

:

Técnicas cualitativas, cuantitativas, basadas en modelos

causales y mixtos

• El primero utiliza datos cualitativos como la opinión de los expertos, y puede o no tener en cuenta el pasado.

• El segundo, por el contrario, se centra exclusivamente en patrones y cambios de patrón, y por lo tanto se basa enteramente en datos históricos.

• La tercera utiliza la información altamente refinada y específica acerca de las relaciones entre los elementos del sistema, y es lo suficientemente potente como para tener eventos especiales formalmente en cuenta. Al igual que con técnicas de análisis de series temporales y de proyección, el pasado es importante para los modelos causales.

• Los modelos mixtos dan información cuantitativa a un grupo de expertos para sacar conclusiones validas.

Page 3: Series temporales

Como trabajar con Series

temporalesMétodos cuantitativos

Page 4: Series temporales

Trabajar con SOFTWARE

• JDemetra+ TRAMO-SEATS, X13-ARIMA (libre)

• GRETL (Libre)

• JOINT POINT (Libre)

• EXCEL (Comercial)

• GMDH SHELL DS (Comercial)

• MATLAB (Comercial)

• IBM SPSS . MODELER (Comercial)

• R (libre)

• WEKA - PENTAHO

https://surveillance.cancer.gov/joinpoint/ http://gretl.sourceforge.net/index.html

Page 5: Series temporales

Series temporales: definición

Colección de observaciones

hecha en el tiempo

Page 6: Series temporales

Tareas: de la minería de series temporales

• Caracterización y comparación temporal: ejem. Dos departamentos tienen series de dengue muy similares

• Análisis clustering temporal: ejem cluster costa atlanticacluster area amazoncia

• Clasificacion temporal: la sifilis congenital esta bien el elcentro, critica en la periferia, y acceptable en la region costera.

• Reglas de asociación temporal: si la economia cae 3 puntosy la produccion agricolase mantiene la desnutriciónaumentara 7%

• Analisis de patrones temporales, en carmen de bolivar se ha detectado un anormal caso de eventos adeversos a la vacunación que debe ser atendido.

• Analisis de prediccción y tendencias temporales: ejemplo de continuar la tendencia no se cumplirarn las metas de desnutrición en niños para los proximos 4 años.

• Detección de anomalias: inceremento en los casos de hemophilia en Colombia.

Guangchen Ruan, Paul C. Hanson, Hilary A. Dugan, Beth Plale, Mining Lake Time Series using

Symbolic Representation, Ecological Informatics,

Page 7: Series temporales

Etapas de los Modelo de series temporales

Formulación de un

problema

Estudio del Fenómeno

Parte descriptiva

70%

Parte pronostico

30%

Explicación de supuestos

Presentación de

escenarios

Generación de un modelo

Page 8: Series temporales

De los fenómenos

• Es necesario la comprensión del fenómenos, definiciones

• Datos , recuentos, porcentajes, tasas, índices

• Causalidad, asociaciones, dependencias

• Estudios y modelos anteriores

• Registros históricos

Page 9: Series temporales

Parte descriptiva

Suministra mucha

mas información

de la que se piensa

Page 10: Series temporales

Análisis de series temporales

•Visualización

• Filtros, atípicos, ocultos, faltantes.

•Reducción de dimensiones

• Segmentación, clasificación, comparación, distancia euclídea coeficientes DFT

y los coeficientes DWT, Distancia “time warping, asociación, similitud,

diferencias sub secuencias de las series, General-Match, reglas, evolución,

interpolación, pronósticos.

Page 11: Series temporales

EJEMPLOS algoritmos

• Support vector regression (SVR)

• algoritmo Gecko

• Neural clustering method

• fuzzy c -means (FCM)

• Autorregresivo de media móvil (ARMA , ARIMA)

• Modelos ocultos de Markov (HMM)

• El análisis de conglomerados

• descomposición wavelet

• clasificación del vecino más cercano

• árboles de decisión basados en DTW

• transformación simbólica

• candle stick charting

Ak-chung Fu, A review on time series data mining, Engineering Applications of Artificial Intelligence, Volume 24, Issue 1, February 2011, Pages 164-181,

Page 12: Series temporales

Los nuevos: Aproximación simbólica

Convierte los datos a

palabras y utiliza

algoritmos de

procesamiento de

lenguaje natural para

descubrir y clasificar los

patrones

Guangchen Ruan, Paul C. Hanson, Hilary A. Dugan, Beth Plale, Mining Lake

Time Series using Symbolic Representation, Ecological Informatics,

Page 13: Series temporales

Resumen de Representaciones

• Polinómicas - regresión interpolación

• Coeficientes

• Simbólica

• Arboles

• Wavelet

• Espectral - transformada de Fourier

Page 14: Series temporales

Los datos y las fechas

La segmentación e

incompatibilidad de

los sistemas de

información puede

ser un problema

La depuración , de

datos errados

faltantes,

inconsistentes, y con

formatos

incompatibles

pueden tomar algún

tiempo, que hay que

tener en cuenta

Page 15: Series temporales

Outlier

• Es una observacion que se

desvian mucho de las otras

observaciones y se cree generada

por mecanimos diferentes

• La mayoria de software

recomendado puede eliminar

este tipo de datos, pero eso

depende de los objetivos del

invetigador.

Page 16: Series temporales

Valores missing faltantes u ocultos

• El software puede detectar y

tratar este problemas con varios

métodos como la interpolación

Page 17: Series temporales

Integración de base de datos

y formatos

Mayores capacidades

Los modelos generados deben ser pensados en producción desde el comienzo

Y también en integración para superar los problemas de segmentación de los sistemas

de información

Page 18: Series temporales

Manejo de os formatos y estandares

Es necesario el manejo

adecuado de los formato

(estándar) en este caso la fecha

en GRETL

Page 19: Series temporales

DATOS INGRESO DE INFORMACIÓN

http://www.ins.gov.co/lineas-de-

accion/Subdireccion-

Vigilancia/sivigila/Paginas/vigilancia-

rutinaria.aspx

FORMATO DE ARCHIVO PDF !

INS Es necesario que lo sistemas

de información suministren

información de forma útil, y

no solo para cumplir la

norma

Page 20: Series temporales

Adquisición de información

La información

pueden venir de

base de datos, ejem

PENTAHO- Base de

datos, o KNIME, en

MYSQL.

En la imagen

integración de varios

archivos de

indicadores de salud

(INS) de Excel en

ACCESS

Page 21: Series temporales

Un ejemplo de consulta SQL de

un conjunto de tablas de

EXCEL en ACCES (Indicadores

de salud pública)

Page 22: Series temporales

Ejemplo de graficas y la exploración inicial

Aquí se ve el

comportamie

nto de la

varicela en

Colombia,

nota/ la

varicela tiene

vacuna

efectiva.

Registro

histórico con

proyección a

2018

Page 23: Series temporales

Los filtros

Filtro media móvil

exponencial

Filtro tendencia polinómicaFiltro Hodrick -Prescott

Serie varicela 2012- 2016 (recuento)

Los filtros :

PERMITEN:

Mirar la tendencia

Estacionalidad,

componente aleatorio

Page 24: Series temporales

Consideraciones sobre la Exploracion de series

de tiempo

• Algunos fenómenos son tan

complejos que es necesario

tener en cuenta ciertas cosas

sobre como se clasifican, los

fenómenos aleatorios, la teoría

del caos, la causalidad y el

manejos de escalas para tener en

cuenta en los modelos

Page 25: Series temporales

Consideraciones

• - tipo de fenómeno

• - el azar, la mala suerte o la buena suerte

• - la causalidad

• - la teoría del caos

• - la ley de los grandes números y las escalas

Page 26: Series temporales

-Tipos de FENÓMENOS de acuerdo a su

complejidad

ADRIANA ELISA ESPINOSA CONTRERAS “EL CAOS Y LA CARACTERIZACIÓN DE SERIES DE TIEMPO A TRAVÉS DE TÉCNICAS DE LA DINÁMICA NO-LINEAL” UNIVERSIDAD NACIONAL AUTÓNOMA

DE MÉXICO. MÉXICO, D.F. 2004

Todos los fenómenos

no son tan

predecibles como

una Varicela,

algunos rayan en lo

aleatorio y parecen

o se asemejan a

series económicas

En la figura se

pueden ver

diferentes tipos de

fenómenos

Page 27: Series temporales

-Consideraciones sobre los FENÓMENOS

ADRIANA ELISA ESPINOSA CONTRERAS “EL CAOS Y LA CARACTERIZACIÓN DE SERIES DE TIEMPO A

TRAVÉS DE TÉCNICAS DE LA DINÁMICA NO-LINEAL” UNIVERSIDAD NACIONAL AUTÓNOMA

DE MÉXICO. MÉXICO, D.F. 2004

Se puede ver que

algunos fenómenos son

muy deterministas, otros

imposibles de predecir

(aleatoriedad) con la

ciencia actual , y otros

están en el limite de lo

predecible y tienen un

comportamiento

matemáticamente

extraño.

Page 28: Series temporales

-Del demonio de Laplace a la física cuántica :

determinismo vs indeterminismo

Aleatoriedad

Concepto central dentro de la teoría de probabilidades y en los

estudios del comportamiento cuya definición descansa en la

suposición de que todo suceso tiene una causa, nada es azaroso.

La noción de aleatoriedad aparece asociada al espacio generado

por el desconocimiento humano (parcial o total) de tales causas.

Así, la "aleatoriedad significa que no hay una ley conocida, capaz

de ser expresada en un lenguaje coherente, que describa o

explique los eventos y sus resultados" (Kerlinger, 1994, p.126).

Demonio del mercurio alquímico, en el

libro “Della trasmutatione metallica”,

Giovani Battista Nazario, Brescia, 1589.

Page 29: Series temporales

-Mis indicadores obedecen solo a variables conocidas a Efecto azar (purísima suerte!) a

variables desconocidas o fenómenos complejos?

Page 30: Series temporales

-La causalidad

Según la indagación, "hasta

el momento tenemos

evidencia de que ningún

factor técnico influyó en el

accidente, todo está

involucrado en un factor

humano y gerencial".

Page 31: Series temporales

-Hay que tener en cuenta la Teoría del caos

Page 32: Series temporales

-Puede un discurso de donald trump en

Washington afectar gravemente la salud de

un niño en la guajira?

Page 33: Series temporales

-consideraciones

• El azar, la suerte, o el libre albedrio es importante?

• Como estimarlos? Existen??

• Basta con cambiar la escala temporal? , o usar proporciones?

• Bata con usar filtros ?

• Toca usar índices de aletoriedad, dimesiones, fractalidad, etc..?

• Que pasa con la predicción si el fenómeno es complejo y el azar cambia los condiciones iniciales del fenómeno?

• Los diferencia entre lo pronosticado y lo real se debe al azar, a los factores asociados o a ambos y en que grado?

• Mi predicción o mis acciones puede alterar el futuro?

Page 34: Series temporales

-Ley de los grandes números (aplicada)

• En la teoría de la probabilidad, bajo el término genérico de ley de los grandes números se engloban varios teoremas que describen el comportamiento del promedio de una sucesión de variables aleatorias conforme aumenta su número de ensayos.

• Estos teoremas prescriben condiciones suficientes para garantizar que dicho promedio converge al promedio de las esperanzas de las variables aleatorias involucradas. Ejemplo la difusión de un gas es azarosa a pequeña escala pero determinística a gran escala.

Page 35: Series temporales

-AUMENTAR LA Escala en el tiempo

• Aumentar la escala de tiempo permite

filtrar el componente aleatorio que se

anula a si mismo y permite ver otros

elementos de la serie temporal, como

la tendencia, la estacionalidad, y los

ciclos.

• Disminuir la escala aumenta el

efecto visible del componente

suerte.

• Inconvenientes?

Por día

Por semana

Por mes

Por trimestre

Por semestre

Por año

Por 4 años

Page 36: Series temporales

-Aumentar La escala en el evento

• Tasas x 1000 x 10 000 x 1 000 000 ….

• Proporciones

• Índices

• Funciones

• Inconvenientes

Usar denominadores puede filtrar algunos componentes aleatoriosy otros componentes como el crecimiento de la población, mortalidad Etc.

Page 37: Series temporales

-fractales

Algunos

fenómenos son

independientes

de escala !!!

Page 38: Series temporales

Volviendo Al modelo y la minería

hay que Seleccionar un modelootras consideraciones ….

• En un modelo determinístico se pueden controlar los factores que intervienen en el estudio del proceso o fenómeno y por tanto se pueden predecir con exactitud sus resultados.

• En un modelo estocástico no es posible controlar los factores que intervienen en el estudio del fenómeno y en consecuencia no produce simples resultados únicos. Cada uno de los resultados posibles se genera con una función de probabilidad que le adjudica una probabilidad a cada uno de éstos,

Ejemplo: un modelo para predecir el tamaño de una epidemia en una población de N individuos. Para el caso determinístico se proporciona un valor único, C, mientras que el modelo estocástico permite la posibilidad de obtener desde cero hasta N individuos y se adjudica una cierta probabilidad a cada uno de estos sucesos. La diferencia es más grande de lo que parece, ya que en un modelo matemático determinístico en el contexto epidemiológico; un solo sujeto causa una epidemia generalizada, mientras que bajo un modelo estocástico existe la posibilidad de que la epidemia se extinga

Page 39: Series temporales

Cual es la relación de los modelos, la teoría del

caos, y la utilidad practica.

• Aun dentro de los procesos deterministas, también se da el azar en la dinámica de sistemas complejos impredecibles, también conocidos como sistemas caóticos.

• Hasta el advenimiento de la teoría del caos, se creía que todos los sistemas deterministas eran necesariamente predecibles y, por tanto, no azarosos.

• Sin embargo, el caos determinista se refiere a un tipo de situación de sistemas físicos que a pesar de ser deterministas y presentan cierta predictibilidad estadística general, resultan impredecibles en sus detalles o a pequeña escala.

• En estos casos la descripción mediante modelos matemáticos deterministas que reproducen todos los detalles, se vuelve inviable (o especial) y para describirlos o tratarlos se suele trabajar con descripciones estadísticas de conjuntos de grandes cantidades de elementos, cada uno de ellos impredecible de manera individual pero no así globalmente

• Las propiedades especiales de los sistemas caóticos incluyen cosas como sensibilidad a las condiciones iniciales , emergencia, adaptación, interdependencia, y dificultad para predicción en largo plazo, o de manera individual.

Page 40: Series temporales

Elaboración automática del modelo de serie

temporal• La mayoría de software de alta calidad tiene funciones automatizadas para seleccionar el mejor modelo

según nuestras necesidades y datos

• En el caso de las series temporales JDEMETRA (software libre) o IBM SPSS MODELER y GMDH SHELL (software comercial) ofrecen herramientas muy sofisticadas para elaboración automática de modelos.

• Los modelos luego pueden exportarse a medios de producción

Page 41: Series temporales

Los Modelos en r

son mas manuales, aunque existen muchos paquetes de automatización

• Pronostico del autor generado

con un modelo

HOLTWINTERS en R para la

serie de bajo peso al nacer en

Colombia con datos semanales

Page 42: Series temporales

Selección automática del modelo ejemplo

Este es el modelizador

experto automático

de SPSS 20,0

Page 43: Series temporales

Modelos automáticos en SPSS

Page 44: Series temporales

Modelos automáticos en JDEMETRA+

Page 45: Series temporales

Hay que tener en cuenta en la Elaboración del

modelo para serie temporal

• Información de buena calidad produce resultados de buena calidad

• Datos de pésima calidad, generalmente producen malos resultados

independiente de lo sofisticado de los algoritmos o software usado

• La elaboración de modelos temporales como por ejemplo los ARIMA puede

tomar algún tiempo , por eso puede ser recomendable iniciar con un proceso

automático en MODELER GMDH SHELL Y JDEMETRA que presentan

resultados bastante buenos .

Page 46: Series temporales

Medidas de bondad de ajuste: (se usan para saber

que tan bueno es el modelo)

• R cuadrado estacionaria, R cuadrado (R2), raíz del error cuadrático

promedio (RMSE), error absoluto promedio (MAE), error absoluto

porcentual promedio (MAPE), error absoluto máximo (MaxAE), error

absoluto máximo porcentual (MaxAPE) y criterio de información bayesiano

(BIC) normalizado

Page 47: Series temporales

Ejemplo DE SERIE DE TIEMPO bajo peso

al nacer

Bajo peso al nacer vs Semana Epidemiológica

Page 48: Series temporales

Bajo peso al nacer mapa de recurrencia

El grado de

aleatoriedad

puede estimarse

con un mapa de

recurrencia

en este caso en

MATLAB

Page 49: Series temporales

Mapa de recurrencia

Aquí se puede

ver

Un fenómeno

desde

completamente

Azaroso (puntos)

hasta

Determinista (las

líneas)

Page 50: Series temporales

Filtros - Curve fiting tool

General model Sin3:f(x) =

a1*sin(b1*x+c1) + a2*sin(b2*x+c2) + a3*sin(b3*x+c3)

where x is normalized by mean 26.58 and std14.47Coefficients (with 95% confidence bounds):

a1 = 2162 (1718, 2606)b1 = 0.3811 (-0.2769, 1.039)c1 = 1.541 (1.002, 2.079)a2 = 6529 (-1.161e+07, 1.162e+07)b2 = 2.792 (-42.63, 48.21)c2 = 0.3984 (-41.46, 42.26)a3 = 6569 (-1.161e+07, 1.162e+07)b3 = 2.843 (-41.07, 46.75)c3 = -2.698 (-41.6, 36.2)

Goodness of fit:SSE: 3.479e+06R-square: 0.9146Adjusted R-square: 0.9118RMSE: 121.4

Los filtros pueden

mostrar patrones no

visibles interesantes..

Page 51: Series temporales

LOS CAMBIOS DE ESCALA PARA CONTRARESTAR AL AZAR

Page 52: Series temporales

Función previsión

Suaviza cimiento

exponencial AAA

En Excel

Función

agregar

elemento

grafico

líneas de

tendencia

con

proyección

en Excel

Estadística Valor

Alpha 0.50

Beta 0.00

Gamma 0.50

MASE 1.20

SMAPE 0.08

MAE 23.68

RMSE 33.10

ESTE ES UN EJEMPLO DE TEST DE BONDAD DE AJUSTE EN EXCEL

Page 53: Series temporales

EJEMPLO BAJO PESO AL NACER

• El análisis de las series temporales pude determinar que regiones

departamentos y municipios están presentado mas el fenómeno, y si alguna

política esta impactando en la región

• La información estaría disponible no solo para el tomador de decisión sino

también para la opinión publica, el medico y el usuario.

Page 54: Series temporales

CONSIDERACIONES FINALES

Page 55: Series temporales

DIMENSIONES:

CIRCULO O CUADRADO (2d)?

Hay que pensar

Siempre desde varias

Perspectivas

El trabajo en quipo

Multidiciplinario es

Recomendable,

Los dx poblaciones

Son de equipo

Page 56: Series temporales

PATRONES :UNA CARA EN MARTE?

Crédito NASA

Page 57: Series temporales

ASOCIACIONES – CAUSALIDAD - AZAR

Tyler Viglen - Spurious Correlations website

https://commons.wikimedia.org/w/index.php?curid=48043945

Page 58: Series temporales

http://www.nature.com/nature/journal/v529/n7584/full/nature16166.html

http://science.sciencemag.org/content/347/6217/78

SIEMPRE INTERPRETAR

Page 59: Series temporales

•“La mejor manera de predecir el futuro es crearlo” (“The best way to predict the future is to create it”).

Dennis Gabor Nobel de Física en Inventando el futuro 1963

Page 60: Series temporales

fin

• Puede usar esta presentación pero da algo de crédito al autor