curso análisis estadístico de datos climáticos tema: series temporales i mario bidegain (fc) –...

22
Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de la República Montevideo, Uruguay 2009

Upload: valentia-monsivais

Post on 10-Feb-2015

7 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Curso

Análisis Estadístico de Datos Climáticos

Tema: SERIES TEMPORALES I

Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC)

Universidad de la República

Montevideo, Uruguay

2009

Page 2: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

CONTENIDO

Estudio de las series temporales en Climatología.Ciclo anual y diario en variables climáticas. Dominio temporal vs. dominio de frecuencias. Procesos estocásticos. Series aleatorias. Estacionariedad. Pruebas de tendencia (Test Mann-Kendall). Autocovariancia y autocorrelaciónProcesos de Markov. Ejemplos de procesos autoregresivos.

Page 3: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Principales objetivos del estudio estadístico de las series temporales en Ciencias de la Atmósfera:

- Comprender la variabilidad de la serie temporal

- Identificar los oscilaciones regulares y no regulares de la serie temporal

- Describir las características de esas oscilaciones.

- Comprender los procesos físicos que dan origen a esas oscilaciones.

Para alcanzar estos objetivos necesitamos que:

- Identificar los ciclos regulares (autocovariancia, análisis armónico, etc.)

- Estimar la importancia de esos ciclos (análisis espectral)

- Aislar o remover ciclos (filtrado)

Page 4: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Ciclo anual y diario en variables climáticas

La mayoría de las series que analizamos en Ciencias de la Atmósfera son originadas en procesos que tienen incluidos ciclos o oscilaciones periódicas

Los dos principales ciclos son:

Ciclo o oscilación anualCiclo o oscilación diaria

Temperaturas medias mensuales

0.0

5.0

10.0

15.0

20.0

25.0

ENE MAR MAY JUL SET NOV ENE MAR MAY JUL SET NOV

Page 5: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Diferentes aproximaciones:Dominio temporal vs. dominio frecuencia

Los métodos basados en el dominio temporal procuran caracterizar la serie de datos en los mismos términos (condiciones) en los cuales ellos son observados. El instrumento fundamental para la caracterización de relaciones entre valores de datos en el dominio temporal es la función de autocorrelación.

Matemáticamente, el análisis en el dominio temporal funciona en el mismo espacio que los valores de datos en dominios de frecuencia.

El análisis en dominio de frecuencia representa la serie de datos en términos de contribuciones que ocurren en escalas de tiempo diferentes, o frecuencias características. Cada escala de tiempo es representada por un par de funciones de coseno y seno. La serie de tiempo total es considerada como proveniente de los efectos combinados de una colección de senos y cosenos que oscilan en diferentes periodos. La suma de estas ondas reproduce los datos originales,

Los métodos de análisis en dominio de frecuencia son comúnmente aplicados a las series de temporales geofísicas, e importantes ideas pueden ser generadas a partir del análisis del dominio de frecuencia.

Page 6: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Procesos estocásticos I Se define un proceso X(t) como un fenómeno que cambia en el tiempo o el espacio. Los procesos suelen clasificarse en:

Determinísticos: existe una relación definida o causal por lo que la obtención de nuevos datos u observaciones no agregan información sobre el mismo

Estocásticos: definidos por una distribución de probabilidades. Son mas complejos que su análogo determinístico.

Normalmente se define una Serie cronológica o temporal como una función no determinística o aleatoria X que depende de una variable t (tiempo).

Se admite que la serie temporal representa un muestreo de una población, suponiendo además que es estacionaria, es decir que su promedio, varianza y otros momentos estadísticos son invariantes a desplazamientos temporales.

Un proceso aleatorio puro cumple además que las realizaciones son independientes entre ellas constituyendo una secuencia al azar.

Page 7: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Procesos estocásticos II En las series climáticas los valores sucesivos no son independientes entre si debido a la presencia de persistencia (la serie tiende a recordar sus valores anteriores), ciclos periódicos o aperiodicos y tendencias ya sea lineal o no lineal y otros efectos no aleatorios.

En general las series climáticas consisten tanto de componentes aleatorias como determinísticas. El objetivo es identificar tan claramente como sea posible la naturaleza y extensión de las componentes no aleatorias en estas series climáticas.

Existen varias técnicas estadísticas que intentan ajustar modelos que representen los procesos estocasticos generadores de las series. Si bien un proceso estocástico no es predecible con certeza es posible describirlo en términos de sus parámetros estadísticos.

Page 8: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

EstacionariedadHay dos aproximaciones para tratar con series no estacionarias:

• La primera aproximación es transformar matemáticamente los datos no estacionarios para acercarnos a la estacionariedad. Por ejemplo, restando una función periódica a los datos que contiene un ciclo anual produciría una serie de datos transformada con media (cero) constante. Para producir una serie con media y varianza constante, podría ser necesario aun más transformar estas anomalías a anomalías estandarizadas - es decir dividir los valores en la serie de anomalías por las desviaciones estándar que también varían con un ciclo anual.

• La alternativa a la transformación de datos es estratificar los datos. Es decir podemos hacer los análisis por separado de los subconjuntos del registro de datos que son bastante cortos para ser considerados como estacionarios. Nosotros podríamos analizar observaciones diarias para todos los registros de enero disponibles en una ubicación dada, asumiendo que cada registro de datos de 31 días es una muestra del mismo proceso físico, pero necesariamente estamos diciendo que no aceptamos que aquel proceso sea el mismo para julio, o para febrero.

Page 9: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Estacionariedad Hay dos aproximaciones para testear la estacionariedad de una serie:

• No paramétricas • Paramétricas

Dentro de las No Paramétricas se utiliza:

Test del recorrido

Dentro de las Paramétricas:

La Función de autocorrelación en una serie temporal no estacionaria, no decaerá, ni se extinguirá rápidamente. Básicamente las aproximaciones paramétricas asumen un cierto nivel de experiencia con los datos, y con aquella experiencia uno entonces puede contar que examinando los datos pueden se puede considerar estacionaria o no.

Page 10: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Test de Tendencia de Mann-KendallLa prueba tiene como objetivo detectar una tendencia al incremento o al decrecimiento en la serie de datos.

La prueba de Mann - Kendall está basada en la estadística S. Cada par de valores observados yi, yj (i> j) de la variable aleatoria es inspeccionado para encontrar cuando yi > yj o yi < yj.

Si el número de pares positivos es P, y el número del tipo de pares negativos es M

Entonces la S es definida como S = P − M

Para n> 10, la distribución de muestreo de S la z sigue la distribución estándar normal donde

Page 11: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Autocovariancia

• La autocovariancia es la covariancia consigo misma en otros instantes de tiempo, medido por un lag o desfasaje temporal.

• Esta función es utilizada para estimar los periodos dominantes en una serie temporal.

• La autocovariancia mide el grado de intensidad de correlación, dependencia o memoria de los valores de un proceso entre dos instantes.

Page 12: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Autocorrelación IUsamos la correlación como una medida de dependencia.

Cuando trabajamos con una variable, podemos calcular la correlación entre X t y X t-1 o entre X t y X t-2

Las correlaciones entre X’ en diferentes tiempos son llamados autocorrelaciones.

No obstante, debemos asumir que todos los X’s tienen:– misma media (no existen tendencias)– misma varianza

Page 13: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Autocorrelación IISuponemos que la serie es estacionaria.

Esto significa que:– La serie temporal varia alrededor de una media

fija y tiene variancia constante– La dependencia entre observaciones sucesivas

no cambia con el tiempo

La autocorrelación para una serie estacionaria:

t t s t t ss

tt t s

cov X ,X cov X ,X

Var XVar X Var X

Page 14: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Autocorrelación IIILas estimaciones de la autocorrelaciones muestrales son:

T

t t st s

s T2

tt 1

(X X)(X X) = r

(X X)

Denominamos correlogramas a la representación gráfica de las funciones de Autocorrelación

Page 15: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Funciones típicas de autocorrelación

a) Si el “lag” o desplazamiento es pequeño la autocorrelacion es positiva para muchas variables geofisicas

b) Esto significa que existe persistencia en las variables

c) Por lo tanto si tenemos una secuencia de N observaciones estas no pueden ser consideradas independientes.

d) Esto significa que los grados de libertad son menores a N.

Page 16: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Ejemplos de correlogramas mas comunes.

Page 17: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Procesos estocásticos Procesos estocásticos elementales: Ruido Blanco

El denominado ruido blanco es un proceso estocástico que presenta media nula, varianza constante y covarianza nula para cualquier valor de lag (k), si además la distribución es normal, se denomina Ruido Blanco Gaussiano.

kaaCov

aE

aE

ktt

at

t

0),(

022

Este tipo de proceso es estrictamente estacionario.

Page 18: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Procesos estocásticos

Procesos estocásticos elementales: Proceso Autorregresivo.

Definimos un proceso autorregresivo de primer orden AR(1) como un proceso aleatorio que responde a una expresión del tipo

Para que el proceso AR(1) sea estacionario se debe cumplir que -1<1<1, para que z

2 sea finita y no negativa.

011110 tttttttt XXconaXXbienoaXX

21

2222

12

1

aazztXVar

Los procesos autoregresivos pueden generalizarse al orden p AR(p) sin más que añadir términos retardados en la expresión general.

tptpttt aXXXX ...22110

Page 19: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Procesos estocásticos

Procesos estocásticos elementales: Medias móviles.

Definimos una media móvil de primer orden MA(1) como un proceso aleatorio que responde a una expresión del tipo

medialaasdiferenciaenXconaaX tttt 11

Los procesos de medias móviles son estacionarios y, al igual que los autoregresivos pueden generalizarse al orden q MA(q) sin más que añadir términos retardados en la expresión general.

qtqtttt aaaaX ...2211

Page 20: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Cadenas de Markov I La clase más común de modelo estocástico, usado para representar las series temporales de variables discretas es la Cadena de Markov.

Una cadena de Markov puede ser imaginada como una sucesión de estados de un sistema. Cada estado corresponde a uno de los elementos de la partición del espacio muestral que describe la variable aleatoria en cuestión.

Para cada período de tiempo, la cadena de Markov puede o permanecer en el mismo estado o cambiarse a uno de los otros estados. El permanecer en el mismo estado corresponde a dos observaciones sucesivas del mismo valor de la variable aleatoria discreta en la serie temporal, y un cambio de estado implica dos valores sucesivos diferentes de la serie de tiempo.

Ej. Cadena de Markov de primer orden o dos estados.

Page 21: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Cadenas de Markov II ¿Cómo sabemos que orden es apropiado por una cadena de Markov para representar una serie de datos en particular?

Un acercamiento es de usar un contraste de hipótesis, por ejemplo Chi-cuadrado

Dos criterios se emplean comúnmente para escoger entre los órdenes de los modelos de cadena de Markov. Estos son el Criterio de Información de Akaike (AIC) y el Criterio de Información Bayesiano (BIC).

Tanto el AIC como el BIC intentan encontrar el orden mas apropiado para el modelo logrando un justo equilibrio entre la bondad del ajuste y una penalización que aumenta con el número de parámetros ajustados. Los dos criterios se diferencian sólo en la forma de la función de penalización.

Page 22: Curso Análisis Estadístico de Datos Climáticos Tema: SERIES TEMPORALES I Mario Bidegain (FC) – Alvaro Diaz (FI) – Marcelo Barreiro (FC) Universidad de

Procesos autoregresivos

Wilks, 2006