series de tiempo univariadas[1] (1) (1)

92
Elkin Castaño –Guillermo Pérez 1 MODELACIÓN DE SERIES DE TIEMPO UNIVARIADAS 1 Informalmente hablando, una serie de tiempo consiste de una colección de observaciones ordenadas en el tiempo. Un modelo univariado de series de tiempo relaciona el comportamiento de una variable económica con sus valores pasados y con valores pasados y presentes de un término de perturbación, es decir: x t =f(x t-1 , x t-2 , x t-3 ,…, u t , u t-1 ,..) La ecuación anterior significa que se desea utilizar la inercia de la serie para explicar su comportamiento actual y así poder predecir su evolución futura. Este tipo de análisis se denomina Análisis Univariado (o Univariante) porque utiliza como única información la propia historia de la serie, basándose en la hipótesis central de que las condiciones en el futuro serán análogas a las pasadas. Los modelos univariados son especialmente útiles para realizar pronósticos a corto plazo, pero la serie debe ser relativamente grande. Para pronósticos a mediano y largo plazo se deben tener en cuenta otras variables que ayuden a explicar el comportamiento de la variable de interés. En estos casos se utilizan métodos de análisis de regresión dinámica o también de series de tiempo multivariadas. A nivel teórico un modelo de series de tiempo está basado en el supuesto de que una variable económica ‘’X’’, es en cada instante del tiempo t, una variable aleatoria X t , para la cual sus posibles valores se pueden caracterizar por una función de densidad de probabilidad f(x t ). A la sucesión de estas variables aleatorias, X 1 , X 2 , X 3 , …, X n , observadas a intervalos regulares de tiempo (años, trimestres, meses, …) se le denomina proceso 1 Estas notas son una adaptación del texto de Johnston y DiNardo.

Upload: alexander-zuluaga-brand

Post on 23-Dec-2015

147 views

Category:

Documents


13 download

DESCRIPTION

Econometria en series de tiempo

TRANSCRIPT

Elkin Castaño –Guillermo Pérez 1

MODELACIÓN DE SERIES DE TIEMPO UNIVARIADAS1

• Informalmente hablando, una serie de tiempo consiste de una colección de

observaciones ordenadas en el tiempo.

• Un modelo univariado de series de tiempo relaciona el comportamiento de

una variable económica con sus valores pasados y con valores pasados y

presentes de un término de perturbación, es decir:

xt=f(xt-1, xt-2, xt-3,…, ut, ut-1,..)

• La ecuación anterior significa que se desea utilizar la inercia de la serie para

explicar su comportamiento actual y así poder predecir su evolución futura.

• Este tipo de análisis se denomina Análisis Univariado (o Univariante)

porque utiliza como única información la propia historia de la serie,

basándose en la hipótesis central de que las condiciones en el futuro serán

análogas a las pasadas.

• Los modelos univariados son especialmente útiles para realizar pronósticos

a corto plazo, pero la serie debe ser relativamente grande. Para

pronósticos a mediano y largo plazo se deben tener en cuenta otras

variables que ayuden a explicar el comportamiento de la variable de interés.

En estos casos se utilizan métodos de análisis de regresión dinámica o

también de series de tiempo multivariadas.

• A nivel teórico un modelo de series de tiempo está basado en el supuesto

de que una variable económica ‘’X’’, es en cada instante del tiempo t, una

variable aleatoria Xt, para la cual sus posibles valores se pueden

caracterizar por una función de densidad de probabilidad f(xt). A la sucesión

de estas variables aleatorias, X1, X2, X3, …, Xn, observadas a intervalos

regulares de tiempo (años, trimestres, meses, …) se le denomina proceso

1 Estas notas son una adaptación del texto de Johnston y DiNardo.

Elkin Castaño –Guillermo Pérez 2

estocástico. En adelante no se hará distinción entre el valor observado de

la serie x1, x2, x3, …, xn y el proceso estocástico X1, X2, X3, …, Xn que los

generó (sucesión de variables aleatorias).

• Es importante observar que hay una diferencia muy marcada en el manejo

de datos de corte transversal y los procesos estocásticos:

� En los procesos estocásticos existe un orden natural, dado por el

tiempo.

� En los datos de corte transversal es posible extraer diferentes muestras

y por lo tanto es relativamente clara la idea de que los resultados son

aleatorios.

� Cuando recopilamos un conjunto de datos de series de tiempo,

obtenemos un único resultado posible el cual es llamado la realización

del proceso estocástico. En la práctica, sólo podemos observar una

realización ya que no es posible retroceder en el tiempo para obtener

unos nuevos datos. No obstante, si hubieran sido distintas ciertas

condiciones en la historia, por lo general los resultados serían diferentes

para los valores de la serie, y es por esto que se piensa que X1, X2, X3,

…, Xn son variables aleatorias.

� En general, para un conjunto de datos de series de tiempo el concepto

de muestra aleatoria no es válido ya que, en general, X1, X2, X3, …, Xn

son dependientes.

• Como un punto de partida, los modelos de series de tiempo están basados

en el supuesto de que el proceso que generó la serie empezó hace mucho

tiempo y que continúa indefinidamente hacia el futuro. Además, algunos de

ellos asumen que la media y la varianza de la variable xt, t=1, 2, ..., n,

permanecen estables y que la covarianza entre xt y xt+k no depende del

tiempo sino de la separación en el tiempo entre ellas. Esta clase de proceso

estocástico es llamado estacionario en sentido débil.

Elkin Castaño –Guillermo Pérez 3

• Definición. Se dice que una serie de tiempo es estacionaria (o

estacionaria en sentido débil) si es estable en media, varianza y

covarianza, es decir, si para todo t:

a. E[xt]= µ

b. Var(xt) =σ2x

c. Cov(xt, xt+k) = cov(xt+m, xt+m+k) = γk t, k, m, valores enteros

cualquiera.

• El tipo de procesos estocásticos que se desarrollarán deben tener una

propiedad adicional: deben ser débilmente dependientes. De una manera

sencilla esta propiedad afirma que la corr(xt, xt+k) →0 cuando k → ∞ , k>0,

es decir, asintóticamente no se correlacionan. Intuitivamente esta propiedad

dice que a medida que las variables se distancian en el tiempo, la

correlación se hace cada vez más pequeña. Aún más, la convergencia de la

correlación a cero debe ser lo suficientemente rápida.

Ejemplos.

1. El proceso autorregresivo de orden 1, denotado por AR(1). Se dice que una serie

de tiempo xt sigue un proceso AR(1) si se puede escribir como

xt= m + αxt-1 + ut

donde el término de perturbación ut es un proceso de ruido blanco, es decir ut

proceso estocástico estacionario con E(ut)=0, var(ut)=2σ y Cov(ut, ut+k)=0.

m es una constante, α es otra constante tal que | | 1α < .

En este caso xt depende únicamente de su valor pasado inmediatamente anterior y del

valor aleatorio del término de perturbación, el cual generalmente es llamado

“innovación” o “ shock”.

2. Este modelo puede ser generalizado al modelo autorregresivo de orden p, AR(p), el

cual se define como

Elkin Castaño –Guillermo Pérez 4

xt = m + α1xt-1 + α2xt-2 + α3xt-3 +…+ αpxt-p + ut (1)

donde, como en el caso anterior, ut es proceso de ruido blanco, m es una constante y

los parámetros j

α son constantes que deben cumplir con ciertas restricciones que

veremos más adelante.

3. Es posible que ut no sea ruido blanco, y que por lo tanto responda a una estructura

más complicada. Generalmente ut se especifica como un proceso de medias móviles

MA(q), el cual se define como

ut = εt - β1εt-1 - β2εt-2 - ... - βqεt-q (2)

donde εt es ruido blanco.

4. Al combinar (1) y (2) se tiene un proceso ARMA(p,q), cuya especificación es

xt = m + α1xt-1 + α2xt-2 + α3xt-3 +…+ αpxt-p + εt - β1εt-1 - β2εt-2 -

... - βqεt-q

• Es natural preguntarnos ¿por qué desarrollar este tipo de modelos y no tener en

cuenta las relaciones que existen entre subconjuntos de variables económicas?

Se pueden dar las siguientes razones

� En algunos casos puede no ser muy claro cuáles deberían ser las variables

que se deben emplear y qué forma funcional sería la adecuada.

� Puede ser difícil tener la información necesaria sobre todas la variables.

� Dada una estructura propuesta (es decir, un sistema de ecuaciones que

corresponden a un modelo econométrico), puede mostrarse que a partir de ella

se obtienen ecuaciones para las variables de interés (endógenas) del sistema

que son similares a los modelos ARMA(p,q).

Por ejemplo, considere el modelo macro (muy simple) dado por

Elkin Castaño –Guillermo Pérez 5

Ct = α0+α1Yt+α2Ct-1+ut

Yt ≡ Ct+It

donde C, Y, I denotan consumo, ingreso, e inversión

Matemáticamente, este sistema de dos ecuaciones y tres variables permite

“explicar” dos variables cualesquiera en términos de la tercera variable. En

economía, tradicionalmente se considera que C y Y están determinadas por los

movimientos de I y de la perturbación. Por esto C y Y son denominadas

variables endógenas e I es llamada variable exógena.

Si se sustituye la segunda ecuación en la primera, es fácil ver que

Ct - C1

1t1

2−−α

α = 0 1t t

1 11

1uI

1 1 1α α

α α α+ +

− − −

Yt - Y1

1t1

2−−α

α =0

2

1 1 1

1 1( )

1 1 1

α αα α α

−+ − +− − −

t t 1 tuI I

De esta forma C y Y tienen ambas un componente AR(1) con el mismo

coeficiente sobre el término rezagado. El lado derecho de cada ecuación se

puede mirar como un término de perturbación general, con propiedades que

dependen del comportamiento de I. Si I fuera ruido blanco alrededor de una

media el consumo sería un AR(1) y el ingreso un ARMA(1,1).

Es importante observar que la clasificación en variables endógenas y exógenas

depende del sistema de ecuaciones que se está trabajando. Por ejemplo,

considere el modelo

Ct = α0+α1Yt+α2Ct-1+ut

It = β0+β1(Yt-1-Yt-2)+vt

Yt ≡ Ct+It+Gt

donde G son los gastos del gobierno.

En esta nueva estructura las variables endógenas son C, Y e I. G es la variable

exógena.

Elkin Castaño –Guillermo Pérez 6

Para este sistema, puede probarse que cada variable endógena tiene el mismo

componente autorregresivo de orden tres. La naturaleza del término de

perturbación en la ecuación AR depende de las variables exógenas del

sistema. El cálculo de estas ecuaciones por sustituciones algebraicas es muy

tedioso. El manejo matricial y el operador de rezagos pueden simplificar este

trabajo.

• EL OPERADOR DE REZAGOS

Dada la serie de tiempo xt, se define el operador de rezagos L como

L(xt) ≡ Lxt = xt-1

Además

L2xt ≡ L(Lxt) = xt-2

En general

Lsxt= xt-s

Observe que

(1-L)xt = xt-xt-1=∆xt

donde ∆ es llamado el operador de primeras diferencias.

Es usual hablar de A(L) como un polinomio en el operador de rezagos L. Por

ejemplo:

A(L)=1-αL es un polinomio de grado 1 en L

A(L)=1-α1L-α2L2 es un polinomio de grado 2 en L

En el manejo de los operadores de rezagos es importante manejar el inverso

de A(L). Por ejemplo, considere A(L)=1-αL, entonces

(1-αL)(1+αL+α2L2+α3L3+... +αpLp)=1-αp+1Lp+1

ahora, cuando p→ ∞ y α<1 se tiene que αp+1Lp+1→ 0

Por lo tanto

(1-αL)(1+αL+α2L2+α3L3+... )=1

Elkin Castaño –Guillermo Pérez 7

luego

L11α−

=1+αL+α2L2+α3L3+...

de donde

A-1(L) = (1-αL)-1 = 1+αL+α2L2+α3L3+... =0

i i

i

Lα∞

=∑

• Ejemplo. Usando el operador de rezagos y la representación matricial, el modelo

Ct = α0+α1Yt+α2Ct-1+ut

It = β0+β1(Yt-1-Yt-2)+vt

Yt ≡ Ct+It+Gt

se puede escribir de la siguiente forma

−−−−

−−

111

)L1(L10

0L1

1

12

βαα

Y

I

C

t

t

t

=

10

0

0

0

0

βα

G

1

t

+

0v

u

t

t

o, en forma abreviada

A(L)xt=Bzt+wt (a)

donde

A(L)=

−−−−

−−

111

)L1(L10

0L1

1

12

βαα

es una matriz 3x3 con elementos que son polinomios, algunos de orden cero en

el operador rezago, xt es un vector de 3x1 que contiene a las variables endógenas

Ct, It y Yt; B es una matriz de 3x2 de constantes algunas de ellas ceros, zt es otro

vector de 2x1 que contiene a 1 y la variable exógena Gt y wt es el vector de 3x1 de

perturbaciones.

Ahora, si queremos “despejar” a xt en el modelo anterior, es necesario invertir la

matriz inversa A-1(L) de A(L), donde

Elkin Castaño –Guillermo Pérez 8

A-1(L)=(L)1

AC(L)

)(LA : determinante de la matriz A(L), con )(LA ≠ 0

C(L): Matriz de cofactores transpuesta.

Reemplazando en el modelo anterior se obtiene que

xt= A-1(L){C(L)Bzt+C(L)wt}

xt= (L)1

AC(L){C(L)Bzt+C(L)wt}

)(LA xt=C(L)Bzt+C(L)wt

Se puede probar que

)(LA =(1-α2L)[1-β1L(1-L)] - α1=1-α1-(α2+β1)L+β1(1+α2)L2-α2β1L

3

Con base en la información anterior se puede observar que el sistema original se

transforma de manera tal que para cada variable endógena aparece un proceso

ARMA con la parte AR de orden 3.

• LAS FUNCIONES DE AUTOCOVARIANZA, AUTOCORRELACIÓN Y

AUTOCORRELACÓN PARCIAL PARA UNA SERIE DE TIEMPO ESTACIONARA

Para una serie de tiempo xt estacionaria se define:

� La función de autocovarianza: El coeficiente de autocovarianza de orden k

mide el tipo de asociación lineal que existe entre los términos xt y xt+k de la

serie de tiempo. Se define como:

k t t k t t kCov( x , x ) E( x )( x )γ µ µ+ += = − −

donde k=0, ± 1, ± 2, …

Elkin Castaño –Guillermo Pérez 9

kγ como función de k es llamada la función de autocovarianza.

Si k=0, 0γ es la varianza de xt.

kγ = kγ − , es decir, la función de autocovarianza es simétrica con respecto a k=0.

Esto implica que en la práctica basta con conocer el lado positivo de la función.

� La función de autocorrelación (ACF): El coeficiente de autocorrelación de

orden k mide el tipo y el grado de asociación lineal que existe entre los

términos xt y xt+k de la serie de tiempo. Se define como:

1 2/

k t t k t t k t t kCor( x , x ) E( x )( x ) /[V ar( x )V ar( x )]ρ µ µ+ + += = − −

0k k /ρ γ γ=

kρ como función de k es llamada la función de autocorrelación.

La gráfica de k

ρ contra k es llamada correlograma.

0ρ =1

1k| |ρ ≤

kρ = kρ− , es decir, la función de autocorrelación también es simétrica con

respecto a k=0. Esto implica que en la práctica basta con conocer el lado

positivo de la función.

� La función de autocorrelación parcial (PACF): El coeficiente de autocorrelación

parcial de orden k mide el tipo y el grado de asociación lineal que existe entre

los términos xt y xt+k de la serie de tiempo, eliminando la influencia lineal de los

términos de la serie entre los períodos t y t+k . Se define como:

1 1kk t t k t t kCor( x , x | x ,..., x )α + + + −=

El coeficiente kkα se puede obtener de la autorregresión dada por,

Xt+k=m+ 1kα Xt+k-1+ 2kα Xt+k-2+ …+ kkα Xt + t kε +

Donde t kε + es un proceso de ruido blanco con distribución normal.

kkα como función de k es llamada la función de autocorrelación parcial.

La gráfica de kkα contra k es llamada correlograma parcial.

Elkin Castaño –Guillermo Pérez 10

Observación:

Cuando el proceso estocástico es Normal (Gaussiano) su comportamiento está

descrito completamente por las funciones anteriores.

• ESTIMACIÓN DE LAS FUNCIONES DE AUTOCOVARIANZA,

AUTOCORRELACIÓN Y AUTOCORRELACÓN PARCIAL PARA UNA SERIE DE

TIEMPO ESTACIONARA

Dada una realización x1, x2, …, xn, de un proceso estocástico estacionario,

� El estimador para la función de autocovarianza es:

ˆkγ =

1 1

n k n

t t k t t kt t k

( x x )( x x ) / n ( x x )( x x ) / n−

+ −= = +

− − = − −∑ ∑

donde x = 1

/n

tt

x n=∑ .

� El estimador para la función de autocorrelación (ACF muestral) es

ˆkρ = ˆ

kγ / 0γ = 1

n k

t t kt

( x x )( x x )−

+=

− −∑ / 2

1

n

tt

( x x )=

−∑

La gráfica de ˆk

ρ contra k es llamada correlograma muestral.

Observe que en el cálculo de ˆkγ se pierden k observaciones de las n

iniciales. Debido a esto, se recomienda que el número máximo de

coeficientes a estimar no pase de n/4.

� El estimador para la función de autocorrelación parcial (PACF muestral).

Las autocorrelaciones parciales muestrales se pueden obtener de la

siguiente manera. Se ajustan las regresiones

yt=m+α1yt-1+εt, de donde se obtiene α11=α1

yt=m+α1yt-1+α2yt-2+εt, de donde se obtiene α 22 =α 2

.

.

.

Elkin Castaño –Guillermo Pérez 11

yt=m+α1yt-1+α2yt-2+α3yt-3+…+αkyt-k+εt, de donde se obtiene α kk =α k

• MODELACIÓN DE UN PROCESO ARMA

Hay tres pasos en la modelación de proceso un ARMA:

1. Verifique si la serie es estacionaria. Si no lo es, hay que transformarla para tratar

de inducir la estacionaridad.

2. Use las funciones de autocorrelación y autocorrelación parcial muestrales de la

serie estacionaria para escoger unos pocos modelos que sean consistentes con el

comportamiento teórico de dichas funciones. Estos modelos se estiman y se

selecciona el mejor.

3. Calcule los pronósticos sobre un horizonte de tiempo con base en el modelo

seleccionado.

Inicialmente desarrollaremos la segunda etapa. La idea básica es derivar los patrones

teóricos de las autocorrelaciones y de las autocorrelaciones parciales, para los

modelos AR, MA, ARMA. Después se comparan estos patrones con los calculados

empíricamente para la serie que se está analizando. Con base en esta información (la

teórica y la empírica) se trata de seleccionar algunos modelos ARMA para después

realizar las estimaciones y la validación estadística.

• PROPIEDADES DE LOS PROCESOS AR, MA, ARMA

PROCESOS AUTORREGRESIVOS, AR

El Proceso AR(1)

Recordemos que un proceso AR(1) está dado por

yt = m + αyt-1 + εt

donde εt es ruido blanco.

Usando el operador rezagos se tiene

(1-αL)yt = m + εt

Elkin Castaño –Guillermo Pérez 12

luego

yt =(1-αL)-1(m + εt)

entonces

yt=(1+αL+α2L2+... )( m+εt)

de donde

yt=(1+αL+α2L2+... )m +εt+ αεt-1 +α2εt-2+...

por lo tanto

yt=m∑∞

=0i

iα + εα it

0i

i−

=∑

Asumiendo que α<1

yt =α1

m−

+ εα it0i

i−

=∑

De la expresión anterior, se obtiene

E[yt]= µ = m

1 α−

σ2y = 0γ =

2

σ

1 α−

Es importante observar que bajo la restricción α<1 la media y la varianza anteriores

no dependen del tiempo.

Para el desarrollo de las covarianzas (también de la varianza) y de las

autocorrelaciones es útil trabajar con las series en desviaciones, puesto que se

simplifican los cálculos.

Como m=µ(1-α) entonces el proceso AR(1) se puede escribir

yt=µ(1-α)+α yt-1+εt

luego

xt=αxt-1+εt

Elkin Castaño –Guillermo Pérez 13

donde xt = yt-µ. La nueva serie, xt, tiene media cero y además la varianza,

autocovariazas y autocorrelaciones coinciden con las de la serie yt. De xt se dice que

es la serie en desviaciones con respecto a su media.

Las autocovarianzas para un AR(1) :

El proceso AR(1) en desviaciones con respecto a la media es xt = αxt-1+εt.

Multiplicando a ambos lados por xt-1 y tomando esperanza

E(xt xt-1)= αE(2t-1x )+E(xt-1εt)

donde E(xt-1εt) =0, puesto que xt-1 depende únicamente de εt-1, εt-2, … y no de εt. Como

εt es ruido blanco entonces no está correlacionado con εt-1, εt-2, …

De la ecuación anterior se obtiene

1 0γ αγ=

De manera similar si multiplicamos xt=αxt-1+εt a ambos lados por xt-2 y se toma

esperanza se obtiene

2 1γ αγ=

y, en general

2

1 2 0

k

k k k ...γ αγ α γ α γ− −= = = =

para k=0,1,2,…

Para un AR(1) las autocorrelaciones están dadas por

kρ k k-1

0 0

γ αγγ γ

= = =αρ 1-k = kα k=1, 2, ...

Gráficamente, el correlograma es de la forma:

Elkin Castaño –Guillermo Pérez 14

0 8.α = 0 8.α = −

Observe que las propiedades de media constante, varianza constante y

autocovarianzas que solamente dependen de k y no del tiempo, fueron derivadas bajo

la restricción de que α<1. Por tanto un proceso AR(1) es estacionario si se cumple

este supuesto.

Función de autocorrelación parcial (PACF) de un proceso AR(1).

• Con base en la ACF no se puede definir el orden 1 de un proceso AR(1). Una

herramienta útil para detectarlo es la función de autocorrelación parcial (PACF).

• Recuerde que dada la serie x1, x2, ..., xt-k, xt-k+1, ...xt, ..., el coeficiente de correlación

parcial entre xt-k y xt, está dado por el coeficiente de correlación entre xt-k y xt

después de eliminar la influencia lineal de xt-k+1, ... xt-1. Este coeficiente lo

denotamos por αkk.

Considere el proceso AR(1),

xt= αxt-1+εt

Entonces, de acuerdo con la definición de la PACF, se tiene que

α11=α

αkk=0 k≥2

Gráficamente, para procesos AR(1) con 0 8.α = y 0 8.α = − , los correlogramas

parciales tienen la forma,

Elkin Castaño –Guillermo Pérez 15

PACF de un AR(1) con 0 8.α =

PACF de un AR(1) con 0 8.α = −

El proceso AR(2)

El proceso AR(2) se define como

yt = m + α1yt-1 + α2yt-2 + εt

Asumiendo estacionaridad se tiene que

E[yt] = E[yt-1] = E[yt-2] = µ

de donde

µ = αα1

m

21 −−

Si xt = yt - µ entonces el proceso AR(2) tiene la forma

xt = α1xt-1+ α2xt-2+εt

Elkin Castaño –Guillermo Pérez 16

Si se multiplica la ecuación anterior por xt y se toma esperanza se obtiene

γ0 =α1γ1+α2γ2+σ2ε

De igual forma, si se multiplica por xt -1 y se toma esperanza se obtiene

γ1=α1γ0+α2γ1

De manera similar, si se multiplica por xt -2 y se toma esperanza se obtiene

γ2=α1γ1+α2γ0

De las dos ecuaciones anteriores se tiene que

γ1= 0

α γα−

1

21

γ2= γ 02

21

α1α

−+α2γ0

Reemplazando estas ecuaciones en la ecuación para 0γ se concluye

γ0=)1)(1)(1(

σ)1(

21212

2ε2

αααααα

−+−−+−

Bajo estacionaridad esta varianza debe ser constante. Como γ0 debe ser un número

positivo se debe cumplir que

1-α2>0 1+α2>0 1-α1-α2>0 1+α1-α2>0

luego

α1+α2<1 α2-α1<1 -1< α2< 1

Las tres desigualdades anteriores definen las condiciones de estacionaridad de un

proceso AR(2).

Con base en las ecuaciones para las covarianzas de orden 1 y 2, dividiendo por γ0 se

obtiene

Elkin Castaño –Guillermo Pérez 17

ρ1=α1+α2ρ1

ρ2=α1ρ1+α2

estas dos ecuaciones son denominadas las ecuaciones de ’Yule-Walker’ para un

proceso AR(2). Resolviendo el sistema para ρ1 y ρ2 se obtiene

ρ1=α1α

2

1

− ρ2=

α1α

2

21

−+α2

Para k=3, 4,... se obtiene que

ρk=α1ρk-1+α2ρk-2

Esta es una ecuación en diferencias de segundo orden con los dos primeros valores

dados por los valores anteriores de ρ1 y ρ2. Además los coeficientes de esta ecuación

en diferencia son los coeficientes del proceso AR(2). Por lo tanto las condiciones de

estacionaridad garantizan que el ACF decrece rápidamente hacia cero de manera

exponencial o en ondas sinusoidales.

Ejemplo.

ACF de un AR(2) con α1=0.6 y α2=0.3

Raíces del polinomio en el operador de rezagos

El proceso AR(2) se puede escribir con base en el polinomio A(L) de la siguiente

manera

A(L)xt=εt

donde

A(L)=1-α1L-α2L2

Este polinomio de grado 2 se puede expresar como el producto de dos factores

Elkin Castaño –Guillermo Pérez 18

A(L)= 1-α1L-α2L2=(1-λ1L)(1-λ2L)

De la factorización, la conexión entre los parámetros λ y α es

λ1 + λ2 =α1 λ1 λ2 = -α2

Los valores λ son realmente las raíces del polinomio

λ2 - α1λ - α2 =0

A este polinomio se le denomina la ecuación característica asociada al proceso AR(2).

Las raíces serán:

λ1=2

α4αα 2211 ++

λ2=2

α4αα 2211 +−

La inversa de A(L) puede ser escrita como

A-1(L)= L)λL)(1λ-(1

1

21 −=

Lλ-1c

1

+Lλ1

d

2−

Donde

c=λλ

λ

12

1

−− y d=

λλ

λ

12

2

Por tanto el proceso AR(2) también se puede escribir como

xt= A-1(L)εt =Lλ-1

c

1

εt +Lλ1

d

2−εt

Por analogía con el procesos AR(1) para que xt sea estacionaria se debe dar que

λ1<1 y λ2<1

Estas condiciones son equivalentes a las derivadas anteriormente, es decir, un

proceso AR(2) es estacionario si las raíces de la ecuación λ2-α1λ-α2 =0 son tales que

λ1<1 y λ2<1, o equivalentemente, si α1+α2<1, α2-α1<1 y -1< α2< 1.

Elkin Castaño –Guillermo Pérez 19

Es bueno observar que las raíces λ1 y λ2 pueden ser reales o complejas. En el primer

caso α21 +4α2 ≥ 0 y en el segundo caso α

21 +4α2<0.

Si λ1 y λ2 son complejas, las podemos escribir como el par de números complejos

conjugados

λ1 =h+vi y λ2 =h-vi

donde

h=2α1 v=

2

)α4α( 221 +−

i = - 1− , i2 = -1

En este caso, la solución de la ecuación en diferencias de orden 2 para el

correlograma produce gráficas que son ondas sinusoidales que van convergiendo

rápidamente a cero.

Ejemplo.

ACF de un AR(2) con α1=0.5 y α2= -0.8

Cuando se tienen soluciones complejas se define el módulo de λj como

λj= vh 22 + = -α2, j=1, 2

lo cual indica que para 20 1α< − < es la condición para que el correlograma presente

ondas sinusoidales decrecientes.

En conclusión para que un proceso AR(2) sea estacionario se debe cumplir que

λ1<1 λ2<1

Elkin Castaño –Guillermo Pérez 20

siendo λj el módulo de λj, es decir las raíces de la ecuación característica deben

estar dentro del círculo unidad.

Una forma alternativa es calcular las raíces Z del polinomio

A(Z)=1-α1Z-α2Z2=(1-λ1Z)(1-λ2Z)=0

Las raíces serán

Z1=1/λ1 Z2=1/λ2

Para esta presentación se dice que el proceso es estacionario si las raíces se

encuentran fuera del círculo unidad.

PACF para un proceso AR(2)

Considere el proceso

xt= α1xt-1+ α2xt-2+εt

Entonces, se tiene que

α11=ρ1=α1α

2

1

α22=α2

αkk=0 k≥3

Gráficamente,

PACF de un AR(2)

Elkin Castaño –Guillermo Pérez 21

Es bueno observar que en un proceso AR(2), además del efecto de xt-2 que se

transmite a través de xt-1 sobre xt, existe un efecto directo de xt-2 sobre xt debido a que

xt-2 aparece en la ecuación que determina a xt.

• Para un proceso AR(2) estacionario, se puede probar que el parámetro α2 es el

coeficiente de correlación parcial entre xt y xt-2 dado que xt-1 está fijo o constante,

es decir que

r13.2= 2α =

22α

donde xt es la variable 1, xt-1 variable 2 y xt-2 variable 3.

El proceso AR(p)

El proceso AR(p) se define como

yt = m + α1yt-1 + α2yt-2 +…+ αpyt-p + εt

Este proceso se puede escribir como

yt -α1Lyt + α2L2yt +…+ αpL

pyt = m + εt

(1 - α1L - α2L2 -…- αpL

p) yt = m + εt

A(L) yt = m + εt

donde A(L) = 1 - α1L - α2L2 -…- αpL

p es un polinomio de orden p en potencias de L.

Asumiendo estacionaridad se tiene que

E[yt] = E[yt-1] = E[yt-2] = … = E[yt-2] = µ

de donde

µ = α...αα1

m

p21 −−−−

Si xt = yt - µ entonces el proceso AR(p) tiene la forma

Elkin Castaño –Guillermo Pérez 22

xt = α1xt-1 + α2xt-2+ …+ α2xt-2 + εt

Condición de estacionaridad en un AR(p):

Considere la factorización del polinomio A(L) de AR(p)

A(L) = 1 - α1L - α2L2 -…- αpL

p = (1-λ1L)(1-λ2L)… (1-λpL)

Los valores λ son realmente las raíces del polinomio

λp - α1λp-1 - …- αp-1λ - αp =0

A este polinomio se le denomina la ecuación característica asociada al proceso AR(p).

Un proceso AR(p) es estacionario si las p raíces λj de la ecuación característica son

tales que |λj|<1 para todo j=1,2,..,p, es decir, si la p raíces caen dentro del círculo

unidad.

Alternativamente, se pueden calcular las raíces Z del polinomio

A(Z)=1 - α1Z - α2Z2 - …-αpZ

p = (1-λ1Z)(1-λ2Z)… (1-λpZ)=0

Las raíces serán

Z1=1/λ1 Z2=1/λ2, …, Zj=1/λp,

Por tanto, en este caso el proceso AR(p) es estacionario si las raíces Zj son tales que

su módulo | Zj|>1, o si todas las raíces se encuentran fuera del círculo unidad.

La función de autocorrelación de un AR(p):

Se puede probar que la ACF del proceso está determinada por:

kρ = 1α 1kρ − + 2α 2kρ − +…+ pα k pρ − si k ≥ 1

Esto indica que la ACF sigue una ecuación en diferencias de orden p con un polinomio

A(L) igual al del proceso AR(p). Bajo estacionaridad del proceso, la solución de esta

Elkin Castaño –Guillermo Pérez 23

ecuación produce una ACF que converge hacia cero. Si existen raíces complejas

esta convergencia presenta ondas sinusoidales.

PACF de un AR(p)

αkk=

>≤≠

pk 0

pk 0

donde p

α =pp

α .

Conclusión: En un proceso AR(p), el PACF tiene un corte en el rezago p, por lo

tanto el orden de un AR se escoge de tal forma que αkk ≠0 para k ≤ p, pero αkk = 0

con k>p.

• Es bueno observar que en la práctica no se sabe si el proceso es un AR y tampoco

se conoce p. Es de esperar que si los datos provienen de un AR estacionario

el ACF muestral debe converger a cero pero el PACF debería mostrar un

corte a cero, después del posible valor p.

PROCESOS DE MEDIAS MÓVILES, MA

• Dado el proceso AR(1) estacionario

xt= αxt-1+εt

tenemos que

(1-αL)xt =εt

xt=αL1ε t

−=(1+αL+α2L2+...)εt =εt +αεt-1+α2εt-2...

En este caso se dice que el proceso se ha invertido. xt está representado como

una suma infinita ponderada del ruido blanco y sus valores rezagados. A esta

representación se le denomina un promedio móvil infinito que se denota por

MA(∞).

• En general cualquier proceso AR(p) estacionario se puede representar como una

suma infinita ponderada de un término de perturbación no correlacionado y sus

Elkin Castaño –Guillermo Pérez 24

rezagos (descomposición de Wold, 1938). En la práctica es importante conocer las

propiedades de los procesos MA.

Procesos MA(q) finitos

• Un proceso MA(q) se define como

yt=µ+εt-β1εt-1-β2εt-1 - ... -βqεt-q

donde εt es un proceso de ruido blanco. Es fácil ver que

E[yt]= µ

γ0=var(yt)= σ2ε (1+β

21 + ... + β

2q )

En general todo proceso MA finito es estacionario. Para simplificar se trabajará

con el modelo en desviaciones.

• El proceso MA(1)

Un proceso MA(1) sigue la especificación

xt = εt - β1εt-1

Para este proceso:

E[xt] = 0

var(xt) = γ0 = σ2ε (1+β

21 )

Autocovarianzas:

γ1 = E[xtxt-1] = - β1σ2ε

γ2 = ... = γk = 0

Autocorrelaciones:

ρ1 = β1

β21

1

+

ρk = 0 K>1

Elkin Castaño –Guillermo Pérez 25

El ACF de un MA(1) tiene un corte en k=1. En este caso se dice que tiene memoria de

un período. También se puede probar que |ρ1|<0.5.

ACF de un MA con β1=0.7

ACF de un MA con β1=-0.7

Ahora un proceso MA(1) puede ser invertido y expresado por lo tanto como un AR(∞).

Como

xt = εt - β1εt-1 = (1-β1L)εt

se tiene que

εt =Lβ-1

x

1

t = xt +β1 xt-1 + β21 xt-2 + ...

Luego

xt =-β1 xt-1 - β21 xt-2

... + εt ~ AR(∞)

Elkin Castaño –Guillermo Pérez 26

El proceso de inversión tiene sentido si |β1|<1. En este caso se habla de condiciones

de invertibilidad. Como un MA(1) invertible es un AR(∞) entonces el PACF no tiene

corte, sino que converge a cero.

El Proceso MA(2)

Un proceso MA(2) está definido por

xt = εt - β1εt-1 - β2εt-2

o, en términos del operador de rezagos,

xt = (1 - β1L - β2L2)εt

o,

xt = B(L)εt

donde B(L) = 1 - β1L - β2L2, es el polinomio del proceso MA(2).

Es fácil verificar que

E[xt] = 0

var(xt) = γ0 = σ2ε (1+β

21 +β

22 )

Autocovarianzas

γ1 = E[xtxt-1] = -σ2ε (β1 - β1β2)

γ2 = -β2σ2ε

γk = 0 k≥3

Autocorrelaciones

ρ1 = 1 1 22 21 2

( )β β β

1 β β

− −+ +

ρ2 =ββ1

β22

21

2

++

ρk = 0 k≥3

ACF de un MA(2)

Elkin Castaño –Guillermo Pérez 27

Para que un proceso MA(2) sea invertible se deben cumplir condiciones similares a las

que debe tener un proceso AR(2) para que sea estacionario. Luego un MA(2) será

invertible si

β1+β2<1 β2-β1<1 -1< β2< 1

Equivalentemente, se puede probar que el proceso MA(2) es invertible si las raíces de

la ecuación característica λ2 - β1λ - β2 =0 asociada al polinomio del MA(2) tiene sus dos

raíces dentro del círculo unidad. O, alternativamente, si las raíces Z de la ecuación

B(Z)=1 - β1Z - β2Z2=0 caen fuera del círculo unidad.

Como un MA(2) es un AR(∞) el PACF de un MA(2) no tiene corte, sino que converge a

cero.

En general, en un proceso MA(q) el ACF tiene corte en q, el PACF no tiene corte

pero si converge a cero.

EL PROCESO MIXTO ARMA

• Un proceso ARMA(p, q) se define como

yt=m+α1yt-1+α2yt-2+ ... +αpyt-p+εt-β1εt-1-β2εt-2- ... -βqεt-q

A(L)yt =m+B(L)εt

donde

A(L)=1-α1L-α2L2 - ... -αpL

p y B(L)=1-β1L-β2L2 - ... -βqL

q

Bajo las condiciones de estacionaridad se tiene que

Elkin Castaño –Guillermo Pérez 28

E[yt] = ααα-1

m

p21 −−− � = µ

Luego

m = µ(1-α1-α2 - ... -αp)

Si xt = yt - µ se tiene que

xt=α1xt-1+α2xt-2+ ... +αpxt-p+εt - β1εt-1 - β2εt-2 - ... - βqεt-q

de donde

A(L)xt =B(L)εt

Las condiciones de estacionaridad requieren que las raíces de A(L)=0 se encuentren

fuera del círculo unidad ó de manera equivalente, que las raíces de la ecuación

característica se encuentran dentro del círculo unidad. Para que el proceso sea

invertible las raíces de B(L) deben cumplir la condición anterior. Bajo estas dos

condiciones un ARMA(p, q) se puede representar como un AR(∞) o un MA(∞), es decir

xt = A-1(L)B(L)εt es la representación MA(∞)

B-1(L)A(L)xt =εt es la representación AR(∞)

El proceso ARMA(1,1)

Un proceso ARMA(1,1) está dado por

xt=αxt-1+εt - βεt-1

(1-αL)xt =(1-βL)εt

Condiciones de estacionaridad: |α|<1 ó 1/|α|>1

Condiciones de invertibilidad : |β|<1 ó 1/|β|>1

Se puede probar que

γ0 = α-1

)β2α-(1σ2

22ε +β

|α| <1

Elkin Castaño –Guillermo Pérez 29

γ1 = α-1

)-β)(1-(ασ2

2ε αβ

γ2 = αγ1

γ3 = αγ2 = α2γ1

.

.

.

γK = αγk-1 = αk-1γ1

Luego el ACF de un ARMA(1,1) está dado por

ρ1 = 2

(α-β)(1-αβ)1-2αβ+β

ρk = αρk-1 = αk-1ρ1 k=2, 3, ..., k

Dado que un ARMA(1,1) es una combinación de un AR(1) y un MA(1) la ACF debe

exhibir ambos procesos. La contribución del MA(1) es fundamentalmente para ρ1

debido a que tiene memoria de un período. A partir de 2 la ACF declina

exponencialmente de acuerdo al proceso AR.

La PACF tampoco tiene corte pero si tiene convergencia a cero.

En general para un ARMA(p, q) se observa que la ACF tiene un comportamiento

irregular en las primeras q autocorrelaciones y después converge hacia cero de

acuerdo al proceso AR(p). La PACF tiene un comportamiento irregular en las primeras

p autocorrelaciones parciales y después convergencia hacia cero de acuerdo al

proceso MA(q).

Los comportamientos de la ACF y la PACF para los modelos ARMA se resumen en la

siguiente tabla

Elkin Castaño –Guillermo Pérez 30

ACF

PACF

AR(p) Convergencia a cero Corte después del rezago p.

MA(q) Corte después del rezago q Convergencia a cero

ARMA(p,q) Convergencia a cero Convergencia a cero

Identificación de los modelos de series de tiempo.

El estudio de los comportamientos de las ACF y PACF teóricas de los modelos AR,

MA y ARMA, es la base para la identificación del modelo generador de los datos de

una serie de tiempo observada.

Identificación de un proceso de ruido blanco. El caso más elemental de una serie

de tiempo estacionaria es el ruido blanco. Para este proceso se tiene que ρk=0 para

todo k, es decir, su ACF es nula.

Ahora, es de esperar que en la ACF muestral de un proceso que es ruido blanco, las

autocorrelaciones muestrales sean estadísticamente cero para todo k. La significancia

de las autocorrelaciones muestrales es usualmente verificada con base en la siguiente

propiedad: Si y1, y2, ...., yn provienen de una serie que es ruido blanco entonces rk ~a

N(0, 1/n). Para probar

HO: ρk=0

H1: ρk≠0

Defina el estadístico de prueba

tk=1/nrk = rn k ~

aN(0,1)

Para α=0.05 se tiene que

H0 se rechaza si rn k ≥2 o si rk≥ n/2

Ejemplo.

El correlograma muestral de una serie de tiempo está dado por

Elkin Castaño –Guillermo Pérez 31

Las bandas indican que los rk< n/2 . Se concluye que el proceso que generó los

datos de la serie parece ser un proceso de ruido blanco.

Identificación de un proceso MA(q). Si el proceso que generó la serie es un proceso

MA puro, teóricamente la ACF debe tener un corte desde el rezago q+1 y la PACF

decrece hacia cero. El correlograma muestral nos ayuda a identificar el posible orden q

del proceso ya que si el MA fuera de orden q, las autocorrelaciones de orden k con

k>q no serían significativamente distintas de cero.

Para un proceso MA(q), se ha probado que para k>q se tiene que

rk ~a

N(0, var(rk))

donde

var(rk)

q2j

j=11+2 r

n

∑≈ k>q

Es bueno observar que, es usual aproximar a var(rk) por 1/n.

Ejemplo.

El correlograma muestral de una serie de tiempo está dado por

Elkin Castaño –Guillermo Pérez 32

Se observa que la PACF decrece hacia cero y que la PACF se anula estadísticamente

a partir de k=2. Por tanto el proceso que generó los datos parece ser un MA(1).

Identificación de un modelo AR(p). Si el proceso es un AR(p), teóricamente su ACF

decrece hacia cero y su PACF tiene un corte a partir del rezago p+1. Una herramienta

gráfica que puede facilitar la identificación del orden p de un AR puro es la PACF

muestral.

De nuevo es importante desarrollar las pruebas de hipótesis

HO: αkk = 0

H1: αkk ≠ 0

Para un proceso AR(p) se prueba que, para k>p, α kk ~a

N(0, 1/n).

Por lo tanto si se piensa que la muestra proviene de un AR, Ho se rechazaría a un

nivel de significación del 5%, si αn kk ≥2 o si α kk ≥ n/2 . Si αkk no es

significativo más allá del rezago p entonces se puede pensar que la serie proviene de

un AR(p).

Ejemplo.

El correlograma muestral de una serie de tiempo está dado por

Elkin Castaño –Guillermo Pérez 33

Se observa que la ACF decrece hacia cero y que la PACF se anula estadísticamente

desde el rezago k=2. . Por tanto el proceso que generó los datos parece ser un AR(1).

Identificación de un modelo ARMA(p,q).

Si el proceso es un ARMA(p,q), teóricamente tanto su ACF como su PACF decrecen

hacia cero. Sin embargo, en general no es fácil seleccionar los órdenes p y q con base

en el ACF y el PACF muestral debido a que las propiedades anteriores ya no son

válidas. Una recomendación para esta situación es estimar un conjunto de modelos

(modelos ARMA con bajos órdenes p y q), de estos, seleccionar los que se pueden

validar (con base en pruebas de diagnóstico) y por último, con base en criterios de

selección de modelos escoger el mejor.

Ejemplo.

El correlograma muestral de una serie de tiempo está dado por

Elkin Castaño –Guillermo Pérez 34

Se observa que tanto la ACF como la PACF parecen converger hacia cero.

Esto conduce a pensar que el modelo generador de los datos es un ARMA. Sin

embargo, sus órdenes no pueden ser derivados de la ACF y PACF. En la

práctica se proponen diferentes órdenes p y q (generalmente bajos) y se

estiman los modelos. Se elige el mejor modelo (validado) con base en criterios

de información.

EJERCICIOS DE SIMULACIÓN Series estacionarias Autorregresivas Simulación de un proceso AR(1) Macro en EVIEWS: 'creación de un archivo de trabajo workfile u 1 2050 'asignación de la semilla para la generación de los números aleatorios normales 'rndseed 8931 'simulación de un AR(1) estacionario con m=5, alfa=0.7 '----------------------------------------------------------------------------------------------------------- 'asignación de los parámetros del proceso 'para simular diferentes AR(1) basta cambiar los siguientes valores. 'observe que un proceso de ruido blanco se obtiene cuando alfa=0. scalar m=5 scalar alfa=0.7 scalar desv=2 'generación del término de error normal(0,4) genr e= desv*nrnd 'generación inicial con ceros de la serie que va a contener los datos del AR(1)

Elkin Castaño –Guillermo Pérez 35

genr y1=0 'generación del valor inicial: se asigna la media del proceso mu=m/(1-alfa) smpl @first @first y1=m/(1-alfa) 'generación de los valorres restantes smpl @first+1 @last genr y1=m+alfa*y1(-1)+e smpl @all 'para observar el efecto del tamaño muestral sobre la ACF y PACF muestrales cambie el valor de n1. 'también se eliminan los primeros 50 primeros valores para evitar la influencia de los valores inicilaes en la simulación scalar n1=1750 smpl @first+50+n1 @last 'gráfica de la serie simulada line y1 'Cálculo de los estadísticos descrptivos freeze y1.stats 'Cálculo de las ACF y PACF muestrales y1.correl(15) Resultados:

8

12

16

20

24

28

75 00 25 50 75 00 25 50 75 00

Y1

Sample: 1751 2000 Y1

Mean 16.57699 Median 16.41018 Maximum 24.81734 Minimum 10.95989 Std. Dev. 2.555810 Skewness 0.139166 Kurtosis 2.702382 Jarque-Bera 1.729642

Elkin Castaño –Guillermo Pérez 36

Probability 0.421127 Sum 4144.247 Sum Sq. Dev. 1626.509 Observations 250

Simulación de un AR(2) Macro en EViews 'creación de un archivo de trabajo workfile u 1 2050 'asignación de la semilla para la generación de los números aleatorios normales 'rndseed 8931 'simulación de un AR(2) estacionario con m=5, alfa1=0.5, alfa2=0.3 '----------------------------------------------------------------------------------------------------------- 'asignación de los parámetros del proceso 'para simular diferentes AR(2) basta cambiar los siguientes valores. scalar m=5 scalar alfa1=0.5 scalar alfa2=0.3 scalar desv=2 'generación del término de error normal(0,4) genr e= desv*nrnd 'generación inicial con ceros de la serie que va a contener los datos del AR(1) genr y2=0 'generación del valor inicial: se asigna la media del proceso mu=m/(1-alfa) smpl @first @first+1 y2=m/(1-alfa1-alfa2) 'generación de los valorres restantes smpl @first+2 @last genr y2=m+alfa1*y2(-1)+alfa2*y2(-2)+e smpl @all 'para observar el efecto del tamaño muestral sobre la ACF y PACF muestrales cambie el valor de n1.

Elkin Castaño –Guillermo Pérez 37

'también se eliminan los primeros 50 primeros valores para evitar la influencia de los valores iniciales en la simulación scalar n1=1750 smpl @first+50+n1 @last 'gráfica de la serie simulada line y2 'Cálculo de los estadísticos descriptivos freeze y2.stats 'Cálculo de las ACF y PACF muestrales y2.correl(15) Resultados:

16

18

20

22

24

26

28

30

32

34

75 00 25 50 75 00 25 50 75 00

Y2

Sample: 1751 2000 Y2

Mean 24.90203 Median 24.51606 Maximum 34.24438 Minimum 16.77101 Std. Dev. 3.295266 Skewness 0.184754 Kurtosis 2.670591 Jarque-Bera 2.552575 Probability 0.279071 Sum 6225.507 Sum Sq. Dev. 2703.836 Observations 250

Elkin Castaño –Guillermo Pérez 38

Simulación de procesos MA(q) invertibles Simulación de un proceso MA(1) Macro en EViews 'creación de un archivo de trabajo workfile u 1 2050 'asignación de la semilla para la generación de los números aleatorios normales 'rndseed 8931 'simulación de un MA(1) estacionario con m=5, beta=0.7 '----------------------------------------------------------------------------------------------------------- 'asignación de los parámetros del proceso 'para simular diferentes MA(1) basta cambiar los siguientes valores. 'observe que un proceso de ruido blanco se obtiene cuando beta=0. scalar m=5 scalar beta=-0.7 scalar desv=2 'generación del término de error normal(0,desv^2) genr e= desv*nrnd 'generación de los valores de la serie. El primer valor no está definido genr y1=m+e+beta*e(-1) 'para observar el efecto del tamaño muestral sobre la ACF y PACF muestrales cambie el valor de n1. 'también se eliminan los primeros 50 primeros valores para evitar la influencia de los valores iniciales en la simulación scalar n1=1750 smpl @first+50+n1 @last 'gráfica de la serie simulada line y1 'Cálculo de los estadísticos descriptivos freeze y1.stats 'Cálculo de las ACF y PACF muestrales y1.correl(15)

Elkin Castaño –Guillermo Pérez 39

Resultados:

-2

0

2

4

6

8

10

12

1800 1850 1900 1950 2000

Y1

Sample: 1751 2000 Y1

Mean 5.051787 Median 5.242392 Maximum 11.03352 Minimum -0.898052 Std. Dev. 2.467722 Skewness -0.043227 Kurtosis 2.276032 Jarque-Bera 5.537538 Probability 0.062739 Sum 1262.947 Sum Sq. Dev. 1516.324 Observations 250

Elkin Castaño –Guillermo Pérez 40

Simulación de un proceso MA(2) Macro en Eviews 'creación de un archivo de trabajo workfile u 1 2050 'asignación de la semilla para la generación de los números aleatorios normales 'rndseed 8931 'simulación de un MA(2) estacionario con m=5, beta1=-0.5, beta2=-.3 '----------------------------------------------------------------------------------------------------------- 'asignación de los parámetros del proceso 'para simular diferentes AR(2) basta cambiar los siguientes valores. scalar m=5 scalar beta1=-0.5 scalar beta2=-0.3 scalar desv=2 'generación del término de error normal(0,4) genr e= desv*nrnd 'generación de los valores de la serie. Los dos primeros valores no están definidos genr y2=m+e+beta1*e(-1)+beta2*e(-2) 'para observar el efecto del tamaño muestral sobre la ACF y PACF muestrales cambie el valor de n1. 'también se eliminan los primeros 50 primeros valores para evitar la influencia de los valores iniciales en la simulación scalar n1=1750 smpl @first+50+n1 @last 'gráfica de la serie simulada line y2 'Cálculo de los estadísticos descriptivos freeze y2.stats 'Cálculo de las ACF y PACF muestrales y2.correl(15)

Elkin Castaño –Guillermo Pérez 41

Resultados:

-4

-2

0

2

4

6

8

10

12

1800 1850 1900 1950 2000

Y2

Sample: 1751 2000 Y2

Mean 4.964349 Median 5.028957 Maximum 11.55599 Minimum -2.198414 Std. Dev. 2.486284 Skewness -0.017241 Kurtosis 2.995421 Jarque-Bera 0.012604 Probability 0.993718 Sum 1241.087 Sum Sq. Dev. 1539.221 Observations 250

Elkin Castaño –Guillermo Pérez 42

Simulación de procesos ARMA(p,q) estacionarios e invertibles Simulación de un proceso ARMA(1,1) Macro en EViews 'creación de un archivo de trabajo workfile u 1 2050 'asignación de la semilla para la generación de los números aleatorios normales 'rndseed 8931 'simulación de un ARMA(1,1) estacionario con m=5, alfa=0.8 beta=-0.7 '----------------------------------------------------------------------------------------------------------- 'asignación de los parámetros del proceso 'para simular diferentes ARMA(1,1) basta cambiar los siguientes valores. 'observe que un proceso de ruido blanco se obtiene cuando alfa=0 y beta=0. scalar m=5 scalar alfa=0.7 scalar beta=-0.5 scalar desv=2 'generación del término de error normal(0,4) genr e= desv*nrnd 'generación inicial con ceros de la serie que va a contener los datos del ARMA(1,1) genr y1=0 'generación del valor inicial: se asigna la media del proceso mu=m/(1-alfa) smpl @first @first y1=m/(1-alfa) 'generación de los valorres restantes smpl @first+1 @last genr y1=m+alfa*y1(-1)+e+beta*e(-1) smpl @all 'para observar el efecto del tamaño muestral sobre la ACF y PACF muestrales cambie el valor de n1. 'también se eliminan los primeros 50 primeros valores para evitar la influencia de los valores iniciales en la simulación scalar n1=1750 smpl @first+50+n1 @last

Elkin Castaño –Guillermo Pérez 43

'gráfica de la serie simulada line y1 'Cálculo de los estadísticos descriptivos freeze y1.stats 'Cálculo de las ACF y PACF muestrales y1.correl(15) Resultados:

8

10

12

14

16

18

20

22

24

1850 1900 1950 2000 2050

Y1

Sample: 1801 2050 Y1

Mean 16.75472 Median 16.61422 Maximum 22.22004 Minimum 9.971558 Std. Dev. 2.183833 Skewness -0.064173 Kurtosis 3.080570 Jarque-Bera 0.239208 Probability 0.887272 Sum 4188.679 Sum Sq. Dev. 1187.512 Observations 250

Elkin Castaño –Guillermo Pérez 44

PRUEBAS DE ESTACIONARIDAD

Antes de proceder a calcular la media, la varianza y las funciones de autocovarianzas

y autocorrelación se debe verificar si la serie es estacionaria.

Dada una serie de tiempo y1, y2, ..., yn , tradicionalmente, existen dos métodos para

detectar si una serie es estacionaria o no:

• Un juicio subjetivo basado en el análisis gráfico de la serie y de su correlograma

muestral (ACF muestral).

• El empleo de pruebas estadísticas formales sobre la existencia de raíces unitarias

en la serie.

Análisis subjetivo.

Análisis de la gráfica de la serie.

Este análisis muestra como evoluciona la serie en el tiempo. A un nivel intuitivo

podemos pensar que la serie es estacionaria si está oscilando alrededor de su ‘’valor

medio’’ y si se observa estabilidad en la varianza. Es bueno tener en cuenta que esta

inspección visual puede no ser muy clara en muchos casos.

Elkin Castaño –Guillermo Pérez 45

Gráfica de un proceso estacionario

-20

-10

0

10

20

30

40

50

1850 1900 1950 2000

El uso del correlograma muestral.

Una herramienta gráfica más poderosa es el correlograma muestral. Teóricamente,

para una serie estacionaria la función de autocorrelación converge rápidamente hacia

cero. Como los rk son los estimadores de ρk, si una serie es estacionaria, el

correlograma muestral también debe converger rápidamente a cero.

Para ilustrar el uso del correlograma se construyeron 5 series artificiales (simuladas)

definidas a continuación.

Las series fueron generadas siguiendo los parámetros indicados. Y1 es un proceso

AR(1), Y2 es un proceso no estacionario llamado paseo aleatorio con deriva (observe

que el polinomio AR tiene una raíz unitaria, es decir, L=1), Y3 es un proceso no

estacionario AR(1) llamado explosivo y Y4 es la suma de una tendencia lineal en el

tiempo y un proceso AR(1) estacionario. Para cada una de estos modelos se

generaron series de 200 observaciones de las cuales se descartaron las primeras 100.

La serie Y5 es otro ejemplo de paseo aleatorio con deriva con un conjunto diferente

de parámetros.

Elkin Castaño –Guillermo Pérez 46

El correlograma para Y1 se presenta en la siguiente tabla.

Este correlograma muestra el típico comportamiento de un AR(1) estacionario, donde

la ACF decae rápidamente hacia cero y la PACF exhibe y la primera correlación

parcial es la única que es significativamente diferente de cero.

Para la serie no estacionaria Y2, ACF y PACF muestrales pueden ser calculadas

aunque sus contrapartes poblacionales (teóricas) no existen. La siguiente tabla

presenta los resultados para la serie Y2.

Elkin Castaño –Guillermo Pérez 47

Se observa que la ACF muestral decrece pero no tan rápido como en el AR(1)

estacionario. Sin embargo, el patrón de comportamiento no es muy diferente del de

Y1, debido a que su parámetro está muy cerca de 1. Esto indica que mientras más

cerca esté α a 1 por la izquierda (o, equivalentemente, más cerca de uno se encuentre

el módulo de la raíz del polinomio AR) más difícil es distinguir entre un AR(1)

estacionario y un proceso no estacionario de paseo aleatorio.

El correlograma muestral para la serie explosiva se presenta en la siguiente gráfica y

se observa que es muy similar al de Y2. Sin embargo, el correlograma parcial

muestral es distinto en el sentido de que todas las autocorrelaciones parciales son

cero, excepto la primera.

Elkin Castaño –Guillermo Pérez 48

Recuerde que la primera diferencia de una serie es 11t t t tY ( L )Y Y Y −∆ = − = − . Observe

que para Y2 su primera diferencia 2tY∆ =1+ tε , es decir es un proceso de ruido blanco,

el cual es un proceso estacionario. Si se denota la primera diferencia como DY2, la

siguiente gráfica presenta su correlograma muestral, el cual corresponde al de un

ruido blanco.

Elkin Castaño –Guillermo Pérez 49

Sin embargo, si se hace la primera diferencia de la serie explosiva Y3, no se obtiene

un proceso estacionario.

La siguiente gráfica muestra que el correlograma muestral de la serie diferenciada es

similar al de la serie sin diferenciar. Esta es la distinción que hay entre la serie no

estacionaria Y2 y la serie explosiva Y3: una serie no estacionaria como Y2 puede ser

transformada a estacionaria por medio de diferenciación, mientras que una serie

explosiva no.

SERIES INTEGRADAS Una serie de tiempo no estacionaria que para ser transformada en una estacionaria

se debe diferenciar, se le denomina serie integrada (o serie no estacionaria

homogénea).

El orden de integración es el mínimo número de veces que la serie debe ser

diferenciada para que alcance la estacionaridad. En este caso se dice que la serie es

un proceso autorregresivo y de medias móviles integrado. Este proceso se denota por

ARIMA(p, d, q), donde d es el orden de integración. Su especificación es

Elkin Castaño –Guillermo Pérez 50

A(L)(1-L)dyt =m+B(L)εt

Si la serie es estacionaria entonces d=0 y se dice que la serie es de orden de

integración 0 y se denota como I(0). Si la serie yt no es estacionaria pero si lo es ∆yt,

entonces d=1, entonces se dice que la serie es de orden de integración 1 y se denota

como I(1). Ahora una serie yt no estacionaria será I(2) si la serie ∆yt sigue siendo no

estacionaria, pero la serie ∆2yt =yt-2yt-1+yt-2 es estacionaria.

En el trabajo con datos económicos, generalmente las series son máximo de orden 2 y

generalmente son de orden 1. Es bueno observar que si una serie es estacionaria su

diferenciación (sobrediferenciación), sigue siendo estacionaria. Por ejemplo, un

proceso de ruido blanco es el ejemplo más simple de una serie estacionaria. Su

primera diferencia sigue siendo estacionaria y corresponde a un modelo MA(1) no

invertible. En efecto, si yt = m + εt, entonces ∆yt = εt - εt-1, es decir, el polinomio MA

contiene una raíz unitaria cuyo módulo (valor absoluto) es 1.

SERIES ESTACIONARIAS EN TENDENCIA (TS) y SERIES ESTACIONARIAS EN

DIFERENCIA (DS)

La serie Y4 es un ejemplo simple de una serie estacionaria en tendencia. Esta serie

puede ser escrita como:

yt = δ0 + δ1t + ut, ut = αut-1 + εt

o

yt = [δ0(1-α) + αδ1] + δ1(1-α)t + αyt-1 + εt

donde εt es un proceso de ruido blanco y α<1. En la siguiente gráfica se observa

que la serie Y4 fluctúa alrededor de la recta de tendencia y además la amplitud de las

fluctuaciones no aumentan ni tampoco disminuyen. Por esta razón se dice que la serie

es estacionaria en tendencia (TS). El modelo de tendencia en este caso es 10+0.5t y

aparece denotado en la gráfica como Y4HAT. Los incrementos constantes producen

una serie no estacionaria. Sin embargo, su primera diferencia es estacionaria y es de

la forma

∆ yt = δ1+ ∆ ut

donde ∆ ut es estacionaria, puesto que ut es estacionaria.

Elkin Castaño –Guillermo Pérez 51

Observe que ut es un ARMA(1,0) y que (1-αL) ∆ ut= (1-L)εt es un ARMA(1,1) no

invertible, puesto que contiene una raíz unitaria en su polinomio MA. Debido a este

problema, la diferenciación no es la forma correcta de estacionarizar este tipo de

proceso. Observe que la serie puede ser estacionarizada restando la tendencia a la

serie original puesto que

zt = yt - δ0 - δ1t = ut, ut = αut-1+εt

genera un proceso que es estacionario e invertible.

Si α=1, se tiene la serie Y5, la cual se puede escribir como

yt = δ0 + δ1t + ut, ut = ut-1 + εt

o

yt = δ1+ yt-1+ εt

En este caso las desviaciones de la tendencia, son no estacionarias debido a que ut es

un paseo aleatorio (existe una raíz unitaria en el polinomio autorregresivo). Se observa

que las desviaciones tienden a alejarse de la línea de tendencia. Para este caso la

primera diferencia toma la forma

∆yt=δ1+εt

Elkin Castaño –Guillermo Pérez 52

la cual es una serie estacionaria. En este caso se dice que la variable yt es

estacionaria en diferencias (DS).

Es importante analizar cuál es la verdadera diferencia entre los modelos TS y DS, los

cuales aparentemente son muy similares, pero que de hecho hay una importante

distinción. Si denominamos a ε como la innovación o choque (shock) aleatorio, se

puede probar que en el caso de una serie TS la innovación tiene un efecto transitorio

sobre yt, es decir, su efecto va disminuyendo con el tiempo, mientras que si la serie es

DS su efecto es permanente, es decir, nunca desaparece (es persistente).

Considere el caso de una serie TS. Entonces ut mide la desviación de la serie de la

línea de tendencia en el período t. Examinemos el efecto de una innovación εt sobre

las desviaciones actuales y futuras de la serie. Del modelo ut = αut-1 + εt, restando a

ambos lados ut-1 se obtiene

∆ut = εt + (α-1)ut-1 = εt + (α-1)(εt-1 + αεt-2 + α2εt-3 + …)

Sea εt el valor de la innovación en el instante t. Se quiere investigar cuál es efecto de εt

desde el período t hacia adelante, suponiendo que εt+1 = εt+2 =...= 0. En la expresión

anterior y en las siguientes no se tendrá en cuenta el término ut-1, el cual para este

análisis se puede considerar como constante. Por lo tanto

∆ut=εt

∆ut+1=(α-1)εt

∆ut+2=α(α-1)εt

.

.

.

∆ut+s=αs-1(α-1)εt

Sumando los términos anteriores se obtiene,

∑=

+

s

0jjtu∆ = εt [1+(α-1)

αα

−−

11 s

]= αsεt

Ahora, es fácil ver que

Elkin Castaño –Guillermo Pérez 53

ut+s=ut-1+∆ut+∆ut+1+ ... +∆ut+s

de donde,

∑=

+

s

0jjtu∆ = ut+s- ut-1

Por lo tanto

ut+s= ut-1+αsεt

De esta forma, en un modelo TS el efecto de la innovación εt sobre las desviaciones

de la tendencia disminuyen hacia cero, siempre y cuando α<1, a medida que nos

alejamos en el horizonte (s crece).

Para el caso de una serie DS, en la cual α=1, se tendría que ∆ut=εt y en este caso

ut+s=ut-1+ εt

Luego εt tiene un efecto permanente sobre las desviaciones sucesivas de la tendencia.

Los resultados anteriores se pueden obtener de una forma más simple, expresando a

ut en términos de las innovaciones

ut = εt + αεt-1 + α2εt-2+…

y por lo tanto

ε

u

t

st

∂∂ + =αs

De esta ecuación se obtienen los resultados anteriores de de acuerdo a si |α|<1 o si

α=1.

La comparación entre series TS y DS ha sido desarrollada en términos de modelos

con una especificación muy simple. Estas situaciones pueden ser analizadas para

procesos más complejos. De manera general, podemos tener modelos de la forma

yt - δ0 - δ1t = ut, donde A(L)ut = B(L)εt

donde A(L) y B(L) son polinomios de orden p y q en el operador rezago. Cuando todas

las raíces del polinomio A(L) se encuentran fuera del circulo unidad, las desviaciones

Elkin Castaño –Guillermo Pérez 54

de la tendencia seguirán un proceso estacionario ARMA(p, q). Ahora si A(L) contiene

una raíz unitaria el resultado es un modelo DS. En este caso

A(L) = (1 - L)(1 - λ2L)(1 - λ3L)...(1 - λpL) = (1 - L)A*(L)

donde las p-1 raíces de A*(L) se encuentran fuera del circulo unidad. Entonces el

modelo se puede escribir como

A*(L)( ∆yt - δ1) = B(L)εt

así que la primera diferencia de la serie puede ser modelada por un proceso

estacionario ARMA(p-1, q).

Las siguientes tablas contienen los correlogramas para las primeras diferencias DY4 y

DY5.

Elkin Castaño –Guillermo Pérez 55

Los correlogramas anteriores proporcionan un fuerte soporte de que las series son

estacionarias.

Sin embargo, anteriormente vimos que DY4 es un proceso ARMA(1,1) y a primera

vista parece sorprendente que ni las autocorrelaciones de bajo orden son

significativas. Esto se debe al siguiente hecho: antes se probó que

1 2

1

1 2

( - )( - )

-

α β αβραβ β

=+

Cuando α y β están numéricamente cercanos, la primera y las siguientes

autocorrelaciones estarán cerca a cero. Este es el caso de DY4 donde α =0.9 y β =1.

Esto significa que si en un proceso ARMA(1,1) α ≈ β ( o, equivalentemente, las

raíces de sus correspondientes polinomios A(L) y B(L) son muy similares), la

identificación del proceso a través de la ACF y PACF no es posible. Este resultado se

puede extender a modelos ARMA(p, q).

Al analizar los correlogramas muestrales de DY4 y DY5 observamos que no muestran

diferencias en el comportamiento entre un proceso TS y un proceso DS.

Elkin Castaño –Guillermo Pérez 56

Para tratar de solucionar este problema se han propuesto las pruebas de raíces

unitarias. Estas pruebas, sin embargo, también tienen baja potencia para distinguir

estos procesos.

PRUEBAS DE RAÍCES UNITARIAS

Considere el modelo AR(1) con tendencia lineal

yt=δ0+δ1t+ut, ut=αut-1+εt

o, equivalentemente

yt=[δ0(1-α)+αδ1]+ δ1(1-α)t+αyt-1+εt

Para tratar de diferenciar entre una serie TS y una DS se desarrolla la prueba de la

hipótesis

HO: α=1

H1: α<1

Si no se rechaza HO entonces el proceso tiene raíz unitaria y por lo tanto es no

estacionario. En este caso se tendría un proceso DS. Bajo H1 el proceso sería

estacionario en tendencia (TS).

Debido a que bajo HO el modelo es no estacionario, sus parámetros no se pueden

estimar directamente, la prueba propone transformar el modelo original

yt = [δ0(1 - α) + αδ1] + δ1(1 - α)t + αyt-1 + εt

restando yt-1 a ambos lados de la igualdad y agrupando términos, como:

∆yt = [δ0(1 - α) + αδ1] + δ1(1 - α)t + γyt-1 + εt

donde γ = α-1.

En términos de este nuevo modelo, las hipótesis anteriores serán de forma

HO: γ = 0 (La serie no es estacionaria)

Elkin Castaño –Guillermo Pérez 57

H1: γ < 0 (La serie es estacionaria)

Si γ = 0, lo que equivale que a que α = 1, hay una raíz unitaria y la serie no es

estacionaria. Si γ < 0, lo que equivale que a que α<1, la serie es estacionaria. Se

observa que bajo HO este modelo es estacionario para ∆yt y sus parámetros pueden

ser estimados usando mínimos cuadrados.

El procedimiento para realizar la prueba es el siguiente.

Se ajusta por OLS el modelo ∆yt = 0β + 1β t + γyt-1 + εt.

Observe que 0β = δ0(1 - α) + αδ1 y 1β = δ1(1 - α) .

Se define el estadístico de prueba como

τt =)ˆSE(

ˆ

γγ

donde )ˆSE(γ es el error estándar del estimador γ .

Este estadístico no sigue la distribución ‘’t’’, ni es asintóticamente N(0,1), ya que bajo

la hipótesis nula el proceso yt no es estacionario, puesto que el modelo se reduce a

∆yt = δ1 + εt

el cual es un paseo aleatorio con deriva. En estos casos se dice que la distribución del

estadístico τt no es estándar.

El problema de la inferencia fue resuelto por Dickey y Fuller en 1979, quienes

obtuvieron la distribución límite del estadístico anterior, para varios casos importantes.

Las distribuciones fueron obtenidas empíricamente por Dickey. Estas pruebas son

conocidas como las pruebas de Dickey-Fuller.

Posteriormente Mackinnon (1991) revisa y recalcula los números críticos de las tablas

originales de Dickey–Fuller para cualquier tamaño muestral y diferentes

especificaciones de las regresiones.

La prueba anterior intenta discriminar entre los modelos que generan las series Y4 y

Y5. Es importante también discriminar entre modelos que generan las series Y1 y Y2,

Elkin Castaño –Guillermo Pérez 58

88888donde no hay tendencia lineal. En este caso se tiene que δ1=0. El procedimiento

puede ser derivado como antes haciendo δ1=0. Esto proporciona la ecuación

yt=δ0(1-α)+αyt-1+εt

y el modelo equivalente es

∆yt=δ0(1-α)+γyt-1+εt

Bajo la hipótesis nula, esta ecuación se reduce a

∆yt=εt

de manera que la serie yt es no estacionaria y corresponde a un paseo aleatorio sin

deriva.

Finalmente, también es posible que δ0=0. En este caso se tendría que

yt=αyt-1+εt

y el modelo equivalente es

∆yt=γyt-1+εt

Bajo la hipótesis nula, el modelo anterior también se reduce a

∆yt=εt

Como antes, para los dos casos anteriores el contraste de interés será:

HO: γ=0

H1: γ<0

Para estas dos situaciones es usual hablar de los estadísticos τµ y τ respectivamente.

De nuevo la inferencia clásica no es válida. Pero Dickey–Fuller construyen las tablas

para poder realizar esta prueba de hipótesis. Es bueno observar que cada una de las

tres situaciones, dependiendo también del tamaño de la muestra, tienen sus propios

valores críticos. Un software como el EViews entrega los respectivos valores críticos.

Elkin Castaño –Guillermo Pérez 59

La prueba aumentada de Dickey-Fuller. Hasta aquí, toda la metodología

desarrollada asume que el proceso yt es un AR(1). Si lo anterior no es cierto se

presentaría autocorrelación en el término de perturbación εt, lo cual invalida las

anteriores pruebas. Este problema se puede corregir, incluyendo una estructura de

rezagos en los modelos (1’), (2’) y (3’) (ver texto – página 226).Para el modelo (2’), se

estimaría por OLS a

∆yt=δ+γyt-1+∑−

=−

1p

1iiti y∆β +εt

Para esta situación se habla de la prueba ampliada (o aumentada) de Dickey–Fuller

(ADF). Un problema práctico de esta prueba es que el valor de p (el orden de la parte

autorregresiva en el modelo) es desconocido.

Existen varios métodos para elegir la longitud óptima. El más utilizado es el método

del Hall (1994), que es secuencial y propone iniciar la búsqueda con una longitud

relativamente grande de rezagos p-1 para luego ir disminuyendo el número de

rezagos hasta encontrar un estadístico significativo (se estima el modelo con p-1

rezagos y se analiza si el parámetro asociado al rezago p-1 es estadísticamente

significativo, si no lo es se estima el modelo con p-2 rezagos, y así sucesivamente).

Otros métodos están basados en los criterios de información de Akaike, Schwarz y

Hannan-Quinn (ver su definición más adelante), en los que se busca el número de

rezagos que minimice el valor de los criterios. Después de seleccionado el número de

rezagos, se debe analizar si efectivamente los residuales son ruido blanco: gráfico de

residuales, correlograma, prueba de Breusch - Godfrey, prueba Q de Box–Ljung.

En la literatura se han propuesto otras pruebas que tratan de mejorar el desempeño de

la prueba ADF. Estas pruebas tratan de mejorar la prueba ADF cuando se presentan

problemas de autocorrelación o de heterocedasticidad en el término de perturbación.

Es importante tener en cuenta que las pruebas de raíces unitarias tales como la

prueba ADF y otras propuestas en la literatura, pueden ser afectadas por cambios

estructurales en las series de tiempo. Por ejemplo, Perron(1989,1990) mostró que la

aplicación de la prueba ADF a series estacionarias en torno a un nivel o a una

tendencia que sufren cambio estructural, podría llevar a concluir erróneamente, que

Elkin Castaño –Guillermo Pérez 60

las series presentaban raíz unitaria. Perron desarrolló una prueba para analizar esta

situación (ver Enders, página 200).

Ejemplos numéricos.

Ejemplo 1. La serie Y1 anterior es un proceso AR(1) estacionario con parámetro 0.95.

La aplicación de la prueba de Dickey-Fuller para el modelo con constante, proporciona

los siguientes resultados.

Los resultados muestran que la existencia de una raíz unitaria no puede ser rechazada

a un nivel significancia de 0.10. Este resultado es sorprendente puesto que el proceso

verdadero es estacionario. Sin embargo, su parámetro está muy cerca de 1. Si se

aumenta el tamaño de la muestra a 200 observaciones, el estadístico DF es -3.42 y el

valor crítico para un nivel de significancia del 1% es de -3.46, lo cual conduce a

rechazar la hipótesis de raíz unitaria para niveles de significación próximos al 1%.

Ejemplo 2. Para la serie estacionaria en tendencia Y4, los resultados de la prueba se

muestran en la siguiente tabla. Para la realización de la prueba se empleó el modelo

con tendencia lineal.

El valor del estadístico DF es -2.94, el cual falla en rechazar la hipótesis de raíz

unitaria a un nivel de significancia del 10%. De nuevo, este resultado se debe a que el

valor del coeficiente AR es de 0.9. Esto ilustra la baja potencia que tiene la prueba en

Elkin Castaño –Guillermo Pérez 61

estos casos. La falla en rechazar Ho conduce a una aceptación cuidadosa y

provisional de la existencia de una raíz unitaria.

Estabilización de la varianza de una serie de tiempo

• Transformaciones que estabilizan la varianza. No todas las series de tiempo

pueden ser transformadas a estacionaridad por medio de la diferenciación.

Muchas series de tiempo son estacionarias en media pero no en varianza. Para

estacionarizar una serie que no sea estacionaria en varianza frecuentemente

se emplea una transformación de potencia la cual puede estabilizar su

varianza.

• Es muy frecuente que un proceso no estacionario su varianza cambie a medida

que cambia su nivel, es decir,

)()( tt cfZVar µ=

para alguna constante c y f positivas y f monótona. En estos casos es

posible encontrar una transformación )( tZT de forma tal que )]([ tZTVar sea

constante.

Elkin Castaño –Guillermo Pérez 62

• Cuando la varianza de una serie es una función monótona de su nivel, es

posible estacionarizar la varianza usando una familia de transformaciones

introducida por Box y Cox (1964), la cual está definida por:

0)ln(

01

)( )(

==

≠−

==

λ

λλ

λλ

siZ

siZ

ZZT

t

t

tt

� λ es llamado el parámetro de la transformación.

� λ se obtiene como el valor que minimiza

S( λ )= ∑=

−n

it

tZ2)()(

)ˆ(λλ µ

donde )(ˆ

λµ es la media muestral de la serie transformada usando λ .

Puesto que para cada λ , la suma S( λ ) está medida en una escala diferente,

el valor de λ no puede ser directamente seleccionado por la comparación de

S( λ ) para diferentes valores de λ . Para hacerlas comparables debemos

reemplazar Zt( λ ) por

1( )( ) 0

1

ln( ) 0

tt t

t

ZT Z Z si

Z

Z Z si

λλ λλλ

λ

−= = ≠−

= =

donde 1/

1

nn

t

t

Z Z=

= ∏

�, es la media geométrica de las observaciones tZ .

• Observaciones sobre la transformación de Box y Cox :

� Sólo está definida para series positivas. Sin embargo, si una serie tiene valores

negativos, la transformación puede ser usada sumando una constante a la

serie de forma tal que se vuelva toda positiva. Esto no altera la estructura de

correlación de la serie.

Elkin Castaño –Guillermo Pérez 63

� Si es necesaria una transformación para estabilizar varianza, debe obtenerse

antes de hacer cualquier otro análisis tal como diferenciar la serie.

� Frecuentemente, la transformación no solamente estabiliza la varianza, sino

que puede mejorar la aproximación a la normalidad del proceso.

� La transformación es útil para realizaciones con un número moderado o grande

de observaciones.

Ejemplo.

Considere los datos anuales del producto nacional bruto (GNP) de EU de 1889 a

1970, representados en el siguiente gráfico.

Producto nacional bruto de EU, 1889-1970

Se observa que a medida que el nivel de la serie crece la variabilidad tiende a

crecer. El gráfico de la primera diferencia muestra claramente como la variabilidad

de los cambios va aumentando a medida que pasa el tiempo.

Primera diferencia del Producto nacional bruto de EU, 1889-1970

Elkin Castaño –Guillermo Pérez 64

Usando la Transformación de Box y Cox para λ en el intervalo [-2, 2] con un

incremento de 0.1, se obtiene la siguiente tabla generada por el proceso de

minimización de la suma de cuadrados, donde ECM= S( λ )/n.

VARIABLE LAMBDA ECM

1 -2.000 .1093E+06

2 -1.900 94221.289

3 -1.800 81575.164

� 12 -.900 29170.873

13 -.800 27003.977

14 -.700 25220.502

15 -.600 23772.451

16 -.500 22621.273

17 -.400 21736.520

18 -.300 21094.795

19 -.200 20678.969

20 -.100 20477.582

21 .000 20484.469

22 .100 20698.543

23 .200 21123.764

24 .300 21769.260

25 .400 22649.650

26 .500 23785.533

27 .600 25204.188

28 .700 26940.527

� 37 1.600 68672.359

38 1.700 78627.086

39 1.800 90492.766

40 1.900 .1047E+06

41 2.000 .1216E+06

El gráfico de λ contra ( ) /S nλ es el siguiente.

Los resultados muestran que una transformación adecuada es λ =-0.1. Por

conveniencia se toma λ =0, es decir que la transformación logarítmica estabiliza la

Elkin Castaño –Guillermo Pérez 65

varianza de la serie. El siguiente gráfico muestra la serie ln( )t

Z , cuya varianza es

estable.

Logaritmo Natural del Producto nacional bruto de EU

A continuación se presenta un programa en EViews para calcular la transformación

incondicional de Box y Cox.

'--------------------------------------------------------------------------------------------------------- 'MACRO PARA EL CÁLCULO DE LA TRANSFORMACIÓN DE BOX-COX '--------------------------------------------------------------------------------------------------------- workfile u 1 2000 '--------------------------------------------------------------------------------------------------------- 'cambie la ruta del archivo de entrada EXCEL 'el nombre de la serie en el archivo Excel debe ser z read(t=xls, a2) G:\UdeA\Pregrado\Curso_eco2\gnp_1889_1970.xls 1 '--------------------------------------------------------------------------------------------------------- smpl if z<>na ' gráfica de la serie original Z graph graf_orig.line Z '--------------------------------------------------------------------------------------------------------- ' Transformación de BOX-COX para estabilizar la varianza de Z '--------------------------------------------------------------------------------------------------------- ' entre el mínimo valor de lamba scalar lmin=-2 ' entre el máximo valor de lamba scalar lmax=2 ' entre el incremento scalar lincr=0.1 scalar numlamb=(lmax-lmin)/lincr+1 equation eq0.ls z c scalar nobs=@regobs series lz=log(z) scalar lk2=@mean(lz) scalar k2=exp(lk2) vector(numlamb) lambdan vector(numlamb) ssen scalar i=0 for !j=lmin to lmax+lincr step 0.1 scalar i=i+1 vector lambdan(i)=!j

Elkin Castaño –Guillermo Pérez 66

scalar k1=1/(!j*k2^(!j-1)) series zlambda=k1*(Z^!j-1) series desv=(zlambda-@mean(zlambda))^2 scalar sse0=@sum(desv) vector ssen(i)=sse0 next series desv=(k2*log(Z)-@mean(k2*log(Z)))^2 ssen(-lmin/lincr+1)=@sum(desv) mtos(lambdan, lambda) mtos(ssen, sse) '--------------------------------------------------------------------------------------------------------- ' El grupo lamb__sse presenta los valores de lambda y de sse '--------------------------------------------------------------------------------------------------------- group lamb__sse lambda sse '--------------------------------------------------------------------------------------------------------- ' El gráfico minimizacion presenta el gráfico de dispersión de sse contra lambda '--------------------------------------------------------------------------------------------------------- graph minimizacion.scat lambda sse '--------------------------------------------------------------------------------------------------------- ' El vector TBOX_COX contiene la transformación de Box-Cox '--------------------------------------------------------------------------------------------------------- scalar tb=@min(sse) smpl if sse=tb vector TBOX_COX=lambda stop CONSTRUCCIÓN de UN MODELO DE SERIES DE TIEMPO: IDENTIFICACIÓN,

ESTIMACIÓN y PRUEBAS DE DIAGNÓSTICO

Dada una serie de tiempo y1, y2, ..., yn, Box y Jenkins presentan un estrategia para

construir un modelo para la serie, basada en tres etapas: identificación, estimación y

diagnósticos o validación del modelo. El siguiente diagrama ilustra la estrategia.

Elkin Castaño –Guillermo Pérez 67

Etapa I: Identificación del modelo

Inicialmente, se propone que la clase general a la que pertenece del modelo que

genera la serie es un modelo ARIMA(p,d,q), de la forma:

A(L)(1-B)d (λ)

ty = m + B(L)εt

bajo las condiciones antes vistas. La etapa de identificación consiste en seleccionar:

λ : el parámetro de la transformación para estabilizar la varianza.

d: El número mínimo de veces que se requiere diferenciar la serie para que sea

estacionaria.

p: El orden de la componente AR.

q: El orden de la componente MA.

m: es necesario incluir una constante?

� La selección de λ es lo primero que se debe hacer, empleando la transformación

de Box y Cox.

Elkin Castaño –Guillermo Pérez 68

� A continuación se identifica el valor de d. Generalmente d es 0, 1, 2. Para la

selección de d se emplean: la gráfica de la serie de tiempo, la ACF muestral y las

pruebas de raíces unitarias.

� La identificación de p y q puede estar basada en el empleo de la ACF y PACF

muestrales. Si el proceso que generó la serie es un AR o un MA, el empleo de la

ACF y la PACF muestrales ayudan en la selección del posible valor de p para el

AR o de q para el MA. La identificación de p y q en un proceso mixto ARMA es

mucho más complicado. Se trata de buscar un modelo que sea parsimonioso, es

decir que los valores de p y q sean bajos y el modelo sea adecuado. Una forma de

proceder es la de estimar todos los modelos ARMA(p, q), para p=0, 1, 2, …,p*, y

q=0,1, 2, ..q*, donde p* y q* son generalmente bajos. Usando el criterio de

información de Akaike (1969),

AIC(m)= -2( 2l / n ) ( m / n )+

o el de Schwarz (1978),

SBC(m)= -2( ln( )/l / n ) m n n+

o el de Hannan-Quinn (1979),

HQ=-2( 2 ln(ln( ))/l / n ) m n n+

donde l es el logaritmo de la función de verosimilitud estimada con m parámetros

y m=p+q (+1 si hay un término constante), se seleccionan el modelo con mínimo

AIC o SBC o HQ y los modelos con valores más próximos a éste. A continuación

se validan y se elige el de mejor comportamiento.

Hannan y Rissanen sugieren una metodología para tratar de seleccionar p y q (Ver

texto Johnston y DiNardo, página 228). Tsay y Tiao (1984) siguieren usar la

función de autocorrelación extendida (EACF) (ver Wei, 2006, página 128).

� Para determinar si es necesario incluir la constante m.

Gráficamente: Si la serie es estacionaria, observe si la serie oscila alrededor de

una valor diferente de cero. Si la serie no es estacionaria, observe si la serie tiene

una tendencia (positiva o negativa) fuerte.

Analíticamente: Inicialmente introduzca la constante y verifique su significancia

estadística una vez el modelo haya sido estimado.

Elkin Castaño –Guillermo Pérez 69

Etapa II: La estimación del modelo

Después de realizar la identificación del modelo se debe estimar el proceso

estacionario seleccionado. La estimación de un modelo mixto ARMA(p,q), conduce a

métodos de estimación no lineal. Los paquetes econométricos han implementado

diferentes metodologías para realizar las estimaciones de estos modelos. Es común

hablar de estimaciones de mínimos cuadrados lineales, no lineales, estimación

máximo verosímil condicional, estimación máximo verosímil incondicional y de máxima

verosimilitud completa o exacta, bajo normalidad del término de perturbación.

Por ejemplo, para el caso de la estimación de un modelo AR(1),

yt=m+αyt-1+εt α<1

se puede emplear OLS siempre y cuando el término de perturbación sea ruido blanco.

En general, un proceso AR(p), estacionario también se estima por OLS. En este caso

los estimadores serán consistentes. Los estimadores de máxima verosimilitud

condicional (condicional a y1, el cual se asume como fijo) de m y α coinciden con los

estimadores OLS: el sistema de ecuaciones que resulta para realizar la estimación de

máxima verosimilitud condicional son lineales. Para un proceso AR(1) la función de

verosimilitud condicional se puede escribir como:

L*=f(y2, y3,..., yn/y1)=f(y2/y1)f(y3/y2)...f(yn/yn-1)

Observe que L* es condicional al valor de y1.

Bajo normalidad, se tiene que

f(yt/yt-1)= e σ/2)yαmy(σ2Π

1 22

1tt −− −−

Por lo tanto, el logaritmo de la función de verosimilitud está dado por:

LnL*= K - 2

1n −ln(σ2)-

σ 221

∑=

−−−n

2t1tt

2

)( yαmy

Elkin Castaño –Guillermo Pérez 70

donde K es una constante. Maximizando con respecto a m y α se obtienen los

respectivos estimadores, los cuales coinciden con los OLS. De igual forma se obtiene

el estimador de la varianza.

Para obtener los estimadores de máxima verosimilitud completa, bajo normalidad, la

función que se maximiza está dada por

L= f(y1, y2, y3,..., yn)=f(y1)L*

Se puede probar que el logaritmo de esta función es

LnL = K-2n

ln(σ2)+1/2ln(1-α2)-σα

2

2

21−

(y1-m/(1-α))2-σ 221

∑=

−−−n

2t1tt

2

)( yαmy

El sistema de ecuaciones que se obtiene en el proceso de maximización ya no es

lineal, por lo tanto se debe recurrir a técnicas no lineales (algoritmos de búsqueda).

La estimación de un proceso MA es todavía más complicado. Por ejemplo, un MA(1)

con media cero, está definido por

yt = εt - βεt-1

donde ε1, ε2, ...., εn son desconocidos. Al aplicar OLS se debería encontrar el valor de

β que minimice

S(β)=n

t=1

2tε∑ =

n 2t 1t

t 1( β )y ε −

=+∑

Como yt = εt - βεt-1, entonces εt = yt + βεt-1 y ε1, ε2, ...., εn pueden ser obtenidos de la

siguiente forma:

ε1= y1 +βε0

ε2= y2 +βε1= y2 +β( y1 +βε0)= y2 +βy1 +β2ε0

ε3= y3 +βε2= y3 +β(y2 +βy1 +β2ε0)= y3 +βy2 +β2y1 +β3ε0

εt-1= yt-1 +βεt-1= yt-1 +βyt-2+...+βt-2y1 +βt-1ε0

Elkin Castaño –Guillermo Pérez 71

Si fuera ε0 conocido, S(β) solamente depende de β, y el estimador OLS, es aquel valor

de β que minimiza a S(β). Observe que ββ

d)dS(

es una ecuación no lineal en β ya que

depende de β, β2, β3,..., βn-1, por lo tanto se debería emplear mínimos cuadrados no

lineales (NLS). Es usual seleccionar a ε0 como cero debido a que E[ε0]=0.

El método de estimación incondicional o de backasting desarrolla una estimación de

los valores iniciales para usando pronósticos hacia atrás.

Para la estimación de un MA(1) también se puede emplear la máxima verosimilitud

completa o exacta.

Como es de esperar, todos estos problemas se presentan en la estimación de un

ARMA(p, q).

Etapa III: Pruebas de diagnóstico (validación del modelo)

En esta etapa se debe verificar que el modelo estimado cumpla adecuadamente con

los supuestos teóricos bajo los cuales fue construido.

1. Se deben analizar las raíces de A(L)=0ˆ y B(L)=0ˆ , donde A(L)ˆ y B(L)ˆ son las

estimaciones de los polinomios A(L) y B(L) . Una raíz de A(L)=0ˆ igual a 1 o

muy próxima 1 podría indicar subdiferenciación de la serie. Una raíz de B(L)=0ˆ

igual a 1 o muy próxima 1 podría indicar sobrediferenciación de la serie.

2. Se debe probar que los residuos no están correlacionados. Las herramientas más

empleadas son el gráfico de los residuales, el ACF muestral y la prueba de Box-

Pierce–Ljung, la cual permite concluir si efectivamente los residuales son ruido

blanco o, si por el contrario, queda alguna estructura que el modelo no pudo

captar.

Prueba de Box-Pierce-Ljung: Está basada sobre los cuadrados de las primeras M

autocorrelaciones de los residuales, rj, j=1, 2, …,M. Se quiere probar

H0: 1 20

M...ρ ρ ρ= = = = contra H1: Existe al menos un 0

jρ ≠ , j = 1,2,...,M. Para

esto, defina el estadístico

Q=n(n+2) 2

j1

r /(n-j)M

j=∑

Elkin Castaño –Guillermo Pérez 72

Bajo H0 y n grande Q ~ 2

( p q )χ + . Rechace H0 si el valor p de la prueba es pequeño.

3. Se debe probar que los residuos no son heterocedásticos. La gráfica de residuos

puede revelar a simple vista si, por ejemplo, la hipótesis de varianza constante es

admisible.

4. Examinar la presencia de observaciones atípicas. Usando la gráfica de los

residuales se examina si se presentan residuales extremadamente grandes, lo cual

puede indicar que:

� Existen errores en los datos.

� Hay observaciones extremas o atípicas (outliers) como consecuencia de

cambios estructurales.

� No hay normalidad.

Un análisis preliminar consiste en obtener y graficar los residuales estandarizados.

Bajo normalidad, las observaciones atípicas pueden ser detectadas cuando el valor

absoluto del residual estandarizado es mayor que 2.5.

5. Análisis de normalidad sobre los residuales de la serie. Puede emplearse, entre

otras la prueba de Jarque y Bera y el gráfico cuantil-cuantil normal.

Suponga que Txx ,,1 � un conjunto de datos tamaño T. Entonces:

El coeficiente de asimetría muestral es ∑=

−−

=T

t

Xt

X

xT

xS1

3

3)ˆ(

ˆ)1(

1)(ˆ µ

σ

El coeficiente de curtosis muestral es ∑=

−−

=T

t

Xt

X

xT

xK1

4

4)ˆ(

ˆ)1(

1)(ˆ µ

σ

donde ∑=

−−

=T

t

XtX xT 1

22)ˆ(

1

1ˆ µσ y ∑

=

=T

t

tX xT 1

1µ .

Bajo normalidad, el verdadero coeficiente de asimetría es 0 y el verdadero

coeficiente de curtosis es 3. Entonces, cuando los datos proceden de una

población normal los estimadores anteriores estarán cerca de 0 y 3

respectivamente. Jarque y Bera (1987) proponen contrastar la hipótesis nula de

normalidad usando esta información. Definen el estadístico de prueba

Elkin Castaño –Guillermo Pérez 73

T

xK

T

xSJB

/24

)3)(ˆ(

/6

)(ˆ 22 −+=

el cual tiene una distribución chi-cuadrado con 2 grados de libertad bajo H0 y n

grande. Por tanto, se rechaza el supuesto de normalidad si )(2

2 αχ>JB , donde

)(2

2 αχ es el cuantil −α superior de la distribución 2

2χ .

6. Finalmente, se analiza la significancia de los parámetros estimados. Las pruebas

son similares a las desarrolladas para probar la significancia de los parámetros

estimados de un modelo de regresión.

En la práctica es posible que el modelo estimado no sea satisfactorio, por lo tanto se

debe tratar de seleccionar otro(s) modelo(s) y volver a realizar las etapas II y III.

También es posible que varios modelos estimados cumplan las pruebas de

diagnósticos, en este caso se debe recurrir a criterios de selección de modelos. Los

más empleados son los criterios de información de Akaike (AIC), Schwarz (SBC) y el

de Hannan-Quinn. Se prefiere el modelo con los valores mínimos en estos criterios.

PRONÓSTICOS PARA SERIES DE TIEMPO Uno de los objetivos más importantes de la metodología ARIMA es poder realizar

pronósticos. Frecuentemente estas predicciones son utilizadas como un punto de

comparación para pronósticos proporcionados por modelos multivariados más

complicados. En todo pronóstico hay dos fuentes de error:

• Errores debido al desconocimiento de las futuras innovaciones.

• Errores debido a la diferencia entre los valores verdaderos y sus estimaciones.

En esta primera parte solamente trataremos con la primera fuente de error (es decir,

suponiendo que se conocen los verdaderos parámetros del modelo) y se ilustrarán los

principios con algunos procesos de bajo orden.

Dada un serie de tiempo y1, y2, ..., yn y asumiendo que estas observaciones son

generadas por un proceso ARIMA(p,d,q), se quiere pronosticar a ‘’y’’ en los períodos

n+1, n+2, ..., es decir se desea pronosticar a yn+s, s=1, 2, ..., conocida la información

hasta n.

Elkin Castaño –Guillermo Pérez 74

La idea intuitiva es obtener un pronóstico que esté cerca al verdadero valor yn+s. Sea

y sn+ el valor del pronóstico de yn+s basado en la afirmación hasta el período n.

Teóricamente se desea encontrar un valor y sn+ tal que su error cuadrático medio dado

por

E[( yn+s - y sn+ )2]

sea mínimo.

A en+s = yn+s - y sn+ se le llama el error de pronóstico y E[(yn+s - y sn+ )2] es el error

cuadrático medio.

Se puede probar que el pronóstico óptimo de yn+s (de error cuadrático medio mínimo)

para un modelo general ARIMA(p,d,q) que se realiza con información hasta el período

n, es la esperanza condicional de yn+s dada la información hasta el período n, es decir

y sn+ = En[yn+s]= E[yn+s/y1, y2, ..., yn]

Por medio de esta propiedad es fácil derivar los pronósticos de cualquier modelo de

esta clase.

El modelo general ARIMA(p,d,q) puede ser escrito como d

t tA(L)(1-L) y = m + B(L)a .

Sea A(L)(1-L)d =Ψ (L ). Entonces Ψ (L ) es un polinomio de orden p+d en potencia de

L y el modelo para yt se puede escribir como:

2 p+d 2 q

1 2 p+d t 1 2 q t(1- Ψ L - Ψ L -...-Ψ L )y =m+(1- β L -β L -...-β L )ε

o, para t=n+s ,

n+s 1 n+s-1 2 n+s-2 p+d n+s-(p+d) n+s 1 n+s-1 2 n+s-2 q n+s-qy =m +Ψ y + Ψ y + ...+ Ψ y + ε -β ε -β ε -...-β ε

Tomando esperanza condicional a la información hasta el período n, el pronóstico de

yn+s se puede calcular como:

Elkin Castaño –Guillermo Pérez 75

n+s n, n-1, 1 n+s-1 n, n-1, 2 n+s-2 n, n-1,

p+d n+s-(p+d) n, n-1, n+s n, n-1, 1 n+s-1 n, n-1,

2 n+s-2 n, n-1, q n+s-q n, n-1,

E(y |y y ...)= m + Ψ E(y |y y ...)+Ψ E(y |y y ...)+...+

Ψ E(y |y y ...)+E(ε |y y ...)-β E(ε |y y ...)-

β E(ε |y y ...)-...-β E(ε |y y ...)

o,

n+s 1 n+s-1 2 n+s-2 p+d n+s-p-d n+s 1 n+s-1 2 n+s-2 q n+s-qˆ ˆ ˆ ˆˆ ˆ ˆ ˆy = m + Ψ y +Ψ y +...+Ψ y +ε -β ε -β ε -...-β ε

donde

n+j n+j n n-1

n+j n+j

n+j

n+j n+j n-1+j+1 n+j

y = E(y |y ,y ,...) si j>0

y = y si j 0

ε = 0 si j>0

ˆ ˆε = y - y = ε si j 0

Donde n-1+j+1y es el pronóstico de yn+j basado en la información hasta el período n+j-1.

A continuación se aplicará este resultado a algunos modelos particulares.

Pronósticos con un modelo AR(1)

Dado el modelo estacionario

yt = m+αyt-1+ εt t=1, 2, ..., n

Se puede ver que

y 1n+ = m+αyn con var(en+1)=σ2ε

y 2n+ = m+α y 1n+ = m+mα+α2yn con var(en+2)=(1+α2)σ2ε

y 3n+ = m+α y 2n+ = m+mα+α2m+α3yn con var(en+3)=(1+α2+α4)σ2ε

de forma general,

• y sn+ =m+α y 1sn −+ =m(1+α+α2+...+αs-1) + αsyn = mα1α1 s

−−

+αsyn

Elkin Castaño –Guillermo Pérez 76

con var(en+s)=(1+α2+ ... +α2(s-1))σ2ε

• Si s → ∞

y sn+ →α1

m−

=µ var(en+s) →α1σ

2

−=σ2

y

Se observa que cuando el horizonte se incrementa, el valor del pronóstico y la

varianza del error de pronóstico tienden a la media y a la varianza no condicional del

proceso.

Pronósticos con un proceso MA(1)

Un proceso MA(1) está dado por

yt = µ + εt - βεt-1

En este caso se tiene que

y 1n+ =µ - βnε con var(en+1)=σ2ε

y 2n+ = µ con var(en+2)=(1+β2)σ2ε = σ2

y

En general,

y sn+ = µ s ≥2 con var(en+s)=(1+β2)σ2ε = σ2

y

Pronósticos con un proceso ARMA(1,1)

Considere el proceso

yt = m + αyt-1 + εt - βεt-1

Entonces,

y 1n+ = m + αyn - βnε con var(en+1) =σ2ε

y 2n+ = m + mα + α2yn - αβnε con var(en+2) = (1+(α-β)2)σ2ε

y 3n+ = m + mα + mα2 + α3yn - α2βnε con var(en+3) = (1+(α-β)2(1+α2))σ2ε

y sn+ = m +mα+mα2 +...+ mαs-1 + αsyn - αs-1βnε con var(en+s) = ]α1α1

β)-(α[12

1)2(s2

−−

+−

σ2ε

Elkin Castaño –Guillermo Pérez 77

Además, si s → ∞

ysn+ →µ var(en+s) → σ

α1β2α1 2

ε2

2

−+− β

=σ2y

Pronósticos con un proceso ARIMA(1,1, 0)

Suponga que la serie zt sigue un proceso ARIMA(1,1,0). En este caso zt es tal que

sus primeras diferencias siguen un proceso AR(1) estacionario. Es decir, yt=zt-zt-1 es

un proceso AR(1) y por lo tanto yt=m+αyt-1+εt.

Se puede probar que

zn+s=zn+sµ+αα1α1 s

−−

(yn-µ) + en+s

donde

en+s=εn+s+(1+α)εn+s-1 + (1+α+α2)εn+s-2 + (1+α+α2+...+αs-1)εn+1

El pronóstico para zn+s es

z sn+ = zn + sµ + αα1α1 s

−−

(yn - µ)

con var(en+s) = [1+(1+α)2+(1+α+α2)2 +...+(1+α+α2+...+αs-1)2]σ

y donde µ=m

1-α.

Se observa que la varianza del pronóstico se incrementa indefinidamente a medida

que s crece, luego para una serie no estacionaria los pronósticos serán cada vez más

imprecisos a medida que el horizonte del pronóstico crece.

Todas las fórmulas anteriores están basadas en el supuesto de que los parámetros del

modelo son conocidos. En la práctica, se les reemplaza por sus estimaciones. Como

resultado, los estimadores puntuales de los pronósticos seguirán siendo de error

cuadrático medio mínimo asintóticamente. Sin embargo, las varianzas estimadas del

error de pronóstico subestiman a los verdaderos valores debido a que la formula no

incorpora la incertidumbre en el coeficiente.

Intervalos de predicción para yn+s

Bajo el supuesto de normalidad, la construcción de un intervalo de predicción de

(1 α− )%, para yn+s está basado en que en+s = yn+s - y sn+ ~ N(0, Var(en+s)). Debido a

Elkin Castaño –Guillermo Pérez 78

que Var(en+s) la varianza depende del parámetro desconocido σ2ε , reemplazándolo por

su estimador se obtiene que para muestras grandes en+s = yn+s - y sn+dist→ N(0,

�n+s

Var(e ) ). Empleando este resultado, los límites aproximados de un intervalo de

predicción de (1 α− )% para yn+s están dados por

y sn+ ± z( 2/α )[�n+s

Var(e ) ]1/2

EVALUACIÓN DE PRONÓSTICOS

Es importante evaluar la capacidad predictiva del modelo. En el trabajo aplicado con

series de tiempo es común evaluar la capacidad predictiva de un modelo comparando

los valores observados con los pronosticados. Para desarrollar estas ideas es usual

ajustar el modelo con las ‘’T’’ primeras observaciones y analizar luego cómo el modelo

predice las ‘’h’’ observaciones siguientes, donde n=T+h, siendo n el tamaño de la

muestra disponible. Algunas de las medidas más empleadas son:

• La raíz del error cuadrático medio:

RMSE=h

)yy(n

1Tttt

2∑ −

+=

• El promedio de los valores absolutos de los errores de pronósticos

MAE=h

yyn

1Tttt∑ −

+=

• El promedio del error porcentual absoluto

MAPE=h

y

yyn

1Tt t

tt∑−

+=

• El coeficiente de desigualdad de Theil

Elkin Castaño –Guillermo Pérez 79

TIC=

h

y

h

y

RMSEn

1Tt

2t

n

1Tt

2t ∑

+∑

+=+=

El RMSE y MAE dependen de la escala de la variable dependiente y por lo tanto se

pueden emplear para comparar pronósticos de la misma serie para modelos

diferentes. Los otros dos estadísticos no dependen de la escala.

Se puede probar que 0≤TIC≤1. TIC=0 indica que las predicciones fueron

perfectas.

Con base en el error cuadrático medio se definen:

• La proporción del sesgo:

PS=

h

yy

)y-y (n

1Tttt

2

2

)(∑ −+=

• La proporción de la varianza

PV=

h

yy

)s-s (n

1Tttt

2

yy2

)(∑+=

• La proporción de la covarianza

PC=

h

yy

ss)r1(2n

1Tttt

2

yy

)(∑

+=−

donde r es el coeficiente de correlación entre yt y yt ; s ,s ,y ,y yy son las medias y

desviaciones estándar de yt y yt . Se puede probar que PS+PV+PC=1.

PS es una medida de la desviación del promedio del pronóstico con relación al

promedio de la serie observada (medida del error sistemático). Valores grandes de

PS (mayores de 0.1 o 0.2) indican que un sesgo sistemático esta presente y por lo

tanto el modelo se debería revisar. La proporción de la varianza nos informa la

Elkin Castaño –Guillermo Pérez 80

capacidad que tiene el modelo de replicar la variabilidad de la serie. PC mide el

error no sistemático. La situación ideal sería PS=PV=0 y PC=1.

SERIES DE TIEMPO ESTACIONALES

Muchas series de tiempo que son medidas en intervalos regulares dentro del año

pueden mostrar un patrón de comportamiento similar entre los años o comportamiento

estacional. Por ejemplo, la venta mensual de juguetes se leva en el mes de diciembre

de cada año. Es común que las series mensuales, trimestrales, semestrales, etc.

tengan patrones estacionales, es decir que se presente similitud de comportamiento

entre observaciones para el mismo mes o trimestre en años consecutivos. El mínimo

número de períodos en el cual se presenta este fenómeno es llamado período

estacional y se denota por s. Para series mensuales, generalmente s=12, para series

trimestrales s =4, para series semanales s =52, etc.

Series estacionales estacionarias

Modelos Autorregresivos estacionales. Para datos trimestrales de series

estacionales (s=4) estacionarias, el modelo autorregresivo estacional más simple

sigue la especificación

xt = φxt - 4 + ut donde |φ|<1

donde ut es ruido blanco. El modelo anterior es llamado un modelo autorregresivo

estacional puro de orden 1, el cual se denota por SAR(1)4. En este caso la ACF de la

serie es:

ρk=i k 4i i 1, 2, ...

o K 4i i 1, 2, ...

φ = =

≠ =

Correlograma para un SAR(1) con 0<φ<1

Elkin Castaño –Guillermo Pérez 81

Correlograma parcial para un SAR(1)4 con 0<φ<1

Sin embargo frecuentemente la serie también contiene componentes no estacionales.

En este caso ut no sería ruido blanco. Por ejemplo, puede ocurrir que ut contenga un

patrón AR(1), es decir

ut = αut-1+εt

donde |α|<1 y εt es ruido blanco. Entonces el modelo para la serie se puede escribir como

(1-φL4)xt =ut

como ut = αut-1+ εt se tiene que (1-αL)ut=εt. Puesto que |α|<1, entonces ut=(1-αL)-1εt

y reemplazando en el modelo anterior se obtiene

(1-α L)(1-φL4)xt =εt

Este es un ejemplo simple de un modelo autorregresivo multiplicativo estacional, el

cual se denota AR(1)xSAR(1)4. Realizando las multiplicaciones entre los polinomios,

el modelo también se puede escribir se escribe como:

(1- αL - φL4 + αφL5)xt = εt

o,

xt = αxt-1+φ xt-4 - αφxt-5 +εt

lo que muestra que el modelo es un caso particular de un AR(5), en el cual dos

coeficientes serán cero y además existe una restricción no lineal (αφ) para el

coeficiente de xt-5. A nivel general el ACF de este proceso debe converger a cero,

presentando magnitudes altas en los rezagos 4, 8, 12, 16, .... El PACF debe tener un

Elkin Castaño –Guillermo Pérez 82

corte después del rezago 5. A continuación se presentan los correlogramas teóricos

cuando α=φ=0.8.

Correlograma de un AR(1)xSAR(1)4.

Correlograma Parcial AR(1)xSAR(1)4.

A continuación se presentan los correlogramas muestrales para 100 observaciones de

una serie simulada con α=φ=0.8. Observe su similitud con los teóricos.

Elkin Castaño –Guillermo Pérez 83

Modelos de medias móviles estacionales. También se pueden especificar modelos

de medias móviles estacionales puros, tal como

xt = (1-θL4)εt

el cual es denotado como SMA(1)4, o estacionales multiplicativos de medias móviles,

como por ejemplo un modelo MA(1)xSMA(1)4

xt = (1-βL)(1-θL4)εt

En esta situación el ACF teórico se corta después del rezago 5 y el PACF converge a

cero. A continuación se presentan los correlogramas téoricos para un SMA(1)

Correlograma de un SMA(1)4

Correlograma parcial de un SMA(1)4

A continuación se presenta los correlogramas teóricos para un MA(1)xSMA(1)4.

Elkin Castaño –Guillermo Pérez 84

Correlograma de un MA(1)xSMA(1)4

Correlograma parcial de un MA(1)xSMA(1)4

Modelos mixtos autorregresivos y de medias móviles estacionales. Es común que

se presenten modelos que son una mezcla de AR, MA, SAR, SMA, por ejemplo,

(1-αL)(1-φL4)xt =(1-βL)( 1-θL4) εt

el cual se denota por ARMA(1,1)xSARMA(1,1)4, y es un modelo multiplicativo mixto.

Este modelo es muy flexible y ha sido muy empleado en aplicaciones.

Series estacionales no estacionarias

El caso más simple de un modelo con estacionalidad no estacionaria está dado por un

paseo aleatorio estacional

xt = xt -4 + ut ,

o,

(1-L4)xt=ut

Elkin Castaño –Guillermo Pérez 85

Al operador (1-L4) se le llama operador de diferencia estacional (en este caso

trimestral), y se le denota como 4

∆ .

Es posible que una serie estacional contenga también un proceso no estacionario en

su componente no estacional ut. En estos casos el proceso de diferenciación puede

ser en la parte estacional, en la no estacional o en ambas. Para este último caso el

proceso de diferenciación para volver la serie estacionaria es

(1-L)(1-L4)

En la práctica no es fácil realizar juicios sobre el orden de estos modelos. De igual

forma el análisis de raíces unitarias para series estacionales es más complicado que el

trabajo con series no estacionales. Hylleberg, Engle, Granger y Yoo desarrollan

pruebas de hipótesis para raíces unitarias en este tipo de series.

Ejemplo. La siguiente gráfica presenta la serie de tiempo mensual del número de

viviendas nuevas (HS) (en miles) para el período comprendido entre enero de 1959 y

abril de 1992.

Primero que todo se chequea si hay estacionalidad para decidir si es posible construir

un modelo en niveles para la serie. La inspección visual parece indicar que no hay

indicios fuertes de no estacionalidad. Si se emplea la prueba ADF, la hipótesis de raíz

unitaria es fuertemente rechazada. En la siguiente tabla se presenta el resultado de la

prueba.

Elkin Castaño –Guillermo Pérez 86

A continuación se presentan los correlogramas muestrales para la serie en niveles, los

cuales parecen confirmar lo anterior.

Elkin Castaño –Guillermo Pérez 87

Este correlograma es similar al caso antes visto, pero donde el período estacional es

s=12. La autocorrelación decrece pero vuelve a crecer en los rezagos 12, 24, 36, …,

mientras que la autocorrelación parcial presenta picos positivos en los rezagos 1 y 13.

Este patrón sugiere que el modelo AR(1)xSAR(1)12 puede ser una primera

aproximación al modelo de la serie de tiempo. El modelo propuesto es

(1-αL)(1-φL12)HSt =m+ εt

Elkin Castaño –Guillermo Pérez 88

A continuación se ajusta el modelo usando los datos de la serie entre enero de 1959 y

diciembre de 1984. Los datos entre enero de 1985 y abril de 1992 se emplearán para

realizar pronósticos fuera de la muestra de estimación y chequear la capacidad

predictiva del modelo. La siguiente tabla presenta los resultados de la estimación.

Los resultados muestran que todos los coeficientes son altamente significativos y que

el modelo explica aproximadamente el 86% de la variación de la variable HS. Sin

embargo, hay una variación residual importante. El error estándar del modelo es más

del 11% de la media de la variable dependiente HS. Para examinar la capacidad de

pronóstico del modelo para los 88 datos finales de la serie no empleados en la

estimación, se presenta la siguiente grafica.

Elkin Castaño –Guillermo Pérez 89

El pronóstico para los primeros 12 meses es razonablemente bueno, pues siguen el

patrón de la estacionalidad, aunque subestiman algo el nivel de actividad. Sin

embargo, estas dos características son predichas cada vez peor a medida que se

aumenta el horizonte del pronóstico. El patrón de la estacionalidad disminuye cada vez

más como consecuencia de que los coeficientes AR son menores que 1 y las

innovaciones en el pronóstico son cero. El pronóstico subestima la actividad de la

mitad y final de los 80 y sobreestima la actividad a comienzos de los 90. El error

absoluto medio en porcentaje de los pronósticos es 25.2%. Sin embargo, todos los

valores reales caen dentro de los límites de predicción.

Un chequeo final del modelo es ver si los residuales proceden de un proceso de ruido

blanco. La siguiente tabla presenta los correlogramas de los residuales.

Elkin Castaño –Guillermo Pérez 90

Los resultados muestran que se presenta correlación y correlación parcial significativa

en los rezagos 1 y 11, 12 y 13. Por tanto, se requiere un modelo más complejo.

Una alternativa sería tratar con un modelo mixto de la forma

(1-α L)(1-φ L12)HSt =m+(1-β L)(1-θ L12)tε

Elkin Castaño –Guillermo Pérez 91

La siguiente tabla contiene los resultados de la estimación de esta especificación.

Tanto los dos coeficientes autorregresivos como los dos de medias móviles son

altamente significativos. La siguiente gráfica presenta los pronósticos para este

modelo.

Elkin Castaño –Guillermo Pérez 92

Estos pronósticos presentan una mejora sustancial frente a los del modelo puramente

autorregresivo. El patrón estacional ya se mantiene sobre el horizonte del pronóstico, y

esto se debe principalmente a que el coeficiente SAR(1) (denotado por SAR(12) en la

estimación) es mucho mayor al obtenido anteriormente. Como consecuencia, ya los

pronósticos son muy buenos para los primeros tres años, comparados con solamente

el primer año del modelo anterior. Los residuales ya están más cerca de un proceso de

ruido blanco (verifique). La especificación anterior no necesariamente es el mejor

modelo para la serie (experimente con otras especificaciones). Por ejemplo, en vista

del que el coeficiente del término SAR(1) está tan cerca de 1, sería interesante ajustar

un ARMA a las diferencias estacionales 12

∆ = (1-L12) = HSt - HSt-12.

ALGUNAS FUNCIONES PARA SERIES DE TIEMPO EN EVIEWS

• d(x): primera diferencia de la serie x. d(x)=(1-L)x=∆x.

• d(x,n): diferencia de orden n para la serie x. d(x,n)=(1-L)nx=∆nx.

• d(x,n,s): diferencia de orden regular n, con una diferencia estacional de orden s.

d(x,n,s)=(1-L)n(1-Ls)x.

• dlog(x): primera diferencia del logaritmo natural. dlog(x) = (1-L)log(x) = log(x)-

log(x(-1)= ∆log(x).

• dlog(x,n): diferencia de orden n para el logaritmo de la serie. dlog(x, n) = (1-

L)nlog(x) = ∆nlog(x)

• dlog(x,n,s): diferencia de orden n con una diferencia estacional de orden s para el

logaritmo de x. dlog(x,n,s)=(1-L)n(1-Ls)log(x).