series de tiempo univariadas[1] (1) (1)
Post on 23-Dec-2015
147 Views
Preview:
DESCRIPTION
TRANSCRIPT
Elkin Castaño –Guillermo Pérez 1
MODELACIÓN DE SERIES DE TIEMPO UNIVARIADAS1
• Informalmente hablando, una serie de tiempo consiste de una colección de
observaciones ordenadas en el tiempo.
• Un modelo univariado de series de tiempo relaciona el comportamiento de
una variable económica con sus valores pasados y con valores pasados y
presentes de un término de perturbación, es decir:
xt=f(xt-1, xt-2, xt-3,…, ut, ut-1,..)
• La ecuación anterior significa que se desea utilizar la inercia de la serie para
explicar su comportamiento actual y así poder predecir su evolución futura.
• Este tipo de análisis se denomina Análisis Univariado (o Univariante)
porque utiliza como única información la propia historia de la serie,
basándose en la hipótesis central de que las condiciones en el futuro serán
análogas a las pasadas.
• Los modelos univariados son especialmente útiles para realizar pronósticos
a corto plazo, pero la serie debe ser relativamente grande. Para
pronósticos a mediano y largo plazo se deben tener en cuenta otras
variables que ayuden a explicar el comportamiento de la variable de interés.
En estos casos se utilizan métodos de análisis de regresión dinámica o
también de series de tiempo multivariadas.
• A nivel teórico un modelo de series de tiempo está basado en el supuesto
de que una variable económica ‘’X’’, es en cada instante del tiempo t, una
variable aleatoria Xt, para la cual sus posibles valores se pueden
caracterizar por una función de densidad de probabilidad f(xt). A la sucesión
de estas variables aleatorias, X1, X2, X3, …, Xn, observadas a intervalos
regulares de tiempo (años, trimestres, meses, …) se le denomina proceso
1 Estas notas son una adaptación del texto de Johnston y DiNardo.
Elkin Castaño –Guillermo Pérez 2
estocástico. En adelante no se hará distinción entre el valor observado de
la serie x1, x2, x3, …, xn y el proceso estocástico X1, X2, X3, …, Xn que los
generó (sucesión de variables aleatorias).
• Es importante observar que hay una diferencia muy marcada en el manejo
de datos de corte transversal y los procesos estocásticos:
� En los procesos estocásticos existe un orden natural, dado por el
tiempo.
� En los datos de corte transversal es posible extraer diferentes muestras
y por lo tanto es relativamente clara la idea de que los resultados son
aleatorios.
� Cuando recopilamos un conjunto de datos de series de tiempo,
obtenemos un único resultado posible el cual es llamado la realización
del proceso estocástico. En la práctica, sólo podemos observar una
realización ya que no es posible retroceder en el tiempo para obtener
unos nuevos datos. No obstante, si hubieran sido distintas ciertas
condiciones en la historia, por lo general los resultados serían diferentes
para los valores de la serie, y es por esto que se piensa que X1, X2, X3,
…, Xn son variables aleatorias.
� En general, para un conjunto de datos de series de tiempo el concepto
de muestra aleatoria no es válido ya que, en general, X1, X2, X3, …, Xn
son dependientes.
• Como un punto de partida, los modelos de series de tiempo están basados
en el supuesto de que el proceso que generó la serie empezó hace mucho
tiempo y que continúa indefinidamente hacia el futuro. Además, algunos de
ellos asumen que la media y la varianza de la variable xt, t=1, 2, ..., n,
permanecen estables y que la covarianza entre xt y xt+k no depende del
tiempo sino de la separación en el tiempo entre ellas. Esta clase de proceso
estocástico es llamado estacionario en sentido débil.
Elkin Castaño –Guillermo Pérez 3
• Definición. Se dice que una serie de tiempo es estacionaria (o
estacionaria en sentido débil) si es estable en media, varianza y
covarianza, es decir, si para todo t:
a. E[xt]= µ
b. Var(xt) =σ2x
c. Cov(xt, xt+k) = cov(xt+m, xt+m+k) = γk t, k, m, valores enteros
cualquiera.
• El tipo de procesos estocásticos que se desarrollarán deben tener una
propiedad adicional: deben ser débilmente dependientes. De una manera
sencilla esta propiedad afirma que la corr(xt, xt+k) →0 cuando k → ∞ , k>0,
es decir, asintóticamente no se correlacionan. Intuitivamente esta propiedad
dice que a medida que las variables se distancian en el tiempo, la
correlación se hace cada vez más pequeña. Aún más, la convergencia de la
correlación a cero debe ser lo suficientemente rápida.
Ejemplos.
1. El proceso autorregresivo de orden 1, denotado por AR(1). Se dice que una serie
de tiempo xt sigue un proceso AR(1) si se puede escribir como
xt= m + αxt-1 + ut
donde el término de perturbación ut es un proceso de ruido blanco, es decir ut
proceso estocástico estacionario con E(ut)=0, var(ut)=2σ y Cov(ut, ut+k)=0.
m es una constante, α es otra constante tal que | | 1α < .
En este caso xt depende únicamente de su valor pasado inmediatamente anterior y del
valor aleatorio del término de perturbación, el cual generalmente es llamado
“innovación” o “ shock”.
2. Este modelo puede ser generalizado al modelo autorregresivo de orden p, AR(p), el
cual se define como
Elkin Castaño –Guillermo Pérez 4
xt = m + α1xt-1 + α2xt-2 + α3xt-3 +…+ αpxt-p + ut (1)
donde, como en el caso anterior, ut es proceso de ruido blanco, m es una constante y
los parámetros j
α son constantes que deben cumplir con ciertas restricciones que
veremos más adelante.
3. Es posible que ut no sea ruido blanco, y que por lo tanto responda a una estructura
más complicada. Generalmente ut se especifica como un proceso de medias móviles
MA(q), el cual se define como
ut = εt - β1εt-1 - β2εt-2 - ... - βqεt-q (2)
donde εt es ruido blanco.
4. Al combinar (1) y (2) se tiene un proceso ARMA(p,q), cuya especificación es
xt = m + α1xt-1 + α2xt-2 + α3xt-3 +…+ αpxt-p + εt - β1εt-1 - β2εt-2 -
... - βqεt-q
• Es natural preguntarnos ¿por qué desarrollar este tipo de modelos y no tener en
cuenta las relaciones que existen entre subconjuntos de variables económicas?
Se pueden dar las siguientes razones
� En algunos casos puede no ser muy claro cuáles deberían ser las variables
que se deben emplear y qué forma funcional sería la adecuada.
� Puede ser difícil tener la información necesaria sobre todas la variables.
� Dada una estructura propuesta (es decir, un sistema de ecuaciones que
corresponden a un modelo econométrico), puede mostrarse que a partir de ella
se obtienen ecuaciones para las variables de interés (endógenas) del sistema
que son similares a los modelos ARMA(p,q).
Por ejemplo, considere el modelo macro (muy simple) dado por
Elkin Castaño –Guillermo Pérez 5
Ct = α0+α1Yt+α2Ct-1+ut
Yt ≡ Ct+It
donde C, Y, I denotan consumo, ingreso, e inversión
Matemáticamente, este sistema de dos ecuaciones y tres variables permite
“explicar” dos variables cualesquiera en términos de la tercera variable. En
economía, tradicionalmente se considera que C y Y están determinadas por los
movimientos de I y de la perturbación. Por esto C y Y son denominadas
variables endógenas e I es llamada variable exógena.
Si se sustituye la segunda ecuación en la primera, es fácil ver que
Ct - C1
1t1
2−−α
α = 0 1t t
1 11
1uI
1 1 1α α
α α α+ +
− − −
Yt - Y1
1t1
2−−α
α =0
2
1 1 1
1 1( )
1 1 1
α αα α α
−+ − +− − −
t t 1 tuI I
De esta forma C y Y tienen ambas un componente AR(1) con el mismo
coeficiente sobre el término rezagado. El lado derecho de cada ecuación se
puede mirar como un término de perturbación general, con propiedades que
dependen del comportamiento de I. Si I fuera ruido blanco alrededor de una
media el consumo sería un AR(1) y el ingreso un ARMA(1,1).
Es importante observar que la clasificación en variables endógenas y exógenas
depende del sistema de ecuaciones que se está trabajando. Por ejemplo,
considere el modelo
Ct = α0+α1Yt+α2Ct-1+ut
It = β0+β1(Yt-1-Yt-2)+vt
Yt ≡ Ct+It+Gt
donde G son los gastos del gobierno.
En esta nueva estructura las variables endógenas son C, Y e I. G es la variable
exógena.
Elkin Castaño –Guillermo Pérez 6
Para este sistema, puede probarse que cada variable endógena tiene el mismo
componente autorregresivo de orden tres. La naturaleza del término de
perturbación en la ecuación AR depende de las variables exógenas del
sistema. El cálculo de estas ecuaciones por sustituciones algebraicas es muy
tedioso. El manejo matricial y el operador de rezagos pueden simplificar este
trabajo.
• EL OPERADOR DE REZAGOS
Dada la serie de tiempo xt, se define el operador de rezagos L como
L(xt) ≡ Lxt = xt-1
Además
L2xt ≡ L(Lxt) = xt-2
En general
Lsxt= xt-s
Observe que
(1-L)xt = xt-xt-1=∆xt
donde ∆ es llamado el operador de primeras diferencias.
Es usual hablar de A(L) como un polinomio en el operador de rezagos L. Por
ejemplo:
A(L)=1-αL es un polinomio de grado 1 en L
A(L)=1-α1L-α2L2 es un polinomio de grado 2 en L
En el manejo de los operadores de rezagos es importante manejar el inverso
de A(L). Por ejemplo, considere A(L)=1-αL, entonces
(1-αL)(1+αL+α2L2+α3L3+... +αpLp)=1-αp+1Lp+1
ahora, cuando p→ ∞ y α<1 se tiene que αp+1Lp+1→ 0
Por lo tanto
(1-αL)(1+αL+α2L2+α3L3+... )=1
Elkin Castaño –Guillermo Pérez 7
luego
L11α−
=1+αL+α2L2+α3L3+...
de donde
A-1(L) = (1-αL)-1 = 1+αL+α2L2+α3L3+... =0
i i
i
Lα∞
=∑
• Ejemplo. Usando el operador de rezagos y la representación matricial, el modelo
Ct = α0+α1Yt+α2Ct-1+ut
It = β0+β1(Yt-1-Yt-2)+vt
Yt ≡ Ct+It+Gt
se puede escribir de la siguiente forma
−−−−
−−
111
)L1(L10
0L1
1
12
βαα
Y
I
C
t
t
t
=
10
0
0
0
0
βα
G
1
t
+
0v
u
t
t
o, en forma abreviada
A(L)xt=Bzt+wt (a)
donde
A(L)=
−−−−
−−
111
)L1(L10
0L1
1
12
βαα
es una matriz 3x3 con elementos que son polinomios, algunos de orden cero en
el operador rezago, xt es un vector de 3x1 que contiene a las variables endógenas
Ct, It y Yt; B es una matriz de 3x2 de constantes algunas de ellas ceros, zt es otro
vector de 2x1 que contiene a 1 y la variable exógena Gt y wt es el vector de 3x1 de
perturbaciones.
Ahora, si queremos “despejar” a xt en el modelo anterior, es necesario invertir la
matriz inversa A-1(L) de A(L), donde
Elkin Castaño –Guillermo Pérez 8
A-1(L)=(L)1
AC(L)
)(LA : determinante de la matriz A(L), con )(LA ≠ 0
C(L): Matriz de cofactores transpuesta.
Reemplazando en el modelo anterior se obtiene que
xt= A-1(L){C(L)Bzt+C(L)wt}
xt= (L)1
AC(L){C(L)Bzt+C(L)wt}
)(LA xt=C(L)Bzt+C(L)wt
Se puede probar que
)(LA =(1-α2L)[1-β1L(1-L)] - α1=1-α1-(α2+β1)L+β1(1+α2)L2-α2β1L
3
Con base en la información anterior se puede observar que el sistema original se
transforma de manera tal que para cada variable endógena aparece un proceso
ARMA con la parte AR de orden 3.
• LAS FUNCIONES DE AUTOCOVARIANZA, AUTOCORRELACIÓN Y
AUTOCORRELACÓN PARCIAL PARA UNA SERIE DE TIEMPO ESTACIONARA
Para una serie de tiempo xt estacionaria se define:
� La función de autocovarianza: El coeficiente de autocovarianza de orden k
mide el tipo de asociación lineal que existe entre los términos xt y xt+k de la
serie de tiempo. Se define como:
k t t k t t kCov( x , x ) E( x )( x )γ µ µ+ += = − −
donde k=0, ± 1, ± 2, …
Elkin Castaño –Guillermo Pérez 9
kγ como función de k es llamada la función de autocovarianza.
Si k=0, 0γ es la varianza de xt.
kγ = kγ − , es decir, la función de autocovarianza es simétrica con respecto a k=0.
Esto implica que en la práctica basta con conocer el lado positivo de la función.
� La función de autocorrelación (ACF): El coeficiente de autocorrelación de
orden k mide el tipo y el grado de asociación lineal que existe entre los
términos xt y xt+k de la serie de tiempo. Se define como:
1 2/
k t t k t t k t t kCor( x , x ) E( x )( x ) /[V ar( x )V ar( x )]ρ µ µ+ + += = − −
0k k /ρ γ γ=
kρ como función de k es llamada la función de autocorrelación.
La gráfica de k
ρ contra k es llamada correlograma.
0ρ =1
1k| |ρ ≤
kρ = kρ− , es decir, la función de autocorrelación también es simétrica con
respecto a k=0. Esto implica que en la práctica basta con conocer el lado
positivo de la función.
� La función de autocorrelación parcial (PACF): El coeficiente de autocorrelación
parcial de orden k mide el tipo y el grado de asociación lineal que existe entre
los términos xt y xt+k de la serie de tiempo, eliminando la influencia lineal de los
términos de la serie entre los períodos t y t+k . Se define como:
1 1kk t t k t t kCor( x , x | x ,..., x )α + + + −=
El coeficiente kkα se puede obtener de la autorregresión dada por,
Xt+k=m+ 1kα Xt+k-1+ 2kα Xt+k-2+ …+ kkα Xt + t kε +
Donde t kε + es un proceso de ruido blanco con distribución normal.
kkα como función de k es llamada la función de autocorrelación parcial.
La gráfica de kkα contra k es llamada correlograma parcial.
Elkin Castaño –Guillermo Pérez 10
Observación:
Cuando el proceso estocástico es Normal (Gaussiano) su comportamiento está
descrito completamente por las funciones anteriores.
• ESTIMACIÓN DE LAS FUNCIONES DE AUTOCOVARIANZA,
AUTOCORRELACIÓN Y AUTOCORRELACÓN PARCIAL PARA UNA SERIE DE
TIEMPO ESTACIONARA
Dada una realización x1, x2, …, xn, de un proceso estocástico estacionario,
� El estimador para la función de autocovarianza es:
ˆkγ =
1 1
n k n
t t k t t kt t k
( x x )( x x ) / n ( x x )( x x ) / n−
+ −= = +
− − = − −∑ ∑
donde x = 1
/n
tt
x n=∑ .
� El estimador para la función de autocorrelación (ACF muestral) es
ˆkρ = ˆ
kγ / 0γ = 1
n k
t t kt
( x x )( x x )−
+=
− −∑ / 2
1
n
tt
( x x )=
−∑
La gráfica de ˆk
ρ contra k es llamada correlograma muestral.
Observe que en el cálculo de ˆkγ se pierden k observaciones de las n
iniciales. Debido a esto, se recomienda que el número máximo de
coeficientes a estimar no pase de n/4.
� El estimador para la función de autocorrelación parcial (PACF muestral).
Las autocorrelaciones parciales muestrales se pueden obtener de la
siguiente manera. Se ajustan las regresiones
yt=m+α1yt-1+εt, de donde se obtiene α11=α1
yt=m+α1yt-1+α2yt-2+εt, de donde se obtiene α 22 =α 2
.
.
.
Elkin Castaño –Guillermo Pérez 11
yt=m+α1yt-1+α2yt-2+α3yt-3+…+αkyt-k+εt, de donde se obtiene α kk =α k
• MODELACIÓN DE UN PROCESO ARMA
Hay tres pasos en la modelación de proceso un ARMA:
1. Verifique si la serie es estacionaria. Si no lo es, hay que transformarla para tratar
de inducir la estacionaridad.
2. Use las funciones de autocorrelación y autocorrelación parcial muestrales de la
serie estacionaria para escoger unos pocos modelos que sean consistentes con el
comportamiento teórico de dichas funciones. Estos modelos se estiman y se
selecciona el mejor.
3. Calcule los pronósticos sobre un horizonte de tiempo con base en el modelo
seleccionado.
Inicialmente desarrollaremos la segunda etapa. La idea básica es derivar los patrones
teóricos de las autocorrelaciones y de las autocorrelaciones parciales, para los
modelos AR, MA, ARMA. Después se comparan estos patrones con los calculados
empíricamente para la serie que se está analizando. Con base en esta información (la
teórica y la empírica) se trata de seleccionar algunos modelos ARMA para después
realizar las estimaciones y la validación estadística.
• PROPIEDADES DE LOS PROCESOS AR, MA, ARMA
PROCESOS AUTORREGRESIVOS, AR
El Proceso AR(1)
Recordemos que un proceso AR(1) está dado por
yt = m + αyt-1 + εt
donde εt es ruido blanco.
Usando el operador rezagos se tiene
(1-αL)yt = m + εt
Elkin Castaño –Guillermo Pérez 12
luego
yt =(1-αL)-1(m + εt)
entonces
yt=(1+αL+α2L2+... )( m+εt)
de donde
yt=(1+αL+α2L2+... )m +εt+ αεt-1 +α2εt-2+...
por lo tanto
yt=m∑∞
=0i
iα + εα it
0i
i−
∞
=∑
Asumiendo que α<1
yt =α1
m−
+ εα it0i
i−
∞
=∑
De la expresión anterior, se obtiene
E[yt]= µ = m
1 α−
σ2y = 0γ =
2ε
2
σ
1 α−
Es importante observar que bajo la restricción α<1 la media y la varianza anteriores
no dependen del tiempo.
Para el desarrollo de las covarianzas (también de la varianza) y de las
autocorrelaciones es útil trabajar con las series en desviaciones, puesto que se
simplifican los cálculos.
Como m=µ(1-α) entonces el proceso AR(1) se puede escribir
yt=µ(1-α)+α yt-1+εt
luego
xt=αxt-1+εt
Elkin Castaño –Guillermo Pérez 13
donde xt = yt-µ. La nueva serie, xt, tiene media cero y además la varianza,
autocovariazas y autocorrelaciones coinciden con las de la serie yt. De xt se dice que
es la serie en desviaciones con respecto a su media.
Las autocovarianzas para un AR(1) :
El proceso AR(1) en desviaciones con respecto a la media es xt = αxt-1+εt.
Multiplicando a ambos lados por xt-1 y tomando esperanza
E(xt xt-1)= αE(2t-1x )+E(xt-1εt)
donde E(xt-1εt) =0, puesto que xt-1 depende únicamente de εt-1, εt-2, … y no de εt. Como
εt es ruido blanco entonces no está correlacionado con εt-1, εt-2, …
De la ecuación anterior se obtiene
1 0γ αγ=
De manera similar si multiplicamos xt=αxt-1+εt a ambos lados por xt-2 y se toma
esperanza se obtiene
2 1γ αγ=
y, en general
2
1 2 0
k
k k k ...γ αγ α γ α γ− −= = = =
para k=0,1,2,…
Para un AR(1) las autocorrelaciones están dadas por
kρ k k-1
0 0
γ αγγ γ
= = =αρ 1-k = kα k=1, 2, ...
Gráficamente, el correlograma es de la forma:
Elkin Castaño –Guillermo Pérez 14
0 8.α = 0 8.α = −
Observe que las propiedades de media constante, varianza constante y
autocovarianzas que solamente dependen de k y no del tiempo, fueron derivadas bajo
la restricción de que α<1. Por tanto un proceso AR(1) es estacionario si se cumple
este supuesto.
Función de autocorrelación parcial (PACF) de un proceso AR(1).
• Con base en la ACF no se puede definir el orden 1 de un proceso AR(1). Una
herramienta útil para detectarlo es la función de autocorrelación parcial (PACF).
• Recuerde que dada la serie x1, x2, ..., xt-k, xt-k+1, ...xt, ..., el coeficiente de correlación
parcial entre xt-k y xt, está dado por el coeficiente de correlación entre xt-k y xt
después de eliminar la influencia lineal de xt-k+1, ... xt-1. Este coeficiente lo
denotamos por αkk.
Considere el proceso AR(1),
xt= αxt-1+εt
Entonces, de acuerdo con la definición de la PACF, se tiene que
α11=α
αkk=0 k≥2
Gráficamente, para procesos AR(1) con 0 8.α = y 0 8.α = − , los correlogramas
parciales tienen la forma,
Elkin Castaño –Guillermo Pérez 15
PACF de un AR(1) con 0 8.α =
PACF de un AR(1) con 0 8.α = −
El proceso AR(2)
El proceso AR(2) se define como
yt = m + α1yt-1 + α2yt-2 + εt
Asumiendo estacionaridad se tiene que
E[yt] = E[yt-1] = E[yt-2] = µ
de donde
µ = αα1
m
21 −−
Si xt = yt - µ entonces el proceso AR(2) tiene la forma
xt = α1xt-1+ α2xt-2+εt
Elkin Castaño –Guillermo Pérez 16
Si se multiplica la ecuación anterior por xt y se toma esperanza se obtiene
γ0 =α1γ1+α2γ2+σ2ε
De igual forma, si se multiplica por xt -1 y se toma esperanza se obtiene
γ1=α1γ0+α2γ1
De manera similar, si se multiplica por xt -2 y se toma esperanza se obtiene
γ2=α1γ1+α2γ0
De las dos ecuaciones anteriores se tiene que
γ1= 0
α γα−
1
21
γ2= γ 02
21
α1α
−+α2γ0
Reemplazando estas ecuaciones en la ecuación para 0γ se concluye
γ0=)1)(1)(1(
σ)1(
21212
2ε2
αααααα
−+−−+−
Bajo estacionaridad esta varianza debe ser constante. Como γ0 debe ser un número
positivo se debe cumplir que
1-α2>0 1+α2>0 1-α1-α2>0 1+α1-α2>0
luego
α1+α2<1 α2-α1<1 -1< α2< 1
Las tres desigualdades anteriores definen las condiciones de estacionaridad de un
proceso AR(2).
Con base en las ecuaciones para las covarianzas de orden 1 y 2, dividiendo por γ0 se
obtiene
Elkin Castaño –Guillermo Pérez 17
ρ1=α1+α2ρ1
ρ2=α1ρ1+α2
estas dos ecuaciones son denominadas las ecuaciones de ’Yule-Walker’ para un
proceso AR(2). Resolviendo el sistema para ρ1 y ρ2 se obtiene
ρ1=α1α
2
1
− ρ2=
α1α
2
21
−+α2
Para k=3, 4,... se obtiene que
ρk=α1ρk-1+α2ρk-2
Esta es una ecuación en diferencias de segundo orden con los dos primeros valores
dados por los valores anteriores de ρ1 y ρ2. Además los coeficientes de esta ecuación
en diferencia son los coeficientes del proceso AR(2). Por lo tanto las condiciones de
estacionaridad garantizan que el ACF decrece rápidamente hacia cero de manera
exponencial o en ondas sinusoidales.
Ejemplo.
ACF de un AR(2) con α1=0.6 y α2=0.3
Raíces del polinomio en el operador de rezagos
El proceso AR(2) se puede escribir con base en el polinomio A(L) de la siguiente
manera
A(L)xt=εt
donde
A(L)=1-α1L-α2L2
Este polinomio de grado 2 se puede expresar como el producto de dos factores
Elkin Castaño –Guillermo Pérez 18
A(L)= 1-α1L-α2L2=(1-λ1L)(1-λ2L)
De la factorización, la conexión entre los parámetros λ y α es
λ1 + λ2 =α1 λ1 λ2 = -α2
Los valores λ son realmente las raíces del polinomio
λ2 - α1λ - α2 =0
A este polinomio se le denomina la ecuación característica asociada al proceso AR(2).
Las raíces serán:
λ1=2
α4αα 2211 ++
λ2=2
α4αα 2211 +−
La inversa de A(L) puede ser escrita como
A-1(L)= L)λL)(1λ-(1
1
21 −=
Lλ-1c
1
+Lλ1
d
2−
Donde
c=λλ
λ
12
1
−− y d=
λλ
λ
12
2
−
Por tanto el proceso AR(2) también se puede escribir como
xt= A-1(L)εt =Lλ-1
c
1
εt +Lλ1
d
2−εt
Por analogía con el procesos AR(1) para que xt sea estacionaria se debe dar que
λ1<1 y λ2<1
Estas condiciones son equivalentes a las derivadas anteriormente, es decir, un
proceso AR(2) es estacionario si las raíces de la ecuación λ2-α1λ-α2 =0 son tales que
λ1<1 y λ2<1, o equivalentemente, si α1+α2<1, α2-α1<1 y -1< α2< 1.
Elkin Castaño –Guillermo Pérez 19
Es bueno observar que las raíces λ1 y λ2 pueden ser reales o complejas. En el primer
caso α21 +4α2 ≥ 0 y en el segundo caso α
21 +4α2<0.
Si λ1 y λ2 son complejas, las podemos escribir como el par de números complejos
conjugados
λ1 =h+vi y λ2 =h-vi
donde
h=2α1 v=
2
)α4α( 221 +−
i = - 1− , i2 = -1
En este caso, la solución de la ecuación en diferencias de orden 2 para el
correlograma produce gráficas que son ondas sinusoidales que van convergiendo
rápidamente a cero.
Ejemplo.
ACF de un AR(2) con α1=0.5 y α2= -0.8
Cuando se tienen soluciones complejas se define el módulo de λj como
λj= vh 22 + = -α2, j=1, 2
lo cual indica que para 20 1α< − < es la condición para que el correlograma presente
ondas sinusoidales decrecientes.
En conclusión para que un proceso AR(2) sea estacionario se debe cumplir que
λ1<1 λ2<1
Elkin Castaño –Guillermo Pérez 20
siendo λj el módulo de λj, es decir las raíces de la ecuación característica deben
estar dentro del círculo unidad.
Una forma alternativa es calcular las raíces Z del polinomio
A(Z)=1-α1Z-α2Z2=(1-λ1Z)(1-λ2Z)=0
Las raíces serán
Z1=1/λ1 Z2=1/λ2
Para esta presentación se dice que el proceso es estacionario si las raíces se
encuentran fuera del círculo unidad.
PACF para un proceso AR(2)
Considere el proceso
xt= α1xt-1+ α2xt-2+εt
Entonces, se tiene que
α11=ρ1=α1α
2
1
−
α22=α2
αkk=0 k≥3
Gráficamente,
PACF de un AR(2)
Elkin Castaño –Guillermo Pérez 21
Es bueno observar que en un proceso AR(2), además del efecto de xt-2 que se
transmite a través de xt-1 sobre xt, existe un efecto directo de xt-2 sobre xt debido a que
xt-2 aparece en la ecuación que determina a xt.
• Para un proceso AR(2) estacionario, se puede probar que el parámetro α2 es el
coeficiente de correlación parcial entre xt y xt-2 dado que xt-1 está fijo o constante,
es decir que
r13.2= 2α =
22α
donde xt es la variable 1, xt-1 variable 2 y xt-2 variable 3.
El proceso AR(p)
El proceso AR(p) se define como
yt = m + α1yt-1 + α2yt-2 +…+ αpyt-p + εt
Este proceso se puede escribir como
yt -α1Lyt + α2L2yt +…+ αpL
pyt = m + εt
(1 - α1L - α2L2 -…- αpL
p) yt = m + εt
A(L) yt = m + εt
donde A(L) = 1 - α1L - α2L2 -…- αpL
p es un polinomio de orden p en potencias de L.
Asumiendo estacionaridad se tiene que
E[yt] = E[yt-1] = E[yt-2] = … = E[yt-2] = µ
de donde
µ = α...αα1
m
p21 −−−−
Si xt = yt - µ entonces el proceso AR(p) tiene la forma
Elkin Castaño –Guillermo Pérez 22
xt = α1xt-1 + α2xt-2+ …+ α2xt-2 + εt
Condición de estacionaridad en un AR(p):
Considere la factorización del polinomio A(L) de AR(p)
A(L) = 1 - α1L - α2L2 -…- αpL
p = (1-λ1L)(1-λ2L)… (1-λpL)
Los valores λ son realmente las raíces del polinomio
λp - α1λp-1 - …- αp-1λ - αp =0
A este polinomio se le denomina la ecuación característica asociada al proceso AR(p).
Un proceso AR(p) es estacionario si las p raíces λj de la ecuación característica son
tales que |λj|<1 para todo j=1,2,..,p, es decir, si la p raíces caen dentro del círculo
unidad.
Alternativamente, se pueden calcular las raíces Z del polinomio
A(Z)=1 - α1Z - α2Z2 - …-αpZ
p = (1-λ1Z)(1-λ2Z)… (1-λpZ)=0
Las raíces serán
Z1=1/λ1 Z2=1/λ2, …, Zj=1/λp,
Por tanto, en este caso el proceso AR(p) es estacionario si las raíces Zj son tales que
su módulo | Zj|>1, o si todas las raíces se encuentran fuera del círculo unidad.
La función de autocorrelación de un AR(p):
Se puede probar que la ACF del proceso está determinada por:
kρ = 1α 1kρ − + 2α 2kρ − +…+ pα k pρ − si k ≥ 1
Esto indica que la ACF sigue una ecuación en diferencias de orden p con un polinomio
A(L) igual al del proceso AR(p). Bajo estacionaridad del proceso, la solución de esta
Elkin Castaño –Guillermo Pérez 23
ecuación produce una ACF que converge hacia cero. Si existen raíces complejas
esta convergencia presenta ondas sinusoidales.
PACF de un AR(p)
αkk=
>≤≠
pk 0
pk 0
donde p
α =pp
α .
Conclusión: En un proceso AR(p), el PACF tiene un corte en el rezago p, por lo
tanto el orden de un AR se escoge de tal forma que αkk ≠0 para k ≤ p, pero αkk = 0
con k>p.
• Es bueno observar que en la práctica no se sabe si el proceso es un AR y tampoco
se conoce p. Es de esperar que si los datos provienen de un AR estacionario
el ACF muestral debe converger a cero pero el PACF debería mostrar un
corte a cero, después del posible valor p.
PROCESOS DE MEDIAS MÓVILES, MA
• Dado el proceso AR(1) estacionario
xt= αxt-1+εt
tenemos que
(1-αL)xt =εt
xt=αL1ε t
−=(1+αL+α2L2+...)εt =εt +αεt-1+α2εt-2...
En este caso se dice que el proceso se ha invertido. xt está representado como
una suma infinita ponderada del ruido blanco y sus valores rezagados. A esta
representación se le denomina un promedio móvil infinito que se denota por
MA(∞).
• En general cualquier proceso AR(p) estacionario se puede representar como una
suma infinita ponderada de un término de perturbación no correlacionado y sus
Elkin Castaño –Guillermo Pérez 24
rezagos (descomposición de Wold, 1938). En la práctica es importante conocer las
propiedades de los procesos MA.
Procesos MA(q) finitos
• Un proceso MA(q) se define como
yt=µ+εt-β1εt-1-β2εt-1 - ... -βqεt-q
donde εt es un proceso de ruido blanco. Es fácil ver que
E[yt]= µ
γ0=var(yt)= σ2ε (1+β
21 + ... + β
2q )
En general todo proceso MA finito es estacionario. Para simplificar se trabajará
con el modelo en desviaciones.
• El proceso MA(1)
Un proceso MA(1) sigue la especificación
xt = εt - β1εt-1
Para este proceso:
E[xt] = 0
var(xt) = γ0 = σ2ε (1+β
21 )
Autocovarianzas:
γ1 = E[xtxt-1] = - β1σ2ε
γ2 = ... = γk = 0
Autocorrelaciones:
ρ1 = β1
β21
1
+
−
ρk = 0 K>1
Elkin Castaño –Guillermo Pérez 25
El ACF de un MA(1) tiene un corte en k=1. En este caso se dice que tiene memoria de
un período. También se puede probar que |ρ1|<0.5.
ACF de un MA con β1=0.7
ACF de un MA con β1=-0.7
Ahora un proceso MA(1) puede ser invertido y expresado por lo tanto como un AR(∞).
Como
xt = εt - β1εt-1 = (1-β1L)εt
se tiene que
εt =Lβ-1
x
1
t = xt +β1 xt-1 + β21 xt-2 + ...
Luego
xt =-β1 xt-1 - β21 xt-2
... + εt ~ AR(∞)
Elkin Castaño –Guillermo Pérez 26
El proceso de inversión tiene sentido si |β1|<1. En este caso se habla de condiciones
de invertibilidad. Como un MA(1) invertible es un AR(∞) entonces el PACF no tiene
corte, sino que converge a cero.
El Proceso MA(2)
Un proceso MA(2) está definido por
xt = εt - β1εt-1 - β2εt-2
o, en términos del operador de rezagos,
xt = (1 - β1L - β2L2)εt
o,
xt = B(L)εt
donde B(L) = 1 - β1L - β2L2, es el polinomio del proceso MA(2).
Es fácil verificar que
E[xt] = 0
var(xt) = γ0 = σ2ε (1+β
21 +β
22 )
Autocovarianzas
γ1 = E[xtxt-1] = -σ2ε (β1 - β1β2)
γ2 = -β2σ2ε
γk = 0 k≥3
Autocorrelaciones
ρ1 = 1 1 22 21 2
( )β β β
1 β β
− −+ +
ρ2 =ββ1
β22
21
2
++
−
ρk = 0 k≥3
ACF de un MA(2)
Elkin Castaño –Guillermo Pérez 27
Para que un proceso MA(2) sea invertible se deben cumplir condiciones similares a las
que debe tener un proceso AR(2) para que sea estacionario. Luego un MA(2) será
invertible si
β1+β2<1 β2-β1<1 -1< β2< 1
Equivalentemente, se puede probar que el proceso MA(2) es invertible si las raíces de
la ecuación característica λ2 - β1λ - β2 =0 asociada al polinomio del MA(2) tiene sus dos
raíces dentro del círculo unidad. O, alternativamente, si las raíces Z de la ecuación
B(Z)=1 - β1Z - β2Z2=0 caen fuera del círculo unidad.
Como un MA(2) es un AR(∞) el PACF de un MA(2) no tiene corte, sino que converge a
cero.
En general, en un proceso MA(q) el ACF tiene corte en q, el PACF no tiene corte
pero si converge a cero.
EL PROCESO MIXTO ARMA
• Un proceso ARMA(p, q) se define como
yt=m+α1yt-1+α2yt-2+ ... +αpyt-p+εt-β1εt-1-β2εt-2- ... -βqεt-q
A(L)yt =m+B(L)εt
donde
A(L)=1-α1L-α2L2 - ... -αpL
p y B(L)=1-β1L-β2L2 - ... -βqL
q
Bajo las condiciones de estacionaridad se tiene que
Elkin Castaño –Guillermo Pérez 28
E[yt] = ααα-1
m
p21 −−− � = µ
Luego
m = µ(1-α1-α2 - ... -αp)
Si xt = yt - µ se tiene que
xt=α1xt-1+α2xt-2+ ... +αpxt-p+εt - β1εt-1 - β2εt-2 - ... - βqεt-q
de donde
A(L)xt =B(L)εt
Las condiciones de estacionaridad requieren que las raíces de A(L)=0 se encuentren
fuera del círculo unidad ó de manera equivalente, que las raíces de la ecuación
característica se encuentran dentro del círculo unidad. Para que el proceso sea
invertible las raíces de B(L) deben cumplir la condición anterior. Bajo estas dos
condiciones un ARMA(p, q) se puede representar como un AR(∞) o un MA(∞), es decir
xt = A-1(L)B(L)εt es la representación MA(∞)
B-1(L)A(L)xt =εt es la representación AR(∞)
El proceso ARMA(1,1)
Un proceso ARMA(1,1) está dado por
xt=αxt-1+εt - βεt-1
(1-αL)xt =(1-βL)εt
Condiciones de estacionaridad: |α|<1 ó 1/|α|>1
Condiciones de invertibilidad : |β|<1 ó 1/|β|>1
Se puede probar que
γ0 = α-1
)β2α-(1σ2
22ε +β
|α| <1
Elkin Castaño –Guillermo Pérez 29
γ1 = α-1
)-β)(1-(ασ2
2ε αβ
γ2 = αγ1
γ3 = αγ2 = α2γ1
.
.
.
γK = αγk-1 = αk-1γ1
Luego el ACF de un ARMA(1,1) está dado por
ρ1 = 2
(α-β)(1-αβ)1-2αβ+β
ρk = αρk-1 = αk-1ρ1 k=2, 3, ..., k
Dado que un ARMA(1,1) es una combinación de un AR(1) y un MA(1) la ACF debe
exhibir ambos procesos. La contribución del MA(1) es fundamentalmente para ρ1
debido a que tiene memoria de un período. A partir de 2 la ACF declina
exponencialmente de acuerdo al proceso AR.
La PACF tampoco tiene corte pero si tiene convergencia a cero.
En general para un ARMA(p, q) se observa que la ACF tiene un comportamiento
irregular en las primeras q autocorrelaciones y después converge hacia cero de
acuerdo al proceso AR(p). La PACF tiene un comportamiento irregular en las primeras
p autocorrelaciones parciales y después convergencia hacia cero de acuerdo al
proceso MA(q).
Los comportamientos de la ACF y la PACF para los modelos ARMA se resumen en la
siguiente tabla
Elkin Castaño –Guillermo Pérez 30
ACF
PACF
AR(p) Convergencia a cero Corte después del rezago p.
MA(q) Corte después del rezago q Convergencia a cero
ARMA(p,q) Convergencia a cero Convergencia a cero
Identificación de los modelos de series de tiempo.
El estudio de los comportamientos de las ACF y PACF teóricas de los modelos AR,
MA y ARMA, es la base para la identificación del modelo generador de los datos de
una serie de tiempo observada.
Identificación de un proceso de ruido blanco. El caso más elemental de una serie
de tiempo estacionaria es el ruido blanco. Para este proceso se tiene que ρk=0 para
todo k, es decir, su ACF es nula.
Ahora, es de esperar que en la ACF muestral de un proceso que es ruido blanco, las
autocorrelaciones muestrales sean estadísticamente cero para todo k. La significancia
de las autocorrelaciones muestrales es usualmente verificada con base en la siguiente
propiedad: Si y1, y2, ...., yn provienen de una serie que es ruido blanco entonces rk ~a
N(0, 1/n). Para probar
HO: ρk=0
H1: ρk≠0
Defina el estadístico de prueba
tk=1/nrk = rn k ~
aN(0,1)
Para α=0.05 se tiene que
H0 se rechaza si rn k ≥2 o si rk≥ n/2
Ejemplo.
El correlograma muestral de una serie de tiempo está dado por
Elkin Castaño –Guillermo Pérez 31
Las bandas indican que los rk< n/2 . Se concluye que el proceso que generó los
datos de la serie parece ser un proceso de ruido blanco.
Identificación de un proceso MA(q). Si el proceso que generó la serie es un proceso
MA puro, teóricamente la ACF debe tener un corte desde el rezago q+1 y la PACF
decrece hacia cero. El correlograma muestral nos ayuda a identificar el posible orden q
del proceso ya que si el MA fuera de orden q, las autocorrelaciones de orden k con
k>q no serían significativamente distintas de cero.
Para un proceso MA(q), se ha probado que para k>q se tiene que
rk ~a
N(0, var(rk))
donde
var(rk)
q2j
j=11+2 r
n
∑≈ k>q
Es bueno observar que, es usual aproximar a var(rk) por 1/n.
Ejemplo.
El correlograma muestral de una serie de tiempo está dado por
Elkin Castaño –Guillermo Pérez 32
Se observa que la PACF decrece hacia cero y que la PACF se anula estadísticamente
a partir de k=2. Por tanto el proceso que generó los datos parece ser un MA(1).
Identificación de un modelo AR(p). Si el proceso es un AR(p), teóricamente su ACF
decrece hacia cero y su PACF tiene un corte a partir del rezago p+1. Una herramienta
gráfica que puede facilitar la identificación del orden p de un AR puro es la PACF
muestral.
De nuevo es importante desarrollar las pruebas de hipótesis
HO: αkk = 0
H1: αkk ≠ 0
Para un proceso AR(p) se prueba que, para k>p, α kk ~a
N(0, 1/n).
Por lo tanto si se piensa que la muestra proviene de un AR, Ho se rechazaría a un
nivel de significación del 5%, si αn kk ≥2 o si α kk ≥ n/2 . Si αkk no es
significativo más allá del rezago p entonces se puede pensar que la serie proviene de
un AR(p).
Ejemplo.
El correlograma muestral de una serie de tiempo está dado por
Elkin Castaño –Guillermo Pérez 33
Se observa que la ACF decrece hacia cero y que la PACF se anula estadísticamente
desde el rezago k=2. . Por tanto el proceso que generó los datos parece ser un AR(1).
Identificación de un modelo ARMA(p,q).
Si el proceso es un ARMA(p,q), teóricamente tanto su ACF como su PACF decrecen
hacia cero. Sin embargo, en general no es fácil seleccionar los órdenes p y q con base
en el ACF y el PACF muestral debido a que las propiedades anteriores ya no son
válidas. Una recomendación para esta situación es estimar un conjunto de modelos
(modelos ARMA con bajos órdenes p y q), de estos, seleccionar los que se pueden
validar (con base en pruebas de diagnóstico) y por último, con base en criterios de
selección de modelos escoger el mejor.
Ejemplo.
El correlograma muestral de una serie de tiempo está dado por
Elkin Castaño –Guillermo Pérez 34
Se observa que tanto la ACF como la PACF parecen converger hacia cero.
Esto conduce a pensar que el modelo generador de los datos es un ARMA. Sin
embargo, sus órdenes no pueden ser derivados de la ACF y PACF. En la
práctica se proponen diferentes órdenes p y q (generalmente bajos) y se
estiman los modelos. Se elige el mejor modelo (validado) con base en criterios
de información.
EJERCICIOS DE SIMULACIÓN Series estacionarias Autorregresivas Simulación de un proceso AR(1) Macro en EVIEWS: 'creación de un archivo de trabajo workfile u 1 2050 'asignación de la semilla para la generación de los números aleatorios normales 'rndseed 8931 'simulación de un AR(1) estacionario con m=5, alfa=0.7 '----------------------------------------------------------------------------------------------------------- 'asignación de los parámetros del proceso 'para simular diferentes AR(1) basta cambiar los siguientes valores. 'observe que un proceso de ruido blanco se obtiene cuando alfa=0. scalar m=5 scalar alfa=0.7 scalar desv=2 'generación del término de error normal(0,4) genr e= desv*nrnd 'generación inicial con ceros de la serie que va a contener los datos del AR(1)
Elkin Castaño –Guillermo Pérez 35
genr y1=0 'generación del valor inicial: se asigna la media del proceso mu=m/(1-alfa) smpl @first @first y1=m/(1-alfa) 'generación de los valorres restantes smpl @first+1 @last genr y1=m+alfa*y1(-1)+e smpl @all 'para observar el efecto del tamaño muestral sobre la ACF y PACF muestrales cambie el valor de n1. 'también se eliminan los primeros 50 primeros valores para evitar la influencia de los valores inicilaes en la simulación scalar n1=1750 smpl @first+50+n1 @last 'gráfica de la serie simulada line y1 'Cálculo de los estadísticos descrptivos freeze y1.stats 'Cálculo de las ACF y PACF muestrales y1.correl(15) Resultados:
8
12
16
20
24
28
75 00 25 50 75 00 25 50 75 00
Y1
Sample: 1751 2000 Y1
Mean 16.57699 Median 16.41018 Maximum 24.81734 Minimum 10.95989 Std. Dev. 2.555810 Skewness 0.139166 Kurtosis 2.702382 Jarque-Bera 1.729642
Elkin Castaño –Guillermo Pérez 36
Probability 0.421127 Sum 4144.247 Sum Sq. Dev. 1626.509 Observations 250
Simulación de un AR(2) Macro en EViews 'creación de un archivo de trabajo workfile u 1 2050 'asignación de la semilla para la generación de los números aleatorios normales 'rndseed 8931 'simulación de un AR(2) estacionario con m=5, alfa1=0.5, alfa2=0.3 '----------------------------------------------------------------------------------------------------------- 'asignación de los parámetros del proceso 'para simular diferentes AR(2) basta cambiar los siguientes valores. scalar m=5 scalar alfa1=0.5 scalar alfa2=0.3 scalar desv=2 'generación del término de error normal(0,4) genr e= desv*nrnd 'generación inicial con ceros de la serie que va a contener los datos del AR(1) genr y2=0 'generación del valor inicial: se asigna la media del proceso mu=m/(1-alfa) smpl @first @first+1 y2=m/(1-alfa1-alfa2) 'generación de los valorres restantes smpl @first+2 @last genr y2=m+alfa1*y2(-1)+alfa2*y2(-2)+e smpl @all 'para observar el efecto del tamaño muestral sobre la ACF y PACF muestrales cambie el valor de n1.
Elkin Castaño –Guillermo Pérez 37
'también se eliminan los primeros 50 primeros valores para evitar la influencia de los valores iniciales en la simulación scalar n1=1750 smpl @first+50+n1 @last 'gráfica de la serie simulada line y2 'Cálculo de los estadísticos descriptivos freeze y2.stats 'Cálculo de las ACF y PACF muestrales y2.correl(15) Resultados:
16
18
20
22
24
26
28
30
32
34
75 00 25 50 75 00 25 50 75 00
Y2
Sample: 1751 2000 Y2
Mean 24.90203 Median 24.51606 Maximum 34.24438 Minimum 16.77101 Std. Dev. 3.295266 Skewness 0.184754 Kurtosis 2.670591 Jarque-Bera 2.552575 Probability 0.279071 Sum 6225.507 Sum Sq. Dev. 2703.836 Observations 250
Elkin Castaño –Guillermo Pérez 38
Simulación de procesos MA(q) invertibles Simulación de un proceso MA(1) Macro en EViews 'creación de un archivo de trabajo workfile u 1 2050 'asignación de la semilla para la generación de los números aleatorios normales 'rndseed 8931 'simulación de un MA(1) estacionario con m=5, beta=0.7 '----------------------------------------------------------------------------------------------------------- 'asignación de los parámetros del proceso 'para simular diferentes MA(1) basta cambiar los siguientes valores. 'observe que un proceso de ruido blanco se obtiene cuando beta=0. scalar m=5 scalar beta=-0.7 scalar desv=2 'generación del término de error normal(0,desv^2) genr e= desv*nrnd 'generación de los valores de la serie. El primer valor no está definido genr y1=m+e+beta*e(-1) 'para observar el efecto del tamaño muestral sobre la ACF y PACF muestrales cambie el valor de n1. 'también se eliminan los primeros 50 primeros valores para evitar la influencia de los valores iniciales en la simulación scalar n1=1750 smpl @first+50+n1 @last 'gráfica de la serie simulada line y1 'Cálculo de los estadísticos descriptivos freeze y1.stats 'Cálculo de las ACF y PACF muestrales y1.correl(15)
Elkin Castaño –Guillermo Pérez 39
Resultados:
-2
0
2
4
6
8
10
12
1800 1850 1900 1950 2000
Y1
Sample: 1751 2000 Y1
Mean 5.051787 Median 5.242392 Maximum 11.03352 Minimum -0.898052 Std. Dev. 2.467722 Skewness -0.043227 Kurtosis 2.276032 Jarque-Bera 5.537538 Probability 0.062739 Sum 1262.947 Sum Sq. Dev. 1516.324 Observations 250
Elkin Castaño –Guillermo Pérez 40
Simulación de un proceso MA(2) Macro en Eviews 'creación de un archivo de trabajo workfile u 1 2050 'asignación de la semilla para la generación de los números aleatorios normales 'rndseed 8931 'simulación de un MA(2) estacionario con m=5, beta1=-0.5, beta2=-.3 '----------------------------------------------------------------------------------------------------------- 'asignación de los parámetros del proceso 'para simular diferentes AR(2) basta cambiar los siguientes valores. scalar m=5 scalar beta1=-0.5 scalar beta2=-0.3 scalar desv=2 'generación del término de error normal(0,4) genr e= desv*nrnd 'generación de los valores de la serie. Los dos primeros valores no están definidos genr y2=m+e+beta1*e(-1)+beta2*e(-2) 'para observar el efecto del tamaño muestral sobre la ACF y PACF muestrales cambie el valor de n1. 'también se eliminan los primeros 50 primeros valores para evitar la influencia de los valores iniciales en la simulación scalar n1=1750 smpl @first+50+n1 @last 'gráfica de la serie simulada line y2 'Cálculo de los estadísticos descriptivos freeze y2.stats 'Cálculo de las ACF y PACF muestrales y2.correl(15)
Elkin Castaño –Guillermo Pérez 41
Resultados:
-4
-2
0
2
4
6
8
10
12
1800 1850 1900 1950 2000
Y2
Sample: 1751 2000 Y2
Mean 4.964349 Median 5.028957 Maximum 11.55599 Minimum -2.198414 Std. Dev. 2.486284 Skewness -0.017241 Kurtosis 2.995421 Jarque-Bera 0.012604 Probability 0.993718 Sum 1241.087 Sum Sq. Dev. 1539.221 Observations 250
Elkin Castaño –Guillermo Pérez 42
Simulación de procesos ARMA(p,q) estacionarios e invertibles Simulación de un proceso ARMA(1,1) Macro en EViews 'creación de un archivo de trabajo workfile u 1 2050 'asignación de la semilla para la generación de los números aleatorios normales 'rndseed 8931 'simulación de un ARMA(1,1) estacionario con m=5, alfa=0.8 beta=-0.7 '----------------------------------------------------------------------------------------------------------- 'asignación de los parámetros del proceso 'para simular diferentes ARMA(1,1) basta cambiar los siguientes valores. 'observe que un proceso de ruido blanco se obtiene cuando alfa=0 y beta=0. scalar m=5 scalar alfa=0.7 scalar beta=-0.5 scalar desv=2 'generación del término de error normal(0,4) genr e= desv*nrnd 'generación inicial con ceros de la serie que va a contener los datos del ARMA(1,1) genr y1=0 'generación del valor inicial: se asigna la media del proceso mu=m/(1-alfa) smpl @first @first y1=m/(1-alfa) 'generación de los valorres restantes smpl @first+1 @last genr y1=m+alfa*y1(-1)+e+beta*e(-1) smpl @all 'para observar el efecto del tamaño muestral sobre la ACF y PACF muestrales cambie el valor de n1. 'también se eliminan los primeros 50 primeros valores para evitar la influencia de los valores iniciales en la simulación scalar n1=1750 smpl @first+50+n1 @last
Elkin Castaño –Guillermo Pérez 43
'gráfica de la serie simulada line y1 'Cálculo de los estadísticos descriptivos freeze y1.stats 'Cálculo de las ACF y PACF muestrales y1.correl(15) Resultados:
8
10
12
14
16
18
20
22
24
1850 1900 1950 2000 2050
Y1
Sample: 1801 2050 Y1
Mean 16.75472 Median 16.61422 Maximum 22.22004 Minimum 9.971558 Std. Dev. 2.183833 Skewness -0.064173 Kurtosis 3.080570 Jarque-Bera 0.239208 Probability 0.887272 Sum 4188.679 Sum Sq. Dev. 1187.512 Observations 250
Elkin Castaño –Guillermo Pérez 44
PRUEBAS DE ESTACIONARIDAD
Antes de proceder a calcular la media, la varianza y las funciones de autocovarianzas
y autocorrelación se debe verificar si la serie es estacionaria.
Dada una serie de tiempo y1, y2, ..., yn , tradicionalmente, existen dos métodos para
detectar si una serie es estacionaria o no:
• Un juicio subjetivo basado en el análisis gráfico de la serie y de su correlograma
muestral (ACF muestral).
• El empleo de pruebas estadísticas formales sobre la existencia de raíces unitarias
en la serie.
Análisis subjetivo.
Análisis de la gráfica de la serie.
Este análisis muestra como evoluciona la serie en el tiempo. A un nivel intuitivo
podemos pensar que la serie es estacionaria si está oscilando alrededor de su ‘’valor
medio’’ y si se observa estabilidad en la varianza. Es bueno tener en cuenta que esta
inspección visual puede no ser muy clara en muchos casos.
Elkin Castaño –Guillermo Pérez 45
Gráfica de un proceso estacionario
-20
-10
0
10
20
30
40
50
1850 1900 1950 2000
El uso del correlograma muestral.
Una herramienta gráfica más poderosa es el correlograma muestral. Teóricamente,
para una serie estacionaria la función de autocorrelación converge rápidamente hacia
cero. Como los rk son los estimadores de ρk, si una serie es estacionaria, el
correlograma muestral también debe converger rápidamente a cero.
Para ilustrar el uso del correlograma se construyeron 5 series artificiales (simuladas)
definidas a continuación.
Las series fueron generadas siguiendo los parámetros indicados. Y1 es un proceso
AR(1), Y2 es un proceso no estacionario llamado paseo aleatorio con deriva (observe
que el polinomio AR tiene una raíz unitaria, es decir, L=1), Y3 es un proceso no
estacionario AR(1) llamado explosivo y Y4 es la suma de una tendencia lineal en el
tiempo y un proceso AR(1) estacionario. Para cada una de estos modelos se
generaron series de 200 observaciones de las cuales se descartaron las primeras 100.
La serie Y5 es otro ejemplo de paseo aleatorio con deriva con un conjunto diferente
de parámetros.
Elkin Castaño –Guillermo Pérez 46
El correlograma para Y1 se presenta en la siguiente tabla.
Este correlograma muestra el típico comportamiento de un AR(1) estacionario, donde
la ACF decae rápidamente hacia cero y la PACF exhibe y la primera correlación
parcial es la única que es significativamente diferente de cero.
Para la serie no estacionaria Y2, ACF y PACF muestrales pueden ser calculadas
aunque sus contrapartes poblacionales (teóricas) no existen. La siguiente tabla
presenta los resultados para la serie Y2.
Elkin Castaño –Guillermo Pérez 47
Se observa que la ACF muestral decrece pero no tan rápido como en el AR(1)
estacionario. Sin embargo, el patrón de comportamiento no es muy diferente del de
Y1, debido a que su parámetro está muy cerca de 1. Esto indica que mientras más
cerca esté α a 1 por la izquierda (o, equivalentemente, más cerca de uno se encuentre
el módulo de la raíz del polinomio AR) más difícil es distinguir entre un AR(1)
estacionario y un proceso no estacionario de paseo aleatorio.
El correlograma muestral para la serie explosiva se presenta en la siguiente gráfica y
se observa que es muy similar al de Y2. Sin embargo, el correlograma parcial
muestral es distinto en el sentido de que todas las autocorrelaciones parciales son
cero, excepto la primera.
Elkin Castaño –Guillermo Pérez 48
Recuerde que la primera diferencia de una serie es 11t t t tY ( L )Y Y Y −∆ = − = − . Observe
que para Y2 su primera diferencia 2tY∆ =1+ tε , es decir es un proceso de ruido blanco,
el cual es un proceso estacionario. Si se denota la primera diferencia como DY2, la
siguiente gráfica presenta su correlograma muestral, el cual corresponde al de un
ruido blanco.
Elkin Castaño –Guillermo Pérez 49
Sin embargo, si se hace la primera diferencia de la serie explosiva Y3, no se obtiene
un proceso estacionario.
La siguiente gráfica muestra que el correlograma muestral de la serie diferenciada es
similar al de la serie sin diferenciar. Esta es la distinción que hay entre la serie no
estacionaria Y2 y la serie explosiva Y3: una serie no estacionaria como Y2 puede ser
transformada a estacionaria por medio de diferenciación, mientras que una serie
explosiva no.
SERIES INTEGRADAS Una serie de tiempo no estacionaria que para ser transformada en una estacionaria
se debe diferenciar, se le denomina serie integrada (o serie no estacionaria
homogénea).
El orden de integración es el mínimo número de veces que la serie debe ser
diferenciada para que alcance la estacionaridad. En este caso se dice que la serie es
un proceso autorregresivo y de medias móviles integrado. Este proceso se denota por
ARIMA(p, d, q), donde d es el orden de integración. Su especificación es
Elkin Castaño –Guillermo Pérez 50
A(L)(1-L)dyt =m+B(L)εt
Si la serie es estacionaria entonces d=0 y se dice que la serie es de orden de
integración 0 y se denota como I(0). Si la serie yt no es estacionaria pero si lo es ∆yt,
entonces d=1, entonces se dice que la serie es de orden de integración 1 y se denota
como I(1). Ahora una serie yt no estacionaria será I(2) si la serie ∆yt sigue siendo no
estacionaria, pero la serie ∆2yt =yt-2yt-1+yt-2 es estacionaria.
En el trabajo con datos económicos, generalmente las series son máximo de orden 2 y
generalmente son de orden 1. Es bueno observar que si una serie es estacionaria su
diferenciación (sobrediferenciación), sigue siendo estacionaria. Por ejemplo, un
proceso de ruido blanco es el ejemplo más simple de una serie estacionaria. Su
primera diferencia sigue siendo estacionaria y corresponde a un modelo MA(1) no
invertible. En efecto, si yt = m + εt, entonces ∆yt = εt - εt-1, es decir, el polinomio MA
contiene una raíz unitaria cuyo módulo (valor absoluto) es 1.
SERIES ESTACIONARIAS EN TENDENCIA (TS) y SERIES ESTACIONARIAS EN
DIFERENCIA (DS)
La serie Y4 es un ejemplo simple de una serie estacionaria en tendencia. Esta serie
puede ser escrita como:
yt = δ0 + δ1t + ut, ut = αut-1 + εt
o
yt = [δ0(1-α) + αδ1] + δ1(1-α)t + αyt-1 + εt
donde εt es un proceso de ruido blanco y α<1. En la siguiente gráfica se observa
que la serie Y4 fluctúa alrededor de la recta de tendencia y además la amplitud de las
fluctuaciones no aumentan ni tampoco disminuyen. Por esta razón se dice que la serie
es estacionaria en tendencia (TS). El modelo de tendencia en este caso es 10+0.5t y
aparece denotado en la gráfica como Y4HAT. Los incrementos constantes producen
una serie no estacionaria. Sin embargo, su primera diferencia es estacionaria y es de
la forma
∆ yt = δ1+ ∆ ut
donde ∆ ut es estacionaria, puesto que ut es estacionaria.
Elkin Castaño –Guillermo Pérez 51
Observe que ut es un ARMA(1,0) y que (1-αL) ∆ ut= (1-L)εt es un ARMA(1,1) no
invertible, puesto que contiene una raíz unitaria en su polinomio MA. Debido a este
problema, la diferenciación no es la forma correcta de estacionarizar este tipo de
proceso. Observe que la serie puede ser estacionarizada restando la tendencia a la
serie original puesto que
zt = yt - δ0 - δ1t = ut, ut = αut-1+εt
genera un proceso que es estacionario e invertible.
Si α=1, se tiene la serie Y5, la cual se puede escribir como
yt = δ0 + δ1t + ut, ut = ut-1 + εt
o
yt = δ1+ yt-1+ εt
En este caso las desviaciones de la tendencia, son no estacionarias debido a que ut es
un paseo aleatorio (existe una raíz unitaria en el polinomio autorregresivo). Se observa
que las desviaciones tienden a alejarse de la línea de tendencia. Para este caso la
primera diferencia toma la forma
∆yt=δ1+εt
Elkin Castaño –Guillermo Pérez 52
la cual es una serie estacionaria. En este caso se dice que la variable yt es
estacionaria en diferencias (DS).
Es importante analizar cuál es la verdadera diferencia entre los modelos TS y DS, los
cuales aparentemente son muy similares, pero que de hecho hay una importante
distinción. Si denominamos a ε como la innovación o choque (shock) aleatorio, se
puede probar que en el caso de una serie TS la innovación tiene un efecto transitorio
sobre yt, es decir, su efecto va disminuyendo con el tiempo, mientras que si la serie es
DS su efecto es permanente, es decir, nunca desaparece (es persistente).
Considere el caso de una serie TS. Entonces ut mide la desviación de la serie de la
línea de tendencia en el período t. Examinemos el efecto de una innovación εt sobre
las desviaciones actuales y futuras de la serie. Del modelo ut = αut-1 + εt, restando a
ambos lados ut-1 se obtiene
∆ut = εt + (α-1)ut-1 = εt + (α-1)(εt-1 + αεt-2 + α2εt-3 + …)
Sea εt el valor de la innovación en el instante t. Se quiere investigar cuál es efecto de εt
desde el período t hacia adelante, suponiendo que εt+1 = εt+2 =...= 0. En la expresión
anterior y en las siguientes no se tendrá en cuenta el término ut-1, el cual para este
análisis se puede considerar como constante. Por lo tanto
∆ut=εt
∆ut+1=(α-1)εt
∆ut+2=α(α-1)εt
.
.
.
∆ut+s=αs-1(α-1)εt
Sumando los términos anteriores se obtiene,
∑=
+
s
0jjtu∆ = εt [1+(α-1)
αα
−−
11 s
]= αsεt
Ahora, es fácil ver que
Elkin Castaño –Guillermo Pérez 53
ut+s=ut-1+∆ut+∆ut+1+ ... +∆ut+s
de donde,
∑=
+
s
0jjtu∆ = ut+s- ut-1
Por lo tanto
ut+s= ut-1+αsεt
De esta forma, en un modelo TS el efecto de la innovación εt sobre las desviaciones
de la tendencia disminuyen hacia cero, siempre y cuando α<1, a medida que nos
alejamos en el horizonte (s crece).
Para el caso de una serie DS, en la cual α=1, se tendría que ∆ut=εt y en este caso
ut+s=ut-1+ εt
Luego εt tiene un efecto permanente sobre las desviaciones sucesivas de la tendencia.
Los resultados anteriores se pueden obtener de una forma más simple, expresando a
ut en términos de las innovaciones
ut = εt + αεt-1 + α2εt-2+…
y por lo tanto
ε
u
t
st
∂∂ + =αs
De esta ecuación se obtienen los resultados anteriores de de acuerdo a si |α|<1 o si
α=1.
La comparación entre series TS y DS ha sido desarrollada en términos de modelos
con una especificación muy simple. Estas situaciones pueden ser analizadas para
procesos más complejos. De manera general, podemos tener modelos de la forma
yt - δ0 - δ1t = ut, donde A(L)ut = B(L)εt
donde A(L) y B(L) son polinomios de orden p y q en el operador rezago. Cuando todas
las raíces del polinomio A(L) se encuentran fuera del circulo unidad, las desviaciones
Elkin Castaño –Guillermo Pérez 54
de la tendencia seguirán un proceso estacionario ARMA(p, q). Ahora si A(L) contiene
una raíz unitaria el resultado es un modelo DS. En este caso
A(L) = (1 - L)(1 - λ2L)(1 - λ3L)...(1 - λpL) = (1 - L)A*(L)
donde las p-1 raíces de A*(L) se encuentran fuera del circulo unidad. Entonces el
modelo se puede escribir como
A*(L)( ∆yt - δ1) = B(L)εt
así que la primera diferencia de la serie puede ser modelada por un proceso
estacionario ARMA(p-1, q).
Las siguientes tablas contienen los correlogramas para las primeras diferencias DY4 y
DY5.
Elkin Castaño –Guillermo Pérez 55
Los correlogramas anteriores proporcionan un fuerte soporte de que las series son
estacionarias.
Sin embargo, anteriormente vimos que DY4 es un proceso ARMA(1,1) y a primera
vista parece sorprendente que ni las autocorrelaciones de bajo orden son
significativas. Esto se debe al siguiente hecho: antes se probó que
1 2
1
1 2
( - )( - )
-
α β αβραβ β
=+
Cuando α y β están numéricamente cercanos, la primera y las siguientes
autocorrelaciones estarán cerca a cero. Este es el caso de DY4 donde α =0.9 y β =1.
Esto significa que si en un proceso ARMA(1,1) α ≈ β ( o, equivalentemente, las
raíces de sus correspondientes polinomios A(L) y B(L) son muy similares), la
identificación del proceso a través de la ACF y PACF no es posible. Este resultado se
puede extender a modelos ARMA(p, q).
Al analizar los correlogramas muestrales de DY4 y DY5 observamos que no muestran
diferencias en el comportamiento entre un proceso TS y un proceso DS.
Elkin Castaño –Guillermo Pérez 56
Para tratar de solucionar este problema se han propuesto las pruebas de raíces
unitarias. Estas pruebas, sin embargo, también tienen baja potencia para distinguir
estos procesos.
PRUEBAS DE RAÍCES UNITARIAS
Considere el modelo AR(1) con tendencia lineal
yt=δ0+δ1t+ut, ut=αut-1+εt
o, equivalentemente
yt=[δ0(1-α)+αδ1]+ δ1(1-α)t+αyt-1+εt
Para tratar de diferenciar entre una serie TS y una DS se desarrolla la prueba de la
hipótesis
HO: α=1
H1: α<1
Si no se rechaza HO entonces el proceso tiene raíz unitaria y por lo tanto es no
estacionario. En este caso se tendría un proceso DS. Bajo H1 el proceso sería
estacionario en tendencia (TS).
Debido a que bajo HO el modelo es no estacionario, sus parámetros no se pueden
estimar directamente, la prueba propone transformar el modelo original
yt = [δ0(1 - α) + αδ1] + δ1(1 - α)t + αyt-1 + εt
restando yt-1 a ambos lados de la igualdad y agrupando términos, como:
∆yt = [δ0(1 - α) + αδ1] + δ1(1 - α)t + γyt-1 + εt
donde γ = α-1.
En términos de este nuevo modelo, las hipótesis anteriores serán de forma
HO: γ = 0 (La serie no es estacionaria)
Elkin Castaño –Guillermo Pérez 57
H1: γ < 0 (La serie es estacionaria)
Si γ = 0, lo que equivale que a que α = 1, hay una raíz unitaria y la serie no es
estacionaria. Si γ < 0, lo que equivale que a que α<1, la serie es estacionaria. Se
observa que bajo HO este modelo es estacionario para ∆yt y sus parámetros pueden
ser estimados usando mínimos cuadrados.
El procedimiento para realizar la prueba es el siguiente.
Se ajusta por OLS el modelo ∆yt = 0β + 1β t + γyt-1 + εt.
Observe que 0β = δ0(1 - α) + αδ1 y 1β = δ1(1 - α) .
Se define el estadístico de prueba como
τt =)ˆSE(
ˆ
γγ
donde )ˆSE(γ es el error estándar del estimador γ .
Este estadístico no sigue la distribución ‘’t’’, ni es asintóticamente N(0,1), ya que bajo
la hipótesis nula el proceso yt no es estacionario, puesto que el modelo se reduce a
∆yt = δ1 + εt
el cual es un paseo aleatorio con deriva. En estos casos se dice que la distribución del
estadístico τt no es estándar.
El problema de la inferencia fue resuelto por Dickey y Fuller en 1979, quienes
obtuvieron la distribución límite del estadístico anterior, para varios casos importantes.
Las distribuciones fueron obtenidas empíricamente por Dickey. Estas pruebas son
conocidas como las pruebas de Dickey-Fuller.
Posteriormente Mackinnon (1991) revisa y recalcula los números críticos de las tablas
originales de Dickey–Fuller para cualquier tamaño muestral y diferentes
especificaciones de las regresiones.
La prueba anterior intenta discriminar entre los modelos que generan las series Y4 y
Y5. Es importante también discriminar entre modelos que generan las series Y1 y Y2,
Elkin Castaño –Guillermo Pérez 58
88888donde no hay tendencia lineal. En este caso se tiene que δ1=0. El procedimiento
puede ser derivado como antes haciendo δ1=0. Esto proporciona la ecuación
yt=δ0(1-α)+αyt-1+εt
y el modelo equivalente es
∆yt=δ0(1-α)+γyt-1+εt
Bajo la hipótesis nula, esta ecuación se reduce a
∆yt=εt
de manera que la serie yt es no estacionaria y corresponde a un paseo aleatorio sin
deriva.
Finalmente, también es posible que δ0=0. En este caso se tendría que
yt=αyt-1+εt
y el modelo equivalente es
∆yt=γyt-1+εt
Bajo la hipótesis nula, el modelo anterior también se reduce a
∆yt=εt
Como antes, para los dos casos anteriores el contraste de interés será:
HO: γ=0
H1: γ<0
Para estas dos situaciones es usual hablar de los estadísticos τµ y τ respectivamente.
De nuevo la inferencia clásica no es válida. Pero Dickey–Fuller construyen las tablas
para poder realizar esta prueba de hipótesis. Es bueno observar que cada una de las
tres situaciones, dependiendo también del tamaño de la muestra, tienen sus propios
valores críticos. Un software como el EViews entrega los respectivos valores críticos.
Elkin Castaño –Guillermo Pérez 59
La prueba aumentada de Dickey-Fuller. Hasta aquí, toda la metodología
desarrollada asume que el proceso yt es un AR(1). Si lo anterior no es cierto se
presentaría autocorrelación en el término de perturbación εt, lo cual invalida las
anteriores pruebas. Este problema se puede corregir, incluyendo una estructura de
rezagos en los modelos (1’), (2’) y (3’) (ver texto – página 226).Para el modelo (2’), se
estimaría por OLS a
∆yt=δ+γyt-1+∑−
=−
1p
1iiti y∆β +εt
Para esta situación se habla de la prueba ampliada (o aumentada) de Dickey–Fuller
(ADF). Un problema práctico de esta prueba es que el valor de p (el orden de la parte
autorregresiva en el modelo) es desconocido.
Existen varios métodos para elegir la longitud óptima. El más utilizado es el método
del Hall (1994), que es secuencial y propone iniciar la búsqueda con una longitud
relativamente grande de rezagos p-1 para luego ir disminuyendo el número de
rezagos hasta encontrar un estadístico significativo (se estima el modelo con p-1
rezagos y se analiza si el parámetro asociado al rezago p-1 es estadísticamente
significativo, si no lo es se estima el modelo con p-2 rezagos, y así sucesivamente).
Otros métodos están basados en los criterios de información de Akaike, Schwarz y
Hannan-Quinn (ver su definición más adelante), en los que se busca el número de
rezagos que minimice el valor de los criterios. Después de seleccionado el número de
rezagos, se debe analizar si efectivamente los residuales son ruido blanco: gráfico de
residuales, correlograma, prueba de Breusch - Godfrey, prueba Q de Box–Ljung.
En la literatura se han propuesto otras pruebas que tratan de mejorar el desempeño de
la prueba ADF. Estas pruebas tratan de mejorar la prueba ADF cuando se presentan
problemas de autocorrelación o de heterocedasticidad en el término de perturbación.
Es importante tener en cuenta que las pruebas de raíces unitarias tales como la
prueba ADF y otras propuestas en la literatura, pueden ser afectadas por cambios
estructurales en las series de tiempo. Por ejemplo, Perron(1989,1990) mostró que la
aplicación de la prueba ADF a series estacionarias en torno a un nivel o a una
tendencia que sufren cambio estructural, podría llevar a concluir erróneamente, que
Elkin Castaño –Guillermo Pérez 60
las series presentaban raíz unitaria. Perron desarrolló una prueba para analizar esta
situación (ver Enders, página 200).
Ejemplos numéricos.
Ejemplo 1. La serie Y1 anterior es un proceso AR(1) estacionario con parámetro 0.95.
La aplicación de la prueba de Dickey-Fuller para el modelo con constante, proporciona
los siguientes resultados.
Los resultados muestran que la existencia de una raíz unitaria no puede ser rechazada
a un nivel significancia de 0.10. Este resultado es sorprendente puesto que el proceso
verdadero es estacionario. Sin embargo, su parámetro está muy cerca de 1. Si se
aumenta el tamaño de la muestra a 200 observaciones, el estadístico DF es -3.42 y el
valor crítico para un nivel de significancia del 1% es de -3.46, lo cual conduce a
rechazar la hipótesis de raíz unitaria para niveles de significación próximos al 1%.
Ejemplo 2. Para la serie estacionaria en tendencia Y4, los resultados de la prueba se
muestran en la siguiente tabla. Para la realización de la prueba se empleó el modelo
con tendencia lineal.
El valor del estadístico DF es -2.94, el cual falla en rechazar la hipótesis de raíz
unitaria a un nivel de significancia del 10%. De nuevo, este resultado se debe a que el
valor del coeficiente AR es de 0.9. Esto ilustra la baja potencia que tiene la prueba en
Elkin Castaño –Guillermo Pérez 61
estos casos. La falla en rechazar Ho conduce a una aceptación cuidadosa y
provisional de la existencia de una raíz unitaria.
Estabilización de la varianza de una serie de tiempo
• Transformaciones que estabilizan la varianza. No todas las series de tiempo
pueden ser transformadas a estacionaridad por medio de la diferenciación.
Muchas series de tiempo son estacionarias en media pero no en varianza. Para
estacionarizar una serie que no sea estacionaria en varianza frecuentemente
se emplea una transformación de potencia la cual puede estabilizar su
varianza.
• Es muy frecuente que un proceso no estacionario su varianza cambie a medida
que cambia su nivel, es decir,
)()( tt cfZVar µ=
para alguna constante c y f positivas y f monótona. En estos casos es
posible encontrar una transformación )( tZT de forma tal que )]([ tZTVar sea
constante.
Elkin Castaño –Guillermo Pérez 62
• Cuando la varianza de una serie es una función monótona de su nivel, es
posible estacionarizar la varianza usando una familia de transformaciones
introducida por Box y Cox (1964), la cual está definida por:
0)ln(
01
)( )(
==
≠−
==
λ
λλ
λλ
siZ
siZ
ZZT
t
t
tt
� λ es llamado el parámetro de la transformación.
� λ se obtiene como el valor que minimiza
S( λ )= ∑=
−n
it
tZ2)()(
)ˆ(λλ µ
donde )(ˆ
λµ es la media muestral de la serie transformada usando λ .
Puesto que para cada λ , la suma S( λ ) está medida en una escala diferente,
el valor de λ no puede ser directamente seleccionado por la comparación de
S( λ ) para diferentes valores de λ . Para hacerlas comparables debemos
reemplazar Zt( λ ) por
1( )( ) 0
1
ln( ) 0
tt t
t
ZT Z Z si
Z
Z Z si
λλ λλλ
λ
−= = ≠−
= =
�
�
donde 1/
1
nn
t
t
Z Z=
= ∏
�, es la media geométrica de las observaciones tZ .
• Observaciones sobre la transformación de Box y Cox :
� Sólo está definida para series positivas. Sin embargo, si una serie tiene valores
negativos, la transformación puede ser usada sumando una constante a la
serie de forma tal que se vuelva toda positiva. Esto no altera la estructura de
correlación de la serie.
Elkin Castaño –Guillermo Pérez 63
� Si es necesaria una transformación para estabilizar varianza, debe obtenerse
antes de hacer cualquier otro análisis tal como diferenciar la serie.
� Frecuentemente, la transformación no solamente estabiliza la varianza, sino
que puede mejorar la aproximación a la normalidad del proceso.
� La transformación es útil para realizaciones con un número moderado o grande
de observaciones.
Ejemplo.
Considere los datos anuales del producto nacional bruto (GNP) de EU de 1889 a
1970, representados en el siguiente gráfico.
Producto nacional bruto de EU, 1889-1970
Se observa que a medida que el nivel de la serie crece la variabilidad tiende a
crecer. El gráfico de la primera diferencia muestra claramente como la variabilidad
de los cambios va aumentando a medida que pasa el tiempo.
Primera diferencia del Producto nacional bruto de EU, 1889-1970
Elkin Castaño –Guillermo Pérez 64
Usando la Transformación de Box y Cox para λ en el intervalo [-2, 2] con un
incremento de 0.1, se obtiene la siguiente tabla generada por el proceso de
minimización de la suma de cuadrados, donde ECM= S( λ )/n.
VARIABLE LAMBDA ECM
1 -2.000 .1093E+06
2 -1.900 94221.289
3 -1.800 81575.164
� 12 -.900 29170.873
13 -.800 27003.977
14 -.700 25220.502
15 -.600 23772.451
16 -.500 22621.273
17 -.400 21736.520
18 -.300 21094.795
19 -.200 20678.969
20 -.100 20477.582
21 .000 20484.469
22 .100 20698.543
23 .200 21123.764
24 .300 21769.260
25 .400 22649.650
26 .500 23785.533
27 .600 25204.188
28 .700 26940.527
� 37 1.600 68672.359
38 1.700 78627.086
39 1.800 90492.766
40 1.900 .1047E+06
41 2.000 .1216E+06
El gráfico de λ contra ( ) /S nλ es el siguiente.
Los resultados muestran que una transformación adecuada es λ =-0.1. Por
conveniencia se toma λ =0, es decir que la transformación logarítmica estabiliza la
Elkin Castaño –Guillermo Pérez 65
varianza de la serie. El siguiente gráfico muestra la serie ln( )t
Z , cuya varianza es
estable.
Logaritmo Natural del Producto nacional bruto de EU
A continuación se presenta un programa en EViews para calcular la transformación
incondicional de Box y Cox.
'--------------------------------------------------------------------------------------------------------- 'MACRO PARA EL CÁLCULO DE LA TRANSFORMACIÓN DE BOX-COX '--------------------------------------------------------------------------------------------------------- workfile u 1 2000 '--------------------------------------------------------------------------------------------------------- 'cambie la ruta del archivo de entrada EXCEL 'el nombre de la serie en el archivo Excel debe ser z read(t=xls, a2) G:\UdeA\Pregrado\Curso_eco2\gnp_1889_1970.xls 1 '--------------------------------------------------------------------------------------------------------- smpl if z<>na ' gráfica de la serie original Z graph graf_orig.line Z '--------------------------------------------------------------------------------------------------------- ' Transformación de BOX-COX para estabilizar la varianza de Z '--------------------------------------------------------------------------------------------------------- ' entre el mínimo valor de lamba scalar lmin=-2 ' entre el máximo valor de lamba scalar lmax=2 ' entre el incremento scalar lincr=0.1 scalar numlamb=(lmax-lmin)/lincr+1 equation eq0.ls z c scalar nobs=@regobs series lz=log(z) scalar lk2=@mean(lz) scalar k2=exp(lk2) vector(numlamb) lambdan vector(numlamb) ssen scalar i=0 for !j=lmin to lmax+lincr step 0.1 scalar i=i+1 vector lambdan(i)=!j
Elkin Castaño –Guillermo Pérez 66
scalar k1=1/(!j*k2^(!j-1)) series zlambda=k1*(Z^!j-1) series desv=(zlambda-@mean(zlambda))^2 scalar sse0=@sum(desv) vector ssen(i)=sse0 next series desv=(k2*log(Z)-@mean(k2*log(Z)))^2 ssen(-lmin/lincr+1)=@sum(desv) mtos(lambdan, lambda) mtos(ssen, sse) '--------------------------------------------------------------------------------------------------------- ' El grupo lamb__sse presenta los valores de lambda y de sse '--------------------------------------------------------------------------------------------------------- group lamb__sse lambda sse '--------------------------------------------------------------------------------------------------------- ' El gráfico minimizacion presenta el gráfico de dispersión de sse contra lambda '--------------------------------------------------------------------------------------------------------- graph minimizacion.scat lambda sse '--------------------------------------------------------------------------------------------------------- ' El vector TBOX_COX contiene la transformación de Box-Cox '--------------------------------------------------------------------------------------------------------- scalar tb=@min(sse) smpl if sse=tb vector TBOX_COX=lambda stop CONSTRUCCIÓN de UN MODELO DE SERIES DE TIEMPO: IDENTIFICACIÓN,
ESTIMACIÓN y PRUEBAS DE DIAGNÓSTICO
Dada una serie de tiempo y1, y2, ..., yn, Box y Jenkins presentan un estrategia para
construir un modelo para la serie, basada en tres etapas: identificación, estimación y
diagnósticos o validación del modelo. El siguiente diagrama ilustra la estrategia.
Elkin Castaño –Guillermo Pérez 67
Etapa I: Identificación del modelo
Inicialmente, se propone que la clase general a la que pertenece del modelo que
genera la serie es un modelo ARIMA(p,d,q), de la forma:
A(L)(1-B)d (λ)
ty = m + B(L)εt
bajo las condiciones antes vistas. La etapa de identificación consiste en seleccionar:
λ : el parámetro de la transformación para estabilizar la varianza.
d: El número mínimo de veces que se requiere diferenciar la serie para que sea
estacionaria.
p: El orden de la componente AR.
q: El orden de la componente MA.
m: es necesario incluir una constante?
� La selección de λ es lo primero que se debe hacer, empleando la transformación
de Box y Cox.
Elkin Castaño –Guillermo Pérez 68
� A continuación se identifica el valor de d. Generalmente d es 0, 1, 2. Para la
selección de d se emplean: la gráfica de la serie de tiempo, la ACF muestral y las
pruebas de raíces unitarias.
� La identificación de p y q puede estar basada en el empleo de la ACF y PACF
muestrales. Si el proceso que generó la serie es un AR o un MA, el empleo de la
ACF y la PACF muestrales ayudan en la selección del posible valor de p para el
AR o de q para el MA. La identificación de p y q en un proceso mixto ARMA es
mucho más complicado. Se trata de buscar un modelo que sea parsimonioso, es
decir que los valores de p y q sean bajos y el modelo sea adecuado. Una forma de
proceder es la de estimar todos los modelos ARMA(p, q), para p=0, 1, 2, …,p*, y
q=0,1, 2, ..q*, donde p* y q* son generalmente bajos. Usando el criterio de
información de Akaike (1969),
AIC(m)= -2( 2l / n ) ( m / n )+
o el de Schwarz (1978),
SBC(m)= -2( ln( )/l / n ) m n n+
o el de Hannan-Quinn (1979),
HQ=-2( 2 ln(ln( ))/l / n ) m n n+
donde l es el logaritmo de la función de verosimilitud estimada con m parámetros
y m=p+q (+1 si hay un término constante), se seleccionan el modelo con mínimo
AIC o SBC o HQ y los modelos con valores más próximos a éste. A continuación
se validan y se elige el de mejor comportamiento.
Hannan y Rissanen sugieren una metodología para tratar de seleccionar p y q (Ver
texto Johnston y DiNardo, página 228). Tsay y Tiao (1984) siguieren usar la
función de autocorrelación extendida (EACF) (ver Wei, 2006, página 128).
� Para determinar si es necesario incluir la constante m.
Gráficamente: Si la serie es estacionaria, observe si la serie oscila alrededor de
una valor diferente de cero. Si la serie no es estacionaria, observe si la serie tiene
una tendencia (positiva o negativa) fuerte.
Analíticamente: Inicialmente introduzca la constante y verifique su significancia
estadística una vez el modelo haya sido estimado.
Elkin Castaño –Guillermo Pérez 69
Etapa II: La estimación del modelo
Después de realizar la identificación del modelo se debe estimar el proceso
estacionario seleccionado. La estimación de un modelo mixto ARMA(p,q), conduce a
métodos de estimación no lineal. Los paquetes econométricos han implementado
diferentes metodologías para realizar las estimaciones de estos modelos. Es común
hablar de estimaciones de mínimos cuadrados lineales, no lineales, estimación
máximo verosímil condicional, estimación máximo verosímil incondicional y de máxima
verosimilitud completa o exacta, bajo normalidad del término de perturbación.
Por ejemplo, para el caso de la estimación de un modelo AR(1),
yt=m+αyt-1+εt α<1
se puede emplear OLS siempre y cuando el término de perturbación sea ruido blanco.
En general, un proceso AR(p), estacionario también se estima por OLS. En este caso
los estimadores serán consistentes. Los estimadores de máxima verosimilitud
condicional (condicional a y1, el cual se asume como fijo) de m y α coinciden con los
estimadores OLS: el sistema de ecuaciones que resulta para realizar la estimación de
máxima verosimilitud condicional son lineales. Para un proceso AR(1) la función de
verosimilitud condicional se puede escribir como:
L*=f(y2, y3,..., yn/y1)=f(y2/y1)f(y3/y2)...f(yn/yn-1)
Observe que L* es condicional al valor de y1.
Bajo normalidad, se tiene que
f(yt/yt-1)= e σ/2)yαmy(σ2Π
1 22
1tt −− −−
Por lo tanto, el logaritmo de la función de verosimilitud está dado por:
LnL*= K - 2
1n −ln(σ2)-
σ 221
∑=
−−−n
2t1tt
2
)( yαmy
Elkin Castaño –Guillermo Pérez 70
donde K es una constante. Maximizando con respecto a m y α se obtienen los
respectivos estimadores, los cuales coinciden con los OLS. De igual forma se obtiene
el estimador de la varianza.
Para obtener los estimadores de máxima verosimilitud completa, bajo normalidad, la
función que se maximiza está dada por
L= f(y1, y2, y3,..., yn)=f(y1)L*
Se puede probar que el logaritmo de esta función es
LnL = K-2n
ln(σ2)+1/2ln(1-α2)-σα
2
2
21−
(y1-m/(1-α))2-σ 221
∑=
−−−n
2t1tt
2
)( yαmy
El sistema de ecuaciones que se obtiene en el proceso de maximización ya no es
lineal, por lo tanto se debe recurrir a técnicas no lineales (algoritmos de búsqueda).
La estimación de un proceso MA es todavía más complicado. Por ejemplo, un MA(1)
con media cero, está definido por
yt = εt - βεt-1
donde ε1, ε2, ...., εn son desconocidos. Al aplicar OLS se debería encontrar el valor de
β que minimice
S(β)=n
t=1
2tε∑ =
n 2t 1t
t 1( β )y ε −
=+∑
Como yt = εt - βεt-1, entonces εt = yt + βεt-1 y ε1, ε2, ...., εn pueden ser obtenidos de la
siguiente forma:
ε1= y1 +βε0
ε2= y2 +βε1= y2 +β( y1 +βε0)= y2 +βy1 +β2ε0
ε3= y3 +βε2= y3 +β(y2 +βy1 +β2ε0)= y3 +βy2 +β2y1 +β3ε0
�
εt-1= yt-1 +βεt-1= yt-1 +βyt-2+...+βt-2y1 +βt-1ε0
�
Elkin Castaño –Guillermo Pérez 71
Si fuera ε0 conocido, S(β) solamente depende de β, y el estimador OLS, es aquel valor
de β que minimiza a S(β). Observe que ββ
d)dS(
es una ecuación no lineal en β ya que
depende de β, β2, β3,..., βn-1, por lo tanto se debería emplear mínimos cuadrados no
lineales (NLS). Es usual seleccionar a ε0 como cero debido a que E[ε0]=0.
El método de estimación incondicional o de backasting desarrolla una estimación de
los valores iniciales para usando pronósticos hacia atrás.
Para la estimación de un MA(1) también se puede emplear la máxima verosimilitud
completa o exacta.
Como es de esperar, todos estos problemas se presentan en la estimación de un
ARMA(p, q).
Etapa III: Pruebas de diagnóstico (validación del modelo)
En esta etapa se debe verificar que el modelo estimado cumpla adecuadamente con
los supuestos teóricos bajo los cuales fue construido.
1. Se deben analizar las raíces de A(L)=0ˆ y B(L)=0ˆ , donde A(L)ˆ y B(L)ˆ son las
estimaciones de los polinomios A(L) y B(L) . Una raíz de A(L)=0ˆ igual a 1 o
muy próxima 1 podría indicar subdiferenciación de la serie. Una raíz de B(L)=0ˆ
igual a 1 o muy próxima 1 podría indicar sobrediferenciación de la serie.
2. Se debe probar que los residuos no están correlacionados. Las herramientas más
empleadas son el gráfico de los residuales, el ACF muestral y la prueba de Box-
Pierce–Ljung, la cual permite concluir si efectivamente los residuales son ruido
blanco o, si por el contrario, queda alguna estructura que el modelo no pudo
captar.
Prueba de Box-Pierce-Ljung: Está basada sobre los cuadrados de las primeras M
autocorrelaciones de los residuales, rj, j=1, 2, …,M. Se quiere probar
H0: 1 20
M...ρ ρ ρ= = = = contra H1: Existe al menos un 0
jρ ≠ , j = 1,2,...,M. Para
esto, defina el estadístico
Q=n(n+2) 2
j1
r /(n-j)M
j=∑
Elkin Castaño –Guillermo Pérez 72
Bajo H0 y n grande Q ~ 2
( p q )χ + . Rechace H0 si el valor p de la prueba es pequeño.
3. Se debe probar que los residuos no son heterocedásticos. La gráfica de residuos
puede revelar a simple vista si, por ejemplo, la hipótesis de varianza constante es
admisible.
4. Examinar la presencia de observaciones atípicas. Usando la gráfica de los
residuales se examina si se presentan residuales extremadamente grandes, lo cual
puede indicar que:
� Existen errores en los datos.
� Hay observaciones extremas o atípicas (outliers) como consecuencia de
cambios estructurales.
� No hay normalidad.
Un análisis preliminar consiste en obtener y graficar los residuales estandarizados.
Bajo normalidad, las observaciones atípicas pueden ser detectadas cuando el valor
absoluto del residual estandarizado es mayor que 2.5.
5. Análisis de normalidad sobre los residuales de la serie. Puede emplearse, entre
otras la prueba de Jarque y Bera y el gráfico cuantil-cuantil normal.
Suponga que Txx ,,1 � un conjunto de datos tamaño T. Entonces:
El coeficiente de asimetría muestral es ∑=
−−
=T
t
Xt
X
xT
xS1
3
3)ˆ(
ˆ)1(
1)(ˆ µ
σ
El coeficiente de curtosis muestral es ∑=
−−
=T
t
Xt
X
xT
xK1
4
4)ˆ(
ˆ)1(
1)(ˆ µ
σ
donde ∑=
−−
=T
t
XtX xT 1
22)ˆ(
1
1ˆ µσ y ∑
=
=T
t
tX xT 1
1µ .
Bajo normalidad, el verdadero coeficiente de asimetría es 0 y el verdadero
coeficiente de curtosis es 3. Entonces, cuando los datos proceden de una
población normal los estimadores anteriores estarán cerca de 0 y 3
respectivamente. Jarque y Bera (1987) proponen contrastar la hipótesis nula de
normalidad usando esta información. Definen el estadístico de prueba
Elkin Castaño –Guillermo Pérez 73
T
xK
T
xSJB
/24
)3)(ˆ(
/6
)(ˆ 22 −+=
el cual tiene una distribución chi-cuadrado con 2 grados de libertad bajo H0 y n
grande. Por tanto, se rechaza el supuesto de normalidad si )(2
2 αχ>JB , donde
)(2
2 αχ es el cuantil −α superior de la distribución 2
2χ .
6. Finalmente, se analiza la significancia de los parámetros estimados. Las pruebas
son similares a las desarrolladas para probar la significancia de los parámetros
estimados de un modelo de regresión.
En la práctica es posible que el modelo estimado no sea satisfactorio, por lo tanto se
debe tratar de seleccionar otro(s) modelo(s) y volver a realizar las etapas II y III.
También es posible que varios modelos estimados cumplan las pruebas de
diagnósticos, en este caso se debe recurrir a criterios de selección de modelos. Los
más empleados son los criterios de información de Akaike (AIC), Schwarz (SBC) y el
de Hannan-Quinn. Se prefiere el modelo con los valores mínimos en estos criterios.
PRONÓSTICOS PARA SERIES DE TIEMPO Uno de los objetivos más importantes de la metodología ARIMA es poder realizar
pronósticos. Frecuentemente estas predicciones son utilizadas como un punto de
comparación para pronósticos proporcionados por modelos multivariados más
complicados. En todo pronóstico hay dos fuentes de error:
• Errores debido al desconocimiento de las futuras innovaciones.
• Errores debido a la diferencia entre los valores verdaderos y sus estimaciones.
En esta primera parte solamente trataremos con la primera fuente de error (es decir,
suponiendo que se conocen los verdaderos parámetros del modelo) y se ilustrarán los
principios con algunos procesos de bajo orden.
Dada un serie de tiempo y1, y2, ..., yn y asumiendo que estas observaciones son
generadas por un proceso ARIMA(p,d,q), se quiere pronosticar a ‘’y’’ en los períodos
n+1, n+2, ..., es decir se desea pronosticar a yn+s, s=1, 2, ..., conocida la información
hasta n.
Elkin Castaño –Guillermo Pérez 74
La idea intuitiva es obtener un pronóstico que esté cerca al verdadero valor yn+s. Sea
y sn+ el valor del pronóstico de yn+s basado en la afirmación hasta el período n.
Teóricamente se desea encontrar un valor y sn+ tal que su error cuadrático medio dado
por
E[( yn+s - y sn+ )2]
sea mínimo.
A en+s = yn+s - y sn+ se le llama el error de pronóstico y E[(yn+s - y sn+ )2] es el error
cuadrático medio.
Se puede probar que el pronóstico óptimo de yn+s (de error cuadrático medio mínimo)
para un modelo general ARIMA(p,d,q) que se realiza con información hasta el período
n, es la esperanza condicional de yn+s dada la información hasta el período n, es decir
y sn+ = En[yn+s]= E[yn+s/y1, y2, ..., yn]
Por medio de esta propiedad es fácil derivar los pronósticos de cualquier modelo de
esta clase.
El modelo general ARIMA(p,d,q) puede ser escrito como d
t tA(L)(1-L) y = m + B(L)a .
Sea A(L)(1-L)d =Ψ (L ). Entonces Ψ (L ) es un polinomio de orden p+d en potencia de
L y el modelo para yt se puede escribir como:
2 p+d 2 q
1 2 p+d t 1 2 q t(1- Ψ L - Ψ L -...-Ψ L )y =m+(1- β L -β L -...-β L )ε
o, para t=n+s ,
n+s 1 n+s-1 2 n+s-2 p+d n+s-(p+d) n+s 1 n+s-1 2 n+s-2 q n+s-qy =m +Ψ y + Ψ y + ...+ Ψ y + ε -β ε -β ε -...-β ε
Tomando esperanza condicional a la información hasta el período n, el pronóstico de
yn+s se puede calcular como:
Elkin Castaño –Guillermo Pérez 75
n+s n, n-1, 1 n+s-1 n, n-1, 2 n+s-2 n, n-1,
p+d n+s-(p+d) n, n-1, n+s n, n-1, 1 n+s-1 n, n-1,
2 n+s-2 n, n-1, q n+s-q n, n-1,
E(y |y y ...)= m + Ψ E(y |y y ...)+Ψ E(y |y y ...)+...+
Ψ E(y |y y ...)+E(ε |y y ...)-β E(ε |y y ...)-
β E(ε |y y ...)-...-β E(ε |y y ...)
o,
n+s 1 n+s-1 2 n+s-2 p+d n+s-p-d n+s 1 n+s-1 2 n+s-2 q n+s-qˆ ˆ ˆ ˆˆ ˆ ˆ ˆy = m + Ψ y +Ψ y +...+Ψ y +ε -β ε -β ε -...-β ε
donde
n+j n+j n n-1
n+j n+j
n+j
n+j n+j n-1+j+1 n+j
y = E(y |y ,y ,...) si j>0
y = y si j 0
ε = 0 si j>0
ˆ ˆε = y - y = ε si j 0
≤
≤
Donde n-1+j+1y es el pronóstico de yn+j basado en la información hasta el período n+j-1.
A continuación se aplicará este resultado a algunos modelos particulares.
Pronósticos con un modelo AR(1)
Dado el modelo estacionario
yt = m+αyt-1+ εt t=1, 2, ..., n
Se puede ver que
y 1n+ = m+αyn con var(en+1)=σ2ε
y 2n+ = m+α y 1n+ = m+mα+α2yn con var(en+2)=(1+α2)σ2ε
y 3n+ = m+α y 2n+ = m+mα+α2m+α3yn con var(en+3)=(1+α2+α4)σ2ε
de forma general,
• y sn+ =m+α y 1sn −+ =m(1+α+α2+...+αs-1) + αsyn = mα1α1 s
−−
+αsyn
Elkin Castaño –Guillermo Pérez 76
con var(en+s)=(1+α2+ ... +α2(s-1))σ2ε
• Si s → ∞
y sn+ →α1
m−
=µ var(en+s) →α1σ
2
2ε
−=σ2
y
Se observa que cuando el horizonte se incrementa, el valor del pronóstico y la
varianza del error de pronóstico tienden a la media y a la varianza no condicional del
proceso.
Pronósticos con un proceso MA(1)
Un proceso MA(1) está dado por
yt = µ + εt - βεt-1
En este caso se tiene que
y 1n+ =µ - βnε con var(en+1)=σ2ε
y 2n+ = µ con var(en+2)=(1+β2)σ2ε = σ2
y
…
En general,
y sn+ = µ s ≥2 con var(en+s)=(1+β2)σ2ε = σ2
y
Pronósticos con un proceso ARMA(1,1)
Considere el proceso
yt = m + αyt-1 + εt - βεt-1
Entonces,
y 1n+ = m + αyn - βnε con var(en+1) =σ2ε
y 2n+ = m + mα + α2yn - αβnε con var(en+2) = (1+(α-β)2)σ2ε
y 3n+ = m + mα + mα2 + α3yn - α2βnε con var(en+3) = (1+(α-β)2(1+α2))σ2ε
…
y sn+ = m +mα+mα2 +...+ mαs-1 + αsyn - αs-1βnε con var(en+s) = ]α1α1
β)-(α[12
1)2(s2
−−
+−
σ2ε
Elkin Castaño –Guillermo Pérez 77
Además, si s → ∞
ysn+ →µ var(en+s) → σ
α1β2α1 2
ε2
2
−+− β
=σ2y
Pronósticos con un proceso ARIMA(1,1, 0)
Suponga que la serie zt sigue un proceso ARIMA(1,1,0). En este caso zt es tal que
sus primeras diferencias siguen un proceso AR(1) estacionario. Es decir, yt=zt-zt-1 es
un proceso AR(1) y por lo tanto yt=m+αyt-1+εt.
Se puede probar que
zn+s=zn+sµ+αα1α1 s
−−
(yn-µ) + en+s
donde
en+s=εn+s+(1+α)εn+s-1 + (1+α+α2)εn+s-2 + (1+α+α2+...+αs-1)εn+1
El pronóstico para zn+s es
z sn+ = zn + sµ + αα1α1 s
−−
(yn - µ)
con var(en+s) = [1+(1+α)2+(1+α+α2)2 +...+(1+α+α2+...+αs-1)2]σ
2ε
y donde µ=m
1-α.
Se observa que la varianza del pronóstico se incrementa indefinidamente a medida
que s crece, luego para una serie no estacionaria los pronósticos serán cada vez más
imprecisos a medida que el horizonte del pronóstico crece.
Todas las fórmulas anteriores están basadas en el supuesto de que los parámetros del
modelo son conocidos. En la práctica, se les reemplaza por sus estimaciones. Como
resultado, los estimadores puntuales de los pronósticos seguirán siendo de error
cuadrático medio mínimo asintóticamente. Sin embargo, las varianzas estimadas del
error de pronóstico subestiman a los verdaderos valores debido a que la formula no
incorpora la incertidumbre en el coeficiente.
Intervalos de predicción para yn+s
Bajo el supuesto de normalidad, la construcción de un intervalo de predicción de
(1 α− )%, para yn+s está basado en que en+s = yn+s - y sn+ ~ N(0, Var(en+s)). Debido a
Elkin Castaño –Guillermo Pérez 78
que Var(en+s) la varianza depende del parámetro desconocido σ2ε , reemplazándolo por
su estimador se obtiene que para muestras grandes en+s = yn+s - y sn+dist→ N(0,
�n+s
Var(e ) ). Empleando este resultado, los límites aproximados de un intervalo de
predicción de (1 α− )% para yn+s están dados por
y sn+ ± z( 2/α )[�n+s
Var(e ) ]1/2
EVALUACIÓN DE PRONÓSTICOS
Es importante evaluar la capacidad predictiva del modelo. En el trabajo aplicado con
series de tiempo es común evaluar la capacidad predictiva de un modelo comparando
los valores observados con los pronosticados. Para desarrollar estas ideas es usual
ajustar el modelo con las ‘’T’’ primeras observaciones y analizar luego cómo el modelo
predice las ‘’h’’ observaciones siguientes, donde n=T+h, siendo n el tamaño de la
muestra disponible. Algunas de las medidas más empleadas son:
• La raíz del error cuadrático medio:
RMSE=h
)yy(n
1Tttt
2∑ −
+=
• El promedio de los valores absolutos de los errores de pronósticos
MAE=h
yyn
1Tttt∑ −
+=
•
• El promedio del error porcentual absoluto
MAPE=h
y
yyn
1Tt t
tt∑−
+=
• El coeficiente de desigualdad de Theil
Elkin Castaño –Guillermo Pérez 79
TIC=
h
y
h
y
RMSEn
1Tt
2t
n
1Tt
2t ∑
+∑
+=+=
El RMSE y MAE dependen de la escala de la variable dependiente y por lo tanto se
pueden emplear para comparar pronósticos de la misma serie para modelos
diferentes. Los otros dos estadísticos no dependen de la escala.
Se puede probar que 0≤TIC≤1. TIC=0 indica que las predicciones fueron
perfectas.
Con base en el error cuadrático medio se definen:
• La proporción del sesgo:
PS=
h
yy
)y-y (n
1Tttt
2
2
)(∑ −+=
• La proporción de la varianza
PV=
h
yy
)s-s (n
1Tttt
2
yy2
)(∑+=
−
• La proporción de la covarianza
PC=
h
yy
ss)r1(2n
1Tttt
2
yy
)(∑
−
+=−
donde r es el coeficiente de correlación entre yt y yt ; s ,s ,y ,y yy son las medias y
desviaciones estándar de yt y yt . Se puede probar que PS+PV+PC=1.
PS es una medida de la desviación del promedio del pronóstico con relación al
promedio de la serie observada (medida del error sistemático). Valores grandes de
PS (mayores de 0.1 o 0.2) indican que un sesgo sistemático esta presente y por lo
tanto el modelo se debería revisar. La proporción de la varianza nos informa la
Elkin Castaño –Guillermo Pérez 80
capacidad que tiene el modelo de replicar la variabilidad de la serie. PC mide el
error no sistemático. La situación ideal sería PS=PV=0 y PC=1.
SERIES DE TIEMPO ESTACIONALES
Muchas series de tiempo que son medidas en intervalos regulares dentro del año
pueden mostrar un patrón de comportamiento similar entre los años o comportamiento
estacional. Por ejemplo, la venta mensual de juguetes se leva en el mes de diciembre
de cada año. Es común que las series mensuales, trimestrales, semestrales, etc.
tengan patrones estacionales, es decir que se presente similitud de comportamiento
entre observaciones para el mismo mes o trimestre en años consecutivos. El mínimo
número de períodos en el cual se presenta este fenómeno es llamado período
estacional y se denota por s. Para series mensuales, generalmente s=12, para series
trimestrales s =4, para series semanales s =52, etc.
Series estacionales estacionarias
Modelos Autorregresivos estacionales. Para datos trimestrales de series
estacionales (s=4) estacionarias, el modelo autorregresivo estacional más simple
sigue la especificación
xt = φxt - 4 + ut donde |φ|<1
donde ut es ruido blanco. El modelo anterior es llamado un modelo autorregresivo
estacional puro de orden 1, el cual se denota por SAR(1)4. En este caso la ACF de la
serie es:
ρk=i k 4i i 1, 2, ...
o K 4i i 1, 2, ...
φ = =
≠ =
Correlograma para un SAR(1) con 0<φ<1
Elkin Castaño –Guillermo Pérez 81
Correlograma parcial para un SAR(1)4 con 0<φ<1
Sin embargo frecuentemente la serie también contiene componentes no estacionales.
En este caso ut no sería ruido blanco. Por ejemplo, puede ocurrir que ut contenga un
patrón AR(1), es decir
ut = αut-1+εt
donde |α|<1 y εt es ruido blanco. Entonces el modelo para la serie se puede escribir como
(1-φL4)xt =ut
como ut = αut-1+ εt se tiene que (1-αL)ut=εt. Puesto que |α|<1, entonces ut=(1-αL)-1εt
y reemplazando en el modelo anterior se obtiene
(1-α L)(1-φL4)xt =εt
Este es un ejemplo simple de un modelo autorregresivo multiplicativo estacional, el
cual se denota AR(1)xSAR(1)4. Realizando las multiplicaciones entre los polinomios,
el modelo también se puede escribir se escribe como:
(1- αL - φL4 + αφL5)xt = εt
o,
xt = αxt-1+φ xt-4 - αφxt-5 +εt
lo que muestra que el modelo es un caso particular de un AR(5), en el cual dos
coeficientes serán cero y además existe una restricción no lineal (αφ) para el
coeficiente de xt-5. A nivel general el ACF de este proceso debe converger a cero,
presentando magnitudes altas en los rezagos 4, 8, 12, 16, .... El PACF debe tener un
Elkin Castaño –Guillermo Pérez 82
corte después del rezago 5. A continuación se presentan los correlogramas teóricos
cuando α=φ=0.8.
Correlograma de un AR(1)xSAR(1)4.
Correlograma Parcial AR(1)xSAR(1)4.
A continuación se presentan los correlogramas muestrales para 100 observaciones de
una serie simulada con α=φ=0.8. Observe su similitud con los teóricos.
Elkin Castaño –Guillermo Pérez 83
Modelos de medias móviles estacionales. También se pueden especificar modelos
de medias móviles estacionales puros, tal como
xt = (1-θL4)εt
el cual es denotado como SMA(1)4, o estacionales multiplicativos de medias móviles,
como por ejemplo un modelo MA(1)xSMA(1)4
xt = (1-βL)(1-θL4)εt
En esta situación el ACF teórico se corta después del rezago 5 y el PACF converge a
cero. A continuación se presentan los correlogramas téoricos para un SMA(1)
Correlograma de un SMA(1)4
Correlograma parcial de un SMA(1)4
A continuación se presenta los correlogramas teóricos para un MA(1)xSMA(1)4.
Elkin Castaño –Guillermo Pérez 84
Correlograma de un MA(1)xSMA(1)4
Correlograma parcial de un MA(1)xSMA(1)4
Modelos mixtos autorregresivos y de medias móviles estacionales. Es común que
se presenten modelos que son una mezcla de AR, MA, SAR, SMA, por ejemplo,
(1-αL)(1-φL4)xt =(1-βL)( 1-θL4) εt
el cual se denota por ARMA(1,1)xSARMA(1,1)4, y es un modelo multiplicativo mixto.
Este modelo es muy flexible y ha sido muy empleado en aplicaciones.
Series estacionales no estacionarias
El caso más simple de un modelo con estacionalidad no estacionaria está dado por un
paseo aleatorio estacional
xt = xt -4 + ut ,
o,
(1-L4)xt=ut
Elkin Castaño –Guillermo Pérez 85
Al operador (1-L4) se le llama operador de diferencia estacional (en este caso
trimestral), y se le denota como 4
∆ .
Es posible que una serie estacional contenga también un proceso no estacionario en
su componente no estacional ut. En estos casos el proceso de diferenciación puede
ser en la parte estacional, en la no estacional o en ambas. Para este último caso el
proceso de diferenciación para volver la serie estacionaria es
(1-L)(1-L4)
En la práctica no es fácil realizar juicios sobre el orden de estos modelos. De igual
forma el análisis de raíces unitarias para series estacionales es más complicado que el
trabajo con series no estacionales. Hylleberg, Engle, Granger y Yoo desarrollan
pruebas de hipótesis para raíces unitarias en este tipo de series.
Ejemplo. La siguiente gráfica presenta la serie de tiempo mensual del número de
viviendas nuevas (HS) (en miles) para el período comprendido entre enero de 1959 y
abril de 1992.
Primero que todo se chequea si hay estacionalidad para decidir si es posible construir
un modelo en niveles para la serie. La inspección visual parece indicar que no hay
indicios fuertes de no estacionalidad. Si se emplea la prueba ADF, la hipótesis de raíz
unitaria es fuertemente rechazada. En la siguiente tabla se presenta el resultado de la
prueba.
Elkin Castaño –Guillermo Pérez 86
A continuación se presentan los correlogramas muestrales para la serie en niveles, los
cuales parecen confirmar lo anterior.
Elkin Castaño –Guillermo Pérez 87
Este correlograma es similar al caso antes visto, pero donde el período estacional es
s=12. La autocorrelación decrece pero vuelve a crecer en los rezagos 12, 24, 36, …,
mientras que la autocorrelación parcial presenta picos positivos en los rezagos 1 y 13.
Este patrón sugiere que el modelo AR(1)xSAR(1)12 puede ser una primera
aproximación al modelo de la serie de tiempo. El modelo propuesto es
(1-αL)(1-φL12)HSt =m+ εt
Elkin Castaño –Guillermo Pérez 88
A continuación se ajusta el modelo usando los datos de la serie entre enero de 1959 y
diciembre de 1984. Los datos entre enero de 1985 y abril de 1992 se emplearán para
realizar pronósticos fuera de la muestra de estimación y chequear la capacidad
predictiva del modelo. La siguiente tabla presenta los resultados de la estimación.
Los resultados muestran que todos los coeficientes son altamente significativos y que
el modelo explica aproximadamente el 86% de la variación de la variable HS. Sin
embargo, hay una variación residual importante. El error estándar del modelo es más
del 11% de la media de la variable dependiente HS. Para examinar la capacidad de
pronóstico del modelo para los 88 datos finales de la serie no empleados en la
estimación, se presenta la siguiente grafica.
Elkin Castaño –Guillermo Pérez 89
El pronóstico para los primeros 12 meses es razonablemente bueno, pues siguen el
patrón de la estacionalidad, aunque subestiman algo el nivel de actividad. Sin
embargo, estas dos características son predichas cada vez peor a medida que se
aumenta el horizonte del pronóstico. El patrón de la estacionalidad disminuye cada vez
más como consecuencia de que los coeficientes AR son menores que 1 y las
innovaciones en el pronóstico son cero. El pronóstico subestima la actividad de la
mitad y final de los 80 y sobreestima la actividad a comienzos de los 90. El error
absoluto medio en porcentaje de los pronósticos es 25.2%. Sin embargo, todos los
valores reales caen dentro de los límites de predicción.
Un chequeo final del modelo es ver si los residuales proceden de un proceso de ruido
blanco. La siguiente tabla presenta los correlogramas de los residuales.
Elkin Castaño –Guillermo Pérez 90
Los resultados muestran que se presenta correlación y correlación parcial significativa
en los rezagos 1 y 11, 12 y 13. Por tanto, se requiere un modelo más complejo.
Una alternativa sería tratar con un modelo mixto de la forma
(1-α L)(1-φ L12)HSt =m+(1-β L)(1-θ L12)tε
Elkin Castaño –Guillermo Pérez 91
La siguiente tabla contiene los resultados de la estimación de esta especificación.
Tanto los dos coeficientes autorregresivos como los dos de medias móviles son
altamente significativos. La siguiente gráfica presenta los pronósticos para este
modelo.
Elkin Castaño –Guillermo Pérez 92
Estos pronósticos presentan una mejora sustancial frente a los del modelo puramente
autorregresivo. El patrón estacional ya se mantiene sobre el horizonte del pronóstico, y
esto se debe principalmente a que el coeficiente SAR(1) (denotado por SAR(12) en la
estimación) es mucho mayor al obtenido anteriormente. Como consecuencia, ya los
pronósticos son muy buenos para los primeros tres años, comparados con solamente
el primer año del modelo anterior. Los residuales ya están más cerca de un proceso de
ruido blanco (verifique). La especificación anterior no necesariamente es el mejor
modelo para la serie (experimente con otras especificaciones). Por ejemplo, en vista
del que el coeficiente del término SAR(1) está tan cerca de 1, sería interesante ajustar
un ARMA a las diferencias estacionales 12
∆ = (1-L12) = HSt - HSt-12.
ALGUNAS FUNCIONES PARA SERIES DE TIEMPO EN EVIEWS
• d(x): primera diferencia de la serie x. d(x)=(1-L)x=∆x.
• d(x,n): diferencia de orden n para la serie x. d(x,n)=(1-L)nx=∆nx.
• d(x,n,s): diferencia de orden regular n, con una diferencia estacional de orden s.
d(x,n,s)=(1-L)n(1-Ls)x.
• dlog(x): primera diferencia del logaritmo natural. dlog(x) = (1-L)log(x) = log(x)-
log(x(-1)= ∆log(x).
• dlog(x,n): diferencia de orden n para el logaritmo de la serie. dlog(x, n) = (1-
L)nlog(x) = ∆nlog(x)
• dlog(x,n,s): diferencia de orden n con una diferencia estacional de orden s para el
logaritmo de x. dlog(x,n,s)=(1-L)n(1-Ls)log(x).
top related