estimación de modelos no lineales - ucm.es no... · por el procedimiento habitual de mínimos...

39
Estimacin de modelos no lineales Alfonso Novales Departamento de Economa Cuantitativa Universidad Complutense Septiembre 2013 Versin preliminar No citar sinpermiso del autor @Copyright 2013 Contents 1 Estimacin de modelos no lineales 2 1.1 Minimos Cuadrados en modelos no lineales ............ 2 1.1.1 Aproximacin lineal del modelo no lineal .......... 3 1.1.2 Ejemplo 1: Modelo exponencial con constante. Aproxi- macin lineal ......................... 5 1.1.3 Ejemplo 2: Modelo potencial. Aproximacin lineal .... 6 1.2 Minimizacin de una funcin .................... 6 1.3 Estimacin por Mnimos Cuadrados ................ 7 1.4 Algoritmos numØricos: Gauss-Newton y Newton-Raphson .... 9 1.4.1 Condiciones iniciales ..................... 10 1.4.2 Ejemplo 4: Modelo potencial ................ 11 1.4.3 Ejemplo 5: Una funcin de consumo ............ 12 1.4.4 Ejemplo 6: Modelo exponencial sin constante........ 13 1.4.5 Ejemplo 7: Otra funcin exponencial ............ 16 1.4.6 Ejemplo 8: Un modelo no identicado ........... 17 1.5 Estimador de MÆxima Verosimilitud ................ 17 1.6 Criterios de convergencia ...................... 20 1.7 Dicultades prÆcticas en el algoritmo iterativo de estimacin .. 21 1.8 Estimacin condicionada y precisin en la estimacin ....... 23 1.9 Algunos modelos tpicos ....................... 24 1.9.1 Estimacin de modelos MA(q) ............... 24 1.10 Estimacin por MÆxima Verosimilitud de modelos dinÆmicos .. 26 1.10.1 Modelo AR(1), sin autocorrelacin ............. 26 1.10.2 Modelo constante, con autocorrelacin ........... 30 1.10.3 Estimacin de MÆxima Verosimilitud del modelo AR(1) con perturbaciones AR(1) .................. 34 1

Upload: vuongminh

Post on 23-Sep-2018

231 views

Category:

Documents


0 download

TRANSCRIPT

Estimación de modelos no lineales

Alfonso NovalesDepartamento de Economía Cuantitativa

Universidad Complutense

Septiembre 2013Versión preliminar

No citar sinpermiso del autor@Copyright 2013

Contents

1 Estimación de modelos no lineales 21.1 Minimos Cuadrados en modelos no lineales . . . . . . . . . . . . 2

1.1.1 Aproximación lineal del modelo no lineal . . . . . . . . . . 31.1.2 Ejemplo 1: Modelo exponencial con constante. Aproxi-

mación lineal . . . . . . . . . . . . . . . . . . . . . . . . . 51.1.3 Ejemplo 2: Modelo potencial. Aproximación lineal . . . . 6

1.2 Minimización de una función . . . . . . . . . . . . . . . . . . . . 61.3 Estimación por Mínimos Cuadrados . . . . . . . . . . . . . . . . 71.4 Algoritmos numéricos: Gauss-Newton y Newton-Raphson . . . . 9

1.4.1 Condiciones iniciales . . . . . . . . . . . . . . . . . . . . . 101.4.2 Ejemplo 4: Modelo potencial . . . . . . . . . . . . . . . . 111.4.3 Ejemplo 5: Una función de consumo . . . . . . . . . . . . 121.4.4 Ejemplo 6: Modelo exponencial sin constante. . . . . . . . 131.4.5 Ejemplo 7: Otra función exponencial . . . . . . . . . . . . 161.4.6 Ejemplo 8: Un modelo no identi�cado . . . . . . . . . . . 17

1.5 Estimador de Máxima Verosimilitud . . . . . . . . . . . . . . . . 171.6 Criterios de convergencia . . . . . . . . . . . . . . . . . . . . . . 201.7 Di�cultades prácticas en el algoritmo iterativo de estimación . . 211.8 Estimación condicionada y precisión en la estimación . . . . . . . 231.9 Algunos modelos típicos . . . . . . . . . . . . . . . . . . . . . . . 24

1.9.1 Estimación de modelos MA(q) . . . . . . . . . . . . . . . 241.10 Estimación por Máxima Verosimilitud de modelos dinámicos . . 26

1.10.1 Modelo AR(1), sin autocorrelación . . . . . . . . . . . . . 261.10.2 Modelo constante, con autocorrelación . . . . . . . . . . . 301.10.3 Estimación de Máxima Verosimilitud del modelo AR(1)

con perturbaciones AR(1) . . . . . . . . . . . . . . . . . . 34

1

1 Estimación de modelos no lineales

Es bien conocido que el estimador de Mínimos Cuadrados Ordinarios de unmodelo de relación lineal,

yt = x0t� + ut; t = 1; 2; :::; T (1)

viene dado por la expresión matricial,

� = (X 0X)�1XY

siendo X la matriz Txk que tiene por columnas las T observaciones de cadauna de las k variables explicativas contenidas en el vector xt; e Y el vectorcolumna, de dimensión T , formado por las observaciones de yt: Este estimador,que es lineal (función lineal del vector Y ), es insesgado. Es el de menor varianzaentre los estimadores lineales si la matriz de covarianzas de los términos de errortiene una estructura escalar,

V ar(u) = �2uIT

Si, además de tener dicha estructura de covarianzas, el término de errortiene una distribución Normal, entonces el estimador de Mínimos Cuadradoscoincide con el estimador de Máxima Verosimilitud, siendo entonces e�ciente:estimador de menor varianza, entre todos los estimadores insesgados, sea cualsea su dependencia respecto del vector de Y .Supongamos que se pretende estimar la relación,

yt = f(xt; �) + ut; (2)

donde f(xt; �) es una función no lineal de los componentes del vector kx1; �:Si f(xt; �) es no lineal únicamente en las variables explicativas xt; un cambio devariable permite transformar el modelo anterior en un modelo lineal. Excluimos,sin embargo, inicialmente, la estimación de relaciones implícitas, representablesa partir de un modelo general del tipo,

g(yt; xt; �) + ut;

1.1 Minimos Cuadrados en modelos no lineales

El procedimiento de Mínimos Cuadrados no Lineales en este modelo consiste enresolver el problema de optimización:

min�SR(�) = min

TXt=1

ut

���= min

TXt=1

[yt � f(xt; �)]2

lo que implica resolver el sistema de ecuaciones,�@f(xt; �)

@�

�0y =

�@f(xt; �)

@�

�0f(X;�)

2

donde el vector gradiente es Txk, y f(X;�) es Tx1. Este sistema puedeno tener solución, o tener múltiples soluciones. A diferencia del estimador deMínimos Cuadrados aplicado a un modelo lineal, el estimador no es insesgado.La matriz de covarianzas del estimador resultante es:

V ar(�) = �2u

"�@f(xt; �)

@�

�0�@f(xt; �)

@�

�#�1que se reduce a la matriz de covarianzas �2u(X

0X)�1 en el caso de un modelolineal.Si quisiéramos aplicar Mínimos Cuadrados directamente, en el modelo ex-

ponencial,

yt = f(xt; �) + ut = �+ �1e�2xt + ut

con � = (�; �1; �2) ; tendríamos que resolver el problema,

min�SR(�) = min

TXt=1

hut

���i2

= min�

TXt=1

�yt � (�+ �1e�2xt)

�2que conduce a las condiciones de optimalidad,

Xyt = �T + �1

Xe�2xtX

yte�2xt = �

Xe�2xt + �1

Xe2�2xtX

ytxte�2xt = �

Xxte

2�2xt + �1X

xte2�2xt

que carece de solución explícita, por lo que debe resolverse por procedimien-tos numéricos.

1.1.1 Aproximación lineal del modelo no lineal

Para evitar recurrir a los métodos numéricos, en los que siempre es complicadosaber si hemos encontrado el tipo de solución que buscábamos, un primer en-foque consiste en estimar la aproximación lineal del modelo (2) ; alrededor deuna estimación inicial,

yt = f(xt; �) +

�@f(xt; �)

@�

��=�

�� � �

�+ ut;

Haciendo el cambio de variable: y�t = yt � f(xt; �) +�@f(xt;�)

@�

��=�

�; y

generando asimismo �datos�para cada una de las k variables de�nidas por el

gradiente�@f(xt;�)

@�

��=�

;podemos estimar el modelo lineal

y�t '�@f(xt; �)

@�

��=�

� + ut;

3

por el procedimiento habitual de Mínimos Cuadrados.Podemos pensar que en realidad estamos estimando un modelo distinto del

que pretendíamos, y que de poco nos servirá, si el modelo que estimamos tieneuna variable dependiente y unas variables explicativas diferentes de las queaparecían en el modelo original. Lo que sucede es que una vez más (comotambién sucede al estimar por MCG un modelo de regresión inicial en el que eltérmino de error tiene heterocedasticidad o autotocorrelación), lo que hacemoses transformar las variables del modelo para obtener otro modelo diferente, quecomparte con el primero los mismos coe�cientes, y en el que la estimación demínimos cuadrados tiene buenas propiedades. Además, veremos pronto que estaestrategia de estimación se puede interpretar como el resultado de un verdaderoproblema de minimización de la suma de cuadrados de residuos (ver algoritmode Gauss Newton, más adelante).La estimación resultante es,

~� =

"�@f(xt; �)

@�

�0�=�

�@f(xt; �)

@�

��=�

#�1�@f(xt; �)

@�

�0�=�

y�

donde el vector gradiente es una matriz de pseudo-datos, de dimensión Txk;e y� es un vector Tx1.Sustituyendo y� por la expresión que utilizamos para de�nir a esta variable,

podemos escribir el estimador como,

~� = � +

"�@f(xt; �)

@�

�0�=�

�@f(xt; �)

@�

��=�

#�1�@f(xt; �)

@�

�0�=�

u:

Este resultado es muy interesante, pues permite poner en práctica un pro-cedimiento iterativo, del siguiente modo: en cada etapa, partimos de unos de-terminados valores numéricos para los parámetros � del modelo, que utilizamospara generar los errores de ajuste, u; y estimamos una regresión de dichos erroressobre las variables que con�guran el vector gradiente @f(xt;�)

@� : Los coe�cientesestimados en dicha regresión son las correcciones que hay que introducir so-bre el estimador disponible en en dicha etapa para obtener un nuevo vector deestimaciones. Para comenzar este proceso, hemos de empezar con unas estima-ciones iniciales, que se seleccionan bien utilizando información muestral, o bienescogiendo valores numéricos que simpli�quen el modelo.El estimador resultante tras la convergencia del procedimiento tiene una

distribución asintótica Normal, con esperanza matemática igual al verdaderovector de parámetros �; y su matriz de covarianzas puede estimarse por,

�2u

"�@f(xt; �)

@�

�0�=~�

�@f(xt; �)

@�

��=~�

#�1(3)

con �2u =1

T�kPT

t=1 ~u2t ;siendo el residuo ~ut = yt � f(xt; ~�):

4

1.1.2 Ejemplo 1: Modelo exponencial con constante. Aproximaciónlineal

Consideremos la estimación del modelo exponencial:

yt = �+ �1e�2xt + ut = f(xt; �) + ut

con � = (�; �1; �2) : El gradiente de la función f que de�ne la relación entrevariable dependiente e independiente es,

@f(xt; �)

@�=�1; e�2xt ; �1xte

�2xt�0

por lo que la aproximación lineal al modelo original es,

yt ' f(xt; �) +�@f(xt; �)

@�

�0�=�

�� � �

�+ ut; t = 1; 2; :::; T;

que de�niendo variables:

y�t = yt � f(xt; �) +�@f(xt; �)

@�

�0�=�

� = yt + �1�2e�2xt

z1t = e�2xt

z2t = �1xte�2xt

conduce a estimar el modelo,

y�t = �+ �1z1t + �2z2t + ut; t = 1; 2; :::; T (4)

A partir de unas estimaciones iniciales denotadas por el vector � =��; �1; �2

�;

generamos observaciones numé�cas para la variable y�t , así como para las varaiblesz1t; z2t; y procedemos a estimar el modelo (4) ; obteniendo las nuevas estima-ciones numéricas de los tres parámetros. Con ellos, podríamos volver a obtenerobservaciones numéricas de y�t , z1t; z2t; e iterar el procedimiento.Como hemos visto antes, este procedimiento puede también ponerse en prác-

tica estimando la regresión de los residuos sobre el vector gradiente:

ut = �0 + �1z1t + �2z2t

Tanto el cálculo del vectror de residuos como la generación de datos parael vector gradiente dependerán de la estimación concreta disponible en ese mo-mento, y procederemos a la actualización de valores numéricos de los parámet-ros, mediante:

�n = �n�1 + �0; �1;n = �1;n�1 + �1; �2;n = �2;n�1 + �2

siendo ut = yt � f(xt; �n�1):

5

1.1.3 Ejemplo 2: Modelo potencial. Aproximación lineal

Supongamos que queremos estimar el modelo potencial:

yt = �+ �x t + ut; t = 1; 2; :::; T

la función f(xt; �) es: f(xt; �) = �+x t ; de modo que el vector gradiente es:

@f(xt; �)

@�=

�@f(xt; �)

@�;@f(xt; �)

@�;@f(xt; �)

@

�= (1; x t ; �x

t lnxt)

[Recordemos que la derivada de la función x con respecto a es igual ax lnx]:Nótese que para cada observación t tenemos un vector de tres valores numéri-

cos para el vector @f (xt;�)@� ; que siempre tiene como primer elemento en este caso

el número 1.A partir de unas estimaciones �; calculamos los errores de ajuste:

ut = yt � �� �x t ; t = 1; 2; :::; T

y estimamos una regresión con ut como variable dependiente, y las tres variablesdel vector @f (xt;�)

@� como variables explicativas. El vector de estimaciones seañade, con el signo que haya tenido (es decir, se suma si es positivo, y se resta sies negativo), de las estimaciones iniciales, para tener una nueva estimación. elalgoritmo continua hasta que alcance la convergencia, y el punto al que convergese toma como estimación del vector �:En este modelo, una estimación inicial razonable consistiría en partir de =

1;que simpli�ca el modelo haciéndolo lineal. Si estimamos una regresión lineal

por mínimos cuadrados: yt = � + �xt + ut; t = 1; 2; :::; T; el vector��; �; 1

�;

donde � y � denotan las estimaciones de mínimos cuadrados del modelo lineal,servirían como estimaciones iniciale para comenzar el procedimiento iterativo.

1.2 Minimización de una función

Supongamos que queremos hallar el valor del vector de parámetros � que min-imiza una función F (�) : A partir de una estimación inicial del valor de dichovector, �n�1, aproximamos la función F (:) :

F (�) ' F��n

�+hrF

��n

�i0 �� � �n

�+1

2

�� � �n

�0 hr2F

��n

�i�� � �n

��M (�)

Si quisiéramos minimizar la función M (�) ;resolveríamos el sistema de ecua-ciones,

M (�) =hrF

��n

�i+hr2F

��n

�i�� � �n

�= 0

6

que conduce a,

� = �n �hr2F

��n

�i�1 hrF

��n

�ivalor numérico que puede tomarse como la nueva estimación, �n+1: Por

supuesto, convendrá comprobar que el Hessiano r2F��n

�es de�nido positivo.

El algoritmo se basa en condiciones de primer orden por lo que, cuando elalgoritmo converja, no sabremos si hemos alcanzado un máximo o un mínimo,y necesitaremos hacer alguna exploración adicional. Si aplicamos la expresiónanterior a la minimización de una función cuadrática: F (�) = a�2 + b� + c;

obtenemos: �n = �b=2a; llegando a este punto crítico de la función sin necesidadde hacer ninguna iteración.Este es un algoritmo iterativo, conocido como algoritmo de Newton-Raphson.

Converge en una sóla etapa al mínimo local cuando la función F (�) es cuadrática.En los demás casos, no hay ninguna seguridad de que el algoritmo vaya a con-verger. Incluso si lo hace, no hay seguridad de que converja al mínimo global,frente a hacerlo a un mínimo local. Además, no es posible saber si el límitealcanzado es o no un mínimo de naturaleza local. Por eso, conviene repetirel ejercicio partiendo de condiciones iniciales muy distintas para, si converge,certi�car que lo hace a un mínimo local peor que el alcanzado previamente.Las iteraciones continúan hasta que se satisfacen las condiciones de conver-

gencia que hallamos diseñdo. Estas pueden ser una combinación de condicionesde diverso tipo,

��n � �n�1

�0 ��n � �n�1

�< "1h

rF��n

�i0 hrF

��n

�i< "2

F��n

�� F

��n�1

�< "3

En este tipo de algoritmos puede utilizarse un parámetro � de longitud depaso, para tratar de controlar la velocidad de convergencia y, con ello, posibilitarque nos aproximemos al mínimo global, o que no abandonemos demsiado prontouna determinada región del espacio paramétrico:

� = �n � �hr2F

��n

�i�1 hrF

��n

�i1.3 Estimación por Mínimos Cuadrados

Si queremos obtener el estimador de Mínimos Cuadrados del modelo no lineal,querremos minimizar la función,

F (�) =TXt=1

(yt � f(xt; �))2 = SR(�)

7

y la regla iterativa anterior se convierte en,

�n = �n�1 �hr2F

��n�1

�i�1 hrF

��n�1

�ien la que es fácil ver que,

rF��n�1

�=

@SR(�)

@�= �2

TXt=1

@f(xt; �)

@�ut

r2F��n�1

�=

@2SR(�)

@�@�0= 2

TXt=1

�@f(xt; �)

@�

��@f(xt; �)

@�

�0� 2

TXt=1

@2f(xt; �)

@�@�0ut

en este caso, el algoritmo de Newton-Raphson consiste en:

�n = �n�1+

"TXt=1

�@f(xt; �)

@�

��@f(xt; �)

@�

�0� @

2f(xt; �)

@�@�ut

#�1 " TXt=1

@f(xt; �)

@�ut

#

El estimador resultante es asintóticamente insesgado, con matriz de covari-anzas,

�2u

hr2F

��n

�i�1estimándose el parámetro �2u del modo antes referido, mediante el cociente

de la Suma de Cuadrados de los errores de ajuste y el número de grados delibertad del modelo.El algoritmo de Gauss-Newton consiste en ignorar la presencia de la segunda

derivada en la matriz inversa anterior, y considerar el esquema iterativo,

�n = �n�1 +

"TXt=1

�@f(xt; �)

@�

��@f(xt; �)

@�

�0#�1 " TXt=1

@f(xt; �)

@�ut

#

Al despreciar la segunda derivada, este algoritmo entra en di�cultades cuandola super�cie a optimizar no tiene su�ciente curvatura que, como veremos másadelante, son las situaciones que en términos estadísticos, corresponden a iden-ti�cación imperfecta de los parámetros del modelo.El interés de este segundo algoritmo estriba en que la expresión matricial

que aparece en el segundo sumando corresponde con las estimaciones de mín-imos cuadrados del vector de errores, calculado con las estimaciones actuales,sobre las k variables de�nidas por el vector gradiente @f(xt;�)

@� . Son k variables,tanta como parámetros hay que estimar, porque el vector gradiente consta deuna derivada parcial con respecto a cada uno de los k parámetros del modelo.Las estimaciones resultantes son las correcciones a introducir sobre las actualesestimaciones del vector � para tener un nuevo vector de estimaciones numéricas.

8

1.4 Algoritmos numéricos: Gauss-Newton y Newton-Raphson

Consideremos de nuevo la estimación del modelo exponencial,

yt = �+ �1e�2xt + ut = f(xt; �) + ut

Si denotamos por F (�) la función Suma de Cuadrados de Residuos, tenemos elgradiente y matriz hessiana,

rF (�) = �2X @f (xt; �)

@�ut = �2

X @ft@�ut = �2

X�1; e�2xt ; �1xte

�2xt�ut

r2F (�) = 2X�

@ft@�

��@ft@�

�0� 2

X @2ft

@�2ut =

= 2

TXt=1

0@ 1 e�2xt �1xte�2xt

e�2xt e2�2xt �1xte2�2xt

�1xte�2xt �1xte

2�2xt �21x2t e2�2xt

1A� 2 TXt=1

0@ 0 0 00 0 xte

�2xt

0 xte�2xt �1x

2t e�2xt

1A ut == 2

TXt=1

0@ 1 e�2xt �1xte�2xt

e�2xt e2�2xt �xte�2xt ut + �1xte2�2xt�1xte

�2xt xte�2xt

��1e

�2xt � ut��1x

2t e�2xt

��1e

�2xt � ut�1A

y el algoritmo de Newton-Raphson consiste en actualizar los valores numéri-cos de los parámetros mediante el esquema,

�n = �n�1 �hr2F

��n�1

�i�1rF

��n�1

�El algoritmo de Gauss-Newton es una versión simpli�cada del anterior, susti-

tuyendo la matriz hessiana por el producto,

TXt=1

�@ft@�

��=�

�@ft@�

�0�=�

que equivale a despreciar las derivadas de segundo orden. La aproximaciónserá apropiada por tanto cuando la función a optimizar sea aproximadamentecuadrática. En ese caso, el hessiano sería constante. Como en la expresión

del algoritmo Newton-Raphson aparece la suma de productos del hessiano por elresiduo, si el hessiano es aproximadamente constante, la suma seria proporcionala la suma de residuos, que debería ser pequeña (sería cero si el modelo fueselineal).Bajo esta aproximación, tenemos el esquema iterativo,

�n = �n�1 +

"TXt=1

�@ft@�

��=�n�1

�@ft@�

�0�=�n�1

#�1 " TXt=1

@f(xt; �)

@�ut

#

9

que, como puede verse, coincide con la estimación de la aproximación linealal modelo no lineal que antes analizamos.En el modelo exponencial tendríamos,

�n = �n�1+

24 TXt=1

0@ 1 e�2xt �1xte�2xt

e�2xt e2�2xt �1xte2�2xt

�1xte�2xt �1xte

2�2xt �21x2t e2�2xt

1A35�1 24 TXt=1

0@ ute�2xt ut�1xte

�2xt ut

1A35Pero lo verdaderamente interesante del algoritmo de Gauss-Newton es que

la actualización en el estimador puede llevarse a cabo mediante una regresiónde los errores de ajuste, calculados con el estimador actualmente disponible,sobre el vector gradiente de la función f . Los coe�cientes estimados en estaregresión auxiliar se añaden a los actuales valores numéricos de los parámetrospara obtener el nuevo estimador, y se continúa de modo iterativo hasta lograra convergencia del algoritmo.

1.4.1 Condiciones iniciales

En algunos casos, puede comenzarse de estimaciones iniciales sencialles, pero nodemasiado. La estructura de este modelo sugiere comenzar de �2 = 0; con lo quedesaparecería el término exponencial, y � = 0; con lo que tendríamos �1 = �y; yresiduos: ut = yt � �y: Sin embargo, en este caso, las matrices a invertir en losalgoritmos de Newton- Raphson y Gauss-Newton resultan, respectivamente:

2TXt=1

0@ 1 1 �yxt1 1 �xtut + �yxt�yxt �xtut + �yxt �x2t �yut + �y2x2t

1A = 2TXt=1

0@ 1 1 �yxt1 1 �xtyt + 2�yxt�yxt �xtyt + 2�yxt �x2t �yyt + 2�y2x2t

1A ;TXt=1

0@ 1 1 �yxt1 1 �yxt�yxt �yxt �y2x2t

1Asiendo la segunda de ellas singular.Afortunadamente, las condiciones de optimalidad del procedimiento de Mín-

imos Cuadrados nos sugieren cómo obtener estimaciones iniciales razonables.Notemos que la primera condición puede escribirse,

� = m(y)� �1m(e�2xt)

que, sustituida en la segunda, nos proporciona,

m(yte�2xt) = m(e�2xt)m(y)� �1

�m(e�2xt)

�2+ �1m(e

2�2xt)

Dado un valor numérico de �2; tenemos,

�1 =m(yte

�2xt)�m(e�2xt)m(y)m(e2�2xt)� [m(e�2xt)]2

10

que, como es habitual, tiene la forma de cociente entre una covarianza y unavarianza muestrales.La última condición de optimalidad nos dice,

m�ytxte

�2xt�= �m

�xte

2�2xt�+ �1m

�xte

2�2xt�

que proporcionaría otra elección de �1;

�1 =m(ytxte

�2xt)�m(xte2�2xt)m(y)m(xte2�2xt)� [m(xte2�2xt)]2

Podríamos optar por escoger el valor numérico de �1 con cualquiera de ellas:También podríamos caracterizar la intersección, si existe, de las dos curvas paraelegir ambos parámetros, �1 y �2.

1.4.2 Ejemplo 4: Modelo potencial

Consideremos la utilización del modelo potencial para estimar la relación entreel tipo de interés a largo plazo Rt y el tipo de interés a corto plazo rt,

Rt = �1 + �2r t + ut

son,

TXt=1

(Rt � �1 � �2r t ) = 0

TXt=1

(Rt � �1 � �2r t ) r

t = 0

�2

TXt=1

(Rt � �1 � �2r t ) r

t ln rt = 0

que constituyen las ecuaciones normales del problema de estimación. De lasdos primeras ecuaciones, obtenemos,

TXt=1

Rt = T�1 + �2

TXt=1

r t ) Tm(R) = T�1 + �2Tm(r )) �1 = m(R)� �2m(r )

TXt=1

Rtr t = �1

TXt=1

r t + �2

TXt=1

r2 t ) Tm(Rr ) = Tm(R)m(r )� �2Tm(r )2 + �2Tm(r2 ))

) �2 =m(Rr )�m(R)m(r )m(r2 )�m(r )2

El primer resultado sugiere que la estimación del término independiente seobtenga, una vez estimados �2 y ; de modo similar a como se recupera eltérmino independiente en la estimación de un modelo lineal.

11

Lo más interesante es observar que la segunda ecuación sugiere estimar elparámetro �2 en función de momentos muestrales de algunas funciones de lostipos a largo y a corto plazo. Para calcular dichos momentos precisamos conocerel parámetro , pero también podemos poner en marcha una búsqueda de redpuesto que, por las características de la función de consumo, dicho parámetroha de ser positivo y no muy elevado. Por tanto, una red que cubra el inter-valo (0:5; 2:0) puede ser su�ciente. De hecho, para cada valor numérico posiblede podemos utilizar la expresión anterior para estimar �2;sin necesidad deoptimizar, y después utilizar la primera condición de optimalidad para estimar�1:

1.4.3 Ejemplo 5: Una función de consumo

Para apreciar el grado de di�cultad, consideremos las condiciones de optimalidadcorrespondientes a la estimación por mínimos cuadrados del modelo de consumo,

Ct = �1 + �2Y t + ut

en el que la función f(X;�) tiene gradiente:

@f(xt; �)

@�= (1; Y t ; �2Y

t lnYt)

que son,

TXt=1

(Ct � �1 � �2Y t ) = 0

TXt=1

(Ct � �1 � �2Y t )Y

t = 0

�2

TXt=1

(Ct � �1 � �2Y t )Y

t lnYt = 0

que constituyen las ecuaciones normales del problema de estimación. De lasdos primeras ecuaciones, obtenemos,

TXt=1

Ct = T�1 + �2

TXt=1

Y t ) Tm(C) = T�1 + �2Tm(Y )) �1 = m(C)� �2m(Y )

TXt=1

CtY t = �1

TXt=1

Y t + �2

TXt=1

Y 2 t ) Tm(CY ) = Tm(C)m(Y )� �2Tm(Y )2 + �2Tm(Y 2 ))

) �2 =m(CY )�m(C)m(Y )m(Y 2 )�m(Y )2

Este procedimiento funciona muy bien desde el punto de vista numérico,como puede verse en el archivo Ajuste_consumo.xls. La única limitación del

12

método es que no proporciona la estructura de varianzas y covarianzas que per-mitiría llevar a cabo el análisis de inferencia estadística al modo habitual. Puedeanalizarse, sin embargo, la región paramétrica consistente con una variación dela suma de cuadrados de residuos inferior a un cierto umbral de, por ejemplo, un5%. Esto sería como construir una región de con�anza del 95% para el vectorde parámetros.

1.4.4 Ejemplo 6: Modelo exponencial sin constante.

Consideremos ahora la estimación del modelo,

yt = �e�xt + ut = f(xt; �) + ut

con � = (�; �) : Entre muchas otras aplicaciones, este modelo se ha utilizadopara representar una función de demanda de dinero, que relaciona la cantidadde saldos monetarios reales en la economía en función de las expectativas dein�ación: �

Mt

Pt

�d= �e��

et + ut; t = 1; 2; :::; T; � > 0; � < 0

El gradiente de la función f que de�ne la relación entre variable dependientee independiente, es,

@f(xt; �)

@�=�e�xt ; �xte

�xt�0

Es importante apreciar la expresión analítica de las derivadas parciales deesta función,

@y

@x= ��e�xt ;

@2y

@x2= ��2e�xt ;

Como la función exponencial es positiva con independencia del signo de �y de xt; tenemos que la primera derivada tendrá el signo del producto ��,mientras que la segunda derivada tendrá el signo del parámetro �: Esto nospuede dar pautas para la elección de condiciones iniciales. Por ejemplo, si lanube de puntos de yt sobre xt tiene un per�l decreciente y convexo, tendríamosun valor positivo de �; debido a la convexidad, junto con un valor negativo de�:

Aproximación lineal por lo que la aproximación lineal al modelo original es,

yt ' f(xt; �) +�@f(xt; �)

@�

�0�=�

�� � �

�+ ut; t = 1; 2; :::; T;

que, de�niendo las variables y�t = yt � f(xt; �) +�@f(xt;�)

@�

�0�=�.�; z1t =

e�xt ; z2t = �xte�xt ; puede escribirse:

13

y�t = �z1t + �z2t + ut; t = 1; 2; :::; T; (5)

A partir de unas estimaciones iniciales denotadas por el vector � =��; �

�;

generamos observaciones numéricas para la variable y�t , así como para las vari-ables z1t; z2t; y procedemos a estimar el modelo (5) ; obteniendo las nuevasestimaciones numéricas de � y �. Con ellos, podríamos volver a obtener seriestemporales para las variables y�t , z1t; z2t; e iterar el procedimiento.Como es sabido, este procedimiento puede también ponerse en práctica es-

timando la regresión,

ut = �1z1t + �2z2t

y procediendo a la actualización de valores numéricos de los parámetros,

�n = �n�1 + �1; �n = �n�1 + �2

siendo ut = yt � f(xt; �n�1):

Algoritmo de Newton-Raphson Si denotamos por F (�) la función Sumade Cuadrados de Residuos,

min�SR(�) = min

TXt=1

ut

���= min

TXt=1

(yt � f(xt; �)2 = min�

TXt=1

�yt � �e�xt

�2que conduce a las condiciones de optimalidad,

Xyte

�xt = �X

e2�xtXytxte

�xt = �X

xte2�xt

donde la primera condición sugiere tomar como estimación inicial,

� =m(ye�x)

m(e2�x)

mientras que de la segunda condición tenemos:

� =m(yxe�x)

m(xe2�x)

14

Ejercicio práctico con rutina Matlab Considerando nuevamente la fun-ción Suma de Cuadrados de Residuos,

min�SR(�) = min

TXt=1

ut

���= min

TXt=1

(yt � f(xt; �)2 = min�

TXt=1

�yt � �e�xt

�2Comenzamos generando una serie temporal de datos simulando la variable

xt a partir de un proceso i., id., N(�; �2x); y para el término de error del modeloa partir de un proceso N(0; �2u): Por último, generamos la serie temporal dedatos para ytutilizando la estructura del modelo y las series temporales de xt yde ut, una vez que hemos �jado valores numéricos para los parámetros � y �:Con las series temporales fyt; xtgTt=1; podemos estimar el modelo siguiendo

varios procedimientos:

� Utilizando la instrucción "fminunc" de Matlab, para minimizar la sumade cuadrados de los residuos o errores de ajuste Min

�;�

PTt=1

�yt � �e�xt

�2:

� Utilizando la instrucción "fsolve" de Matlab, que encuentra las raices osoluciones de una ecuación lineal o no lineal, lo que se puede aplicar alsistema formado por las dos condiciones de optimalidad o de primer ordendel problema de minimización de la suma de cuadrados de los errores,

�2TXt=1

�yt � �e�xt

�e�xt = 0

�2TXt=1

�yt � �e�xt

��xte

�xt = 0

� Utilizando el algoritmo de Gauss-Newton (9), con expresiones analíticaspara el gradiente (6) y el hessiano (7) de la función objetivo, que es laSuma de Cuadrados de los errores de ajuste. Tenemos el gradiente ymatriz hessiana,

rF (�) = �2X @f (xt; �)

@�ut = �2

X @ft@�ut = �2

X�e�xt ; �xte

�xt�ut (6)

r2F (�) = 2TXt=1

�e2�xt �xte

2�xt

xt�e2�xt �2x2t e

2�xt

�� 2

TXt=1

�0 xte

�xt

xte�xt x2t�e

�xt

�ut(7)

= 2TXt=1

�e2�xt xte

�xt��e�xt � ut

�xte

�xt��e�xt � ut

�x2t�e

�xt��e�xt � ut

� �

15

por lo que el algoritmo de Newton-Raphson sería,

�n = �n�1�"TXt=1

�e2�xt xte

�xt��e�xt � ut

�xte

�xt��e�xt � ut

�x2t�e

�xt��e�xt � ut

� �#�1 " TXt=1

�e�xt

�xte�xt

�ut

#(8)

mientras que el algoritmo de Gauss-Newton sería,

�n = �n�1 �"TXt=1

�e2�xt �xte

2�xt

�xte2�xt �2x2t e

2�xt

�#�1 " TXt=1

�e�xt

�xte�xt

�ut

#(9)

� Utilizando el algoritmo de Gauss-Newton (9), con evaluación numérica delas derivadas parciales que aparecen en el gradiente (6) y el hessiano (11)de la función objetivo, que es la Suma de Cuadrados de los Errores:

@f

@xi= lim

"!0

f(x1; ::; xi + "; ::; xn)� f(x1; ::; xi � "; ::; xn)2"

; i = 1; 2; :::; n

siendo las derivadas segundas: @2f@xi@xj

= @g@xj; donde g = @f

@xi; de modo que:

@2f

@xi@xj= lim

"!0

f(x1; ::; xi + "; ::; xj + "; ::; xn)� f(x1; ::; xi + "; ::; xj � "; ::; xn)� f(x1; ::; xi � "; ::; xj + "; ::; xn) + f(x1; ::; xi � "; ::; xj � "; ::; xn)4"2

1.4.5 Ejemplo 7: Otra función exponencial

En el caso del modelo,

yt = �+ �e�xt + ut

tenemos el vector gradiente

@f(xt; �)

@�= (1; e�xt ; �xte

�xt)

y las ecuaciones normales,

TXt=1

�yt � �� �e�xt

�= 0)

TXt=1

yt = T�+ �TXt=1

e�xt ) � = �y � �m�e�xt

�TXt=1

�yt � �� �e�xt

�e�xt = 0)

TXt=1

yte�xt = �

TXt=1

e�xt + �TXt=1

e2�xt

TXt=1

�yt � �� �e�xt

��xte

�xt = 0)TXt=1

ytxte�xt = �

TXt=1

xte�xt + �

TXt=1

xte2�xt

16

La primera ecuación sugiere estimar la constante �mediante la regla habitualen el procedimiento de mínimos cuadrados de igualar las medias muestrasles deambos miembros del modelo econométrico. La segunda ecuación conduce a,

� =m�yte

�xt��m(yt)m

�e�xt

�m (e2�xt)� [m (e�xt)]2

por lo que es sencillo obtener una estimación de (�; �) condicional en ujnvalor numérico de �: De este modo, podríamos utilizar una rejilla de valores deeste último parámetro para obtener estimaciones mínimocuadráticas de los tresparámetros del modelo.

1.4.6 Ejemplo 8: Un modelo no identi�cado

Supongamos, por último, que pretendemos estimar el modelo,

yt = �+ �1�2xt + ut

en el que la aplicación del algoritmo de Newton-Raphson resulta en,0@ 1 �2xt �1xt�2xt �22x

2t �1�2x

2t

�1xt �1�2x2t �21xt

2

1A�0@ 0 0 00 0 xt0 xt 0

1Autmientras que el algoritmo de Gauss-Newton consistiría en,0@ 1 �2xt �1xt

�2xt �22x2t �1�2x

2t

�1xt �1�2x2t �21xt

2

1A1.5 Estimador de Máxima Verosimilitud

Otra estrategia de estimación consiste en utilizar un procedimiento de MáximaVerosimilitud, lo que requiere establecer un determinado supuesto acerca deltipo de distribución que sigue el término de error (innovación) del modelo. Elestimador resultante es e�ciente supuesto que la hipótesis acerca del tipo dedistribución sea correcta. En el caso de que supongamos que ut � N(0; �2u), lafunción de verosimiltud es,

L(�; �2u) =

�1

2��2u

�T=2exp

"� 1

2�2u

TXt=1

(yt � f(xt; �))2#

y su logaritmo,

lnL(�; �2u) = �T

2ln 2� � T

2ln�2u �

1

2�2u

TXt=1

(yt � f(xt; �))2

17

cuyo gradiente, de dimensión k + 1 hay que igualar a 0k+1 para obtener laestimación de Máxima Verosimilitud. Su matriz de covarianzas es la inversa dela matriz de información,

V ar��MV

�=�I(�; �2u)

��1=

��E@

2 lnL(�)

@2�

��1= �

"TXt=1

E@2 ln lt(�)

@2�

#�1

donde � =��; �2u

�y ln lt(�) denota el logaritmo de la función de densidad

correspondiente a un período de tiempo.Es fácil probar que esta matriz es diagonal a bloques, en � y �2u; por lo que

la estimación del vector � y del parámetro �2u son independientes, siendo portanto, estadísticamente e�ciente llevarlas a cabo por separado.En el aso del modelo exponencial:

lnL(yt; xt; �; �2u) = �

T

2ln 2� � T

2ln�2u �

1

2�2u

TXt=1

�yt � (�+ �1e�2xt)

�2tendremos el conocido resultado de que la elección de valores numéricos

para los componentes de � que maximiza la función de verosimilitud resultantecoinciden con los valores numéricos que minimizan la suma de cuadrados de loserrores de estimación.En este procedimiento, sin embargo, a diferencia de la estimación por Míni-

mos Cuadrados, consideramos la estimación de la varianza del término de error,�2u; simultáneamente con la de los parámetros que componen el vector �: Laecuación de optimalidad correspondiente nos dirá, como también es habitual,que la estimación de máxima verosimilitud de dicho parámetro se obtiene divi-diendo por T la suma de cuadrados de los residuos que resultan al utilizar lasestimaciones de máxima verosimilitud de los parámetros que entran en �:Si queremos maximizar el logaritmo de la función de verosimilitud, ten-

dremos F (�) = � lnL(�; �2u) y el algoritmo Newton-Raphson es,

�n = �n�1 ��@2 lnL(�)

@�@�0

��1�=�n�1

:

�@ lnL(�)

@�

��=�n�1

y el estimador resultante es asintóticamente insesgado, con distribución Nor-mal y matriz de covarianzas,

V ar��n

�=

�@2 lnL(�)

@�@�0

��1�=�n

El algoritmo conocido como quadratic hill-climbing consiste en sustituir encada iteración la matriz hessiana por,

r2F��n�1

�+ �Ik

18

de modo que sea siempre de�nida positiva. Cuando esta corrección se intro-duce en el algoritmo de Gauss-Newton, se tiene el algoritmo de Marquardt.El algoritmo de scoring consiste en sustituir la matriz hessiana del logaritmo

de la verosimilitud, por su esperanza matemática, la matriz de informacióncambiada de signo, lo que simpli�ca mucho su expresión analítica y, por tanto,los cálculos a efectuar en cada etapa del algoritmo,

�n = �n�1 +hI(�n�1)

i�1�=�n�1

:

TXt=1

@ ln lt(�)

@�

!�=�n�1

y la matriz de covarianzas del estimador resultante es, por supuesto, la in-versa de la matriz de información.El algoritmo de Gauss-Newton, aplicado a la estimación por máxima verosimil-

itud, es,

�n = �n�1 +

"TXt=1

�@ ln lt(�)

@�

��@ ln lt(�)

@�

�0#�1�=�n�1

:

TXt=1

@ ln lt(�)

@�

!�=�n�1

En este caso, el algoritmo Gauss-Newton está justi�cado por la conocidapropiedad teórica de la función de verosimilitud,

E

"�@ lnL(�)

@�

��@ lnL(�)

@�

�0#= �

�E@2 lnL(�)

@2�

��1En el caso del modelo exponencial, el gradiente de la función logaritmo de

la verosimilitud es,

r lnL(yt; xt; �; �2u) =1

�2u

0BBB@PT

t=1 utPTt=1 e

�2xt utPTt=1 �1xte

�2xt ut� T2�2u

+ 12(�2u)

2

Pu2t

1CCCAy la matriz hessiana es,

H = � 1

�2u

TXt=1

0BBBB@1 e�2xt �1xte

�2xt � 1�2u

PTt=1 ut

e�2xt e2�2xt �1xte2�2xt � 1

�2u

PTt=1 e

�2xt ut

�1xte�2xt �1xte

2�2xt �21x2t e2�2xt � 1

�2u

PTt=1 �1xte

�2xt ut

� 1�2u

PTt=1 ut � 1

�2u

PTt=1 e

�2xt ut � 1�2u

PTt=1 �1xte

�2xt utT

2(�2u)2 � 1

(�2u)3

Pu2t

1CCCCAAl tomar esperanza matemática en los elementos de la matriz hessiana y

cambiar su signo, obtenemos la matriz de información, que tendrá ceros en laúltima �la y columna, correspondientes a la estimación de �2u; excepto en suelemento diagonal.

19

I��; �2u

�=1

�2u

TXt=1

0BB@1 e�2xt �1xte

�2xt 0e�2xt e2�2xt �1xte

2�2xt 0

�1xte�2xt �1xte

2�2xt �21x2t e2�2xt 0

0 0 0 T2(�2u)

2

1CCAque demuestra que el estimador de máxima verosimilitud de dicho modelo es

estadísticamente independiente de los estimadores de los restantes parámetros,lo que no sucede con los estimadores de máxima verosimilitud de estos entre sí,que tienen covarianzas no nulas.

1.6 Criterios de convergencia

Antes de ello, vamos a establecer criterios de convergencia: decimos que el algo-ritmo iterativo anterior ha convergido, y detenemos el procedimeitno numéricode estimación, cuando se cumple alguna de las siguientes condiciones:

� el valor numérico de la función objetivo varía menos que un cierto umbralpreviamente establecido al pasar de una estimación �n�1, a la siguiente,�n;

� el gradiente de la función objetivo, evaluado en la nueva estimación,rF��n

�;

es pequeño, en el sentido de tener una norma reducida. Para comprobar elcumplimiento de esta condición, puede utilizarse la norma euclídea: raizcuadrada de la suma de los cuadrados de los valores numéricos de cadacomponente del gradiente, o puede utilizarse el valor numérico de cualquierforma cuadrática calculada con el vector gradiente y una matriz de�nidapositiva.

� la variación en el vector de estimaciones es inferior a un umbral pre-viamente establecido. Para comprobar esta condición utilizaríamos unanorma del vector diferencia �n � �n�1;

� se ha alcanzado el máximo número de iteraciones establecido en el pro-grama de cálculo numérico que lleva a cabo la actualización de estima-ciones descrita en (??) : Esto se hace con el objeto de que el programade estimación no continúe iterando durante un largo período de tiempo,especialmente, si no está mejorando signi�cativamente la situación de es-timación.

El programa de estimación puede diseñarse para que se detenga cuando secumple uno cualquiera de estos criterios, o todos ellos. Es importante puntu-alizar, por tanto, que al estimar mediante un algoritmo numérico, el investigadorpuede controlar: i) las estimaciones iniciales, ii) el máximo número de itera-ciones a efectuar, y iii) el tamaño del gradiente, iv) la variación en el vectorde parámetros y v) el cambio en el valor numérico de la función objetivo por

20

debajo de los cuales se detiene la estimación. Cuando se utiliza una rutinaproporcionada por una librería en un determinado lenguaje, dicha rutina incor-pora valores numéricos para todos los criterios señalados, que pueden no serlos que el investigador preferiría, por lo que es muy conveniente poder variardichos parámetros en la rutina utilizada. Alternativamente, lo que es muchomás conveniente, el investigador puede optar por escribir su propio programade estimación numérica.Estos aspectos afectan asimismo a la presentación de los resultados obtenidos

a partir de un esquema de estimación numérica: como generalmente no sabemossi hemos alcanzado un óptimo local o global, esto debe examinarse volviendoa repetir el ejercicio de estimación a partir de condiciones inniciales sustan-cialmente diferentes de las utilizadas en primer lugar, con objeto de ver si seproduce la convergencia, y cual es el valor de la función objetivo en dicho punto.Conviene repetir esta prueba varias veces. Asimismo, cuando se presentan es-timaciones, deberían acompañarse de la norma del graidnet en dicho punto, asícomo de los umbrales utilizados para detener el proceso de estimación, tantoen términos del vector gradiente, como de los cambios en el vector de estima-ciones, o en el valor numérico de la función objetivo, como hemos explicado enel párrafo anterior.

1.7 Di�cultades prácticas en el algoritmo iterativo de es-timación

� Cuando se utilizan algoritmos numéricos para la maximización de la fun-ción de verosimilitud es frecuente encontrar situaciones en las que el al-goritmo numérico encuentra di�cultades para encontrar una solución alproblema de optimización. Es muy importante que, en todos los casos enque la rutina de estimación o de optimización se detenga, examinemos cuáles el criterio de parada que ha actuado. Cuando el programa se ha escritode modo que se detenga cuando se cumple alguno de los criterios antesseñalados, conviene incluir en el programa un mensjae que haga explícitocuál de los criterios ha conducido a su parada, de modo que reduzcamosel umbral asociado a dicho criterio.

� Si la razón es que se ha excedido el máximo número de iteraciones prop-uesto en el programa, siempre se debe volver a ejecutar dicho programa.En la mayoría de los casos, es razonable elevar el número máximo de it-eraciones y, posiblemente, comenzar a partir del vector de parámetros enel que se haya detenido.

� En ocasiones la rutina numérica itera un número reducido de veces y,sin exceder del máximo número de iteraciones, se detiene en un puntomuy próximo al que hemos utilizado como condiciones iniciales. Estopuede deberse a que los umbrales de parada que hemos seleccionado, oque están escritos como valores por defecto en la rutina que implemente elalgoritmo numérico son demasiado grandes. Así, en los primeros cálculos,

21

los cambios en las estimaciones o en el valor de la función objetivo soninferiores a dichos umbrales, y el algoritmo se detiene. Deben reducirsedichos umbrales y volver a estimar.

� Si el programa se detiene sin exceder el máximo número de iteraciones,es importante comparar los valores paramétricos en los que se detiene,con los que se utilizaron como condiciones iniciales. Esta comparaciónque, lamentablemente, no suele efectuarse, muestra frecuentemente queen alguno de los parámetros el algoritmo no se ha movido de la condicióninicial. Salvo que tengamos razones sólidas para creer que dicha condicióninicial era ya buena, esto signi�ca que, o bien el algoritmo está teniendodi�cultades para encontrar en que sentido mover en la dirección de di-cho parámetro para mejorar el valor numérico de la función objetivo, ono ha tenido su�ciente posibilidad de iterar en esa dirección, dadas lasdi�cultades que encuentra en otras direcciones (o parámetros). En estoscasos quizá conviene ampliar el número máximo de iteraciones, y quizátambién reducir la tolerancia del algoritmo (la variación en � o en F quese ha programado como criterio de parada), para evitar que el algoritmose detenga demasiado pronto.

� Todo esto no es sino re�ejo, en general, de un exceso de parametrización,que conduce a que la super�cie que representa la función objetivo, comofunción de los parámetros, sea plana en algunas direcciones (o parámet-ros). Esto hace que sea di�cil identi�car los valores numéricos de cadauno de los parámetros del modelo por separado de los demás, por lo que elalgoritmo encuentra di�cultades en hallar una dirección de búsqueda en laque mejore el valor numérico de la función objetivo. Una variación, inclusosi es de magnitud apreciable, en la dirección de casi cualquier parametro,apenas varía el valor numérico de la función objetivo. Por eso, el algoritmono encuentra un modo de variar los valores paramétricos de modo que lafunción objetivo cambie por encima de la tolerancia que hemos �jado, yse detiene. En estos casos, el gradiente va a ser también muy pequeño,que puede ser otro motivo por el que el algoritmo se detenga. De hecho,la función objetivo varía de modo similar (poco, en todo caso) tanto siel algoritmo varía uno como si cambia varios parámetros, que es lo quegenera el problema de identi�cación, similar al que se obtiene en el mod-elo lineal general cuando existe colinealidad entre alguna de las variablesexplicativas. Las di�cultades en la convergencia del algoritmo producidaspor una excesiva sobreparametrización del modelo se re�ejan en unas ele-vadas correlaciones de los parámetros estimados. Como en cualquier otroproblema de estimación, conviene examinar no sólo las varianzas de losparámetros estimados, sino también las correlaciones entre ellos.

� Otra di�cultad puede presentarse en la forma de cambios muy bruscosen el estimador. Ello se corrige introduciendo en el algoritmo (??) unparámetro � que se conoce como longitud de salto,

22

� = �0 � �hr2F

��0

�i�1rF

��0

�(10)

Hay que tener en cuenta que posiblemente esté incorporado en el programauna determinada magnitud para �, que el investigador puede alterar cuandoobserve cambios bruscos en el vector de parámetros.

1.8 Estimación condicionada y precisión en la estimación

Para tratar estas situaciones, cuando se identi�can uno o dos parámetros al-tamente correlacionados con los demás, puede llevarse a cabo una estimacióncondicionada, �jando valores alternativos de dichos parámetros a lo largo deuna red, maximizando la verosimilitud respecto de los demás, y comparandoresultados para alcanzar el máximo absoluto. En otras ocasiones, sin necesidadde incurrir en di�cultades numéricas, se aprecia que imponer un valor unméricopara uno o dos parámetros simpli�ca enormemente la estructura del modelo aestimar, por ejemplo, haciéndola linear. Si este es el caso, puede establecerseuna red de búsqueda en dichos parámetros y, para cada uno de ellos, estimarel modelo lineal resultante. Se resuelve así un conjunto de muchos problemassimples, frente a la alternativa de resolver un único problema complicado quees, en ocasiones, mucho más difícil.Una limitación de esta estrategia de estimación, que tantas veces simpli�ca

el problema computacional, es que no nos proporciona una estimación de la var-ianza para el parámetro o los parámetros sobre los que se ha hecho la estimacióncondicional. Según cuál sea el grado de simpli�cación alcanzado, podríamos notener varianzas para ninguno de los parámetros. Esto sugiere una cuestión aúnmás profunda, acerca del signi�cado real de las varianzas proporcionadas porel problema de estimación. En realidad, lo que el investigador quiere tener esuna medida del grado de precisión obtenido en su estimación, y ello bien puededepender del objetivo �nal de la estimación del modelo. Por ejemplo, consid-eremos el habitual problema de calcular la volatilidad implícita de una opción.Obtener las sensibilidades de la respuesta a dicha pregunta a variaciones en elvalor de alguno de los parámetros que se �ja equivale a determinar un rango decon�anza para el parámetro que se estima.Consideremos que el subyacente de una opción call cotiza a 100, que el precio

de ejercicio de la misma es 95, el tipo de interés, supuesto constante hasta elvencimiento, es 7,5%, el plazo residual es 3 meses, y el precio de la opción es de10. La inversión de la fórmula de Black Scholes (BS) proporciona una volatilidadde 31,3%. Este no es un problema estadístico, y no se ha llevado a cabo ningúnproceso de muestreo. Sin embargo, el usuario que conoce la limitación delmodelo BS por los supuestos que incorpora, puede estar dispuesto a aceptar unrango de valores de volatilidad que no generen un precio teórico que se separeen más de 0,25 del precio observado en el mercado. Ello le llevará a considerarun rango de volatilidades entre 29,8% y 32,7%.La misma idea puede aplicarse en un problema de estimación para evaluar

la precisión con que se ha estimado un determinado parámetro. En función de

23

la utilidad que se vaya a dar al modelo, el usuario puede determinar que estádispuesto a aceptar variaciones de hasta un 1% alrededor del valor de la funciónobjetivo que ha obtenido en su estimación. Se trata entonces de perturbar elvalor numérico del parámetro cuya precisión se quiere medir, y estimar condi-cionando en dicho valor mientras que el valor resultante para la función objetivosatisfaga la condición pre�jada. Se obtiene así numericamente, un intervalo decon�anza alrededor de la estimación inicialmente obtenida. En principio, estaregión no tiene por qué coincidir con la tradicional región de con�anza. Puederesultar extraño hablar de regiones de con�anza paramétricas en el caso delcálculo de la volatilidad implícita pues, como hemos dicho, no es realmente unproblema estadístico. Existe un razonamiento distinto del anterior, con másbase estadística que conduce asimismo a una región de con�anza paramétrica.Para ello, consideremos que el usuario de la expresión BS, consciente de queel tipo de interés relevante no va a permanecer constante hasta vencimiento,y desconociendo su evolución establece un conjunto de posibles escenarios deevolución de los tipos, cada uno acompañado de una probabilidad que recogela mayor o menor verosimilitud asignada a dicho escenario, e identi�ca cadaescenario con distintos niveles constantes del tipo de interés. Calculando lavolatilidad implícita para cada nivel de tipos de interés considerado, mientrasse mantienen constantes los restantes parámetros, generaríamos una distribu-ción de probabilidad para la volatilidad implícita. Por supuesto, este argumentose puede generalizar el caso en que la incertidumbre a priori se recoge en la formade una distribución de probabilidad multivariante para el vector de parámetrossobre los que se condiciona en el proceso de estimación.

1.9 Algunos modelos típicos

1.9.1 Estimación de modelos MA(q)

Una aplicación interesante de este procedimiento consiste en la estimación deestructuras de medias móviles en modelos lineales de series temporales.

Modelo MA(1) Consideremos un modelo MA(1),

yt = "t � �"t�1El modelo es de la forma: yt = f(xt; �) + ut;con � = �; f(xt; �) � ��"t�1

y ut � "t;de modo que: @f(xt;�)@� = �"t�1; por lo que, siendo �0 una estimación

inicial del parámetro del modelo, podemos escribir la erxpresión genérica para

la aproximación lineal yt� f(xt; �0)+�@f(xt;�)

@�

��=�0

�0 =�@f(xt;�)

@�

��=�0

�+ "t;

para este modelo particular, obteniendo:

24

yt � f(xt; �0) +�@f(xt; �)

@�

��=�0

�0 = yt + �0"t�1 � �0"t�1 = yt = "0t � �0"0t�1�

@f(xt; �)

@�

��=�0

� + "t = ��"0t�1 + "t;

lo que nos lleva a:"0t � �0"0t�1 = ��"0t�1 + "t

que conduce a estimar el modelo lineal de regresión,

wt = �x1t + "t

donde,

wt = "0t � �0"0t�1x1t = "0t�1

Pero el término de error "0t no es observable, por lo que utilizamos la propiaexpresión del modelo MA(1), escrito en la forma,

"t = yt + �0"t�1

para generar la serie temporal "0t ; t = 2; ::::T; mediante:

"01 = 0;

"02 = y2 + �0"01 = y2;

"03 = y3 + �0"02 = y3 + �

0y2

"04 = y4 + �0"03 = y4 + �

0y3 +��0�2y2

y así sucesivamente. Ahora podemos generar series temporales para lasvariables del modelo, wt y x1t a partir de la serie temporal de "0t :Nótese que en este caso, la estimación de la regresión auxiliar wt = �x1t+ "t

nos proporciona el valor numérico del estimador del parámetro �; no la correccióna introducir en una pre-estimación. Pero el procedimiento es iterativo, pues lasseries temporales de "0t ; wt; x1t; dependen del valor numérico que se considerepara el parámetro �:

Modelo MA(2) Como ejemplo, consideremos un modelo MA(2),

yt = "t � �1"t�1 � �2"t�2que puede aproximarse linealmente por,

25

"t ' "0t +��1 � �01

�� @"t@�1

��=�0

+��2 � �02

�� @"t@�2

��=�0

siendo �0 =��01; �

02

�una estimación inicial de los parámetros del modelo.

En este modelo se tiene,

@"t@�1

= "t�1;@"t@�2

= "t�2

por lo que podemos escribir la aproximación anterior como,

"0t � �01�@"t@�1

��=�0

� �02�@"t@�2

��=�0

= ��1�@"t@�1

��=�0

� �2�@"t@�2

��=�0

+ "t

es decir,

"0t � �01"0t�1 � �02"0t�2 = ��1"0t�1 � �2"0t�2 + "tque conduce a estimar el modelo lineal de regresión,

wt = �1x1t + �2x2t + "t

donde,

wt = "0t � �01"0t�1 � �02"0t�2x1t = "0t�1

x2t = "0t�2

Para obtener los errores en este caso, se �jan los 2 primeros igual a suesperanza matemática, cero, y se utiliza la propia expresión del modelo MA(2),escrito en la forma,

"t = yt + �01"t�1 + �

02"t�2

para generar la serie temporal "0t ; t = 1; 2; ::::T:

1.10 Estimación por Máxima Verosimilitud de modelosdinámicos

1.10.1 Modelo AR(1), sin autocorrelación

Encuentre las expresiones analíticas del estimador de Máxima Verosimilitud yde su matriz de varianzas y covarianzas, en el modelo AR(1):

yt = �+ �yt�1 + "t; t = 1; 2; :::

E"t = 0; E("t"t�s) = 0 8s 6= 0; E("2t ) = �2�

26

La distribución de probabilidad de yt condicional en su propio pasado es

N��+ �yt�1; �

2�

�: Es decir, una vez observado el valor numérico de yt; el

valor esperado de yt+1 es � + �yt; y la varianza de los posibles valores de yt+1alrededor de �+ �yt es �2� : Como puede apreciarse, la esperanza condicional esuna variable aleatoria, tomando valores numéricos cambiantes en el tiempo. Lavarianza condicional de yt es igual a la varianza de la innovación, �2� ; re�ejandoel hecho de que es ésta la única fuente de error en la predicción del valor de ytun período hacia adelante.Esto es válido para todo t � 2: Son embargo, para t = 1 no podemos

condicionar y1 en ningún valor previo, por lo que no podemos hablar de sudistribución condicional. La distribución marginal, absoluta o incondicional

de y1 es N�

�1�� ;

�2�1��2

�; es decir, que si no contamos con ninguna observación

previa, el valor esperado de y1 es �1�� ; y la dispersión esperada alrededor de dicho

valor es de�2�1��2 ; mayor de la que tendríamos si dispusiésemos de la observación

del período anterior. Nótese que: E (Et�1yt) = E(� + �yt�1) = � + �Eyt�1;pero Eyt�1 = �

1�� ; por lo que: E (Et�1yt) = � + ��1�� =

�1�� = Eyt, lo cual

no hace sino comprobar que se cumple en este ejemplo concreto, la conocidapropiedad: Eyt = E (Et�1yt) :La función de verosimilitud muestral puede escribirse:

L(y1; y2; :::; yT ) = L(y1)L(y2=y1)L(y3=y2):::L(yT =yT�1)

de modo que,

lnL = ln(y1) +TX2

lnL(yt=yt�1) =

=

�12ln 2� � 1

2ln

�2"1� �2

� 1� �2

2�2"

�y1 �

1� �

�2!� T � 1

2ln 2� �

�T � 12

ln�2" �1

2�2"

TX2

(yt � �� �yt�1)2

El problema de maximización de esta función se simpli�ca si ignoramos losprimeros términos, que proceden de la distribución marginal de y1, L(y1); yconsideramos:

lnL� = �T � 12

ln 2� � T � 12

ln�2" �1

2�2"

TX2

(yt � �� �yt�1)2 (11)

que es la función de verosimilitud condicionada en el valor numérico de y1;frente a la anterior, que era la función de verosimilitud exacta. Las condicionesde maximización de esta función de verosimilitud condicionada, que resultan deigualar a cero su gradiente, son,

27

@ lnL�

@�=

1

�2"

TX2

(yt � �� �yt�1) = 0)TX2

ut = 0

@ lnL�

@�=

1

�2"

TX2

(yt � �� �yt�1)yt�1 = 0)TX2

utyt�1 = 0

@ lnL�

@�2"= �T � 1

2

1

�2"+

1

2 (�2")2

TX2

(yt � �� �yt�1)2 = �T � 12

1

�2"+

1

2 (�2")2

TX2

ut2

= � 1

2 (�2")2

TX2

��2" � ut2

�= 0

donde hemos utilizado el hecho de que, para estimaciones numéricas de �y �; la diferencia yt � � � �yt�1 es igual al residuo, ut: Vemos, por tanto, quelas estimaciones de máxima verosimilitud condicionada de � y � son aquellosvalores numéricos que generan unos residuos de suma cero, a la vez que estánincorrelacionados con yt�1: Ello signi�ca que son residuos con correlación nulacon las dos variables explicativas del modelo, (1; yt�1) y coincide, en consecuen-cia, con el estimador de mínimos cuadrados ordinarios del modelo AR(1), queutilizaría datos desde t = 2 hasta T .Por otra parte, la tercera ecuación nos proporciona el estimador de máxima

verosimilitud condicionada de �2" :

�2" =

PT2 ut

2

T � 1ligeramente diferente del estimador de mínimos cuadrados del model AR(1),

que habría sido: �2" =PT

2 ut2

T�2 :

Si sustituimos la expresión de �2" en (11) ; tenemos:

lnL� = �T � 12

ln 2� � T � 12

lnTX2

ut2 +

T � 12

ln(T � 1)� T � 12PT

2 ut2

TX2

ut2 =

=

��T � 1

2ln 2� +

T � 12

ln(T � 1)� T � 12

�� T � 1

2ln

TX2

ut2

que se conoce como función de verosimilitud condicional concentrada, y quemuestra que maximizar lnL� equivale, claramente, a minimizar la suma decuadrados de residuos,

PT2 ut

2:La matriz de información del estimador de máxima verosimilitud es la in-

versa de la matriz de información, para lo que hemos de obtener las derivadassegundas,

28

@2 lnL�

@�2= � 1

�2"

TX2

(�1) = �T � 1�2"

@2 lnL�

@�2= � 1

�2"

TX2

y2t�1 ) E

�@2 lnL�

@�2

�= �T � 1

�2"

�2"

1� �2+

�2

(1� �)2

!@2 lnL�

@ (�2")2 =

T � 12

1

(�2")2 �

1

(�2")3

TX2

ut2 ) E

@2 lnL�

@ (�2")2

!= �T � 1

(�2")2

@2 lnL�

@�@�= � 1

�2"

TX2

yt�1 ) E

�@2 lnL�

@�@�

�= �T � 1

�2"

1� �

@2 lnL�

@�@�2"= � 1

(�2")2

TX2

ut ) E

�@2 lnL�

@�@�2"

�= 0

@2 lnL�

@�@�2"= � 1

(�2")2

TX2

utyt�1 ) E

�@2 lnL�

@�@�2"

�= 0

donde, para obtener la esperanza matemática en la última línea, hemosutilizado:

E

�@2 lnL�

@�@�2"

�= E

�Et�1

�@2 lnL�

@�@�2"

��= � 1

(�2")2E

"Et�1

TX2

utyt�1

!#=

= � 1

(�2")2E

"TX2

yt�1 (Et�1ut)

#= 0

por lo que,

0@ �

�2"

1A � N

0BB@ ���2"

;�2"T � 1

0B@ 1 �1�� 0

�1��

�2"1��2 +

�2

(1��)2 0

0 0 12�2"

1CA�11CCA

donde la matriz de varianzas y covarianzas debería evaluarse en los estima-ciones de máxima verosimilitud obtenidas para los tres parámetros del modelo.Para estimar este modelo mediante el algoritmo de Newton-Raphson, habría

que iterar mediante,

�n = �n�1+

0B@ T � 1PT

2 yt�1PT

2 utPT2 yt�1

PT2 y

2t�1

PT2 utyt�1PT

2 utPT

2 utyt�11

(�2")3

PT2

��2" � ut2

�1CA�10B@

PT2 utPT2 utyt�1

� 12�2"

PT2

��2" � u2t

�1CA

29

donde � denota el vector de parámetros, � =��; �; �2"

�; mientras que el

algoritmo de scoring, más sencillo, aproxima el hessiano del logaritmo de lafunción de verosimilitud por la matriz de información,

�n = �n�1+1

T � 1

0B@ 1 �1�� 0

�1��

�2"1��2 +

�2

(1��)2 0

0 0 12�2"

1CA�10B@

PT2 utPT2 utyt�1

� 12�2"

PT2

��2" � u2t

�1CA

y el algoritmo de Gauss-Newton, que no requiere calcular segundas derivadas,pero incurre en un mayor error de aproximación numérico, consistiría en:

�n = �n�1 + �2"

0B@PT

2 u2t

PT2 u

2tyt�1 � 1

2�2"

PT2 ut

��2" � u2t

�PT2 u

2tyt�1

PT2 u

2ty2t�1 � 1

2�2"

PT2 utyt�1

��2" � u2t

�� 12�2"

PT2 ut

��2" � u2t

�� 12�2"

PT2 utyt�1

��2" � u2t

�14�2"

PT2

��2" � u2t

�21CA�1

:

:

0B@PT

2 utPT2 utyt�1

� 12�2"

PT2

��2" � u2t

�1CA

1.10.2 Modelo constante, con autocorrelación

Encuentre las expresiones analíticas del estimador de Máxima Verosimilitud yde su matriz de varianzas y covarianzas, en el modelo constante con autocor-relación:

yt = �+ ut; t = 1; 2; :::;

ut = �ut�1 + "t = 0 E"t = 0; E ("t"s) = 0;8s 6= 0; E("2t ) = �2"

El modelo puede escribirse en función de la innovación del mismo,

yt = � (1� �) + �yt�1 + "tque muestra que, dado yt�1; la distribución de probabilidad de yt condicional

en su propio pasado es N�� (1� �) + �yt�1; �2"

�: Es decir, una vez observado

el valor numérico de yt; el valor esperado de yt+1 es � (1� �) + �yt�1; y lavarianza de los posibles valores de yt+1 alrededor de dicho valor esperado es �2":La esperanza condicional es una variable aleatoria, tomando valores numéricoscambiantes en el tiempo. La varianza condicional de yt es igual a la varianza dela innovación, �2"; re�ejando el hecho de que es ésta la única fuente de error enla predicción del valor de yt un período hacia adelante.Esto es válido para todo t � 2: Son embargo, para t = 1 no podemos

condicionar y1 en ningún valor previo, por lo que no podemos hablar de sudistribución condicional. La distribución marginal, absoluta o incondicional de

y1 es N��;

�2"1��2

�; es decir, que si no contamos con ninguna observación previa,

30

el valor esperado de y1 es �1�� ; y la dispersión esperada alrededor de dicho valor

es de �2"1��2 ; mayor de la que tendríamos si dispusiésemos de la observación del

período anterior.La función de verosimilitud muestral puede escribirse:

L(y1; y2; :::; yT ) = L(y1)L(y2=y1)L(y3=y2):::L(yT =yT�1)

de modo que,

lnL = ln(y1) +TX2

lnL(yt=yt�1) =

= �12ln 2� � 1

2ln�2u �

1

2�2uy21 �

T � 12

ln 2� � T � 12

ln�2" �1

2�2"

TX2

(yt � � (1� �)� �yt�1)2 =

= �T2ln 2� � T

2ln�2" �

1

2ln(1� �2)� 1� �

2

2�2"(y1 � �)2 �

1

2�2"

TX2

(yt � � (1� �)� �yt�1)2

donde hemos utilizado el hecho de que la distribución incondicional de y1 esN(0; �2u):Esta función de verosimilitud es similar, pero no idéntica, a la que llegaríamos

estableciendo la hipótesis de Normalidad directamente sobre la innovación delmodelo, "t: En efecto, si "t i.,i.d., N(0; �2"); tendríamos:

lnL = �T2ln 2� � T

2ln�2" ��

1

2�2"

TX1

"2t =

= �T2ln 2� � T

2ln�2" �

1

2�2"[y1 � � (1� �)� �y0]2 �

1

2�2"

TX2

(yt � � (1� �)� �yt�1)2

en la que y0; no observable, sería un parámetro más a estimar. Utilizandola representación de la innovación del modelo: "t = yt � � (1� �) + �yt�1; lascondiciones de optimalidad serían,

@ lnL

@�=

1� ��2"

"(y1 � � (1� �) + �y0) +

TX2

"t

#= 0

@ lnL

@�=

1

�2"

"(y1 � � (1� �)� �y0) (y0 � �) +

TX2

"t (yt�1 � �)#= 0

@ lnL

@�2"= �T

2

1

�2"+

1

2 (�2")2

TX2

(yt � � (1� �) + �yt�1)2 = 0

Una vez más, calcularemos el estimador de Máxima Verosimilitud condi-cional en la primera observación, que tomaremos como dada.

31

lnL� = �T � 12

ln 2� � T � 12

ln�2" ��1

2�2"

TX2

"2t =

= �T � 12

ln 2� � T � 12

ln�2" �1

2�2"

TX2

(yt � � (1� �)� �yt�1)2

con condiciones de optimalidad:

@ lnL�

@�=

1� ��2"

TX2

(yt � � (1� �)� �yt�1) = 0)TX2

"t = 0

@ lnL�

@�=

1

�2"

TX2

(yt � � (1� �)� �yt�1) (yt�1 � �) = 0)TX2

"t (yt�1 � �) = 0

@ lnL�

@�2"= �T � 1

2

1

�2"+

1

2 (�2")2

TX2

(yt � � (1� �)� �yt�1)2 =

= � 1

2 (�2")2

TX2

(�2" � "2t ) = 0) �2" =

PT2 "

2t

T � 1

Las dos primeras condiciones muestran que el estimador de MV condi-cionada puede obtenerse estimando por Mínimos Cuadrados Ordinarios el mod-elo: yt = �0 + �1yt�1 + "t; pues las estimaciones numéricas resultantes gener-arían residuos "t con suma cero, e incorrelacionados con la variable explicativade dicha regresión, yt�1; satisfaciendo así las dos primeras de las condicionesde optimalidad anteriores. Posteriormente, la estimación de �2" se obtendríaa partir de la tercera condición. Una vez estimado el modelo, los parámetrosdel modelo original se obtendrían mediante las condiciones de identi�cación:

� = �1; � =�01��1

: Como sabemos, la estimación de mínimos cuadrados puede

efectuarse, excepto para el término constante, estimando el modelo en desvia-ciones respecto de la media: ~yt = �1~yt�1 + "t; en el que una vez estimado �1;que resultaría numéricamente igual a la estimación en el modelo que incluyeun término constante, tendríamos: �0 = �y � �1�y: Finalmente, recuperaríamos� y � a partir de las expresiones previas. Como Ey = �; esperararímos que

�y ' �; por lo que la expresión � = �01��1

debe proporcionar un buen estimador

del término independiente.La matriz de información del estimador de máxima verosimilitud es la in-

versa de la matriz de información, para cuyo calculo hemos de obtener la es-perana matemática de los elementos del hessiano de la función logaritmo de laverosimilitud condicionada,

32

@2 lnL�

@�2= �T � 1

�2"(1� �)2

@2 lnL�

@�2= � 1

�2"

TX2

(yt�1 � �)2 ) E

�@2 lnL�

@�2

�=T � 1�2"

�2u

@2 lnL�

@ (�2")2 =

T � 12

1

�4"� 1

�6"

TX2

"t2 ) E

@2 lnL�

@ (�2")2

!= �T � 1

2�4"

@2 lnL�

@�@�= � 1

�2"

TX2

[(yt�1 � �) (1� �) + "t]) E

�@2 lnL�

@�@�

�= 0

@2 lnL�

@�@�2"= �1� �

�4"

TX2

"t ) E

�@2 lnL�

@�@�2"

�= 0

@2 lnL�

@�@�2"= � 1

�4"

TX2

"t (yt�1 � �)) E

�@2 lnL�

@�@�2"

�= 0

E

�@2 lnL�

@�@�2"

�= E

�Et�1

�@2 lnL�

@�@�2"

��= E

"Et�1

TX2

"tut�1

!#= 0

donde en la última igualdad hemos utilizado el hecho de que ut�1 dependede "t�1; "t�2; "t�3; :::, pero no de "t ni de sus valores futuros.Por tanto,

0@ ��

�2"

1A � N

0BB@ ���2"

;�2"T � 1

0B@ (1� �)2 0 0

0�2"1��2 0

0 0 1�2"

1CA�11CCA

donde la matriz de varianzas y covarianzas debería evaluarse en los estima-ciones de máxima verosimilitud obtenidas para los tres parámetros del modelo.La estructura diagonal de la matriz de información muestra que los estimadoresde los tres parámetros son independientes entre sí. Ello hace que en, este mod-elo, una estimación condicional que generase estimaciones numéricas de unosparámetros condicionales en estimaciones de los otros, sería tan e�ciente comola estimación simultánea de todos ellos.Para estimar este modelo mediante el algoritmo de Newton-Raphson, habría

que iterar mediante,

33

�n = �n�1 + �2"

0B@ (T � 1) (1� �)2PT

2 [ut�1(1� �) + "t] (1� �)PT

2 "tPT2 [ut�1(1� �) + "t]

PT2 u

2t�1

PT2 "tut�1

(1� �)PT

2 "tPT

2 "tut�11�2"

PT2

�12�

2" � "t2

�1CA�1

:

:

0B@ (1� �)PT

2 "tPT2 "tut�1

� 12�2"

PT2 (�

2" � "2t )

1CAEl algoritmo de scoring, más sencillo, aproxima el hessiano del logaritmo de

la función de verosimilitud por la matriz de información,

�n = �n�1+1

T � 1

0@ (1� �)2 0 00 �2u 00 0 1

2�2"

1A�10B@ (1� �)PT

2 "tPT2 "tut�1

� 12�2"

PT2 (�

2" � "2t )

1CA = �n�1+1

T � 1

0B@11+�

PT2 "t

1�2u

PT2 "tut�1

�PT

2 (�2" � "2t )

1CAy el algoritmo de Gauss-Newton, con mayor error de aproximación numérico,

consistiría en:

�n = �n�1 +

0B@ (1� �)2PT

2 "2t (1� �)

PT2 "

2tut�1 � 1��

2�2"

PT2 "t(�

2" � "2t )

(1� �)PT

2 "2tut�1

PT2 ("tut�1)

2 � 12�2"

PT2 "tut�1(�

2" � "2t )

� 1��2�2"

PT2 "t(�

2" � "2t ) � 1

2�2"

PT2 "tut�1(�

2" � "2t ) 1

4�4"

PT2 (�

2" � "2t )2

1CA�1

:

:

0B@ (1� �)PT

2 "tPT2 "tut�1

� 12�2"

PT2 (�

2" � "2t )

1CA1.10.3 Estimación de Máxima Verosimilitud del modelo AR(1) con

perturbaciones AR(1)

Consideramos en esta sección la estimación de Máxima Verosimilitud y de su ma-triz de varianzas y covarianzas, del modelo AR(1) con término de error AR(1):

yt = �yt�1 + ut; t = 1; 2; ::: (12)

ut = �ut�1 + "t = 0 E"t = 0; E("t"t�s) = 0 8s 6= 0; E("2t ) = �2"

donde como se ve, hemos supuesto, por simplicidad, que no hay términoindependiente. Bajo el supuesto de que E"t = 0; se tiene: Eyt = Eut = 0: Elcálculo de la varianza de yt es bastante más complejo. Para ello, representamosPara t � 2; el modelo puede escribirse:

yt = (�+ �) yt�1 � ��yt�2 + "t (13)

34

que es un modelo cuyo término de error no presenta autocorrelación. En con-secuencia, la presencia de los retardos de la variable dependiente como variablesexplicativas no deteriora las propiedades estadísticas del estimador de mínimoscuadrados de los parámetros del modelo:

yt = �1yt�1 + �2yt�2 + "t

donde tendríamos únicamente el problema de identi�car o recuperar losparámetros �; � del modelo original a partir de estimaciones de �1; �2: Estose debe a que los parámetros �; � entran de forma totalmente simétrica en elmodelo transformado (13) de modo que un vez que hubiéramos obtenido unasolución �; � del sistema:

�+ � = �1

�� = ��2

podríamos intercambiar los valores numéricos de ambos parámetros y ten-dríamos otra solución. Por tanto, existensiempre dos soluciones, y el modelo sedice que está subidenti�cado.Para obtener la expresión analítica de la varianza del proceso (12), utilizamos

el hecho de que la varianza de un proceso AR(2) es (1��2)�2"(1+�2)[(1��2)2��1]

: Como en

nuestro caso, �1 = �+ �; �2 = ��; tenemos:

V ar (yt) =(1 + ��)

(1� ��)h(1 + ��)

2 � (�+ �)2i�2"

Si dispusiéramos de algún tipo de información adicional acerca de algunacaracterística de la distribución de probabilidad de yt; quizá podríamos iden-ti�car los dos parámetros por separado. Este no es el caso, sin embargo deque conociéramos, al menos aproximadamente, la relación existente entre lasvolatilidades de yt y "t pues, como puede verse en la expresión anterior, dicharelación debe ser igual al valor numérico de la fracción que en ella aparce, peroambos parámetros entran de forma simétrica, por lo que intercambiarlos no al-tera el valor numérico de la volatilidad relativa de ambas variables. Algo similarocurriría para cualquier información relativa al valor numérico de cualquier es-tadístico de yt; cuya expresión analítica depende de �1 y �2; por lo que � y �entran siempre de modo simétrico.Cuestión distinta sería si dispusiéramos de alguna información acerca de la

volatilidad relativa de yt y ut puesto que, como V ar(ut) =�2"1��2 ; tendríamos:

V ar (yt)

V ar(ut)=

(1 + ��)�1� �2

�(1� ��)

h(1 + ��)

2 � (�+ �)2i

35

que es distinto para las combinaciones de valores numéricos��; ��y��; ��:

Por ejemplo, si � = 0; 6; � = 0; 9; tendríamos: V ar (yt) = 5; 23V ar(ut); mientrasque si � = 0; 9; � = 0; 6; tendríamos: V ar (yt) = 17; 62V ar(ut):La función de verosimilitud muestral del proceso (12) puede escribirse:

L(y1; y2; :::; yT ) = L(y1; y2)L(y3=y2; y1)L(y4=y3; y2):::L(yT =yT�1; yT�2)

donde la necesidad de condicionar ahora la función de densidad de cadaobservación en los valores numéricos tomados por las dos observaciones previases bastante evidente.Ignorando el primer factor, tenemos la función de verosimilitud condicional

en (y1; y2); cuyo logaritmo es,

lnL = ln(y1) +TX2

lnL(yt=yt�1) =

= �12ln 2� � 1

2ln

�2"1� �2

� T � 12

ln 2� � 12ln�2" �

1� �2

2�2"y21 �

1

2�2"

TX2

(yt � �� �yt�1)2 =

= �T2ln 2� � T

2ln�2" +

1

2ln�1� �2

�� 1� �

2

2�2"y21 �

1

2�2"

TX2

(yt � �� �yt�1)2

El problema de maximización de esta función se simpli�ca si ignoramos lostérminos tercero y cuarto, que proceden de la distribución marginal de y1, L(y1);y consideramos:

lnL� =TX3

lnL(yt=yt�1; yt�2) = �T � 22

ln 2��T � 22

ln�2"�1

2�2"

TX2

(yt�(�+ �) yt�1+��yt�2)2

cuyas condiciones de optimalidad son,

@ lnL�

@�=

1

�2"

TX3

[(yt � (�+ �) yt�1 + ��yt�2) (yt�1 � �yt�2)] =1

�2"

TX3

(yt�1 � �yt�2) "t = 0

@ lnL�

@�=

1

�2"

TX3

(yt�1 � �yt�2) "t = 0

@ lnL�

@�2"= �T � 2

2�2"+

1

2 (�2")2

TX2

(yt � (�+ �) yt�1 + ��yt�2)2 = �T � 22�2"

+1

2 (�2")2

TX2

"t2 = 0

Por tanto, las estimaciones de Máxima Verosimilitud Condicionada de � y� son aquellos valores numéricos que generan unos residuos incorrelacionados

36

simultáneamente con yt�1 � �yt�2 y yt�1 � �yt�2; lo que vuelve a mostrar lasimetría existente entre estos parámetros. Escribiendo el modelo (13) en laforma,

yt � �yt�1 = �(yt�1 � �yt�2) + "tvemos que la primera condición sugiere estimar por Mínimos Cuadrados Or-

dinarios esta ecuación en variables cuasidiferenciadas para obtener la estimaciónMVC del parámetro �: Por otra parte, la segunda ecuación sugiere obtener elestimador MVC del parámetro � estimando por MCO la ecuación:

yt � �yt�1 = �(yt�1 � �yt�2) + "tque también equivale a (13) : Por último, la tercera ecuación nos proporciona

el estimador de Máxima Verosimilitud Condicionada de �2" :

�2" =

PT3 "t

2

T � 2Esta interpretación sugiere que el estimador MVC puede obtenerse esti-

mando la regresión en variables transformadas ~yt = yt � �yt�1; para un de-terminado valor numérico de �; para obtener la estimación de �; y utilizar éstapara llevar a cabo la transformación: ~yt = yt � �yt�1 para estimar � comoel coe�ciente en un modelo AR(1) en esta variable. Esta última transformadapuede interpretarse como el residuo del modelo AR(1) original, dada la esti-mación �: Ha de notarse, sin embargo, que tal esquema precisaría de un valorinicial para uno de los dos parámetros, � o �; para comenzar a partir de élestimando, sucesiva y recursivamente, cada uno de ellos. Tal procedimiento it-erativo aproximaría el estimador MVC. Sin embargo, éste requiere la estimaciónsimultánea de ambos parámetros, como sugiere la solución del sistema de ecua-ciones de optimalidad anterior. El esquema iterativo puede conducir o no a lamisma solución que la solución simultánea que requiere, en todo caso, de unalgoritmo numérico. Ambas soluciones coincidirán si el modelo propuesto es laespeci�cación correcta, pero no en caso contrario, y el investigador nunca puedeestar seguro de este aspecto en su trabajo empírico. También coincidirán si losestimadores MVC de ambos parámetros fuesen independientes.La matriz de información del estimador de máxima verosimilitud es la in-

versa de la matriz de información, para lo que hemos de obtener las derivadassegundas,

37

@2 lnL�

@�2= � 1

�2"

TX3

u2t�1 ) E

�@2 lnL�

@�2

�= �T � 2

�2"

�2"1� �2 = �

T � 21� �2

@2 lnL�

@�2= � 1

�2"

TX3

(yt�1 � �yt�2)2 ) E

�@2 lnL�

@�2

�= �T � 2

�2"

�2"1� �2

@2 lnL�

@ (�2")2 =

T � 22

1

(�2")2 �

1

(�2")3

TX3

"t2 ) E

@2 lnL�

@ (�2")2

!= �T � 2

(�2")2

@2 lnL�

@�@�= � 1

�2"

TX3

["tyt�2 + (yt�1 � �yt�2) (yt�1 � �yt�2)]

@2 lnL�

@�@�2"= � 1

(�2")2

TX3

"t (yt�1 � �yt�2)) E

�@2 lnL�

@�@�2"

�= E

�Et�1

�@2 lnL�

@�@�2"

��= 0

@2 lnL�

@�@�2"= � 1

(�2")2

TX3

"t (yt�1 � �yt�2)) E

�@2 lnL�

@�@�2"

�= E

�Et�1

�@2 lnL�

@�@�2"

��= 0

donde hemos utilizado la propiedad:

E ["t (yt�1 � �yt�2)] = E (Et�1 ["t (yt�1 � �yt�2)]) = E [(yt�1 � �yt�2)Et�1"t] = 0

así como la propiedad análoga cuando la transformación de variables utilizael parámetro �: Asimismo:

Eh(yt�1 � �yt�2)2

i= E

1Xs=0

�s"t�s�1

!2=

�2"1� �2

E ["t (yt�1 � �yt�2)] = E

""t

1Xs=0

�s"t�s�1

#= E ("t"t�1 + �"t"t�2 + :::) = 0

E ("tyt�2) = E

"t

1Xs=0

�sut�s�2

!= 0

E [(yt�1 � �yt�2) (yt�1 � �yt�2)] = E

ut�1

1Xs=0

�s"t�s�1

!= E

" 1Xi=0

�i"t�i

! 1Xs=0

�s"t�s

!#=

=�2"

1� ��Por tanto,

0@ �

�2"

1A � N

0BB@ ���2"

;�2"T � 2

0B@�2"1��2

11��� 0

11���

11��2 0

0 0 12�2"

1CA�11CCA

38

donde la matriz de varianzas y covarianzas debería evaluarse en los estima-ciones de máxima verosimilitud obtenidas para los tres parámetros del modelo.ELa estructura de esta matriz de información prueba que, si bien los estimadoresde MVC de los parámetros � y � son independientes del estimador MVC de �2";sin embargo los dos primeros no son independientes entre sí.Para estimar este modelo mediante el algoritmo de Newton-Raphson, habría

que iterar mediante,

�n = �n�1 +

0B@PT

3 (yt�1 � �yt�2)2 PT

3 ["tyt�2 + ut�1 (yt�1 � �yt�2)]PT

3 "tut�1A21

PT3 u

2t�1

PT3 "t (yt�1 � �yt�2)PT

3 "tut�1PT

3 "t (yt�1 � �yt�2) 1�4

PT3

�12�

2" � "t2

�1CA�1

:

:

0B@PT

3 (yt�1 � �yt�2) "tPT3 ut�1"t

� 12�2

PT2

��2" � "t2

�1CA

mientras que el algoritmo de scoring, más sencillo, aproxima el hessiano dellogaritmo de la función de verosimilitud por la matriz de información,

�n = �n�1+1

T � 1

0B@ 1 �1�� 0

�1��

�2"1��2 +

�2

(1��)2 0

0 0 12�2"

1CA�10B@

PT3 (yt�1 � �yt�2) "tPT3 ut�1"t

� 12�2

PT2

��2" � "t2

�1CA

y el algoritmo de Gauss-Newton, aún más simple, pero con mayor error deaproximación numérico, consistiría en:

�n = �n�1 +

+

0B@PT

3 (yt�1 � �yt�2)2"2t

PT3 (yt�1 � �yt�2) "2tut�1 � 1

2�4

PT2

��2" � "t2

�(yt�1 � �yt�2) "tPT

3 (yt�1 � �yt�2) "2tut�1PT

3 u2t�1"

2t � 1

2�4

PT2

��2" � "t2

�ut�1"t

� 12�4

PT2

��2" � "t2

�(yt�1 � �yt�2) "t � 1

2�4

PT2

��2" � "t2

�ut�1"t

14�8

PT2

��2" � "t2

�21CA�1

:

:

0B@PT

3 (yt�1 � �yt�2) "tPT3 ut�1"t

� 12�4

PT2

��2" � "t2

�1CA

39