to´picos en series de tiempo propiedades y estimacio´n qmlndgirald/archivos lectura... ·...

32
opicos en Series de Tiempo Propiedades y Estimaci ´ on QML

Upload: others

Post on 06-Jan-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

Topicos en Series de Tiempo

Propiedades y Estimacion QML

Page 2: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral
Page 3: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

TOPICOS EN SERIES DE TIEMPOPropiedades y Estimacion QML

NORMAN GIRALDO GOMEZProfesor AsociadoEscuela de EstadısticaUniversidad Nacional de ColombiaMedellın

Universidad Nacional de ColombiaMedellín

Page 4: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

Copyright c©2011 Norman Diego Giraldo Gómez.

Notaría 6. Folio 23 de Noviembre 2010

Primera Edición

ISBN 234­067­111­0

No está permitido reproducir esta publicación o transmitirla por cualquier forma o medio, electrónico, mecánico, fotocopiado, escaneo

ó de otro tipo excepto para citas cortas, sin el permiso del Autor.

Centro de Documentación Rafael Botero, UN Medellín

Topicos en Series de Tiempo / Norman Diego Giraldo Gomez.

p. cm.—(Coleccion Notas de Clase)

“Universidad Nacional de Colombia."

Incluye referencias bibliograficas e ındice.

ISBN 0­000­00000­0 (pbk.)

1. Probabilidades—Teorıa. 2. Matematicas

Ciencias—Investigacion—Teorıa. I. Giraldo, Norman D. II. Series.

519.2

G897c

Diagramación en LaTeX.

Impresión:

Editorial ...

Page 5: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

Indice general

1. Desigualdades y Modos de Convergencia 3

1.1. Espacio Muestral y Sigma Algebras . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2. Variables Aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.3. Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.4. Modos de Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.5. Propiedades de la Convergencia en Distribucion. . . . . . . . . . . . . . . . . . 17

1.6. Sımbolos O(·) y o(·) Estocasticos . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.7. Metodo Delta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.8. Propiedades de la Convergencia en Media Cuadratica. . . . . . . . . . . . . . . . 21

1.9. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2. Procesos Estacionarios 27

2.1. Definicion de Proceso Estocastico . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.2. Propiedades de las funciones de Autocovarianza . . . . . . . . . . . . . . . . . 30

2.3. Procesos Gaussianos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.4. Procesos Estacionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.5. Densidad Espectral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

v

Page 6: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

vi

2.6. Causalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.7. Ejemplos de Procesos Estacionarios en Covarianza . . . . . . . . . . . . . . . . 39

2.8. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3. Procesos Estacionarios Estrictos 45

3.1. Procesos Estacionarios Estrictos . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3.2. Ergodicidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.3. Esperanza Condicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

3.4. Diferencias Martingalas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4. Procesos ARMA 53

4.1. Procesos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4.2. Analisis de algunos procesos ARMA . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2.1. Procesos MA(q) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2.2. Proceso AR(1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

4.2.3. Proceso ARMA(1,1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.3. Estimacion Noparametrica de la Funcion de Autocorrelacion . . . . . . . . . . . 61

4.4. Estimacion de Procesos ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . 64

4.4.1. Estimacion por el Metodo Yule­Walker . . . . . . . . . . . . . . . . . . 64

4.4.2. Estimacion por el Metodo de Maxima Verosimilitud . . . . . . . . . . . 64

5. Procesos tipo GARCH 65

5.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.2. Caracterısticas Empıricas de los Rendimientos de Activos Financieros . . . . . . 66

5.3. Modelos para la Distribucion de los Rendimientos . . . . . . . . . . . . . . . . . 67

5.3.1. Distribucion Normal Inversa Gaussiana NIG . . . . . . . . . . . . . . . 67

5.3.2. Distribucion GED Asimetrica . . . . . . . . . . . . . . . . . . . . . . . 68

5.3.3. Distribucion t de Student Asimetrica . . . . . . . . . . . . . . . . . . . . 69

5.4. Procesos ARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

Page 7: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

vii

5.5. Procesos GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

5.6. Procesos APARCH y GJR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5.7. Procesos EGARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.8. Problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

6. Modelos de Volatilidad Estocastica 83

6.1. Modelo de Volatilidad Estocastica Asimetrico . . . . . . . . . . . . . . . . . . . 84

6.2. Relacion entre los modelos SV y GARCH . . . . . . . . . . . . . . . . . . . . . 86

7. Estimadores QML 89

7.1. Consistencia y Normalidad Asintotica . . . . . . . . . . . . . . . . . . . . . . . 92

7.1.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

7.1.2. Normalidad Asintotica . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

7.2. Estimacion de Procesos GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . 95

7.3. Estimacion de Procesos APARCH . . . . . . . . . . . . . . . . . . . . . . . . . 96

8. Metodo Generalizado de Momentos 99

8.1. Metodo de Estimacion de Momentos Generalizado(GMM) . . . . . . . . . . . . 99

8.1.1. Condiciones de Momentos . . . . . . . . . . . . . . . . . . . . . . . . . 100

8.1.2. Propiedades Asintoticas . . . . . . . . . . . . . . . . . . . . . . . . . . 101

8.1.3. Eficiencia Asintotica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

8.1.4. Algoritmo para hallar θT . . . . . . . . . . . . . . . . . . . . . . . . . . 104

8.1.5. Prueba de Sobreidentificacion . . . . . . . . . . . . . . . . . . . . . . . 106

8.2. Estimacion GMM de un Modelo de Volatilidad Estocastica Asimetrico . . . . . . 106

8.2.1. Simulaciones Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . 111

9. Metodo de Momentos Simulados 117

9.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117

9.2. Condiciones para Consistencia debil del SMM . . . . . . . . . . . . . . . . . . . 118

9.2.1. Condicion adicional para Consistencia fuerte del SMM . . . . . . . . . 120

Page 8: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

viii

9.3. Condicion para Normalidad Asintotica . . . . . . . . . . . . . . . . . . . . . . . 120

9.4. Algorıtmo para hallar θT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

10. El Metodo Eficiente de Momentos 123

10.1. Introduccion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

10.2. El Procedimiento de Estimacion EMM . . . . . . . . . . . . . . . . . . . . . . . 124

10.3. Seleccion del Modelo Auxiliar . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

10.4. Estimacion EMM en el modelo de Volatilidad Estocastica . . . . . . . . . . . . . 129

10.5. Notas sobre GMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

Bibliografıa 136

Indice alfabetico 136

Page 9: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

2

Page 10: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

CAPITULO 1

Desigualdades y Modos de Convergencia

1.1. Espacio Muestral y Sigma Algebras

Definicion 1.1.1. Espacio Muestral Ω es el conjunto de todos los resultados w del experimento

aleatorio de interes, con ω ∈ Ω ⇐⇒ ω es un posible resultado aleatorio .

Definicion 1.1.2. Una σ­algebraF sobre Ω es una coleccion de subconjuntos de Ω que satisfacen

las siguientes condiciones:

1. Ω ∈ F

2. A ∈ F ⇒ Ac ∈ F

3. Si A1, A2, · · · es una sucesion de elementos de F entonces∞⋃i=1

Ai ∈ F .

Los subconjuntos de Ω que estan en F se llaman eventos. Luego A ∈ F equivale a afirmar que A

es un evento y A ⊆ Ω .

Definicion 1.1.3. Una probabilidad P(.) es una funcion P : F −→ [0, 1] que cumple las condi­

ciones:

1. P(Ω) = 1

2. P(φ) = 0

3

Page 11: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

4

3. Si A1, A2, · · · es una sucesion de eventos mutuamente disjuntos, es decir,

Ai ∩Aj = φ, para i 6= j, entonces:

P

(∞⋃

i=1

Ai

)=

∞∑

i=1

P(Ai).

Es preferible referirse a P(.) como la medida de probabilidad asociada a los eventos. Algunas

propiedades de P(.) se enuncian a continuacion.

Proposicion 1.1.1. Suponga que P es una probabilidad sobre una σ­algebraF y que todaA es un

evento, entonces las siguientes propiedades son consecuencia de las propiedades en la definicion

(1.1.3).

1. P(Ac) = 1 − P(A).

2. Si A1 ⊂ A2 entonces P(A1) ≤ P(A2).

3. P (⋃∞

i=1Ai) ≤∑∞

i=1 P(Ai).

4. Si An, n = 1, 2, . . . es una sucesion creciente de eventos, An ⊆ An+1, entonces se cumple

que P (⋃∞

i=1Ai) = lımn→∞ P(An).

5. SiAn, n = 1, 2, . . .es una sucesion decreciente de eventos,An ⊇ An+1, entonces se cumple

que P (⋂∞

i=1Ai) = lımn→∞ P(An).

Ejemplo 1.1.1. Considere una sucesion de eventos An, n = 1, 2, . . ..

1. El evento que consiste en la ocurrencia de un numero infinito de eventos An se denota por

lım supn→∞An y se define como⋂∞

n=1

⋃∞k=n Ak . La sucesion de eventos Bn =

⋃∞k=nAk

es decreciente. Luego

P(lım supn→∞

An) = lımn→∞

P(Bn). (1.1)

2. El evento que consiste en la ocurrencia de todos menos un numero finito de eventos An

se denota por lım infn→∞ An y se define como⋃∞

n=1

⋂∞k=n Ak. La sucesion de eventos

Cn =⋂∞

k=n Ak es creciente. Luego

P(lım infn→∞

An) = lımn→∞

P(Cn). (1.2)

Lema 1.1.1. (Lemas Borel­Cantelli) Considere una sucesion de eventos An, n = 1, 2, . . ..

(i)

∞∑

j=1

P(Aj) <∞ ⇒ P(lım supn→∞

An) = 0. (1.3)

(ii)

∞∑

j=1

P(Aj) = ∞ y los An son independientes ⇒ P(lım supn→∞

An) = 1. (1.4)

Page 12: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

5

Demostracion. (ver Grimmett and Stirzaker (1994), pag. 288)

Para la parte (i). Por la definicion lım supn→∞ An =⋂∞

n=1 Bn, con Bn =⋃∞

k=n Ak sucesion

decreciente. Entonces lım supn→∞An ⊆ Bn, para todon. Luego P(lım supn→∞ An) ≤ P(Bn) ≤∑∞k=n P(Ak) → 0, n→ ∞, ya que

∑∞k=1 P(Ak) <∞.

Para la parte (ii). Denote Ac = (lım supn→∞An)c. Entonces Ac =⋃∞

n=1

⋂∞k=n A

ck. La sucesion⋂m

k=n Ack, m = n, n+ 1, . . . es decreciente en m y por tanto

P

( ∞⋂

k=n

Ack

)= lım

m→∞P(

m⋂

k=n

Ack)

=

∞∏

k=n

(1− P(Ak)), por independencia

≤∞∏

k=n

e−P(Ak ), ya que 1 − x ≤ e−x, x ≥ 0,

= exp

(−

∞∑

k=n

P(Ak)

)= 0.

Por tanto, P(Ac) ≤∑∞n=1 P (

⋂∞k=n A

ck) = 0, y P(A) = 1.

Los tres elementos (Ω,F , P) se asumen dados con relacion a un experimento de interes. Es evidente

que F ⊆ P(Ω), donde P(Ω) es el conjunto de partes de Ω. Sin embargo, la σ­algebra no se toma

en general igual a P(Ω) sino que se asume que es un conjunto mas pequeno, concretamente se

asume que contiene solamente los eventos que interesan con respecto al experimento aleatorio

en consideracion. Un conjunto N tal que N ∈ P(Ω) − F no se considera un evento y no tiene

probabilidad asignada.

Definicion 1.1.4. Si A ∈ F y P(A) = 0 se dice queA es un evento nulo. Si A ∈ F y P(A) = 1 se

dice que A es un evento casi seguro.

Se asumira siempre que si A es un evento nulo y B ⊂ A entonces B ∈ F y como P(B) ≤ P(A),

se debe cumplir que P(B) = 0.

Ejemplo 1.1.2. Pueden haber varias σ­algebra sobre un mismo conjunto Ω.

1. Si A ∈ F entonces la coleccion A1 = φ,Ω, A, Ac es una σ­algebra que esta contenida

en F .

2. Si A,B ∈ F la coleccion

A2 = φ,Ω, A, B, Ac, Bc, A∪ B,AB,Ac ∪ Bc, AcBc, AcB,Ac ∪B,ABc, A ∪Bc

es una σ­algebra contenida en F

Page 13: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

6

Note que A1 ⊂ A2 ⊂ F y que A1 es la menor σ­algebra que contiene la coleccion A, y A2 es

la menor σ­algebra que contiene la coleccion A,B.

Teorema 1.1.1. Dada una coleccion de eventos A = A,B, · · · ⊆ F siempre existe una σ­

algebra mınima que la contiene, la σ­algebra generada por A, σ(A).

Demostracion. Defina el conjunto de todas las σ­algebras que contienen la coleccion A como

C(A). No es vacıo porque P(Ω) esta ahı. Luego como la interseccion de una coleccion cualquiera

de σ­algebras es de nuevo una σ­algebra, se puede definir σ(A) como la interseccion de todas las

σ­algebras que contienen a A.

Por ejemplo, si se considera una sucesion de eventos (An, n = 1, 2, . . .), se pueden definir las

sigma algebras Fn = σ(⋃n

j=1 Aj). Entonces se tiene Fn ⊆ Fn+1, y la sigma­algebra de interes

con relacion a todos los eventos definidos con la sucesion (An, n = 1, 2, . . .) es F = σ(⋃∞

j=1 Aj).

Definicion 1.1.5 ( σ­algebra de Borel en R ). Si tomamos Ω = R y la coleccion de subconjuntos es

A = (−∞, a] : a ∈ R es decir la coleccion de todos los semi intervalos cerrados a la derecha,

entonces la σ­algebra generada por esta coleccion se denomina σ­algebra de Borel, y se denota

por B1 = σ ((−∞, a]; a ∈ R)

Notese que se cumple lo siguiente:

1. R ∈ B1 , φ ∈ B1

2. Si a < b, entonces (−∞, a] , (−∞, b] ∈ B1 luego (−∞, a]c = (a,∞) ∈ B1 y (a,∞) ∩(−∞, b] = (a, b] ∈ B1

3. Cualquier intervalo real esta en B1

Definicion 1.1.6 ( σ­algebra de Borel en R2 ). Si tomamos Ω = R2 y

A = (−∞, a] × (−∞, b] : a, b ∈ R

entonces la σ­algebra generada por A se llama la σ­algebra de Borel en R2 y se denota por

B2 = σ ((−∞, a] × (−∞, b] : a, b ∈ R).

Tenemos que se cumple: R2 ∈ B2 y tambien (−∞, a]× R ∈ B2

Definicion 1.1.7 ( σ­algebra de Borel en Rn ). Si tomamos Ω = Rn y

A = (−∞, a1]× · · · × (−∞, an] : a1, · · ·an ∈ R

entonces la σ­algebra generada por A se denomina la σ­algebra de Borel en Rn y se denota por

Bn = σ ((−∞, a1] × · · · × (−∞, an] : a1, · · ·an ∈ R).

Se cumple Rn ∈ Bn y ademas tambien conjuntos de la forma (−∞, a]× Rn−1 , a ∈ R.

Page 14: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

7

1.2. Variables Aleatorias

Definicion 1.2.1. (Variable Aleatoria) Una variable aleatoria es una funcion X : Ω → R tal que

para cada B ∈ B1 se cumple que X−1(B) ∈ F .

Si B = (−∞, a] entonces X−1(B) es el evento ω ∈ Ω : X(ω) ≤ a y se indica por (X ≤ a).

Proposicion 1.2.1. Si X : Ω → R es una variable aleatoria entonces la coleccion de eventosX−1(B) : B ∈ B1

= X−1(B1) es una σ­algebra, denotada por σ(X), y se denomina la

informacion generada por X , y satisface:

1. A ∈ σ(X) ⇐⇒ existe B ∈ B1 tal que X−1(B) = A

2. (X ≤ a) ∈ σ(X) ∀a ∈ R

Demostracion Como R ∈ B1 y Ω = X−1(R) entonces Ω ∈ σ(X). Ademas, si A ∈ σ(X)

existe BA ∈ B1 tal que A = X−1(BA), pero entonces Ac = X−1(BcA) por propiedades de las

imagenes inversas. Luego Ac ∈ σ(X).

Si A1, A2, · · · es una sucesion de eventos en σ(X) entonces existe una sucesion de eventos en B1

llamados B1, B2, · · · tal que Ai = X−1(Bi) , i = 1, 2, · · · y entonces

∞⋃

i=1

Ai =

∞⋃

i=1

X−1(Bi) = X−1

( ∞⋃

i=1

Bi

)= X−1(B)

donde B =⋃∞

i=1 Bi ∈ B1 luego⋃∞

i=1 Ai ∈ σ(X).

Definicion 1.2.2 (Funcion de Distribucion). Como para cada x ∈ R , (X ≤ x) ∈ F , entonces

puede calcularse su probabilidad, esta es una funcion de x, y se denota FX(x) = P(X ≤ x). Esta

funcion tiene las siguientes propiedades:

1. FX(x) es monotona creciente con FX(x) → 0 , x→ −∞ y FX(x) → 1 , x→ ∞.

2. FX(x) es continua a la derecha. Significa entonces que

FX(a) = lımx↓a

FX(x) = FX(a+)

El lımite a izquierda es

lımx↑a

FX(x) = FX(a−) = P(X < a)

En general P(X < a) ≤ P(X ≤ a). La funcion FX(x) frecuentemente toma dos formas:

Page 15: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

8

1. FX(x) constante excepto por saltos en una serie de puntos En este caso los saltos son iguales

a la diferencia FX(xi) − FX(xi−) = P(X ≤ xi) − P(X < xi), y la variable aleatoria se

dice discreta. Los valores de los saltos son las probabilidades P(X = xi).

2. FX(x) =∫ x−∞ fX(u)du para una funcion fX(u) que es positiva e integrable, con

∫∞−∞ fX(u)du =

1. Si fX(u) es continua en x se tiene F′X(x) = fX(x).

Definicion 1.2.3. Una variable aleatoria bidimensional (X1, X2) es una funcion

(X1, X2) : Ω → R2 tal que para cada B ∈ B2

se cumple que (X1, X2)−1(B) ∈ F donde

(X1, X2)−1(B) = ω ∈ Ω : (X1(ω), X2(ω)) ∈ B2

Un conjunto en B2 es B = (−∞, a] × (−∞, b]. Entonces

(X1, X2)−1(B) = ω ∈ Ω : X1(ω) ≤ a , X2(ω) ≤ b

se denota por (X1 ≤ a , X2 ≤ b) y es igual a (X1 ≤ a) ∩ (X2 ≤ b)

Definicion 1.2.4 ( Informacion generada por (X1, X2)). Es la σ­algebra generada por la coleccion

de eventos A =(X1, X2)

−1(B) : B ∈ B2

y se denota por σ(X1, X2).

En σ(X1, X2) estan, por ejemplo, todos los eventos de la forma (X1 ≤ a,X2 ≤ b). Tambien

σ(X1, X2) = (X1, X2)−1(B2) es la imagen inversa de la σ­algebra B2. Ademas σ(X1, X2) ⊆ F

y se tiene σ(X1) ⊆ σ(X1, X2) y σ(X2) ⊆ σ(X1, X2)

Definicion 1.2.5 ( La funcion de distribucion conjunta de (X1, X2) ).

Para (X1, X2) ∈ R2, el evento (X1 ≤ x1, X2 ≤ x2) esta en F y su probabilidad depende de

(x1, x2). La funcion que se determina al calcular tal probabilidad se denota por

FX1,X2(x1, x2) = P(X1 ≤ x1, X2 ≤ x2)

y es la funcion de distribucion conjunta de (X1, X2).

Definicion 1.2.6 (Vector Aleatorio (X1, X2, · · · , Xn)).

Un vector Aleatorio (X1, X2, · · · , Xn) es una funcion (X1, X2, · · · , Xn) : Ω → Rn que cumple

(X1, X2, · · · , Xn)−1(B) ∈ F para cada B ∈ Bn

donde

(X1, X2, · · · , Xn)−1(B) = ω ∈ Ω : (X1(ω), X2(ω), · · · , Xn(ω)) ∈ B

Page 16: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

9

Definicion 1.2.7 ( Informacion generada por por (X1, X2, · · · , Xn) ).

Informacion generada por (X1, X2, · · · , Xn) es laσ­algebra generada por la coleccion de eventos

en FA =

(X1, X2, · · · , Xn)−1(B) : B ∈ Bn

y se denota por σ(X1, X2, · · · , Xn).

Note que en esta σ­algebra estan los conjuntos de la forma (X1 ≤ x1, · · · , Xn ≤ xn) para

x1, · · · , xn ∈ R

Definicion 1.2.8 ( Funcion de distribucion conjunta de (X1, X2, · · · , Xn)).

Como (X1 ≤ x1, X2 ≤ x2, · · · , Xn ≤ xn) es un evento, su probabilidad depende de (x1, x2, · · · , xn)

y la funcion ası definida se denomina funcion de distribucion conjunta y se denota por

FX1,X2,··· ,Xn(x1, x2, · · · , xn) = P(X1 ≤ x1, X2 ≤ x2, · · · , Xn ≤ xn)

Si X1, X2, · · · es una sucesion de vectores aleatorios que representa los sucesivos estados de un

sistema, entonces σ(X1, X2, · · · , Xn) es todo lo que puede suceder hasta n. Es el conjunto de

todos los resultados de interes. Si se tiene una sucesion de vectores aleatoriosX1, X2, · · · , entonces

se cumple que

σ(X1) ⊆ σ(X1, X2) ⊆ σ(X1, X2, X3) ⊆ · · ·

Ejemplo 1.2.1. Si n = 18 entonces A = (Xi ≤ 3.1 , ∀ i = 1, · · · , 18) y por tanto A ∈σ(X1, X2, · · · , X18) Si B = (X10 > 7) entonces B ∈ σ(X1, X2, · · · , X10) pero

B /∈ σ(X1, X2, . . . , X9)

1.3. Desigualdades

Las desigualdades son utiles para establecer cotas superiores o inferiores para probabilidades, o

para la solucion de un problema de convergencia 1. Las desigualdades mas utiles son las siguientes:

1. Si E(|X |) <∞ entonces |E(X)| ≤ E(|X |)

2. Desigualdad Triangular

E(|X ± Y |) ≤ E(|X |) + E(|Y |)ademas

|E(X)− E(Y )| ≤ E(|X − Y |) ≤ E(|X |) + E(|Y |)1Alguien en algun texto anoto que se le atribuye a A.N. Kolmogorov la afirmacion: “Detras de todo gran teorema

hay una desigualdad”

Page 17: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

10

3. Desigualdad Triangular General

E(|X + Y |r) 1

r ≤ E(|X |r) 1

r + E(|Y |r) 1

r para r ≥ 1

tambien se tiene otra version de esta desigualdad, dada por

E(|X + Y |r) ≤ Cr(E(|X |r) + E(|Y |r)) para r > 0

donde Cr = 1 si r ≤ 1 y Cr = 2r−1 si r ≥ 1.

4. Desigualdad de Markov

Si para algun r > 0 se tiene E(|X |r) <∞ entonces, para todo a > 0 se cumple

P(|X |r ≥ a) ≤ E(|X |r)a

Demostracion. Note que para todo a > 0 se cumple |X |r ≥ aI|X |r>a. Tomando esperanzas

se obtiene la desigualdad.

Ejemplo 1.3.1. Si Y =N∑

j=1Xj es suma aleatoria de variables aleatorias independientes

con Xj positivas y N ∈ 0, 1, 2, · · · entonces

a) P(Y ≥ 0) = 1 ya que por teorema de probabilidad total

P(Y ≥ 0) =

∞∑

n=0

P(Y ≥ 0 | N = n)P(N = n)

= p0 +

∞∑

n=1

P( n∑

j=1

Xj ≥ 0)P(N = n)

pero

P( n∑

j=1

Xj ≥ 0)

= 1 ∀n ≥ 1

luego

P(Y ≥ 0) =

∞∑

n=0

pn = 1

b) Para todo a > 0

P(|Y | ≥ a) = P(Y > a) ≤ E(Y )

a

luego como E(Y ) = µNµX entonces

P(|Y | ≥ a) ≤ µNµX

a

Page 18: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

11

5. Desigualdad de Chebyshev

Si V ar(X) <∞ entonces colocando r = 2, X −E(x) en lugar de X y a2 en lugar de a en

la desigualdad de Markov se obtiene

P(|X − µX | ≥ a) ≤ V ar(X)

a2, ∀a > 0. (1.5)

Recuerdese que |x− µX | ≥ a ⇐⇒ x ≤ µX − a o x ≥ µX + a.

Ejemplo 1.3.2. Si X ∼ N (µX , σ2X) y a = 1.645 entonces

P(|X − µX | ≥ 1.645σX) ≤ σ2X

1.6452σ2X

= 0.369

pero P(|X − µX | ≥ 1.645σX) = 1 − P(|X − µX | ≤ 1.645σX) = 1 − 0.95 = 0.05.

6. Desigualdad de Cauchy­Schwarz

|E(XY )| ≤ E(|XY |) ≤√

E(X2)√

E(Y 2)

Ejemplo 1.3.3. Como Cov(X, Y ) = E((X − µX )(Y − µY )) entonces

|Cov(X, Y )| ≤ E(|X − µX ||Y − µY |) ≤√

E((X − µX)2)√

E((Y − µY )2) = σXσY

luego |ρXY | ≤ 1.

7. Desigualdad de Kolmogorov

Si X1, . . . , Xn son variables aleatorias independientes de media cero y varianza σ2 <∞, y

se define Sk = X1 + . . .+Xk, k ≥ 1, entonces se cumple que para cualquier λ > 0

P( max1≤k≤n

|Sk| ≥ λ) ≤ V ar(Xn)/λ2. (1.6)

Demostracion. Defina los eventos Ak = (|Sk| ≥ λ, |Si| < λ, i = 1, . . . , k − 1), para

k = 1, . . . , n. Si ocurre el evento Ak es porque en el tiempo k por primera vez el valor

absolutoSk supero la barrera λ. Por su definicion, losAk son disjuntos. Y ademas, el evento

(max1≤k≤n |Sk| ≤ λ) ocurre si y solamente si ocurre alguno de losAk . Es decir,⋃n

k=1 Ak =

(max1≤k≤n |Sk| ≤ λ). Como los Ak son disjuntos entonces 0 ≤ ∑nk=1 IAk

≤ 1. Como

E(Sn) = 0 entonces usando la identidad S2n = S2

k + 2Sk(Sn − Sk) + (Sn − Sk)2,

V ar(Sn) = E(S2n) ≥

n∑

k=1

E(S2nIAk

)

≥n∑

k=1

E((S2k + 2Sk(Sn − Sk))IAk

)

Page 19: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

12

=

n∑

k=1

E(S2kIAk

) + 2

n∑

k=1

E(Sn − Sk)E(SkIAk)

=

n∑

k=1

E(S2kIAk

) ≥ λ2n∑

k=1

P(Ak) = λ2P(

n⋃

k=1

Ak)

= λ2P( max1≤k≤n

|Sk| ≥ λ).

8. Desigualdad de Lyapunov

Si 0 < s ≤ r entonces(E(|X |s)

) 1

s ≤(E(|X |r)

) 1

r .

Ejemplo 1.3.4. Si X es variable aleatoria en R y s = 1 , r = 2 entonces

E(|X |) ≤ [E((X2))]1

2 es decir E2(|X |) ≤ E(X2) y como |E(X)| ≤ E(|X |) entonces

E2(X) ≤ E2(|X |) ≤ E(X2)

de donde

E(X2) −E2(X) = V ar(X) ≥ 0

9. Desigualdad de Jensen

Una funcion f(x) se dice convexa en [a, b] si la lınea que une los puntos (a, f(a)), (b, f(b))

esta siempre por encima de la grafica (x, f(x)). Una condicion suficiente para que f sea

convexa es que exista f ′′(x) y cumpla f ′′(x) > 0 en ese intervalo. En este caso, si X es una

variable aleatoria, f es convexa en el rango de X , y E(f(X)) existe, entonces se cumple:

f(E(X)) ≤ E(f(X))

Una funcion f(x) se dice concava en [a, b] si la lınea que une los puntos (a, f(a)), (b, f(b))

esta siempre por debajo de la grafica (x, f(x)). Una condicion suficiente para que f sea

concava es que exista f ′′(x) y cumpla f ′′(x) < 0 en un intervalo. En este caso, si X es una

variable aleatoria, f es concava y E(f(X)) existe, entonces se cumple:

E(f(X)) ≤ f(E(X))

Ejemplo 1.3.5. a) Si f(x) = 1/x, x > 0, entonces f ′′(x) = 2/x3 > 0, x > 0. Por

tanto, f es convexa en (0,∞). Si X es una variable aleatoria con valores en (0,∞)

aplicando la desigualdad obtenemos 1/E(X) ≤ E(1/X).

b) Si f(x) = ln(x) entonces f ′′(x) < 0, x > 0. Por tanto, f es concava. Si X es una

variable aleatoria con valores en (0,∞) entonces se cumple E(ln(X)) ≤ ln(E(X)).

Page 20: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

13

La siguiente identidad es util para calcular momentos de una variable aleatoria.

E(|X |r) = r

∫ ∞

0

xr−1P(|X |> x)dx ≤ +∞, r = 1, 2, . . .

Ejemplo 1.3.6. SiX es una variable aleatoria en [0,∞) con fda P(X ≤ x) = 1−(

λλ+x

)α, λ >

0 , α > 0, se dice que se distribuyePareto(λ, α). Compruebe que siα > 1 entonces E(X) = λα−1

y, si α = 2, entonces E(X2) = +∞.

Demostracion. Usando la identidad anterior con r=2 tenemos:

E(X2) = 2

∫ ∞

0

λ2x

(λ+ x)2dx

= 2λ2 lımt→∞

(λ+ t) ln(λ+ t) − (1 + t) ln(λ)− t

t+ λ= ∞,

luego E(X2) = +∞.

Ejercicio 1.3.1. Suponga que X1 y X2 son variables aleatorias con medias 0 varianzas 1 y

correlacion ρ > 0. Comprobar que E(max(X21 , X

22 )) ≤ 1+

√1 − ρ2, utilizando la desigualdad

de Cauchy­Schwarz y las identidades:max(a, b) = 12 (a+ b+ |a− b|), a2 − b2 = (a+ b)(a− b).

Demostracion. Aplicando las identidades anteriores tenemos

2E(max(X21 , X

22)) = E(X2

1 ) + E(X22 ) + E(|X2

1 −X22 |)

= E(X21 ) + E(X2

2 ) + E(|X1 −X2||X1 +X2|)≤ E(X2

1 ) + E(X22 ) +

√E((X1 +X2)2)E((X1 −X2)2)

= E(X21 ) + E(X2

2 ) +√

E(X21 ) + E(X2

2 ) + 2E(X1X2).√

E(X21 ) + E(X2

2 ) − 2E(X1X2)

= 2 +√

2 + 2ρ√

2 − 2ρ

= 2 + 2√

1− ρ2

de donde E(max(X21 , X

22)) ≤ 1 +

√1 − ρ2.

Luego, para cualquier par de variables aleatorias X1 , X2 con coeficiente de correlacion ρ

E

[max

((X1 − µ1

σ1

)2

,

(X2 − µ2

σ2

)2)]

≤ 1 +√

1 − ρ2.

Ejercicio 1.3.2. Para cualquier par de variables aleatoriasX1 , X2 con coeficiente de correlacion

ρ y para cualquier λ > 0, P(|X1 − µ1| ≥ λσ1) ∪ ((|X2 − µ2| ≥ λσ2) ≤ 1λ2 (1 +

√1 − ρ2).

Page 21: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

14

1.4. Modos de Convergencia

Se trata de definir la convergencia de una sucesion de variables aleatorias (Xn)n=0,1,2,···. Hay cinco

modos basicos de convergencia de Xn a un lımiteX cuando n −→ ∞ que son

1. Con probabilidad 1.

2. En media r , r = 1, 2, · · ·

3. En Media cuadratica.

4. En Probabilidad.

5. En Distribucion.

Definicion 1.4.1 (Convergencia con Probabilidad Uno ). Xn converge aX casi seguramente o con

probabilidad uno, indicada por Xnas−→ X cuando n→ ∞ si se cumple que

P( lımn→∞

Xn = X) = 1. (1.7)

Lo anterior significa que para cada ω ∈ Ω, Xn(ω) converge a X(ω) como si fuera una sucesion

de numeros, excepto, posiblemente, para ω en un cierto evento N que tiene probabilidad cero,

P(N ) = 0. Las letras “as” en la notacion se refieren a “almost secure”. CuandoXn es un estimador

θn de un parametro θ, y se cumple θnas−→ θ, se dice que el estimador es “consistente fuerte”.

Para un ε > 0 cualquiera considere el eventoE =⋂∞

n=1

⋃∞k=n(|Xk−X | > ε). Siω ∈ E entonces,

para cada n ≥ 1 puede encontrarse al menos un k ≥ n para el cual |Xk(ω) −X(ω)| > ε. Pero si

Xn converge aX con probabilidad uno entonces debe tenerse P(E) = 0. Por lo tanto, la condicion

(1.7) es equivalente a

∀ε > 0, P

[ ∞⋂

n=1

∞⋃

k=n

(|Xk −X | > ε)

]= 0 (1.8)

Un caso importante de convergencia casi seguramente es el siguiente teorema.

Teorema 1.4.1. (La Ley Fuerte de Grandes Numeros) Suponga que Xn, n = 0, 1, 2 . . . es una

sucesion de variables aleatorias i.i.d. con media finita E(|Xn|) < ∞, entonces se cumple que

Xn = (1/n)∑n

j=1 Xjas→ E(X1).

Un criterio para convergencia casi seguramente de una sucesion de variables aleatorias es la

siguiente proposicion.

Proposicion 1.4.1. Para todo ε > 0 arbitrario si∑∞

n=1 P(|Xn − X | > ε) < ∞, entonces

Xnas→ X , cuando n→ ∞.

Page 22: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

15

Demostracion. Denote An = (|Xn − X | > ε) para ε > 0 dado. Como se cumple la hipotesis

del Lema Borel­Cantelli, (1.1.1), entonces P(lım supn→∞An) = 0 y se cumple la condicion

(1.8).

Definicion 1.4.2 ( Convergencia en Media ). Si r es un entero positivo r = 1, 2, 3, · · · se dice que

Xn converge a X en media r, indicado por

Xnr−→ X , n→ ∞

si se cumple

1. E(|Xn|r) <∞ para n = 1, 2, · · ·

2. E(|Xn −X |r) −→ 0 cuando n→ ∞

La Convergencia en Media Cuadratica corresponde al caso r = 2, es decir, Xn2→ X, n→ ∞ si

se cumple que E(X2n) <∞, ∀n ≥ 1 y E((Xn −X)2) → ∞, n→ ∞.

Definicion 1.4.3 ( Convergencia en Probabilidad ). Xn converge a X en probabilidad, denotada

por Xnp→ X, n→ ∞, si

∀ε > 0, P(|Xn −X | ≥ ε) → 0 cuando n→ ∞.

Cuando Xn es un estimador θn de un parametro, por ejemplo, θ, y se cumple θnp→ θ se dice

que el estimador es “consistente debil”. Un caso importante de convergencia en probabilidad es el

siguiente teorema.

Teorema 1.4.2. (La Ley Debil de Grandes Numeros) Suponga que Xn, n = 0, 1, 2 . . . es una

sucesion de variables aleatorias i.i.d. con media E(Xn) = µ y varianza finita V ar(Xn) = σ2 <

∞, entonces se cumple que Xn = (1/n)∑n

j=1 Xjp→ µ.

Demostracion. Aplicando la desigualdad de Chebyshev a la variable Xn = (1/n)∑n

j=1Xj ,

tenemos que, para ε > 0, P(|Xn − µ| ≥ ε) ≤ V ar(Xn)/ε2. Pero V ar(Xn) = nV ar(X1)/n2 =

σ2/n. Entonces

lımn→∞

P(|Xn − µ| ≥ ε) ≤ lımn→∞

σ2

nε2= 0

es decir, Xnp→ µ, n→ ∞.

Definicion 1.4.4 (Convergencia en Distribucion). Xn converge a X en distribucion, denotado por

Xnd−→ X, n→ ∞ si para todo x en el cual FX(.) es continua se cumple que

FXn(x) → F (x) n −→ ∞

Page 23: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

16

La convergencia en distribucion tambien se denomina “convergencia en ley”, y a veces se denota

XnL−→ X , y tambien se denomina “convergencia debil”. Uno de los casos de mayor interes es

cuando X ∼ N (0, σ2). Cuando Xn es un estimador θn de un parametro, por ejemplo, θ, y se

cumple que√n(θn − θ)

d→ N (0, σ2) se dice que el estimador es “asintoticamente normal”.

En las definiciones anteriores las variables Xn, X son unidimensionales con valores en R. Para el

caso de vectores aleatorios, con Xn ∈ Rk las definiciones se hacen mediante una funcion distancia

en Rk, d(Xn, X), por ejemplo, la distancia euclidiana d(Xn, X) = (∑k

j=1(Xn(j)−X(j))2)1/2.

En este caso

(i)Xnas→ X ⇔ P( lım

n→∞d(Xn, X) = 0) = 1,

(ii)Xnp→ X ⇔ ∀ε > 0, P(d(Xn, X) < ε) → 1, n→ ∞,

(iii)Xnr→ X ⇔ E([d(Xn, X)]r) → 0, n→ ∞.

Proposicion 1.4.2. Algunas relaciones entre los modos de convergencia esta dado por las sigu­

ientes implicaciones. Suponga que Xn, X son vectores.

(i)Xnas→ X ⇒ Xn

p→ X, (1.9a)

(ii)Xnp→ X ⇒ Xn

d→ X, (1.9b)

(iii)Xnp→ X ⇒ existe una sub­sucesion (nk, k = 1, 2, . . .)

tal que Xnk

as→ X, (1.9c)

(iv)Xnr→ X ⇒ Xn

p→ X, (1.9d)

(v) Xnd→ c, para c constante ⇒ Xn

p→ c, (1.9e)

(vi) Xnd→ X y d(Xn, Yn)

p→ 0 ⇒ Ynd→ X. (1.9f)

Demostracion. (i) SiXnas→ X entonces para ε > 0, el eventoE(ε) =

⋂∞n=1

⋃∞k=n(|Xk−X | >

ε) tiene probabilidad cero. Por tanto la sucesion decreciente Bn(ε) =⋃∞

k=n(|Xk −X | > ε)

tiene probabilidad convergente a cero cuando n → ∞. Como (|Xn −X | > ε) ⊆ Bn(ε) se

cumple que P(|Xn −X | > ε) → 0, si n→ ∞.

(iv) Es facil comprobar que Xn1→ X ⇒ Xn

p→ X , utilizando la desigualdad de Markov. Si

ε > 0 y se asume que E(|Xn −X |) −→ 0 entonces

P(|Xn −X | ≥ ε) ≤ E(|Xn −X |)ε

→ 0, cuando n→ ∞,

luego Xnp→ X . Para el caso r > 1, Xn

r→ X ⇒ Xnp→ X se comprueba utilizando la

desigualdad de Lyapunov con s = 1 , r > 1: E(|Xn −X |) ≤ [E(|Xn −X |r)]1/r. Luego si

ε > 0

P(|Xn −X | ≥ ε) ≤ E(|Xn −X |)ε

≤ [E((Xn −X)r)]1/r

ε

Page 24: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

17

de donde si E((Xn −X)r) → 0 entonces Xnp→ X cuando n→ ∞.

Teorema 1.4.3. (Teorema de Convergencia Monotona) Suponga que Xn, n = 0, 1, 2 . . . es una

sucesion de variables aleatorias, monotonas no decrecientes y no negativas con probabilidad uno

(as), P(0 ≤ X0 ≤ X1 ≤ X2 ≤ . . .) = 1, tales que Xnas→ X . Entonces se cumple que

lımn→∞

E(Xn) = E(X). (1.10)

Un teorema muy util es un teorema de preservacion de la convergencia de una sucesion cuando se

transforma mediante una funcion continua.

Teorema 1.4.4. (Teorema de mapeo continuo) Suponga que (Xn, n = 0, 1, . . .) es una sucesion de

vectores aleatorios en Rk que converge a una variable aleatoria X , en cualquiera de los modos.

Si g : Rk → Rm es una funcion continua en cada punto de un conjunto G ⊆ Rk, abierto, tal que

P(X ∈ G) = 1, entonces g(Xn) converge en as, p, d, a g(X).

(i)Xnd→ X ⇒ g(Xn)

d→ g(X),

(ii)Xnp→ X ⇒ g(Xn)

p→ g(X),

(iii)Xnas→ X ⇒ g(Xn)

as→ g(X).

La prueba esta en el artıculo de Mann and Wald (1943).

Teorema 1.4.5. (Teorema de Slutsky) Suponga que (Xn ∈ Rk, n = 0, 1, . . .) es una sucesion de

vectores aleatorios tales que Xnd→ X , y (Yn ∈ R, n = 0, 1, . . .) es una sucesion de variables

aleatorias tales que Ynp→ c. Entonces se cumple

(i) Xn + Ynd→ X + c, (1.11a)

(ii) YnXnd→ cX, (1.11b)

(iii) Xn/Ynd→ X/c. (1.11c)

1.5. Propiedades de la Convergencia en Distribucion.

Definicion 1.5.1 (Funcion Generadora de Momentos). Si X es una variable aleatoria, suponga

que existe h > 0 tal que para cada t , −h < t < h existe la esperanza E(etX), entonces la

correspondiente funcion de t se denota por MX(t) y es la fgm de X . Luego

MX(t) =∑

j

etjP(X = j) si X es discreta ,

Page 25: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

18

=

∫ ∞

−∞etxfX(x)dx si X es continua .

Es evidente que MX(0) = 1. Ademas se tiene la propiedaddkMX(t)

dtk

∣∣∣∣t=0

= E(Xk) k =

1, 2, · · · . Cuatro ejemplos de funciones generadoras de momentos son los siguientes.

1. Si X ∼ N (µ, σ2) entonces MX(t) = exp(µt+ 12 t

2σ2).

2. Si N ∼ Poison(λ), λ > 0, entonces MN (t) = eλ(et−1).

3. Si N ∼ Bin(n, p), entonces MN(t) = (1− p+ pet)n.

4. Si X ∼ Gamma(α, θ),θ, α > 0 entonces fX(x) = xα−1e−x

θ

θkΓ(α), para x ≥ 0 y MX(t) =

[1

1−tθ

]αpara t < 1

θ . El caso α = 1 corresponde a X ∼ Exp(θ).

Teorema 1.5.1. SiX1, X2, · · · , Xn son variables aleatorias independientes con fgmMXj(t) , j =

1, 2, · · · , n para −h < t < h entonces X = X1 + X2 + · · · + Xn tiene fgm MX(t) =

MX1(t)MX2

(t) · · ·MXn(t) e inversamente, si la fgm MX(t) se puede expresar como el producto

de las fgm de las Xj entonces estas son independientes.

Teorema 1.5.2. Si (Yn)n=1,2,··· es una sucesion de variables aleatorias tales que tienen fgmMYn(t)

para −h < t < h y existe una variable aleatoria Y con fgm MY (t) para |t| ≤ h1 < h tal que

MYn(t) →MY (t) cuando n→ ∞ entonces Ynd→ Y cuando n→ ∞.

Ejemplo 1.5.1. Suponga que Yn ∼ Bin(n, pn) tal que pn = µn para n = 1, 2, · · · donde µ > 0

es una constante. EntoncesMYn(t) = E(etYn) = (1− pn + pnet)n =

[1 + µ(et−1)

n

]n. Utilizando

el resultado(1 + α

n

)n → eα cuando n → ∞, se obtiene MYn(t) → exp(µ(et − 1)). Como para

Y ∼ Poison(µ) se tiene MY (t) = eµ(et−1) entonces Ynd→ Y cuando n→ ∞.

Por ejemplo, cuando p << 12 y n > 100, se escribe Bin(n, p)

a∼ Poisson(np), dondea∼ es

una convencion para utilizar la distribucion de la variable lımite en reemplazo de la distribucion

original.

Proposicion 1.5.1. (Teorema del Lımite Central, TLC) Si (Xn, n = 1, 2, . . .) es una sucesion de

variables aleatorias iid con E(Xi) = µ y V ar(Xi) = σ2 entonces la sucesion Yn =√n(Xn −

µ)/σ, donde Xn = (1/n)∑n

j=1 Xj , converge en distribucion a una variable aleatoria Y ∼N (0, 1) es decir Yn

d→ Y, n→ ∞.

Demostracion. Para la demostracion se requiere un resultado auxiliar. Si bn → 0, n → ∞ es

una sucesion infinitesimal, y se define an = (1 + abn)n, para a ∈ R, entonces an → ea cuando

n→ ∞.

Page 26: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

19

Para la demostracion del teorema se asume que la funcion generadora de momentos de las variables

Xn existe en un intervalo (−h, h), h > 0. Se forma la sucesion Yn =√n(Xn − µ)/σ =

1√n

∑nj=1(Xj − µ)/σ entonces

MYn(t) = E

(e

t√n

Pnj=1

(Xj−µ)/σ)

=

n∏

j=1

E

(e

t√n

[(Xj−µ)/σ])

=

n∏

j=1

MXj−µ

σ

(t√n

)

=

[MX1−µ

σ

(t√n

)]n

=

[E

(e

t√n

“X1−µ

σ

”)]n

=

[E

(1 +

t√n

(X1 − µ

σ

)+t2

2n

(X1 − µ

σ

)2

+ . . .

)]n

=

[1 +

t2

2n+ o

(1

n

)]n

,

donde o(

1n

)= cn es una sucesion que cumple cn/(1/n) → 0 cuandon→ ∞. Como 1

2n+t−2o(

1n

)

es una sucesion infinitesimal, se cumple que[1 + t2

2n + o(

1n

)]n→ et

2/2, cuando n → ∞, y por

la Proposicion(1.5.2) se concluye que Yn =√n(Xn − µ)/σ

d→ Y, n→ ∞

1.6. Sımbolos O(·) y o(·) Estocasticos

Definicion 1.6.1. Para una sucesion de variables aleatorias (Xn, n = 1, 2, . . .), la notacion

Xn = Op(1) equivale a ∀ε > 0, ∃M > 0, ∃N > 0 tales que P(|Xn| ≤M) ≥ 1 − ε, ∀n ≥ N .

La notacion Xn = Op(1) significa que la sucesion (Xn) esta “acotada en probabilidad”. Es decir,

la probabilidad de estar Xn en un intervalo [−M,M ] es muy alta para todo n. Para otra sucesion

An, aleatoria o no, positiva, la notacion Xn = Op(An) significa que Xn/An = Op(1).

Teorema 1.6.1 (Teorema de Prohorov).

(i) Xnd→ X ⇒ Xn = Op(1),

(ii)Xn = Op(1) ⇒ existe una sub­sucesion (nk, k = 1, 2, . . .)

tal que Xnk

as→ X.

Definicion 1.6.2. Para una sucesion de variables aleatorias (Xn, n = 1, 2, . . .), la notacion

Xn = op(1) es una forma equivalente de expresar que Xn converge a cero en probabilidad.

Page 27: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

20

Proposicion 1.6.1. Las reglas para el manejo de los sımbolos Op(.), op(.) se expresan a contin­

uacion.

op(1) + op(1) = op(1) (1.12a)

op(1) +Op(1) = Op(1) (1.12b)

Op(1)op(1) = op(1) (1.12c)

(1 + op(1))−1 = Op(1) (1.12d)

op(An) = Anop(1) (1.12e)

Op(An) = Anop(1) (1.12f)

op(Op(1)) = op(1). (1.12g)

La interpretacion es similar a la del teorema de Slutsky (1.4.5). Por ejemplo, op(1)+op(1) = op(1)

significa que si Xn y Yn ambas convergen a cero en probabilidad, entoncesXn +Yn tambien. Este

resultado es una aplicacion directa del teorema de mapeo continuo (1.4.4), pag. 17.

1.7. Metodo Delta

Si g : Rk → Rm una funcion definida sobre un subconjunto de Rk, con g = (g1, . . . , gm)′, y

diferenciable en x0 entonces su diferencial se define como la matriz Dg(x0) ∈ Rm×k dada por

Dg(x0)[i, j] =∂gi(x0)

∂xj, que cumple, para h ∈ Rk,

g(x0 + h) = g(x0) +Dg(x0)h+ o(||h||), h→ 0 ∈ Rk. (1.13)

La notacion o(||h||) indica una funcion real de ||h|| que cumple limh→0o(||h||)/||h|| = 0. Es

decir, o(||h||) es una funcion que tiende a cero mas rapido que ||h||.

Teorema 1.7.1 (Metodo Delta). Sea g : Rk → Rm una funcion definida sobre un subconjunto

de Rk y diferenciable en x0. Sean Xn vectores aleatorios con valores en el dominio de g. Si

rn(Xn − x0)d−→ X , para rn sucesion numerica tal que rn → ∞, entonces

rn(g(Xn) − g(x0))d−→ Dg(x0)X. (1.14)

Demostracion. Como rn → ∞ entonces por Teorema de Slutsky (1.4.5), (1/rn)rn(Xn−x0)d−→ 0,

y por tanto Xn − x0 converge a cero en probabilidad, por (1.9e). Defina la funcion φ(h) =

(g(x0 + h) − g(x0) − Dg(x0)h)/||h||, para h 6= 0, y φ(0) = 0. Entonces φ(.) es continua en

0 ∈ Rk, es decir, lımh→0 φ(h) = φ(0) = 0, por la hipotesis de aproximacion lineal (1.13).

Aplicando el teorema de mapeo continuo (tmc) (1.4.4) se obtiene φ(Xn − x0)p−→ 0. Ademas, otra

vez por el tmc, como la funcion norma ||.|| es continua, entonces rn||Xn − x0|| d−→ 0, luego, por

Page 28: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

21

teorema de Slutsky, rnφ(Xn − x0)||Xn − x0|| d−→ 0. Y por tanto rnφ(Xn − x0)||Xn − x0|| p−→ 0

por (1.9e). Ahora

rnφ(Xn − x0)||Xn − x0|| = rn(g(xn)− g(x0) −Dg(x0)(Xn − x0))

= rn(g(xn)− g(x0)) − rn(Dg(x0)(Xn − x0))

= rn(g(xn)− g(x0)) −Dg(x0)(rn(Xn − x0))p−→ 0.

Pero la multiplicacion matricial es una operacion continua, luego por el tmc,

Dg(x0)(rn(Xn − x0))d−→ Dg(x0)X

Por teorema de Slutsky, sumando las dos ultimas expresiones, se obtine finalmente

rn(g(xn)− g(x0))d−→ Dg(x0)X.

Ejemplo 1.7.1. Suponga dos sucesionesXn, Yn tales que√n(Xn−3))

d−→ X , conX ∼ N (0, 1) y√n(Yn−2))

d−→ Y , con Y ∼ N (0, 1). Y considere la funcion g : R2 → R, dada por g(x, y) = xy3.

Entonces, con x0 = (x, y), Dg(x0) = (∂g(x,y)∂x , ∂g(x,y)

∂y ) = (y3, 3xy2). Reemplazando x0 = (3, 2)

se obtiene Dg(x0) = (8, 36). Entonces, la aplicacion del metodo delta (1.14) permite concluır

que √n(XnY

3n − 24)

d−→ Dg(x0)(X, Y )′ = 8X + 36Y.

Teorema 1.7.2. Considere dos sucesiones de vectores aleatorios en Rk, tales que Ynd−→ Y y

Xn = Yn + Op(an), con an → 0. Y sea g : Rk → R una funcion con derivadas parciales

continuas, excepto en un subconjunto G ⊆ Rk que cumple lımn→∞ P(Yn ∈ G) = 0. Denote el

gradiente de g en un punto x0 ∈ G por ∇g(x0) = (∂g(x0)∂x1

, . . . ,∂g(x0)∂xk

). Entonces se cumple

g(Xn) = g(Yn) + ∇g(Yn)(Xn − Yn) + op(an), n→ ∞. (1.15)

1.8. Propiedades de la Convergencia en Media Cuadratica.

Sabemos que

Xn2−→ X si n −→ ∞ ⇐⇒ E((Xn −X)2) −→ 0 si n −→ ∞

por tanto si

1. Xn2−→ X cuando n −→ ∞ entonces

a) E(Xn) −→ E(X) cuando n −→ ∞

Page 29: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

22

b) E(X2n) −→ E(X2) cuando n −→ ∞

Demostracion.

a) Por Lyapunov con s = 1 , r = 2 tenemos

E(|Xn −X |) ≤√

E(|Xn −X |2)

ademas

|E(Xn) − E(X)| ≤ E(|Xn −X |) ≤√

E(|Xn −X |2)

luego como E((Xn −X)2) −→ 0 cuando n −→ ∞ se tiene

E(Xn) −→ E(X) cuando n −→ ∞

b) La siguiente desigualdad es valida

0 ≤[√

E(X2n)−

√E(X2)

]2≤ E((Xn −X)2)

ya que desarrollando ambos miembros de la desigualdad obtenemos

E(X2n) + E(X2) − 2

√E(X2

n)E(X2) ≤ E(X2n) + E(X2)− 2E(XnX)

que a su vez equivale a

E(XnX) ≤√

E(X2n)E(X2)

la cual es cierta por c. s.

E(XnX) ≤ E(|XnX |) ≤√

E(X2n)E(X2)

Nota 1.8.1. Es evidente que Xn2−→ X entonces V ar(Xn) −→ V ar(X)

2. (ver Parzen (1972) pag. 112 Teo 4B ) Si Xn ∼ N (µn, σ2n) y Xn

2−→ X entonces

X ∼ N (µ, σ2) con µ = lımn→∞

µn y σ2 = lımn→∞

σ2n.

Demostracion.

Si Xn2−→ X entonces µn −→ µ = E(X) y σ2

n −→ σ2 = V ar(X) ademas la fgm de Xn

es

MXn(t) = eµnt+ 1

2σ2

nt2 t ∈ R

Page 30: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

23

luego MXn(t) −→M(t) cuando n −→ ∞ donde

M(t) = eµt+ 1

2σ2t2, t ∈ R

lo cual significa que Xn converge en distribucion a una variable aleatoria distribuıda

N (µ, σ2). Pero como

Xn2−→ X =⇒ Xn

D−→ X

esta variable debe ser X , por tanto X ∼ N (µ, σ2).

3. Si Xn2→ X cuando n→ ∞ y E(X2

n) <∞ para todo n ≥ 1 entonces E(X2) <∞.

Demostracion.

Utilizando la desigualdad triangular general

E(|X + Y |r) 1

r ≤ E(|X |r) 1

r + E(|Y |r) 1

r para r ≥ 1

con Xn = X , Y = X −Xn , r = 2 se tiene

√E(X2) ≤

√E(X2

n) +√

E((X −Xn)2)

como E((Xn − X)2) −→ 0 cuando n −→ ∞ y E(X2n) < ∞ para todo n ≥ 1 entonces

E(X2) <∞.

4. Si Xn2→ X , Yn

2→ Y entonces E(XnYn) → E(XY ) cuando n −→ ∞

Demostracion.

|E(XnYn) − E(XY )| ≤ E(|XnYn −XY |) = E(|(Xn −X)Y + (Yn − Y )Xn|)≤ E(|(Xn −X)Y |) + E(|(Yn − Y )Xn|)

≤[E((Xn −X)2)E(Y 2)

] 1

2 +[E((Yn − Y )2)E(X2

n)] 1

2

Como E(Y 2) < ∞ se cumple que si n −→ ∞ entonces la ultima expresion tiende a

cero.

5. Xn2−→ X ⇐⇒ ∃ c ∈ R tal que E(XnXm) −→ c para n , m → ∞

Demostracion.

[ ⇐= ]

Si E(XnXm) −→ c entonces

E((Xn −Xm)2) = E(X2n) + E(X2

m)− 2E(XnXm) → c+ c− 2c = 0

Page 31: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

24

y (Xn) es una sucesion de Cauchy en L2

[ =⇒ ]

Si Xn2→ X entonces E(XnXm) → E(X2) = c cuando n→ ∞

6. Si Xn2−→ X y Yn

2−→ Y entonces aXn + bYn2−→ aX + bY

7. Si Xn2−→ X y an −→ a entonces anXn

2−→ aX

1.9. Problemas

1. Suponga que N ∼ Poisson(λ), y δ > 0 es una constante. Se define la variable X =∑Nj=0 e

−δj . Utilice el resultado: E(etN) = eλ(et−1) y la desigualdad de Markov para encon­

trar una cota superior para la probabilidad P(X > a), a > 0.

2. Suponga una sucesion de variables Normales, Xn ∼ N (0, σ2n), n = 1, 2, . . ., tales que

σ2n → 0, n→ ∞.

a) Compruebe que Xn2→ 0, n→ ∞.

b) Si aceptamos que es valida la operacion ddtE(etXn) = E( d

dtetXn), compruebe que

ddtMXn(t)|t=1 = E(Xne

Xn) = σ2ne

σ2n/2.

c) Compruebe que ‖eXn − 1−Xn‖/‖Xn‖ → 0, n→ ∞.(Nota: El desarrollo de Taylor

de orden 1 alrededor de x = 0 de la funcion f(x) = ex esta dado por ex = 1+x+r(x),

donde r(x) es el residuo que cumple lımx→0 |r(x)/x| = 0. El problema propuesto

puede verse como una generalizacion estocastica de este resultado de calculo).

3. a) Compruebe que si Y ∼ U(0, 1) entonces

MY (t) =

et−1t para t 6= 0

1 para t = 0

b) EncuentreMY (t) si Y ∼ U0, 1, · · · , 9

c) Considere (Yn)n=1,2,··· con Yn ∼ iid U0, 1, 2, · · · , 9 y Xn =n∑

j=110−jYj .

Encuentre

MXn(t) =1

10n

1 − et

1− et10−n t 6= 0

= 1 t = 0

Page 32: To´picos en Series de Tiempo Propiedades y Estimacio´n QMLndgirald/Archivos Lectura... · 2011-02-23 · CAP´ITULO 1 Desigualdades y Modos de Convergencia 1.1. Espacio Muestral

25

d) Compruebe que MXn(t) −→ et − 1

tt 6= 0 recuerde que

lımn→∞

10n(1 − et10−n

) = t lımh→0

1− eh

h= −t

e) Concluya que Xnd−→ X X ∼ U(0, 1)

4. Suponga que Xn2→ X y Yn

2→ Y . Si a, b son constantes y (an) es una sucesion que

converge a a. Compruebe que:

a) aXn + bYn2→ aX + bY . Use la desigualdad triangular.

b) anXn2→ aX . Use la desigualdad tringular.

c) Corr(Xn, Yn) → Corr(X, Y ).

5. Suponga el proceso estocastico (Xn, n = 0, 1, . . .), definido por las siguientes condiciones:

i) X0 ∼ ExP(1/√

2)

ii) Xn|Xn−1 ∼ ExP(Xn−1/√

2), n = 1, 2, . . .

a) Encuentre E(Xn|Xn−1). Y luego E(Xn) en funcion de E(Xn−1). Compruebe que:

E(Xn) = 2−(n+1)/2 (1.16)

b) EncuentreV ar(Xn|Xn−1). Y luego V ar(Xn) en funcion deV ar(Xn−1). Compruebe

que:

V ar(Xn) = 1 − 2−(n+1) (1.17)

c) Con los resultados anteriores encuentre E(X2n), y utilıcelo para encontrar una cota

superior para E(X10X20) y una para E((X10 −X20)2)

d) Utilice la desigualdad de Markov para comprobar que el proceso converge en proba­

bilidad a cero: Xnp→ 0, n → ∞. Se puede decir que converge en media cuadratica a

cero: Xn2→ 0 ?. Explique.