teoría de la probabilidad e inferencia estadística: modelización ... · errores en esta versión...

549
Teora de la Probabilidad e Inferencia Estadstica: Modelizacin EconomØtrica con Datos Observacionales Aris Spanos Traduccin: Versin: Semestre 2012-2 Michel Rojas Romero Facultad de Ciencias. UNAM Facultad de Economa. UNAM

Upload: others

Post on 19-Apr-2020

38 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

Teoría de la Probabilidad e InferenciaEstadística: Modelización Econométrica con

Datos Observacionales

Aris Spanos

Traducción: Versión: Semestre 2012-2Michel Rojas Romero

Facultad de Ciencias. UNAMFacultad de Economía. UNAM

Page 2: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

2

Page 3: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

Contenido

0.1 A quién se dirige y características distintivas . . . . . . . . . . 11

1 1 Una introducción a la modelización empírica 131.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.1.1 Una vista panorámica del capítulo . . . . . . . . . . . . 151.2 Fenómenos estocásticos, una vista preliminar . . . . . . . . . . 151.3 Regularidad aleatoria y modelos estadísticos . . . . . . . . . . 28

1.3.1 Su�ciencia estadística . . . . . . . . . . . . . . . . . . . 341.4 Estadística frente a teoría de la información * . . . . . . . . . 371.5 Datos observados . . . . . . . . . . . . . . . . . . . . . . . . . 39

1.5.1 Los primeros datos . . . . . . . . . . . . . . . . . . . . 391.5.2 Datos económicos . . . . . . . . . . . . . . . . . . . . . 401.5.3 Datos observados y naturaleza de un modelo estadístico 411.5.4 Escalas de medición . . . . . . . . . . . . . . . . . . . . 441.5.5 ¿Sección transversal contra series de tiempo, es éste el

problema? . . . . . . . . . . . . . . . . . . . . . . . . . 481.5.6 Limitaciones de los datos económicos . . . . . . . . . . 50

1.6 Mirando hacia adelante . . . . . . . . . . . . . . . . . . . . . . 521.7 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2 Teoría de probabilidad: un marco de referencia para la mod-elación 552.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

2.1.1 Objetivo principal . . . . . . . . . . . . . . . . . . . . . 552.2 Modelo estadístico simple: una visión informal . . . . . . . . . 55

2.2.1 La estructura básica de un modelo estadístico simple . 552.2.2 El concepto de variable aleatoria: visión informal . . . 562.2.3 Funciones de densidad paramétricas . . . . . . . . . . . 582.2.4 Muestra aleatoria: preliminares . . . . . . . . . . . . . 59

3

Page 4: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4 CONTENIDO

2.3 Teoría de la probabilidad: una introducción . . . . . . . . . . . 602.4 Experimento aleatorio . . . . . . . . . . . . . . . . . . . . . . 60

2.4.1 Experimento aleatorio . . . . . . . . . . . . . . . . . . 612.5 Formalizacion de [a] . . . . . . . . . . . . . . . . . . . . . . . . 622.6 Formalizacion de [b] . . . . . . . . . . . . . . . . . . . . . . . 62

2.6.1 Espacio de eventos . . . . . . . . . . . . . . . . . . . . 642.6.2 Noción matemática de probabilidad . . . . . . . . . . . 702.6.3 Espacio de probabilidad [S;=;P (:)] . . . . . . . . . . . 742.6.4 Deducción matemática . . . . . . . . . . . . . . . . . . 74

2.7 Formalización de la condición [c]: pruebas aleatorias . . . . . . 772.7.1 Probabilidad condicional e independencia . . . . . . . . 78

2.8 Espacio estadístico . . . . . . . . . . . . . . . . . . . . . . . . 79

3 El concepto de modelo de probabilidad 813.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

3.1.1 La historia hasta ahora . . . . . . . . . . . . . . . . . . 813.1.2 ¿Porqué nos interesa? . . . . . . . . . . . . . . . . . . . 823.1.3 Una vista panorámica del capítulo . . . . . . . . . . . . 82

3.2 El concepto de variable aleatoria simple . . . . . . . . . . . . . 833.2.1 Conjunto �nito de resultados: S = fs1; s2; :::; sng . . . 843.2.2 Conjunto contable de resultados: S = fs1; s2; :::; sn; :::g 91

3.3 El concepto general de variable aleatoria . . . . . . . . . . . . 933.3.1 Conjunto no contable de resultados . . . . . . . . . . . 93

3.4 La distribución acumulada y funciones de densidad . . . . . . 973.4.1 La función de distribución acumulada . . . . . . . . . . 973.4.2 La función de densidad . . . . . . . . . . . . . . . . . . 99

3.5 De un espacio de probabilidad a un modelo de probabilidad . 1093.6 Parámetros y momentos . . . . . . . . . . . . . . . . . . . . . 117

3.6.1 ¿Porqué nos interesa? . . . . . . . . . . . . . . . . . . . 1173.6.2 Características numéricas . . . . . . . . . . . . . . . . 118

3.7 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1233.7.1 Momentos crudos de orden superior . . . . . . . . . . . 1233.7.2 Función generatriz de momentos . . . . . . . . . . . . . 1243.7.3 El problema de los momentos� . . . . . . . . . . . . . . 1293.7.4 Momentos centrales superiores . . . . . . . . . . . . . . 1323.7.5 Otras características numéricas . . . . . . . . . . . . . 142

3.8 Desigualdades . . . . . . . . . . . . . . . . . . . . . . . . . . . 1503.9 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

Page 5: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

CONTENIDO 5

3.10 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153

4 El concepto de muestra aleatoria 1574.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

4.1.1 Objetivo principal de este capítulo . . . . . . . . . . . 1574.1.2 La historia hasta ahora . . . . . . . . . . . . . . . . . . 1584.1.3 De pruebas aleatorias a una muestra aleatoria: a primer

punto de vista . . . . . . . . . . . . . . . . . . . . . . . 1584.1.4 Una vista panorámica del capítulo . . . . . . . . . . . . 159

4.2 Distribuciones conjuntas . . . . . . . . . . . . . . . . . . . . . 1604.2.1 Variables aleatorias discretas . . . . . . . . . . . . . . . 1604.2.2 Variables aleatorias continuas . . . . . . . . . . . . . . 1634.2.3 Momentos conjuntos . . . . . . . . . . . . . . . . . . . 1674.2.4 El caso de n variables aleatorias . . . . . . . . . . . . . 169

4.3 Distribuciones marginales . . . . . . . . . . . . . . . . . . . . 1714.4 Distribuciones condicionales . . . . . . . . . . . . . . . . . . . 175

4.4.1 Probabilidad condicional . . . . . . . . . . . . . . . . . 1754.4.2 Funciones de densidad condicional . . . . . . . . . . . . 1764.4.3 Variables aleatorias discretas/continuas . . . . . . . . . 1804.4.4 Momentos codicionales . . . . . . . . . . . . . . . . . . 1814.4.5 Una digresión: otras formas de condicionalidad . . . . 1834.4.6 Marginalización frente a condicionalidad . . . . . . . . 185

4.5 Independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . 1884.5.1 El caso de dos variables aleatorias . . . . . . . . . . . . 1884.5.2 Independencia en el caso de n variables . . . . . . . . . 190

4.6 Distribuciones idénticas . . . . . . . . . . . . . . . . . . . . . . 1934.6.1 Una muestra aleatoria . . . . . . . . . . . . . . . . . . 1964.6.2 Un modelo estadístico simple: concluyendo las trans-

formaciones . . . . . . . . . . . . . . . . . . . . . . . . 1974.7 Un modelo estadístico simple en la modelización empírica: una

visión preliminar . . . . . . . . . . . . . . . . . . . . . . . . . 1984.7.1 Modelo de probabilidad . . . . . . . . . . . . . . . . . 1994.7.2 Identi�cabilidad y parametrizaciones . . . . . . . . . . 2004.7.3 Importantes familias de distribuciones paramétricas . . 2024.7.4 Muestra aleatoria . . . . . . . . . . . . . . . . . . . . . 206

4.8 Muestras aleatorias ordenadas* . . . . . . . . . . . . . . . . . 2074.8.1 Distribuciones marginales . . . . . . . . . . . . . . . . 2074.8.2 Distribuciones conjuntas . . . . . . . . . . . . . . . . . 209

Page 6: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6 CONTENIDO

4.9 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2104.9.1 ¿Qué sigue? . . . . . . . . . . . . . . . . . . . . . . . . 210

4.10 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210

5 El concepto de muestra no aleatoria 2135.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213

5.1.1 La historia hasta ahora . . . . . . . . . . . . . . . . . . 2135.1.2 Extendiendo un modelo estadístico simple . . . . . . . 2155.1.3 Introduciendo una taxonomía fundamental . . . . . . . 216

5.2 Muestra no aleatoria: una visión preliminar . . . . . . . . . . 2175.2.1 Condicionalidad secuencial . . . . . . . . . . . . . . . . 2205.2.2 Manteniendo un ojo en el bosque! . . . . . . . . . . . 2235.2.3 Modelos estadísticos más allá del simple: un punto de

vista preliminar . . . . . . . . . . . . . . . . . . . . . . 2245.3 Dependencia entre dos variables aleatorias: distribución con-

junta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2255.4 Dependencia entre dos variables aleatorias: momentos . . . . . 230

5.4.1 Momentos conjuntos y dependencia . . . . . . . . . . . 2305.5 Momentos condicionales y dependencia . . . . . . . . . . . . . 237

5.5.1 Independencia condicional . . . . . . . . . . . . . . . . 2405.6 Dependencia y sistema de medida . . . . . . . . . . . . . . . . 244

5.6.1 Escalas de medida y dependencia . . . . . . . . . . . . 2445.6.2 Dependencia para las variables categóricas . . . . . . . 2465.6.3 Dependencia entre variables nominales . . . . . . . . . 2505.6.4 La distribución de Bernoulli . . . . . . . . . . . . . . . 2525.6.5 Dependencia en variables aleatorias mezcladas (disc-

retas / continuas) . . . . . . . . . . . . . . . . . . . . . 2545.7 Distribuciones conjuntas y dependencia . . . . . . . . . . . . . 255

5.7.1 Dependencia y la distribución normal . . . . . . . . . . 2595.7.2 Dependencia y la familia elípticamente simétrica . . . . 2635.7.3 Dependencia y las distribuciones sesgadas . . . . . . . 268

5.8 De los conceptos probabilísticos a los datos observados . . . . 2755.8.1 Generación de números pseudo aleatorios* . . . . . . . 2755.8.2 Una representación grá�ca: el diagrama de dispersión . 283

5.9 ¿Qué sigue? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3005.10 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 300

Page 7: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

CONTENIDO 7

6 Regresión y conceptos relacionados 3036.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3036.2 Condicionalidad y regresión . . . . . . . . . . . . . . . . . . . 306

6.2.1 Reducción y funciones condicionales momento . . . . . 3066.2.2 Regresión y funciones cedásticas . . . . . . . . . . . . . 3096.2.3 Funciones clíticas y cúrticas . . . . . . . . . . . . . . . 325

6.3 Reducción y condicionalidad estocástica . . . . . . . . . . . . 3276.3.1 Signi�cado de E (Y rj� (X)) . . . . . . . . . . . . . . . 3286.3.2 Determinando hr (X) = E (Y rj� (X)) . . . . . . . . . . 3356.3.3 Propiedades de la esperanza condicional estocástica . . 336

6.4 Exogeneidad débil� . . . . . . . . . . . . . . . . . . . . . . . . 3416.5 El concepto de mecanismo generador estadístico (MG) . . . . 344

6.5.1 El ángulo de visión de la teoría . . . . . . . . . . . . . 3446.5.2 El concepto de conjunto de información condicional . . 3466.5.3 Descomposiciones ortogonales del MG estadístico . . . 3466.5.4 El ángulo de visión estadístico . . . . . . . . . . . . . . 3526.5.5 Razón de dependencia* . . . . . . . . . . . . . . . . . . 354

6.6 La tradición biométrica en estadística . . . . . . . . . . . . . . 3566.6.1 Galton . . . . . . . . . . . . . . . . . . . . . . . . . . . 3576.6.2 Karl Pearson . . . . . . . . . . . . . . . . . . . . . . . 3636.6.3 Revisando la estrategia de modelación de Pearson . . . 3686.6.4 Kernel suavizado y regresión . . . . . . . . . . . . . . . 375

6.7 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3776.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 378

7 Procesos estocásticos 3817.1 introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 381

7.1.1 La historia hasta ahora . . . . . . . . . . . . . . . . . . 3817.1.2 Variables aleatorias y ordenamiento . . . . . . . . . . . 3847.1.3 Una vista panorámica del capítulo . . . . . . . . . . . . 384

7.2 El concepto de proceso estocástico . . . . . . . . . . . . . . . . 3867.2.1 De�nición de un proceso estocástico . . . . . . . . . . 3867.2.2 Clasi�cación de los procesos estocásticos . . . . . . . . 3907.2.3 Especi�cación de un proceso estocástico . . . . . . . . 392

7.3 Procesos estocásticos: una visión preliminar . . . . . . . . . . 3947.3.1 El movimiento browniano y los fundamentos de la prob-

abilidad . . . . . . . . . . . . . . . . . . . . . . . . . . 3957.3.2 Sumas parciales y procesos estocásticos asociados . . . 397

Page 8: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8 CONTENIDO

7.3.3 Proceso Gaussiano . . . . . . . . . . . . . . . . . . . . 4067.4 Restricciones de dependencia . . . . . . . . . . . . . . . . . . . 407

7.4.1 Conceptos basados en distribución . . . . . . . . . . . . 407

8 Estimación I: Propiedades de los estimadores 4118.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411

8.1.1 Vista panorámica del capítulo . . . . . . . . . . . . . . 4128.2 La de�nición de un estimador . . . . . . . . . . . . . . . . . . 4128.3 Propiedades de muestra �nita . . . . . . . . . . . . . . . . . . 417

8.3.1 Motivación: el estimador ideal . . . . . . . . . . . . . . 4178.4 Propiedades asintóticas . . . . . . . . . . . . . . . . . . . . . . 430

8.4.1 Consistencia . . . . . . . . . . . . . . . . . . . . . . . . 4308.4.2 Consistencia fuerte . . . . . . . . . . . . . . . . . . . . 4338.4.3 Normalidad asintótica . . . . . . . . . . . . . . . . . . 4348.4.4 E�ciencia asintótica . . . . . . . . . . . . . . . . . . . . 4358.4.5 Distribuciones muestrales y propiedades de los esti-

madores . . . . . . . . . . . . . . . . . . . . . . . . . . 4368.5 El modelo Normal simple . . . . . . . . . . . . . . . . . . . . . 438

8.5.1 La distribución muestral de la media de la muestra . . 4388.5.2 La distribución muestral de la varianza de la muestra . 4418.5.3 Reduciendo el sesgo: estimadores navaja (jackknife es-

timators) . . . . . . . . . . . . . . . . . . . . . . . . . 4468.6 Estadísticos su�cientes y estimadores óptimos * . . . . . . . . 449

8.6.1 Su�ciencia . . . . . . . . . . . . . . . . . . . . . . . . . 4498.6.2 Su�ciencia e insesgamiento . . . . . . . . . . . . . . . . 4538.6.3 Su�ciencia mínima . . . . . . . . . . . . . . . . . . . . 4548.6.4 Completitud . . . . . . . . . . . . . . . . . . . . . . . . 4568.6.5 Exponencial de la familia de distribuciones . . . . . . . 459

8.7 ¿Qué viene a continuación? . . . . . . . . . . . . . . . . . . . 4598.8 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 460

9 Estimación II: métodos de estimación 4639.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463

9.1.1 Una vista panorámica del capítulo . . . . . . . . . . . . 4649.1.2 Métodos de estimación: una visión preliminar . . . . . 464

9.2 Principio de momentos coincidentes . . . . . . . . . . . . . . . 4659.2.1 Momentos muestrales y sus propiedades . . . . . . . . 4709.2.2 Funciones de los momentos de la muestra . . . . . . . . 477

Page 9: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

CONTENIDO 9

9.3 El método de mínimos cuadrados . . . . . . . . . . . . . . . . 4789.3.1 El principio de mínimos cuadrados . . . . . . . . . . . 4789.3.2 Teorema de Gauss-Markov. . . . . . . . . . . . . . . . 4819.3.3 El método estadístico de mínimos cuadrados . . . . . . 4839.3.4 Propiedades de estimadores de mínimos cuadrados . . . 486

9.4 El método de momentos . . . . . . . . . . . . . . . . . . . . . 4879.4.1 Método de momentos de Pearson . . . . . . . . . . . . 4889.4.2 El método paramétrico de momentos . . . . . . . . . . 4919.4.3 Propiedades de los estimadores MPM . . . . . . . . . . 494

9.5 El método de máxima verosimilitud . . . . . . . . . . . . . . . 4959.5.1 La función de verosimilitud . . . . . . . . . . . . . . . 4959.5.2 Estimadores de máxima verosimilitud . . . . . . . . . . 4979.5.3 Caso multiparámetros . . . . . . . . . . . . . . . . . . 5019.5.4 Propiedades de los EMV . . . . . . . . . . . . . . . . . 5099.5.5 El método de máxima verosimilitud y sus críticos . . . 520

9.6 Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522

10 Prueba de hipótesis 52510.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525

10.1.1 Las di�cultades inherentes en el dominio de las pruebasde hipótesis . . . . . . . . . . . . . . . . . . . . . . . . 525

10.1.2 Una vista panorámica del capítulo . . . . . . . . . . . . 52610.2 Preliminares al enfoque de Fisher . . . . . . . . . . . . . . . . 527

10.2.1 Edgeworth . . . . . . . . . . . . . . . . . . . . . . . . . 52710.2.2 Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . 52910.2.3 Gosset . . . . . . . . . . . . . . . . . . . . . . . . . . . 53210.2.4 La formulación de Fisher . . . . . . . . . . . . . . . . . 53410.2.5 Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . 538

10.3 El marco de referencia de Neyman-Pearson . . . . . . . . . . . 54010.3.1 Etapa I - El concepto de hipótesis alternativa . . . . . 54110.3.2 Etapa II - La región de rechazo . . . . . . . . . . . . . 54310.3.3 Etapa III - Los dos tipos de errores . . . . . . . . . . . 54510.3.4 Etapa IV - Construcción de pruebas óptimas . . . . . . 549

Page 10: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

10 CONTENIDO

Esta es una traducción de los capítulos del libro de Spanos (1999) prop-uestos para el curso de Estadística del campo de Economía Aplicada del Pos-grado en Economía de la UNAM. Es el resultado de mis exposiciones y res-olución de problemas en el taller de Estadística y estuvo destinado a los estu-diantes que cursaron esta asignatura en el semestre 2013-1. Gracias a cadauno de ellos por sus valiosas observaciones al contenido de este documento.Actualmente estoy traduciendo las partes restantes del libro. En cuanto

concluya la traducción del libro completo, la pondré a disposición del pos-grado.Errores en esta versión de la traducción son, desde luego, mi responsabil-

idad y trataré de corregirlos en versiones siguientes.Teoría de la probabilidad e Inferencia EstadísticaEste importante nuevo libro de texto de un econometrista distinguido

está dirigido a estudiantes que toman cursos de introducción a la teoría de laprobabilidad y a la inferencia estadística. Ningún conocimiento previo queno sea un conocimiento básico de estadística descriptiva se presupone.El objetivo principal de este libro es establecer el marco de referencia

para la modelización empírica de datos observacionales (no experimentales).Este marco se ha formulado con el �n de acomodar las peculiaridades delos datos observacionales (no experimentales) de una manera uni�cadores ylógica coherente. Teoría de la Probabilidad e Inferencia Estadística di�erede los libros de texto tradicionales en la medida en que hace hincapié enlos conceptos, ideas, nociones y procedimientos que son apropiados para lamodelización de datos observacionales. Se hace especial énfasis en relacionarconceptos probabilísticos a los patrones de regularidad aleatoria exhibidospor los datos observados.Dirigido principalmente a estudiantes de segundo año de nivel universi-

tario y más allá del estudio de la econometría y la economía, este libro detexto también será útil para los estudiantes de otras disciplinas que hacen usoextensivo de datos observacionales, incluidas �nanzas, biología, sociología,educación, psicología y climatología.

Page 11: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

0.1. A QUIÉN SE DIRIGE Y CARACTERÍSTICAS DISTINTIVAS 11

ARIS SPANOS es un destacado investigador y profesor en econometría.En la actualidad trabaja en University of Cyprus y Virginia Polytechnic In-stitute y State University y ha enseñado previamente en instituciones entreellas, el Birkbeck College, la Universidad de Cambridge y la Universidad deCalifornia. Sus libros anteriores incluyen Statistical Foundations of Econo-metric Modelling, publicado por Cambridge University Press en 1986.

0.1 A quién se dirige y características distin-tivas

Este es un libro de texto destinado a un curso de introducción a la teoríade la probabilidad y a la inferencia estadística, escrito para estudiantes quehan tenido al menos un curso de un semestre de cálculo. Las matemáti-cas adicionales necesarias se fusionan a la discusión para que sea autocon-tenido, prestando especial atención a la comprensión intuitiva de los concep-tos matemáticos. No son requeridos prerrequisitos en probabilidad e infer-encia estadística, pero una cierta familiaridad con la estadística descriptivaserá de utilidad.El objetivo principal de este libro es sentar las bases y ensamblar el

marco de referencia general para la modelización empírica de datos obser-vacionales (no experimentales). Este marco de referencia, conocido comoreducción probabilística, se formula con el �n de acomodar las particulari-dades de los datos observacionales (en oposición a los experimentales) deuna manera uni�cadora y lógicamente coherente. Se distingue de los librosde texto tradicionales en la medida en que enfatiza los conceptos, ideas, no-ciones y procedimientos que sean apropiados para la modelización de datosobservacionales.

Page 12: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

12 CONTENIDO

Page 13: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

Capítulo 1

1 Una introducción a lamodelización empírica

1.1 Introducción

En un intento de dar una idea de lo que la modelación empírica trata, comen-zamos la discusión con una demarcación epigramática de su ámbito de apli-cación:

Modelizacion empírica se re�ere a la descripción parsimoniosa defenómenos estocásticos observables utilizando modelos estadísticos.

La delimitación anterior es apenas esclarecedora porque involucra los tér-minos desconocidos fenómeno estocástico y modelo estadístico que se expli-carán en lo que sigue. En esta etapa, sin embargo, basta con señalar lassiguientes características distintivas de la modelización empírica (en oposi-ción a otras formas):(a) la naturaleza estocástica de los fenómenos susceptibles de dicha mod-

elación,(b) el carácter indispensable de los datos observados, y(c) la naturaleza de la descripción en la forma de un modelo estadístico.El objetivo principal de la modelización empírica es proporcionar una de-

scripción adecuada de ciertos tipos de fenómenos observables de interés enforma de mecanismos estocásticos que llamamos modelos estadísticos. Unmodelo estadístico pretende capturar la información estadística sistemática(ver secciones 2 y 3), que es diferente de la teoría de la información (ver

13

Page 14: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

14CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

sección 4). En contraste con un modelo teórico, un modelo estadístico escodi�cado exclusivamente en términos de conceptos probabilísticos y es de-scriptivo y anti-realista por naturaleza (véase el capítulo 10 para mayor dis-cusión). La su�ciencia de la descripción se evalúa por qué tan bien el modeloestadístico postulado da cuenta de la información estadística sistemática enlos datos (véase la sección 5). En la sección 6 proporcionamos una discusiónpreliminar de algunos aspectos importantes del elemento constitutivo de losmodelos empíricos, los datos observados.

La modelización empírica en este libro es considerada para incluir unaamplia gama de procedimientos relacionados entre sí incluyendo:

(i) especi�cación (la elección de un modelo estadístico),

(ii) estimación (estimación de los parámetros del modelo estadístico pos-tulado),

(iii) pruebas de errores de especi�cación (evaluación de la validez de lossupuestos probabilística del modelo estadístico postulado) y

(iv) respeci�cation (una elección alternativa de un modelo estadístico).

Como se ha señalado antes, estas facetas de la modelización están partic-ularmente involucradas en el caso de los datos observacionales. En el casode los datos experimentales, el enfoque principal está en la estimacióndebido a que las facetas (i) y (iv) constituyen la otra cara del diseño de lamoneda y (iii) juega un papel subsidiario.

El ejemplo por excelencia de la modelización empírica utilizando datosobservables se considera es la econometría. Una tesis importante adoptadaen este libro es que la econometría se distingue de la estadística de la cor-riente dominante (dominada por el diseño experimental y las tradiciones demínimos cuadrados), no tanto por la dimensión de la teoría económica delos modelos, sino principalmente debido a los problemas particulares de lamodelación que surgen debido a la naturaleza observacional de la inmensamayoría de los datos económicos. Por lo tanto, interpretamos la de�nicióntradicional de la econometría "la estimación de las relaciones como lo sugierela teoría económica" (véase Harvey (1990), p. 1), como la colocación delcampo en el marco de referencia de la modelización de diseño experimental.En pocas palabras, el argumento básico es que el enfoque tradicional de librode texto econométrico utiliza el marco de referencia de la modelización dediseño experimental para el análisis de datos no experimentales (ver Spanos(1995b) para más detalles).

Page 15: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.2. FENÓMENOS ESTOCÁSTICOS, UNA VISTA PRELIMINAR 15

1.1.1 Una vista panorámica del capítulo

El resto de este capítulo profundiza en las características distintivas de lamodelación empírica (a) - (c). En la sección 2 discutimos el signi�cado defenómenos estocásticos observables y por qué tales fenómenos son sus-ceptibles de modelización empírica. En la sección 3, discutimos la relaciónentre fenómeno estocástico y modelos estadísticos. Esta relación se pre-senta en la forma de información estadística sistemática que no es más que laformalización de los patrones de regularidad aleatoria exhibidos por los datosobservados que emanan de los fenómenos estocásticos. En la sección 4 discu-timos la importante noción de su�ciencia estadística: si el modelo estadísticopostulado "captura" toda la información estadística sistemática de los datos.En la sección 5 contrastamos la información estadística y la teoría. En pocaspalabras, el modelo teórico se formula en términos del comportamiento delos agentes económicos y el modelo estadístico es formulado exclusivamenteen términos de conceptos probabilísticos; una parte considerable del libro sere�ere a la pregunta de: ¿qué es lo que constituye la información estadís-tica sistemática? En la sección 6 planteamos tres cuestiones importantesen relación a los datos observados, sus diferentes escalas de medida, sunaturaleza y su precisión, lo que se relaciona con los métodos estadísticosutilizados para su modelización.El mensaje principal de este capítulo es que, en la evaluación de la validez

de una teoría, el modelador debe garantizar que los datos observados consti-tuyan un testigo imparcial, cuyo testimonio puede ser utilizado para evaluarla validez de la teoría en cuestión. Un modelo estadístico pretende propor-cionar un resumen adecuado de la información estadística sistemática de losdatos en la forma de un mecanismo estocástico que posiblemente dio lugar alos datos observados en cuestión.

1.2 Fenómenos estocásticos, una vista pre-liminar

Como se escribió anteriormente, el alcance previsto por la modelación em-pírica es demarcado por la naturaleza estocástica de los fenómenos observ-ables. En esta sección explicamos intuitivamente la idea de un fenómenoestocástico y lo relacionamos con la noción de modelo estadístico en la sigu-iente sección.

Page 16: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

16CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

Fenómenos estocásticos y regularidad aleatoria

Un fenómeno estocástico es aquel cuyos datos observados muestran loque llamamos patrones de regularidad aleatoria. Estos patrones son por logeneral revelados utilizando una variedad de técnicas grá�cas. La esencia dela regularidad aleatoria, como lo sugiere el término en sí mismo, viene bajola forma de dos características entrelazadas:aleatoria: una incertidumbre inherente en relación con la ocurrencia de

resultados particulares,regularidad : una regularidad permanente en relación con la ocurrencia de

muchos de tales resultados.TERMINOLOGÍA: el término regularidad aleatoria se introduce con el

�n de evitar la posible confusión y desconcierto que puede ser causado por laadopción del término de uso más común conocido como aleatoriedad; véaseel capítulo 10 para más discusión.A primera vista, estos dos atributos podrían parecer contradictorios en

el sentido de que el azar se re�ere a la ausencia de orden y la "regularidad"denota la presencia de orden. Sin embargo, no hay contradicción porque eldesorden existe en el nivel de los resultados individuales y el orden a nivelagregado. En efecto, la esencia de la regularidad aleatoria se deriva del hechode que el desorden a nivel individual crea (de alguna manera) orden a nivelagregado. Los dos atributos deben ser vistos como algo inseparable para quela noción de regularidad aleatoria tenga sentido. Cuando sólo uno de ellosestá presente, no podemos hablar de regularidad aleatoria.Cualquier intento en esta etapa de de�nir formalmente lo que queremos

decir por regularidad aleatoria será más bien inútil, porque necesitamos var-ios conceptos matemáticos que se desarrollarán en lo que sigue. En su lugar,vamos a intentar dar un poco de intuición detrás de la noción de regulari-dad aleatoria con un ejemplo simple y posponer la discusión formal hasta elcapítulo 10.EjemploConsidere la situación de lanzar dos dados y sumar los puntos de los lados

hacia arriba. La primera característica fundamental de esta situación es queen cada prueba (lanzamiento de los dos dados) el resultado (la suma de lospuntos de los lados) no se puede adivinar con total certeza. Lo único que sepuede decir con certeza es que el resultado será uno de los números:

{ 2,3,4,5,6,7,8,9,10,11,12}

Page 17: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.2. FENÓMENOS ESTOCÁSTICOS, UNA VISTA PRELIMINAR 17

excluimo el caso en el que los dados terminan en uno de los bordes!Todas las 36 combinaciones posibles detrás de los resultados se muestranen la tabla 1.1. La segunda característica fundamental de la situación esque bajo ciertas condiciones, tales como la simetría de los dados, sabemosque ciertos resultados son más probables de ocurrir que otros. Por ejemplo,sabemos que el número 2 puede surgir como la suma de sólo un conjunto decaras: {1,1} - cada dado sale 1; se aplica lo mismo al número 12 con caras:{6,6}. Por otro lado, el número 3 puede surgir como la suma de dos conjuntosde caras: {(1,2), (2,1)} y lo mismo sucede con el número 11 con caras: {(6,5),(5,6)}. En la siguiente subsección veremos que esta línea de razonamientocombinatorio dará lugar a una distribución de probabilidad, como se muestraen la tabla 1.3.

Tabla 1.1. Resultados en el lanzamiento de dos dados1 2 3 4 5 6

1 (1,1) (1,2) (1,3) (1,4) (1,5) (1,6)2 (2,1) (2,2) (2,3) (2,4) (2,5) (2,6)3 (3,1) (3,2) (3,3) (3,4) (3,5) (3,6)4 (4,1) (4,2) (4,3) (4,4) (4,5) (4,6)5 (5,1) (5,2) (5,3) (5,4) (5,5) (5,6)6 (6,1) (6,2) (6,3) (6,4) (6,5) (6,6)

En esta etapa es interesante hacer una pausa y considerar la noción deregularidad aleatoria como desarrollada primero en el contexto de juegosde azar. Esta es, de hecho, la forma en la que las probabilidades hicieronsu primera aparición. Históricamente, las probabilidades fueron introducidascomo una manera de entender las diferencias observadas empíricamente entrela probabilidad de aparición de diferentes resultados de las apuestas, comoen el cuadro 1.1. Miles de soldados durante la época medieval podían darfe de las diferencias en las frecuencias relativas empíricas de ocurrencia dediferentes eventos relacionados con los resultados en la tabla 1.1.Mientrasesperaban para atacar una ciudad, los soldados tenían miles de horas sinnada que hacer y nuestros registros históricos sugieren que ellos se complacíanprincipalmente en juegos de azar parecidos al lanzamiento de dados. Despuésde miles de ensayos ellos sabían intuitivamente que el número 7 aparece conmás frecuencia que cualquier otro número y que el 6 aparece con menosfrecuencia que el 7, pero con más frecuencia que el 5. Veamos cómo esta

Page 18: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

18CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

intuición se convirtió en algo más sistemático, que eventualmente condujo ala teoría de la probabilidad.La tabla 1.2 reporta 100 ensayos reales del experimento aleatorio de lanzar

dos dados y sumar el número de puntos que aparecen en la cara superior deldado. Un vistazo a la tabla sólo con�rma que los números van de 2 a 12,pero ningún patrón real es evidente, al menos a primera vista.Tabla 1.2. Datos observados en el lanzamiento de un dado3 10 11 5 6 7 10 8 5 11 2 9 9 6 8 4 7 6 5 127 8 5 4 6 11 7 10 5 8 7 5 9 8 10 2 7 3 8 1011 8 9 5 7 3 4 9 10 4 7 4 6 9 7 6 12 8 11 910 3 6 9 7 5 8 6 2 9 6 4 7 8 10 5 8 7 9 65 7 7 6 12 9 10 4 8 6 5 4 7 8 6 7 11 7 8 3

Figura 1.1 Una sucesión de 100 lanzamientos de dos dados.

En la �gura 1.1 se representan los datos sobre el índice del número dela prueba. En el primer lanzamiento de los dados la suma fue de 3, enla segunda la suma fue de 10, en la tercera la suma de 11, etc. Uniendoestos resultados (observaciones) se da al espectador una mejor perspectivaen cuanto a la naturaleza secuencial de los observaciones. NOTE que el ordende las observaciones constituye una dimensión importante cuando se discutela noción de regularidad aleatoria.Historicamente, el primer patrón de regularidad aleatoria percibido in-

tuitivamente por los soldados medievales fue el de una ley estable de lasfrecuencias relativas como se sugiere en el histograma en la �gura 1.2 del losdatos en la tabla 1.2; sin, por supuesto, la utilización de técnicas grá�cas,

Page 19: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.2. FENÓMENOS ESTOCÁSTICOS, UNA VISTA PRELIMINAR 19

pero después de numerosos lanzamientos de los dados. La pregunta que surgenaturalmente en esta etapa es:

¿Cómo es el histograma en la �gura 1.2 relacionado con los datos en la�gura 1.1?

Hoy en día, los patrones de regularidad aleatoria son perceptibles medi-ante la realización de una serie de experimentos mentales.Experimento mental 1. Piense en las observaciones como pequeños

cuadrados con un área igual y gire hacia la derecha la �gura 1.1 en 90 � ydeje que los cuadros que representan las observaciones caigan verticalmentecreando una pila sobre el eje "x". La pila representa el bien conocido his-tograma, como se muestra en la �gura 1.2. Este histograma presenta unaclara forma triangular, que estará relacionada con una distribución de proba-bilidad derivada mediante el uso de argumentos basados en combinaciones ypermutaciones en el siguiente subsección. Para �nes de referencia resumimosesta regularidad en la forma de la noción intuitiva siguiente:

Figura 1.2 Histograma de la suma de los dos datos dados.

[1] Distribución: después de varias pruebas los resultados forman una ley(aparentemente) estable.Experimento mental 2. Ocultar las observaciones siguientes hasta un

cierto valor del índice, por ejemplo t = 40, y tratar de adivinar el resultado

Page 20: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

20CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

siguiente. Repita esto a lo largo del eje de la observación del índice y siresulta que es imposible utilizar las observaciones anteriores para adivinarel valor de la observación siguiente, excluyendo los casos extremos 2 y 12,entonces el patrón de regularidad aleatoria que llamamos independencia estápresente. Es importante notar que en el caso de los resultados extremos 2y 12 uno está casi seguro que después de 2 la probabilidad de obtener unnúmero mayor que ése es mucho mayor, y después de 12 la probabilidad deobtener un número más pequeño está cerca de uno . Como se ha señaladoantes, este tipo de predicción está relacionado con el componente de regular-idad aletoria conocido como ley estable de frecuencias relativas. Excluyendoestos casos extremos, cuando se miran las observaciones previas, no se puedediscernir un patrón en la �gura 1.1 que ayude a reducir el número de resulta-dos alternativos posibles, permitiendo al modelador adivinar la observaciónsiguiente (dentro de límites estrechos) con alguna certeza. Intuitivamente,podemos resumir esta idea en forma de:

[2] Independencia: en cualquier sucesión de pruebas el resultado decualquier prueba no in�uye y no es in�uido por cualquier otra.

Experimento mental 3. Tome una ventana ancha (para incluir la dis-persión de las �uctuaciones en una grá�ca de tiempo como la �gura 1.1) quesea también lo su�cientemente larga (aproximadamente menos de la mitadde la longitud del eje horizontal) y deje que se deslice de izquierda a derecha alo largo del eje horizontal mirando el panorama dentro del cuadro, a medidaque se desliza a lo largo. En el caso de que la imagen no cambie signi�cativa-mente, los datos exhiben homogeneidad , en otro caso, la heterogeneidad estápresente; véase el capítulo 5. Otra forma de ver este patrón es en términos dela media y la variación en torno a esta media de los números a medida queavanzamos de izquierda a derecha. Parece como si este promedio secuencialy su variación son relativamente constante alrededor de 7. La variación entorno a este valor promedio constante parece estar dentro de bandas con-stantes. Esta regularidad aleatoria puede ser intuitivamente resumida en elconcepto siguiente:

[3] Homogeneidad : las probabilidades asociadas a los diferentes resultadossiguen siendo las mismas para todas las pruebas.

NOTE que en el caso donde el patrón en una grá�ca de tiempo es talque permite al modelador adivinar la siguiente observación con exactitud, los

Page 21: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.2. FENÓMENOS ESTOCÁSTICOS, UNA VISTA PRELIMINAR 21

datos no muestran ningún patrón aleatorio, ellos exhiben lo que se conocecomo regularidad determinista. La forma más fácil de pensar la regulari-dad determinista es visualizar las grá�cas de funciones matemáticas de laselementales (polinómicas, algebraicas, trascendentales) a funciones más com-plicadas, como las funciones de Bessel, diferenciales y ecuaciones integrales.Si echamos un vistazo a la �gura 1.1 y tratamos de pensar en una funciónque pueda describir la línea en zig-zag observada, nos daremos cuenta de queno existe tal función matemática, a menos que utilicemos un polinomio deorden 99, que es lo mismo que listar los números reales . Los patrones quediscernimos en la �gura 1.1 son patrones de regularidad aleatoria.

Regularidad aleatoria y estructura probabilística

El paso de las regularidades observadas a su formalización (matematización)fue impulsado por el patrón de regularidad de distribución como se ejempli�caen la �gura 1.2. La formalización propia fue inicialmente muy lenta, tomandosiglos para materializarse, y tomó la forma de argumentos combinatoriossimples.Podemos captar la esencia de esta formalización inicial si volvemosal ejemplo del lanzamiento de los dados.EjemploEn el caso del experimento de lanzar dos dados, podemos seguir la línea

de razonamiento que sugiere diferencias en la posibilidad de ocurrencias delos distintos resultados en {2,3,4,5,6,7,8,9,10, 11,12} como sigue. Ya sabe-mos que el 3 se produce dos veces más que el 2 o el 111. Usando la mismalógica de sentido común podemos argumentar que ya que el 4 se producecuando cualquiera de {(1,3), (2,2), (3,1)}ocurre, su posibilidad de ocurrenciaes tres veces mayor que la del 2. Continuando esta línea de razonamientoy suponiendo que las 36 combinaciones pueden ocurrir con la misma posi-bilidad, descubrimos una distribución que relaciona cada resultado con unacierta posibilidad de ocurrencia mostrada abajo en la �gura 1.3; en primerlugar obtenida por Coordano en los 1550�s. Como podemos ver, el resultadomás probable de ocurrir es el número 7; no es casualidad que varios juegos deazar jugados con dos dados involucren el número 7. Pensamos la posibilidadde ocurrencia como probabilidades y el patrón general de tales probabilidadesasociadas con cada resultado como una distribución de probabilidad;, véaseel capítulo 3.

1o el 12 (no 11 como aparecen en el texto).

Page 22: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

22CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

Figura 1.3 Regularidad en el agregado.

resultados 2 3 4 5 6 7 8 9 10 11 12probabilidades 1

36236

336

436

536

636

536

436

336

236

136

Tabla 3. La suma de dos dados: una distribución de probabilidad.

La distribución de probabilidad en la tabla 1.3 representa un conceptoprobabilístico formulado por matemáticos para capturar la regularidad aleato-ria en la �gura 1.1. Una comparación directa entre las �guras 1.2 y 1.3 con-�rma la intuición de los soldados. Las frecuencias empíricas relativas en la�gura 1.2 están muy cerca de las probabilidades teóricas que se muestran en la�gura 1.3. Además, si tuviéramos que repetir el experimento 1000 veces, lasfrecuencias relativas habrían sido aún más cercanas a la probabilidad teórica;véase el capítulo 10. En este sentido, podemos pensar del histograma en la�gura 1.2 como una realización empírica de la distribución de probabilidaden la �gura 1.3 (véase el capítulo 5 para mayor discusión).Ejemplo En el caso del experimento de lanzar dos dados, los soldados

medievales lo utilizaron para apostar sobre si el resultado es un número par oimpar (los griegos introdujeron estos conceptos en torno al 300 aC). Es decir,el soldado A apostaría por el resultado A ={3,5,7,9,11} y el soldado B porel resultado B ={2,4,6,8,10,12}. A primera vista parece como si el soldado

Page 23: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.2. FENÓMENOS ESTOCÁSTICOS, UNA VISTA PRELIMINAR 23

B fuera un ganador de�nitivo porque hay más números pares que impares.Los soldados medievales, sin embargo, sabían por observación empírica queesto no era cierto! En efecto, si volvemos a la tabla 1.3 y evaluamos laprobabilidad de que el evento A ocurra, descubrimos que los soldados estabanen lo correcto: la probabilidad de ambos eventos es 1

2; la distribución de

probabilidad se da en la tabla 1.4.

Tabla 1.4 La suma de dos dados: impares y pares

resultados A = f3; 5; 7; 9; 11g B = f2; 4; 6; 8; 10; 12g

Probilidades 12

12

Concluimos esta subsección reiterando que el fenómeno estocástico delanzar dos dados dio origen a los datos observados que se muestras en la �gura1.1, los cuales muestran las tres diferentes formas de patrones de "regularidadaleatoria:

[1] Distribución (triangular), [2] Independencia y [3] Homogeneidad.

Para propósitos de referencia, es importante señalar que los anteriorespatrones perceptibles, constituyen casos particulares de patrones de regulari-dad aleatoria relacionados con tres diferentes amplias categorías de supuestosprobabilísticos que llamamosDistribución,Dependencia yHeterogenei-dad, respectivamente; véase el capítulo 5. Los conceptos que subyacen aestas categorías de supuestos probabilísticos se de�nen formalmente en loscapítulos 3-4.Una digresión - la paradoja del caballero de MereHistóricamente, la conexión entre una ley estable de frecuencias relativas

y las probabilidades se forjó en la mitad del siglo 17 en un intercambio decartas entre Pascal y Fermat. Con el �n de degustar esta formulación inicial,consideremos el siguiente ejemplo histórico.La paradoja del caballero de Mere se planteó en una carta de Pascal a

Fermat en Julio 29 de 1654 como uno de los problemas planteados a él por deMere (un noble francés y un jugador estudioso). De Mere observó la siguienteregularidad empírica:

Page 24: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

24CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

la probabilidad de obtener al menos un 6 en cuatro lanzamientos de undado es mayor a 1

2

pero la probabilidad de obtener un doble 6 en 24 lanzamientos con dosdados es inferior a 1

2.

De Mere estableció esta regularidad empírica y no tenía dudas sobre suvalidez debido a la enorme cantidad de veces que él repitio el juego. Él estabatan seguro de su validez empírica que fue tan lejos como para cuestionar laparte más fundamental de la matemática, la aritmética misma. Razonandopor analogía, de Mere argumentó que las dos probabilidades deberían seridénticas, porque un 6 en cuatro lanzamientos de un dado es lo mismo queun doble 6 en 24 lanzamientos de dos dados, ya que, de acuerdo con sumanera de pensar: 4 es a 6 como 24 es a 36.La distribución estadística en el cuadro 1.4 se puede utilizar para ex-

plicar la regularidad empírica observada por De Mere. Siendo un poco máscuidadoso que de Mere, se puede argumentar de la siguiente manera (lasmanipulaciones de las probabilidades no son importantes en esta etapa):Probabilidad de un doble seis = 1

36

Probabilidad de un doble seis en n lanzamientos =�136

�n,

Probabilidad de no doble seis en n lanzamientos =�3536

�nProbabilidad de al menos un doble seis en n lanzamienos = 1�

�3536

�n= p.

Para n = 24, p = 1��3536

�24= 0:4914039.

Es interesante observar que en el argumento anterior al pasar de la prob-abilidad de un doble seis en una prueba a la de n pruebas usamos el conceptode independencia que se de�ne más adelante.Usando una distribución estadística para el caso de un dado, cuya dis-

tribución de probabilidad se da en el cuadro 1.5, se puede argumentar poranalogía de la siguiente manera:

Tabla 1.5 Distribución de probabilidad de un dado

resultados 1 2 3 4 5 6probabilidades 1

616

16

16

16

16

Probabilidad de un seis = 16

Probabilidad de un seis en n lanzamientos =�16

�n,

Probabilidad de no seis en n lanzamientos =�56

�nProbabilidad de al menos un seis en n lanzamienos = 1�

�56

�n= q.

Page 25: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.2. FENÓMENOS ESTOCÁSTICOS, UNA VISTA PRELIMINAR 25

Para n = 4, q = 1��56

�4= 0:5177469.

Las dos probabilidades p = 0.4914039 y q = 0.5177469 con�rman la reg-ularidad empírica de Mere y no hay paradoja de ningún tipo! Esto muestraclaramente que las frecuencias empíricas de Mere fueron correctas, pero surazonamiento por analogía era defectuoso.Los patrones de regularidad aleatoria de imprevisibilidad, que relacionamos

con el concepto de probabilidad de [2] Independencia y el de uniformidadque relacionamos con [3]homogeneidad utilizando la �gura 1.1, son implícita-mente utilizados en el intercambio entre Pascal y Fermat. Es interesante no-tar que estos conceptos no se formalizaron explícitamente hasta bien entradoel siglo 20. Los supuestos probabilísticos de Independencia y Homogenei-dad (Distribución Idéntica) subyacen a la mayoría de las formas de análisisestadístico antes de 1920�s.En esta etapa es importante poner de relieve que la noción de probabil-

idad subyacente a la distribución de probabilidad en las tablas 1.3 a 1.5, esla de frecuencia relativa como la utilizada por De Mere para establecer suregularidad después de un gran número de ensayos. No hay nada controver-sial sobre esta noción de probabilidad y el uso de modelos estadísticos paradiscutir cuestiones relativas a los juegos de azar, donde el mecanismo de azares explícitamente una parte integral del fenómeno que está siendo modelado.No es, sin embargo, evidente que tal noción de probabilidad pueda ser uti-lizada en la modelación de los fenómenos observables en donde el mecanismode azar no es explícito.

Regularidad aleatoria en fenómenos económicos

En el caso del experimento de lanzar dos dados, el mecanismo aleatorio esexplícito y la mayoría de las personas estará dispuesta a aceptar sobre la feque si este experimento es efectuado, los patrones de regularidad aleatoria[1] - [3] señalados anteriormente, estarán presentes. La pregunta que surgenaturalmente es:¿Es esta regularidad aleatoria concebible en fenómenos estocásticos más

allá de los juegos de azar?En el caso de los fenómenos estocásticos, donde el mecanismo de azar no

es explícito, a menudo:(a) no se puede obtener una distribución de probabilidad a priori con un

argumento de simetría física como en el caso de dados o monedas, y

Page 26: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

26CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

Figura 1.4 Cambios en las tasas de cambio de los datos.

(b) no se puede pretender la presencia de algún mecanismo aleatorio ex-plícito que de lugar a las observaciones.Usando estas observaciones nuestra primera tarea es decidir si el fenómeno

subyacente puede ser útilmente visto como estocástico y nuestra segundatarea consiste en utilizar los patrones de regularidad aleatoria percibidos enestos datos con el �n de elegir un modelo estadístico adecuado. Por lo tanto,discerniento patrones de regularidad aleatoria a partir de las grá�cas de losdatos y relacionándolos con los conceptos correspondientes de la teoría de laprobabilidad será una parte esencial de la discusión que sigue.Un número de fenómenos observables en econometría pueden ser vistos

provechosamente como fenómenos estocásticos y por lo tanto susceptibles demodelización estadística. En un intento de dar algún soporte a esta proposi-ción, considerar la grá�ca de tiempo de X - cambios logarítmicos de la tasacambiaria del dólar Canadiense/EE.UU para el período 1973-1992 (obser-vaciones semanales) que se muestra en la �gura 1.4. Lo que es interesanteacerca de los datos es el hecho de que presentan una serie de patrones deregularidad aleatoria muy similares a los exhibidos por las observaciones delos dados en la �gura 1.1, pero algunos patrones adicionales también sonperceptibles. Los patrones de regularidad exhibida por los dos conjuntos deobservaciones son las siguientes:(a) la media aritmética en el ordenamiento (tiempo) parece ser constante,

Page 27: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.2. FENÓMENOS ESTOCÁSTICOS, UNA VISTA PRELIMINAR 27

(b) la banda de variación alrededor de la media parece ser relativamenteconstante.El patrón de regularidad en relación a una (posiblemente) estable ley de

frecuencias relativas exhibida por los datos de la tasa cambiaria, no sugierenuna ley estable triangular como en la �gura 1.2. En su lugar:

Figura 1.5 Histograma de las tasas de cambio.

(c) los datos en la �gura 1.4 presentan una cierta simetría en forma decampana (parece que hay tantos puntos por encima de la media como pordebajo, pero las frecuencias relativas se desvanecen cuando el valor de X sealeja del centro a las colas) . Esta regularidad se puede ver en la grá�ca delas frecuencias relativas dada en la �gura 1.5.Cómo las grá�cas en las �guras 1.4 y 1.5 se relacionan será discutido

ampliamente en el capítulo 5, junto con una descripción más detallada decómo se pueden reconocer los patrones (a) - (c) mencionados anteriormente.Además de los patrones de regularidad encontrados en la �gura 1.1, cabe

señalar que los datos en la �gura 1.4 muestran el patrón de regularidadaleatoria siguiente:(d) parece haber una sucesión de conglomerados de pequeños y grandes

cambios que se suceden unos a otros.En esta etapa es improbable que el lector esté convencido de que las carac-

terísticas señaladas anteriormente son fácilmente discernibles a partir de las

Page 28: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

28CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

grá�cas de tiempo. Sin embargo, un aspecto importante de la modelizaciónen este libro es sin duda cómo leer información sistemática en las grá�cas detiempo, lo cual se iniciará en el capítulo 5.En conclusión, el punto de vista adoptado en este libro es que los fenó-

menos estocásticos (aquellos exhibiendo regularidad aleatoria) son sus-ceptibles de modelización empírica, con independencia de si el mecanismoaleatorio incorporado es evidente o no. En efecto, una tarea importante parael modelador es identi�car los fenómenos observables que pueden ser prove-chosamente vistos como fenómenos estocásticos. La cuestión de si existe ono tal mecanismo es sólo de interés metafísico.En resumen, los fenómenos estocásticos (los que exhiben regularidad

aleatoria) se pueden modelar empíricamente sin importar si está explícitoo no un mecanismo aleatorio.

1.3 Regularidad aleatoria y modelos estadís-ticos

La discusión hasta el momento ha señalado la presencia de patrones de reg-ularidad aleatoria en fenómenos estocásticos. Motivada por el deseo de uti-lizar la información proporcionada por los patrones de regularidad de azar,la teoría de la probabilidad procedió a formalizarlos mediante el desarrollo(invención) de conceptos probabilísticos (matemáticos) relacionados; en lospróximos capítulos vamos a introducir una serie de conceptos de la teoríade la probabilidad. En particular, el patrón de regularidad ley estable defrecuencias relativas será formalmente relacionado con el concepto de dis-tribución de probabilidad; véanse las tablas 1.3 a 1.5. En el caso de los datosde la tasa de cambio la aparente ley estable de frecuencias relativas en la�gura 1.5 será relacionada con distribuciones tales como la Normal y la t deStudent, las cuales exhiben simetría en forma de campana (véase el capítulo5). El patrón de imprevisibilidad será formalmente relacionado con el con-cepto de la Independencia ([1]) y el patrón de uniformidad con el concepto deDistribución Idéntica ([2]). Los patrones de regularidad (a) - (b), exhibidospor los datos de la tasa de cambio, serán formalmente relacionados con el con-cepto de estacionariedad (véanse los capítulos 5 y 8) y (d) será relacionadocon la dependencia no lineal (véase el capítulo 6). Es importante destacarque los patrones de regularidad aleatoria, como los señalados anteriormente,

Page 29: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.3. REGULARIDAD ALEATORIA Y MODELOS ESTADÍSTICOS 29

constituyen el elemento vital de la modelización estadística debido a que suutilización apropiada constituye la esencia de la modelación empírica.El puente entre los patrones de regularidad aleatoria y los conceptos prob-

abilísticos, transforma el reconocimiento intuitivo del patrón cognitivo en in-formación estadística (sistemática). En un intento por hacer más fácilla utilización de la información estadística sistemática para los propósitos demodelización, los conceptos probabilísticos que tienen por objeto formalizarlos patrones de regularidad aleatoria se colocan en tres amplias categorías:

(D) Distribución, (M) Dependencia y (H) Heterogeneidad

Esta taxonomía básica está diseñada para proporcionar una forma lógi-camente coherente de ver y utilizar información estadística para �nes demodelización. Estas amplias categorías puede verse como la de�nición delos componentes básicos de un modelo estadístico en el sentido de que todomodelo estadístico puede ser visto como una suave mezcla de ingredientes delas tres categorías. La suavidad de la mezcla en este contexto se re�ere a laconsistencia interna de los supuestos que constituyen un modelo estadístico.La primera recomendación a tener en cuenta en la modelación empírica es:1 Un modelo estadístico es sólo un conjunto de supuestos probabilísticos

compatibles (internamente) de las tres grandes categorías: (D), (M) y (H).NOTA: a aquellos lectores bien informados que no están convencidos de

que este es ciertamente el caso, mencionamos de paso que los supuestos dedistribución son a veces indirectos, en forma de suavidad y existencia demomentos condicionales; ver el capítulo 10.El modelo estadístico elegido representa una descripción de un mecanismo

aleatorio tentativo con el cual el modelador intenta capturar la informaciónsistemática en los datos (los patrones de regularidad aleatoria). Un modeloestadístico di�ere de otros tipos de modelos en la medida en que especi�ca unasituación, un mecanismo o un proceso en términos de una cierta estructuraprobabilística, que será formalmente de�nida en los capítulos 2-4.Conceptos matemáticos tales como distribución de probabilidad, indepen-

dencia y distribución idéntica constituyen formas de estructura probabilís-tica. De hecho, el objetivo principal de la primera parte del libro es introducirmuchos conceptos adicionales que permiten al modelador especi�car una var-iedad de formas de estructura probabilística, su�cientemente rica como paracapturar, esperemos que todo, patrón de regularidad aleatoria. El mod-elo estadístico se especi�ca exclusivamente en términos de tales supuestos

Page 30: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

30CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

probabilísticos diseñados para capturar la información sistemática en datosobservados.Los ejemplos de lanzamiento de dados, discutidos anteriormente, son

importantes no por su interés intrínseco en la modelización empírica, sinoporque ellos representan ejemplos de un fenómeno estocástico simple que ju-gará un papel importante en los próximos capítulos. El fenómeno estocásticorepresentado por los ejemplos anteriores se denomina genéricamente como unexperimento aleatorio y se utilizará en los próximos tres capítulos (2-4) paramotivar la estructura básica de la teoría de probabilidad. El fenómeno ob-servable subyacente en los datos de la tasa de cambio gra�cados en la �gura1.4 no se puede considerar como un experimento aleatorio y por lo tantotenemos que ampliar el marco de referencia probabilístico con el �n de sercapaces de modelar tales fenómenos también; este es el tema de los capítulos6-8.En vista de la discusión anterior, la modelización empírica exitosa tiene

dos importantes dimensiones:(a) reconocer los patrones de regularidad aleatoria exhibidos por los datos

observados y(b) capturar estos patrones postulando modelos estadísticos apropiados.La primera requiere de una habilidad por cuenta del modelador para

detectar estos patrones utilizando una variedad de técnicas grá�cas. Dehecho, es imposible sobreestimar la importancia de las técnicas grá�cas enla modelización empírica. Esto nos lleva convenientemente a la segundarecomendación en la modelización empírica:2. Las técnicas grá�cas constituyen una herramienta indispensable en la

modelización empírica!Si regresamos momentaneamente a los datos en la tabla 1.2, no hay duda

de que el lector tendrá di�cultades para reconocer los patrones de regularidadaleatoria en el conjunto de datos. Un vistazo a las grá�cas de los datos en las�guras 1.1 y 1.4 proporcionan una visión global de la estructura de ambosconjuntos de datos que requieren más de mil palabras para describirlos. Estono hace sino con�rmar las capacidades naturales perceptivas y cognitivas delcerebro humano; los seres humanos son capaces de reconocer, clasi�car yrecordar patrones visuales mucho más e�cientemente que los números o laspalabras. Capítulo 5 pone de mani�esto la interacción entre los patrones deregularidad aleatoria y los conceptos probabilísticos utilizando una variedadde representaciones grá�cas.La captura de la información estadística sistemática en los datos pre-

Page 31: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.3. REGULARIDAD ALEATORIA Y MODELOS ESTADÍSTICOS 31

supone un marco de referencia matemático lo su�cientemente rico como paramodelar cualquier patrón que se detecte. Es mediante la teoría de la prob-abilidad que la regularidad aleatoria ha atraído la atención en conformidad.En este sentido, la interacción entre la modelación y la teoría de la proba-bilidad no es una calle de un sólo sentido. Por ejemplo, en fecha tan tardíacomo el siglo 20 el patrón de dependencia era bastante nebuloso y como con-secuencia, el concepto matemático correspondiente aún no era formalizado.En vista de esto, hay buenas razones para creer que existen patrones de reg-ularidad aleatoria que no podemos reconocer en la actualidad, pero que sereconocerán en el futuro. A medida que más patrones son detectados, otrossupuestos probabilísticos serán concebidos con el �n de formalizarlos y asíenriquecer la teoría de la probabilidad como un marco de referencia para lamodelación. Debido a la importancia de la interacción entre patrones ob-servables y conceptos probabilísticos formales, en la �gura 1.6 presentamosesta relación de manera esquemática: los patrones de regularidad aleatoriase formalizan bajo la forma de conceptos probabilisticos, estos, a su vez, seclasi�can en la taxonomía básica y entonces se utilizan para postular modelosestadísticos que (esperemos) capturen la información estadística sistemática;no se escatimarán esfuerzos en relacionar los patrones de regularidad aleatoriacon los correspondientes conceptos probabilísticos a lo largo de este libro.

Page 32: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

32CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

Figura 1.6 Patrones de regularidad aleatoria, supuestos probabilísticos ymodelo estadístico.

La variedad y alcance previsto de los modelos estadísticos es limitadosolamente por el alcance de la teoría de la probabilidad (como un marcode referencia para la modelación) y la formación e imaginación del mode-lador. No hay tal cosa como una lista completa de modelos estadísticos queel modelador pone a prueba en alguna sucesión y elige el que parece el menosobjetable. Además, la modelación empírica no trata sobre la elección de es-timadores óptimos (de algún menú preespeci�cado), es sobre la elección demodelos estadísticos adecuados; modelos que son ideados por el modeladoren un intento por capturar la información sistemática en los datos. En la dis-cusión de modelos estadísticos en los capítulos 2-8 se presta especial atencióna la relación entre los datos observados y la elección de modelos estadísticos.Algunos de los temas abordados en los próximos capítulos son:(a) ¿Qué entendemos por un modelo estadístico?(b) ¿Por qué debería la información estadística ser codi�cada en un lenguaje

neutral de teoría?

Page 33: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.3. REGULARIDAD ALEATORIA Y MODELOS ESTADÍSTICOS 33

(c) ¿Qué información utilizamos cuando elegimos un modelo estadístico?(d) ¿Cuál es la relación entre el modelo estadístico y las características

de los datos?(e) ¿Cómo reconocemos la información estadística sistemática en los datos

observados?Concluimos esta sección haciendo hincapié en el hecho de que la informa-

ción estadística sistemática en los datos observados tiene que ser codi�cadaen un lenguaje que esté libre de conceptos de la teoría económica. La teoríade la probabilidad ofrece dicho lenguaje neutral de teoría que se utilizaráexclusivamente en la especi�cación de modelos estadísticos. Como se mues-tra en los capítulos 6-7, los modelos estadísticos como se especi�can en estelibro, no se basan en una teoría basada en formas funcionales entre las vari-ables de interés; en lugar de ello se especi�can exclusivamente en términosde relaciones estadísticas basadas en información puramente estadística. Lacodi�cación de los modelos estadísticos exclusivamente en términos de infor-mación estadística es de vital importancia debido a que uno de los principalesobjetivos de la modelación empírica es la evaluación de la validez empírica delas teorías económicas. Esta evaluación se puede considerar como una pruebapara la teoría bajo evaluación, con el modelo teórico como el principal testigode la defensa y los datos observados como el principal testigo del enjuiciador.Para que los datos sean un testigo imparcial, ningún juez (modelador) debepermitir preparar al principal testigo de cargo de la defensa antes del juicio!La información estadística debe ser de�nida exclusivamente en términos deconceptos que estén libres de cualquier connotación teórica-económica; sóloentonces los datos observados pueden ser vistos como un testigo independi-ente (y justo) de la acusación. La tercera recomendación en la modelaciónempírica es:

3 No permita que los datos observados sean preparados a priori por lateoría a ser evaluada.

El modelo estadístico es considerado inicialmente como un resumen con-veniente de la información sistemática en los datos que existe independi-entemente de cualquier teoría. La cuarta recomendación en la modelaciónempírica es:4 La especi�cación del modelo estadístico se rige principalmente por la

naturaleza y estructura de los datos observados.

Page 34: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

34CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

1.3.1 Su�ciencia estadística

Como se ha dicho anteriormente, el éxito de la modelación empírica se juzgapor qué tan adecuadamente el modelo estadístico postulado captura la in-formación estadística sistemática contenida en los datos. Un tema centralde este libro es el de la su�ciencia estadística y cómo se puede lograr enla práctica, mediante la utilización de varios métodos incluyendo representa-ciones grá�cas (véanse los capítulos 5-6) y pruebas de errores de especi�-cación (ver capítulo 15). Sin un modelo estadístico adecuado, que capture lainformación sistemática en los datos, ninguna inferencia estadística válida esposible, independientemente de la so�sticación y / o la validez potencial dela teoría!La inferencia estadística es a menudo vista como el procedimiento in-

ductivo por excelencia: utilizando un conjunto de datos (especí�co) deducirconclusiones sobre el fenómeno estocástico (general) que dio origen a losdatos (véase la grá�ca 1.7). Sin embargo, es a menudo insu�cientementereconocido que este procedimiento inductivo se incrusta en una premisa fun-damentalmente deductiva. El procedimiento desde el modelo postulado (lapremisa) a los resultados de inferencia (estimación, pruebas de predicción,simulación) es deductivo; no se utilizan datos para obtener resultados acercade la optimalidad de los estimadores, pruebas, etc; estimadores y pruebas sondeclarados óptimos con base en un razonamiento puramente deductivo. Elcomponente deductivo del razonamiento de inferencia estadística signi�ca:

si se asumen ciertas premisas, ciertas conclusiones necesariamentese siguen.

Más formalmente, si denotamos las premisas por p y las conclusiones porq, entonces la forma anterior de razonamiento deductivo toma la forma demodus ponens (a�rmando el antecedente):

si p entonces q.

Page 35: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.3. REGULARIDAD ALEATORIA Y MODELOS ESTADÍSTICOS 35

Figura 1.7 Inferencia estadística.

En este sentido, la inferencia estadística depende fundamentalmente dela validez de las premisas: la postulación de un modelo estadístico en el con-texto del cual los datos observados se interpretan como una realización delmecanismo estocástico postulado. Con base de esta premisa se procede aobtener resultados estadísticos de inferencia usando deducción matemática.Argumentos deductivos correctos muestran que si sus premisas son válidas,sus conclusiones son válidas. Usando los datos observados en cuestión, elmodelador se basa en la validez de este argumento deductivo con el �n deextraer conclusiones generales de inferencia a partir de datos especí�cos. Sinembargo, si las premisas no son válidas las conclusiones son generalmenteinjusti�cadas. En vista de esto, consideramos de suma importancia el prob-lema de evaluar la validez del modelo estadístico postulado (probando erroresde especi�cación), especialmente en el caso de datos observados. La quintarecomendación en la modelación empírica es:

5 Ningún resultado de inferencia estadística se debe utilizar para llegar aconclusiones a menos que la su�ciencia estadística del modelo postulado se

haya establecido primero.

El primer paso y más crucial para garantizar la su�ciencia estadísticaes que el modelador especi�que explícitamente los supuestos probabilísticos

Page 36: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

36CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

que conforman el modelo postulado; sin un conjunto completo de supuestosprobabilísticos la noción de su�ciencia estadística no tiene ningún sentidooperativo. Por esta razón, los siguientes capítulos prestan especial atención alproblema de la especi�cación del modelo estadístico (modelos de probabilidady muestrales) en una extensión que puede parecer innecesaria en los librosde texto de los econometristas tradicionales. Se destaca en esta etapa quela notación, la terminología y las taxonomías diferentes introducidas en lospróximos cuatro capítulos desempeñan un papel importante para garantizarque la naturaleza y estructura de los supuestos probabilísticos subyacentesal modelo postulado se hagan explícitos y transparentes para el modelador.

Figura 1.8 Inferencia estadística con su�ciencia estadística.

En el contexto de la aproximación de reducción probabilística, las desvia-ciones del modelo estadístico postulado son vistas como información sis-temática en los datos que el modelo postulado no tiene en cuenta. El modeloestadístico debe ser reespeci�cado con el �n de dar cuenta de la informaciónsistemática pasada por alto por el modelo postulado inicialmente. Por lotanto, el procedimiento en la �gura 1.7 se complementa con las etapas adi-cionales de pruebas de errores de especi�cación y reespeci�cation. La �gura1.8 muestra el procedimiento modi�cado con la idea de un modelo estadísticoadecuado que está entre el modelo estimado y la inferencia estadística. Comose muestra en la �gura 1.8, llegar a un modelo estadístico adecuado implicapruebas de errores de especi�cación y reespeci�cation.

Page 37: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.4. ESTADÍSTICA FRENTE A TEORÍA DE LA INFORMACIÓN * 37

El concepto de su�ciencia estadística es particularmente importante parala modelación empírica, ya que puede proporcionar la base para establecerlos hechos estilizados que la teoría económica requiere explicar. Una miradasuper�cial a los modelos econométricos empíricos de los últimos 50 años con-vencerá, incluso al más ávido partidario del enfoque econométrico tradicional,que no constituyen un programa de investigación progresiva, ya que no handado lugar a ninguna acumulation real de evidencia empírica. La separaciónde los modelos estadísticos y teóricos y asegurando la su�ciencia estadísticadel primero, ofrecerá una buen punto de partida para una estrategia de in-vestigación progresiva donde regularidades empíricas sean establecidas pormodelos estadísticamente adecuados (hechos estilizados propiamente dichos)y las teorías sean necesarias para explicarlos. Vale la pena reiterar que eneste libro la información estadística y la teórica se distinguen claramente conel �n de evitar cualquier acusación de circularidad en la aplicación de estaestrategia de investigación.

1.4 Estadística frente a teoría de la informa-ción *

En un intento de proporcionar una visión más equilibrada de la modelaciónempírica y evitar acusaciones precipitadas en nombre de los econometris-tas tradicionales de que "el enfoque adoptado en este libro ignora la teoríaeconómica", en esta sección discutimos brevemente el papel de la teoríaeconómica en la modelación empírica (véase También Spanos (1986,1995 b)).Los datos económicos están creciendo a un ritmo exponencial, pero al

mismo tiempo, cuando un modelador intenta dar respuestas a las preguntasespecí�cas él / ella a menudo encuentran que los datos particulares necesariospara el análisis no existen en la forma requerida. Esto es sintomático de lafalta de una metodología econométrica adecuada que desempeñara un papelde coordinación entre la teoría económica y los datos observados apropiados.A menudo, existe una enorme brecha entre la teoría de los conceptos y la se-rie de datos que suelen estar disponibles; los datos disponibles con frecuenciasuelen medir algo muy diferente. Como se ha dicho anteriormente, esta difer-encia surge principalmente debido a las diferencias entre las circunstancias dediseño experimental asumidas por la teoría económica, a través de la cláusulaceteris paribus y la naturaleza observacional de los datos disponibles; el resul-

Page 38: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

38CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

tado de un proceso continuo con numerosos factores que in�uyen más allá delpotencial control del modelador. La sexta recomendación en la modelaciónempírica de que hay que tener en cuenta es:6 Nunca suponga que los datos disponibles miden el concepto de la teoría

que el modelador tiene en mente sólo porque los nombres son muy similares(o incluso coinciden)!Un ejemplo notable es el concepto teórico de demanda contra los datos que

con frecuencia suelen estar disponibles en forma de cantidades de transacción;ver Spanos (1995b). Como resultado de esta brecha, la modelación empíricaa menudo trata de responder a cuestiones teóricas de interés mediante lautilización de datos que no contienen esa información.Como argumentamos en las tres secciones anteriores, la información es-

tadística sistemática está:(a) relacionada con los patrones de regularidad aleatoria exhibidos por

los datos observados,(b) de�nida exclusivamente en términos de conceptos probabilísticos y(c) carece (inicialmente) de cualesquiera connotación de teoría económica.La clara distinción entre la información estadística sistemática y teórica,

constituye uno de los pilares básicos de la metodología de modelación em-pírica expuesta en este libro; véase también Spanos (1986, 1995b, en preparación).Teoría y modelos estadísticos constituyen entidades distintas construidas so-bre información distinta, el comportamiento de los agentes económicos y lainformación estadística sistemática, respectivamente. Esto constituye unacondición necesaria para el modelo estadístico que se utiliza como un testigoimparcial sobre la base de cuyo testimonio la su�ciencia empírica del modeloteórico se puede evaluar.La teoría in�uye en la elección de un modelo estadístico apropiado de

dos maneras. En primer lugar, la teoría determina la elección de los datosobservados de interés. Si bien la elección de los datos observados es cargadade teoría, una vez elegidos, los datos adquieren una existencia objetiva queestá libre de teoría. La única in�uencia adicional que la teoría tiene en laespeci�cación del modelo estadístico es que este último debe ser lo su�ciente-mente general para permitir que el modelador plantee cuestiones teóricas deinterés en su contexto. Por lo tanto, las pruebas de errores de especi�cacióny reespeci�cation, facetas de la modelación empírica, no tienen nada que vercon el modelo teórico; ellas son puramente procedimientos estadísticos deter-minados por la noción de información estadística. La séptima recomendaciónen la modelación empírica es:

Page 39: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.5. DATOS OBSERVADOS 39

7. Ninguna teoría, por muy so�sticada, puede rescatar un modeloestadístico mal especi�cado

Como se ha dicho en el capítulo 7, el punto de vista estadístico y teóricoproporcionan ángulos de visión muy diferente para los propósitos de la mod-elación. Estos ángulos de visión son complementarios, pero a menudo seutilizan como sustitutos con graves consecuencias; véase Spanos (1997a).Un modelo estadísticamente adecuado proporciona un buen resumen (de-

scripción) de información estadística sistemática en los datos, pero no con-stituye el último objetivo de la modelación empírica. En última instancia,el modelador quiere evaluar la teoría en términos de un modelo estadística-mente adecuado, así como sintetizar los modelos estadísticos y teórico en unintento de dar signi�cado económico a la teoría y capacidad explicativa almodelo estadístico. Por lo tanto, la octava recomendación a tener en cuentaen el modelación empírica es:

8. El éxito de la modelación empírica se evalúa por la habilidad con la queel modelador puede sintetizar los modelos estadísticos y la teóricos, sin

cambios ya sea en la información teórica o estadística!

Con el �n de distinguir entre un modelo estadístico, construido exclu-sivamente en términos de información estadística sistemática, y la síntesisde la teoría y los modelos estadísticos llamamos al segundo un modeloeconométrico (véase Spanos (1986))

1.5 Datos observados

En esta sección vamos a intentar un análisis preliminar del elementos consti-tutivo de la modelación empírica, los datos observados. Algunos aspectos delos datos observados desempeñar un papel importante en la elección de losmodelos estadísticos.

1.5.1 Los primeros datos

Los datos numéricos han sido coleccionados por una razón u otra desde los al-bores de la historia. Las primeras colecciones de datos, sin embargo, no eransistemáticas y la información recogida no estaba generalmente disponible.La recopilación sistemática de datos económicos se pueden fechar en el siglo

Page 40: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

40CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

17 como un subproducto de las actividades gubernamentales tales como im-puestos, la recaudación de aduanas el gasto y la regulación, así como el deseode cuanti�car ciertos aspectos de la actividad gubernamental (véase Porter(1995)). Por ejemplo, los primeros datos sobre la distribución del ingreso eransimplemente un producto secundario de los datos �scales. Hacia el �nal delsiglo 19 censos especiales se llevaron a cabo por (en particular los EE.UU.)gobiernos en los sectores agrícola y manufacturero con el �n de examinar lascuestiones especí�cas de interés (ver Crist (1985)) Por lo tanto, no deberíaser una sorpresa encontrar que los datos utilizados en los primeros traba-jos empíricos en la economía (a principios de siglo 20) eran en su mayoríadatos sobre las exportaciones, las importaciones, la producción y precio (verStigler (1954, 1962)). Poco a poco, sin embargo, los gobiernos comenzaron aapreciar el uso de estos datos en la evaluación de los resultados económicos,así como proporcionar guías para la política económica, una realización quellevó a la creación de agencias de recolección de datos tales como el Depar-tamento de Estadística de la Junta de Comercio de Inglaterra. Además, laformación de varias sociedades estadísticas en Europa a mediados del siglo19, tales como las Sociedades de Estadística de Londres y Manchester y elCongreso Internacional de Estadística, dio un nuevo impulso a esfuerzos mássistemáticos para reunir y publicar datos que también fueron comparablesentre los países.

1.5.2 Datos económicos

En relación a los datos económicos, cabe destacar el papel crucial que desem-peñan tres pioneros dando un impulso adicional para más y mejores datoseconómicos en el siglo 20,Mitchell en la medición de los ciclos económicos,Kuznets en la creación de cuentas nacionales y Leontief en la aplicaciónpráctica de las tablas de insumo-producto. Estos primeros esfuerzos handado lugar a miles de millones de series de datos económicos en la segundamitad del siglo 20, que están actualmente recogidos a diario por los gob-iernos y otros organismos, en todo el mundo. Solo la Unión Europea estáproduciendo montañas de volúmenes que contienen datos económicos que alparecer (sobre la base de testimonios de oídas) nadie tiene el tiempo parautilizarlos, por el momento!En la mayoría de las ciencias, tales como la física, la química, la geología

y la biología, los datos observados suelen ser generados por los propios mod-eladoras en experimentos bien diseñados. En econometría el modelador es a

Page 41: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.5. DATOS OBSERVADOS 41

menudo enfrentado a datos observacionales en comparación con los datos ex-perimentales. Esto tiene dos implicaciones importantes para la modelaciónempírica en la econometría. En primer lugar, el modelador debe dominarhabilidades muy diferentes a las necesarias para analizar datos experimen-tales; el tema importante de este libro. En segundo lugar, la separación delos colectores de datos y el analista de datos requiere que el modelador sefamiliarice en sí mismo a fondo con la naturaleza y la estructura de los datosen cuestión.Junto con la explosión antes mencionada de la colección de datos obser-

vacionales creció la demanda para analizar estas series de datos con miras auna mejor comprensión de los fenómenos económicos como la in�ación, el de-sempleo, las �uctuaciones del tipo de cambio y el ciclo económico, así comola mejora de nuestra capacidad para pronosticar la actividad económica .Un primer paso hacia la consecución de estos objetivos es conocer los datosdisponibles, asegurando que el modelador está bien versado en las respuestasa preguntas tales como:(i) ¿Cómo se recopilaron los datos?(ii) ¿Cuál es el sujeto de la medición?(iii) ¿Cuáles son las unidades de medida y la escala?(iv) ¿Cuál es el período de medición?(v) ¿Qué es exactamente lo que miden los números?(vi) ¿Cuál es la conexión entre los datos y los conceptos teóricos corre-

spondientes?Por lo tanto, la novena recomendación a tener en cuenta en la modelación

empírica es:

9 Conocer las dimensiones importantes de sus datos a fondo!

1.5.3 Datos observados y naturaleza de un modelo es-tadístico

Un conjunto de datos que comprende n observaciones se denota por {x1; x2; :::; xn}o más compactamente:

fxk; k = 1; 2; 3; :::; ng

NOTA: es fundamental enfatizar el valor del simbolismo matemático enlo que sigue. Es imposible exagerar el poder y la importancia de los sím-bolos matemáticos cuando se está discutiendo la teoría de probabilidad. La

Page 42: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

42CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

claridad y la concisión que este simbolismo introduce a la discusión es indis-pensable.Se acostumbra clasi�car los datos económicos de acuerdo a la dimensión

(índice) de la observación en dos categorías principales:(i) Sección transversal: fxk; k = 1; 2; 3; :::; ng, k indica individuos (em-

presas, estados, etc),(iii) series de tiempo: fxt; t = 1; 2; 3; :::; Tg, t indica tiempo (semanas,

meses, años, etc.)Por ejemplo, los datos observados del consumo podrían hacer referencia al

consumo de los distintos hogares en el mismo punto en el tiempo o al consumoagregado (gastos de los consumidores) a través del tiempo. Los primerosconstituyen datos de sección transversal, los segundos datos de series detiempo. Mediante la combinación de estos dos, por ejemplo, observando elconsumo de los mismos hogares a través del tiempo, podemos de�nir unatercera categoría:(iii) Panel (longitudinal): fxk; k := (k; t) , k = 1; 2; 3; :::; n, t = 1; 2; :::; Tg,

donde k y t representan individuos y tiempo, respectivamente.Note que en esta categoría el índice k es de dos dimensiones, pero xk es

unidimensional.A primera vista, las dos categorías principales no parecen diferir sustan-

cialmente debido a que los conjuntos índice parecen idénticos; los conjuntosíndice son subconjuntos del conjunto de los números naturales. Una re�exiónmomentánea, sin embargo, revela que hay más de un conjunto índice de loque parece. En el caso de que el conjunto índice Z := f1; 2; :::; ng se re�eraa los hogares particulares, el índice respresenta los nombres de los hogares,por ejemplo:

{Jones, Brown, Smith, Richard, . . . }. (1:1)

En el caso de series de tiempo el índice T := f1; 2; :::; Tg se re�ere a fechasparticulares, por ejemplo:

f1952; 1953; :::; 1997g (1:2)

Al comparar los dos conjuntos índice observamos de inmediato que tienenuna estructura matemática muy diferente. La diferencia más evidente es queel conjunto (1; 1) no tiene un ordenamiento natural, si ponemos Brown antesque Smith no tiene importancia, pero en el caso del conjunto índice (1; 2) elorden es una propiedad fundamental del conjunto.

Page 43: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.5. DATOS OBSERVADOS 43

En el ejemplo anterior, los dos conjuntos índice parecen idénticos, peroresultan ser muy diferentes. Esta diferencia hace que los dos conjuntos dedatos sean cualitativamente diferentes en la medida en que el análisis estadís-tico de un conjunto de datos será claramente diferente de la de los otros. Larazón de esto se pondrán de mani�esto en capítulos posteriores. En estaetapa, basta con señalar que una serie de conceptos tales como dependenciay heterogeneidad (mencionados anteriormente) están íntimamente ligados ala ordenación del conjunto índice.La estructura matemática del conjunto índice (por ejemplo, la presencia

o ausencia de un ordenamiento) no es el único criterio para la clasi�caciónde conjuntos de datos diferentes. La estructura matemática del rango devalores de las observaciones constituye otro de los criterios más importantes.Por ejemplo la serie de datos sobre el "número de niños" en las diferentesfamilias puede tomar valores en un conjunto de la forma: f0; 1; 2; :::; 100gSuponemos que hay un límite superior que elegimos sea 100. Se trata deun conjunto de valores discretos que tiene una estructura matemática muydiferente del conjunto de los valores de la variable consumo que toma valoressobre la recta real positiva:

R+ = (0;1)

Otra variable que es diferente de estas dos consumo y número de niños entérminos de su rango de valores es la religión (cristiana, musulmana, budista)que no puede ser tratada de la misma manera que los datos sobre el consumoo el número de niños porque no hay manera natural para medir la religión entérminos numéricos. Incluso si estamos de acuerdo en una escala de mediciónde la religión, por ejemplo f�1; 0; 1g, el orden es irrelevante y la diferenciaentre estas cifras no tiene sentido. Por el contrario, estas dos dimensionesson signi�cativas en el caso de los datos de consumo y el número de niños.La discusión anterior plantea cuestiones importantes en relación con la

medición de los datos observados. La primera es si los valores numéricosse pueden considerar como valores de un cierto intervalo de la recta real,por ejemplo [0; 1] o que representan un conjunto de valores discretos, porejemplo f0; 1; 2; 3; 4; 5; 6; 7; 8; 9g. La segunda es si estos valores tienen unorden natural o no.Reuniendo estos comentarios podemos ver que la taxonomía que clasi�ca

los datos en sección transversal y series de tiempo es insu�ciente porque hayalgunas clasi�caciones más que no se tienen en cuenta. Estas clasi�caciones

Page 44: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

44CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

son importantes desde el punto de vista de la modelación porque hacen unadiferencia en la medida en que las técnicas estadísticas aplicables se re�ere.En su formulación abstracta un conjunto de datos toma la forma:

fxk; k 2 N; xk 2 Rxg

donde N es el conjunto índice y Rx representa el rango de valores de x: NOTE que ambos conjuntos N y Rx son subconjuntos de la recta real,denotadoapor R:= (�1;1). Dependiendo de la estructura matemática deestos dos conjuntos diferentes clasi�caciones surgen. De hecho, la estructuramatemática de los conjuntos N y Rx juega un papel muy importante en laelección del modelo estadístico (véanse las secciones 3-5).En cuanto al rango de valores de los datos, Rx puede ser un subconjunto

discreto de R, tal como Rx = f0; 1; 2; :::g o un subconjunto continuo de Rtal como Rx:= [0;1). En los casos en que la variable X se puede pensarcomo tomando sólo un número numerable de valores, R es considerado comodiscreto, en otro caso la variable X se considera continua. En econometría,variables como el consumo, la inversión, el ahorro y la in�ación se consid-eran continuas, pero las variables como el número de hijos, estado civil y unaserie de variables de elección, son vistas como discretas. La misma clasi�-cación discreta-continua también se puede aplicar al conjunto índice N lo queconduce a una cuarta forma de clasi�cación de las variables y los datos cor-respondientes. Como se muestra en los capítulos 3-4, la naturaleza de ambosconjuntos, N (el índice de conjunto) y Rx (el rango de valores de los valoresnuméricos de los datos) desempeña un papel importante en la determinaciónde la forma y estructura del modelo estadístico postulado para describir elfenómeno observable de interés.

1.5.4 Escalas de medición

Una dimensión muy importante de los datos observados es la escala demedición de las series de datos individuales. En esta subsección discuti-mos esta importante dimensión y planteamos algunas de las cuestiones rela-cionadas con la modelación de datos medidos a diferentes escalas.El número de clasi�caciones introducido anteriormente aumenta consid-

erablemente al darse cuenta que la dicotomía discreto-continuo se puedeclasi�car más de acuerdo con la escala de medición otorgada al conjuntoen cuestión. Las escalas de medición se clasi�can tradicionalmente en cuatrograndes categorías.

Page 45: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.5. DATOS OBSERVADOS 45

Escala de razón. Variables en esta categoría disfrutan de la más ricaestructura matemática en su rango de valores, donde, para cualesquiera dosvalores a lo largo de la escala, por ejemplo x1 y x2:(a) la relación (x1=x2) es una cantidad signi�cativa (existe un origen nat-

ural para el sistema de medida),(b) la distancia (x2 � x1) es una cantidad signi�cativa, y(c) existe un ordenamiento natural (ascendente o descendente) de los

valores a lo largo dela escala; las comparaciones: x2 ? x1 tienen sentido.Variables económicas como consumo e in�ación pertenecen a esta cate-

goría. Para cualesquiera dos valores, x1 y x2 de una variables en esta categoríaes importante hacer la pregunta:¿cuántas veces x1 es mayor que x2?Escala de intervalo Una variable se dice que es una variable de intervalo

si su sistema de medición es dado por (b)-(c), pero no por (a), por ejemplo,la temperatura, la presión arterial sistólica. Para cualquiera dos valores x1 yx2 de una variable en esta categoría tiene sentido la pregunta:¿Qué tanto x1 y x2 son diferentes?EjemploEl conjunto índice (1:2) se mide en esta escala porque la distancia (1970�

1965) es una magnitud signi�cativa, pero la razón�19751960

�no lo es.

Escala ordinal. Una variable pertenece a esta categoría si es dadasólo con (c), por ejemplo, cali�cación (excelente, muy bueno, bueno, noaprobado), nivel de ingresos (alto, medio, bajo). Para tales variables el or-denamiento existe, pero la distancia entre categorías no es signi�cativamentecuanti�cable. Para cualesquiera dos valores x1 y x2 de una variable en estacategoría tiene sentido la pregunta:¿x1 es mayor o menor que x2?Escala nominal. Una variables se dice que es nominal si su sistema de

medición no ha sido bendecido con ninguna de las anteriores. Estas vari-ables representan categorías que no tienen ni siquiera un orden natural, porejemplo, estado civil (casado, soltero, divorciado, separado), género (mas-culino, femenino, otro), situación laboral (empleados, desempledos, orto).Debido a la naturaleza de tales variables el modelador debe tener cuidado enla atribución de valores numéricos para evitar inferencias equivocadas. Paracualesquiera de los dos valores x1 y x2 de una variable en esta categoría laúnica cuestión que tiene sentido preguntar es:

Page 46: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

46CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

¿Es x1 diferente de x2?Las anteriores escalas de medición han sido considerados en una jerarquía

descendente de la más alta (razón, la más rica en estructura matemática) ala más baja (nominal). Es importante señalar que los conceptos y métodosestadísticos diseñados para una categoría de variables no se aplican necesari-amente a las variables de otras categorías (véase el capítulo 6). Por ejemplo,la media, la varianza y covarianza (los componentes básicos del análisis deregresión) no tienen sentido en el caso de variables ordinales y nominales, lamediana tiene sentido en el caso de las variables ordinales, pero no en el casode las nominales. En este último caso la única medida de la localización quetiene un signi�cado es la moda. La única regla general para los métodos deanálisis de diferentes variables con escalas de medición, que se puede a�rmaren este momento es que un método apropiado para una escala de medida de-terminada en la jerarquía es también apropiado para escalas más altas, perono para las más bajas. Hay varios libros que discuten los métodos de análisisde los llamados datos categóricos: datos medidos en la escala nominal uordinal (ver Bishop, Fienberg y Holland (1975), Agresti (1990), entre otrascosas).TERMINOLOGÍA. Es importante señalar que en la literatura estadística

hay una confusión generalizada entre las escalas de medición y tres clasi�ca-ciones diferentes: variables discretas / continuas, cualitativas / cuantitativasy no categóricas - categóricas. Las variables discretas se pueden medir en lascuatro escalas y las variables continuas en ocasiones pueden ser agrupadas enun pequeño número de categorías. Las variables categóricas son las únicasvariables que pueden medirse ya sea en la escala ordinal o en la nominal perola categoría de variables cualitativas confusa. En algunos libros las variablescualitativas son sólo las que se miden en la escala nominal, pero en otrostambién se incluyen las variables ordinales.Escalas de medición y conjunto índice. Los ejemplos de escalas de

medición utilizados en la discusión anterior se re�eren exclusivamente al con-junto Rx: el rango de valores de una variable X. Sin embargo, la discusióntambién es relevante para el conjunto índice N. En el caso de la variableconsumo de los hogares discutida anteriormente, el conjunto índice (1:1) semide en una escala nominal. Por otra parte, en el caso de los gastos de losconsumidores el conjunto índice (1:2) se mide en la escala de intervalo. Estose debe a que la dimensión temporal no tiene un origen natural (cero es porconvención) y en el análisis estadístico el conjunto índice (1:2) a menudo sesustituye por un conjunto de la forma T := f1; 2; :::; Tg. Tomemos nota de

Page 47: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.5. DATOS OBSERVADOS 47

que la categorización serie de tiempo / sección transversal, se basa exclu-sivamente en la escala de medición del conjunto índice. El conjunto índicede series de tiempo es de escala de intervalo y el de sección transversal deescala nominal. También hay casos en los que el conjunto índice pueden seruna razón o una escala ordinal. Por ejemplo, hay datos producidos por unsismógrafo con un conjunto índice continuoT �R+.La naturaleza del conjunto índice juega un papel importante en la mod-

elación empírica, como se verá en la secuela. En vista del hecho de que,además de la dicotomía discreto/continuo tenemos cuatro escalas de medidadiferente para el rango de valores de la propia variable y otros cuatro para elconjunto de índices, una desconcertante variedad de tipos de datos puedenser de�nida. Nuestro interés está en aquellos tipos que afectan la clase demétodos estadísticos que se pueden aplicar a los datos en cuestión. Un vistasosuper�cial a la literatura de econometría aplicada revela que las variables conmuy distintas escalas de medición están involucrados en la misma ecuaciónde regresión (véase el capítulo 7), haciendo que algunos de estos resultadossean sospechosos. Como se ha dicho en el capítulo 3, los conceptos de media,varianza y covarianza (la materia prima de la regresión) no tienen sentidopara variables ordinales o nominales.

Figura 1.9 Datos de puntuaciones del examen (en orden alfabético).

Page 48: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

48CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

1.5.5 ¿Sección transversal contra series de tiempo, eséste el problema?

En conclusión es importante regresar a la taxonomía tradicional seccióntransversal/serie de tiempo para advertir al lector contra la adopción deaforismos de la forma dependencia y/o heterogeneidad son irrelevantes paralos datos de corte transversal. Lo que es importante para considerar la de-pendencia y / o heterogeneidad no es si los datos son de sección transversal ode series de tiempo, sino si los datos están ordenados o no. Es cierto que paralos datos de series de tiempo hay un ordenamiento natural (el tiempo), peroeso no signi�ca que los datos de sección transversal no tienen ordenamientosnaturales como el espacial o alguna otra dimensión de interés. Una vez queel ordenamiento es adoptado las nociones de dependencia y heterogeneidadllegan a ser tan relevante en sección transversal como lo son para series detiempo.EjemploConsideremos el caso de los datos que �guran en la tabla 1.6. Los datos

se re�eren a los resultados de los exámenes de una clase tomando un examende opción múltiple sobre los Principios de Economía en 1992 y se presentansegún el orden alfabético de los nombres de los estudiantes. Los datos songra�cados en la �gura 1.9, con los resultados medidos en el eje vertical y losestudiantes por orden alfabético en el eje horizontal. Este orden no parecemuy interesante porque no hay

Page 49: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.5. DATOS OBSERVADOS 49

Figura 1.10 Datos de las puntuaciones del examen (orden de asiento).

razones para creer que existe una relación entre las puntuaciones y elorden alfabético de los nombres de los estudiantes; sólo para estar segurosse podría evaluar esta conjetura mediante la comparación de esta grá�cade tiempo con la que se muestra en la �gura 1.1. Por otro lado, ordenarlas observaciones de acuerdo a la disposición con que se sientan durante elexamen, como se muestra en la �gura 1.10, parece ser más interesante en elsentido de que podría arrojar información interesante. De hecho, observandola �gura 1.10, podemos ver una representación grá�ca bastante diferente.Los altibajos de la última grá�ca son un poco más ordenados que los dela �gura 1.9; ellos muestran algún tipo de comportamiento cíclico. Como seexplica en el capítulo 5, este patrón de ciclos no idénticos revela que los datosmuestran algún tipo de dependencia positiva entre el examen y el lugar dondese sientan. En inglés franco, esto signi�ca que hubo una gran cantidad detrampas que tuvieron lugar en el salón durante el examen! Como resultadodel análisis estadístico de los datos como se ordenan en la �gura 1.10 (véanselos capítulos 5 y 15) fue el último examen de opción múltiple aplicado por elautor.Tabla 1.6. Datos de las puntuaciones del examen de Principios de Economía98.0 43.0 77.0 51.0 93.0 85.0 76.0 56.0 59.0 62.067.0 79.0 66.0 98.0 57.0 80.0 73.0 68.0 71.0 74.083.0 75.0 70.0 76.0 56.0 84.0 80.0 53.0 70.0 67.0100.0 78.0 65.0 77.0 88.0 81.0 66.0 72.0 65.0 58.045.0 63.0 57.0 87.0 51.0 40.0 70.0 56.0 75.0 92.073.0 59.0 81.0 85.0 62.0 93.0 84.0 68.0 76.0 62.065.0 84.0 59.0 60.0 76.0 81.0 69.0 95.0 66.0 87.0La moraleja de esta historia es que aunque no hay orden natural para los

datos de sección transversal, puede haber muchas dimensiones interesantescon respecto a las que se pueden ordenar. La décima recomendación en lamodelación empírica es:10 las clasi�caciones de los datos, por sí mismas, no determinan la forma

y la estructura probabilística del modelo estadístico adecuado.Como argumentamos antes, los modelos estadísticos toman en cuenta

una variedad de diferentes dimensiones y características de los datos. Laclasi�cación de los modelos de acuerdo a la clasi�cación de datos basada enuna sola de tales dimensiones, es miope.

Page 50: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

50CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

1.5.6 Limitaciones de los datos económicos

En relación con las limitaciones de los datos económicos vamos a considerardos cuestiones importantes:(i) su precisión y(ii) su naturaleza.Un hito importante en el uso de los datos económicos para el estudio de

los fenómenos económicos ha sido la publicación de un libro de Morgenstern(1963), intitulado On the accuracy of economic observations, publicado porprimera vez en 1950. En este libro el autor discute la precisión de los datoseconómicos publicados y cuestiona lo adecuado de estos datos para los �nesacostumbrados. Este libro in�uyó en la formación de la actitud de los prac-ticantes hacia los datos económicos como lo describe abajo Griliches (1984,ambas citas, p. 1466):"Econometricians have an ambivalent attitude towards economic data.

At one level, the �data� are the world that we want to explain, the basicfacts that economists purport to elucidate. At the other level, they are thesource of all our trouble. Their imperfection makes our job di¢ cult and oftenimpossible. Many a question remains unresolved because of �multicollinear-ity�or other sins of the data. . . "La visión de Griliches es que los econometristas no deben quejarse de la

calidad de sus datos, ya que es exactamente esta calidad lo que justi�ca sulegitimidad:"si los datos fueran perfectos, obtenidos de experimentos aleatorios bien

diseñados, habría apenas espacio para un campo independiente de la econometría..."Aunque este es claramente un punto de vista extremo hay algo de ver-

dad en el, en la medida en que los datos disponibles en la econometría raravez recogidos de experimentos aleatorios bien diseñados. Por lo tanto, lanecesidad de diferentes técnicas estadísticas y procedimientos surge debido ala naturaleza de los datos disponibles y no de su mala calidad. La principallimitación de los datos económicos disponibles surge del hecho de que existeuna brecha considerable entre los modelos teóricos y los datos disponibles.La teoría económica, a través de la cláusula ceteris paribus, supone un sis-tema casi aislado, pero los datos observados son el resultado de un procesocontinuo y multidimensional con numerosos factores que in�uyen más alládel control del modelador (véase Spanos, 1956).La precisión de los datos económicos ha mejorado sustancialmente desde

Page 51: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.5. DATOS OBSERVADOS 51

Morgenstern (1963) y en algunos sectores, como el �nanciero, los datos suelenser muy precisos. Series de tiempo sobre tipos de cambio y precios de accionesson tan precisos como los datos económicos se pueden obtener. En este librono suscribimos la idea de que cuando el análisis de los datos no dan lugar alos resultados esperados (en base a una idea preconcebida determinada), lacalidad de los datos es el culpable. Esto es lo mismo que un mal carpinteroculpando a sus herramientas.

En los casos en que la precisión de los datos es problemática, el modeladordebe tener en cuenta que no hay procedimiento estadístico que pueda extraerinformación de los datos observados cuando éstos no están en primer lugar.La recomendación undécima en la modelación empírica es:

11 No hay argumento estadístico, por muy so�sticado, que puede salvarla mala calidad de los datos observados.

En lo que sigue asumimos que el modelador ha comprobado los datosobservados y los considera lo su�cientemente precisos para ser considera-dos �ables para los propósitos de inferencia estadística. Como una regla,no consideramos resultados de mala inferencia (juzgados contra algún pre-juicio concebido a priori) como un síntoma de la mala calidad de los datos.Muchas veces la calidad de los datos son utilizados como una excusa para elconocimiento del modelador ascético de la naturaleza de los datos observadosy la mente super�cial a menudo desplegada al relacionar un modelo teóricocon los datos observados en cuestión (véase Spanos (1995b)). Por lo tanto,la última recomendación en la modelación empírica es:

12 Familiarícese completamente con la naturaleza y la precisión de susdatos.

Esto hará al modelador consciente de qué preguntas pueden y no puedenser planteadas a un conjunto particular de datos.

En conclusión, el autor no tiene ilusiones con respecto a la aceptabilidadde las anteriores recomendaciones. En esta etapa, la única posición reivindi-cada para estas recomendaciones son los prejuicios del autor en la modelaciónempírica. Como mencionamos en el prefacio, la discusión en el resto de estelibro pretende transformar estos prejuicios en la tesis, sustentadas con argu-mentos convincentes.

Page 52: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

52CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

1.6 Mirando hacia adelante

El principal objetivo de los próximos tres capítulos (2-4) es motivar y crearla forma por excelencia de un modelo estadístico que llamamos un modeloestadístico simple. La motivación está en la presentación del último comouna formalización de un fenómeno estocástico simple que genéricamente lla-mamo un experimento aleatorio. La formalización introduce los conceptosprobabilísticos necesarios que luego son mezclados para construir la formagenérica de un modelo estadístico simple. La interacción entre los patronesde regularidad aleatoria y los conceptos probabilísticos de�niendo un modeloestadístico simple se lleva a cabo en el capítulo 5, utilizando una variedad detécnicas grá�cas. El objetivo principal del capítulo 6 es extender el modeloestadístico simple en las direcciones que permiten al modelador para cap-turar diversas formas de dependencia, incluidas las expuestas en los datos dela tasa de cambio en la �gura 1.4. El capítulo 7 continúa el tema del capítulo6 con el �n de mostrar que la clave para la modelación de la dependencia dedatos observacionales es la noción de condicionamiento.Esto nos lleva naturalmente a los modelos de regresión y relacionados. La

extensión del modelo estadístico simple en direcciones que permiten el mode-lador capturar diversas formas de dependencia y heterogeneidad se completaen el capítulo 8. En pocas palabras, el objetivo básico de los capítulos 2-8es introducir el marco de referencia de la teoría de probabilidad necesario enel contexto en el que tales conceptos probabilísticos pueden ser de�nidos yrelacionados con los patrones observables exhibidos por las observaciones apartir de un fenómeno estocástico.

1.7 Ejercicios

1 ¿Cómo decidimos que los fenómenos económicos de interés son susceptiblesde modelación empírica?2 Explique intuitivamente la noción de regularidad aleatoria.3 Explique brevemente la conexión entre los patrones de regularidad

aleatoria y los conceptos de la teoría de la probabilidad.4 Explique brevemente la conexión entre los patrones de regularidad

aleatoria y los modelos estadísticos.5 Explique la relación entre un histograma y una distribución de proba-

bilidad con la paradoja de De Mere.

Page 53: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

1.7. EJERCICIOS 53

6 Explique por qué es importante que la información estadística se resumaexclusivamente en términos de conceptos probabilísticos.7 ¿Bajo qué circunstancias puede el modelador pretender que los datos

observados constituyen evidencia sin prejuicios en la evaluación de la su�-ciencia empírica de una teoría?8 Explique el concepto de su�ciencia estadística y discuta su importancia

para la inferencia estadística.9 "La inferencia estadística es un híbrido de un procedimiento deductivo

e inductivo." Debate.10 Compare y contraste las diferentes escalas de medición de los datos

observados.11 De cuatro ejemplos de variables medidas en cada una de las diferentes

escalas, más allá de las dadas en la discusión anterior.12 ¿Por qué nos preocupamos por las escalas de medición en la modelación

empírica?13 Más allá de las escalas de medida cuáles características de los datos

observados son de interés desde el punto de vista de modelación empírica?14 Compare y contraste datos de series de tiempo, de sección transversal

y de panel.15 Explique cómo las distintas características de los datos observados se

pueden formalizar en el contexto de expresar una serie de datos en la formade:

fxk; xk 2 Rx, k 2 Ng

Sugerencia: explique el papel y el signi�cado de la estructura matemáticade los conjuntos (Rx;N).16 "En la modelación de datos de sección transversal no se puede hablar

de dependencia." Discuta.

Page 54: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

54CAPÍTULO 1. 1 UNA INTRODUCCIÓNALAMODELIZACIÓNEMPÍRICA

Page 55: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

Capítulo 2

Teoría de probabilidad: unmarco de referencia para lamodelación

2.1 Introducción

2.1.1 Objetivo principal

Objetivo: estructurar la teoría de la probabilidad para modelar fenómenosestocásticos observables (experimentos aleatorios) que exhiben regulari-dad aleatoria. Se modela utilizando un modelo estadístico (ME).Se inicia informalmente, se concluye en el capítulo cuatro con un ME que

es la forma matemática de un experimento aleatorio.

2.2 Modelo estadístico simple: una visión in-formal

2.2.1 La estructura básica de un modelo estadísticosimple

El modelo estadístico simple (paramétrico)1 tiene dos componentes in-terrelacionados:

1Aludido primero por Fisher (1922).

55

Page 56: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

56CAPÍTULO 2. TEORÍADEPROBABILIDAD: UNMARCODEREFERENCIA PARALAMODELACIÓN

[i] modelo de probabilidad: � = ff (x; �) ; � 2 �; x 2 Rxg[ii] modelo muestral: X � (X1; X2; :::; Xn) es una muestra aleatoria

Elmodelo de probabilidad determina una familia de densidades (f (x; �) ; � 2 �),de�nida en el rango de valores de (Rx) de la v.a. X: Es decir, una funciónde densidad para cada valor del parámetro � 2 �.Un ejemplo del concepto de modelo de probabilidad se ve en la gra�ca

de algunos miembros de la familia de densidades Gamma de un parámetrocuya forma explicita es:

� =

�f (x; �) =

x��1

� (�) =R10u��1 exp f�ug du

exp f�xg ; � 2 �; x 2 R+�,

� � R+ y Rx � R+. Cada curva es una función de densidad variando enal rango de la v.a. X : (0; 14) � R+, para un valor especí�co del parámetro�.Enseguida se analizan algunos conceptos utilizados en la ilustración an-

terior.

2.2.2 El concepto de variable aleatoria: visión informal

La visión simple de v.a. es propuesta primero por Chebyshev (1812-1884):es �una variable real que puede tomar distintos valores con distintas proba-bilidades�. Aunque cercana a la de�nición moderna de v.a., es poco deseablematemáticamente. Como se verá en el capítulo tres, una v.a. es una funciónX(:) : S !R (asigna números a resultados). La necesidad de de�nir tal fun-ción surge porque el conjunto de resultados de ciertos fenómenos estocásticosno siempre toman la forma de números pero los datos si. La visión simplede v.a., para simpli�car el concepto, suprime al conjunto de resultados eidenti�ca la v.a. con su rango de valores, de aquí el término variable.Ejemplo.�Lanzar dos dados y sumar sus caras�. Resultan 62 = 36 combinaciones

de caras (no de números), denotadas, por ejemplo: fs1; s2; :::; s36g : Se evitanmuchas aristas del problema procediendo directamente a contar el númerode puntos que aparecen en las caras. En algún sentido esta es la de�niciónde v.a.: X(:) : S !RX ; RX � R :

Page 57: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

2.2. MODELO ESTADÍSTICO SIMPLE: UNA VISIÓN INFORMAL 57

X(:) : fs1; s2; :::; s36g ! f2; 3; :::; 12g :

Sin embargo, no es la única función posible. Se puede de�nir otra funciónque mapea las sumas pares al cero y las impares al uno:

Y (:) : fs1; s2; :::; s36g ! f0; 1g :

Este ejemplo sugiere que suprimir el conjunto de resultados e identi�carla v.a. con su rango puede ser erróneo.Respecto a la aleatoriedad de la v.a., para tratar de distinguir entre v.a.

y variable matemática, la visión simple procede a asociar probabilidades asu rango de valores.Ejemplo.En ejemplo anterior, se de�nieron dos v.a. que la visión simple identi�ca

con sus rangos:

X con f2; 3; :::; 12g y Y con f0; 1g :

En el caso de las v.a.X y Y , la asociación de sus valores con sus proba-bilidades toma la forma:

x 2 3 4 5 6 7 8 9 10 11 12f(x) 1

36236

336

436

536

636

536

436

336

236

136

y

y 0 1f(y) 1

212

Notar que la función de densidad es:

P (X = x) = f(x);8x 2 RXy cumple

(a) fX(x) � 0;8x 2 RX ; (b)X

xi2RXfX(xi) = 1:

Por (b), la suma de las probabilidades de los valores de la v.a. es uno.La función de densidad distribuye una unidad de masa (probabilidad) a lolargo del rango de los valores de la variable aleatoria X:

Page 58: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

58CAPÍTULO 2. TEORÍADEPROBABILIDAD: UNMARCODEREFERENCIA PARALAMODELACIÓN

Variables aleatorias continuas

Si X y Y satisfacen la de�nición de v.a. de Chebyshev (cada valor de lavariable aleatoria tiene asociada una probabilidad), es porque el rango deesas variables es numerable (discreto). Cuando una v.a. tiene rango nonumerable de valores (toma valores en un intervalo) no se puede asignar acada valor de la v.a. una probabilidad. Las probabilidades se asignan usandointervalos que pertenecen a este rango de valores. La función de densidadpara variables aleatorias continuas se de�ne en intervalos como sigue:

P (x � X � x+ dx) = f(x)�dx; 8x 2 Rxy satisface las propiedades:

(a) fX(x) � 0;8x 2 Rx; (b)Zx2Rx

fx�dx = 1:

Notar que la función de densidad de v.a.c toma valores en el intervalo[0;1) por lo cual estos valores no se pueden intepretar como probabilidades.En contraste, las funciones de densidad de v.a.d. toman valores en el intervalo[0; 1] :

2.2.3 Funciones de densidad paramétricas

Las densidades de las v.a. X y Y anteriores no involucran parámetros de-sconocidos porque las probabilidades se conocen (debido a que los dados sonsimétricos y que cada cara aparece con la misma probabilidad). Cuandolos dados están �cargados�las densidades cambiarán porque ellas compren-derán a parámetros desconocidos. Por ejemplo, asumiendo que P (Y = 1) = �(un parámetro desconocido), 0� � � 1; la función de densidad para Y ahoratoma la forma:

y 0 1f(y) 1

212

! y 0 1f(y; �) 1� � �

que se puede escribir como

f (y; �) = �y (1� �)1�y ; � 2 [0; 1] ; y = 0; 1:

que es la densidad Bernoulli, con � � [0; 1] y Ry = f0; 1g :

Page 59: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

2.2. MODELO ESTADÍSTICO SIMPLE: UNA VISIÓN INFORMAL 59

Bernoulli (s. XVIII) sugiere la distribución paramétrica binomial confunción de densidad:

f (x; �) =

�nx

��x (1� �)1�x ; � 2 [0; 1] ; x = 0; 1; n = 1; 2; :::;

donde�nx

�= n!

(n�x)!x! ; n! = n (n� 1) (n� 2) � � � (3) (2) (1) :

de Moivre y Laplace (s. XIX) incorporan la distribución normal condensidad:

f (x;�) =1

�p2�exp

�� 1

2�2(x� �)2

�; � =

��; �2

�2 R�R+; x 2 R:

Pero en realidad el interés por las densidades paramétricas inicia conPearson (1895) cuya familia de distribuciones (familia Pearson) es generadaresolviendo la ecuación diferencial:

df (x)

dx= f (x)

�(x� �0)

�1 + �2x+ �3x2

�; x 2 Rx:

Según los valores de los parámetros �0; �1; �2 y �3; esta ecuación generafunciones de densidad como t de Student, Laplace, Pareto, Gamma y normal.Una versión discreta de esa ecuación diferencial se puede usar para generardistribuciones como la binomial y binomial negativa, hipergeométrica y Pois-son.

Parámetros

Los parámetros � se relacionarán con sus momentos. En esta etapa basta connotar que los parámetros � tienen un papel importante en la modelizaciónem-pírica y en la inferencia estadística.

2.2.4 Muestra aleatoria: preliminares

Unmodelo estadístico es simple por la forma del modelo muestral, el supuestode muestra aleatoria. Este supuesto implica dos nociones interrelacionadas:independencia [I] y distribución idéntica [ID]. Informalmente, las v.a.

Page 60: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

60CAPÍTULO 2. TEORÍADEPROBABILIDAD: UNMARCODEREFERENCIA PARALAMODELACIÓN

(X1; X2; :::; Xn) son independientes si la ocurrencia de una (Xi) no in�uye nies in�uída por la ocurrencia de cualquier otra (Xj; i 6= j; i; j = 1; 2; :::; n).Además, las v.a. independientes (X1; X2; :::; Xn) están indénticamente dis-tribuídas si sus funciones de densidad son las mismas f (x1; �) = f (x2; �) =� � � = f (xn; �)

2:

2.3 Teoría de la probabilidad: una introduc-ción

Se trata de establecer un puente entre datos observados y ME construído conteoría de la probabilidad. Ésta, trata de capturar los patrones de regulari-dad aleatoria exhibidos por procesos estocásticos observables que se quierenmodelar3. Se inicia modelando un proceso estocástico simple llamado exper-imento aleatorio.Una precaución: debido a la simplicidad del experimento aleatorio, su

formalización proporcionará un ME no adecuado para modelar algunos fenó-menos estocásticos en econometría. Los capítulos 6-8 extienden el modelo es-tadístico, incorporando conceptos probabilísticos adicionales, lo que expandela aplicabilidad del modelo.

2.4 Experimento aleatorio

Esta noción se introduce porque da una idea del tipo de fenómenos estocás-ticos que se pretende modelar. En este capítulo se formaliza un experimentoaleatorio en forma de un abstracto espacio estadístico el cual da los fun-damentos matemáticos de la teoría de la probabilidad.En los siguientes doscapítulos, se da forma matemática al concepto de experimento aleatorio enforma de modelo estadístico. En el capítulo tres, espacio estadístico!ME(da formas operacionales para modelar).

2Conviene notar que lo apropiado de los supuestos IID en datos experimentales, encontraste con datos observacionales, es materia de buen diseño.

3La aproximación axiomática, como una rama de la matemática, se remonta a Euclidesque especi�ca los axiomas básicos de objetos primitivos y entonces desarrolla la teoría(teoremas, lemmas, etc.) usando lógica deductiva

Page 61: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

2.4. EXPERIMENTO ALEATORIO 61

2.4.1 Experimento aleatorio

Un experimento aleatorio4 E es un mecanismo aleatorio que satisface:[a] todos los posibles resultados se conocen a priori,[b] en toda prueba particular el resultado no se conoce a priori pero existe

una regularidad perceptible de ocurrencia asociada a esos resultados, y[c] el experimento aleatorio se puede repetir bajo indénticas condiciones.Ejemplos.1. Lanzar una moneda perfecta y anotar el resultado. Si se asume que

se puede repetir bajo condiciones idénticas, este experimento es aleatorioporque satisface [a]-[c].2. Lanzar una monedas dos veces a anotar el resultado. Si se asume que

se puede repetir bajo condiciones idénticas, este experimento es aleatorioporque satisface [a]-[c].3. Lanzar una moneda tres veces a anotar el resultado. Si se asume que

se puede repetir bajo condiciones idénticas, este experimento es aleatorioporque satisface [a]-[c].4. Lanzar una moneda hasta que aparezca una cara. Si se asume que

se puede repetir bajo condiciones idénticas, este experimento es aleatorioporque satisface [a]-[c].5. Un documento se transmite repetidamente por un canal �sucio�hasta

que se tiene una copia libre de errores. Contar el número de envíos necesarios.Este fenómeno estocástico es un experimento aleatorio siendo [a]= N.6. Contar el número de llamadas recibidas en un teléfono en un período

de tiempo. En este caso, [a]= f0; 1; 2; :::g :7. Medir la vida útil de un foco en una casa. Aquí, teóricamente, [a]=

[0;1) :6. Observar el precio de cierre diario de IBM en la BMV. [a]= [0;1) ;

[b]: el precio de cierre de IBM de un día particular no se conoce a priori. Lacondición [c] no se cumple porque las circunstancías de un dia a otro cambiany el precio de hoy se relaciona con el de ayer. No es un experimento aleatorio.Para formalizar la noción de experimento aleatorio:1. [a]! S:2. [b] S !P:En estos dos pasos se construye el espacio de probabilidad. Para ello, se

inicia con un conjunto S de eventos elementales. Después, se de�ne otro

4La noción de experimento aleatorio se remonta a Kolmogorov (1933), Foundations oftheory of probability, y se considera el libro que funda la moderna teoría de la probabilidad.

Page 62: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

62CAPÍTULO 2. TEORÍADEPROBABILIDAD: UNMARCODEREFERENCIA PARALAMODELACIÓN

conjunto = formado por subconjuntos de S; llamados eventos, de modo talque = es cerrado bajo unión, intersección y complemento. Entoces, la proba-bilidad se de�ne como una función no negativa P (:) : = ! [0; 1] ; asumiendoque satisface P (S) = 1 y la propiedad de aditividad: para A 2 =; B 2 = yA \B = ;; entonces, P (A [B) = P (A) + P (B) :3. [c]! GIID:

2.5 Formalizacion de [a]

La formalización de [a] se hace de�niendo un conjunto S de todos los distintosposibles resultados de un experimento llamado conjunto de resultados5.Es decir, S es el conjunto universal.Ejemplos. Los conjuntos de resultados de los experimentos aleatorios

[1]-[4] son:

S1 = fSAg ;S2 = f(SS) ; (SA) ; (AS) ; (AA)g ;S3 = f(SSS) ; (SSA) ; (ASS) ; (ASA) ; (AAA) ; (SAA) ; (SAS) ; (AAS)g ;S4 = f(S) ; (AS) ; (AAS) ; (AAAS) ; (AAAAS) ; (AAAAAS) ; :::g ;

Para el experimento [5] :

S5 = fx : x 2 Ng :

Para el experimento [7] :

S7 = fx : x 2 R; 0 � x <1g :

2.6 Formalizacion de [b]

Esta condición tiene dos dimensiones: (i) individualmente, los resultados sonimpredecibles, pero, (ii) a nivel agregado, existe una regularidad perceptiblede los resultados. La forma de tratar con ambas dimensiones es formalizarla regularidad perceptible a nivel agregado. Para ello, se procede en dos

5Un nombre muy usado para S es el de espacio muestral. Aquí este nombre es pocoadecuado porque no tiene nada que ver con la noción de muestra usada posteriormente.

Page 63: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

2.6. FORMALIZACION DE [B] 63

pasos: (1) se formaliza la noción de eventos de interés y, (2) se asignanprobabilidades a estos eventos.Informalmente, un evento, relacionado con un experimento aleatorio, es

una proposición donde lo único que interesa es su valor de ocurrencia, esdecir si en una prueba particular el evento ocurre o no. Debido a ello, lasúnicas proposiciones de que se dispone son los resultados elementales. Sinembargo, para modelar, se necesita extender este conjunto de proposicionespara incluir además combinaciones de resultados elementales. Por ejem-plo, en el experimento aleatorio [2] pueden interesar los eventos: (a) A =al menos un sol: A = f(SS) ; (SA) ; (AS)g ; (b) B = al menos una águila.B = f(AS) ; (SA) ; (AA)g :En general, los eventos se forman con combinaciones de resultados ele-

mentales usando operaciones teóricas de conjuntos, y se dice que un eventoA ocurre cuando cualquiere de sus resultados elementales ocurre.Más formalmente, un evento es un subconjunto de S, es decir, si A � S;

A es un evento. En contraste, un resultado elemental s es un elemento deS, es decir, si s 2 S; s es un resultado elemental. En otras palabras, un resul-tado elemental es también un evento, pero lo contrario no es necesariamenteverdad.Ejemplo.Sean los conjuntos: A = f1; 2; 3g ; B = f1; 3g : Se ve que: B � A, pero

B =2 A: Ahora, si C = f(1; 3) ; 2g ; entonces B 2 C:

Eventos especiales

El conjunto (universal) S es un evento seguro: cualquiera sea el resultado,S ocurre. Como S es subconjunto de sí mismo (S � S), se tiene el conjuntovacío: ; = S � S; llamado evento imposible: cualquiera sea el resultado, ;no ocurre6.Usando ; se dice que dos eventos A y B sonmutuamente excluyentes

si A \B = ;:Usando (A \B = ;)^S; se dice que los eventos A1; A2; :::; An forman una

partición de S si los eventos son:(a)Ai \ Aj = ;;8i 6= j; i; j = 1; 2; :::;m; (mutuamente excluyentes) y

(b)mSi=1

Ai = S; (exhaustivos).

6Notar que ; es siempre subconjunto de todo S:

Page 64: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

64CAPÍTULO 2. TEORÍADEPROBABILIDAD: UNMARCODEREFERENCIA PARALAMODELACIÓN

2.6.1 Espacio de eventos

La forma de tratar la incertidumbre asociada a un resultado particular deuna prueba es asignando probabilidades a los eventos de interés. Dado quese sabe que si A � S; A es un evento, se procede a precisar la noción deeventos de interés.Un espacio de eventos = es un conjunto cuyos elementos son los eventos

de interés y los eventos relacionados: aquellos que se obtienen combinandoeventos de interés usando operaciones teóricas de conjuntos. Es necesarioincluir tales eventos porque si se tiene interés por los eventos A y B, tambiénse está interesado (indirectamente) en A;B;A [B;A \B;

�A1 \ A2

�; etc.

Teóricamente, = es un conjunto de subcojuntos de S que es cerrado bajounión, intersección y complemento: si estas operaciones se aplican a cualquierelemento de =, el resultado es también elemento de =: Para todo conjuntode resultados S; se pueden considerar dos espacios de eventos extremos:(a) el espacio trivial de eventos: =0 = fS, ;g y(b) el conjunto potencia (el conjunto de todos los subconjuntos de S):

P (S) = fA : A � Sg :Estos casos extremos no son interesantes porque:(a) espacio trivial no contiene información: S y ; se conocen a priori.(b) A primera vista, el conjunto potencia de S parecería la elección natural

para el espacio de eventos, dado que incluye todos los eventos relevantes y secerrado bajo unión, intesección y complemento.Ejemplo.�Lanzar una moneda dos veces�, entonces:

S2 = f(SS) ; (SA) ; (AS) ; (AA)g

P (S2) =

8>>>><>>>>:S2; [(SS) ; (SA) ; (AS)] ; [(SS) ; (SA) ; (AA)] ;[(SS) ; (AS) ; (AA)] ; [(AA) ; (SA) ; (AS)] ;

[(SS) ; (SA)] ; [(SS) ; (AS)] ;[(SS) ; (AA)] ; [(SA) ; (AS)] ; [(SA) ; (AA)] ;[(AS) ; (AA)] ; [SS] ; [SA] ; [AS] ; [AA]

9>>>>=>>>>; :

El conjunto potencia no siempre puede ser el espacio de eventos adecuadoporque, asumiendo que S es contable con N elementos, P (S) tendrá 2n el-ementos, siendo poco práctico para propósitos de modelación. Por ejemplo,

Page 65: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

2.6. FORMALIZACION DE [B] 65

al lanzar una moneda tres veces, S tiene ocho elementos lo que implica queP (S) = 28 = 256 elementos; muchos para enumeralos.Esto se complica más si S es contable pero in�nito (como en ej. 6). En

este caso P (S) ; aunque no es in�nito, tendrá el orden de in�nitud de losreales. Además, cuando S no es contable, P (S) incluye subconjuntos queno se pueden considerar eventos y no se les puede asignar probabilidades(Billingsley, 1986). .La forma de superar estas di�cultades es evitar al conjunto potencia y

dotar al espacio de eventos de una estructura matemática especí�ca (uncampo o un �-campo) que asegure que si A yB son eventos, todo otro eventoque resulte de combinar estos eventos con operaciones teóricas de conjuntosserán también elementos del mismo espacio de eventos. (Homeomor�smo).Ejemplo.Sea el ejemplo �lanzar una moneda tres veces�y asumir que los eventos

de interés son sólo A1 = f(SSS)g y A2 = f(AAA)g ; entonces no se necesitade�nir al conjunto potencia como el espacio de eventos. En su lugar se puedede�nir:

=3 =�S3; ;; A1; A2; (A1 [ A2) ; A1; A2;

�A1 \ A2

�con ocho elementos y no 36 que contendría el conjunto potencia. Se

veri�ca que =3 es cerrado bajo operaciones teóricas:

(S3 [ ;) = S3 2 =3; (S3 \ ;) = ; 2 =3; S3 = ; 2 =3;�A1 [ A2

�=

�A1 \ A2

�2 =3; etc.

El concepto de espacio de eventos es importante en la formalización de lacondición [b] de un experimento aleatorio, porque proporciona la estructuramatemática necesaria para asignar correctamente probabilidades a eventos.Así, si A y B son eventos de interés, también lo son los eventos relacionadosporque su ocurrencia o no da información sobre la ocurrencia de A y B porlo cual no se pueden ignorar al asignar probabilidades.

Campo

Una colección = de subconjuntos de S es un campo si cumple:(i) S 2 =;(ii) si A 2 =; A 2 =;

Page 66: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

66CAPÍTULO 2. TEORÍADEPROBABILIDAD: UNMARCODEREFERENCIA PARALAMODELACIÓN

(iii) si A;B 2 =; (A [B) 2 =:Signi�ca que = 6= ; (por (i)), es cerrado bajo complemento (debido a

(ii)), uniones �nitas (debido a (iii)) e intersecciones �nitas (debido a (ii) y(iii)).Ejemplos.1. El conjunto potencia de un conjunto �nito de resultados, como P (S2) ;

es un campo.2. =0 = fS; ;g es el campo trivial de todo conjunto �nito de resultados

S. =0 es un campo porque:

S 2 =0; S [ ; = S 2 =; S \ ; =; 2 =0 y S � ; = S 2 =0:3. = (A) =

�S; ;; A;A

es el campo generado por el evento A: = (A) es

campo porque:

S 2 = (A) ; S [ ; = S 2 = (A) ; S \ ; =; 2 = (A) ;S � ; = S 2 =(A); A 2 = (A) ;

�A [ A

�= S 2 = (A) ;�

A \ A�= ; 2 = (A) ; (A [ S) = S 2 = (A) ;

(A \ S) = A 2 = (A) ;�A [ S

�= S 2 = (A) ;�

A \ S�= A 2 = (A) :

4. fS; ;; A;Bg no es campo porque el evento (A [B) no es elemento deeste conjunto, a menos que B�=A:5. fS; ;; A;B; (A [B)g no es campo porque el evento (A \B) no es

elemento de este conjunto, a menos que (A \B) = ;:6.�S;A;A

no es campo porque no contiene ;.

Generando un campo

Para ilustrar como se genera un campo a partir de un conjunto de eventosde interés, considerar el caso donde el conjunto es D1 = fA;Bg : La gen-eración del campo se hace en relación al ejemplo de �lanzar una monedados veces�, donde S2 = f(SS) ; (SA) ; (AS) ; (AA)g ; A = f(SS) ; (SA)g yB = f(SA) ; (AS)g y el campo es el conjunto potencia P (S2) :

P (S2) =

8>>>><>>>>:S2; [(SS) ; (SA) ; (AS)] ; [(SS) ; (SA) ; (AA)] ;[(SS) ; (AS) ; (AA)] ; [(AA) ; (SA) ; (AS)] ;

[(SS) ; (SA)] ; [(SS) ; (AS)] ;[(SS) ; (AA)] ; [(SA) ; (AS)] ; [(SA) ; (AA)] ;[(AS) ; (AA)] ; [SS] ; [SA] ; [AS] ; [AA]

9>>>>=>>>>; :

Page 67: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

2.6. FORMALIZACION DE [B] 67

Paso 1. Formar el conjunto D2 =�S; ;; A;B;A;B

que incluye los com-

plementos de A yB: En el ejempo:A = f(AS) ; (AA)g ; B = f(SS) ; (AA)g :Paso 2. Formar el conjunto que también incluye las intersecciones de

todos los elementos de D2 :D3 =

�S; ;; A;B;A;B; (A \B) ;

�A \B

�;�A \B

�;�A \B

�: En el ejem-

plo,(A \B) = f(SA)g ;

�A \B

�= f(AS)g ;

�A \B

�= f(SS)g y

�A \B

�=

f(AA)g :Paso 3. Formar el conjunto que también incluye las uniones de todos los

elementos de D3 : D =�D3; (A [B) ;

�A [B

�;�A [B

�;�A [B

�; etc.

:

En el ejemplo:(A [B) = f(SS) ; (SA) ; (AS)g :

�A [B

�= f(SA) ; (AS) ; (AA)g ;

�A [B

�=

f(SS) ; (SA) ; (AA)g ;�A [B

�= f(SS) ; (SA) ; (AA)g ;

��A \B

�[�A \B

��=

f(SS) ; (SA)g ;�(A \B) [

�A \B

��= f(SA) ; (AA)g :

El conjunto potencia de S se ha generado. Notar queD1 � D2 � D3 � Dy D es un campo. Éste el menor campo conteniendo a D1; se llama el campogenerado por D1; y se denota por = (D1) = D.Ejemplo.En el caso de lanzar una moneda tres veces:

S3 = f(SSS) ; (SSA) ; (SAA) ; (SAS) ; (AAA) ; (AAS) ; (ASA) ; (ASS)g :

Si los eventos de interés, por ejemplo, sonA1 = f(SSS)g yA2 = f(AAA)g ;el conjunto fA1; A2g no es un campo pero se puede generar un campo a partirde este conjunto. En este caso el campo de eventos de interés es7:

=3 =�S3; ;; A1; A2; (A1 [ A2) ; A1; A2;

�A1 \ A2

�;

Considerar los eventos fA1; A2; :::; Ang que constituyen una partición deS, entonces el conjunto de todas las posibles uniones de elementos de A =f;; A1; A2; :::; Ang forman un campo.

= (A) = fB : B = [i2IAi; I � f1; 2; 3; :::; ngg :7De los ejemplos, la generación de un campo usando operaciones teóricas de conjuntos,

a partir de eventos de interés, no es un ejercicio simple en casos donde el número inicialde eventos de interés es mayor que 2. La excepción a esto es el caso donde los eventosiniciales forman una partición de S:

Page 68: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

68CAPÍTULO 2. TEORÍADEPROBABILIDAD: UNMARCODEREFERENCIA PARALAMODELACIÓN

Ejemplo.Al lanzar una moneda tres veces:

S3 = f(SSS) ; (SSA) ; (SAA) ; (SAS) ; (AAA) ; (AAS) ; (ASA) ; (ASS)g :

considerar los eventos: A1 = f(SSS) ; (SSA) ; (SAA)g yA2 = f(SAS) ; (AAA) ; (AAS)gy A3 = f(ASA) ; (ASS)g : El conjunto fA1; A2; A3g es una partición de S3:El campo generado por esta partición tiene la forma:

=3 = fS3; ;; A1; A2; A3; (A1 [ A2) ; (A1 [ A3) ; (A2 [ A3)g :

Este espacio de eventos es cerrado bajo unión, intesección y complemento.El método anterior se puede extender al caso donde S es in�nito, de�niendo

una partición contable de él , es decir, fA1; A2; :::; An; :::g = fAi; i 2 Ng : Elconjunto de subconjuntos formado por A = f;; A1; A2; :::; An; :::g toma laforma:

= (A) = fB : B = [i2IAi; I � Ng :

y es una extensión de la noción de campo, conocida como ��campo8 yéste es cerrado bajo uniones e intersecciones contables de eventos.Una colección = de subconjuntos de S es un ��campo si:(i) S 2 =;(ii) si A 2 =; entonces A 2 =;(iii) si Ai 2 = para i = 1; 2; :::; n; el conjunto [1i=1Ai 2 =:De (ii) y (iii) y de la ley de Morgan:

\1i=1Ai 2 =; dado que [1i=1Ai = \1i=1Ai:

Este es un ��campo, es no vacío y cerrado bajo uniones e interseccionescontables, y proporciona la estructura matemática más general necesaria paraformalizar la noción de espacio de eventos. Un campo es siempre un casoespecial de un ��campo.

8Con frecuencia se usa el término ��álgebra (parece más adecuado (Williams, 1991))en lugar de �� campo (más por razones históricas (Kolomogorov, 1933, lo usa)).

Page 69: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

2.6. FORMALIZACION DE [B] 69

El �-campo de Borel

En teoría de probabilidad el ��campo más importante es el ��campo deBorel (B (R))de�nido sobre R: Hasta aquí se han considerado ��camposgenerados por un arbitrario S cuya única estructura matemática es la teoríade conjuntos. Desde luego, la recta real no es un conjunto en el mismo sentidodel conjunto de resultados del experimento �lanzar una moneda dos veces�.Ésta tiene una estructura que permite de�nir orden, distancia, convergencia,etc. de sus elementos. La estructura que aquí interesa es la que permitede�nir convergencia, conocida como estructura topológica. Dada la densidadde R, la mejor forma de de�nir un �-campo en un conjunto in�nito es de�nirloa través de sus elementos que pueden generar este conjunto. En el caso deR, se pueden usar para generar un (B (R)), un número de distintos intervalostales como (a;1) ; (a; b] ; (a; b) ; (�1; b). Para este propósito, es adecuado, enparticular, el intervalo (�1; x]. Por ejemplo, considerar cómo estos intervalos((�1; x]) pueden generar el (B (R)) :Iniciar con el un conjunto de subconjuntos de R de la forma:

Bx = f(�1; x] : x 2 Rg ;

que es cerrado bajo intersecciones �nitas, es decir, 8 (x; y) 2 R

(�1; x] \ (�1; y] = (�1; z] 2 Bx; donde z = min (x; y) :

Entonces se procede a generar el �-campo generado por Bx (B (R))=� (Bx)) usando operaciones de conjuntos. (Ver Galambos, 1995).Este B (R) incluye casi todos los subconjuntos de R, pero no todos: hay

subconjuntos de R que pertenecen a P (R) pero no a B (R) ; es decir:

B (R) � P (R) y B (R) 6= P (R) :

Sin embargo, B (R) incluye todos los subconjuntos que usualmente seencuentran en la práctica, tales como:

(a;1) ; (a; b] ; fag ; (a; b) ; 8a < b; (a; b) 2 R.

en el sentido que ellos se pueden crear usando operaciones de conjuntos deunión, intersección y complemento en conjunción con intervalos de la formasiguiente:

Page 70: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

70CAPÍTULO 2. TEORÍADEPROBABILIDAD: UNMARCODEREFERENCIA PARALAMODELACIÓN

(a;1) = (�1; a]) (a;1) 2 B (R) ;(a; b] = (�1; b] \ (a;1)) (a; b] 2 B (R) ;

fag =

1\n=1

�a� 1

n; a

�) fag 2 B (R) ; etc.

Hasta ahora:

E

8<:[a] ) S,

[b] ) (=; ?) ;[c] ) (?) :

9=;2.6.2 Noción matemática de probabilidad

El siguiente paso en la formalización de la condición [b] que de�ne un exper-miento aleatorio es asignar probabilidades a los eventos de interés especi�ca-dos por el espacio de eventos. Para esto, se de�ne la probabilidad P (:) comouna función9 del espacio de eventos = al intervalo [0; 1]:

P (:) : = ! [0; 1]

que satisface los axiomas10:[1] P (S) = 1; 8S;[2] P (A) � 0; 8A 2 =;[3] Aditividad contable. Para un sucesión de eventos mutuamente ex-

cluyentes, es decir, Ai 2 =; i = 1; 2; :::; n tal que Ai \ Aj = ;; 8i 6= j; i; j =1; 2; :::; n entonces P ([1i=1A) =

P1i=1 P (Ai) :

El axioma [3] proporciona una forma de asignar probabilidades a eventosutilizando eventos mutuamente excluyentes. Este mecanismo se describeutilizando distintos tipos de conjuntos de resultados.(a) Conjunto �nito de resultados S = fs1; s2; :::; sng :9Una función f : A ! B es una relación (todo subconjunto del producto cartesiano

A � B) entre los conjuntos A y B que satisface la restricción de que 8x 2 A, existe unelemento único y 2 B tal que (x; y) 2 f: Los conjuntos A y B son el dominio y el codominiode la función f (�) : El conjunto G = f(x; y) 2 f : x 2 A; y 2 Bg es el grá�co de la función.10Concebir a la probabilidad como una medida en el contexto de la teoría avanzada de

la integración llamada teoría de la medida, llevó a Kolmogorov (1933) a axiomatizar lateoría de la probabilidad.

Page 71: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

2.6. FORMALIZACION DE [B] 71

En este caso los resultados elementales s1; s2; :::; sn son, por de�nición,mutuamente excluyentes y además [ni=1si = S; es decir, los eventos s1; s2; :::; sn;conforman una partición de S: El axioma [3] implica que

P ([ni=1si) =Xn

i=1P (si) = 1 (por axioma [1])

y sugiere que la asignación de probabilidades a los resultados proporcionala distribución de probabilidad simple sobre S :

[p (s1) ; p (s2) ; :::; p (sn)] ; tal queXn

i=1p (si) = 1:

La probabilidad del evento A en = es entonces de�nida como sigue:1. ExpresarA en términos de los resultados elementales: A = fs1; s2; :::; skg.2. Derivar la probabilidad de A sumando las probabilidades de los resul-

tatos s1; s2; :::; sk; dado que ellos son mutuamente excluyentes:

P (A) = p (s1) + p (s2)+; :::;+p (sk) =Xk

i=1p (si) :

Ejemplos.1. Sea el experimento aleatorio de �lanzar una moneda tres veces�siendo

el espacio de eventos el conjunto potencia de:

S3 = f(SSS) ; (SSA) ; (SAA) ; (SAS) ; (AAA) ; (AAS) ; (ASA) ; (ASS)g :

Sean A1 = f(SSS)g y A2 = f(AAA)g : Obtener las probabilidades de loseventos A3 := (A1 [ A2) ; A4 := A1; A5 := A2 y A6 :=

�A1 \ A2

�:

P (A3) = P (A1) + P (A2) =1

8+1

8=1

4;

P (A4) = P (S3)� P (A1) = 1�1

8=7

8;

P (A5) = P (S3)� P (A2) = 1�1

8=7

8;

P (A6) = P�A1 \ A2

�= 1� P (A1 [ A2) =

3

4

2. En el experimento aleatorio �lanzar una moneda dos veces�, consid-erar la asignación de probabilidades al evento: A = f(SS) ; (SA) ; (AS)g : Ladistribución de probabilidad toma la forma:

Page 72: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

72CAPÍTULO 2. TEORÍADEPROBABILIDAD: UNMARCODEREFERENCIA PARALAMODELACIÓN

�P (SS) =

1

4; P (SA) =

1

4; P (AS) =

1

4

�:

Esto sugiere que P (A) = P (SS)+ P (SA) + P (AS) = 34:

En el caso donde S es in�nito esta forma de asignar probabilidades no esapropiada. Una forma más e�ciente de hacerlo es dada por el concepto defunción de densidad de�nida en el capitulo que siguiente.(b) Conjunto contable de resultados: S = fs1; s2; :::; sn; :::g :Es una extensión del caso �nito donde los resultados elementales s1; s2; :::; sn; :::

son mutuamente excluyentes y conforman una partición de S; es decir, [1i=1si =S. El axioma [3] implica que P ([1i=1si) =

P1i=1 P (si) = 1 (por axioma [1])

y sugiere que la asignación de probabilidades a los resultados proporciona ladistribución de probabilidad sobre S :

[p (s1) ; p (s2) ; :::; p (sn) ; :::] ; tal queX1

i=1p (si) = 1:

La probabilidad del evento A en = (que puede coincidir con el conjuntopotencia de S) es de�nida por:

P (A) = p (s1) + p (s2) + :::+ p (sn) + ::: =X1

i=1p (si) :

En contraste con el caso �nito, las probabilidades [p (s1) ; p (s2) ; :::; p (sn) ; :::]no pueden ser iguales porque 8p > 0; no obstante pequeña, donde p (sn) = p8n = 1; 2; 3; :::; es decir 8p > 0;

P1i=1 p =1:

Notar que la única forma de acotar esta suma es hacer que p sea funciónde n; por ejemplo, pn = 1

n:P1

i=11nk<1; para k > 1:

Ejemplo.Considerar el caso, �lanzar una moneda no perfecta hasta que aparezca

un sol�siendo el espacio de eventos el conjunto potencia de

S4 = f(S) ; (AS) ; (AAS) ; (AAAS) ; (AAAAS) ; ::::g :

Aquí,P (S) = � y P (A) = 1 � � y P (AS) = (1� �) �; P (AAS) = (1� �)2 �;

P (AAAS) = (1� �)3 �; P (AAAAS) = (1� �)4 �; P (AA:::AS) = (1� �)n �;etc.(c) Conjunto no contable de resultados S:Sin pérdida de generalidad, considerar:

Page 73: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

2.6. FORMALIZACION DE [B] 73

S = fx : 0 � x � 1; x 2 Rg :

Para usar el axioma [3] este intervalo se puede expresar como unión con-table de conjuntos disjuntos Ai; i = 1; 2; 3; :::

[0; 1] = [1i=1Ai

donde Ai \ Aj = ;; i 6= j; i; j = 1; 2; ::: y P (Ai) es la misma 8Ai; i =1; 2; 3; :::Pero esto conduce a inconsistencias porque del axioma [3]: P ([0; 1]) =P ([1i=1Ai) =

P1i=1 P (Ai) ; y entonces P ([0; 1]) = 0; si P (Ai) = 0, o P ([0; 1]) =

1; si P (Ai) > 0: (En ningún caso la suma es 1).Este intento fracasa debido a la naturaleza de los conjuntos disjuntos

Ai; i = 1; 2; 3; :::Ellos son elementos del conjunto potencia P [(0; 1)] ; pero nonecesariamente elementos de un ��campo asociado a este intervalo. Comose dijo antes, la estructura matemática necesaria para una asignación consis-tente de probabilidades es la de un ��campo.¿Cómo asignar probabilidades en el caso de un conjunto no contable de

resultados?. La cuestión es saber si se puede iniciar con una clase arbitrariade subconjuntos de S, por ejemplo, D, con P (:) de�nida para todo elementode D, y entonces proceder a extenderla a un ��campo generado por D. Estose puede hacer sólo si D es un campo. Esto se debe a que el axioma [3]restringue la asignación de probabilidades a uniones contables de conjuntosdisjuntos. Y, dada una unión arbitraria de elementos de D, esta se puedeexpresar como unión contable de conjuntos disjuntos sólo si D es un campo.Matemáticamente, la extensión de la asignación de probabilidades de un

conjunto de eventos a un espacio de eventos se logra iniciando con uncampo D y expresándolo como una unión contable de conjuntos disjuntos so-bre los cuales P (:) esta de�nida. Se puede entonces extenderD al ��campo=generado por D; denotado por = = � (D) ; obtenido mediante complementos,intersecciones y uniones contables de los elementos de D: De�nida la funciónde probabilidad P (:) sobre D; se puede entonces proceder a extenderla a to-dos los elementos de =, usando el teorema de extensión de Caratheroodory(Williams, 1991).Ejemplo.Este procedimiento se ilustra mejor en el caso donde S = R y el ��campo

es B (R) que es generado por subconjuntos de la forma:Bx = f(�1; x] : x 2 Rg :Primero se de�ne P (:) sobre Bx y entonces se procede a extenderla a todos los

Page 74: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

74CAPÍTULO 2. TEORÍADEPROBABILIDAD: UNMARCODEREFERENCIA PARALAMODELACIÓN

subconjuntos de la forma: (a;1) ; (a; b] ; fag ; (a; b) 8a; b 2 R, a < b; usandoel teorema de extensión de Caratheroodory.Además de estas propiedades, el axioma de aditividad contable es también

necesario para asegurar la continuidad de la función de probabilidad que sedescribe en la siguiente subsección.

2.6.3 Espacio de probabilidad [S;=;P (:)]Matemáticamente, esto completa la formalización de las dos primeras condi-ciones que de�nen un experimento aleatorio

E �

[a]! S;[b]! (=;P (:))

�donde = es el ��campo de subconjuntos de S llamado espacio de eventos

y P (:) es una función (de probabilidad) que satisface los axiomas [1]-[3]. Laterna

(S;=;P (:))

de�ne un espacio de probabilidad11. Este espacio tiene la estructuramatemática necesaria para usarse como fundamento para construir la teoríade la probabilidad.Generalmente, en la aproximación matemática, el siguiente paso es

(S;=;P (:)) lógica matemática! Teoría de probabilidad

Aquí, siendo el objetivo la modelacion:

(S;=;P (:))! Modelo de probabilidad! Teoría de probabilidad

2.6.4 Deducción matemática

Como ciencia deductiva, la matemática:

Axiomas (premisas)lógica deductica! Teoremas

11Pfei¤er (1978) y Khazanie (1976).

Page 75: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

2.6. FORMALIZACION DE [B] 75

Como ilustración, se derivan algunos teoremas del espacio de probabilidaddeducido antes.Asumiendo que los axiomas [1]-[3] son verdaderos, se derivan corolarios

que dan una descripción más completa del marco matemático de referencia.Teorema 1. P

�A�= 1� P (A) :

Prueba. Como A [ A = S y A \ A = ;; P (S) = 1 = P�A [ A

�=

P�A�+ P (A) ; ) P

�A�= 1� P (A) q.e.d.

La primera igualdad por [1], la segunda por que A [ A = S y la terceraporque A \ A = ; y por [3]:Ejemplo.Lanzar una moneda dos veces y sea A = f(SS) ; (SA) ; (AS)g : Como

A = f(AA)g ; por teorema 1, P�A�= 1� P (A) = 1� 3

4= 1

4:

Usando el teorema 1 en el caso donde A = S (y entonces A = ;) sededuce:Teorema 2. P (;) = 0.El teorema que sigue extiende el axioma [2] al caso de eventos no mutu-

amente excluyentes.Teorema 3. P (A [B) = P (A) + P (B)� P (A \B) :Prueba. Se de�ne A[B en términos de eventos mutuamente excluyentes

y entonces se usa [3]: Los eventos C = fA� (A \B)g y B son mutuamenteexcluyentes y C [B = A [B: Entonces, por [3]:

P (A [B) = P (C [B) = P fA� (A \B)g+P (B) = P (A)+P (B)�P (A \B) :

Ejemplo.Para A de�nido en ejemplo 1 y B = f(SS) ; (AA)g ; el teorema 3 implica

que P (A [B) = 34+ 1

2� 1

4= 1:

El teorema que sigue es de gran interés matemático. Se da una pruebasólo parcial. Una prueba completa está en Karr (1993).Teorema 4. (propiedad de continuidad de la función de probabil-

idad). Para fAng1n=1 2 =; si limn!1An = A 2 =; entonces lim

n!1P (An) = P (A) :

Según este teorema, el límite de una sucesión de eventos es también unevento. ?�Qué signi�cado dar a esto?. Una respuesta parcial se da notandoque para dos tipos especiales de sucesiones, el límite se de�ne en términos deuniones e intersecciones contables.

Page 76: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

76CAPÍTULO 2. TEORÍADEPROBABILIDAD: UNMARCODEREFERENCIA PARALAMODELACIÓN

Sucesión no decreciente. Una sucesión de eventos fAng1n=1 es no de-creciente si A1 � A2 � � � � � An � An�1 � An�2 � � � � Para tal secuencia,limn!1

An = [1n=1An:Sucesión no creciente. Una sucesión de eventos fAng1n=1 es no creciente

si A1 � A2 � � � � � An � An�1 � An�2 � � � � Para tal sucesión, limn!1

An =

\1n=1An:Ahora se considera una prueba parcial del teorema 4 referida sólo a suce-

siones no decrecientes. En este caso, limn!1

An = [1n=1An: Este límite sepuede expresar en la forma de eventos mutuamente excluyentes de la forma(Ak�1 � Ak) y (Aj�1 � Aj) para k 6= j; que tiene las propiedades:

(Ak�1 � Ak) \ (Aj�1 � Aj) = ;; P (Ak�1 � Ak) = P (Ak�1)� P (Ak) :

Usando tales eventos y asumiendo que A0 = ;; se puede de�nir An como:

limn!1

(An) =1[n=1

An = A1 + (A2 � A1) + (A3 � A2) + � � �

Para A = limn!1

(An) ; (de la relación anterior y del axioma [3]):

P�limn!1

An

�= P (A1) + P (A2 � A1) + � � �+ P (Ak�1 � Ak) + � � �

= P (A1) + P (A2)� P (A1) + � � �+ P (Ak�1)� P (Ak) + � � �= lim

n!1P (An) :

Esto signi�ca que la función de probabilidad P es continua por la izquierda.La prueba general del teorema requiere hacerlo para secuencias no crecientes(continuidad por la derecha) secuencias nulas (continuidad en ;). Ver Shiryayev(1984).Un teorema relacionado es la desigualdad de Bonferroni. Se enuncia sin

prueba. Ver Chung (1974), Feller (1968).

Teorema 5. P�

nTk=1

Ak

�� 1�

Pnk=1 P

�Ak�; Ak 2 =; k = 1; 2; :::; n:

Page 77: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

2.7. FORMALIZACIÓNDE LACONDICIÓN [C]: PRUEBASALEATORIAS77

2.7 Formalización de la condición [c]: pruebasaleatorias

La condición [c] contiene dos componentes interrelacionados:(i) las circunstancias del experimento son las mismas en toda prueba y(ii) el resultado de una prueba no afecta el de otra.Para formalizar (i) (sucesión �nita de pruebas), sea esta sucesión de n

pruebas fA1;A2; :::;Ang y cada prueba se asocia con un espacio de probabil-idad (Si;=i;Pi (:)), i = 1; 2; :::; n; respectivamente. Para analizar la relaciónentre pruebas éstas se agrupan en un espacio de probabilidad (sin él no sepuede formalizar la condición [c]): El espacio de probabilidad que ello sugierees el espacio de probabilidad producto :

(S1;=1;P1 (:))� (S2;=2;P2 (:))� � � � � (Sn;=n;Pn (:)) ;que se concibe como una terna de la forma:

([S1 � S2 � � � � � Sn] � [=1 �=2 � � � � � =n] � [P1 � P2 � � � � � Pn]) :=:=�S(n);=(n);P(n)

�Este es un espacio de probabildad porque S(n) =

�s(n) : s(n) := (s1; s2; :::; sn) ; si 2 Si; i = 1; 2; :::; n

es un conjunto de resultados, =(n) tiene la estructura necesaria de un ��campo(para n �nito) y P(n) es una función satisface los axiomas [1]-[3]: (Ver Parthasarathy,1977).Establecido que el espacio de probabilidad producto es un espacio de

probabilidad, se procede a ver la sucesión de pruebas fA1;A2; :::;Ang comoun evento en

�S(n);=(n);P(n)

�; al que se le pueden asignar probabilidades.

El componente (i) de la condición [c] se formaliza asegurando que�S(n);=(n);P(n)

�es el mismo en cada prueba en el sentido de que:

(Si;=i;Pi (:)) = (S;=;P (:)) ;8i = 1; 2; :::; n:Se llama condición de distribución idéntica (ID). Más formalmente,

esta condición reduce el espacio producto de probabilidad�S(n);=(n);P(n)

�a:

(S;=;P (:))� (S;=;P (:))� � � � � (S;=;P (:)) = (S;=;P (:))n

con el mismo espacio de probabilidad asociado a cada prueba.

Page 78: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

78CAPÍTULO 2. TEORÍADEPROBABILIDAD: UNMARCODEREFERENCIA PARALAMODELACIÓN

El componente (ii) de la condición [c] se formaliza bajo la forma de inde-pendencia entre las pruebas: dado el resultado de una prueba j; las proba-bilidades asociadas con los distintos resultados en la prueba i no cambian yviceversa. La idea de �dado el resultado de una prueba j; el resultado de laprueba i no es afectado�se formaliza usando la noción de condicionalidad.

2.7.1 Probabilidad condicional e independencia

La noción de condicionalidad surge cuando se tiene información adicionalsobre el experimento en cuestión. En el caso de lanzar una moneda dos veces,si se sabe que el resultado tendrá al menos una cara, esta información afectarálas probabilidades de ciertos eventos. Dada esta información el resultado(SS) no es ya posible y entonces los resultados (SA) ; (AS) ; (AA) ahoratienen probabilidades de 1

3y no de 1

4como antes.

Se obtienen probabilidades condicionales utilizando la fórmula:

P (AjB) = P (A \B)P (B)

; para P (B) > 0;

8 evento A 2 =; donde P (.) es la función de probabilidad original de�nidaen =:Ejemplo.Veri�car esto, conA = fASg y conB: Como (A \B) = fASg ; P (AjB) =

1434

= 13:

Usando la fórmula condicional, de deduce la regla de probabilidad pro-ducto:

P (A \B) = P (AjB)P (B) = P (BjA)P (A)

Combinando ambas fórmulas se obtiene la de Bayes:

P (AjB) = P (A)P (BjA)P (B)

; para P (B) > 0;

Independencia. La noción de condicionamiento se puede usar para de-terminar si dos eventos A y B son independientes, lo que ocurre si: P (AjB) =P (A) ; o alternativamente, si P (A \B) = P (A) �P (B)12:Ejemplo. (Lanzar dos monedas).

12Esta noción de independencia se remonta a Cardano (1550).

Page 79: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

2.8. ESPACIO ESTADÍSTICO 79

Para A = f(SS) ; (AA)g y B = f(AA) ; (SA)g, (A \B) = f(AA)g ; yentonces P (A \B) = 1

4= P (A)�P (B) ; implicado que A y B son independi-

entes.Con más generalidad, los eventos A1; A2; :::; An son independientes sí y

sólo sí

P (A1 \ A2\; :::;\An) = P (A1) �P (A2) ���P (Ak) ; k = 2; 3; :::; n:

2.8 Espacio estadístico

Ahora se formaliza el componente (ii) de la condición [c]:Espacio muestral. Una sucesión de n pruebas Gn = fA1;A2; :::;Ang,

dondeAi es la prueba i-ésima del experimento, asociada con�S(n);=(n);P(n)

�,

es un espacio muestral.Como se dijo antes, las n pruebas Gn = fA1;A2; :::;Ang se consideran un

evento en�S(n);=(n);P(n)

�: Como evento, se le pueden asignar probabildades

usanto la funcion P(n): Por lo tanto, se formaliza (ii) postulando que laspruebas son independientes si13

[ii] P(n) (A1 \ A2\; :::;\Ak) = P1 (A1) �P2 (A2) ���Pk (Ak) ; k = 2; 3; :::; n:

o

[ii]� P(n) (Ak j A1 \ A2\; :::;\Ak�1;Ak+1::;An) = Pk (Ak) ; k = 1; 2; 3; :::; n:

Tomando las condiciones I e ID se de�ne una sucesión de experimentosaleatorios: una sucesión de pruebas GIIDn = fA1;A2; :::;Ang ; es decir,

P(n) (A1 \ A2\; :::;\Ak) = P (A1) �P (A2) ���P (Ak) ; k = 2; 3; :::; n:

es una sucesión de pruebas aleatorias14.

13Notar que P(n) (�) y P(k) (�) son distintas funciones de probabilidad siendo sus espa-cios de probabilidad, respectivamente,

�S(n) � =(n) � P(n) (�)

�y�S(k) � =(k) � P(k) (�)

�(ver

Pfei¤er, 1978).14Notar que GIIDn es una forma particular de un espacio muestral Gn asociado con�S(n);=(n);P(n) (�)

�en el sentido que GIIDn está asociado con (S;=;P (�))n :

Page 80: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

80CAPÍTULO 2. TEORÍADEPROBABILIDAD: UNMARCODEREFERENCIA PARALAMODELACIÓN

Combinando un espacio de probabilidad producto y una sucesión de prue-bas aleatorias se de�ne un espacio estadístico simple, denotado por:�

(S;=;P (:))n ;GIIDn

�:

Es simple porque es un caso particular de la formulación más general deespacio estadístico: ��

S(n);=(n);P(n) (:)�;Gn�:

donde cada prueba, por decir, A1; está asociada con un espacio de proba-bilidad distinto (Si;=i;Pi (:)) (es decir, no ID) y las pruebas no son necesari-amente independientes. En campos como la econometría se necesita utilizarla formulación más general.La primera formalización completa de la noción de experimento aleatorio

es el espacio estadístico simple�(S;=;P (:))n ;GIIDn

�: Sin embargo, esta for-

mulación es muy abstracta porque implica conjuntos arbitrarios y conjuntosde funciones, no números ni funciones numéricas más familiares en los cursosde cálculo. En el capítulo siguiente a dicho espacio se le da una forma másmanipulable mapeando esta estructura matemática en la recta real.En resumen:

E =

24 [a][b][c]

35 )))

0@ S=;P (:)Gn

1A)�(S;=;P (:))n ;GIIDn

�:

Se ha dado una introducción a la teoría de la probabilidad formalizandoun mecanismo aleatorio simple llamado experimento aleatorio. La noción deespacio estadístico da el fundamento matemático de la teoría de la probabil-idad. En los dos capítulos siguientes: EES ! MES, para ello:1. EES ! � = ff (x; �) ; � 2 �; x 2 Rg :2. Espacio muestral ! Modelo muestral (llamado muestra aleatoria: un

conjunto de variables aleatorias X =(X1; X2; ::; Xn) que son IID).4. MES ! datos.5. En los capítulos 6-8 se extiende la noción de modelo estadístico mues-

tral para modelar datos económicos que exhiben regularidad aleatoria másallá de la muestra aleatoria tales como ciclos comerciales, crecimiento y �uc-tuaciones en tasas de cambio.

Page 81: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

Capítulo 3

El concepto de modelo deprobabilidad

3.1 Introducción

3.1.1 La historia hasta ahora

En el capítulo anterior hemos iniciado el largo viaje para explorar la teoríade la probabilidad que se re�ere a la con�guración de un marco de referen-cia teórico (matemático) para modelar fenómenos estocásticos: fenómenosobservables que muestran regularidad aleatoria. El camino particular queseguimos se inició con la formalización de la noción de un experimento aleato-rio E , de�nido por las siguientes condiciones:[a] todos los posibles distintos resultados se conocen a priori,[b] en un ensayo particular, los resultados no se conocen a priori, sino que

existe una regularidad perceptible de ocurrencia, asociada con estos resulta-dos y[c] se puede repetir en condiciones idénticas.La matematización tomó la forma de un espacio estadístico

�(S;=;P (:))n ;GIIDn

�donde (S;=;P (:)) es un espacio de probabilidad y GIIDn es un espacio mues-tral simple.El objetivo principal de este capítulo es transformar el espacio abstracto

de probabilidad (S;=;P (:)) en algo apropiado para la modelación empíricautilizando datos numéricos; algo de�nido en la recta real. El objetivo �nal deeste capítulo es la formulación de lo que llamamos unmodelo de probabil-idad, uno de los dos pilares de un modelo estadístico; y el otro es el modelo

81

Page 82: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

82 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

muestral que será el tema del siguiente capítulo en el que consideramos lametamorfosis de GIIDn .

3.1.2 ¿Porqué nos interesa?

El espacio estadístico, aunque adecuado para propósitos matemáticos, no sepresta naturalmente para la modelación de fenómenos estocásticos. Fenó-menos estocásticos, tales como la tasa de crecimiento y la in�ación de laeconomía, se observan a menudo en forma de datos numéricos y no en tér-minos de eventos abstractos. Por lo tanto, para propósitos de modelizacióntenemos que transformar el abstracto espacio estadístico, de�nido en térmi-nos de eventos y funciones conjunto, en algo menos abstracto, de�nido entérminos de números y funciones numéricas.

3.1.3 Una vista panorámica del capítulo

El modus operandi de esta transformación es el concepto de variable aleato-ria, uno de los conceptos principales de la teoría de la probabilidad. Su fun-ción principal es que nos permite mapear el espacio estadístico

�(S;=;P (:))n ;GIIDn

�en la recta real (R). En un intento por dilucidar el papel de este importanteconcepto discutimos la transformación del abstracto espacio de probabilidad(S;=;P (:)), en un modelo de probabilidad mucho más simple, con el mínimode maquinaria matemática, en la sección 2 para el caso donde el conjunto deresultados es numerable. En la sección 3 consideramos el concepto de variablealeatoria en un entorno general. En la sección 4 completamos la cadena detransformaciones discutiendo el último eslabón: la distribución acumulada ylas funciones de densidad que constituyen el elemento básico de un modelode probabilidad. En la sección 5 reunimos los resultados de las seccionesanteriores y completamos la transformación del espacio de probabilidad enun modelo de probabilidad (intercambiamos un espacio por un modelo!).En las secciones 6 y 7 tomamos una digresión importante en un intentopor relacionar los parámetros desconocidos (el enfoque de la inferencia es-tadística paramétrica) con las características numéricas de las distributiones.Introducimos numerosos conceptos de valor, como los momentos de una dis-tribución, que resultarán imprescindibles en el contexto de la modelación,así como de la inferencia estadística. Baste decir que la modelizaciónse hacea menudo a través de los momentos de una distribución. En la sección 8

Page 83: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 83

exponemos varias desigualdades probabilísticas que relacionan proposicionesprobabilísticas para una variable aleatoria X y ciertos momentos.

3.2 El concepto de variable aleatoria simple

Con el �n de ayudar al lector a mantener un ojo en el bosque decimos desdeel principio que el mapeo del espacio de probabilidad (S;=;P (:)) a la rectareal (R) se llevará a cabo en tres pasos. El primer paso es mapear S en larecta real R, de tal manera que se preserve la estructura del evento de interés=; el concepto de variable aleatoria X. Armados con el concepto de variablealeatoria procedemos a dar el segundo paso, que equivale a intercambiar lafunción conjunto probabilidad

P (:) : = ! [0; 1]

por una función numérica mucho más simple punto a punto, la funciónde distribución acumulada (fda), de�nida en términos de X :

FX (:) : R! [0; 1]

El tercer paso es simpli�car la fda transformándola en la función dedensidad :

fX (:) : R! [0;1)

La noción de modelo de probabilidad se de�ne a menudo en términos dela función de densidad.Desde el punto de vista matemático, es siempre más satisfactorio de�nir

un concepto en toda su generalidad y luego proceder a analizar los casosespeciales. Desde el punto de vista pedagógico, sin embargo, con frecuenciaes mejor comenzar la discusión con el caso más simple y, a continuación, pro-ceder a la formulación más general con el �n de ayudar al lector a comprenderel concepto sin maquinaria matemática indebida. En el caso del concepto devariable aleatoria lo que hace que la de�nición sea fácil o no tan fácil, desdeel punto de vista matemático, es si el conjunto de resultados es contable ono. En el caso de un conjunto contable de resultados, la variable aleatoria sedice que es simple (o discreta) ya que toma un número numerable de valores.Para ayudar al lector a comprender el concepto moderno de variable aleato-ria y cómo se transforma el abstracto espacio estadístico en algo mucho más

Page 84: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

84 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

fácil de manejar, la discusión se inicia con el caso más simple y después sediscuten los más complicados:(i) el conjunto de resultados es �nito,(ii) el conjunto de resultados es in�nito numerable,(iii) el conjunto de resultados no es numerable

3.2.1 Conjunto �nito de resultados: S = fs1; s2; :::; sngUna variable aleatoria simple con respecto al espacio de eventos =, sede�ne como una función

X (:) : S ! RX tal que AX := fs : X (s) = xg 2 = para todo x 2 R (3.1)

Heurísticamente, una variable aleatoria es una función que asigna númerosa todos los elementos de S en una manera que preserva la estructura delespacio de eventos =.Ejemplo.La función X (:) : S ! RX = f1; 2g ; donde S = f|;�;�;~g de�nida

por

X (|) = X (�) = 1; X (�) = X (~) = 2

es una variable aleatoria con respecto al espacio de eventos

= = fS; ;; f|;�g ; f�;~gg

Esto se debe a que los eventos asociados con RX = f1; 2g:A1 = fs : X (s) = 1g = f|;�g 2 = y A2 = fs : X (s) = 2g = f�;~g 2 =son eventos que pertenecen a =.ContraejemploLa función Y (:) : S ! RY = f0; 1g ; de�nida por

Y (~) = 0; Y (|) = Y (�) = 1; X (�) = 1 (3.2)

no es una variable aleatoria respecto a= porque el evento fs : Y (s) = 0g =f~g =2 =.Hay varias cosas que tener en cuenta sobre la de�nición anterior:

Page 85: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 85

En primer lugar, el nombre de variable aleatoria es algo inapropiado. Lade�nición de variable aleatoria (3.1) no tiene nada que ver con probabilidadesy por lo tanto, no es ni aleatoria ni variable, es sólo una función real.En segundo lugar, el concepto de variable aleatoria se de�ne siempre

en relación con un espacio para eventos =; si o no X (:) satisface la condición(3.1) depende de =, no de P (:). El hecho de que una cierta función real no seauna variable aleatoria con respecto a = particular, no signi�ca que no puedeser una variable aleatoria con respecto a algún otro espacio de eventos. Enefecto, para toda función Y (:) : S ! RY podemos siempre de�nir un campo=Y con respecto al que Y (:) es una variable aleatoria; llamamos =Y el campogenerado por Y (:); ver Bhat (1985).

Figura 3.1 La preimagen de una función.

EjemploEn el caso de Y (:) como se de�ne en (3.2) podemos generar un espacio

para eventos =Y con respecto al cual es una variable aleatoria simple, de lasiguiente manera(i) de�nir todos los eventos asociados con Y (:) :

fs : Y (s) = 1g = f|;�;�g ; fs : Y (s) = 0g = f~g ;(ii) generar un campo usando los eventos derivados en (i):

=Y := � (Y ) = fS; ;; f|;�;�g ; f~gg ;=Y := � (Y ) es conocido como el mínimo campo generado por la variable

aleatoria Y:

Page 86: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

86 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

Tercero, el conjunto AX no es un conjunto sobre la recta real, es lapreimagen de X en X = x que también puede ser denotada por:

AX = fs : X (s) = xg = X�1 (x) ; x 2 R.NOTE que la preimagen de X no es la función inversa habitual. El

concepto de una preimagen de un elemento del codominio se ilustra en la�gura 3.1.Cuarto, los valores de R que no pertenecen a Rx tienen al conjunto vacio

; como su preimagen. El conjunto vacío, sin embargo, pertenece siempre atodo =:

X�1 (x) = fs : X (s) = xg = ; 2 =;8x 2 Rx := (R� Rx) :En un cierto sentido, el concepto de variable aleatoria conserva la estruc-

tura de eventos de un espacio particular de eventos =, al asegurar que lapreimagen de la función X (:) : S ! RX , de�ne un mapeo

X�1 (:) : R! =

donde 8x 2 RX , X�1 (x) 2 = y 8x =2 RX , X�1 (x) = ; 2 =. Esto dividela recta real en dos subconjuntos, RX y RX , con el primero asociado conla estructura de eventos de interés y el segundo con todo lo que carece deinterés.Quinto, la naturaleza de la variable aleatoria depende fundamentalmente

del tamaño del campo en cuestión. Si = es pequeño, ser una variable aleatoriacon respecto a = es muy restrictivo. Por ejemplo en el caso =0 = fS; ;g laúnica X (:) : S ! R que es una variable aleatoria con respecto a =0 esX (s) = c; 8s 2 S; siendo c una constante X es una variable aleatoriadegenerada. Por otro lado, si es grande =, por decir el conjunto potencia,entonces se necesita mucha extraña imaginación para de�nir una funciónX (:) : S ! R que no es una variable aleatoria con respecto a el. Después deestas observaciones sobre la de�nición de una variable aleatoria volvamos alconcepto mismo para considerar algunos ejemplosEjemplo.Un ejemplo importante de una variable aleatoria simple es la función

indicador de�nida en relación con un conjunto A en = como sigue:

IA (s) =�1; s 2 A0; s =2 A

Page 87: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 87

Vamos a demostrar que IA (s) es en realidad una variable aleatoria. Tomandosu preimagen se obtiene

I�1A (0) = A 2 = y I�1A (1) = A 2 =:

Sabemos que esto es cierto, porque si A 2 = entonces A 2 =. Estodemuestra que la IA (:) es una variable aleatoria con respecto a =. Además,=A =

�A;A; S; ;

es el mínimo espacio de eventos generado por la función

indicador.Asignando probabilidadesUtilizando el concepto de variable aleatoria mapeamos S (un conjunto

arbitrario) en un subconjunto de la recta real (un conjunto de números)RX . Porque no queremos cambiar la estructura original de probabilidadde (S;=;P (:)) imponemos la condición (3:1) para garantizar que todos loseventos de�nidos en términos de la variable aleatoria X pertenezcan al es-pacio original de eventos =. También queremos asegurarnos de que a losmismos eventos en el espacio de probabilidad original (S;=;P (:)) y la nuevaformulación, tal como AX = fs : X (s) = xg, se les asignen las mismas prob-abilidades. Con el �n de asegurar esto, se de�ne la función punto fX (:) quellamamos función de densidad de la siguiente manera:

fX (:) = P (X = x) ;8x 2 RX . (3.4)

NOTE que (X = x) es una notación abreviada paraAX := fs : X (s) = xg.Con claridad, x =2 RX , X�1 (x) = ; y, por lo tanto, fX (X) = 0, para todax =2 RX .Ejemplo. En el caso de la función indicador, si permitimos que X (s) :=

IA (s), podemos de�nir la densidad de probabilidad de la siguiente manera:

fX (1) := P (X = 1) = �; y fX (0) := P (X = 0) = (1� �) ,

donde 0 � � � 1. Esto se conoce como la densidad de Bernoulli:

x 0 1fX (x) (1� �) �

¿Qué hemos ganado?En el contexto del espacio de probabilidad original (S;=;P (:)), donde

S = fs1; s2; :::; sng, la estructura probabilística del experimento aleatorio seha especi�cado en términos de

Page 88: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

88 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

fp (s1) ; p (s2) ; :::; p (sn)g ; tal quenXi=1

p (si) = 1.

Armados con esto podemos asignar una probabilidad a cualquier eventoA 2 = como sigue. Sabemos que todos los eventos A 2 = son sólo unionesde ciertos resultados. Dado que los resultados también son eventos elemen-tales mutuamente excluyentes, procedemos a utilizar el axioma [3] (véaseel capítulo 2) para de�nir la probabilidad de A como igual a la suma delas probabilidades asignadas a cada uno de los resultados que componen elevento A, es decir, si A = fs1; s2; :::; skg, entonces:

P (A) =kXi=1

p (si) :

EjemploEn el caso del experimento aleatorio de "lanzar una moneda dos veces":

S = f(HH) ; (HT ) ; (TH) ; (TT )g ; = = } (S) ,

donde } (S) represesnta el conjunto potencia de S: el conjunto de todoslos subconjuntos de S (véase el capítulo 2). La variable aleatoria de interésse de�ne por: X- el número de "caras". Esto sugiere que los acontecimientosde interés son:

A0 = fs : X = 0g = f(TT )g ;A1 = fs : X = 1g = f(HT ) ; (TH)g ;A2 = fs : X = 2g = f(HH)g :

En el caso de una moneda no trucada, a los cuatro resultados se les da lamisma probabilidad y por lo tanto:

P (A0) = P fs : X = 0g = P f(TT )g = 1

4;

P (A1) = P fs : X = 1g = P f(HT ) ; (TH)g = 1

2;

P (A2) = P fs : X = 2g = P f(HH)g = 1

4:

Page 89: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 89

Volviendo al tema principal de este capítulo, podemos a�rmar que usandoel concepto de variable aleatoria logramos la transformación siguiente:

(S;=;P (:)) X(:)) (RX ; fX (:)) ;

donde la estructura probabilistica original ha sido transformada en:

ffX (x1) ; fX (x2) ; :::; fX (xm)g ; tal queXm

i=1fX (xi) = 1; m � n;

esto se conoce como la distribución de probabilidad de una variablealeatoria X.La cuestión que se plantea en este punto es en qué medida la última de-

scripción de la estructura probabilística es preferible a la primera. A primeravista parece como si ninguna distancia se halla ganado por esta transforma-ción. Sin embargo, esto es engañoso y una gran distancia se ha ganado pordos razones:(a) En lugar de tener que especi�car ffX (x1) ; fX (x2) ; :::; fX (xn)g listán-

dolas, podemos utilizar funciones reales simples en forma de fórmulas talescomo:

fX (x; �) = �x (1� �)1�x ; x = 0; 1; y 0 � � � 1; (3.6)

que especi�can la distribución implícitamente. Para cada valor de X lafunción fX (x) especi�ca su probabilidad. Esta fórmula constituye una formamás compacta de especi�car la distribución dada anteriormente.(b) Usando tales fórmulas no es necesario conocer las probabilidades aso-

ciadas a los eventos de interés a priori. En el caso de la fórmula anterior,� podría ser desconocido y el conjunto de tales funciones de densidad se leconoce como una familia de funciones de densidad indexadas por �. Estoes particularmente importante para los propósitos de modelización dondedicha colección de funciones de densidad proporciona la base de modelosde probabilidad. En cierto sentido, la incertidumbre sobre el resultado deuna prueba particular (condición [b] de�niendo un experimento aleatorio) seha convertido en la incertidumbre sobre el "verdadero" valor del parámetrodesconocido �.La distribución de�nida por (3.6) se conoce como la distribución de

Bernoulli. Esta distribución se puede utilizar para describir los experimen-tos aleatorios con sólo dos resultados.

Page 90: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

90 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

EjemploConsidere el experimento aleatorio de "lanzar una moneda dos veces":

S = f(HH) ; (HT ) ; (TH) ; (TT )g ; = =�S; ;; A;A

;

donde el evento de interés es, por ejemplo A = f(HH) ; (HT ) ; (TH)g,con P (A) = �; P

�A�= 1 � �. De�niendo la variable aleatoria X(A) = 1

y X(A) = 0, la estructura probabilística del experimento es descrita porla densidad de Bernoulli (3:6). Este tipo de experimento aleatorio se puedeextender fácilmente a n repeticiones del mismo experimento de dos resultado,dando origen a la distribución llamada binomial discutida posteriormente.EjemploConsidere el experimento aleatorio de "lanzar una moneda n veces y con-

tar el número de soles". El conjunto de resultados de este experimento sede�ne por S = fS;Agn (el producto de fS;Ag n veces) con P (S) = �;P (A) = 1� �. De�nir la variable aleatoria:

X: el número total de S en n pruebas.NOTE que el rango de valores de esta nueva variable aleatoria es RX =

f0; 1; 2; :::; ng. La variable aleatoria X está distribuida binomialmente y sufunción de densidad para 0 � x � n es:

fX (x; �) =

�nx

��x (1� �)n�x ; 0 � x � n; n = 1; 2; :::; 0 � � � 1; (3.7)

donde�nx

�= n!

(n�k)!k! ; con n! = n (n� 1) (n� 2) � � � (3) (2) (1).

Page 91: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.2. EL CONCEPTO DE VARIABLE ALEATORIA SIMPLE 91

Figura 3.2 Binomial (n = 10, � = 0:15)

Figura 3.3 Binomial (n = 10, � = 0:5).

Esta fórmula se puede representar grá�camente para valores especí�cosde �. En las �guras 3.2 y 3.3 podemos ver la grá�ca de la función de densidadbinomial (3.7) con n = 10 y dos diferentes valores del parámetro desconocido,� = 0:15 y � = 0:5, respectivamente. El eje horizontal representa los valoresde la variable aleatoria X (RX = f0; 1; 2; 3; :::; ng) y el eje vertical representalos valores de las probabilidades correspondientes, como se muestra debajo.

x 0 1 2 3 4 5 6 78 9 10

f(x; 0:15) 0.197 0.347 0.276 0.130 0.040 0.009 0.001 0.000 0.0000.000 0.000

f(x; 0:5) 0.001 0.010 0.044 0.117 0.205 0.246 0.205 0.117 0.0440.010 0.001Para concluir esta subsección, vale la pena destacar que los bene�cios

del uso de funciones de densidad son aún más evidentes en el caso de queel conjunto de resultados S es in�nito pero contable. Como se muestra acontinuación, en tal caso listar las probabilidades para cada s 2 S en unatabla es imposible. La asignación de probabilidades utilizando una funciónde densidad, sin embargo, hace que sea trivial.

3.2.2 Conjunto contable de resultados: S = fs1; s2; :::; sn; :::gConsideremos el caso del conjunto contable de resultados contables S =fs1; s2; :::; sn; :::g. Se trata de una simple extensión del caso de conjunto

Page 92: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

92 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

�nito de resultados donde la estructura probabilística del experimento seexpresa en términos de:

fp (s1) ; p (s2) ; :::; p (sn) ; :::g ; tal que1Xi=1

p (si) = 1:

La probabilidad de un evento A 2 =, es igual a la suma de las prob-abilidades asignadas a cada uno de los resultados que conforman el eventoA:y

P (A) =kX

i:fsi2Ag

p (si) :

Ejemplo.Consideremos el experimento aleatorio aleatorio "lanzar una moneda hasta

que la primera H aparece" . El conjunto de resultados es:

S = f(H) ; (TH) ; (TTH) ; (TTTH) ; (TTTTH) ; ::::g :

y sea el espacio de eventos el conjunto potencia de S. Si de�nimos lavariable aleatoria X(:) - el número de ensayos necesarios para obtener unaH, es decir

X(H) = 1; X(TH) = 2; X(TTH) = 3; etc.,

y P(S) = �; entonces la función de densidad para este experimento es:

fX (x; �) = (1� �)x�1 �; 0 � � � 1; x 2 RX = f1; 2; 3; :::g

Esta es la función de densidad de la distribución geométrica. Estafunción de densidad se representa grá�camente en las �guras 3.4 - 3.5 paran = 20 y dos valores diferentes del parámetro desconocido � = 0:20 y � =0:35, respectivamente. En cuanto a los grá�cos podemos ver por qué sellama Geométrica: las probabilidades disminuyen geométricamente cuandolos valores de X crecen.

Page 93: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.3. EL CONCEPTO GENERAL DE VARIABLE ALEATORIA 93

3.3 El concepto general de variable aleatoria

Después de haber introducido los conceptos básicos necesarios para la trans-formación del espacio abstracto de probabilidad (S;=;P (:)) en algo másapropiado (y manejable) para propósitos de modelación, utilizando el casomás simple de conjunto contable de resultados, procederemos ahora a explicarestos conceptos en su plena generalidad.

3.3.1 Conjunto no contable de resultados

Como preludio a la discusión que sigue, vamos a ver por qué la estrategiaanterior de asignar probabilidades a cada uno de los resultados en el caso deun conjunto no contable, por ejemplo S = R, no funciona. La razón es muysimple: el conjunto de resultados tiene

Figura 3.4 Geométrica (n = 20; � = 0:2) :

Page 94: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

94 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

Figura 3.5 Geométrica (n = 20; � = 0:35) :

tantos elementos que es imposible colocarlos en una sucesión y por lotanto contarlos. Por lo tanto, cualquier intento de seguir el procedimientoutilizado en el caso de conjunto contable de resultados dará lugar a di�cul-tades insalvables. Intuitivamente sabemos que no podemos cubrir la rectareal punto por punto. La única manera de recubir R, o cualquiera de sus sub-conjuntos incontables, es utilizar una sucesión de intervalos de cualesquierade las siguientes formas:(a; b) ; [a; b] ; [a; b) ; (�1; a] ; donde a < b; a; b 2 R:Veremos en la secuela que la forma más conveniente para tales intervalos

es

f(�1; x]g 8x 2 R.

Variable aleatoria

En vista de la discusión anterior, cualquier intento de de�nir una variablealeatoria utilizando la de�nición de una variable aleatoria simple:

X (:) : S ! RX tal que fs : X (s) = xg := X�1(x) 2 =8x 2 R (3.9)

está condenado al fracaso. Hemos convenido en que la única maneraque podemos recubir R es el uso de intervalos no de puntos. Los intervalossemiin�nitos (3.8) sugieren la modi�cación de los eventos fs : X (s) = xg de(3.9) en eventos de la forma fs : X (s) � xg.Una variable aleatoria relativa a = es una función X (:) : S ! R, que

satisface la restricción:

fs : X(s) � xg := X�1 ((�1; x]) 2 = para todo x 2 R: (3.10)

NOTE que la única diferencia entre esta de�nición y la de una variablealeatoria simple se presenta en forma de los eventos utilizados. Además,teniendo en cuenta el hecho de que:

fs : X(s) = xg � fs : X(s) � xg

Page 95: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.3. EL CONCEPTO GENERAL DE VARIABLE ALEATORIA 95

esta última de�nición incluye la primera como un caso especial, de ahí eltérmino variable aleatoria simple. En principio, podríamos haber empezadola discusión con la de�nición general de una variable aleatoria (3.10) y despuésaplicarla a los varios distintos tipos de conjuntos de resultados.A patir de esta de�nición podemos ver que la preimagen de la variable

aleatoria X(:) nos conduce desde intervalos (�1; x], x 2 R, de nuevo alespacio de eventos =. El conjunto de todos tales intervalos genera un �-campo en la recta real que llamamos el campo Borelß(R):

ß(R) = � ((�1; x] ; x 2 R).

Por lo tanto, en un sentido formal, la preimagen de la variable aleatoriaX consituye un mapeo del campo de Borel ß(R) al espacio de eventos = ytoma la forma:

X�1 (:) :ß(R)! =

Esto asegura que la variable aleatoria X preserve la estructura de eventosde = debido a que la preimagen preserva el conjunto de operaciones teóricas(ver Karr (1973)):

(i) Unión: X�1 (S1i=1Bi) =

S1i=1X

�1 (Bi)(ii) Intersección: X�1 (

T1i=1Bi) =

T1i=1X

�1 (Bi)

(iii) Complemento: X�1 �B� = (X�1 (Bi)).

El espacio de probabilidad inducido por una variable aleatoria*Vamos a hacer un balance de lo que hemos logrado hasta ahora. La

transformación del espacio de probabilidad (S;=;P (:)) en algo más apropiadopara los propósitos de la modelizaciónhasta el momento ha intercambiadoel conjunto de resultados S por un subconjunto de la recta real RX y elespacio de eventos = por el campo Borel ß(R). El modus operandi de estatransformación ha sido el concepto de variable aleatoria. El siguiente pasoserá transformar P (:) : = ! [0; 1] en una función conjunto sobre la recta realo, más precisamente sobre ß(R). Esta transformación de la función conjuntode probabilidad toma la forma:

P (X � x) = PX�1 ((�1; x]) = PX ((�1; x]) ,

Page 96: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

96 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

Es muy importante NOTAR en esta etapa que los eventos en los términosprimero y segundo son los elementos del espacio de eventos = pero que el dela última igualdad es un elemento de ß(R). Ahora estamos en condicionespara asignar probabilidades a intervalos de la forma ((�1; x] ; x 2 R) cuyapreimagen pertenece a =. Para otros intervalos de la forma (a; b), [a; b], [a; b),(�1; a), etc podemos usar el teorema de extensión de Caratheodory para ex-tender la función conjunto de probabilidad con el �n a asignar probabilidadesa cada elemento Bx de ß(R).

PX�1 (Bx) = PX (Bx) para todo Bx 2ß(R) .

Esto de�ne una nueva función conjunto de probabilidad como una funcióncompuesta PX�1 (:) donde P (:) : = ! [0; 1] ; X�1 :ß(R)! =, y por lo tanto:

PX (:) := PX�1 (:) :ß(R)! [0; 1] :

Reuniendo los elementos anteriores podemos ver que, en efecto, una vari-able aleatoria X induce un nuevo espacio de probabilidad (R;ß(R) ;PX (:))con el que podemos reemplazar el abstracto espacio de probabilidad (S;=;P (:)).La principal ventaja del primero sobre el segundo es que todo tiene lugar enla recta real y no en un espacio abstracto. En analogía directa con los re-sultados del caso de conjunto contable de resultados, el concepto general deuna variable aleatoria induce el siguiente mapeo:

(S;=;P (:)) X(:)! (R;ß(R) ;PX (:))

Es decir, con la ayuda deX(:) intercambiamos S por R, = porß(R) y P (:)por PX (:). Para �nes de referencia llamamos a (R;ß(R) ;PX (:)) el espaciode probabilidad inducido por una variable aleatoria X; ver Galambos (1995).Funciones Borel (medibles). En teoría de la probabilidad estamos

interesados no sólo en las variables aleatorias, sino también en funciones biencomportadas de dichas variables aleatorias. Por funciones bien comportadasen el cálculo, por lo general nos referimos a funciones continuas o diferen-ciables. En teoría de la probabilidad por funciones bien comportadas nosreferimos a las funciones que conservan la estructura de eventos de su argu-mento variable aleatoria. Una función de�nida por:

h(:) : R! R tal que fh(x) � xg := h�1 ((�1; x]) 2ß(R) , para todo x 2 R,

Page 97: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.4. LADISTRIBUCIÓNACUMULADAYFUNCIONESDEDENSIDAD97

recibe el nombre de función Borel (medible ). Es decir, una funciónde Borel es una función que es una variable aleatoria con respecto a ß(R).NOTE que las funciones indicador, las funciones monótonas, las funcionescontinuas, así como las funciones, con un número �nito de discontinuidades,son funciones de Borel; ver Khazanie (1976), Bierens (1994).Igualdad de variables aleatorias. Las variables aleatorias son difer-

entes a las funciones matemáticas en la medida en que su estructura prob-abilística es de suma importancia. Por lo tanto, la noción de igualdad paralas variables aleatorias implica esta estructura probabilística. Dos variablesaleatorias X e Y , de�nidas en el mismo espacio de probabilidad (S;=;P (:)),se dice que son iguales con probabilidad uno (o casi seguramente) si (ver Karr(1993)):

P (s : X(s) 6= Y (s)) = 0, para toda s 2 S;es decir, si el conjunto (s : X(s) 6= Y (s)) es un evento con probabilidad

cero.

3.4 La distribución acumulada y funciones dedensidad

3.4.1 La función de distribución acumulada

Utilizando el concepto de una variable aleatoria X(:), hasta ahora hemostransformado el abstracto espacio de probabilidad (S;=;P (:)) en un espaciomenos abstracto (R;ß(R) ;PX (:)). Sin embargo, no hemos alcanzado nue-stro objetivo todavía porque PX (:) := PX�1 (:) sigue siendo una funciónconjunto. Es cierto que se trata de una función conjunto mucho más fácilporque se de�ne en la recta real, pero es una función de conjunto de todosmodos. Preferimos una función numérica punto a punto con la que estamosfamiliarizados.La manera en que transformamos la función conjunto PX en una función

numérica punto a punto es un ardid ingenioso. Visulizando a PX (:) comosólo una función del punto �nal del intervalo (�1; x] de�nimos la funciónde distribución acumulada (fda):

FX(:) : R! [0; 1] donde FX(x) = P fs : X(s) � xg = PX ((�1; x]) :

Page 98: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

98 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

La táctica que llevo a esta de�nición empezó hace unas cuantas páginascuando argumentamos que aún cuando podríamos usar cualquiera de lossiguientes intervalos (véase Galan (1995)):

(a; b) ; [a; b] ; [a; b) ; (�1; a] ; donde a < b; a 2 R, b 2 R,

para generar el campo de Borel ß(R), optamos por los intervalos de laforma: (�1; x], x 2 R. En vista de esto, podemos pensar en la fda comode�nida mediante

P fs : a < X(s) � bg = P fs : X(s) � bg � P fs : X(s) � ag= PX ((a; b]) = FX(a)� FX(b)

y entonces asumir que FX(�1) = 0.Las propiedades de la función de la fda FX(x) de la variable aleatoria X

están determinadas por aquellas de (S;=;P (:)). En particular, a partir delos axiomas [1] [3] de P (:) y de la estructura matemática de los �-campos =y ß(R). Resumimos las propiedades de la función de distribución acumulada(ver Karr (1993)):F1: FX(x) � FX(y); para x � y; x; y números reales,F2: lim

x!x+0

FX(x) = FX(x0); para todo número real x0,

F3: limx!1

FX(x) := FX(1) = 1; limx!�1

FX(x) := FX(�1) = 0.donde x! x+0 se lee "cuando x tiende a x

+0 a través de valores superiores a

x0". Es decir, FX(x) es una función no decreciente, continua por la derechatal que que FX(�1) = 0 y FX(1) = 1. Las propiedades F1 y F3 norequieren más explicación pero F2 no es obvia. La propiedad de continuidadpor la derecha de la fda se deriva del axioma de aditividad contable [3] dela función conjunto de probabilidad a la función P (:) y su valor radica en elhecho de que en cada punto de discontinuidad x0 la propiedad F2 se cumple.La función de distribución acumulada (fda) proporciona el último eslabón

de la cadena de la metamorfosis de (S;=;P (:)) en algo más susceptibles amodelar. Antes de proceder a mejorar nuestra comprensión intuitiva delconcepto tenemos que relacionarlo con la noción de función de densidad in-troducido en el contexto de variables aleatorias (discretas) simples.El lector perspicaz se habría dado cuenta que en el contexto de variables

aleatorias (discretas) simples la metamorfosis del abstracto espacio de prob-abilidad toma la forma:

Page 99: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.4. LADISTRIBUCIÓNACUMULADAYFUNCIONESDEDENSIDAD99

(S;=;P (:)) X(:)) (RX ; fX (:)) ;

donde RX = fx1; x2; :::; xn; :::g : La estructura probabilística original seha transformado en:

ffX (x1) ; fX (x2) ; :::; fX (xm;:::)g ; tal queXxi2RX

fX (xi) = 1:

El último eslabón en la cadena de transformaciones fue la noción de fun-ción de densidad:

fX(:) : RX ! [0; 1] ; fX(x) := P (X = x) , para toda x 2 R.

Por otra parte, en el contexto de una variable aleatoria continua (conjuntono contable de resultados) la metamorfosis toma la forma

(S;=;P (:)) X(:)! (RX ; FX (:)) ,

con la fda siendo el último eslabón de la cadena. La razón por la cualla función de densidad no se puede de�nir directamente en este caso ha sidodiscutido ampliamente en el capítulo anterior.La esencia del argumento esque en el caso de un conjunto no contable de resultados no podemos de�nirla probabilidad en un punto sino sólo en un intervalo.

3.4.2 La función de densidad

En esta etapa, dos preguntas surgen de manera natural. La primera es sipodemos de�nir una función de densidad en el caso de una variable aleatoriacontinua. La segunda es si podemos de�nir una función de distribución en elcaso de una variable aleatoria discreta. Ambas preguntas serán contestadasa�rmativamente comenzando con la primera.Una vez de�nida la función de distribución acumulada en intervalos de la

forma ((�1; a]), podemos proceder a recuperar la función de densidad fx (:)(cuando existe) Suponiendo que existe una función de la forma:

fX (:) : R! (�1; x] ;

tal que se relaciona con la fda a través de:

Page 100: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

100 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

FX (x) =

Z x

�1fX (u) du; donde fx (u) � 0, (3.14)

fX (:) se dice que es una función de densidad correspondiente a FX (x).Esta recuperación presupone la existencia de una función no negativa

cuya forma uno tiene que conjeturar a priori. En los casos en los cualesse supone que fX (:) es continua, uno puede recuperarla de FX (x) usandoel teorema fundamental del cálculo (véase Strang (1991), Binmore (1993)).Suponiendo que fX (:) es una función continua de x:(a) si FX (x) =

R x�1 fX (u) du; entonces

dFX(x)dx

= fX (x),

(b) si dFX(x)dx

= fX (x) ; entoncesR x�1 fX (u) du = FX (b)� FX (a).

Figura 3.6 fda exponencial.

Usando el teorema fundamental del cálculo podemos recuperar la funciónde densidad mucho más fácil mediante la diferenciación usando el hecho deque:

dFX(x)dx

= fX (x) ; en todos los puntos de continuidad x 2 R de fX (x).EjemploConsiderar el experimento aleatorio de �medir la duración de un foco en

un hogar típico.�La función de distribución acumulada a menudo utilizadapara modelar este experimento es el de la distribución exponencial:

FX (x; �) = 1� e��x; � > 0; x 2 R+ := [0;1)La grá�ca de la función de distribución para � = 3 se muestra en la �gura

3.6. Teniendo en cuenta el hecho de que FX (x; �) es continua para todo

Page 101: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.4. LADISTRIBUCIÓNACUMULADAYFUNCIONESDEDENSIDAD101

x 2 R+, podemos deducir que la función de densidad es la derivada de estafunción y tiene la forma

fX (x; �) = �e��x; � > 0; x 2 R+

Figura 3.7 Densidad exponencial.

La función de densidad, para variables aleatorias continuas, de�nida por(3.14), cumple las siguientes propiedades:f1. fX (x) � 0; 8x 2 Rx;f2.R x�1 fX (x) dx = 1;

f3. FX (b)� FX (a) =R bafX (x) dx; a 2 R; b 2 R.

Ahora centramos nuestra atención en la cuestión de si podemos de�nir unafunción de distribución en el caso de variables aleatorias (discretas) simples.La de�nición de función de distribución acumulada dada en (3.12) tambiénes aplicable al caso en el que X(:) toma valores en un subconjunto numerablede R. Para Rx = fx1; x2; :::; xng, donde x1 < x2 < ::: < xn, la fda de unavariable aleatoria X (:) se de�ne en términos de la función de densidad por:

FX(xk) = P (fs : X(s) � xkg) =Xk

i=1fX (xi) ; para k = 1; 2; :::; n: (3.15)

también se aplica al caso donde X(:) toma valores en un subconjuntocontable de R: Para RX = fx1; x2; :::; xng, donde x1 < x2 <; :::; < xn; la fdiade una v.a. X(:); se de�ne en términos de la fde por:

FX(xk) = P (fs : X(s) � xkg) =Xk

i=1fX (xi) ; para k = 1; 2; :::; n:

Page 102: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

102 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

Es decir, la fda de una variable aleatoria (discreta) simple es una funciónescalón con saltos de�nidos por fX (:). El término acumulado proviene delhecho de que la función de distribución en ambos casos (3.12) y (3.15) acu-mula las probabilidades dadas por las funciones de densidad. Esto se haceevidente al ordenar los valores de X en orden ascendente x1 � x2 �; :::;� xny suponiendo que FX(x0) = 0, entonces FX(:) y fX(:) se relacionan a travésde

fX (xi) = FX (xi)� FX (xi�1) ; i = 1; 2; :::; n:

La función de densidad, en el caso de una variable aleatoria discreta,tiene propiedades similares a las anteriores con la integral sustituida poruna suma:f1. fX (x) � 0; 8x 2 Rx;f2.P

xi2Rx fX (xi) = 1;f3. FX (b)� FX (a) =

Pa<xi�b fX (xi) ; a < b; a 2 R; b 2 R.

Ejemplo.En el caso de la variable aleatoria Bernoulli la función de densidad es:

fX (1) = � y fX (0) = 1� �,

donde 0 � � � 1 (ver 3.5). Esto se muestra en la �gura 3.8 para un valorconocido de �, denotado por � = 0:6. La fda correspondiente toma la formaFX (0) = �; FX (1) = 1:

FX (x) =

8<:0; x < 0

�; 0 � x � 1;1; 1 � x:

9=;

Page 103: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.4. LADISTRIBUCIÓNACUMULADAYFUNCIONESDEDENSIDAD103

Figura 3.8 Densidad Bernoulli.

Como se puede observar en la �gura 3.9 la fda es una función escalón consaltos en x = 0 de altura (1� �) = 0:4 y x = 1 de altura � = 0:6. Los puntossobre los puntos (0; 0:4) y (1; 1) simbolizan la continuidad por la derecha dela fda; estos puntos pertenecen a la línea superior no a la inferior.Aunque la función de distribución parece ser la elección natural para la

asignación de probabilidades en los casos en que la variable aleatoria X(:)toma valores en un subconjunto no contable de , la función de densidad seofrece más conveniente para los propósitos de modelación. Por esta razón,concluimos esta sección por mencionar algunas distribuciones más, tanto paravariables aleatorias continuas y discretas.Si se gra�ca se ve que fdia es una función escalonada con saltos en x = 0

de altura (1� �) = 0:4 y en x = 1 de altura � = 0:6:Aunque la fda parece la elección natural al asignar probabilidades cuando

la variable aleatoria X(:) toma valores en subconjuntos no contables de R, lafda parece más conveniente para propósitos de modelación. Por esta razónconcluimos esta sección mencionando más distribuciones de variables aleato-rias continuas y discretas.Variable aleatoria continua. Una variable aleatoria X se dice que es

continua si su rango de valores es cualquier subconjunto no contable de R.Un vistaso a la de�nición (3.13)-(3.14) sugiere que no se debe interpretarla función de densidad de una variable aleatoria continua como una funciónasignando probabilidades, ya que esta última puede tomar valores mayoresde uno!Ejemplos(i) La distribución más utilizada en teoría de la probabilidad y la inferen-

cia estadística es, sin duda, la distribución normal (o gaussiana) cuya funciónde densidad es:

fX (x;�) =1

�p2�expf�(x� �)2

2�2g; (3.16)

� : =��; �2

�2 R� Rx, x 2 R.

La grá�ca de esta función de densidad, que se muestra en la �gura 3.10con � = 0 y �2 = 1, exhibe la bien conocida forma de campana con la quela distribución normal es fácilmente reconocible. La fda para la distribuciónnormal es:

Page 104: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

104 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

FX (x;�) =

xZ�1

1

�p2�expf�(x� �)2

2�2gdu; (3.17)

� : =��; �2

�2 R� Rx, x 2 R.

La grá�ca de esta función de distribución, que se muestra en la �gura3.11, presenta las distintas S alargadas asociadas a la distribución normal.

Figura 3.9 fda Bernoulli.

Figura 3.10 Densidad normal.

Page 105: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.4. LADISTRIBUCIÓNACUMULADAYFUNCIONESDEDENSIDAD105

Figura 3.11 fda normal.

Figura 3.12 Densidad uniforme.

Figura 3.13 fda uniforme.

Page 106: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

106 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

(ii) Otra distribución ampliamente utilizada es la uniforme (continua)cuya función de densidad es de la forma:

fX (x;�) =1

b� a, �: = (a; b) 2 R2, a � x � b. (3.18)

La grá�ca de esta función de densidad, que se muestra en la �gura 3.12para a = 1 y b = 3, presenta una forma rectangular. La fda para la distribu-ción uniforme (continua) es la siguiente:

FX (x;�) =x� a

b� a, �: = (a; b) 2 R2, a � x � b. (3.19)

La grá�ca de esta fda se muestra en la �gura 3.13.

Variable aleatoria discreta. Una variable aleatoria X se dice que esdiscreta si su rango Rx es un subconjunto numerable (que se puede contar)de la recta real R, y su función de densidad es de la forma:

fX (:) : R! [0; 1].

Figura 3.14 Densidad uniforme (discreta).

Page 107: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.4. LADISTRIBUCIÓNACUMULADAYFUNCIONESDEDENSIDAD107

Figura 3.15 fda uniforme (discreta).

En contraste con el caso de variable aleatoria continua, esta de�niciónsugiere que se podría interpretar la función de densidad de una variablealeatoria discreta como una función de asignación de probabilidades.Ejemplos(i) La distribución uniforme también tiene una forma discreta, con una

función de densidad:

fX (x; �) =1

� + 1, � es un entero x = 0; 1; 2; :::; �. (3.20)

La grá�ca de esta función de densidad, que se muestra en la �gura 3.14para � = 9, presenta la bien conocida forma de punta uniforme. La fda dedistribución uniforme (discreta) es la siguiente:

FX (x; �) =x+ 1

� + 1, � es un entero, x = 0; 1; 2; :::; �. (3.21)

Su grá�ca se muestra en la �gura 3.15, donde los saltos son de la forma:

pk =1

� + 1, para � = 9, k = 1; 2; :::; 9.

Page 108: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

108 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

Figura 3.16 Densidad Poisson.

Figura 3.17 fda Poisson.

(ii) Otra ampliamente utilizada distribución discreta es la de Poisson cuyafunción de densidad es:

fX (x; �) =e���x

x!, � > 0, x = 0; 1; 2; 3; ::: (3.22)

La grá�ca de esta función de densidad, que se muestra en la �gura 3.16para � = 4, donde la asimetría en la forma de la densidad es evidente. Lafda para la distribución de Poisson es:

fX (x; �) =Xx

k=0

e���x

x!, � > 0, x = 0; 1; 2; 3; ::: (3.23)

La grá�ca de la fda se muestra en la �gura 3.17.

Page 109: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.5. DEUNESPACIODEPROBABILIDADAUNMODELODEPROBABILIDAD109

3.5 De un espacio de probabilidad a un mod-elo de probabilidad

Vamos a reunir los distintos cabos. Inicamos la discusión en este capítulocon un objetivo principal: transformar el abstracto espacio de probabilidad(S;=;P (:)) construido en el capítulo anterior en algo más susceptible a lamodelación con datos numéricos. La primera etapa de la transformaciónsigni�có la introducción de la noción de una función real del espacio de losresultados de S a la recta real R, obligada a preservar la estructura de eventosdel espacio original de eventos eventos =; el concepto de una variable aleato-ria. En la segunda etapa utilizamos el concepto de una variable aleatoriapara mapear (S;=;P (:)) en (R;ß(R) ;PX (:)); siendo este último un edi�ciosobre la recta real. En la tercera etapa transformamos la función conjuntoPX (:) en una función numérica punto a punto, la función de distribuciónacumulada, por:

FX(x) = PX (�1; x] .

En la última etapa hemos simpli�cado FX(:) aún más mediante la intro-ducción de la función de densidad a través de:

FX(x) =

Z x

�1fX (u) du, fX � 0; para todo x 2 R.

A continuación extendimos la formulación al caso donde las probabil-idades son funciones conocidas de ciertos parámetro desconocido(s) �.Esto se hizo mediante la introducción de estos parámetros en las fórmulaspara las funciones fda y de densidad: FX(x;�, fX(x;�). Los detalles de estaampliación serán discutidon en el capítulo 10. Simbólicamente la transfor-mación ha tomado la forma:

(S;=;P (:)) X(:)) (R;ß(R) ;PX (:))) ffX(x;�); � 2 �; x 2 RXg :

Haciendo caso omiso de la etapa intermedia, podemos ver el mapeo anivel de los componentes individuales como:

S )RX y [=;P (:)]) ffX(x;�); � 2 �g

Page 110: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

110 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

El resultado �nal de esta metamorfosis es que el espacio de probabilidadoriginal (S;=;P (:)) se ha transformado en un modelo de probabilidadde�nido por:

� = ffX(x;�); � 2 �; x 2 RXg

� es un conjunto de funciones de densidad indexadas por un conjunto deparámetros desconocidos �; una densidad para cada posible valor de � en elespacio de parámetros �.Es importante NOTAR que podríamos usar la fda en lugar de la función

de densidad como la base del modelo de probabilidad, en el sentido de que:

�F = fF (x;�); � 2 �; x 2 RXg

es aún más general que (3.24). Como puede verse en las grá�cos ante-riores de las distintas fda y funciones de densidad, sin embargo, la formade las funciones de densidad es más fácil juzgar que la de la fda. Por ra-zones matemáticas, a menudo pre�eren las fda, pero para los propósitos demodelizaciónpor lo general preferimos la función de densidad. La nociónde modelo de probabilidad, tal como se de�ne en términos de funciones dedensidad, es conveniente para los propósitos de modelación, ya que, como semuestra en el capítulo 5, existe una relación útil entre este concepto teóricoy los datos observados. Veremos cómo la noción de un función de densidadconstituye la contraparte de la teoría de la probabilidad de la noción de unhistograma en la estadística descriptiva y cómo esto se relaciona con unagrá�ca de tiempo de un conjunto de datos. En resumen, podemos construiruna relación directa entre el modelo de probabilidad y los datos reales con el�n de ayudar en la elección de modelos adecuados.Hay varias cosas que vale la pena enfatizar sobre el modelo de probabili-

dad de�nido en (3.24). En primer lugar, el modelo de probabilidad representauna colección completa de densidades, a menudo un número in�nito, depen-diendo de la naturaleza del espacio de parámetros �: En cierto sentido, elparámetro(s) � encapsular la incertidumbre inicial en relación con el resul-tado de una prueba particular, (condición [b]). En segundo lugar, el modelode probabilidad tiene tres componentes importantes: (i) la función de den-sidad de una variable aleatoria X, (ii) el espacio de parámetros � y (iii) elrango de valores de la variable aleatoria que se trata RX . Para signi�car laimportancia del componente (iii) le damos un nombre especial.

Page 111: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.5. DEUNESPACIODEPROBABILIDADAUNMODELODEPROBABILIDAD111

El soporte de la densidad fX(:) es el rango de valores de la variablealeatoria X para el cual la función de densidad es positiva, es decir,RX := fx 2 RX : fX(x) > 0g.Debido a la importancia fundamental del concepto de un modelo de prob-

abilidad consideraremos varios ejemplos a �n de permitir al lector comprenderlos conceptos básicos.Ejemplos.(i) Considere el modelo de probabilidad de una distribución binomial

especi�cado por:

� =

8<: f(x;�) =

�nx

��x (1� �)n�x ;

0 � � � 1; 0 � x � n; n = 1; 2; :::

9=; (3.25)

En las �guras 3.18-3.21 podemos ver a varios miembros de este modelo deprobabilidad para el n = 20. Cada grá�ca representa una densidad para unvalor especí�co del parámetro desconocido: � = 0:15, � = 0:3, � = 0:5, � =0:8. En teoría � incluye una in�nidad de las densidades de este tipo (a saberuna in�nidad doble) debido a que el espacio de parámetros � := [0; 1] tieneun número no contable de elementos! Para las densidades que se muestranen las �guras 3.18-3.21 el soporte es R�X := f1; 2; :::; 20g.(ii) Otro ejemplo interesante de un modelo de probabilidad es el Beta:

� =

(f(x;�) =

x��1 (1�x)��1

B [�; �], � = (�; �) 2 R2+, 0 < x < 1

)

En la �gura 3.22 se muestran varios miembros de esta familia de densi-dades (uno para cada combinación de valores de �). Este modelo de prob-abilidad tiene dos parámetros desconocidos � > 0 y � > 0; el espacio deparámetros es el producto de la recta real positiva: � := R2+. Esto sugiereque el conjunto � tiene una in�nidad de elementos, uno para cada combi-nación de elementos de dos conjuntos in�nitos. Su soporte es Rx := (0; 1).Como puede verse, este modelo de probabilidad incluye funciones de den-sidad de con formas muy diferentes dependiendo de los valores de los dosparámetros desconocidos.(iii) Otro ejemplo importante de un modelo de probabilidad es la Gama:

Page 112: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

112 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

� =

(f(x;�) =

��1

� [�]

�x

���1expf�

�x

�g, � = (�; �) 2 R2+, x 2 R+

).

En la �gura 3.23 se muestran varios miembros de esta familia de densi-dades (uno para cada combinación de valores de �). Una vez más, el modelode probabilidad tiene dos parámetros desconocidos � > 0 y � > 0; el espaciode parámetros es el producto de la recta real positiva: � := R2+. Su soportees Rx := (0;1).

Figura 3.18 Binomial (n = 20, � = 0:15).

Figura 3.19 Binomial (n = 20, � = 0:3).

Page 113: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.5. DEUNESPACIODEPROBABILIDADAUNMODELODEPROBABILIDAD113

Figura 3.20 Binomial (n = 20, � = 0:5).

Figura 3.21 Binomial (n = 20, � = 0:8).

(iv) El último ejemplo de un modelo de probabilidad es la deWeibull:

� =

�f(x;�) =

�x��1

��expf�

�x�

��g, � = (�; �) 2 R2+, x > 0

�.

Page 114: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

114 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

Varios miembros de esta familia de densidades (uno para cada combi-nación de valores de �) se muestran en la �gura 3.24. Una vez más, elmodelo tiene dos parámetros desconocidos � > 0 y � > 0; el espacio deparámetros es el producto de la recta real positiva: � := R2+. Su soporte esRx := (0;1).

El modelo de probabilidad constituye uno de los dos pilares sobre los quevamos a construir la noción de un modelo estadístico, la piedra angular dela inferencia estadística (y de la modelizaciónempírica); el otro pilar es elmodelo muestral que se discutirá en el próximo capítulo.

Para propósitos de modelizaciónempírica utilizamos la noción de un mod-elo de probabilidad de la siguiente manera. Postulamos a priori una de talesfamilias de densidades como subyacente al mecanismo estocástico que dioorigen a los datos observados en cuestión: nuestra tarea como modeladoreses elegir la familia más adecuada para los datos en cuestión. A priori no noscomprometemos con una densidad particular, por ejemplo f (x;�0), donde�0 es un valor especí�co de los parámetros desconocidos �, proporcionandoel resumen adecuado de los datos en cuestión. En su lugar, asumimos queesa densidad es un miembro de la familia postulada para alguna � 2 �. Enla modelizaciónempírica de�nimos el modelo de probabilidad en términos delparámetro desconocido(s) � y dejamos que los datos, utilizando la inferenciaestadística, elijan su valor apropiado de �. La pregunta que naturalmentesurge en esta etapa es: ¿cómo tomamos la decisión inicial respecto de cuales el modelo de probabilidad (ver apéndice A para varios modelos de estetipo) adecuado? Una respuesta demasiado simpli�cada es que el modeladorconsidera de qué manera los tres componentes (i) - (iii) del modelo de prob-abilidad se relacionan con los datos en cuestión.

El primer componente es la función de densidad. La manera más con-veniente de evaluar la pertinencia de la función de densidad es compararlas formas distribucionales (como las presentadas en los grá�cos anteriores)con el histograma de los datos observados. Estas formas demostrarán seruna de las luces guía en la elección de un modelo estadístico apropiado parafenómeno estocástico que se trate. En el capítulo 5 vamos a demostrar cómo

Page 115: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.5. DEUNESPACIODEPROBABILIDADAUNMODELODEPROBABILIDAD115

Figura 3.22 Modelo de probabilidad Beta.

Figura 3.23 Modelo de probabilidad Gama.

Figura 3.24 Modelo de probabilidad Weibull.

Page 116: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

116 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

el histograma se puede utilizar para tomar decisiones informadas con re-specto a la densidad adecuada. Tomando el modelo de probabilidad Betacomo ejemplo, podemos ver que presenta una �exibilidad casi ilimitada enrelación con diferentes formas distribucionales; las formas mostradas en la�gura 3.22 indican esta �exibilidad. No obstante, los otros dos modelos con-tinuos de probabilidad, el Gamma y el Weibull también muestran �exibilidadsu�ciente en términos de formas lo que sugiere que no pueden por sí solosdar respuesta a la cuestión de elegir el modelo de probabilidad adecuado.Aquellos lectores que no están convencidos de esto deben echar un vistazoa la �gura 3.25, donde dos densidades muy diferentes se ponen en contrastepara mostrar el resultado de que será imposible elegir entre ellas cuando seenfrentan con datos reales. En la línea punteada tenemos la densidad normalestándar y en la línea continua tenemos una densidad de Weibull de la forma:

� =

(f(x;�) =

�x��1

��expf�

�x� �

��g, � = (�; �) 2 R2+, x > � 2 R

).

con parámetros (� = 3:34; � = 3:45; � = �3). La mejor manera dedistinguir entre estas muy similares formas distribucionales es a través demedidas de índice basadas en momentos (véase la sección siguiente) que soninvariantes a los cambios de escala y parámetros de localización; véanse másadelante los coe�cientes de asimetría y de curtosis.

Figura 3.25 Weibull contra normal.

Page 117: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.6. PARÁMETROS Y MOMENTOS 117

Además de las formas de distribución y los parámetros relacionados delas densidades se debe considerar el soporte de la densidad en la toma de de-cisiones sobre lo apropiado de los modelos de probabilidad. Por ejemplo, enel caso del modelo Beta el soporte limita su utilidad a los casos en los cualeslos datos son porcentajes o se pueden expresarse como tales. Por ejemplo, enel caso de la modelizaciónde datos que se re�ere a los resultados de exámeneses a menudo más realista utilizar la versión beta y no la distribución normalporque todos los resultados pueden ser fácilmente expresados en el inter-valo [0; 1]; la distribución normal tiene soporte (�1;1). Por otro lado, silos datos sólo pueden tomar valores positivos sin un claro límite superior elmodelador debe considerar los otros dos modelos de probabilidad. Por úl-timo, una consideración importante en la toma de decisión sobre el modelomás adecuado es la riqueza del menú a elegir; cuanto más familias de densi-dades tengamos para elegir más alta es la probabilidad de que una de ellasresulte ser apropiada en una situación dada . Por eso en el apéndice Areunimos algunos de los modelos de probabilidad más importante para �nesde referencia.

3.6 Parámetros y momentos

3.6.1 ¿Porqué nos interesa?

En la sección anterior hemos introducido el concepto de un modelo de prob-abilidad :

� = ffX(x;�); � 2 �; x 2 RXg

como una formalización de las condiciones [a] - [b] de un experimentoaleatorio. Antes de que procedamos a formalizar la condición [c] (véase elcapítulo siguiente), hacemos una digresión importante para introducir unaforma más conveniente de tratar al parámetro desconocido(s) � del modelode probabilidad. En el contexto de la inferencia estadística y la modelaciónen general, la forma más e�caz de tratar a los parámetros desconocidos �es relacionarlos con los momentos de la distribución. Como se mencionó enla sección anterior una de las consideraciones importantes en la elección deun modelo de probabilidad son las formas que las diferentes familias de lasdensidades pueden dar lugar. Estas formas están obviamente, relacionadascon los parámetros desconocidos, pero eso no es consuelo para el modelador

Page 118: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

118 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

que tiene que elegir un modelo tal a priori debido a que ellos son descono-cidos! Por lo tanto, nos gustaría utilizar otro tipo de información que estádisponible a priori al hacer dicha elección. Junto con el histograma de losdatos, a menudo tenemos una serie de valores numéricos, tales como mediasaritméticas de la estadística descriptiva. Estos valores numéricos se relacio-nan con lo que llamamos momentos de la distribución y se pueden utilizarpara hacer conjeturas con respecto a los parámetros desconocidos y por lotanto para las distintas formas de distribución.Los momentos de una distribución se de�nen en términos de la esperanza

matemática de determinadas funciones de la variable aleatoria X, genérica-mente denotados por h(X), de la siguiente manera:

E [h(X)] =

Z 1

�1h (X) �fX(x;�)dx: (3.26)

En vista del hecho de que la integral se de�ne en términos de las funcionesde densidad fX(x;�), en general E [h(X)] es una función de �, es decir,

E [h(X)] = g(�). (3.27)

Eligiendo formas especí�cas de la función h(X), tales como

h(X) = Xr; h(X) = jXjr ; r = 1; 2; :::; h, h(X) = etx; h(X) = eitx

obtenemos varias funciones de la forma g(�) que implican lo que llamamosmomentos de fX(x;�).En el modelación estadística, así como en la inferencia estadística, se

muestra que la mejor manera de manejar modelos de probabilidad (postularun modelo estadístico, estimar �, probar hipótesis acerca de estos parámet-ros �, etc.) es a menudo a través de los momentos de la distribución deprobabilidad postulada.

3.6.2 Características numéricas

En lo que sigue vamos a considerar algunos casos particulares de (3.26) conel �n de discutir su papel en la modelizacióny en la inferencia.MediaPara h(X) := X, donde X toma valores en RX , la integral anterior da

lugar a la media de la distribución:

Page 119: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.6. PARÁMETROS Y MOMENTOS 119

E [X] =

Z 1

�1xfX(x;�)dx, para variables aleatorias continuas, (3.29)

E [X] =Xxi2RX

xifX(xi;�), para variables aleaorias discretas. (3.30)

NOTE que la única diferencia en la de�nición de las variables aleatoriascontinuas y discretas es la sustitución de la integral por una sumatoria. Lamedia es una medida de localización en el sentido de que conociendo la me-dia X, tenemos alguna idea de donde se localiza fX(x;�). Intuitivamente,la media representa una media ponderada de los valores de X, con las prob-abilidades correspondientes proporcionando los pesos. Designando la mediapor:

� := E [X]

la de�nición anterior sugiere que � es una función de los parámetrosdesconocidos �, es decir � (�).Ejemplos.(i) Para la distribución Bernoulli :� (�) := E [X] = 0 � (1� �) + 1 � � = �,y así, la media coincide con el parámetro desconocido.(ii) En el caso de la distribución Poisson:

fX(x;�) =�e���x

x!

�, � 2 � := (0;1), x = 0; 1; 2; 3; :::,

� (�) := E [X] =

1Xk=0

k�e���k

k!

�= �e��

1Xk=0

��k�1

(k�1)!

�= � ya que

1Xk=0

��k�1

(k�1)!

�=

e�.(iii) Para la distribución Uniforme (una distribución continua):fX(x;�) =

1�2��1 , x 2 [�1; �2], � := (�1; �2), �1 < �1 < �2 <1,

� (�) := E (X) =

Z �2

�1

x�2��1dx =

12

1�2��1x

2j�2�1 =�1+�22

(iv) Para la distribución Normal:

f (x;�) =1

�p2�expf�(x� �)2

2�2g;�: =

��; �2

�2 R� R+, x 2 R:

Page 120: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

120 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

el parámetro � es en realidad media de la distribución (de ahí la notación).

E (X) =

Z 1

�1x

�1

�p2�

�exp

"�(x� �)2

2�2

#dx

=

Z 1

�1

(�z + �)

�p2�

exp

��z

2

2

�(�) dz

=�p2�

Z 1

�1z exp

��z

2

2

�dz + �

Z 1

�1

1p2�exp

��z

2

2

�dz

= 0 + � (1) = �

La segunda igualdad se sigue utilizando la sustitución z = x���o x =

�z + �, con dxdz= �.

Para las variables aleatorias X1 yX2 y las constantes a; b y c, E(:) cumplelas siguientes propiedades:E1. E [c] = c;

E2. E [aX1 + bX2] = aE [X1] + bE [X2] :

Estas propiedades designar a E(:) como una aplicación lineal.EjemploSean X1; X2; :::; Xn variables aleatorias distribuidas Bernoulli con me-

dia �. Hallar E [Y ] para Y =Pn

i=1Xi. Usando [E2] podemos E [Y ] =Pni=1E (Xi) =

Pni=1 � = n�.

VarianzaPara h [X] := E [X � E (X)]2, la integral (3.26) proporciona la varianza:

V ar (X) = E�(X � E (X))2

�=

Z 1

�1[X � �]2 fX(x;�)dx,

donde en el caso de variables aleatorias discretas la integral se sustituyepor la suma de costumbre (ver (3.29) y (3.30)). En nuestro contexto, lavarianza representa una medida de dispersión (variación) alrededor de lamedia.Ejemplos(i) En el caso del modelo Bernoulli:

Var (X) = E�(X � E (X))2

�= (0� �)2 (1� �)2 + (1� �)2 � = � (1� �) :

Page 121: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.6. PARÁMETROS Y MOMENTOS 121

(ii) En el caso donde X tiene una distribución normal (ver (3.31)), uti-lizando la misma sustitución, x = �z + �, podemos demostrar que la vari-anza coincide con el parámetro desconocido �2 es decir, Var(X) = E [X2]�(E [X])2 = �2 ya que

E�X2�=

Z 1

�1x2�

1

�p2�

�exp

"�(x� �)2

2�2

#dx

=

Z 1

�1

(�z + �)2

�p2�

!exp

��z

2

2

�(�) dz

= �2Z 1

�1

�z2p2�

�exp

��z

2

2

�dz +

2��p2�

Z 1

�1

zp2�exp

��z

2

2

�dz

+�2Z 1

�1

1p2�exp

��z

2

2

�dz

= �2 + 0 + �2 = �2 + �2,

de alli la notaciónX~N (�; �2). En la �gura 3.26 podemos ver la densidadnormal (con � = 0) y diferentes valores de �2; cuanto mayor es el valor de�2 mayor es la dispersión.

Para variables aleatorias independientes X1 y X2 y las constantes a; b yc, V ar(:) cumple las siguientes propiedades:

V1. Var(c) = 0;

V2. Var(aX1 + bX2) = a2V ar [X1] + b2V ar [X2] :

Lema de Bienayme. Si X1; X2; :::; Xn son variables aleatorias dis-tribuidas independientemente:

V ar (Pn

i=1 aiXi) =Pn

i=1 a2iV ar (Xi),

Este lema constituye una extensión directa de la propiedad V2.

Ejemplo

Sean X1; X2; :::; Xn variables aleatorias independientes Bernoulli con me-dia �. ¿Cuál es la varianza de Y = a+

Pni=1Xi?:

Page 122: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

122 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

Figura 3.26 Normal: diferentes �2.

Usando V1 y el lema de Bienayme podemos deducir que:V ar(Y ) =

Pni=1 V ar (Xi) =

Pni=1 � (1� �) = n� (1� �).

Una desigualdad muy útil que da testimonio de que la varianza propor-ciona una medida de dispersión es la de Chebyshev.desigualdad de Chebyshev: sea X una variable aleatoria con varianza

acotada:

P (jX � E (X)j > ") � V ar (X)

"2, para todo " > 0.

Desviación estándarLa raíz cuadrada de la varianza, conocida como la desviación estándar,

también se utiliza como una medida de dispersión:SD(X) = [V ar (X)]

12 .

El término desviación estándar fue propuesto por primera vez por Pearson(1894) quien utilizó la notación � = [V ar (X)]

12 . Esta medida es particular-

mente útil en inferencia estadística, ya que nos proporciona la mejor formade estandarizar cualquier variable aleatoria X cuya varianza existe. Una delas reglas prácticas más útiles en la inferencia estadística es la siguiente:Una variable aleatoria es tan "grande"como su desviación estándar (siem-

pre que exista!).Por lo tanto, cuando tenemos que hacer una variable aleatoria libre de

sus unidades de medida la dividimos por su desviación estándar, es decir,de�nimos la variable estandarizada:

X� := X

[V ar(X)]12, donde V ar (X�) = 1,

Page 123: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.7. MOMENTOS 123

que por de�nición es sin unidades. El término error estándar se utiliza amenudo en lugar de la desviación estándar. La terminología error estándarse puede remontar a la tradición del siglo 18 de la teoría de errores. Galton(1877) fue el primero en reemplazar el término de error con el de desviación.Aunque la media y la varianza son los momentos más ampliamente uti-

lizados, no son su�cientes para determinar las principales características deuna distribución. Es decir, aunque conocemos la media y la varianza, quesabemos muy poco acerca de las características principales de la función dedensidad. Es fácil pensar en funciones de densidad muy diferentes que tienenla misma media y varianza. Para ser capaces de distinguir entre tales dis-tribuciones debemos tener en cuenta los momentos de orden supserior.

3.7 Momentos

En esta sección consideramos dos tipos de momentos, los momentos crudosde orden superior y los momentos centrales, que constituyen generalizacionesdirectas de la media y la varianza, respectivamente. La idea de losmomentos,en general, se tomó prestada de la mecánica clásica, donde la media, E(X), esla abscisa del centro de gravedad de la masa de la distribución y la varianza,V ar(X), representa el momento de inercia de la masa de la distribución conrespecto a un eje perpendicular a través del punto x = E (X). Los seisprimeros momentos de la distribución normal fueron usados por un númerode analistas en todo el siglo 18 como Gauss y Quetelet. El primero en acuñarel término momentos fue Pearson (1893).

3.7.1 Momentos crudos de orden superior

Una generalización directa de la media proporciona los llamados momentoscrudos. Para h(X) := Xr; r = 2; 3; 4; ::: la integral en (3.26) proporciona losmomentos crudos de�nidos por:

�0r (�) := E (Xr) =

Z 1

�1xrfX(x;�)dx; r = 1; 2; 3; :::

Ejemplos(i) En el caso de la distribución Bernoulli:�0r (�) = E (Xr) = 0r�(1� �) + 1r�� = �; para todo r = 1; 2; 3; 4; :::

Page 124: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

124 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

Es decir, todos los momentos crudos son los mismos. El segundo momentocrudo es a menudo útil en la obtención de la varianza utilizando la igualdad:

V ar (X) = E�(X � E (X))2

�= E

�X2�� E [(X)]2

Podemos comprobarlo en el caso de Bernoulli donde E (X2) = �:

V ar (X) = � � �2 = � (1� �) .

(ii) En el caso donde X se distribuye normalmente con densidad (3.31):

E (Xr) =

�0; para r = 3; 5; 7; :::(1�3��� (r � 1))�r; para r = 2; 4; 6; :::

�(iii) Considere la variable aleatoria exponencial X con una función de

densidad:

fX(x; �) = �e��x; x>0, � > 0

�0r (�) : = E (Xr) =

Z 1

0

xr�e��xdx

Usando el cambio de variables, u = �x; dx = 1�du :

�0r (�) =

Z 1

�1

ur

�re�udu =

1

�r

Z 1

�1u[r+1]�1e�udu =

r!

�r!:

IMPORTANTE. En relación con los momentos crudos, es interesante ob-servar que cuando el cuarto momento existe también existen el primero, se-gundo y tercero. El resultado general se da en el siguiente lema.Lema (momentos inferiores). Si �0k (�) := E

�Xk�existe para algunos

enteros positivos k; entonces todos los momentos crudos de orden menor quek también existen, es decir, E (Xr) <1, para todo i = 1; 2; :::; k � 1.

3.7.2 Función generatriz de momentos

Una forma particularmente conveniente para calcular los momentos crudoses mediante la función generatriz de momentos (fgm) de�nida mediantela integral en (3.26) con h(X) = etX ; es decir:

mX(t) := E�etX�=

Z 1

�1etXf(x)dx; para t 2 (�h; h) ; h > 0,

Page 125: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.7. MOMENTOS 125

siempre que E�etX�exista para todo t en un cierto intervalo (�h; h);

para variables aleatorias discretas el cambio antes mencionado de integralesy sumas se mantiene (ver Gnedenko (1969)).La idea detrás de este dispositivo matemático es comprimir los momentos

en forma de cápsula los cuales estarían inmediatamente accesibles. Como semuestra abajo la fgm puede ser utilizada para generar estos momentos pordiferenciación simple en lugar de integración.Ejemplos.(i) Sea X una variable aleatoria distribuida Poisson. Entonces:

mX(t) =1Xr=0

etX�e���r

r!

�= e��

1Xr=0

(et�)r

r!= e��e�e

t

= e�(et�1) ya que

1Xr=0

�r

r!= e�.

(ii) SeaX una variable aleatoria uniformemente distribuida en el intervalo[a; b] :

mX(t) :=

Z b

a

etX�

1

b� a

�dx =

ebt � eat

(b� a) t; para t 6= 0. (3.32)

Usando la fgm es obtienen momentos diferenciando en vez de integrar.La intuición detrás de la de�nición de mX(t) toma la forma. En vista del

hecho de que una expansión en series de Maclaurin de etX toma la forma:

etX = 1 +Xt+(Xt)2

2!+(Xt)3

3!+ � � � =

X1

r=0

(Xt)r

r!. (3.33)

podemos concluir que si mX(t) existe para t 2 (�h; h) y algún h > 0,entonces podemos escribir

mX(t) := E�etX�= E

�X1

r=0

(Xt)r

r!

�e intercambiando el orden de la experanza y la suma (we use some hand

wavinghere), da como resultado:

mX(t) := E�etX�=X1

r=0E (Xr)

tr

r!para t 2 (�h; h) y algún h > 0.

Page 126: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

126 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

Esto sugiere que, suponiendo quemX(t) existe, podemos recuperar el mo-mento crudo �0r (�) := E (Xr) como el (r + 1)�ésimo término en la expansiónanterior, ya sea directamente cuando la fgm puede expandirse como una se-rie de potencias en potencias de t, o indirectamente utilizando diferenciación(there is some hand waving here as well) a través de:

E (Xr) = dr

dtrmX(t)jt=0 := mr

X(0), r = 1; 2; :::

�01 := E (X) = dmX(t)dt

jt=0; �02 := E (X2) = d2mX(t)dt2

jt=0; :::; �0r := E (Xr) =drmX(t)dtr

jt=0.La intuición detrás de este resultado es el siguiente: observando (3.33)

podemos ver que diferenciando mx(t) r veces, los términos hasta�E (Xr) t

r

r!

�desaparecen y se convierte en el segundo:

E (Xr)�[r(r�1)(r�2)���1]t0

r!

�= Xr.

Los términos con potencia mayor que r implican a t, lo que signi�ca quecuando sustituimos t = 0 ellos desaparecen, dejándonos sólo con E (Xr).EjemploPara una variable aleatoria distribuida Poisson X, mX(t) = e�e(t�1), y

entonces:

E (X) =d

dtmX(t) jt=0= e�(e

t�1)�et jt=0= �,

E�X2�=

d2

dtmX(t) jt=0= e�(e

t�1)�et

+ e�(et�1)�2e2t jt=0= �2 + �.

Lema de unicidad. Un hecho importante acerca de la fgm es que cuandoésta existe (no siempre), es única en el sentido de que dos variables aleatoriasX e Y que tienen la misma fgm deben tener la misma distribución y viceversa.Usando este lema podemos probar un resultado muy útil que proporciona

la base para la simulación de variables aleatorias con características distribu-cionales especí�cas. Esto nos permite utilizar números aleatorios generadosa partir de una distribución uniforme como la base para la generación denúmeros aleatorios para varias distribuciones continuas (véase el capítulo 5).Lema de transformación de la integral de probabilidad. Para

cualquier variable aleatoria continua X, con fda FX (X) (con independen-cia de su forma), la variable aleatoria de�nida por Y = FX (X) tiene unadistribución uniforme en el intervalo (0; 1), es decir

Y = FX (X) ~U (0; 1).Prueba. La fda de Y toma la forma:

Page 127: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.7. MOMENTOS 127

mY (t) := E�etY�= E

�etF (X)

�=R1�1 e

tF (X)f(x)dx etF (X)

tj1�1 = et�1

t,

ya que F (1) = 1 y F (�1) = 0. Mirando la forma de la fgm y com-parándola con (3:32), podemos ver que la variable aleatoria Y se distribuyeuniformemente en el intervalo (0; 1).Hay dos funciones relacionadas con las funciones generatrices de momen-

tos, las funciones cumulantes y característica, consideradas enseguida.Cumulantes�

Una de las funciones relacionadas con la función generatriz de momentoses la función generatriz cumulante, de�nida por:

X (t) = In (mX(t)) =1Xr=1

�rtr

r!para t 2 (�h; h), h > 0,

donde �r, r = 1; 2; 3; ::: se denominan cumulantes (o semi-invariantes).Es interesante observar que:

�1 = E (X) = d X(t)dt

jt=0, �2 = V ar (X) = d2 X(t)dt2

jt=0,y los cumulantes están directamente relacionados con los momentos crudos.

Los primeros cumulantes están relacionados con los momentos crudos de lasiguiente manera:

�1 = �01,�2 = �02 � (�01)

2,�3 = �03 � 3�02�01 + 2 (�01)

3,�4 = �04 � 4�03�01 � 3 (�02)

2 + 12�02 (�01)2 � 6 (�01)

4,�5 = �05�5�04�01�10�02�03+20�03 (�01)

2+30 (�02)2 �01�60�02 (�01)

3+24 (�01)5.

De esto podemos ver que los dos primeros cumulantes son la media y lavarianza.El cumulantes son a menudo preferibles a los momentos por varias razones

incluyendo las siguientes:(i) En el caso de la distribución normal: �r = 0, r = 3; 4; :::(ii) El r�ésimo cumulante es homogéneo de r-ésimo orden �r (�X) =

�r�r (X), r = 1; 2; :::.(iii) El r�ésimo cumulante es una función de los momentos de orden hasta

r,(iv) Para variables aleatorias independientes, el cumulante de la suma es

la suma de los cumulantes:�r

�Xn

k=1Xk

�=Xn

k=1�r (Xk), r = 1; 2; :::

Función característica�

La existencia de la fgm depende fundamentalmente de que mX(t) sea�nita en el intervalo (�h; h). En tal caso, todos los momentos E (Xr) son

Page 128: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

128 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

�nitos para todo r. En los casos en los cuales E (Xr) no es �nito par algúnr, mX(t) no es �nito en cualquier intervalo (�h; h). Para poder hacer frentea estos casos de�nimos la llamada función característica (véase Cramer(1946)):

'X (t) := E�eitX

�=

1Z�1

eitXf (x) dx = mX(it), para i =p�1

que, a diferencia de mX(t), siempre existe, ya que para todo t, 'X (t) estáacotado:j'X (t)j � E

���eitX��� = 1,y, por lo tanto, para muchas variables aleatorias, podemos encontrar la

función característica usando la función generatriz de momentos.La función característica está relacionada con los momentos (cuando ex-

isten!) a través de la serie:

'X (t) =X1

k=0

(it)r

r!�0r para t 2 (�h; h) ; h > 0.

También hay una relación directa entre la función característica de unlado y la distribución acumulada (fda) y funciones de densidad por el otro,en primer lugar señalado por Lyapunov en el contexto de los teoremas límite.Teorema de inversión. Sean FX (x), f (x) y 'X (t) las funciones fda,

densidad y característica de una variable aleatoria X, respectivamente.(a) Suponiendo que (a; b) son dos números reales (a < b) en donde F (x)

es continua:

FX (b)� FX (a) = limn!1

1

2�

nZ�n

�e�ita � e�itb

it

�'X (t) dt

(b) Si

1Z�1

j'X (t)j <1, entonces FX (x) =xZ

�1

f (u) du y f (x) =

1Z�1

e�itx'X (t) dt.

(c) 'X (t) determina únivocamente FX (x) en el sentido que (veáse Karr(1993)):

FX (x) = limz!�1

0@ limn!1

1

2�

nZ�n

�e�itz � e�itb

it

�'X (t) dt

1A .

Page 129: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.7. MOMENTOS 129

3.7.3 El problema de los momentos�

Como se ha dicho anteriormente, la utilidad principal de los momentos es quenos permiten manejar las distribuciones con parámetros desconocidos para los�nes de la modelación y de la inferencia. La pregunta que viene a la mente enesta etapa es ¿cuando los momentos f�0k := E

�Xk�, k = 1; 2; :::g, suponiendo

que existan, determinan la distribución unívocamente? Esta cuestión es desuma importancia, porque si los momentos no determinan la distribuciónunívocamente, entonces la utilidad de los momentos se reduce. Por lo tanto,las preguntas que surgen son las siguientes: dado el conjunto de momentos:f�0k := E

�Xk�<1, k = 1; 2; :::g,

(i) existencia: ¿existe una función f(x) � 0 tal que:1Z

�1

xrf (x) dx?

(ii) unicidad: ¿es la función f(x) única?

es decir, ¿

1Z�1

xrf (x) dx =

1Z�1

xrg (x) dx) f (x) = g (x)?

En general, la respuesta a ambas preguntas es no! Bajo ciertas condi-ciones, no obstante, la respuesta es sí. Veamos cómo estas condiciones estánrelacionadas con la convergencia de la serie en (3.35).Lema 1. Un resultado útil sobre la existencia de los momentos es la

siguiente.Una condición su�ciente (pero ciertamente no necesaria) para la existen-

cia de momentos es que el soporte de la variable aleatoria X esté en unintervalo acotado, es decir, RX := [a; b], donde �1 < a < b < 1. En estecaso todos los momentos existen:

�0k =

bZa

xrf (x) dx <1 para todo k = 1; 2; :::

En los casos en los cuales el rango de valores de la variable aleatoria encuestión no está acotada tenemos que comprobar la existencia o no de losmomentos.Una condición su�ciente para el problema de la unicidad es proporcionada

por lema 2.Lema 2. Los momentos f�0k, k = 1; 2; :::g (suponiendo que existen)

determinan la función de distribución únivocamente si:

Page 130: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

130 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

limn!1

�sup

h(2n)�1 (�02n)

12n

i�<1,

NOTE que en muchas ocasiones usaremos las abreviaturas sup e inf querepresentan al supremo y al ín�mo, respectivamente. Ellos son esencialmentelos bien conocidos máx y mín que representan al máximo y mínimo con unacali�cación. A veces el máximo y / o el mínimo de un conjunto de númerospueden no existir, por ejemplo, el conjunto (0; 1) no tiene ni un mínimo niun máximo. En estos casos utilizamos inf y sup, que denotan la mayor cotainferior y la menor cota superior, respectivamente, las cuales siempre existen!Los menos matemáticamente inclinados pueden interpretarlos como máximomínimo, sin preocuparse demasiado.Un comprobación útil de una determinación única de la función de dis-

tribución a través de los momentos es proporcionada por la condición Car-leman:X1

n=1

h(�02n)

� 12n

i=1.

Una condición necesaria y su�ciente para el problema de la unicidad enel caso de variables aleatorias continuas es proporcionada por lema 3.Lema 3. Los momentos f�0k, k = 1; 2; :::g de la variable aleatoria con-

tinua X (suponiendo que existen) con función de densidad f(x) determinansu función de distribución unívocamente si y sólo si:

1Z�1

In f(x)(1+x2)

dx = �1.

Esto se conoce como la condición de Krein; ver Stoyanov (1987).EjemploConsidere el caso donde la variable aleatoria X tiene una distribución

logarítmica normal con una densidad:

f (x) =1

xp2�expf�1

2(In x)2g, x 2 R+

Se puede demostrar que:

�0k = ek2

2 , k = 1; 2; :::y entoncesX1

k=1

��ek

2�� 1

2k

�=X1

k=1

�e�

k2

�<1,

es decir, la condición Carleman no se sostiene. Sin embargo, en vista delhecho de que la condición Carleman sólo es su�ciente, no podemos concluir

Page 131: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.7. MOMENTOS 131

que los momentos no determinan la distribución unívocamente. Por otraparte, ya que la condición Krein no se sostiene, es decir,

1Z0

1(1+x2)

��In x� 1

2(In x)2

�dx <1,

podemos concluir que la distribución log-normal no está determinada porsus momentos debido a la condición de Krein es a la vez necesaria y su�ciente;ver Heyde (1963).

La línea �nal

Los lemas anteriores sugieren que, en general, los momentos no determi-nan la distribución unívocamente, incluso si utilizamos un número in�nitode ellos. Además, sabemos que, en general, ninguna distribución es determi-nada por un número �nito de momentos. En vista del hecho de que, a efectosde modelizacióne inferencia estadística podemos tratar sólo con un pequeñonúmero de momentos (y, ciertamente, �nito), el problema de los momentosparece insalvable. Sin embargo, si estamos dispuestos a limitarnos a unaclase especí�ca de distribuciones el problema se vuelve manejable.

Ejemplo

Dentro de la familia Pearson se requiere un máximo de cuatro momentospara determinar la distribución particular (ver capítulo 12).

UNA NOTA DE PRECAUCIÓN: momentos coincidentes puede sermuy engañoso!

Tenga en cuenta la distribución que se especi�ca a continuación (ver Ro-mano y Siegel (1986)).

xp3 �

p3 0

f (x) 16

16

46

(3.36)

Podemos demostrar que la variable aleatoria cuya distribución es de�nidapor (3.36) tiene momentos que coinciden con los cinco primeros momentosde z~N (0; 1), ya que:

Page 132: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

132 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

E (X) =p3

�1

6

��p3

�1

6

�= 0,

E�X2�= 3

�1

6

�+ 3

�1

6

�= 1,

E�X2�=

�p3�3�1

6

���p3�3�1

6

�= 0,

E�X4�= 9

�1

6

�+ 9

�1

6

�= 3,

Este ejemplo puede parecer un algo extremo, pero debe servir como unanota de precaución

3.7.4 Momentos centrales superiores

La noción de la varianza se puede extender para de�nir los momentos cen-trales usando la sucesión de funciones h(X) := (X � E(X))r ; r = 3; 4; ::: en(3:26):

�r (�) := E (Xr) =

Z 1

�1(x� �)r f(x;�)dx; r = 2; 3; :::

En lugar de obtener estos momentos directamente, a menudo es másconveniente obtener los momentos centrales �r utilizando su relación con losmomentos crudos y ver los cumulantes ( ver Stuart y Ord (1994)):

�2 = �02 � (�01)2, �2 = �2,

�3 = �03 � 3�02�01 + 2 (�01)3, �3 = �3,

�4 = �04 � 4�03�01 + 6�02 (�01)2 � 3 (�01)

4, �4 = �2 � 3 (�02)2,

Ejemplos(i) Para la densidad de Poisson: f(x;�) =

�e���x

x!

�, � 2 (0;1), x =

0; 1; 2; :::,ya sabemos que � = �. De un ejemplo anterior, sabemos que:

X (t) = In (mX (t)) = ��et � 1

�= �

�1 + t+

t2

2!+t3

3!+ � � �

�Por lo tanto, podemos deducir que:

Page 133: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.7. MOMENTOS 133

�r =dr X(t)dtr

jt=0 = �, r = 1; 2; :::�1 = �, �2 = �, �3 = �, �4 = �, ) �2 = �, �3 = �, �4 = 3�

2 + �.(ii) En el caso de que la variable aleatoria X sea normal con densidad

(3.31):

�01 = �, �2 = �2, �3 = 0, �4 = 3�

4, �r =�0, r impar

r!�r

(5r!)2(5r), r par

��1 = �, �2 = �2, �3 = 0, �4 = 0, �r = 0, r = 5; 6; :::En analogía directa a la función generatriz de momentos (fgm) la fgm

central se de�ne por:

mX (t) := E�e(X��)t

�= e��tX mX (t) = 1+

X1

r=1�rtr

r!, para t 2 (�h; h) , h > 0,

siempre que exista.Uno de los los principales usos de los momentos centrales es que se pueden

utilizar para darnos una imagen más completa de la forma de la distribución.Mediante la estandarización de los momentos centrales anteriores de�nimosuna serie de medidas útiles que nos permiten tener una idea más completade la posible forma de una función de densidad. La primera característicaimportante de la forma de una distribución es la de simetría alrededor de unpunto dado; a menudo a = E (X).Simetría. Una variable aleatoria X con densidad f(x) se dice que es

simétrica alrededor de un punto a si se cumpe la siguiente condición:f (a� x) = f (a+ x), para todo x 2 RX ,o, más generalmente, en términos de la fda FX(x):FX (a� x) = FX (a+ x) = 1, para todo x 2 RX ,El coe�ciente de asimetríaEl primer índice de la forma, diseñado para darnos una idea acerca de la

posible asimetría de una función de densidad alrededor de la media, es el co-e�ciente de asimetría de�nido como el tercer momento central estandarizadointroducido por Pearson (1895):Simetría: �3 (X) =

�3

(p�2)3 ,

NOTE quep�2 = [V ar(X)]

12 denota la desviación estándar. Si la dis-

tribución es simétrica alrededor de la media entonces, �3 = 0; lo contrariono se cumple!Ejemplo

Page 134: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

134 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

En cuanto a la �gura 3.10 podemos ver que la densidad normal (3.10) essimétrica y, por lo tanto �3 = 0; lo mismo ocurre con la densidad uniforme,como se muestra en la �gura 3.12. En la �gura 3.27, sin embargo, podemosver dos funciones de densidad positivamente sesgadas (�3 > 0). Ambas rep-resentan la misma densidad, la densidad Beta:

f(x;�) =x��1 (1� x)��1

B [�; �], � : = (�; �) 2 R2+, 0 < x < 1

para diferentes valores de los parámetros (�; �), (� = 1; � = 4) y (� = 2; � = 4).Como se muestra en el apéndice A el coe�ciente de asimetría de la distribu-ción Beta es el siguiente:

�3 =2 (�� �)

p(�+ � + 1)

(�+ � + 2)p��

UNA NOTA DE PRECAUCIÓN: �3 = 0 no implica que la distribuciónes simétrica!

x �2 1 3f (x) 0:4 0:5 0:1

(3.37)

E(X) = (�2)(0:4) + 1(0:5) + 3(0:1) = 0; E(X3) = (�2)3(0:4) + 1(0:5) +33(0:1) = 0.

Por lo tanto, �3 = 0 a pesar de que la distribución anterior es claramenteno simétrica (ver Romano y Siegel (1986)). Este ejemplo pone de mani�estola importancia de observar las grá�cas de las distribuciones y no sólo algunasmedidas de síntesis; estas últimas no son sustitutos para los grá�cos mismos!

Curtosis

El coe�ciente de asimetría permite al modelador distinguir entre una dis-tribución simétrica y una distribución no simétrica, pero que aún nos dejacon el problema de

Page 135: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.7. MOMENTOS 135

Figura 3.27 Densidad positivamente sesgada.

Figura 3.28 Densidad negativamente sesgada.

distinguir entre dos distribuciones simétricas con diferentes formas, talescomo las densidades normal y uniforme mostradas en las �guras 3.10 y 3.12.Mirando esas dos grá�cas podemos ver que esas dos densidades son di�erencon respecto a sus picos y a sus colas. La normal tiene un pico en forma decampana, pero la uniforme tiene un pico plano (sin pico!). La normal tienecola alargada que se extiende a in�nito en ambos lados, pero la uniforme notiene colas. La intuición sugiere que una manera de distinguir entre ellas eselaborar una medida que mida el apuntamiento en relación a las colas. Elcoe�ciente de curtosis es tal medida, introducida originalmente por Pearson(1895).La curtosis es una versión estandarizada del cuarto momento central:

Page 136: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

136 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

Curtosis: �4 (X) =�4(�2)

2 .

El término proviene de la palabra griega ����!�� que signi�ca curvaturade la columna vertebral y pretende ser una medida de los apuntamiento enrelación a la forma de las colas. NOTE que en algunos libros la medidautilizada es (�4 � 3) referida a un exceso de curtosis (el cuarto cumulanteestandarizado). En el caso de la distribución normal (3.31) �4 = 3, y seconoce como una distribución mesocúrtica; meso viene del griego �"�o&que signi�ca medio (centro, mitad). En el caso donde la distribución encuestión tenga un pico más plano que la normal (�4 < 3), la llamamos plat-icúrtica, y en el caso de que tenga un pico más puntiagudo que el normal(�4 > 3), la llamamos leptocúrtica ; plati y lepto provienen de las palabrasgriegas �����& y ����o& que signi�can ancho y delgado, respectivamente;estos términos fueron introducidos por Pearson (1906).

Intuitivamente, podemos pensar en el coe�ciente de curtosis como unamedida que indica si una distribución simétrica cuando se compara con lanormal tiene colas más gruesas y picos más puntiagudos o no. Viendo ladensidad normal como una pila en forma de campana hecha de yeso el escultorrasura parte de los hombros y lo agrega a la cola y el pico para producir unadistribución leptocúrtica.

Ejemplos

(i) Leptocúrtica. En la �gura 3.29 comparamos la densidad normalestándar (línea punteada) y una densidad leptocúrtica, la densidad estándart de Student v = 5:

f (x;�) =exp

n�x��

o� �

�1 + exp

n�x��

o�2 , � = (�; �) 2 R� R+, x 2 R

con parámetros (� = 0; � = 0:56) y (� = 0; � = 0:628), respectivamente.

Como se muestra en el apéndice A el coe�ciente de curtosis de la dis-tribución logística es �4 = 4:2. La �gura 3.32 muestra lo difícil que puedeser distinguir dos distribuciones en los estudios empíricos con sólo echarlesun vistaso.

Page 137: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.7. MOMENTOS 137

Figura 3.29 Densidades normal frente a t de Student normalizada por �x.

Figura 3.30 Densidades normal frente a t de Student normalizada de modoque V ar (X = 1).

(iii) Platicúrtica. En la �gura 3.33 comparamos la densidad normal(en línea de puntos) con una densidad platicúrtica, la tipo Pearson II conv = 3:

f (x) =��12

�� [v + 1] �

12

��12+ v + 1

�c

�1 +

x2

vc2

�� 12(v+1)

, � c � x � c, c2 := 2 (v + 2) .

La densidad normal di�ere de la de Pearson del tipo II en exactamentela forma opuseta de lo que di�ere la t de Student. En particular,(a) las colas de la Pearson II son más delgadas,

Page 138: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

138 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

(b) la curvatura de la Pearson II es menos puntiaguda.(iv) En la �gura 3.34 podemos ver la grá�ca de los una densidad simétrica

Beta simétrico con parámetros (� = 4; � = 0:4):

f(x;�) =x��1 (1� x)��1

B [�; �], � : = (�; �) 2 R2+, 0 < x < 1

Figura 3.31 Densidades normal (0; 1) contra logística (� = 0; � = 0:56).

Figura 3.32. Densidades normal (0; 1) contra logística (� = 0; � = 0:628).

Figura 3.33 Densidades normal (0; 1) contra Pearson II.

Figura 3.34 Densidad Beta (� = 4; � = 0:4).

Page 139: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.7. MOMENTOS 139

Page 140: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

140 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

Una vez más podemos ver la misma forma de campana igual que en el casode las densidades normal, t de Student y Pearson tipo II, pero en contrastecon la t de Student es platicúrtica ya que:

�4 =3 (�+ � + 1)

�2 (�+ �)2 + �� (�+ � � 6)

��� (�+ � � 2) (�+ � � 3)

y por lo tanto para todo � = �, �4 � 3.(v) Policúrtica. Considere la distribución potencia exponencial (o

error) cuya densidad es:

f (x;�) =��12�(

�2+1)

��1 + �

2

� e(� 12 jx��� j

2

), � = (�; �; �) 2 R� R2+, x 2 R (3.38)

Esta es una distribución simétrica con �3 = 0, que incluye las distribu-ciones normal (� = 1) y Laplace (� = 1) (ver Apéndice A). Además, pro-porciona una parametrización conveniente del coe�ciente de curtosis, porqueanida las tres formas de los curtosis a través del parámetro �. En vista delhecho de que:

�4 =��5 �2

����2

���3 �2

�2(a) para � = 1, f (x;�) es mesocúrtica,

(b) para � < 1, f (x;�) es platicúrtica,

(c) para � > 1, f (x;�) es leptocúrtica (veáse �gura 3.35).

(vi) Platicúrtica. Es instructivo volver a la �gura 3.25, donde compara-mos una densidad Weibull con parámetros (� = 3:345; � = 3:45; � = �3) yuna densidad normal estándar. Mirando la los grá�cos de las dos densidadeses evidente que la distinción entre ellas es bastante difícil. Sin embargo, uti-lizando el coe�ciente de curtosis descubrimos que la Weibull es platicúrtica(�4 = 2:71) a diferencia de la normal (�4 = 3).

Page 141: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.7. MOMENTOS 141

Figura 3.35 Potencia exponencial: densidad platicúrtica.

En conclusión, hay que decir que la utilidad del coe�ciente de curtosis sereduce en el caso de distribuciones no simétricas, ya que no tiene la mismainterpretación que en los casos simétricos anteriormente (véase Balanda yMacGillivray (1988)).Antes de proceder a considerar otras características numéricas de las dis-

tribuciones, es instructivo discutir la derivación de los momentos en los casosen los que la distribución no implica parámetros desconocidos.Ejemplos(i) Considere la variable aleatoria discreta X, con una densidad como la

dada a continuación:

x 0 1 2f (x) 0:3 0:3 0:4

E (X) = 0 (0:3) + 1 (0:3) + 2 (0:4) = 1:1,E (X2) = 02 (0:3) + 12 (0:3) + 22 (0:4) = 1:9,E (X3) = 03 (0:3) + 13 (0:3) + 23 (0:4) = 3:5,E (X4) = 04 (0:3) + 14 (0:3) + 24 (0:4) = 6:7,V ar (X) = [0� 1:1]2 (0:3) + [1� 1:1]2 (0:3) + [2� 1:1]2 (0:4) = 0:69,V ar (X) = E (X2)� [E (X)]2 = 1:90� 1:21 = 0:69,E�(X � E (X))3

= [0� 1:1]3 (0:3) + [1� 1:1]3 (0:3) + [2� 1:1]3 (0:4) =

0:108,E�(X � E (X))4

= [0� 1:1]4 (0:3) + [1� 1:1]4 (0:3) + [2� 1:1]4 (0:4) =

0:7017,

�3 =�0:108(0:83)3

= 0:18843�, �4 =

�0:7017(0:83)4

�= 1:4785.

Page 142: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

142 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

(�3 = 0:1843; �4 = 1:4785).(ii) Considere la variable aleatoria continua X con función de densidad:

f (x) = 2x; 0 < x < 1,

E (X) =

Z 1

0

2x2dx =2

3x3j10 =

2

3;

E�X2�=

Z 1

0

2x3dx =2

4x4j10 =

1

2;

E�X3�=

Z 1

0

2x4dx =2

5x5j10 =

2

5;

V ar (X) = E�X2�� [E (X)]2 = 1

2� 49=1

18

Invarianza de la asimetría y curtosis. Concluimos la discusión delos coe�cientes de asimetría y curtosis reiterando que su utilidad se derivadel hecho de que son invariantes a los cambios de localización y escala. Esdecir, para cualquier variable aleatoria X cuyos primeros cuatro momentosexistan:

�3 (X) = �3 (a+ bX) y �4 (X) = �4 (a+ bX).

3.7.5 Otras características numéricas

Es a veces el caso de que para ciertas variables aleatorias, los momentosdiscutidos anteriormente no tienen sentido. Por ejemplo, en el caso de que lavariable aleatoria X indique la religión de una persona: 1 = Cristiana, 2 =Musulmana, 3 = Judia, 4 = Budista, la media y la varianza no tienen muchosentido. Además, a veces la media y la varianza no existen, como en el casode la distribución de Cauchy (ver sección siguiente). En estos casos tenemosque considerar otras características numéricas.En v.a. como �religión�los momentos anteriores no tienen sentido. Además,

hay distribuciones (como la de Cauchy) donde no existen la media ni la var-ianza. En estos casos se requieren otras características númericas.

Page 143: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.7. MOMENTOS 143

Medidas de localización

(1) La moda o valor modalm0, es aquel valor particular de la variable aleato-ria que se corresponde con el máximo de la función de densidad; propuestopor Pearson (1894).

Ejemplos

(i) Para la función de densidad dada en (3.39) la moda es igual a 2.

En el caso en que f(x) es diferenciable la moda puede ser derivado comola solución de:

�df (x)

dx

�= 0 sujeto a

�df2 (x)

dx2

�x=m0

< 0: (3.40)

(ii) Para una variable aleatoria lognormal X con función de densidad:

f (x;�) =(x�)�1

2�exp

(�12

(In x� �)2

�2

), � :=

��; �2

�2 R� R+, x 2 R,

Teniendo en cuenta el hecho de que�df2(x)dx2

�x=m0

< 0, la moda de la

densidad es: m0 = exp (�� �2). En la �gura 3.36 podemos ver la moda dela densidad lognormal LN (� = 1; � = 0:7). En la �gura 3.37 podemos ver lamoda de la densidad de Cauchy C (� = 0; � = 1).

(2) La mediana de una variable aleatoria X es aquel valor particularque divide la probabilidad en dos mitades iguales, es decir, corresponde a x1

2

(suponiendo que es única) tal que:

P�x < x1

2

�� 0:5 y P

�x � x1

2

�� 0:5.

En el caso donde la función de distribución es continua y estrictamentecreciente, x1

2se de�ne por:

F�x12

�= 0:5 y x1

2es única.

Page 144: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

144 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

Figura 3.36 Moda de la densidad lognormal.

Figura 3.37. Moda de la densidad Cauchy

Ejemplos(i) Para una variable aleatoria normal la mediana coincide con las otras

dos medidas delocalización:media = mediana = moda.NOTE que para distribuciones simétricas en general, la única igualdad

que se cumple es la siguiente:

Page 145: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.7. MOMENTOS 145

media = mediana.(ii) Para una variable aleatoria lognormal la media está dada por el valor

m tal que:

mZ0

1

x�p2�exp

(�12

�In x� �

�2)dx =

1

2, sustituyendo y = In x,

1

�p2�

In mZ�1

exp

(�12

�y � �

�2)dx =

1

2, esto se cumple para In m = �,

Por lo tanto, la mediana es:x12= e�.

La mediana de la densidad lognormal se muestra en la �gura 3.36 comoel punto en el centro del rectángulo negro � = 1; � = 7 y por lo tantox12= 2:71828). La mediana es una medida importante de localización, porque

a veces la media no existe (véase la distribución de Cauchy abajo), pero lamediana siempre lo hace. Extendiendo la noción de mediana a otros valoresen el intervalo [0; 1], no sólo

�12

�, de�nimos lo que se conoce como un cuantil.

(3) Quantiles. El cuantil p-ésimo, denotado por xp, se de�ne como elmenor número satisfaciendo la relación:

FX (xp) � p, para p 2 [0; 1].Más formalmente, el cuantil p-ésimo se de�ne por:

xp = F�X (p) := infx2Rx

fx : FX (x) � pg ; para p 2 [0; 1] : (3.42)

xp = F�X (p) := infx2Rx

fx : FX (x) � pg, para p 2 [0; 1].Como se dijo antes, inf

x2Rx; es tan solo el glori�cado mínimo. Esta de�nición

sugiere que en el caso de que la función de distribución acumulada (fda) seacontinua y estrictamente creciente, xp es único y se de�ne por:

F (xp) = p.El valor p se conoce como p-ésimo percentil y el valor xp el cuantil corre-

spondiente.Es interesante NOTAR que la noción de cuartil fue introducida por McAl-

ister (1879), la noción de mediana por Galton (1883) y la de percentil porGalton (1885).

Page 146: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

146 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

Más allá de la mediana hay otros dos cuantiles de especial interés. Elcuartil inferior (NOTE la diferencia en el nombre) y el cuartil superiorson de�nidos por:

x14= F� (0:25), x3

4= F� (0:75).

Ejemplos(i) En el caso de la distribución estándar normal (N(0; 1)):x14= �0:6745, x3

4= 0:6745.

Por lo tanto, para una distribución normal arbitraria (N(�; �2)):x14= �� 0:6745�, x3

4= �+ 0:6745�.

(ii) Es bien sabido que la distribución de Cauchy (C(�; �)) no tiene mo-mentos. Considere la distribución de Cauchy con fda, cuantiles y funcionesde densidad:

F (x;�; �) = 12+�1�tan�1

�x���

��,

F�1 (x;�; �) = �+ � +�tan���x� 1

2

���,

f (x;�; �) = 1

��1+(x��� )

2� , � 2 R, � 2 Rx, x 2 R.

La función de�nida por (3.42) es interesante por derecho propio y es poreso que vamos a tomar una breve digresión para examinar sus propiedadesen algún detalle; ver Karr (1993).Función cuantil. La función de�nida por (3.42) en la forma de:F�X (:) : (0; 1)! Rxse conoce como la función cuantil. En cuanto a la de�nición no es muy

difícil ver que F�X (:) no es la misma función inversa ordinaria de la fda dedistribución FX (:) ya la inversa existe sólo en casos donde FX (:) es uno auno y sobre, es decir, cuando FX (:) es continua y estrictamente creciente.Ella constituye, sin embargo, una especie de inversa generalizada que existeincluso en los casos donde la función inversa común no existe. Cuando lafunción inversa ordinaria existe las dos coinciden en el sentido de que:

F�X (:) = F�X (:).Como se ha indicado antes, F�X (:) existe incluso en los casos donde FX (:)

no es ni continua ni estrictamente creciente. Intuitivamente, F�X (:) saltadonde FX (:) es plana y F�X (:) es plana en los puntos donde FX (:) salta.Debido a su importancia tomamos nota de varias propiedades útiles de lafunción cuantil:Q1. F�X (p) � x si y sólo si p � FX (x) para todo x 2 Rx y p 2 (0; 1),Q2. F�X (:) es creciente y continua a la izquierda,Q3. Si FX (:) es continua, FX

�F�X (p)

�= p.

Ejemplo

Page 147: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.7. MOMENTOS 147

En las �guras 3.38-3.39 podemos ver la fda de Cauchy F (x; 0; 1) y lafunción cuantil correspondiente:

G (x; 0; 1) := F�1 (x; 0; 1), (� = 0, � = 1).Podemos demostrar que:�Z

�1

1

��1+(x��� )

2�dx = 1

2,

���Z�1

1

��1+(x��� )

2�dx = 1

4,

�+�Z�1

1

��1+(x��� )

2�dx = 3

4.

Es decir, la mediana es igual a �, el cuartil inferior es igual a � � �y el cuartil superior es igual a (�+ �). Estos cuantiles a menudo puedenser utilizados en lugar de los momentos cuando se utiliza la distribución deCauchy. En la �gura 3.37 podemos ver los dos cuartiles mostrados con losprqueños triángulos a cada lado de la media.En relación a la función cuantil notemos un resultado muy útil que puede

ser ser visto como el inverso de la transformación integral de probabilidadantes mencionada.La inversa de la transformación integral de probabilidad. Para

cualquier variable aleatoria continua X, con una fda FX (x) tal que u =FX (x) es invertible y x = F�1X (x) .a) Para la variable aleatoria U = FX (x):

U = FX (x) ~U (0; 1) . (3.43)

Figura 3.38 fda Cauchy (� = 0, � = 1).

Figura 3.39 Función cuantil Cauchy.

Page 148: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

148 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

(b) Sea U~U(0; 1) y de�nir X = F�X (U). Entonces X tiene una distribu-ción con fda FX (:).NOTE que, en contraste con la transformación integral de probabilidad,

el resultado de la transformación inversa no asume que F (:) es continua.El resultado anterior proporciona una manera más notable para generar

variables aleatorias con una distribución dada. Su utilidad puede ser vistafácilmente en casos donde F (x) es invertible (véase el capítulo 5).EjemploConsidere el caso donde U~U(0; 1) y queremos transformarla en una vari-

able aleatoria X exponencialmente distribuida con:FX (x) = 1� e��x, x > 0.Utilizando (3.43) junto con la forma especí�ca de F (x), podemos deducir

que u = 1� e��x, e��x = 1� u, x = 1�In (1� u), y por lo tanto:

X = F�X (u) = �10In (1� u), u 2 (0; 1).

Este resultado se puede utilizar para simular variables aleatorias dis-tribuidas exponencialmente usando variables aleatorias distribuidas uniforme-mente; véase el capítulo 5.Medidas de dispersión(1) El rango se de�ne como la diferencia entre el mayor y el menor valor

que toma la variable aleatoria que se trate, es decir,R (X) := Xmax �Xmin.EjemploEn el caso de la distribución uniforme (U(a; b)):R (X) := Xmax �Xmin = b� a.(2) El rango intercuartílico, se de�ne como la diferencia entre los cuar-

Page 149: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.7. MOMENTOS 149

tiles inferior y superior:RIQ :=

�x 34� x 1

4

�.

Ejemplos(i) En el caso de la distribución normal (N(�; �2)):

RIQ :=�x 34� x 1

4

�= �+ 0:6745� � �+ 0:6745� = 2 (0:6745)�.

En la �gura 3.40 podemos ver la fda normal para N(0; 1) con los cuantilessiguientes:

q x F (x) f(x)x0:05 �1:645 0:05 0:103x0:25 �0:6745 0:25 0:318x0:75 �0:6745 0:75 0:318x0:95 �1:645 0:95 0:103En la �gura 3.41 podemos ver estos cuantiles en relación con la function

de densidad.NOTE que el máximo de la función de densidad es justamente1

�p2�= 0:39894 .

(ii) En el caso de la distribución de Cauchy considerada anteriormente,podemos ver fácilmente que:

RIQ := (�+ �)� (�� �) = 2�.Este puede ser usado como una medida de dispersión ya que la varianza

no existe.(3) La desviación cuartil, se de�ne como la mitad del rango intercuar-

tílico, es decir:q (X) :=

�12

� �x 34� x 1

4

�.

Figura 3.40 fda normal: cuantiles.

Page 150: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

150 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

Figura 3.41 Densidad normal: cuantiles.

Ejemplos(i) Para la distribución normal N (�; �2): q (X) :=

�12

� �x 34� x 1

4

�=

(0:6745)�.

(ii) Para la distribución de Cauchy C (�; �): q (X) :=�12

� �x 34� x 1

4

�= �.

(4) El coe�ciente de variación, propuesto por Pearson (1896), se de�necomo el cociente de la desviación estándar respecto a la media de la variablealeatoria que se trate, es decir,

cv (X) := ��.

3.8 Desigualdades

Un capítulo muy importante de la teoría de la probabilidad es el de lasdesigualdades probabilísticas. La función principal de estas desigualdadeses proporcionar cotas superiores e inferiores para la evaluación de las prob-abilidades asociadas con variables aleatorias mediante la utilización de susmomentos. En cierto modo estas desigualdades nos proporcionan formas paradejar de lado la distribución de ciertas variables aleatorias, pero todavía enuna posición para hacer a�rmaciones probabilísticas relativas a estas vari-ables aleatorias; ver Shiryayev (1984), Karr (1993) y Loeve (1963).Desigualdad general de Chebyshev. Sea X (:) : S !Rx := (0;1)

una variable aleatoria positiva y sea g(:) : (0;1) ! (0;1) una funciónpositiva y creciente. Entonces, para todo " > 0;

Page 151: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.8. DESIGUALDADES 151

P (g (X) � ") � E [g (X)]g (")

(3.44)

Tomemos nota de que la desigualdad de Chebyshev encontrada anteri-ormente es un caso especial de (3.44). Otros casos especiales, se indican acontinuación. NOTE en primer lugar que no existe una terminología estándarpara estas desigualdades.Desigualdad deMarkov. SeaX una variable aleatoria tal queE (jXjp) <

1; para p > 0 :

P (jXj � ") � E [jXjp]"p

:

La conocida frase de que "no hay comida gratis" se puede ilustrar usandoesta desigualdad para demostrar que al postular la existencia de los momentossuperiores podemos mejorar la cota superior.EjemploSea fXng1n=0 := fX1; X2; :::; Xn; :::g una sucesión de variables aleato-

rias Bernoulli independientes e idénticamente distribuidas (IID) . Se puededemostrar que:

Sn :=Xn

k=1Xk~Bi (n�; n� (1� �)).

Usando la desigualdad de Chebyshev obtenemos:

P���n�1Sn � �

�� > "�� � (1� �)

n"2.

Por otro lado, utilizando la desigualdad de Markov para el cuarto mo-mento:

P�jY � E (Y )j4 > "

��E�jY � E (Y )j4

�"4

.

señalando que E�jn�1Sn � �j4

�= n� [1 + 3� (1� �) (n� 2)] proporciona

P���n�1Sn � �

�� > "�� 3

16n2"4.

Como puede verse, la estimación de la cota superior dada por la desigual-dad de Markov es menos crudo, ya que utiliza más información en relacióncon la existencia de momentos.

Page 152: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

152 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

La desigualdad de Bernstein. Sea X (:) : S ! Rx := (0;1) unavariable aleatoria positiva tal que E

�etX�<1 para algún t 2 [0; c], c > 0:

P (X � ") �E�etX�

etX� inf

0�t�c

�e�tXE

�etX�.

Desigualdad de Jensen. Sea ' (:) : R! R una función convexa, esdecir:

�' (x) + (1� �)' (y) � ' (� (x) + (1� �) (y)) , � 2 (0; 1) ; x; y 2 R.

Suponiendo que (E(jXj)) <1, entonces:' (E (X)) � E (' (X)).Esta desigualdad se puede utilizar para obtener toda una serie de de-

sigualdades.Desigualdad de Holder. Sean X, Y variables aleatorias tales que

E(jXjp) < 1 y E(jXjp) < 1, donde 1 < q < 1, 1 < p < 1,1p+ 1

q= 1,

entonces:

E (X � Y ) � E(jXjp)1p � E(jY jq)

1q .

Desigualdad de Minkowski. Sean X, Y variables aleatorias tales queE(jXjp) <1 y E(jXjp) <1, donde 1 < p <1, entonces:

E (jX + Y jp)1p � E(jXjp)

1p � E(jY jp)

1p .

Las desigualdades anteriores se utilizan ampliamente en el contexto delos teoremas límite considerados en el capítulo 9.

3.9 Resumen

El objetivo básico de este capítulo ha sido la transformación del abstracto es-pacio de probabilidad (S;=;P (:)) en un modelo de probabilidad operacional.El resultado �nal es una familia de densidades indexadas por un pequeñonúmero de parámetros desconocidos:

� = ff(x;�); � 2 �; x 2 RXg :

Page 153: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.10. EJERCICIOS 153

Esta es la base del fundamento del marco de referencia matemático sobreel que será construida la modelizacióny la inferencia estadística. Siendo los el-ementos básicos del modelo de probabilidad (i) la función de densidad, cuyasformas resultarán importante en la modelación, (ii) el espacio de parámetrosque también juega un papel importante en la inferencia estadística y (iii)el soporte de la densidad. Todos estos tres elementos juegan un papel im-portante en la elección de un modelo de probabilidad adecuado. En vistadel hecho de que las formas distribucionales dependen fundamentalmentede los parámetros desconocidos, nos gustaría de alguna manera evaluar lasformas sugeridas por los datos observados antes de elegir el modelo de prob-abilidad adecuado, sin tener que conocer los parámetros. En primer lugarpodemos utilizar técnicas estadísticas descriptivas, tales como el histograma,así como calcular características de los datos observados, tales como la me-dia aritmética. Como se muestra en el capítulo 5 éstas están directamenterelacionadas con las formas distribucionales adoptadas por las funciones dedensidad y los llamado momentos de la distribución. Esa es la razón por laque hicimos una digresión para hablar de los momentos de una distribucióny cómo se relacionan con los parámetros.La relación entre los parámetros desconocidos � del modelo de probabili-

dad y los momentos de la distribución en cuestión viene dada por:

E(Xr) =

Z 1

�1xrf(x;�)dx =gr (�) ; r = 1; 2; :::

Los conceptos introducidos en esta digresión resultarán indispensable paralos �nes de la modelación, ya que representan elementos esenciales del fun-damento.En el siguiente capítulo consideramos la metamorfosis del abstracto espa-

cio muestral GIIDn en un modelo muestral operacional en términos de variablesaleatorias: un conjunto de variables aleatoriasX := (X1; X2; :::; Xn), con unaestructura probabilística especí�ca.

3.10 Ejercicios

1. Explique por qué el abstracto espacio de probabilidad no es convenientepara los propósitos de la modelación.2. (a) "Una variable aleatoria ni es variable ni es aleatoria". Discuta.

Page 154: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

154 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

(b) "El concepto de una variable aleatoria es un concepto relativo".Discuta.

(c) Explicar la diferencia entre la inversa y la preimagen de unafunción.3. Considere el experimento aleatorio de lanzar dos dados y contar el

número total de puntos que aparecen en las caras superiores. La variablealeatoria X toma el valor 0 cuando el número total de puntos es impar y 1cuando el número total de puntos es par.(a) Derive la función de densidad de la variable aleatoria X asumiendo

que los dosdados son simétricos.(b) Derive la función de densidad de la variable aleatoria X asumiendo

que los dosdados no son simétricos.4. Discuta la diferencia entre las siguientes funciones conjunto probabili-

dad en términos de su dominio:P (X � x) = PX�1 ((�1; x]) = PX ((�1; x]).5. En el caso del experimento aleatorio de "lanzar una moneda dos veces":S = f(HH); (HT ); (TH); (TT )g, = = fS;?; A;Ag,donde A = f(HH); (HT ); (TH)g.Considere las siguientes funciones:(i) X(HH) = 1; X(HT ) = 2; X(TH) = 2; X(TT ) = 1,(ii) Y (HH) = 1; Y (HT ) = 0; Y (TH) = 0; Y (TT ) = 0,(iii) Z(HH) = 1; Z(HT ) = 1; Z(TH) = 1; Z(TT ) = 7405926.(a) ¿Cuáles de las funciones (i) - (iii) constituyen variables aleatorias con

respecto a =?(b) Para las funciones que no son variables aleatorias con respecto a =,

de�na elespacio de eventos generados por ellas.6. Compare y contraste los conceptos de una variable aleatoria simple y

una variable aleatoria general.7. Describa brevemente la metamorfosis del espacio de probabilidad

(S;=;P (:)) en un modelo de probabilidad de la forma:� = ff(x;�); � 2 �; x 2 RXg.Explique la relación entre los componentes del espacio de probabilidad y

el modelo de probabilidad.8. Explique los componentes principales de un modelo de probabilidad

genérico de la forma:

Page 155: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

3.10. EJERCICIOS 155

� = ff(x;�); � 2 �; x 2 RXg.9. ¿Por qué nos preocupamos por los momentos de una distribución?

¿Cómo los momentos proporcionar una forma de interpretar los parámetrosdesconocidos?10. La función de densidad de la distribución exponencial es:f(x;�) = �e��x, � > 0; x > 0.(a) Derive su media y varianza.(b) Derive su moda.11. Considere la función:f(x) = 140

�x3 (1� x)3

�; 0 < x < 1.

(a) Demuestre que esta es realmente una función de densidad propia parauna variable aleatoria X.(b) Derive la media, moda, varianza y curtosis de X.12. Considere la variable aleatoria discreta X cuya distribución es la

siguiente:x �1 0 1

f(x) 0:2 0:4 0:4

(a) Derive su media, varianza y coe�cientes de asimétria y curtosis.(b) Derive su moda y coe�ciente de variación.13. (a) Exprese las propiedades de una función de densidad.

(b) Contraste las propiedades de los operadores valor esperado yvarianza.

(c) Sean X1 y X2 dos variables aleatorias independientes con lamisma media � y varianza �2.Derive la media y la varianza de la función:Y = 1

3X1 +

23X1.

14. Explique cómo las propiedades de la varianza son determinadas enrealidad por las del operador media.15. Explique cómo la función generatriz de momentos se puede utilizar

para obtener los momentos.16. Explique el concepto de asimetría y discuta por qué � = 3 no implica

que la distribución en cuestión es simétrica.17. Explique el concepto de curtosis y discuta por qué es de valor limitado

cuando la distribución no es simétrica.18. Para una distribución deWeibull con parámetros (� = 3:345; � = 3:45)

obtenga el coe�ciente de curtosis usando las fórmulas en el apéndice A.19. Explique por qué los momentos de coincidencia (matching mo-

ments) entre dos distribuciones puede llevar a conclusiones erróneas.

Page 156: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

156 CAPÍTULO 3. EL CONCEPTO DE MODELO DE PROBABILIDAD

20. Compare y contraste la función de distribución acumulativa (fda) y lafunción cuantil. Explique por qué la función cuantil no siempre es la inversade la fda.21. Explique los conceptos de un percentil y un cuantil y cómo se rela-

cionan.22. ¿Por qué nos interesan las desigualdades probabilísticas?23. "Los momentos no caracterizan las distribuciones en general, y cuando

lo hacen a menudo necesitamos de un número in�nito de momentos para lacaracterización ". Discuta.24. Explique la integral de probabilidad y la transformación integral de

probabilidad inversa. ¿Qué utilidad puede tener en la simulación de variablesaleatorias no uniformes?Apéndice A. Modelos univariados de probabilidadEl propósito de este apéndice es resumir los modelos de probabilidad

más útiles y sus parametrizaciones, sus momentos y otras característicasnuméricas para �nes de referencia.FALTA INCLUIR MODELOS.

Page 157: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

Capítulo 4

El concepto de muestraaleatoria

4.1 Introducción

4.1.1 Objetivo principal de este capítulo

El objetivo principal de este capítulo es completar la metamorfosis del es-pacio estadístico simple en un modelo estadístico simple que se inició enel capítulo anterior. En el capítulo 3 convertimos el primer componente, elespacio de probabilidad, en un modelo de probabilidad. En este capítuloprocedemos a convertir el segundo componente, el espacio muestral, en unmodelo muestral. La metamorfosis involucra dos de los conceptos másimportantes de la teoría de la probabilidad: Independencia y DistribuciónIdéntica. Al concluir la metamorfosis llegamos a uno de nuestros principalesobjetivos intermedios, la formulación de un modelo estadístico simple, queconstituye la forma más sencilla de un modelo estadístico. Este último es lapiedra angular sobre la que vamos a construir tanto la modelización empíricacomo la inferencia estadística. Como se mencionó en el capítulo 1, lo quedistingue a la modelización empírica de otras formas de modelización es eluso de datos observados en conjunción con modelos estadísticos. Será muydifícil exagerar la importancia del concepto de modelo estadístico en el con-texto de la modelización con datos no experimentales. Esto se debe a quela elección de un modelo estadístico, cuando se modela con datos no exper-imentales, es el aspecto más difícil del problema y por lo tanto se necesitaun exhaustivo y profundo entendimiento de los conceptos involucrados. Este

157

Page 158: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

158 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

entendimiento concierne tanto a los aspectos probabilísticos (matemáticos),como a la dimensión intuitiva que se relaciona a los datos observados.

4.1.2 La historia hasta ahora

En el capítulo 2 iniciamos la formalización de un mecanismo aleatorio simplegenéricamente conocido como un experimento aleatorio � especi�cado por lassiguientes condiciones:[a] todos los posibles distintos resultados se conocen a priori,[b] en cualquier prueba particular los resultados no se conocen a priori

pero existe una regularidad perceptible de ocurrencia asociada con esos re-sultados y[c] el experimento aleatorio se puede repetir bajo idénticas condiciones.La primera formalización en el capítulo 2 tomó la forma de un espacio

estadístico simple:[i] espacio de probabilidad simple: (S;=;P (:))n,[ii] espacio muestral simple: GIIDn := fA1;A2; :::;Ang.Esta formalización, aunque adecuada para propósitos matemáticos, es

demasiado abstracta para los propósitos de la modelización. En un intentopor transformarla en algo más adecuado para el análisis de datos numéricos,hemos usado el concepto de variable aleatoria para transformar el espacio deprobabilidad en un modelo de probabilidad:

espacio de probabilidad

(S;=;P (:)) modelo de probabilidad

� = ff(x;�); � 2 �; x 2 RXg,donde � denota un conjunto de funciones de densidad f(x;�), indexadas

por algún parámetro(s) desconocido(s) �: este último tomando valores en �(ver capítulo 3).

4.1.3 De pruebas aleatorias a una muestra aleatoria: aprimer punto de vista

Como argumentamos en el capítulo 2, un espacio muestral simple GIIDn :=fA1;A2; :::;Ang, es un conjunto de pruebas aleatorias que satisface las sigu-ientes condiciones:

Independiente (I): P(n) (A1 \ A2\; :::;\Ak) =Yk

i=1Pi (Ai) ; para cada k = 2; 3; :::; n;

(4.1)

Page 159: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.1. INTRODUCCIÓN 159

Idénticamente Distribuido (ID): P1 (:) = P2 (:) = � � � = Pn (:) = P (:) : (4.2)

Independencia se relaciona con la condición de que "el resultado de unaprueba no afecta y no es afectado por el resultado de cualquier otra prueba"o, equivalentemente:

P(n) (AkjA1;A2; :::;Ak�1;Ak+1; :::;An) = Pk (Ak) , para cada k = 1; 2; :::; n(4.3)

La condición ID tiene que ver con el "mantenimiento de la misma estruc-tura probabilística de una prueba a otra"; las probabilidades asociadas a losdiferentes resultados siguen siendo las mismas para todas las pruebas.Armados con el concepto de variable aleatoria, ahora consideramos la

metamorfosis del abstracto concepto de espacio muestral simple en algorelacionado con las variables aleatorias. Observando la de�nición de prue-bas aleatoria (4.1) - (4.2), podemos ver que la condición de Independen-cia se de�ne en términos de las funciones conjunto de probabilidad P(n) (:)y P(k) (:) que pertenecen a los espacios de probabilidad

�S(n);=(n);P(n)

�y�

S(k);=(k);P(k)�, respectivamente. Las di�cultades que hay que enfrentar en

la transformación de las pruebas aleatorias fA1;A2; :::;Ang en un conjuntode variables aleatorias X(n) := (X1; X2; :::; Xn), tienen que ver con la de�ni-ción de conceptos equivalentes a P(n) (:) y P(k) (:) en términos de variablesaleatorias. El concepto que corresponde a las funciones conjunto P(n) (:), esla llamada función de distribución conjunta y la correspondiente a P(k) (:),es la llamada función de distribución marginal. Utilizando estas dos no-ciones podemos de�nir el concepto de muestra aleatoria: un conjunto devariables aleatorias Independientes e Idénticamente Distribuidas (IID). Elnuevo concepto básico necesario para la formalización de ambas nociones esel de función de distribución conjunta.

4.1.4 Una vista panorámica del capítulo

En la sección 2 introducimos la noción de distribución conjunta usando elcaso de dos variables para �nes expositivos. En la sección 3 relacionamos lanoción de distribución conjunta con la de distribución marginal introducidaen el capítulo anterior, haciendo hincapié en el hecho de que la primera im-plica a menudo más información que las distribuciones marginales asociadas

Page 160: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

160 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

a ella. En la sección 4 introducimos el concepto de distribución condicionaly lo relacionamos con las distribuciones conjunta y marginal. Las nocionesde condicionalidad y momentos condicionales jugarán un papel muy impor-tante en las discusiones que siguen. En la sección 5 de�nimos el conceptode independencia usando la relación entre las distribuciones conjunta, mar-ginal y condicional. En la sección 6 de�nimos el concepto de IdénticamenteDistribuido en términos de las distribuciones marginales. Armados con losconceptos de Independencia y de Distribución Idéntica procedemos a de�nirel concepto de muestra aleatoria en la sección 7. Antes de completar la meta-morfosis de un espacio estadístico simple en un modelo estadístico simple, enla sección 10 hacemos una digresión importante. En la sección 8 introduci-mos el concepto de función de variables aleatorias y su distribución como unpreludio a la discusión del concepto de muestra aleatoria ordenada en la sec-ción 8. La noción de función de variables aleatorias es crucial en el contextode la inferencia estadística: la inmensa mayoría de las cantidades de interésen la inferencia estadística (estimadores, estadísticos de prueba, predictores)son funciones tales. El concepto de muestra ordenada es importante en elpresente contexto, porque una simple reordenación de una muestra aleato-ria proporciona una muestra no aleatoria! El concepto de muestra ordenadatambién juega un papel importante en la inferencia estadística.

4.2 Distribuciones conjuntas

El concepto de distribución conjunta es sin duda una de las nociones másimportantes tanto de la teoría de la probabilidad como de la inferencia es-tadística. Al igual que en el caso de una sola variable aleatoria, la discusiónprocederá a introducir el concepto del caso más simple al caso más general.En este contexto, simple se re�ere al caso de conjuntos de resultados numer-ables que dan lugar a variables aleatorias discretas. Después de introducirlas ideas básicas en este contexto simpli�cado procedemos a discutirlas en suplena generalidad.

4.2.1 Variables aleatorias discretas

Para comprender el concepto de conjunto de variables aleatorias (un vectoraleatorio), consideremos en primer lugar el caso de dos variables aleatorias,ya que su extensión a un número mayor de variables aleatorias es simple, en

Page 161: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.2. DISTRIBUCIONES CONJUNTAS 161

principio, pero complicada en términos de notación.Vector aleatorio. Considerar las dos variables aleatorias simples X(:)

y Y (:) de�nidas en el mismo espacio de probabilidad (S;=;P (:)), es decir,

X(:) : S !R tal que X�1(x) 2 =, para todo x 2 R;Y (:) : S !R tal que Y �1(y) 2 =, parat todo y 2 R:

NOTA: recordamos al lector que Y �1(y) = fs : Y (s) = y; s 2 Sg repre-senta la preimagen de la función Y (:) y no su imagen inversa. Viéndolas porseparado podemos de�nir sus funciones de densidad individuales, como seexplicó en el capítulo anterior, de la siguiente manera:

P (s : X (s) = x) = fx (x) > 0; x 2 RX ;P (s : Y (s) = y) = fy (y) > 0; y 2 RY ;

donde RX y RY representan el soporte de las funciones de densidad de Xy Y . Considerándolas juntas podemos pensar de cada par (x; y) 2 RX �RY

fs : X(s) = x; Y (s) = yg := fs : X(s) = xg\fs : Y (s) = yg ; (x; y) 2 RX�RY ,

En vista del hecho de que el espacio de eventos = es un �-campo, y, porlo tanto, cerrado bajo intersecciones, el mapeo:

Z (:; :) := (X (:) ; Y (:)) : S !R2

es un vector aleatorio ya que la preimagen de Z (:) pertenece al espacio deeventos = :

Z�1 (x; y) =��X�1 (x)

�\�Y �1 (y)

��2 =;

ya que, X�1 (x) 2 = y Y �1 (y) 2 =, por de�nición (veáse Spanos, (1986)).Densidad conjunta. La función de densidad conjunta se de�ne por:

f (:; :) : RX � RY ! [0; 1] ;

f (x; y) = P fs : X(s) = x; Y (s) = yg ; (x; y) 2 RX � RY .

Page 162: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

162 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

EjemploConsideremos el caso del experimento aleatorio de lanzar una moneda no

trucada dos veces, dando lugar al conjunto de resultados: S = f(HH); (HT ); (TH); (TT )g.De�namos las variables aleatorias X (:) e Y (:) en S de la siguiente man-

era:

X (HH) = X(HT ) = X (TH) = 1; X (TT ) = 0;

Y (HT ) = Y (TH) = Y (TT ) = 1; Y (HH) = 0:

Podemos construir las funciones de densidad individuales de la siguientemanera:

x 0 1f (x) 0:25 0:75

y 0 1f (y) 0:25 0:75

((4.4))

Para de�nir la función de densidad conjunta es necesario especi�car todoslos eventos de la forma:

(X = x; Y = y) ; x 2 RX ; y 2 RY ,

y luego asignar probabilidades a estos eventos. Habida cuenta que:

(X = 0; Y = 0) = fg = ;; f (x = 0; y = 0) = 0:00;(X = 0; Y = 1) = f(TT )g ; f (x = 0; y = 1) = 0:25;(X = 1; Y = 0) = f(HH)g ; f (x = 1; y = 0) = 0:25;(X = 1; Y = 1) = f(HT ) ; (TH)g ; f (x = 1; y = 1) = 0:50:

Es decir, la densidad conjunta toma la forma:

y n x 0 10 0:00 0:251 0:25 0:50

((4.5))

Si comparamos esta densidad conjunta (4.5) con las densidades univari-adas (4.4), no existe una relación evidente, pero como se muestra a contin-uación, esto es engañoso. Como argumentamos en el siguiente capítulo, ladiferencia entre la probabilidad conjunta f(x; y), x 2 RX ; y 2 RY y el pro-ducto de las probabilidades individuales (f(x)�f(y)) para x 2 RX ; y 2 RY ,

Page 163: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.2. DISTRIBUCIONES CONJUNTAS 163

re�eja la dependencia entre las variables aleatorias X e Y . En esta etapaes fundamental tener en cuenta que una característica muy importante dela función de densidad conjunta f(x; y), es que proporciona una descripcióngeneral de la dependencia entre X e Y .Antes de proceder a examinar el caso de variables aleatorias continuas

es instructivo considerar un caso particularmente simple de una función dedensidad discreta de dos variables.EjemploEl ejemplo anterior es un caso particular de una bien conocida distribución

discreta conjunta, la distribución de Bernoulli dada a continuación:

y n x 0 10 p (0; 0) p (1; 0)1 p (0; 1) p (1; 1)

((4.6))

donde p(i; j) denota la probabilidad conjunta para X = i y Y = j,i; j = 0; 1. La densidad conjunta de Bernoulli toma la forma:

f (x; y) = p (0; 0)(1�y)(1�x) p (0; 1)(1�y)x p (1; 0)y(1�x) p (1; 1)xy ; x = 0; 1, y = 0; 1:

4.2.2 Variables aleatorias continuas

En el caso donde el conjunto de resultados S no es numerable, las variablesaleatorias de�nidas en él se dice que son continuas, porque su rango de valoreses un intervalo en la recta real R.Vector aleatorio. Considere las dos variables aleatorias continuas X(:)

y Y (:) de�nidas en el mismo espacio de probabilidad (S;=;P (:)), es decir,

X (:) : S !R; tal que X�1 ((�1; x]) 2 =; para todo x 2 R;X (:) : S !R; tal que Y �1 ((�1; y]) 2 =; para todo y 2 R:

Visualizándolas por separado podemos de�nir sus funciones de distribu-ción acumulada (fda) (ver capítulo 3), de la siguiente manera:

P (s : X(s) � x) = P�X�1 (�1; x]

�= PX ((�1; x]) = FX(x); x 2 R;

P (s : X(s) � y) = P�Y �1 (�1; y]

�= PY ((�1; y]) = FY (y); y 2 R:

Page 164: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

164 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

Visualizándolas juntas podemos asociar a cada par (x; y) 2 R�R eventosde la forma:

fs : X(s) � x; Y (s) � yg := fs : X(s) � xg\fs : Y (s) � yg ; (x; y) 2 R�R.

Al igual que en el caso de variables aleatorias discretas, ya que = es un��campo (cerrado bajo intersecciones) el mapeo:

Z (:; :) := (X (:) ; Y (:)) : S !R2;

constituye un vector aleatorio; la preimagen de Z(:):

Z�1 ((�1; x]� (�1; y]) =��X�1 ((�1; x])

�\�Y �1 ((�1; y])

��2 =;

dado que (X�1 ((�1; x])) 2 = y (Y �1 ((�1; y])) 2 = por de�nición.La función de distribución acumulada conjunta (fda) se de�ne por:

FX;Y (:; :) : R2 ! [0; 1] ;

FXY (x; y) = P fs : X(s) � x; Y (s) � yg = PXY ((�1; x]� (�1; y]) ; (x; y) 2 R2:

La fda conjunta también se puede de�nir en los intervalos de la forma(a; b]:

P fs : x1 < X(s) � x2; y1 < Y (s) � y2g = F (x2; y2)�F (x1; y2)�F (x2; y1)+F (x1; y1) :

La función de densidad conjunta, asumiendo que f (x; y) � 0 existe,se de�ne a través de:

F (x; y) =

Z x

�1

Z y

�1f(u; v)dudv:

NOTE que los subíndices a menudo se omiten cuando no hay posibilidadde confusión. En el caso en el que F (x; y) sea diferenciable en (x; y) podemosderivar la densidad conjunta por diferenciación parcial:

Page 165: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.2. DISTRIBUCIONES CONJUNTAS 165

f (x; y) =@2F (x; y)

@x@y; en todos los puntos de continuidad de f(x; y):

EjemploSea la fda conjunta la de la distribución exponencial bivariada:

F (x; y) = 1�e�x�e�y+e�x�y; ) f (x; y) =@2F (x; y)

@x@y= e�x�y; x � 0; y � 0:

En el caso de variables aleatorias continuas podemos pensar en la densi-dad conjunta como estando de�nida en un intervalo de la forma (x < X � x+ dx, y < Y � y + dy)de la siguiente manera:

P (x < X � x+ dx, y < Y � y + dy) = f (x; y) dxdy.

Por lo tanto, como en el caso univariado (ver capítulo 3), la función dedensidad conjunta toma valores mayores de uno, es decir,

f (:; :) : R� R! [0;1) :En analogía directa con el caso univariado, la función de densidad

conjunta tiene que satisfacer ciertas propiedades:[bf1] f (x; y) � 0; para todo (x; y) 2 RX�RY ;[bf2]

R1�1R1�1 f(x; y)dxdy = 1;

[bf3] FX;Y (a; b) =R a�1R b�1 f(x; y)dxdy;

[bf4] f (x; y) = @2F (x;y)@x@y

; en todos los puntos de continuidad de f(x; y):NOTA: en el caso discreto todas las anteriores integrales se convierten en

sumatorias sobre todos los valores de X y Y , es decir, para x1 < x2 < � � � <xn < � � � y y1 < y2 < � � � < yn < � � � .[bf2] 0

P1i=1

P1j=1 f (xi; yi) = 1;

[bf3]0 F (xk; ym) =Pk

i=1

Pmi=1 f (xi; yj).

Ejemplos(i) Una importante distribución discreta de dos variables, es la binomial

cuya densidad toma la forma:

f (x; y;�) =

�n!

x!y! (n� x� y)!

��x1�

y2 (1� �1 � �2)

n�x�y , �i 2 [0; 1] , i = 1; 2,

Page 166: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

166 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

� : = (�1; �2), n es un entero tal que x+ y � n, x; y = 0; 1; 2; :::; n.

(ii) La más importante distribución continua de dos variables es el Nor-mal, cuya densidad toma la forma:

f (x; y;�) =(1� �2)

� 12

2�p�11�22

exp

(� 1

2 (1� �2)

"�y � �1p�11

�2� 2�

�y � �1p�11

��x� �2p�22

�+

�x� �2p�22

�2#)(4.7)

donde � := (�1; �2; �11; �22; �) 2 R2�R2+�[�1; 1] ; x 2 R; y 2 R. En vistade su complejidad evidente, la densidad bivariada dada en (4.7), a menudose denota por:

�YX

�~N

���1�2

�,��11 �12�21 �22

��

donde �12 := �p�11�22. Un caso especial de esta distribución, conocida

como normal estándar bivariada, se de�ne cuando los parámetros tomanlos valores:

�1 = �2 = 0; �11 = �22 = 1:

Su función de densidad tiene la forma simpli�cada:

f (x; y;�) =1

2�p1� �2

exp

�� 1

2 (1� �2)

�x2 � 2�xy + y2

��.

Esta densidad con � := (0; 0; 1; 1; 0:2) se muestra en la �gura 4.1. Losdetalles de la forma de campana de la super�cie pueden ser vistos en loscontornos añadidos que pueden ser vistos intuitivamente como las líneas queobtenemos cortando la super�cie a diferentes alturas. Algunas otras distribu-ciones de dos variables se listan en el apéndice B.

Page 167: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.2. DISTRIBUCIONES CONJUNTAS 167

Figura 4.1 Densidad normal bivariada super�cie con contornos insertados.

4.2.3 Momentos conjuntos

Al igual que en el caso de las distribuciones univariadas la mejor manerade interpretar los parámetros desconocidos es a través de los momentos. Enanalogía directa con el caso univariado, de�nimos los momentos conjuntosproducto de orden (k;m) por:

�0km = E�XkY m

, k;m = 0; 1; 2; :::;

y los momentos conjuntos centrales de orden (k;m) se de�nen por:

�km = En(X � E (X))k (Y � E (Y ))m

o, k;m = 0; 1; 2; :::;

Los dos primeros momentos conjunto producto y conjunto central son:

�010 = E (X) , �10 = 0,

�001 = E (Y ) , �01 = 0,

�020 = E (X)2 + V ar (X) , �20 = V ar (X) ,

�002 = E (Y )2 + V ar (Y ) , �02 = V ar (Y ) ,

�011 = E (XY ) , �11 = E [(X � E (X)) (Y � E (Y ))] .

El más importante y ampliamente utilizado momento conjunto es la co-varianza, de�nida por

�11 := Cov (X; Y ) = E f[X � E (X)] [(Y � E (Y ))]g (4.10)

Page 168: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

168 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

Ejemplos(i) Considerar la distribución normal conjunta cuya densidad está dada

en (4.7). Sabemos del capítulo 3 que los parámetros (�1; �2; �11; �22) corre-sponden a los momentos:

�1 = E (Y ) , �2 = E (X) , �11 = V ar (Y ) , �22 = V ar (X) .

El parámetro adicional �12 resulta ser la covarianza entre las dos variablesaleatorias, es decir:

�12 := Cov (X; Y ).(ii) Vamos a obtener la covarianza entre X y Y , con la densidad conjunta

dada a continuación:

y n x 0 1 2 fY (y)0 0:2 0:2 0:2 0:62 0:1 0:1 0:2 0:4

fX(x) 0:3 0:3 0:4 1

En primer lugar, tenemos que obtener los momentos de las distribucionesunivariadas:

E(X) := 0 (0:3) + 1 (0:3) + 2 (0:4) = 1:1; E(Y ) := 0 (0:6) + 2 (0:4) =0:8; V ar(X) := [0� 1:1]2 (0:3) + [1� 1:1]2 (0:3) + [2� 1:1]2 (0:4) = 0:69;V ar(Y ) := [0� 0:8]2 (0:6) + [2� 0:8]2 (0:4) = 0:96;Utilizando estos momentos procedemos a derivar la covarianza:

Cov(X;Y ) = E f[X � E (X)] [Y � E (Y )]g= [0� 1:1] [0� 0:8] (0:2) + [0� 1:1] [2� 0:8] (0:1)

+ [1� 1:1] [0� 0:8] (0:2) + [1� 1:1] [2� 0:8] (0:1))+ [2� 1:1] [0� 0:8] (0:2) + [2� 1:1] [2� 0:8] (0:2)

= 0:12.

Propiedades de la covarianza:c1.Cov (X;Y ) = E (XY )� E(X) � E(Y );c2. Cov (X; Y ) = Cov (Y;X) ;c3. Cov (aX + bY; Z) = aCov (X; Y ) + bCov(Y; Z); para (a; b) 2 R2.La primera propiedad muestra la relación entre los momentos centrales

conjuntos y crudos para k = m = 1. La covarianza es igual al primer mo-mento conjunto producto E(XY ) menos el producto de las dos medias.

Page 169: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.2. DISTRIBUCIONES CONJUNTAS 169

La segunda propiedad se re�ere a la simetría de la covarianza con respectoa las dos variables aleatorias involucradas. La tercera propiedad se deducedirectamente de la linealidad del operador esperanza E (:).Vamos a comprobar c1 usando el ejemplo anterior. En vista del hecho de

que:

E (XY ) = (0) (0) (0:2)+(0) (2) (0:1)+(1) (0) (0:2)+(1) (1) (0:1)+(2) (0) (0:2)+(2) (2) (0:2) = 1:0,

podemos concluir que Cov (X;Y ) = 1:0� (1:1) (0:8) = 0:12, lo cual con-�rma el valor anterior de Cov (X; Y ).Una digresión. Es interesante notar que usando la covarianza, podemos

extender la propiedadV2 de la varianza (ver capítulo 3), al caso en el cual lasdos variables no sean independientes. En el caso de dos variables aleatoriasX y Y arbitrarias:

V ar (aX + bY ) = a2V ar(X) + b2V ar(Y ) + 2abCov(X; Y ).

En el caso de que la variables aleatorias X e Y sean independientes,Cov(X; Y ) = 0 (pero lo contrario no es cierto en general) y la relación anteriorse reduce a la que vimos en el capítulo 3: V ar (aX + bY ) = a2V ar(X) +b2V ar(Y ).Los momentos conjuntos tercero y cuarto son también de interés porque,

como en el caso univariado, se pueden utilizar para evaluar la simetría y laforma de la distribución conjunta. Las fórmulas, sin embargo, muy rápido sevuelven demasiado complicadas. Para �nes de referencia vamos a considerarlos coe�cientes de asimetría y de curtosis de una distribución de dos variablesen el caso donde (X; Y ) no están correlacionadas, es decir,

�11 = 0, �20 = V ar (X), �02 = V ar (Y ).Asimetría: �3 (X; Y ) =

�230�220+

�203�202+ 3

�221�220�02

+ 3�221

�20�202,

Curtosis: �4 (X; Y ) =�40�240+ �04

�202+ 2�22

�20�02.

4.2.4 El caso de n variables aleatorias

Hasta ahora hemos discutido la extensión del concepto de variable aleatoriaa un vector aleatorio de dos dimensiones. Resulta que no surgen di�cultadesadicionales en la extensión de la noción de variable aleatoria para el caso nvariables X(:) := (X1 (:) ; X2 (:) ; :::; Xn (:)):

Page 170: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

170 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

X(:) : S !Rn,donde Rn := R� R� � � � � R representa el producto Cartesiano de la

línea real (ver capítulo 2).La función de n variables X(:) se dice que es un vector aleatorio con

respecto a = si:

X(:) : S !Rn; tal que X�1 ((�1;x]) 2 =; para todo x 2 Rn,

donde x := (x1; x2; :::; xn) y (�1;x] := (�1; x1] � (�1; x2] � � � � �(�1; xn].NÓTESE que todas las variables aleatorias (X1 (:) ; X2 (:) ; :::; Xn (:)) se

de�nen en el mismo conjunto de reultados S y en relación con el mismoespacio de eventos =.Teniendo en cuenta el hecho de que = es un �-campo sabemos que X(:)

es un vector aleatorio con respecto a = si y sólo si las variables aleatorias(X1 (:) ; X2 (:) ; :::; Xn (:)) son variables aleatorias con respecto a =. Esto sedebe a que X�1

k ((�1; xk]) 2 =;para todo k = 1; 2; :::; n; y entonces:Tni=1X

�1k ((�1; xk]) 2 =.

Los distintos conceptos introducidos anteriormente para el caso de dosvariables aleatorias se puede extender fácilmente al caso de n variables aleato-rias. En analogía directa con el caso de dos variables, la función de densi-dad conjunta satisface las propiedades:[mf1] f (x1; x2; :::; xn) � 0;para todo (x1; x2; :::; xn) 2 RnX ;[mf2]

R x1�1R x2�1 � � �

R xn�1 f (x1; x2; :::; xn) dx1dx2 � � � dxn = 1;

[mf3] F (x1; x2; :::; xn) =R x1�1R x2�1 � � �

R xn�1 f (u1; u2; :::; un) du1du2 � � � dun:

Usando la misma línea de razonamiento podemos extender fácilmente lasn dimensiones del vector aleatorio X(:) a una in�nidad de dimensiones, esdecir, de�nir X1 := (X1(:); X2(:); :::; Xn(:); :::):X1(:) : S !R1,que es un vector aleatorio con respecto a algún = si y sólo si cada

elemento de la sucesión X1(:) es una variable aleatoria en relación con=. Esto establece la existencia de un vector aleatorio in�nito y preparael camino para el capítulo 8, donde discutimos el concepto de proceso es-tocástico fXn(s)g1n=1 := X1(:), s 2 S. El lector puede apreciar ahora por

Page 171: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.3. DISTRIBUCIONES MARGINALES 171

qué se requieren ��campos (aditivamente numerables) y no sólo campos deeventos para de�nir el concepto de espacio de eventos. Esto se hace aún másevidente cuando procedemos a utilizar la estructura matemática (topológica)del campo de Borel ß(R). Esta estructura, nos permite discutir la conver-gencia de dichas sucesiones de variables aleatorias:

limn!1

Xn (S) = X (S), para todo s 2 S.

Este concepto será de suma importancia en el capítulo 9, donde discuti-mos teoremas límite; la estructura topológica del campo de Borel ß(R) nospermite discutir los conceptos de convergencia probabilística.

4.3 Distribuciones marginales

El segundo componente de la condición [c], referido a la Independencia delas pruebas se de�ne en términos de una relación simple entre la función dedensidad conjunta f (x1; x2; :::; xn;�) y las funciones de densidad de las vari-ables aleatorias individuales, X1; X2; :::; Xn, y se conocen como distribucionesmarginales. Veamos cómo la distribución marginal se relaciona con la dis-tribución conjunta. No debería ser ninguna sorpresa saber que a partir de ladistribución conjunta siempre se puede recuperar la distribución marginal(univariada) de las variables individuales aleatorias implicadas. En términosde la fda conjunta, la distribución marginal se obtiene a través de un procesolímite:

FX(x) = limy!1

F (x; y) y FY (y) = limx!1

F (x; y) :

EjemploConsideremos el caso de la fda exponencial bivariada:

F (x; y) =�1� e��x

� �1� e��y

�; � > 0; � > 0; x > 0; y > 0:

Ya que limn!1

(e�n) = e�1 = 0; podemos deducir que

FX(x) = limy!1

F (x; y) = 1�e��x; x > 0; FY (y) = limx!1

F (x; y) = 1�e��y; y > 0:

Veamos ahora cómo la marginalización se de�ne en términos de las fun-ciones de densidad. En vista del hecho de que:

Page 172: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

172 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

FX(x) = limy!1

F (x; y) = limy!1

Z x

�1

Z y

�1f(x; y)dydx =

Z x

�1

�Z 1

�1f(x; y)dy

�dx;

y la relación entre FX(x) y fX(x), podemos deducir que

fX(x) =

Z 1

�1f(x; y)dy; x 2 RX ; (4.12)

Similarmente, en términos de la función de densidad conjunta, la funciónde densidad marginal de Y se obtiene a través de:

fY (y) =

Z 1

�1f(x; y)dx; y 2 RY : (4.13)

Esto sugiere que la marginalización se obtiene integrando la otra variablealeatoria.Ejemplos(i) Consideremos el caso de la densidad exponencial bivariada:f (x; y) = e�x�y; x > 0; y > 0;donde las variables aleatorias X; Y son continuas. La fórmula (4.12)

sugiere que, para obtener la distribución marginal de X, es necesario integrarla variable aleatoria Y a partir de f(x; y):

fX(x) =

Z 1

0

e�x�ydy = e�x.

(ii) considerar la densidad normal estándar bivariada (4.9). Para obtenerla densidad marginal de X, tenemos que integrar a Y y viceversa. Las ma-nipulaciones de tal derivación son más bien complicadas (y por lo tanto seomiten), pero el resultado es particularmente útil. Resulta que:

fX(x) =

Z 1

�1f(x; y)dy =

1p2�exp

��12x2�;

fY (y) =

Z 1

�1f(x; y)dx =

1p2�exp

��12y2�;

Es decir, ambas distribuciones marginales son Normal (estándar) y seindican por:

Page 173: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.3. DISTRIBUCIONES MARGINALES 173

X � N (0; 1) y Y � N (0; 1).

Marginalización e intuición. Podemos visualizar la derivación de ladistribución marginal deX a partir de la distribución bivariada f(x; y), comola proyección de la super�cie de dos variables en el plano [x; f (x; y)]. Comose muestra en la �gura 4.2, la proyección de una super�cie en forma decampana sobre un plano opuesto produce una forma de campana para ambasdistribuciones marginales. Intuitivamente, el paso de la densidad conjunta ala marginal signi�ca ignorar la información referente a la dimensión particularrepresentada por la variable aleatoria no integrada.

Figura 4.2 Densidad normal bivariada con densidades marginalesproyectadas

En el caso de una variable aleatoria discreta, podemos derivar la dis-tribución marginal de una variable aleatoria, a partir de la densidad conjuntaf(x; y), sumando la otra variable aleatoria. Por ejemplo, la derivación de ladensidad marginal de X toma la forma de suma sobre todos los valores deY , digamos y1 < y2 � � � < yn < � � � , de la siguiente manera:

fX(x) =X1

i=1f (x; yi) ; x 2 RX : (4.14)

Del mismo modo, la densidad marginal de Y toma la forma de suma sobretodos los valores de X, por ejemplo x1 < x2 � � � < xn < � � � :

fY (y) =X1

i=1f (xi; y) ; y 2 RY : (4.15)

Page 174: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

174 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

Ejemplos(i) La densidad conjunta de la distribución de Bernoulli está bien de�nida,

si las probabilidades p (i; j) para i; j = 0; 1, además de ser no negativas,también satisfacen una serie de restricciones adicionales requeridas por lasdistribuciones marginales. Las distribuciones marginales de X e Y son lassiguientes:

x 0 1fX (x) p:1 p:2

y 0 1fY (y) p1: p2:

(4.16)

p:1 = p (0; 0) + p (0; 1) ; p1: = p (0; 0) + p (1; 0) ;p:2 = p (1; 0) + p (1; 1) ; p2: = p (0; 1) + p (1; 1) :Para que estas distribuciones marginales tengan sentido necesitan sat-

isfacer las propiedades de las funciones de densidad univariadas f1-f3 (vercapítulo 3). Esto sugiere que sus probabilidades deben sumar p:1+ p:2 = 1 yp1: p2: = 1:(ii) Una distribución discreta importante, es el binomial bivariada (o tri-

nomial, como a menudo se llama) cuya densidad toma la forma:

f (x; y;�) =

�n!

x!y! (n� x� y)!

��x1�

y2 (1� �1 � �2)

n�x�y , �i 2 [0; 1] , i = 1; 2,

donde � : = (�1; �2), n es un entero tal que x+ y � n, x; y = 0; 1; 2; :::; n.

fX (x;�) =n�xXk=1

�n!�x1�

y2

x!k! (n� x� k)!

�(1� �1 � �2)

n�x�k

=n!�x1x!

n�xXk=1

��k2

k! (n� x� k)!

�(1� �1 � �2)

n�x�k

=n!�x1

x! (n� x)!

n�xXk=1

�(n� x)!

k! (n� x� k)!

��k2 (1� �1 � �2)

n�x�k

=

�nx

��x1 (1� �1)

n�x .

(iii) Vamos a obtener la distribución marginal deX a partir de la densidadconjunta dada a continuación:

Page 175: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.4. DISTRIBUCIONES CONDICIONALES 175

y n x 0 1 20 0:2 0:2 0:22 0:1 0:1 0:2

(4.17)

La fórmula (4.12) sugiere que sumando hacia abajo las columnas obten-emos la densidad marginal de X y sumando las �las obtenemos la densidadmarginal de Y :

x 0 1 2fX (x) 0:3 0:3 0:4

y 0 2fY (y) 0:6 0:4

(4.18)

Estas son claramente las funciones de densidad propias, dado que:fX (x) � 0; fX (0)+fX (1)+fX (2) = 1 y fY (y) � 0; fY (0)+fY (2) = 1:Los dos densidades marginales se muestran con la densidad conjunta a

continuación:

y n x 0 1 2 fY (y)0 0:2 0:2 0:2 0:62 0:1 0:1 0:2 0:4

fX (x) 0:3 0:3 0:4 1

(4.19)

En cuanto a la última columna podemos ver que las probabilidades aso-ciadas a los valores de Y no contienen la información relativa a X.

4.4 Distribuciones condicionales

4.4.1 Probabilidad condicional

Volvamos al capítulo 2 y recordemos la noción de probabilidad condicionalusando nuestro ejemplo favorito.EjemploConsideremos de nuevo el experimento aleatorio de "lanzar una moneda

al aire dos veces", con:

S = f(HH); (HT ); (TH); (TT )g.

Suponiendo que A = f(HH); (HT ); (TH)g es un evento de interés, sinninguna información adicional, el sentido común sugiere que P (A) = 3

4. Sin

Page 176: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

176 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

embargo, en el caso en que exista alguna información adicional, por de-cir alguien anuncia que en una prueba particular, "la primera moneda esuna T ", la situación cambia. La información disponible de�ne el eventoB = f(TH); (TT )g y el conocimiento de que B ha ocurrido invalida la prob-abilidad P (A) = 3

4. Esto se debe a que la información implica que, en esta

prueba particular, los resultados (HH) y (HT ) no pueden ocurrir. Es decir,en lugar de S, el conjunto de todos los distintos posibles resultados, dadoque B ha ocurrido, es justamente B. Esto sugiere que la nueva probabilidadde A, dado que B ha ocurrido, que se denota por P (AjB), es diferente. Elsentido común sugiere que P (AjB) = 1

2, ya que A incluye uno de los dos

distintos resultados posibles. ¿Cómo podemos formalizar este argumento?La fórmula para la probabilidad condicional del evento A, dado el evento

B, toma la forma:

P (A j B) = P (A \B)P (B)

; para P (B) > 0: (4.20)

En el ejemplo anterior, P (A \B) = P (TH) 14, P (B) = 1

2, y por lo tanto

P (A \B) =1412

= 12, lo que con�rma la respuesta de sentido común.

4.4.2 Funciones de densidad condicional

Al igual que en el caso de las distribuciones conjunta y marginal, consid-eramos el caso simple de variable aleatoria discreta y luego procedemos adiscutir el caso general de variable aleatoria.Variables aleatorias discretas. En el caso de dos variables aleatoria

discreta X e Y , si de�nimos los eventos:A = fY = yg y B = fX = xg ;entonces la traducción de las fórmulas anteriores en términos de funciones

de densidad toma la forma:

P (X = x) = f(x);

P (Y = y;X = x) = f(x; y);

P (Y = y j X = x) = f(y j x);

dando lugar a la fórmula de la densidad condicional:

f(y j x) = f(x; y)

fX(x); para f(x) > 0; y 2 RY ;

Page 177: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.4. DISTRIBUCIONES CONDICIONALES 177

donde f(yjx) denota la densidad condicional de Y dado que X = x.EjemploConsideremos la función de densidad conjunta para las variables aleato-

rias discretas X e Y dadas en (4.19). De la fórmula anterior podemos verque la densidad condicional de Y dado X = 0 toma la forma:

f(yjx = 0) = f(x = 0; y)

fX(x = 0); y 2 RY := f0; 2g :

Esto sugiere que las probabilidades condicionales f(yjx = 0), para y 2RY , son probabilidades conjuntas escaladas f(xjy = 0), para x 2 RX , con laprobabilidad marginal fX(x = 0) proporcionando el peso. En particular:

f(yjx = 0) =f(x=0;y=0)fX(x=0)

= 0:20:3= 2

3; y = 0

f(x=0;y=2)fX(x=0)

= 0:10:3= 1

3; y = 2

La densidad condicional se muestra a continuación:

y 0 2f(yjx = 0) 2

313

Variables aleatorias continuasEn el caso de dos variables aleatorias continuas X e Y no podemos usar

los eventos A = fY = yg y B = fX = xg con el �n de transformar (4.20)en términos de funciones de densidad, porque, como sabemos, = fX = xgeneste caso P (X = x) = 0 y P (Y = y) = 0 para todo x 2 R, y 2 R. Aligual que en el caso de la de�nición de las funciones de densidad conjunta ymarginal debemos tener en cuenta eventos de la forma:

A = fX � xg y B = fY � yg :Sin embargo, incluso en el caso de variables aleatorias continuas nos gus-

taría ser capaces de referirnos a la distribución condicional de Y dado queX = x. La forma de sortear las di�cultades matemáticas es a través dela función de distribución condicional acumulativa de�nida de la siguientemanera

FY jX (y j X = x) = limh!0+

P (Y � y; x � X � x+ h)

P (x � X � x+ h)

donde h ! 0+ se lee "cuando h tiende a 0 através de valores mayoresque 0." Después de algunas manipulaciones matemáticas podemos demostrarque:

Page 178: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

178 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

FY jX (y j X = x) = limh!0+

P (Y � y; x � X � x+ h)

P (x � X � x+ h)=

Z y

�1

f(x; u)

fX(x)du:

Esto sugiere que en el caso de dos variables aleatorias continuas X, Ypodríamos de hecho de�nir la función de densidad condicional como en (4.21)pero no deberiamos interpretarla como asignando probabilidades, ya que:

f (: j x) : RY ! [0;1) :Como podemos ver, la densidad condicional es una función de densidad

propia, en la medida en que, en el caso de variables aleatorias continuas,cumple las propiedades:[cf1] f(yjx) � 0; para todo y 2 RY ;[cf2]

R1�1 f(yjx)dy = 1;

[cf1] F (yjx) =R y�1 f(ujx)du:

En el caso de variables aleatorias discretas las integrales son reemplazadaspor sumatorias.Ejemplos(i) Considere el caso donde la función de densidad conjunta toma la forma:

f (x; y) = 8xy; 0 < x < y; 0 < y < 1:

Las densidades marginales de x e y se pueden derivar de la densidadconjunta integrando sobre y y x, respectivamente:

fX(x) =

Z 1

x

(8xy) dy = 4xy2 jy=1y=x= 4x�1� x2

�; 0 < x < 1;

fY (y) =

Z y

0

(8xy) dx = 4x2y jx=yx=0= 4y3; 0 < y < 1:

NOTA: La única di�cultad en las derivaciones anteriores es notar que elrango de

X es restringido por Y y viceversa. Utilizando estos resultados podemosdeducir que:

f(yjx) =8xy

4x (1� x2)=

2y

(1� x2); x < y < 1; 0 < x < 1;

f(xjy) =8xy

4y3=2x

y2; 0 < x < y; 0 < y < 1:

Page 179: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.4. DISTRIBUCIONES CONDICIONALES 179

(ii) Consideremos la distribución normal estándar de dos variables. Comovimos en la sección anterior, en el caso en que f(x; y) sea normal, las dis-tribuciones marginales marginales fx(x) y fy(y) son también normales. Porlo tanto, la densidad condicional de Y dado X = x se pueden derivar de lasiguiente manera1:

f(yjx) =2� (1� �2)

� 12 exp

n� [2 (1� �2)]

�1(x2 � 2�xy + y2)

o�p2��exp

��12x2 ;

=�2��1� �2

��� 12 exp

���2�1� �2

���1 �x2 � 2�xy + y2

�+1

2x2�:

Usando la igualdad:

�2�1� �2

���1 �x2 � 2�xy + y2

�+1

2x2 =

�2�1� �2

���1(y � �x)2 ,

la densidad condicional toma la forma:

f(yjx) = (1� �2)� 12

p2�

exp

�� 1

2 (1� �2)(y � �x)2

�:

Por lo tanto f(yjx) es también normal con media �x y varianza (1� �2),denotado por

(Y j X = x) � N��x;�1� �2

��:

1Las manipulaciones matemáticas no son importantes en esta etapa.

Page 180: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

180 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

Figura 4.3 Densidad normal bivariada con densidad condicional enx = �0:5.

La densidad condicional f(yjx = 0:5) se puede visualizar como la densidadde una sola dimensión cortando la densidad conjunta con un plano perpen-dicular, paralelo al eje y y pasando a través del punto x = 0:5. En la �gura4.3 podemos ver cómo el corte de la super�cie de dos variables en x = 0:5escalada por [1=fx (�0:5)] proporcina una densidad normal univariada.

4.4.3 Variables aleatorias discretas/continuas

En la modelizaciónempírica hay ocasiones en que el modelador es requeridopara modelar la relación entre variables aleatorias continuas y discretas. Nat-uralmente, estas discusiones involucran la distribución conjunta de las vari-ables aleatorias involucradas y la pregunta que surge es: ¿cómo especi�cartales distribuciones?. Resulta que la forma más conveniente para especi�caruna distribución conjunta es a través de la densidad condicional.Consideremos el caso en que F (x; y) es la fda conjunta de las variables

aleatorias (X; Y ) donde X es discreta y Y es continua. Sea RX = fx1; x2; :::gel rango de valores de la variable aleatoria X. La fda conjunta es completa-mente determinada por la sucesión de pares de una probabilidad marginal yla densidad condicional asociada:

[fx (xk) ; f (y j xk)] ; para todo yk 2 RX .Esto se puede visualizar como una sucesión de polos de probabilidad a lo

largo del eje x en los puntos fx1; x2; :::g que están manchados (smudged)a lo largo del eje y de tal manera que la densidad en cualquier punto xk es[fx (xk) �f (y j xk)].La única di�cultad técnica de este resultado es cómo especi�car la densi-

dad condicional. Ésta se de�ne por:

f (y j xk) =1

fX (xk)

d [F (xk; y)� F (xk � 0; y)]dy

donde la notación (xk � 0) indica tomar la derivada por la izquierda, detal manera que:

F (x; y) =Xxk�x

fX (xk)

Z y

�1f (u j xk) du.

Page 181: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.4. DISTRIBUCIONES CONDICIONALES 181

Del mismo modo, la distribución marginal de la variable aleatoria Y sede�ne por:

FY (y) =Xxk2RX

fX (xk)

Z y

�1f (u j xk) du.

EjemploConsideremos el caso donde las variables aleatorias (X; Y ), X es Bernoulli

y Y está normalmente distribuiday la densidad conjunta toma la forma:

f (x; y;�) = f (y j xk;�) �fX (xk; p) ; xk 2 RX ;

f (y j xk;�) =1

�p2�exp

�� 1

2�2(y � �0 � �1xk)

2

�; fX(1) = p, fX(0) = 1� p:

4.4.4 Momentos codicionales

La densidad condicional, que es una función de densidad propia, tambiéngoza de características numéricas análogas a las funciones de densidad mar-ginal. En particular, para variables aleatorias continuas podemos de�nir losmomentos condicionales:

crudo : E (Y r j X = x) =

1Z�1

yrf (y j x) dy; r = 1; 2; :::;

central : E f(Y � E [Y j X = x])r j X = xg =1Z

�1

(Y � E [y j x])r f (y j x) dy;

r = 2; 3; :::

NOTE que la única diferencia entre los momentos marginales y condi-cionales es que la distribución relevante con respecto a la que E(:) se de�neahora es el condicional.En el caso de variables aleatorias discretas remplazamos las integrales

con sumatorias como se ejempli�ca en el caso del primero de estos momentoscondicionales:

Page 182: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

182 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

media condicional : E (Y j X = x) =X

y2RYy � f (y j x) ;

varianza condicional : V ar (Y j X = x) =X

y2RY[y � E [y j x]]2 � f (y j x) :

Ejemplos(i) Distribución discreta, sin parámetros desconocidos. Para la densidad

condicional (4.22)

E (Y j X = 0) = 0

�2

3

�+ 2

�1

3

�=2

3;

V ar (Y j X = 0) =

�0�

�2

3

��2�2

3

�+

�2�

�2

3

��2�1

3

�=

�24

27

�:

(ii) Distribución continua, sin parámetros desconocidos. Considere el casodonde la función de densidad conjunta toma la forma:

f (x; y) = 8xy; 0 < x < y; 0 < y < 1:

Como mostramos anteriomente, las densidades marginales de x y y son:

f(x) = 4x�1� x2

�; 0 < x < 1 y f (y) = 4y3; 0 < y < 1:

Entonces,

f (y j x) =8xy

4x (1� x2)=

2y

(1� x2); x < y < 1; 0 < x < 1;

f (x j y) =8xy

4y3=2x

y2; 0 < x < y; 0 < y < 1:

Page 183: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.4. DISTRIBUCIONES CONDICIONALES 183

E (Y j X = x) =

Z 1

x

y

�2y

(1� x2)

�dy =

2

(1� x2)

Z 1

x

y2dy

=2

(1� x2)

�1

3y3 jy=1y=x

�=2

3

(1� x3)

(1� x2);

E (X j Y = y) =

Z y

0

x

�2x

y2

�dx =

2

y2

�1

3x3 jx=yx=0

�=2

y2

�1

3y3�=2

3y;

V ar (X j Y = y) =

Z y

0

�x� 2

3y

�2�2x

y2

�dx =

Z y

0

�x2 +

4

9y2 � 4

3xy

��2x

y2

�dx =

=

Z y

0

��2x3

y2

�+8

9x� 8

3

�x2

y

��dx

=

��x4

2y2

�+4

9x2 � 8

9

�x3

y

��x=yx=0

=1

18y2:

(iii) Distribución continua, con parámetros desconocidos. Consideremosel caso de la distribución normal (estándar) de dos variables discutida en lasubsección anterior. Se demostró que la distribución condicional de Y dadoque X = x toma la forma:

(Y j X = x) � N��x;�1� �2

��.

Esto sugiere que:

E (Y j X = x) = �x y V ar (Y j X = x) = 1� �2.

Los momentos condicionales son de interés en la modelizaciónde la depen-dencia ya que con frecuencia ellos proporcionan la forma más �exible paracapturar los aspectos importantes de la dependencia probabilística (véase elcapítulo 6).

4.4.5 Una digresión: otras formas de condicionalidad

TruncamientoAdemás del condicionamiento de eventos de la forma fX = xg, a menudo

es de interés condicionar eventos eventos tal como:

fX > ag , fX < bg o fa < X � bg .

Page 184: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

184 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

EjemploEn el caso del experimento aleatorio de "medir la vida de un foco" po-

dríamos estar interesados en la probabilidad de que tenga una duración de nhoras dado que ha durado por lo menos m horas ya (n > m).Consideremos el caso más general de condicionalidad del evento fa < x � bg,

que se re�ere al doble truncamiento; desde la izquierda en el punto a ydesde la derecha en el punto b. La intuición sugiere que en el caso de unavariable aleatoria discreta X con un rango de valores RX := fx1; x2; :::g, lafunción de probabilidad condicional de X dado fa < x � bg debe estar dadapor:

f (xij fa < X � bg) = f (xi)Xa<xj�b

f (xj), para a < xi � b.

Es decir, la probabilidad de X = xi dado fa < x � bg es justamenteuna probabilidad ponderada. Del mismo modo, en el caso de una variablealeatoria continua X la fórmula anterior toma la forma:

f (xj fa < x � bg) = f (x)Z b

a

f (x) dx

=f (x)

F (b)� F (a), para fa < x � bg .

EjemploEn el caso de la distribución normal la densidad doblemente truncada

toma la forma:

f (x;�) =(�2�)�1

(F (b)� F (b))exp

(�12

�x� �

�2), fa < x � bg .

Viendo los eventos fX > ag y fX < bg como casos especiales de fa < x � bgpodemos modi�car las fórmulas anteriores por consiguiente. Para los ca-sos fX > ag = (a;1) y fX < bg = (�1; b), usando el resultado de laF (1) = lim

x!1F (x) = 1, deducimos que:

f (xjX > a) =f (x)

1� F (a), x > a, f (xjX < b) =

f (x)

F (b), x < b, (4.24)

Page 185: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.4. DISTRIBUCIONES CONDICIONALES 185

Las funciones f (xja < x � b), f (xjX > a) y f (xjX < b) se re�eren amenudo como funciones de densidad truncadas y disfrutan de las propiedadeshabituales:[tf1] f (xja < x � b) � 0, para todo x 2 RX ,

[tf2]Z b

a

f (xja < x � b) dx = 1.

EjemploSea X una variable aleatoria con distribución exponencial:

f (x) = �e��x y F (x) = 1� e��x, y > 0.

De (4.24) se deduce que:

f (xjX > t) =�e��x

e��x= �e��(x�t).

Función de Hazard (Riesgo)Como puede verse en el ejemplo anterior, f (xjX > t) es una función de

x y de t. Viéndola únicamente como una función de t de�nimos lo que seconoce como:Función de riesgo: h (t) = f(t)

1�F (t) , x > t.Intuitivamente, esto puede ser considerado como la tasa instantánea de

mortalidad de una persona que está viva hasta el tiempo t.EjemploPara X, una variable aleatoria distribuida exponencialmente, la función

de riesgo toma la forma:

h (t) =�e��t

e��t= �.

Intuitivamente, esto signi�ca que la tasa instantánea de mortalidad esconstante. Esto sugiere que la distribución exponencial no es apropiada paramodelar la vida del foco, ya que implícitamente asume que la probabilidadde que falle no depende de la edad del foco!

4.4.6 Marginalización frente a condicionalidad

Las densidades marginal y condicional, vistas en relación con la función dedensidad conjunta

Page 186: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

186 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

conjunta f (:; :) : (R� R)! [0;1) ;marginal fY (; ) : R! [0;1) ;

condicional f (: j x) : R! [0;1) ;

tienen una cosa en común: ambas son la densidad de una variable. Esdecir, ambas reducen la dimensionalidad de la función de densidad bivariada,pero la reducción toma diferentes formas. En el caso de la densidad marginalfY (:) la información relativa a la otra variable aleatoria X es ignorada (seintegra fuera). Por otra parte, en el caso de la densidad condicional f(:jx) notoda la información relativa a X se pasa por alto. La densidad condicionalconserva parte de la información relativa a X; la información de x = x.La fórmula (4.21), de�niendo la densidad condicional se puede rearreglar

para obtener:

f (x; y) = f (yjx) :fX (x) para todo (x; y) 2 (RX�RY ) (4.25)

Esto descompone la densidad bivariada f(x; y), en un producto de dosdensidades univariadas, f(yjx) y fX (x); o al menos eso parece. La importan-cia de esta descomposición se pondrán de mani�esto en la siguiente secciónen relación con la noción de independencia. Antes de considerar esto, sinembargo, hay buenas razones para la elaboración de la intuición subyacentea la marginalización y condicionalidad.EjemploConsideremos la función de densidad conjunta representada a contin-

uación:

y n x 1 2 3 fy (Y )0 0:20 0:10 0:15 0:451 0:10 0:25 0:05 0:402 0:1 0:6 0:8 0:15

fX (x) 0:31 0:41 0:28 1

(4.26)

Re�exione sobre la situación siguiente. Se despierta en un hospital deChipre cubierto de yeso de la cabeza a los pies con sólo muestra los ojos yla boca y que sufre de amnesia total. Una enfermera, que acaba de llegarde turno, entra y le informa que, basándose en el informe que acaba de leer:

Page 187: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.4. DISTRIBUCIONES CONDICIONALES 187

usted ha estado involucrado en un accidente automovilístico, se encuentra enmal estado (pero fuera de peligro) y es probable que permaneza en el hospitalpor un tiempo. La primera pregunta que viene a la mente es: ¿quién soy yo?pero el segundo pensamiento que se desliza es: ¿puedo pagar las cuentas?La enfermera parece leer su mente, pero es incapaz de ayudar. Lo único quepodría ofrecer era la tabla de arriba, donde X representa el grupo de edad yY grupo de ingresos:

X = 1 : (18� 35) , X = 2 : (36� 55) , X = 3 : (56� 70) ,Y = 0 : pobre, Y = 1 : de ingresos medios, Y = 3 : rico.

Un vistazo a las probabilidades conjuntas trae un poco más de confusión,porque la mayor probabilidad se asocia al evento (X = 2; Y = 1) (edad mediae ingresos medio) y la probabilidad más baja se une al evento (X = 1; Y = 2)(jovén pero rico!). En un intento por reasegurarse ignora los ingresos (comode importancia secundaria) por un momento y mira la densidad marginalde X. La probabilidad de estar en el grupo de edad de las personas may-ores ( independientemente de los ingresos ) es menor que las probabilidadde que sea joven o de mediana edad; un suspiro de alivio, pero no muchoconsuelo, porque la probabilidad de ser joven no es mucho más alta! Du-rante este silogismo la enfermera recuerda que, según el informe usted estabaconduciendo un Porsche! Esta pieza adicional de información cambia brus-camente la situación. A menos que usted fuera un ladrón huyendo a todavelocidad cuando ocurrió el accidente (un caso poco probable en un país li-bre de crimen, como Chipre!), usted sabe que Y = 2 ha sucedido. ¿Cómocambia esto la probabilidad conjunta? Las probabilidades relevantes ahorason dadas por la densidad condicional de X dado Y = 2:

f (xjy = 2) =

8><>:f(x=1;y=1)fy(y=2)

= 0:010:15

= 0:067, x = 1,f(x=2;y=2)fy(y=2)

= 0:060:15

= 0:400, x = 2,f(x=3;y=2)fy(y=2)

= 0:080:15

= 0:533, x = 3,

9>=>;Un vistazo a estas probabilidades condicionales y estrá usted pidiendo a

la enfermera que le quite el yeso para comprobar la edad que tiene, hay másde 50 por ciento de probabilidad que sea una persona mayor!Después de haber discutido los conceptos de distribución marginal y

condicional podemos proceder a la formalización de la noción de indepen-dencia y distribuciones idénticas.

Page 188: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

188 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

4.5 Independencia

4.5.1 El caso de dos variables aleatorias

Como se ha visto en el capítulo 2, dos eventos A y B que pertenecen alespacio mismo eventos =, se dice que son independientes si:P (A \B) = P (A) � P (B) :Traduciendo dos eventos arbitrarios A y B en eventos de la forma: A :=

(s : X (s) � x) y B := (s : Y (s) � y), s 2 S, la condición anterior se con-vierte en :

P (X � x; Y � y) = P (X � x) � P (Y � y) ; para todo (x; y) 2 R2,FXY (x; y) = FX (x) � FY (y) ; para todo (x; y) 2 R2; (4.27)

donde FXY (:; :) denota la función de distribución acumulada conjunta(fda). En términos de las funciones de densidad, se dice que X, Y sonindependientes si:

f(x; y) = fX (x) � fY (y) ; para todo (x; y) 2 R2 (4.28)

Es decir, la densidad conjunta es igual al producto de las dos funcionesde densidad marginales. En otras palabras, el único caso en que la densidadconjunta no contiene ninguna información adicional a la contenida en lasfunciones de densidad marginal es el caso donde las variables aleatorias sonindependientes.Es importante NOTAR que, en vista de (4.25), cuando X y Y son inde-

pendientes:

f (yjx) = fY (y) para todo y 2 RY . (4.29)

Del mismo modo, f (xjy) = fX (x) para todo x 2 RX . Es decir, cuandoX y Y son independientes, la condicionalidad sobreX no afecta a la densidadmarginal de Y y viceversa. Esto proporciona una manera más intuitiva paracomprender la noción de independencia.Ejemplos(i) Consideremos la densidad de dos variables (4.26). Las variables aleato-

rias X y Y no son independientes ya que para el primer valor(X; Y ) = (1; 0):

f (1; 0) = (0:20) 6= fX (1) fY (0) = (0:31) (0:45) = (0:1395) .

Page 189: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.5. INDEPENDENCIA 189

(ii) Consideremos la densidad de dos variables, dada a continuación:

y n x 0 1 fY (y)0 0:3 0:3 0:62 0:2 0:2 0:4

fX (x) 0:5 0:5 1

Para comprobar si X y Y son independientes, tenemos que comprobarque la igualdad en (4.28) se cumpla, para todos los valores de X y Y :

(X; Y ) = (0; 0) , f (0; 0) = fx (0) fy (0) = (0:3) = (0:5) (0:6) ,

(X; Y ) = (0; 2) , f (0; 2) = fx (0) fy (2) = (0:2) = (0:5) (0:4) ,

(X; Y ) = (1; 0) , f (0; 0) = fx (1) fy (0) = (0:3) = (0:5) (0:6) ,

(X; Y ) = (1; 2) , f (1; 2) = fx (1) fy (2) = (0:2) = (0:5) (0:4) .

Estos resultados sugieren que X y Y son efectivamente independientes.(iii) En el caso donde (X; Y ) están conjuntamente normalmente dis-

tribuidas, con una densidad tal como se de�ne en (4.9), podemos deducirque cuando � = 0, X y Y son independientes. Esto se deduce mediante unasimple sustitución de la restricción � = 0 en la densidad conjunta:

f(x; y) =

(1� �2)

� 12

p2�

!exp

�� 1

2 (1� �2)

�x2 � 2�xy + y2

��j�=0

=

��1

2�

�exp

��12x2����

1

2�

�exp

��12y2��

=

= fX (x) fY (y) ,

donde fX (x) y fY (y) son densidades normales estándar.NOTA: el último ejemplo proporciona una clave importante a la noción

de la independencia sugiriendo que la densidad conjunta f(x; y) se puededescomponer en un producto de dos funciones no negativas u (x) y v(y) esdecir,

f (x; y) = u (x) v (y) ,

donde u (:) � 0 sólo depende de x y v(:) � 0 sólo depende de y, entoncesX y Y son independientes.

Page 190: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

190 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

(iv) En el caso de que (X; Y ) estén conjuntamente exponencialmente dis-tribuidas, con densidad:

f (x; y; �) = [(1 + �x) (1 + �y)� �] exp f�x� y � �xyg , x > 0; y > 0; � > 0.

Es obvio que X y Y son independientes únicamente cuando � = 0, ya quela factorización anterior puede lograrse sólo en ese caso.

4.5.2 Independencia en el caso de n variables

La extensión de las de�niciones anteriores de independencia de dos al caso den variables no es sólo una simple cuestión de notación. Como argumentamosen el capítulo anterior, los eventos, A1; A2; :::; An son independientes si secumple la siguiente condición:

P (A1 \ A2 \ � � � \ Ak) = P (A1) � P (A2) � � �P (Ak) , (4.31)

para todo k = 2; 3; :::; n

Es decir, esto se debe cumplir para todos los subconjuntos de fA1; A2; :::; Ang.Por ejemplo, en el caso de n = 3, las siguientes condiciones deben cumplirsepara que A1; A2; A3 sean independientes:

(a) P (A1 \ A2 \ A3) = P (A1) � P (A2) � P (A3)(b) P (A1 \ A2) = P (A1) � P (A2)(c) P (A1 \ A3) = P (A1) � P (A3)(d) P (A2 \ A3) = P (A2) � P (A3)

En el caso donde sólo se cumplen las condiciones (b) - (d) se dice quelos eventos A1; A2; A3 son independientes dos a dos. Para independencia(completa), necesitamos las cuatro condiciones. Lo mismo vale para variablesaleatorias como se puede ver al sustituir los eventos arbitrarios A1; A2; A3 conlos eventos especiales Ai = (Xi � xi) ; i = 1; 2; 3.Independencia. Se dice que las variables aleatorias X1; X2; : : : ; Xn son

independientes si se cumple la siguiente condición:

F (x1; x2; :::; xn) = F1 (x1)�F2 (x2) � � �Fn (xn) ; para todo (x1; x2; :::; xn) 2 Rn:

Page 191: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.5. INDEPENDENCIA 191

En términos de funciones de densidad, la independencia se puede escribiren la forma:

f (x1; x2; :::; xn) = f1 (x1) � f2 (x2) � � � fn (xn) ; para todo (x1; x2; :::; xn) 2 Rn:

De (4.33) podemos ver que la cuali�cación para todos los subconjuntos defA1; A2; :::; Ang en el caso de eventos ha sido sustituida por la cuali�caciónpara todo (x1; x2; :::; xn) 2 Rn. En otras palabras, en el caso de variablesaleatorias no necesitamos comprobar (4.33) para cualesquiera subconjuntosdel conjunto deX1; X2; : : : ; Xn, pero tenemos que comprobarlo para todos losvalores de (x1; x2; :::; xn) 2 Rn. También es importante señalar que cuando(4.33) es válida para todos (x1; x2; :::; xn) 2 Rn, implica que se debe cumplirpara cualquier subconjunto del conjuntoX1; X2; : : : ; Xn, pero no a la inversa.

Ejemplo

Volvamos a nuestro ejemplo favorito de "lanzar una moneda al aire dosveces" y tomar nota de los resultados: S = f(HH); (HT ); (TH); (TT )g,siendo = el conjunto potencia. De�nir las variables aleatorias siguientes:

X(HT ) = X(HH) = 0; X(TH) = X(TT ) = 1;

Y (TH) = Y (HH) = 0; Y (TT ) = Y (HT ) = 1;

Z(TH) = Z(HT ) = 0; Z(TT ) = Z(HH) = 1:

PXY Z(1; 1; 1) =1

4;PXY Z(1; 1; 0) = 0;

PXY Z (1; 0; 0) =1

4;PXY Z(1; 0; 1) = 0;

PXY Z (0; 1; 0) =1

4;PXY Z(0; 1; 1) = 0;

PXY Z (0; 0; 1) =1

4;PXY Z(0; 0; 0) = 0;

Page 192: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

192 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

PX (0) =Xz

Xy

P (0; y; z) = P (0; 1; 0) + P (0; 0; 1) + P (0; 1; 1) + P (0; 0; 0) =1

2,

PX (1) =Xz

Xy

P (1; y; z) = P (1; 1; 1) + P (1; 0; 0) + P (1; 1; 0) + P (1; 0; 1) =1

2,

PY (0) =Xz

Xx

P (x; 0; z) = P (1; 0; 0) + P (0; 0; 1) + P (1; 0; 1) + P (0; 0; 0) =1

2,

PY (1) =Xy

Xx

P (x; 1; z) = P (1; 1; 1) + P (0; 1; 1) + P (1; 1; 0) + P (0; 1; 0) =1

2,

PZ (0) =Xz

Xx

P (x; y; 0) = P (1; 0; 0) + P (1; 1; 0) + P (0; 1; 0) + P (0; 0; 0) =1

2,

PZ (1) =Xy

Xx

P (x; y; 1) = P (1; 1; 1) + P (0; 0; 1) + P (1; 0; 1) + P (0; 1; 1) =1

2,

En vista de estos resultados podemos deducir que (X;Y ), (X;Z) y (Y; Z)son independientes de dos en dos ya que:

PXY (0; 0) = PX (0)PY (0) =1

4, PY Z (0; 0) = PY (0)PZ (0) =

1

4,

PXY (1; 0) = PX (1)PY (0) =1

4, PY Z (1; 0) = PY (1)PZ (0) =

1

4,

PXY (0; 1) = PX (0)PY (1) =1

4, PY Z (0; 1) = PY (0)PZ (1) =

1

4.

PXZ (0; 0) = PX (0)PZ (0) =1

4,

PXZ (1; 0) = PX (1)PZ (0) =1

4,

PXZ (0; 1) = PX (0)PZ (1) =1

4.

Por otra parte, las tres variables aleatorias (X; Y; Z) no son independi-entes, ya que:

PXY Z(1; 1; 1) =1

46= PX (1)PY (1)PZ (1) =

1

8.

Page 193: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.6. DISTRIBUCIONES IDÉNTICAS 193

La de�nición anterior completa la primera etapa de nuestra búsqueda dela transformación de la noción de pruebas aleatorias. La independencia dadaen la introducción en términos de pruebas (véase (4.1)) ha sido refundida entérminos de variables aleatorias tal como se indica en (4.33). Consideramos lasegunda escala de nuestra búsqueda de una muestra aleatoria en la siguientesección.

4.6 Distribuciones idénticas

Como se mencionó en la introducción, la noción de pruebas aleatorios tienedos componentes: independencia y distribuciones idénticas. Vamos a consid-erar la refundición del componente idénticamente distribuido en términos devariables aleatorias.EjemploConsideremos la función de densidad de Bernoulli:

f (x; �) = �x (1� �)1�x , x = 0; 1,

donde � = P (X = 1). Tener una muestra de n pruebas independientes,por ejemplo (X1; X2; : : : ; Xn), equivale a suponer que las variables aleatoriasX1; X2; : : : ; Xn son independientes, cadaXi teniendo una función de densidadde la forma:

f (xi; �i) = �xii (1� �i)1�xi , xi = 0; 1, i = 1; 2; :::; n,

donde �i = P (Xi = 1), i = 1; 2; :::; n. Independencia en este caso aseguraque:

f (x1; x2; :::; xn;�) = �ni=1fi (xi; �i) = �

ni=1�

xii (1� �i)

1�xi , xi = 0; 1,

donde � = (�1; �2; :::; �n). Obviamente, esto no satisface el componenteIdénticamente Distribuido. Para que este sea el caso tenemos que imponerla restricción de que para todas las pruebas la estructura probabilística sigasiendo la misma, es decir, que las variables aleatorias X1; X2; : : : ; Xn seantambién Idénticamente Distribuidas en el sentido:

f (xi; �i) = �xi (1� �)1�xi , xi = 0; 1, i = 1; 2; :::; n.

Page 194: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

194 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

Vamos a formalizar el concepto de variables aleatorias Idénticamente Dis-tribuidas en el caso de variables aleatorias arbitrarias, pero independientes,comenzando con el caso de dos variables. En general, la densidad conjuntaimplica los parámetros desconocidos � y la igualdad en (4.28) toma la forma:

f (x; y;�) = fX (x;�1) � fY (y;�2) ; para todo (x; y) 2 RX � RY ;

donde las distribuciones marginales fX (x;�1) y fY (y;�2) pueden ser muydiferentes.Dos variables aleatorias independientes se dice que son Idénticamente

Distribuidas si fX (x;�1) y fY (y;�2) son las mismas funciones de densidad,denotado por:

fX (x;�1) � fY (y;�2) ; para todo (x; y) 2 RX � RY ;

en el sentido de que tienen la misma forma funcional y los mismos parámet-ros desconocidos:

fX (:) = fY (:) y �1 = �2:

Ejemplos(i) Consideremos el caso en que la densidad conjunta toma la forma:

f (x; y;�) =

��1�2

�e� y�2

x2; x � 1; y > 0:

Es claro que las variables aleatoriasX y Y son independientes (los factoresde densidad conjunta en un producto) con densidades marginales:

fX (x; �1) =�1x2; x � 1; fY (y; �2) =

1

�2e� y�2 ; y > 0:

Sin embargo, las variables aleatorias X y Y no son Idénticamente Dis-tribuidas, porque ninguna de las anteriores condiciones para ID se cumple.En particular, las dos densidades marginales pertenecen a familias diferentesdensidades ( fX (x; �1) pertenece a la familia Pareto y fY (y;�2) pertenecea la familia exponencial), ellas también dependen de diferentes parámetros(�1 6= �2) y las dos variables aleatorias X, Y tienen distintos rangos de val-ores.

Page 195: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.6. DISTRIBUCIONES IDÉNTICAS 195

(ii) Consideremos las tres distribuciones de dos variables, que se indicana continuación:

y n x 1 2 fY (y)0 0:18 0:42 0:62 0:12 0:28 0:4

fX (x) 0:3 0:7 1(a)

,

y n x 0 1 fY (y)0 0:18 0:42 0:61 0:12 0:28 0:4

fX (x) 0:3 0:7 1(b)

,

y n x 0 1 fY (y)0 0:36 0:24 0:62 0:24 0:16 0:4

fX (x) 0:6 0:4 1(c)

Las variables aleatorias (X; Y ) son independientes en los tres casos (ver-ifíquelo!). Las variables aleatorias en (a) no son Idénticamente Distribuidasporque RX 6= RY y fX (x) 6= fY (y) para algunos (x; y) 2 RX � RY . Lasvariables aleatorias en (b) no son Idénticamente Distribuidas, porque aúncuando RX = RY , fX (x) 6= fY (y) para algunos (x; y) 2 RX � RY . Porúltimo, las variables aleatorias en (c) son Idénticamente Distribuidas porqueRX = RY y fX (x) = fY (y) para todo (x; y) 2 RX � RY .(iii) En el caso en que f (x; y;�) es normal de dos variables, tal como se

especi�ca en (4.7), las dos funciones de densidad marginal tienen la mismaforma funcional, pero � : = (�1; �2; �11; �22), �1: = (�1; �11) y �2: = (�2; �22),suelen ser diferentes. Por lo tanto, para que las variables aleatorias X y Ysean Idénticamente Distribuidas, las dos medias y las dos varianzas deben decoincidir: �1 = �2 y �11 = �22:

f (x;�1) =1p2��11

e� 12�11

[x��1]2, f (y;�2) =1p2��11

e� 12�11

[y��1]2.

El concepto de variables aleatorias Idénticamente Distribuidas se puedeextender fácilmente al caso de n variables de una manera directa.Distribuciones idénticas. Las variables aleatorias (X1; X2; : : : ; Xn) se

dice que son Idénticamente Distribuidas si:

fk (xk;�k) � f (xk;�) ; para todo k = 1; 2; :::; n.

Page 196: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

196 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

Esto tiene dos dimensiones:(i) f1 (:) � f2 (:) � f3 (:) � � � � � fn (:) � f (:),(ii) �1 = �2 = �3 = � � � = �n = �:El signo de igualdad � se utiliza para indicar que todas las distribuciones

marginales tienen la misma forma funcional.

4.6.1 Una muestra aleatoria

Nuestra primera formalización de la condición [c] de un experimento aleatorioE , donde:[c] este experimento se puede repetir en idénticas condiciones,tomó la forma de un conjunto de pruebas aleatorias fA1;A2;A3; :::;Ang

que son Independientes e Idénticamente Distribuidas (IID):

P(n) (A1 \ A2 \ � � � \ Ak) = P (A1) � P (A2) � � �P (Ak) ; (4.34)

para todo k = 2; 3; :::; n:

Utilizando el concepto de muestra X : = (X1; X2; : : : ; Xn), donde Xi

representa la i-ésima prueba, podemos proceder a formalizar la condición [c]en la forma de una muestra donde las variables aleatorias X1; X2; : : : ; Xn sonIndependientes (I) e Idénticamente Distribuidas (ID).Muestra aleatoria. La muestra XIID

(n) : = (X1; X2; : : : ; Xn) se llama unamuestra aleatoria si las variables aleatorias (X1; X2; : : : ; Xn) son:(a) Independientes:

f (x1; x2; :::; xn;�)I=Yn

k=1fk (xk;�k) ; para todo (x1; x2; :::; xn) 2 Rn;

(ii) Idénticamente Distribuidas:

fk (xk;�k) = f (xk;�) ; para todo k = 1; 2; :::; n:

Poniendo juntos los dos la densidad conjunta deXIID(n) : = (X1; X2; : : : ; Xn)

toma la forma:

f (x1; x2; :::; xn;�)I=Yn

k=1fk (xk;�k)

IID=Yn

k=1f (xk;�) ; para todo (x1; x2; :::; xn) 2 Rn.

(4.35)

Page 197: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.6. DISTRIBUCIONES IDÉNTICAS 197

La primera igualdad se desprende de la condición de independencia y lasegunda de la condición de Distribución Idénticas. NOTE que fk (xk;�k)denota la distribución marginal de Xk (:), obtenidas por la integración detodas las otras variables aleatorias, además de Xk (:), es decir,

fk (xk;�k) =

Z 1

�1

Z 1

�1� � �Z 1

�1f (x1; :::; xk�1; xk; xk+1; :::; xn;�) dx1:::dxk�1dxk+1:::dxn:

Como argumentamos en el capítulo 2, la formalización de un experimentoaleatorio se escogió para motivar varios conceptos, ya que era lo su�cien-temente simple para evitar complicaciones innecesarias. También dijimos,sin embargo, que fenómenos estocásticos simples dentro del ámbito de apli-cación previsto de un modelo estadístico simple se encuentra raramente en laeconomía. Una de nuestras primeras tareas, una vez que la transformación seha completado, es extenderla. En preparación para esta extensión notemosen esta etapa que la noción de muestra aleatoria es una forma muy especialde lo que llamamos un modelo muestral.Modelo muestral. Un modelo muestral es un conjunto de variables

aleatorias (X1; X2; : : : ; Xn) (una muestra) con una estructura probabilísticadeterminada. El objetivo principal del modelo muestral consiste en relacionarlos datos observados con el modelo de probabilidad.

4.6.2 Un modelo estadístico simple: concluyendo lastransformaciones

Ahora estamos en condiciones de completar la búsqueda que se inició conla formalización del concepto de experimento aleatorio E , de�nido por lascondiciones:[a] todos los distintos posibles resultados se conocen a priori,[b] en una prueba particular los resultados no se conoce a priori pero existe

una regularidad perceptible de ocurrencia relacionada con estos resultados y[c] el experimento se puede repetir en condiciones idénticas.La formalización abstracta inicial tomó la forma de un espacio estadístico

simple:�(S;=;P (:))n ;GIIDn

�. El objetivo principal del capítulo anterior fue la

metamorfosis del espacio de probabilidad simple (S;=;P (:))n en algo de�nidoen la recta real. La clave de la transformación fue la noción de variablealeatoria X(:):

Page 198: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

198 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

(S;=;P (:))n X(:)) (R;ß(R) ;PX(:))) ff (x;�) ;� 2 �; x 2 RXg :

En este capítulo hemos transformado el espacio muestral simple en unamuestra aleatoria:

GIIDn = fA1;A2;A3; :::;AngX(:)) XIID

(n) : = (X1; X2; : : : ; Xn) .

Recopilando los principales resultados de los últimos dos capítulos, de�n-imos un modelo estadístico genérico simple:

[i] modelo de probabilidad � = ff (x;�) ;� 2 �; x 2 RXg :[ii] modelo muestral X : = (X1; X2; : : : ; Xn) es una muestra aleatoria.

El concepto de modelo estadístico constituye el aporte básico de la teoríade probabilidad a la teoría de la inferencia estadística. Todas las formas deinferencia estadística paramétrica suponen un modelo estadístico particularque, si no es válido, hace que cualquier resultado de inferencia sea erróneo.Por lo tanto, una buena comprensión de la forma y la estructura de unmodelo estadístico simple de la forma dada anteriormente es imprescindible.Ejemplos concretos de modelos estadísticos simples son los siguientes:Modelo Bernoulli simple.[i]Modelo de probabilidad:� =

�f (x;�) = �x (1� �)1�x ; 0 � � � 1; x = 0; 1

;

[ii] Modelo muestral: X := (X1; X2; : : : ; Xn) es una muestra aleatoria.Modelo Normal simple.[i]Modelo de probabilidad:� =

nf (x;�) = 1

�p2�exp

n� (x��)2

2�2

o;� := (�; �2) 2 R� R+; x 2 R

o;

[ii] Modelo muestral: X := (X1; X2; : : : ; Xn) es una muestra aleatoria.Modelo Gamma generalizado simple.[i]Modelo de probabilidad:� =

nf (x;�) = 1

�(�)����x���1 exp

n��x�

��o;� 2 �; x 2 R+

o;

[ii] Modelo muestral: X := (X1; X2; : : : ; Xn) es una muestra aleatoria.

4.7 Un modelo estadístico simple en la mod-elización empírica: una visión preliminar

Como se mencionó anteriormente, todas las formas de inferencia estadísticapresuponen la especi�cación de un modelo estadístico particular a priori.

Page 199: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.7. UNMODELOESTADÍSTICO SIMPLE EN LAMODELIZACIÓNEMPÍRICA: UNAVISIÓNPRELIMINAR199

Esta especi�cación supone la elección de un conjunto de supuestos proba-bilísticos que el modelador considera apropiados para describir el mecanismoestocástico que dio lugar al conjunto de datos en cuestión. La elección deun modelo estadístico adecuado constituye tal vez la más difícil y, al mismotiempo, la decisión más crucial que un modelador tiene que hacer; en com-paración, la decisión de elegir un buen estimador de � es trivial. En el capítulo1 argumentamos que en el caso de datos observacionales (no experimentales)necesitamos establecer un procedimiento que tome en consideración la es-tructura de los datos observados. Después de todo, el modelo estadísticoelegido se considera apropiado sólo cuando él captura toda la informaciónsistemática de los datos en cuestión.Lo que hace al anterior modelo estadístico simple es el supuesto de mues-

tra aleatoria, es decir, (X1; X2; : : : ; Xn) son variables aleatorias Independi-entes e Idénticamente Distribuidas. Hacer una elección adecuada de un mod-elo estadístico requerirá que el modelador desarrolle una comprensión tantointuitiva como formal de tales supuestos probabilísticos. Del mismo modo, lapostulación de una familia paramétrica de densidades requiere el modeladorpara apreciar lo que esa decisión conlleva.

4.7.1 Modelo de probabilidad

En cuanto a un modelo de probabilidad de una familia paramétrica de den-sidades:

� = ff (x;�) ;� 2 �; x 2 RXg (4.36)

desde el punto de vista de la modelación, distinguimos dos componentesbásicos:(i) la forma paramétrica de la función de densidad f (x;�) ;� 2 � y(ii) el soporte de la densidad RX := fx 2 R : f (x;�) > 0g.En teoría, la modelización empírica comienza a partir del "conjunto de

todos los posibles modelos de probabilidad", por ejemplo, P , y utilizandola información referida a la forma y estructura de los datos, el modeladorreduce este conjunto a un subconjunto P 0 � P de modelos de probabilidadadmisibles , eligiendo f (x;�) y RX , felizmente.La noción de modelo de probabilidad simple fue ilustrada en el capítulo

3 con una serie de grá�cas de densidad para diferentes valores de �. Comoveremos en el capítulo 5, la elección de f(x; :) y � no tiene por qué ser un

Page 200: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

200 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

asunto de acertar o fallar; puede ser facilitado por una serie de grá�cas delos datos. El soporte de la densidad también juega un papel importante enla especi�cación debido a que el rango de valores de los datos observados esuna dimensión fundamental de la modelizaciónque a menudo se descuida. Enel caso donde los datos observados se re�eren a una serie de datos medidosen términos de proporciones (es decir, los valores tomados por los datos seencuentran en el intervalo [0; 1]), la postulación de una familia de densidadescon soporte (�1;1) es a menudo inadecuado. El uso de la familia dedensidades Beta a menudo puede ser una mejor idea.EjemploEn el caso de los datos de las puntuaciones del examen (véase la tabla 1.6),

hay buenas razones para creer que, basándose principalmente en el soportede los datos, el modelo de probabilidad Beta podría de hecho ser una mejoropción; véase el capítulo 15.UNA NOTA DE PRECAUCIÓN. En el contexto de la inferencia estadís-

tica la escena central se le dará al parámetro(s) desconocido(s) �; estimacióny pruebas giran en torno a �. Sin embargo, el modelador no debe perderde vista el hecho de que la estimación de � (utilizando los datos observadoscon el �n de elegir un buen estimador b�) es un medio para un �n. El ob-jetivo principal de la modelización empírica es describir adecuadamente elfenómeno estocástico subyacente a los datos en cuestión. Este modelo vieneen la forma del modelo de probabilidad estimado:

b� = nf �x; b�� ; x 2 RXo , (4.37)

que constituye la base de cualquier tipo de inferencia estadística, in-cluyendo la predicción y la simulación. Representa un mecanismo estocásticoidealizado que tiene por objeto proporcionar una descripción adecuada delfenómeno estocástico subyacente a los datos observados en cuestión. En estesentido, centrándose indebidamente en los parámetros desconocidos dará lu-gar a perder de vista el bosque por los árboles.

4.7.2 Identi�cabilidad y parametrizaciones

Hay que subrayar, en primer lugar que, para propósitos de modelización, losparámetros � 2 � deben estar asociado con distribuciones de probabilidadúnicas, de lo contrario la elección de un buen estimador de � y, por lo tanto,

Page 201: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.7. UNMODELOESTADÍSTICO SIMPLE EN LAMODELIZACIÓNEMPÍRICA: UNAVISIÓNPRELIMINAR201

la elección del mecanismo estocástico como el indicado en (4.37) no tienesentido.En otras palabras, es imperativo que para diferentes valores de � 2 �

se correspondan diferentes distribuciones. La condición que asegura esto seespeci�ca a continuación:

Identi�cabilidad: para todo �1 6= �2, donde �1 2 �, �2 2 �;f (x;�1) 6= f (x;�2) ; x 2 RX .

IMPORTANTE. En lo que sigue vamos a suponer que todos los modelosde probabilidad son identi�cables en relación con la parametrización postu-lada.En relación con la unicidad de la parametrización hay que destacar que

ésta se de�ne como un mapeo uno a uno. Es decir, cuando se especi�cael modelo de probabilidad (4:36) el modelador puede elegir un número deparametrizaciones equivalentes, si existe un mapeo uno a uno entre los dosespacios de parámetros. En particular, una parametrización equivalente a(4.36) es:

� = ff (x; ) ; 2 ; x 2 RXg (4.38)

sólo en el caso de que exista un mapeo uno a uno = g (�) :

g (:) : �! .

Si queremos hacer hincapié en la reparametrización podemos escribir(4.38) en la forma:

� = ff (x; ) ; = g (�) ;� 2 �; x 2 RXg , (4.39)

qué parametrización se usará en un caso concreto depende de varios fac-tores, entre ellos la interpretabilidad.EjemploConsideremos el caso de la distribución exponencial donde � 2 � la

parametrización toma la forma:

� = ff (x; �) = �exp [��x] ; x > 0; �2� := (0;1)g :

Una parametrización equivalente se de�ne en términos de = 1�:

� =

�f (x; �) =

1

exp

�� 1 x

�; x > 0; 2 := (0;1)

�.

Page 202: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

202 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

Más allá de parametrizaciones estadísticas, un papel importante en lamodelización econométrica es jugado por las parametrizaciones teóricas. Enpocas palabras, una parametrización estadística tiene una clara inter-pretación en términos de características de distribucionales de la familia delas densidades de que se trate, como momentos y cuantiles. Por el contrario,una parametrización teórica tiene una interpretación clara en términos dela teoría económica (o teorías) de que se trate. Hasta ahora hemos encontradosólo parametrizaciones estadísticas. En econometría, sin embargo, estamosinteresados en última instancia en parametrizaciones teóricas (económicas)� 2 A, que son a menudo diferentes de las parametrizaciones estadísticaspostuladas �2�. Más a menudo tenemos menos parámetros teóricos que es-tadísticos de interés. En este caso tenemos que asegurarnos de que existenmapeos muchos a uno de la forma:

h (:) : �! A,

que de�nen � unívocamente (a parametrizaciones uno a uno). NOTEque, mapeos muchos a uno h (:) reparameterizan y restringen los parámet-ros estadísticos. Esto es a menudo necesario para reducir la especi�cidadde los datos de un modelo estadístico, así como para hacer los parámetrosestadísticos teóricamente signi�cativos.

4.7.3 Importantes familias de distribuciones paramétri-cas

El éxito de la modelización empírica dependerá fundamentalmente de lariqueza de las familias de distribuciones paramétricas disponibles para elmodelador. En esta sección se consideran brevemente algunas de las familiasmás importantes de las distribuciones utilizadas en la modelización empírica.El primer avance importante en hacer familias de distribuciones paramétricasdisponibles para el modelador fue hecha por Karl Pearson (1895).La familia PearsonLa familia de funciones de densidad de Pearson fue motivada inicialmente

por el deseo de generar distribuciones no normales (especialmente no simétri-cas) que se utilizarán para el modelado de datos biológicos. Pearson se diócuenta que la función de densidad normal estándar � (x) satisface la sencillaecuación diferencial:

Page 203: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.7. UNMODELOESTADÍSTICO SIMPLE EN LAMODELIZACIÓNEMPÍRICA: UNAVISIÓNPRELIMINAR203

d� (x)

dx= � (x)

�(x� �0)

�1

�, x 2 R donde � := �0 y �2 := ��1.

Luego pasó a generalizar esta ecuación diferencial a cuatro parámetrosdesconocidos (�1; �2; �3; �4):

df (x)

dx= f (x)

�(x� �0)

�1 + �2x+ �3x2

�, x 2 RX .

Dependiendo de los valores tomados por los parámetros desconocidos, estaecuación, además de la Normal, puede generar varias funciones de densidadbien conocidas como:

t de Student: f (x;�) =�[ 12 (v+1)](�2v�)

12

�[ 12v]

�1 + (x��)2

v�2

�� 12(v+1)

; � := (�; �2) 2R� R+, x 2 R,Laplace: f (x;�) = 1

2�e�(

jx��j� ), � := (�; �) 2 R� R+, x 2 R,

Pareto: f (x;�) =��x�0�x�(�+1), � 2 R+, x0 > 0; x � x0,

Gamma: f (x;�) = ��1

�[�]

�x�

���1exp

n��x�

�o, � := (�; �) 2 R2+, x 2

R+,Beta: f (x;�) = x��1(1�x)��1

B[�;�], � := (�; �) 2 R2+, 0 � x � 1.

En el caso de variables aleatorias discretas, la ecuación diferencial corre-spondiente es:

fk � fk�1 = fk

�(k � �0)

�1 + �2x+ �3x (1� x)

�, k = 1; 2; 3; :::, x 2 RX .

Además de la distribución binomial, esta ecuación se puede utilizar paragenerar varias distribuciones discretas bien conocidas como:

Hipergeométrica: f (x;�) =

0@ Kx

1A0@ M �Kn� k

1A0@ Mn

1A , 0 � x � min (K;n),

Binomial Negativa: f (x;�; k) =

�k + x� 1k � 1

��k (1� �)x, 0 < � < 1,

k = 1; 2; :::, y = 0; 1; 2; :::,Poisson: f (x;�; k) = e���x

x!, � > 0, x = 0; 1; 2; 3; :::.

Page 204: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

204 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

Familia exponencial de distribucionesEsta familia de distribuciones se introdujo inicialmente en la estadística

por Fisher (1934) como una extensión natural de la distribución Normal paralos propósitos de la inferencia. Como argumentamos en el capítulo 12, estafamilia conserva algunas de las propiedades importantes de la distribuciónnormal en relación con la inferencia. NOTE que la familia exponencial esdiferente de la distribución exponencial encontrada anteriormente. La fun-ción de densidad de la familia exponencial puede expresarse en la forma:

f (x;�) = c (�)h (x) expXk

i=1gi (�) � i (x) ,

(a) c (�) � 0,(b) h (x) � 0,(c) gi (�), i = 1; 2; :::; k: funciones reales (sin x),(d) � i (x), i = 1; 2; :::; k: funciones reales (sin �).Muchas distribuciones conocidas como la normal,Gama, Beta, Binomial,

Poisson y Binomial Negativas pertenecen a esta familia; ver Barndor¤-Nielseny Cox (1989), Azallini (1996).Ejemplos(i) La distribución de Poisson es un miembro discretos de la familia ex-

ponencial con función de densidad:

f (x;�) = e���x

x!=�e��

x!

�exp (x In (�)), � > 0, x = 0; 1; 2; :::, � > 0,

Por lo tanto, para esta densidad: k = 1, c (�) = e��, h (x) = 1x!, g(�) =

In (�), � (x) = x.(ii) La distribución normal es un miembro continuo de la familia expo-

nencial con función de densidad:

f (x;�) = 1p2��2

exp�� (x��)2

2�2

�=

exp

�� �2

2�2

�p2��2

exp��x2

�12�2

�+ x

���2

��, x 2

R,� : = (�; �2) 2 R� R+. Por lo tanto, para la densidad normal: k = 2,

c (�) = 1p2��2

exp�� �2

2�2

�, h (x) = 1, g1 (�) =

��2, g2 (�) = �1

2�2, � 1 (x) = x,

� 2 (x) = x2.La familia estable (Pareto-Levy)La familia estable de distribuciones fue inicialmente motivada por la im-

portante propiedad del dominio de atracción: la suma de variables aleatoriasindependientes de una cierta distribución, debidamente normalizada, tiene lamisma distribución de las variables aleatorias individuales. Esta familia de

Page 205: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.7. UNMODELOESTADÍSTICO SIMPLE EN LAMODELIZACIÓNEMPÍRICA: UNAVISIÓNPRELIMINAR205

distribuciones se ha utilizado ampliamente para la modelización de preciosespeculativos (ver Campbell et al. (1997)). Una desventaja importante deesta familia es que la mayoría de sus miembros no tienen una función dedensidad explícita en forma cerrada y por lo tanto los modeladores trabajandirectamente con la función cumulante (logartímo de la función caracterís-tica) (véase el capítulo 3), que viene dada por:

log � (t) =

�i�t� � jtj�

�1� [sign (t)] i�

�tan���2

��, para � 6= 1

i�t� � jtj�1 + [sign (t)] i�

��2�

�In (jtj)

�, para � = 1

�,

Esta familia se de�ne en función de cuatro parámetros (ver Galambos(1995)):

�: el exponente característico, donde 0 < � � 2,�: la asimetría, donde �1 < � � 1,�: la ubicación, donde � 2 R,�: la escala, donde � 2 R+.Esta es una familia continua de densidades unimodales (una moda). Para

� < 2, la cola de la función de densidad decae como una función potencia (deahí el término de Pareto), mostrando más dispersión que la normal; a menor�, más gruesa es la cola. Para � = 0 la densidad es simétrica alrededor de �pero � > 0 y � < 0, dando lugar a densidades sesgadas a la izquierda y a laderecha, respectivamente; el caso j�j = 1 da lugar a distributiones establesextremas.El soporte de esta familia depende de los parámetros (�; �):

R�X (�; �) =

8<:R, para � � 1; j�j 6= 1,

(�1; 0) , para � < 1; � = 1,(0;1) , para � < 1; � = �1.

9=;Ejemplos(i) Para � = 2 y � = 0, la familia estable se reduce a la distribución

normal.(ii) Para � = 1 y � = 0, la familia estable se reduce a la distribución de

Cauchy con la densidad:

f (x;�; �) =�

���2 + (x� �)2

� , x 2 R;� 2 R;� 2 R+.NOTE que para el caso 0 < � � 10, no existen momentos!

Page 206: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

206 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

(iii) Para � = 12y � = 1, la familia estable se reduce a la distribución de

Levy con densidad:

f (x;�; �) =

r�

2� + (x� �)3exp

�� 1

2 (x� �)

�, x > �; � 2 R;� 2 R+.

La familia de transformación JohnsonLa familia de distribuciones de transformación Johnson fue motivada ini-

cialmente por un intento de introducir distribuciones no normales que sepueden ver como transformaciones monótonas de la normal. Johnson (1949)propuso la transformación:

X = +�h (Y ) = +�h (Y )

�Z � �

�, X~N (0; 1) ; h (:) es una función monótona.

Los miembros más importantes de esta familia se basan en las siguientestransformaciones:(i) SL, lognormal:h (Y ) = In (Y ), � < Z <1(ii) SB, rango acotado:h (Y ) = In

�Y1�Y�, � < Z < �+ �.

(ii) SU , rango no acotado:h (Y ) = In

�Y +

p1 + Y 2

�, �1 < Z <1.

4.7.4 Muestra aleatoria

En lo que al modelo muestral se re�ere, notemos que, desde el punto devista de la modelización, los componentes básicos de una muestra aleatoria:XIID(n) : = (X1; X2; : : : ; Xn) son los supuestos:(i) Independencia y(ii) Distribución Idéntica.Para datos observacionales la validez de estos supuestos a menudo puede

ser evaluada utilizando una batería de técnicas grá�cas discutidas en loscapítulos 5-6. En esos capítulos discutimos la relación entre conceptos prob-abilísticos construyendo un modelo estadístico simple (como Independenciay Distribución Idéntica) y varias grá�cas de datos reales. La discusión esparticularmente relevante para la modelización de datos observacionales.

Page 207: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.8. MUESTRAS ALEATORIAS ORDENADAS* 207

En un intento por mostrar lo fácil que es ir a dar a una muestra noaleatoria, se muestra en la siguiente sección que una simple reorganizaciónde la muestra da lugar a una muestra no aleatoria.

4.8 Muestras aleatorias ordenadas*

Considere el caso donde el modelo muestral original, es una muestra aleatoria(X1; X2; : : : ; Xn) con fda F (x;�), es decir,(1) F (x1; x2; :::; xn;�) =

Qnk=1 Fk (xk;�k),

(2) Fk (xk;�k) = F (x;�), para k = 1; 2; :::; n.Por varias razones, que se estudiarán en los próximos capítulos, a menudo

es interesante considerar la muestra ordenada donde las variables aleatoriasse arreglan en orden ascendente, es decir,�

X[1]; X[2]; : : : ; X[n]

�donde X[1] � X[2] � : : : � X[n].

NOTA: es importante destacar que la muestra ordenada constituye unaconstrucción mental, porque antes de que la muestra se realice tal ordenno es posible! Sea como fuere, puede ser una sorpresa para el lector que,aunque la muestra (X1; X2; : : : ; Xn) es aleatoria (IID), la muestra ordenada�X[1]; X[2]; : : : ; X[n]

�no es aleatoria; las variables aleatoriasX[1]; X[2]; : : : ; X[n]

no son ni Independientes ni Idénticamente Distribuidas. Veamos esto enalgún detalle.

4.8.1 Distribuciones marginales

Consideremos primero la función de distribución de la variable aleatoria

X[1] = min�X[1]; X[2]; : : : ; X[n]

�y sea su fda denotada por F[1](x). Luego, a partir de principios básicos,

sabemos que:

F[1](x) = P�X[1] � x

�= 1� P

�X[1] > x

�.

En vista del hecho de que la variable aleatoria X[1] es la más pequeña, elevento

�X[1] > x

�se produce si y sólo si todos los Xk superan a x, es decir,�X[1] > x

�= (X1 > x;X2 > x; :::; Xn > x) .

Page 208: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

208 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

De la aleatoriedad de la muestra (X1; X2; : : : ; Xn) sabemos que:

P (X1 > x;X2 > x; :::; Xn > x) = [1� F (x;�)]n ,

y entonces:

F[1](x) = P�X[1] � x

�= 1� [1� F (x;�)]n .

Consideremos ahora la función de distribución de la variable aleatoria

X[n] = max�X[1]; X[2]; : : : ; X[n]

�y sea su fda denotada por F[n](x). Luego, a partir de primeros principios,

sabemos que:

F[x](x) = P�X[n] � x

�.

En vista del hecho de que la variable aleatoria X[n] es la más grande, elevento

�X[n] � x

�se produce si y sólo si todos las Xk no son superadas por

x, es decir, �X[n] � x

�= (X1 � x;X2 � x; :::; Xn � x) .

De la aleatoriedad de la muestra (X1; X2; : : : ; Xn) sabemos que:

P (X1 � x;X2 � x; :::; Xn � x) = [F (x;�)]n ,

y entonces:

F[n](x) = P�X[n] � x

�= [F (x;�)]n .

Notando que el evento:�X[n] � x

�=(a menos k variables aleatorias deX1; X2; : : : ; Xn no superan

x),podemos derivar la función de distribución de cualquier variable aleatoria

X[k] de la siguiente manera. De la distribución binomial, sabemos que:

P(exactamente k deX1; X2; : : : ; Xn no superen x)=�nk

�[F (x;�)]k [1� F (x;�)]n�k,

y por lo tanto (véase David (1981)):

F[k](x) = P�X[k] � x

�=Xn

m=k

�nk

�[F (x;�)]m [1� F (x;�)]n�m .

Page 209: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.8. MUESTRAS ALEATORIAS ORDENADAS* 209

NOTE que la fda de X[1] y X[n] constituyen casos especiales de los ante-riores resultados.Juntando los resultados anteriores, deducimos que la muestra ordenada�

X[1]; X[2]; : : : ; X[n]

�es claramente no ID ya que la distribución deX[k] cambia

con k.EjemploConsidere el caso donde (X1; X2; : : : ; Xn) constituye una muestra aleato-

ria de una distribución uniforme:

Xk~U (0; 1) , k = 1; 2; :::; n.

Podemos fácilmente demostrar que los dos primeros momentos de estasvariables (ver Apéndice A) son:

E (Xk) =1

2, V ar (Xk) =

1

12, Cov (Xk; Xj) = 0, j 6= k, j; k = 1; 2; :::; n.

Por otra parte, los dos primeros momentos de la muestra ordenada�X[1]; X[2]; : : : ; X[n]

�son los siguientes:

E (Xk) =k

n+ 1, V ar (Xk) =

k (n� k + 1)

(n+ 1)2 (n+ 2),

Cov (Xk; Xj) =j (n� k + 1)

(n+ 1)2 (n+ 2), j < k, j; k = 1; 2; :::; n.

El hecho de que la covarianza sea distinta de cero indica que la muestraordenada no puede ser independiente (véase el capítulo 6).

4.8.2 Distribuciones conjuntas

La dependencia entre las variables aleatorias ordenadas�X[1]; X[2]; : : : ; X[n]

�puede ser mejor vista en el contexto de la distribución conjunta de dos vari-ables, para cualesquiera dos de estas variables aleatorias, por ejemplo X[i] ,X[j] (1 � i < j � n). Por de�nición:

F[i;j] (xi; xj) = P�X[i] � xi; X[j] � xj

�= P(al menos i variables aleatorias de X1; X2; : : : ; Xn superen

xi y al menos j variables aleatorias de X1; X2; : : : ; Xn superen xj).

Page 210: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

210 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

=Xn

k=j

Xk

l=i(exactamente i variables aleatorias de

X1; X2; : : : ; Xn no superen xi y exactamente j variables aleatorias deX1; X2; : : : ; Xn

no superen xj).Siguiendo el mismo argumento de sentido común utilizado anteriormente

podemos deducir que (véase David (1981)):

F[i;j] (xi; xj) =Xn

k=j

Xk

l=i

n!

l! (k � l)! (n� k)![F (xi)]

l [F (xj)� F (xi)]k�l [1� F (xj)]

n�k .

Como podemos ver, la distribución conjunta anterior no se puede expresarcomo un producto de las dos distribuciones marginales y por lo tanto lasvariables aleatorias

�X[i]; X[j]

�no son independientes.

4.9 Resumen

En este capítulo hemos completado la transformación de la formalización ini-cial de la noción de experimento aleatorio en la forma del abstracto espacioestadístico

�(S;=;P (:))n ;GIIDnn

�en un modelo estadístico simple. Los fenó-

menos de interés que pueden ser modelados en el contexto de este modelosimple son los que muestran patrones de regularidad aleatoria de:

(1) Independencia y (2) Distribución Idéntica (homogeneidad).

4.9.1 ¿Qué sigue?

Con el �n de mejorar nuestra comprensión de la noción de modelo estadísticosimple relacionaremos los conceptos probabilísticos que componen este mod-elo con los datos reales. El puente entre estos conceptos probabilísticos y lasgrá�cas de los datos reales se construye en el siguiente capítulo. El problemade la extensión de la formalización con el �n de modelar mecanismos aleato-rios más realistas encontrados en la economía se emprenderá en los capítulos6-8.

4.10 Ejercicios

1. Explique por qué la distribución conjunta se puede utilizar para describirla heterogeneidad y la dependencia entre variables aleatorias.

Page 211: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

4.10. EJERCICIOS 211

2. "La marginalización signi�ca que desechar toda la información relativaa la variable aleatoria que estamos sumando (integrando)." Comente.3. Considere el experimento aleatorio de lanzar una moneda dos veces y

de�nir la variable aleatoria: X - el número de Hs y Y5 j el número de Hs -el número de T s j.Derivar la distribución conjunta de (X;Y ), suponiendo una moneda legal,

y comprobar si las dos variables aleatorias son independientes.4. Sea la función de densidad conjunta de dos variables aleatorias X, Y :

y n x �1 0 1�1 0:2 0:2 0:21 0:1 0:1 0:2

(a) Obtenga las distribuciones marginales de X y Y .(b) Determine si X y Y son independientes.(c) Veri�que su respuesta en (b) usando la distribución condicional(es).5. De�nir el concepto de la independencia de dos variables aleatorias X y

Y en términos de las funciones de densidad conjunta, marginal y condicional.6. Explicar el concepto de muestra aleatoria y explicar por qué a menudo

es restrictiva para la mayoría de las series de datos económicos.7. Describa brevemente la formalización de la condición: [c] podemos

repetir el experimento bajo idénticas condiciones, en la forma del conceptode una muestra aleatoria.8. Explique intuitivamente por qué tiene sentido que cuando la distribu-

ción conjunta f (x; y) es normal las distribuciones marginales fx (x) y fy (y)son también normales.9. De�na los momentos crudos y centrales y demuestre que:

Cov (X; Y ) = E (XY )� E (X)E (Y ) .

¿Por qué nos importan estos momentos?10. Explique el concepto de una muestra ordenada.11 Explique intuitivamente por qué una muestra aletoria ordenada no es

ni Independiente ni Idénticamente Distribuida.12. Explique los conceptos de identi�cabilidad y parametrización.13 "Al establecer una relación entre los modelos estadísticos y los modelos

teóricos (económicos) a menudo necesitamos reparameterizar / restringir elprimero con el �n de hacer que los parámetros estimados sean teóricamentesigni�cativos". Explique.

Page 212: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

212 CAPÍTULO 4. EL CONCEPTO DE MUESTRA ALEATORIA

Apéndice B distribuciones de dos variablesFALTA INCLUIR DISTRIBUCIONES

Page 213: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

Capítulo 5

El concepto de muestra noaleatoria

5.1 Introducción

En este capítulo damos el primer paso para extender el modelo estadísticosimple (formalizado en los capítulos 2-4) en las direcciones que permitenla dependencia y la heterogeneidad. Ambas dimensiones son excluidas enel contexto del modelo estadístico simple, porque este último se basa enla noción de muestra aleatoria: un conjunto de variables aleatorias que sonIndependientes e Idénticamente Distribuidas (IID). En este capítulo nos con-centramos en el concepto de dependencia, allanando el camino para modelosestadísticos más elaborados en los siguientes capítulos.También extendemosel puente entre conceptos teóricos y datos reales introducidos en el capítulo5, mediante la introducción de algunas técnicas grá�cas adicionales.

5.1.1 La historia hasta ahora

En el capítulo 2 comenzamos nuestra búsqueda de un marco de referenciamatemático en el contexto del cual podemos modelar fenómenos estocásticos:fenómenos exhibiendo regularidad aleatoria. Vimos la teoría de la probabil-idad como el tringlado matemático apropiado que nos permite modelar lainformación sistemática de tales fenómenos. En un intento por motivar estemarco de referencia matemático, introdujimos la teoría de la probabilidadcomo una formalización (matematización) de unmecanismo aleatorio simple,llamado experimento aleatorio �, de�nido por las siguientes tres condiciones:

213

Page 214: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

214 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

[a] todos los posibles resultados distintos se conocen a priori,[b] en cualquier prueba particular, los resultados no se conoce a priori,

pero existe una regularidad perceptible de ocurrencia relacionada con estosresultados,[c] se puede repetir en condiciones idénticas.La idea detrás de esta formalización es doble. En primer lugar, poner

de mani�esto el hecho de que la teoría de probabilidades, al igual que otrasramas de la matemática, no es sólo una hábil sucesión de teoremas y lemas!Es una rama de la matemática, que surgió de la necesidad de modelar cier-tos fenómenos de interés. Además, ella cambia continuamente, ampliandoy extendiendo su ámbito de aplicación a �n de proporcionar un marco dereferencia para modelar fenómenos estocásticos.En segundo lugar, resaltamos la conexión entre los patrones de regular-

idad aleatoria y los correspondientes conceptos matemáticos abstractos; elprimero motivando la formalización del último. El mecanismo aleatorio rep-resentado por un experimento aleatorio fue elegido por ser muy sencillo (lospatrones de regularidad aleatoria sean manejables), pero no tan sencillo (paraparafrasear un enunciado de Einstein), con el �n de motivar los principalesconceptos que subyacen a un modele estadístico.La formalización matemática inicial de �, dada en el capítulo 2, se produjo

en la forma de un espacio estadístico simple�(S;=;P (:))n ;GIIDn

�, que

tiene dos componentes:(i) Espacio de probabilidad: (S;=;P (:))n = (S;=;P (:))�(S;=;P (:)) � � ��

(S;=;P (:))(i) Espacio muestral: GIIDn = fA1;A2; :::;Ang.Estos dos pilares constituyen la base matemática sobre la cual uno puede

construir la teoría de la probabilidad como una rama de la matemática. Desdeel punto de vista de la modelación, sin embargo, este marco matemático esmás abstracto de lo necesario porque los datos son a menudo numéricos y,por lo tanto, en los capítulos 3 y 4, nos propusimos metamorfoserlo en unaformulación equivalente, sobre la recta real. Es importante señalar que, in-cluso después de la metamorfosis, esta formulación abstracta sigue siendode interés, porque constituye la base matemática de la teoría de la proba-bilidad. Cada vez que introducimos un nuevo concepto en el contexto dela formulación transformada tenemos que volver a la formulación abstractapara comprobar si tiene sentido o no. Como se muestra a continuación, enla extensión del modelo estadístico simple mantenemos la noción de un espa-cio de probabilidad (S;=;P (:)), pero de�nimos en él las variables aleatorias,

Page 215: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.1. INTRODUCCIÓN 215

que pueden ser dependientes y heterogéneas (véase el capítulo 8 para el másdetalles).

La metamorfosis del abstracto espacio estadístico�(S;=;P (:))n ;GIIDn

�tomó la forma de un modelo estadístico (general) simple.

[i] Modelo de probabilidad: � = ff(x;�); � 2 �; x 2 Rg,

[ii] Modelo muestral: XIID(n) := (X1; X2; :::; Xn) es una muestra aleatoria.

En el capítulo anterior ha sido construido un puente entre los conceptosprobabilísticos de:

(i) Distribución (una distribución acumulada o una función de densidad),

(ii) Independencia y

(iii) variables aleatorias Idénticamente Distribuida,

y los correspondientes patrones de regularidad aleatoria exhibidos en unaserie de pantallas grá�cas de los datos observados. En la extensión del modeloestadístico simple también necesitamos extender este puente con el �n deintroducir nuevas técnicas grá�cas relevantes para los patrones de regularidadaleatoria dependencia y heterogeneidad.

5.1.2 Extendiendo un modelo estadístico simple

El alcance previsto del modelo estadístico simple es limitado por el con-cepto de una muestra aleatoria; este sólo se puede utilizar para modelar losfenómenos estocásticos que exhiben independencia y homogeneidad completasobre t. Desafortunadamente, este es raramente el caso en los datos economi-cos. Los datos económicos a menudo muestran características de muestra noaleatoria: dependencia y / o heterogeneidad. Una serie de tiempo económicatípica se muestra en la �gura 6.1, donde los datos mensuales del índice deProducción Industrial (1985 = 100) de los EE.UU, para el período de enero1960 hasta mayo 1994, se gra�can a través del tiempo.

Page 216: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

216 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

Figura 6.1 Índice de producción industrial.

Usando la experiencia adquirida en el capítulo anterior, podemos ver queesta grá�ca de tiempo exhibe una dependencia positiva en forma de cicloseconómicos y una heterogeneidad distinta, en forma de una tendencia ascen-dente y un posible patrón de estacionalidad.El objetivo principal de los próximos capítulos es extender el modelo

estadístico simple con el �n de modelar los fenómenos observables, tales comoel comportamiento de los rendimientos de las acciones, los tipos de cambio,la in�ación y el crecimiento del PIB, lo cuales no pueden ser vistos comorealizaciones de una muestra aleatoria. El objetivo principal de este capítuloes dar el primer paso hacia la extensión del modelo estadístico simple a �nde mejorar su alcance. Este paso toma la forma de introducción de algunasnociones de dependencia.

5.1.3 Introduciendo una taxonomía fundamental

Uno de los temas básicos que están en la base de la discusión en este libro esuna clasi�cación fundamental de los supuestos probabilísticos en tres grandescategorías:

(D) Distribución, (M) Dependencia, (H) Heterogeneidad.

Esta taxonomía se utiliza ampliamente en los capítulos que siguen, tantopedagógicamente como por razones de fondo. Constituye uno de los temasuni�cadores de la aproximación a la inferencia estadística y a la modelizaciónquecorre a través de este libro. La taxonomía no se supone que debe proporcionar

Page 217: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.2. MUESTRA NO ALEATORIA: UNA VISIÓN PRELIMINAR 217

una partición del conjunto de supuestos probabilísticos; sólo un grupo am-plio. Algunas hipótesis se extienden sobre la frontera entre estas categoríaspero que no reduce la utilidad de la taxonomía.En esta etapa es importante destacar que, en términos de la taxonomía

anterior, un modelo estadístico simple puede ser visto como la imposición desupuestos extremos en dos de las tres categorías. De la categoría (M) (paramemoria) se impone la Independencia y de la categoría (H) homogeneidadcompleta:(D): Distribución: distribución arbitraria,(M) Dependencia: variables aleatorias Independientes,(H) Heterogeneidad: variables aleatorias Idénticamente Distribuidas.De la misma manera podemos ver los modelos estadísticos concebidos

con mayor alcance como construidos sobre los supuestos de las tres distintascategorías anteriores que no sean las de Independencia de la categoría (M) yDistribuciones Idénticas de la categoría (H). Esto sugiere que un prerequisitode esta ampliación del ámbito de aplicación previsto es la disponibilidad delas distintas nociones de dependencia y heterogeneidad más allá de los doscasos extremos restringidos.El concepto de modelo estadístico, en general, es de suma importancia en

la inferencia estadística. El propósito principal de un modelo estadístico esproporcionar un resumen adecuado de la información sistemática en los datosmediante la captura de toda la información estadística sistemática referida alos patrones de regularidad aleatoria exhibidos por los datos.

5.2 Muestra no aleatoria: una visión prelim-inar

¿Qué hace que una muestra aleatoria sea un concepto de fundamental impor-tancia? La respuesta corta es que las hipótesis de Independencia y Distribu-ción Idéntica simpli�can tanto la modelizacióncomo la inferencia estadísticareferentes a modelos estadísticos simples. Esta simpli�cación es encapsuladapor la forma de la reducción de la distribución conjunta de la muestra. Paraver esto, recordamos al lector que:

Independencia: f (x1; x2; :::; xn;�) =nQk=1

fk (xk;�k) ; para todo x 2 Rn;

Distribución idéntica: fk (xk;�k) = f (xk;�) ;para todo k = 1; 2; :::; n:

Page 218: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

218 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

El resultado �nal de estos supuestos es que la distribución conjunta sesimpli�ca enormemente por su reducción a un producto de distribucionesmarginales univariadas (idénticas) :

f (x1; x2; :::; xn;�)I=

nYk=1

fk (xk;�k)ID=

nYk=1

f (xk;�) ; para todo x 2 Rn.

(6.1)Observando este resultado podemos ver que el supuesto de muestra aleato-

ria simpli�ca drásticamente la distribución conjunta (distribución de la mues-tra) en dos aspectos importantes:(i) reducción de la dimensionalidad: f (x1; x2; :::; xn;�) es n-dimensional

y f (xk;�) es uni-dimensional y(ii) reducción de parámetros: el número de parámetros desconocidos � es

a menudo mucho más pequeños que el de �.EjemploConsidere el caso donde la distribución conjunta de las variables aleatorias

(X1; X2; :::; Xn) es normal, es decir, f (x1; x2; :::; xn;�) toma la forma:

0BBBBB@X1

X2

X3...Xn

1CCCCCA � N

0BBBBB@

2666664�1�2�3...�n

3777775 �2666664�11 �12 �13 : : : �1n�21 �22 �23 : : : �2n�31 �32 �33 : : : �3n...

...�n1 �n2 �n3 : : : �nn

3777775

1CCCCCA : (6.2)

En su forma actual, esta distribución conjunta tiene por lo menos N =n+ 1

2[n (n+ 1)] parámetros desconocidos:

� := (�i; �ij; i; j = 1; 2; ::::; n) ;

con medias: (E (Xi) := �i; i = 1; 2; :::; n) y12[n (n+ 1)] covarianzas (de-

bido a la simetría)

Cov (Xi; Xj) = Cov (Xj; Xi) := �ij; i; j = 1; 2; ::::; n.

Si imponemos el supuesto de independencia de la distribución conjuntael resultado será que las covarianzas son cero:

�ij =

��ii; para i = j;0; para i 6= j

Page 219: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.2. MUESTRA NO ALEATORIA: UNA VISIÓN PRELIMINAR 219

la distribución conjunta original se reduce a:0BBBBB@X1

X2

X3...Xn

1CCCCCA � N

0BBBBB@

2666664�1�2�3...�n

3777775 �2666664�11 0 0 : : : 00 �22 0 : : : 00 0 �33 : : : 0...

. . ....

0 0 0 : : : �nn

3777775

1CCCCCA :

En términos de la reducción (6.1), la primera igualdad es el resultadode la imposición de Independencia, con las densidades marginales de unavariable fk (xk;�k), �k := (�k; �kk), k = 1; 2; :::; n; estando:

Xk � N (�k; �kk) ; k = 1; 2; :::; n: (6.4)

Esta reducción, aunque drástica, no produce un modelo operativo, porquehaytodavía 2n parámetros desconocidos:

�k := (�k; �kk) ; k = 1; 2; :::; n;

que aumentan con el tamaño de muestra! La imposición del supuesto dedistribución idéntica en la segunda fase en (6.1) garantiza que:

�1 = �2 = � � � = �n = � :=��; �2

�y por lo tanto la densidad conjunta se reduce a un producto de densidades

marginales univariadas f (xk;�) ; � := (�; �2) ; de la forma:

Xk � N��; �2

�; k = 1; 2; :::; n:

NOTE la reducción correspondiente en los parámetros desconocidos en(6.1):

� := ((�i; �ij; i; j = 1; 2; ::::; n) �k := (�k; �kk) ; k = 1; 2; :::; n) � :=��; �2

�.

La reducción anterior produce el modelo normal simple:[i] Modelo de probabilidad:

� =

(f (x;�) =

1

�p2�exp

(�(x� �)2

2�2

);� :=

��; �2

�2 R� R+; x 2 R.

)

Page 220: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

220 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

[ii] Modelo muestral: X := (X1; X2; :::; Xn) es una muestra aleatoria.Este ejemplo ilustra con mucha claridad la drástica reducción tanto en

la dimensión como en el número de parámetros desconocidos lograda porel supuesto de muestra aleatoria. De la misma manera, el ejemplo anteriortambién se puede utilizar para indicar el tipo de di�cultades que surgirán enel caso de una muestra no aleatoria, donde uno o ambos de los supuestos nose cumplen.En cuanto a (6.2) nos damos cuenta de que las bendiciones anteriores en

el caso de una muestra aleatoria son maldiciones en el caso de una mues-tra no aleatoria. Si no se imponen restricciones sobre la dependencia y laheterogeneidad surgen dos problemas difíciles:(a) la maldición de dimensionalidad: f (x1; x2; :::; xn;�) es n�dimensional,(b) la maldición de los parámetros imprevistos: el número de parámetros

desconocidos en �, por ejemplo N , crece con el tamaño muestral n:

5.2.1 Condicionalidad secuencial

Vamos a considerar en primer lugar la maldición de la dimensionalidad. Paralos efectos de la modelizacióne inferencia estadística la alta dimensionalidadde la distribución conjunta es un problema difícil. La clave para disipar lamaldición de la dimensionalidad se presentó en el capítulo anterior en la formade una distribución condicional. Se mostró que en el caso de dos variablesaleatorias arbitrarias X; Y (de�nidas en el mismo espacio de probabilidad)se cumple la siguiente relación:

f (x; y;�) = f (yjx;'2) fx (x;'1) , para todo (x; y) 2 RX � RY . (6.5)

NOTAS:(i) La reducción es simétrica con respecto a X y Y en el sentido de que:

f (x; y;�) = f (xjy; 2) fy (y; 1) , para todo (x; y) 2 RX � RY (6.6)

(ii) f (yjx;'2) y f (xjy; 2), son ambas distribuciones de una variable.(iii) La reducción de la dimensionalidad no va acompañada de una reduc-

ción correspondiente del número de parámetros desconocidos §. Con el �n deevitar la introducción de una notación engorrosa considerar un ejemplo delcaso simple de dos variables.

Page 221: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.2. MUESTRA NO ALEATORIA: UNA VISIÓN PRELIMINAR 221

EjemploConsidere el caso donde las variables aleatorias (X; Y ) están normalmente

distribuidas, es decir, f (x; y;�) toma la forma:�YX

�~N

���1�2

�;

��11 �12�21 �22

��La reducción en (6.6) toma la forma (ver capítulo 4):

X~N (�2; �22) ; (Y jX = x) ~N��0 + �1x; �

2�, x 2 RX ,

donde �0 := �1 � �1�2, �1 :=�12�22, �2 = �11 � �212

�22. Estos resultados

muestran que:

� := (�1; �2; �11; �12; �22) ; '1 := (�2; �22) , '2 :=��0; �1; �

2�.

y por lo tanto el número de parámetros desconocidos sigue siendo elmismo! Esto es cierto en el caso n dimensional pero la notación se com-plica un poco.Comparando (6.5) al caso en que X; Y son independientes:

f (x; y;�) = fx (x; �1) fy (y; �2) , para todo (x; y) 2 RX � RY (6.8)

podemos ver que en el caso no independiente la distribución condicionalf (yjx;�) es la clave para una reducción de una distribución de dos variables,a un producto de dos distribuciones univariadas.EjemploVolviendo al caso anterior, donde las variables aleatorias (X1; X2) tienen

una distribución normal, se puede observar que:

�12 = 0) �1 = 0 ; �0 = �1 y �2 = �11.

Es decir, bajo la restricción �12 = 0, f (yjx;'2) toma la forma:

(Y jX = x) j�12=0~N (�1; �11) , x 2 R

lo que implica que f (yjx;'2) j�12=0 = fy (y; �2). Resulta que la restricción�12 = 0 es a la vez necesaria y su�ciente para que la condicional se reduzca

Page 222: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

222 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

a la distribución marginal y por lo tanto bajo esta restricción la distribuciónconjunta de (X; Y ) satisface la condición de independencia en (6.8).La reducción en (6.5) se puede extender fácilmente al caso de n vari-

ables con condicionalidad secuencial. Consideremos el caso de tres variablesaleatorias (X1; X2; X3):

f (x1; x2; x3;�) = f (x3jx2; x1; 3) f (x2; x1;#1)= f (x3jx2; x1; 3) f (x2; x1; 2) f (x1; 1) , (x1; x2; x3) 2 R3X

donde primero condicionamos X3 sobre (X1; X2) y luego condicionamosX2 sobre X1. En el caso general de n variables, la condicionalidad secuencialproduce:

f (x1; x2; x3; :::; xn;�)no IID= f1 (x1; 1)

nYk=2

fk (xkjxk�1; :::; x1; k) , x 2 RnX .

(6.9)Esto disipa la maldición de la dimensionalidad debido a que el lado dere-

cho es un producto de densidades de una variable pero surgen dos problemasdistintos:(c) El conjunto de condicionalidad creciente: el número de variables

condicionantes cambia con el índice en el sentido de que fk (xkjxk�1; :::; x1; k)tiene k� 1 variables condicionantes pero el índice cambia K = 2; 3; :::; n, ha-ciendo estas densidades diferentes, por ejemplo para n = 5:

f (x2jx1; 2),f (x3jx2; x1; 3),f (x4jx3; x2; x1; 4),f (x5jx4; x3; x2; x1; 5).d) El problema de condicionalidad estocástica: el lado derecho de (6.9)

es el producto de n distribuciones univariadas (n � 1 condicionales y unamarginal) para todo valor de x 2 RnX , es decir, una n tupla tal para cadavalor de x 2 RnX . En la reducción en (6.5) existe una distribución conjuntaf (x; y;�) y una densidad marginal fx (x;'1), pero varias densidades condi-cionales f (yjx;'2); una para cada valor de x 2 RX , ya que la noción dedensidad condicional se de�ne por un valor especí�co de la variable condicio-nante.Estos problemas son sintomáticos de la dependencia entre las variables

aleatorias en la sucesión porque las variables aleatorias implicadas nunca

Page 223: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.2. MUESTRA NO ALEATORIA: UNA VISIÓN PRELIMINAR 223

olvidan. El hecho de importancia es que la manera de hacer frente a am-bos problemas es imponer algunas restricciones sobre la dependencia y laheterogeneidad del conjunto de variables aleatorias (X1; X2; :::; Xn) (véase elcapítulo 8). Con el �n de convencer al lector de que necesitamos las restric-ciones de ambas categorías, volvamos al ejemplo Normal con independenciaimpuesta. La reducción en (6.10) se simpli�ca a:

f (x1; x2; :::; xn;�)I=

nYk=1

fk (xk;�k) ; para todo x 2 RnX (6.10)

pero el problema de sobre parametrización permanece: �k := (�k; �kk) ; k =1; 2; :::; n. Esto es sintomático de la heterogeneidad de la sucesión.Atando los distintos hilos de nuestro razonamiento anterior, concluimos

que la maldición de la dimensionalidad surgida de la noción de muestra noaleatoria puede ser teóricamente eliminada usando condicionalidad secuen-cial, pero esto plantea otros dos problemas (el conjunto de condicionalidadcreciente y la condicionalidad estocástica). También permanece intacto elproblema de los parámetros incidentales.

5.2.2 Manteniendo un ojo en el bosque!

Nuestro objetivo en este y en los próximos dos capítulos es ajardinar el ter-ritorio más allá de variables aleatorias Independientes e Idénticamente Dis-tribuidas (IID) mediante la introducción de formas alternativas de dependen-cia y heterogeneidad que nos permitan capturar los patrones de regularidadaleatoria exhibidos por los datos de series de tiempo, como los de la �gura6.1.La discusión preliminar en conexión con las di�cultades que surgen en el

caso de muestras no aleatorias trajo el papel de varios conceptos útiles que sere�eren a las distribuciones conjunta y condicional. Dos cosas se han hechoevidentes a partir de la discusión anterior:(i) la clave para domesticar sucesiones no IID es la noción de condicional-

idad y(ii) la medición de la dependencia tiene que ver con la relación entre

las distribuciones conjuntas y marginales o de forma equivalente entre lasdistribuciones condicionales y marginales.El objetivo principal de este capítulo es introducir algunas nociones de de-

pendencia en conexión con los pares de variables aleatorias, como preludio a

Page 224: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

224 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

la discusión del caso general de una sucesión de variables aleatorias en el capí-tulo 8. Se presta especial atención a las variables aleatorias cualitativamentediferentes. El capítulo 7 se concentra en el problema de condicionalidadestocástica y se discute la forma en que la distribución condicional y sus mo-mentos se pueden ampliar para hacer frente a este problema. Los conceptosdesarrollados en estos dos capítulos son luego utilizados en el capítulo 8 paraproporcionar una discusión sistemática de sucesiones de variables aleatoriasen lo que respecta a la dependencia y la heterogeneidad. En otras palabras,todos estos temas serán unidos en el capítulo 8 para mostrar cómo el territo-rio recién trazado de la jungla no IID puede ayudar a modelar los patronesde regularidad aleatoria asociados con la dependencia y / o heterogeneidad.

5.2.3 Modelos estadísticos más allá del simple: un puntode vista preliminar

La discusión preliminar sienta las bases para extender el modelo estadísticosimple a modelos más generales que permitan alguna cierta dependencia y / oheterogeneidad. Decimos cierta dependencia y / o heterogeneidad, porque losmodelos estadísticos con dependencia sin restricciones y / o heterogeneidadson inalcanzables en el caso de datos no experimentales (observacionales).En un intento por ser más concretos, volvamos al ejemplo del caso en que

la distribución conjunta de (X1; X2; :::; Xn) es normal, es decir, f (x1; x2; :::; xn;�)toma la forma (6.2) donde � := (�i; �ij; i; j = 1; 2; :::; n) incluye N = n +12n (n+ 1) parámetros desconocidos. En el caso de los datos observacionalestenemos justamente una sola realización de la muestra (X1; X2; :::; Xn) esdecir, n números (x1; x2; :::; xn) y no hay manera de que podamos estimar losN parámetros desconocidos (véase el capítulo 11).En el caso de datos experimentales estamos a menudo en condiciones de

generar más de una realización de la muestra, por ejemplo (x1i; x2i; :::; xni),i = 1; 2; :::;M . Estas realizaciones adicionales, bajo ciertas restricciones,serán su�cientes para estimar todos los N parámetros desconocidos. Estosmétodos, sin embargo, están fuera del alcance de este libro que se centra enla modelizacióny la inferencia con datos observacionales.Volviendo a los modelos estadísticos para datos observacionales, NOTE-

MOS, como preludio a la discusión que sigue, que cada uno de estos modelosoperacionales se componen de tres componentes compatibles básicos de lascategorías generales mencionadas en el caso delmodelo estadístico simple:

Page 225: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.3. DEPENDENCIA ENTREDOSVARIABLES ALEATORIAS: DISTRIBUCIÓNCONJUNTA225

( D) Distribución: univariada arbitraria,(M) Dependencia: Independencia, Markov, martingala, no correlación, ...(H) Heterogeneidad:. Distribución idéntica, estacionariedad débil y es-

tricta, ...Nuestra tarea principal en este y los próximos dos capítulos es enriquecer

las categorías de Dependencia y Heterogeneidad con una variedad de concep-tos entre los dos extremos de Independencia y Distribución Idéntica en unextremo y dependencia sin restricciones y heterogeneidad en el otro extremodel espectro. En la modelizaciónel objetivo es combinar los componentesde las tres categorías de manera coherente con el �n de especi�car modelosestadísticos operativos para datos observados. El secreto de la modelización-radica en la utilización de toda la información sistemática en los datos. Quées sistemática, no obstante, depende de la e�cacia con la que usemos losconceptos teóricos para capturar los patrones de regularidad que llamamosregularidad aleatoria.

5.3 Dependencia entre dos variables aleato-rias: distribución conjunta

Intuitivamente, la dependencia probabilística entre dos variables aleatoriasX y Y se re�ere a "cómo la información acerca de X nos ayuda a inferirel valor de Y ." Si X y Y son perfectamente dependientes, conociendo Xnos permite inferir Y , con probabilidad uno. En este sentido, la dependenciaperfecta proporciona una contraparte probabilística a la noción matemáticade dependencia funcional, donde Y = h (X) para alguna función:

h (:) : RX ! RY .

Además, la independencia ofrece una contrapartida probabilística a laidea de dependencia no funcional entre dos variables matemáticas. La prin-cipal diferencia es que la dependencia probabilística, a diferencia de la de-pendencia funcional, tiene sentido para los casos entre estos dos extremos.La proposición "las variables aleatorias X y Y son altamente (pero no per-fectamente) dependientes" es una proposición probabilística signi�cativa. Lamedición del grado de dependencia probabilística, sin embargo, es un prob-lema difícil y multifacético.

Page 226: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

226 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

En el capítulo 2 de�nimos la independencia entre dos eventos A;B, en= (S;=;P (:) siendo el espacio de probabilidad correspondiente) de la sigu-iente manera:

P (A \B) = P (A) �P (B) o P (A j B) = P (A) ; para P (B) > 0:

Podríamos fácilmente extender esto a la independencia entre cualesquierados subespacios de eventos (� campos) A y B de =:

P (A \B) = P (A) �P (B) ; (para todos los eventos A 2 A y B 2 B)

o

P (A j B) = P (A) ; (para todos los eventos A 2 A y B 2 B) ; P (B) > 0:

Esta de�nición se puede adaptar fácilmente al caso de dos variables aleato-rias X y Y de�nidas en (S;=;P (:)) Eligiendo A := � (X) y B := � (Y ) ;donde � (X) denota el mínimo ��campo generado por X; véase el capítulo3.En el caso donde los dos subespacios de eventos A y B no son independi-

entes (es decir, son dependientes), esto ya no es cierto y la diferencia entrelas dos partes:

kP (A \B)� P (A) �P (B)k ; o kP (A j B)� P (A)kdonde kk denota cierta medida signi�cativa de distancia, se puede utilizar

como medida de dependencia.IlustracionesSean A � = y B � =, las siguientes son medidas de dependencia entre

ellos:(1) � (A;B) = sup

A2A,B2BjP (A \B)� P (A) �P (B)j ;

(2) � (A;B) = supA2A,B2B

jP (A j B)� P (A)j ; para P (B) > 0;

(3) (A;B) = supA2A,B2B

���P(A\B)�P(A)�P(B)P(A)�P(B)

���, para P (B) > 0;P (A) > 0Eligiendo A := � (X) y B := � (Y ) ; las cantidades anteriores miden la

dependencia entre las variables aleatorias X; Y .

Page 227: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.3. DEPENDENCIA ENTREDOSVARIABLES ALEATORIAS: DISTRIBUCIÓNCONJUNTA227

EjemploConsideremos de nuevo nuestro experimento aleatorio favorito de lan-

zar una moneda al aire dos veces y tomar nota de los resultados con S =f(HH); (HT ); (TH); (TT )g, el espacio de eventos siendo el conjunto potenciade S, es decir, = := P (S). De�nir las variables aleatorias

X (HH) = X (TT ) = 0; X (HT ) = X (TH) = 1;

Y (HH) = Y (HT ) = 0; Y (TT ) = X (TH) = 1;

Z (HH) = 0; X (HT ) = Z (TH) = 1; Z (TT ) = 2:

� (X) : =�S; ;; A;A

; A := f(HH) ; (TT )g ;

� (Y ) : =�S; ;; B;B

; B := f(HH) ; (HT )g ;

� (Z) : =�S; ;; C1; C2; C3; C1; C2; C3

; C1 := f(HH)g ;

C2 : = f(HT ) ; (TH)g ; C3 := f(TT )g :

A partir de estos resultados podemos deducir que las variables aleatoriasX y Y son independientes:

P (A \B) = 1

4= P (A) �P (B) para todo A 2 � (X) y B 2 � (Y:)

Por otro lado, las variables aleatoriasX y Z no son independientes porquepara al menos uno de los eventos de intersección:

P (A \ C1) =1

46= P (A) �P (C1) =

1

8:

Teniendo en cuenta el hecho de que las variables aleatorias X y Z sondependientes podemos proceder a medir su dependencia con cualquiera delas medidas (1) - (3).Como X, Z son dependientes, se mide su dependencia usando cualquiera

de las medidas (1)-(3) anteriores:

Page 228: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

228 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

1

4= P (A \ C1) = P f(HH)g ; P (A) �P (C1) =

�1

2

�1

4=1

8;

0 = P (A \ C2) = ;; P (A) �P (C2) =�1

2

�1

2=1

4;

1

4= P (A \ C3) = P f(TT )g ; P (A) �P (C3) =

�1

2

�1

4=1

8;

1

4= P

�A \ C1

�= P f(TT )g ; P (A) �P

�C1�=

�1

2

�3

4=3

8;

1

2= P

�A \ C2

�= P f(HH)g ; P (A) �P

�C2�=

�1

2

�1

2=1

4;

1

4= P

�A \ C3

�= P f(HH)g ; P (A) �P

�C3�=

�1

2

�3

4=3

8;

� (� (X) ; � (Z)) = supA2�(X),B2�(Z)

jP (A \B)� P (A) �P (B)j = 1

4:

Las otras medidas de dependencia, tales como � (A;B) y (A;B) (A, B)son evaluadas de manera similar.En el capítulo 4 de�nimos la independencia entre dos variables aleatorias

X y Y usando la función de densidad conjunta de la siguiente manera:

f (x; y) = fX (x) �fY (y) ; para todo (x; y) 2 RX � RY : ((6.11))

Esta igualdad sugiere que en el caso en que las variables aleatorias X; Y sonindependientes, la distribución conjunta contiene la misma información quelas dos distribuciones marginalesEjemploConsidere la distribución conjunta de las variables aleatorias X y Y an-

teriores:

y n x 0 1 fY (y)0 0:25 0:25 0:501 0:25 0:25 0:50

fX(x) 0:50 0:50 1

((6.12))

Se puede veri�car fácilmente que estas dos variables aleatorias son real-mente independientes.

Page 229: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.3. DEPENDENCIA ENTREDOSVARIABLES ALEATORIAS: DISTRIBUCIÓNCONJUNTA229

En términos de la función de densidad condicional hemos de�nido la in-dependencia entre dos variables aleatorias X y Y a través de:

f (y j x) = fY (y) ; para todo (x; y) 2 RX � RY : ((6.13))

Debido a la simetría del concepto de independencia, ésta puede de�nirsede forma equivalente por:

f (x j y) = fX (x) ; para toda (x; y) 2 RX � RY :

En el caso donde las variables aleatorias X y Y no son independientes,son dependientes, (6.11) ya no es cierta; la distribución conjunta contienemás información que las dos distribuciones marginales. La información adi-cional es de hecho la información relativa a la dependencia entre las variablesaleatorias X y Y . En este sentido las funciones de la forma:

kf (x; y)� fX (x) �fY (y)k ; o kf (y j x)� fY (y)k (6.14)

se pueden utilizar como medidas de dependencia basada en funciones dedensidad.Ejemplos1. � de Hoe¤ding:

�(X; Y ) =

�Z 1

�1

Z 1

�1[f (x; y)� fX (x) �fY (y)]2 f (x; y) dxdy

�:

2. Valor absoluto análogo a �:

�1 (X; Y ) = 12

�Z 1

�1

Z 1

�1jf (x; y)� fX (x) �fY (y)j2 f (x; y) dxdy

�;

�2 (X; Y ) = 12

�Z 1

�1

Z 1

�1jf (x; y)� fX (x) �fY (y)j2 fX (x) fY (y) dxdy

�:

3. Distancia informacional:

K (X; Y ) =Z 1

�1

Z 1

�1In

�f (x; y)

fX (x) � fY (y)

�f (x; y) dxdy;

donde In denota el logarítmo natural (base e); esta medida se basa en lamedida Kullback de divergencia entre dos distribuciones.

Page 230: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

230 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

4. Coe�ciente cuadrático de contingencia:

'2 (X; Y ) =

�Z 1

�1

Z 1

�1

�f (x; y)

fX (x) �fY (y)

�f (x; y) dxdy � 1

�:

5. Coe�ciente rango de Spearman:

S (X; Y ) = 3

Z 1

�1

Z 1

�1[2FX (x)� 1] [2FY (y)� 1] f (x; y) dxdy;

donde [2FX (x)� 1] es elegido en lugar de FX (x) para representar la úl-tima distribución simétrica alrededor de cero. De hecho, se puede demostrarque para u = FX (x), sea cual sea la naturaleza de FX (x), la distribución deu es uniforme con el rango [0; 1], es decir, FU (u) = u, para 0 � u � 1 (vercapítulo 3). Por lo tanto, la distribución de U = [2FX (x)� 1] es uniformealrededor de 0, es decir,

[2FX (x)� 1] � U [�1; 1] :La presencia de las integrales múltiples en las medidas anteriores de de-

pendencia basadas en funciones de densidad, las hace engorrosas y muy cercade irrealizables en el caso de más de dos variables aleatorias. Como argu-mentamos en la sección anterior necesitamos medidas de dependencia de unasucesión de variables aleatorias (X1; X2; :::; Xn). Por otra parte la mezclade medidas de condición (1) - (3), basadas en espacios de subeventos, sonmás fáciles de manejar, ya que implican la maximización sobre conjuntos desubconjuntos. Como se muestra en el capítulo 8, la última medida de depen-dencia forma la base de las llamadas condiciones mixtas sobre dependenciatemporal en una sucesión de variables aleatorias.

5.4 Dependencia entre dos variables aleato-rias: momentos

5.4.1 Momentos conjuntos y dependencia

Medir dependencia usando distancias, como aquellas mencionadas anterior-mente, puede ser una tarea muy difícil y por lo tanto en la modelizacióna

Page 231: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.4. DEPENDENCIA ENTREDOSVARIABLES ALEATORIAS: MOMENTOS231

menudo recurrimos a medidas basadas en los momentos. La conexión entreestas dos categorías de medidas de dependencia pasa a través del siguientelema.Lema de independencia. Se dice que dos variables aleatorias X; Y son

independientes, si para cualesquiera funciones bien comportadas (Borel)u = g (X) y v = h (Y ),

f (g (X) ; h (Y )) = fu (g (X)) �fv (h (y)) ; para todo (u; v) 2 R2: (6.15)

En términos simples, este resultado signi�ca que si X y Y son indepen-dientes, entonces cualesquiera funciones de estas variables aleatorias, porejemplo u = X2 y v = InY , también son variables aleatorias independientes.Claramente, este lema no puede ser usado para establecer la indepen-

dencia, porque uno necesita demostrar que (6.15) se cumple para todas lasposibles funciones de Borel; una tarea imposible. Es, sin embargo, muy útilpor dos razones. En primer lugar, se puede utilizar para demostrar la noindependencia encontrando un solo contraejemplo. En segundo lugar, es deinterés teórico, porque después de establecer la independencia utilizando, porejemplo (6.11), se puede declarar que cualesquiera funciones de Borel de lasvariables aleatorias originales son también necesariamente independientes.UNA PALABRA DE PRECAUCIÓN: hay que destacar que en el caso

de que X y Y no sean independientes (6.15) puede ser cierta para algunasfunciones g(X) y h(Y ), como demuestra el siguiente ejemplo.EjemploConsidere la distribución conjunta que se especi�ca a continuación:

y n x �1 0 1�1 0 0:25 00 0:25 0:25 01 0 0 0:25

,

v n u 0 1 fv (v)�1 0:25 0:25 0:500 0:25 0:25 0:50

fx (x) 0:50 0:50 1

(6.16)

X y Y no son independientes porque:

f (�1;�1) = 0 6= fx (�1) fy (�1) = 0:062.

Sin embargo, las variables aleatorias u = X2 y v = Y 2 resultan inde-pendiente, como puede comprobarse a partir de (6.16) (b). La moraleja de

Page 232: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

232 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

esta historia es que incluso en los casos en que las variables aleatorias X yY no son independientes, es posible que existan algunas funciones de las queresultan ser independientes.Teniendo en cuenta el hecho de que la experanza E (:) está siempre

de�nida con respecto a una distribución especí�ca, no debería ser una sor-presa saber que la condición (6.15) puede escribirse de forma equivalente enla siguiente forma:

E (g (X) ; h (Y )) = E (g (X)) � E (h (y)) ; (6.17)

suponiendo que las esperanzas existen. Es importante NOTAR que E (:)en el lado izquierdo se de�ne en términos de f(x; y), pero los otros dos sede�nen en términos de fx y fy:

E (h (X) �g (Y )) =

Z 1

�1

Z 1

�1[h (X) � g (Y )] �f (x; y) dxdy;

E (h (X)) =

Z 1

�1[h (X)] �fX (x) dx;

E (g (Y )) =

Z 1

�1[g (Y )] �fY (y) dy:

Utilizando este resultado en conjunción con funciones simples de X y Y ,lo cual da lugar a los momentos de la distribución conjunta, podemos de�nirdiferentes formas de independencia (y dependencia) en términos del productoconjunto y momentos centrales.En el caso donde todos los momentos de las variables aleatorias X y Y

existen (E�Xk�< 1 y E

�Y k�< 1;para todo k = 1; 2; :::), podemos usar

el lema anterior de independencia en conjunción con los momentos productoconjuntos para deducir que X y Y son independientes si y sólo si:

(a) �0km := E�XkY m

= E

�Xk��E (Y m) ; para todo k;m = 0; 1; 2; :::.

(6.18)Este es, otra vez, un resultado no operacional para demostrar la inde-

pendencia, porque tenemos que veri�car estas igualdades para un númeroin�nito de momentos conjuntos. Sin embargo, su negación se puede utilizarpara trazar el territorio entre las dos posiciones extremas de independenciay dependencia completa, en el sentido de que si:

Page 233: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.4. DEPENDENCIA ENTREDOSVARIABLES ALEATORIAS: MOMENTOS233

E�Xk�Y m

�6= E

�Xk��E (Y m) ; para todo k;m = 1; 2; :::, (6.19)

las variables aleatorias X y Y son dependientes de orden (k;m). De-safortunadamente, el único caso especial de (6.19) explorado a fondo en laliteratura es el caso (1,1):

E (X�Y ) 6= E (X) �E (Y )

conocido como dependencia (lineal) de primer orden. En el casodonde la igualdad se cumple:

E (X�Y ) = E (X) �E (Y )

se llama la independencia de primer orden.La noción de independencia en términos de un número in�nito de mo-

mentos se puede de�nir de manera equivalente en términos de los momentoscentrales conjuntos:

(b) �km := En[X � (EX)]k [Y � E (Y )]m

o= 0; para todo k;m = 0; 1; 2; :::

(6.20)Del mismo modo, podemos de�nir la noción de dependencia (k;m) usando

su negación:

En[X � (EX)]k [Y � E (Y )]m

o6= 0; para todo k;m = 0; 1; 2; :::

La equivalencia de las dos de�niciones en términos de los momentos pro-ducto conjunto y centrales se puede demostrar fácilmente en el caso k = 1,m = 1. El concepto de independencia de primer orden es equivalente a decirque el primer momento central, la covarianza es cero:

�11 := E f[X � (EX)] [Y � E (Y )]g = 0:La equivalencia de las dos de�niciones se deduce del hecho de que:

Cov(X; Y ) = E(XY )� E [X�E(Y )]� E [Y �E(X)] + E [E(X)�E(Y )] == E(XY )� 2 [E(X)�E(Y )] + [E(X)�E(Y )] = E(XY )� [E(X)�E(Y )] :

Cov(X; Y ) = 0, E(XY )� E(X)�E(Y ) = 0:

Page 234: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

234 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

Es interesante NOTAR que existe una relación directa entre la covarianzay las distancias de dependencia utilizadas en la de�nición de independenciaen la sección anterior:

Cov(X; Y ) =

Z 1

�1

Z 1

�1[FXY (x; y)� FX(x)FY (y)] f (x; y) dxdy:

Correlación y dependenciaUna debilidad importante de la covarianza, cuando se utiliza como una

medida de dependencia entre X y Y , es que depende de sus unidades de me-dida. La versión estandarizada de la covarianza, conocida como coe�ciente decorrelación, se propuso por primera vez por Galton (1880) como co-relación.Coe�ciente de correlación. Para cualesquiera dos variables aleatorias

X y Y tales que V ar (X) <1, V ar (Y ) <1, de�nidas en el mismo espaciode probabilidad (S;=;P (:)), el coe�ciente de correlación se de�ne por:

Corr(X; Y ) =Cov (X; Y )pV ar(X)V ar(Y )

:

EjemploVamos a obtener el coe�ciente de correlación entre X y Y , usando densi-

dad conjunta 4.19 (see el capítulo 4):

E (X) = 1:1; E (Y ) = 0:8; V ar (X) = 0:69; V ar (Y ) = 0:96; Cov (X; Y ) = 0:12.

Por lo tanto, el coe�ciente de correlación es:

Corr(X;Y ) =0:12p

(0:69) (0:96)= 0:147.

Propiedades del coe�ciente de correlación�1: �1 � Corr(X; Y ) � 1:�2: Corr(aX + b; cY + d) = Corr(X; Y ); para a; b; c; d 2 R4; (a; c) > 0:�3: Corr(X; Y )� 1; si y solo si Y = a0 + a1X; (a0; a1) 2 R2:La primera propiedad en relación con el rango de valores para el coe�-

ciente de correlación se sigue de la llamada desigualdad de Schwarz :

jCov(X; Y )j � [V ar(X)]12 [V ar(Y )]

12 .

La segunda propiedad se sigue de la de�nición del coe�ciente de cor-relación que lo invariante a transformaciones lineales. La tercera propiedad

Page 235: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.4. DEPENDENCIA ENTREDOSVARIABLES ALEATORIAS: MOMENTOS235

es más complicada, pero la prueba de este resultado puede arrojar algo deluz sobre la relación entre dependencia en general y correlación en particular.Correlación perfecta. Dos variables aleatorias X; Y están perfecta-

mente correlacionadas, es decir, Corr(X; Y ) = �1, si y sólo si ellas estánlinealmente relacionadas.Prueba (la prueba puede omitirse sin pérdida de continuidad). La parte

si se sigue directamente asumiendo que las variables aleatorias X y Y estánlinealmente relacionadas:

Y = a0 + a1X, a1 > 0 (6.21)

Por simple álgebra y las propiedades de E (:) (ver capítulo 3), se deduceque:

Cov(X; Y ) = E f[a0 + a1X � E (a0 + a1X [X � E (X)])]g= a1E f[X � E (X)] [X � E (X)]g = a1V ar (X) .

Teniendo en cuenta el hecho de que V ar(Y ) = a21V ar (x), la sustituciónen la fórmula del coe�ciente de correlación proporciona:

Corr(X; Y ) =a1V ar (X)p

a21V ar (x)V ar(Y )= 1:

NOTE que en el caso a < 0, Corr(X; Y ) = �1. La parte solo si deeste resultado es un poco más complicada. Suponga que Corr(X; Y ) = 1 (elcaso Corr(X; Y ) = �1 puede ser tratado, de manera similar) y de�nir lasvariables estandarizadas:

X� =X � E (X)pV ar (X)

, Y � =Y � E (Y )pV ar (Y )

.

De esto podemos deducir que:

Ef(X� � Y �)2g = V ar (X�) + V ar (Y �)� 2E (X�Y �) = 2� 2 = 0.

Esto implica que P (s : X� (s) 6= Y � (s)) = 0, para todo s 2 S (veásecapítulo 3) que puede ser equivalentemente escrito en la forma:

P (s : X� (s) = Y � (s)) = 1; s 2 S o X� = Y �; con probabilidad uno.

Page 236: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

236 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

Sustituyendo las variables originales y reordenando los términos resulta:

Y = E (Y ) +

�V ar (Y )

V ar (X)

� 12

(X � E (X)) , con probabilidad uno.

lo que coincide con (6.21) para: a0 = E (Y )� a1E (X), a1 =�V ar(Y )V ar(X)

� 12.

El resultado anterior sugiere que la correlación es una medida de de-pendencia lineal. Este hecho se pone de mani�esto con mayor énfasis en elsiguiente ejemplo.EjemploSea X uniformemente distribuida entre menos uno y más uno, que se

denota por

X � U (�1; 1) y Y := X2:

Como podemos ver, X; Y son perfectamente dependientes una de otra(pero no linealmente); el conocimiento de una determina la otra completa-mente. Podemos mostrar, sin embargo, que las dos no están correlacionadas.En vista del hecho de que:

fX(x) =1

2; E(X) = 0;

Cov(X; Y ) = E(XY )� E(X)E(Y ) = E(X3)� E(X) � E(X2):

Por tanto, X; Y no están correlacionadas si E(X3) = 0. En efecto:

E(X3) =

Z 1

�1x3�1

2

�dx =

1

2

��1

4

�x4�1�1=1

2

��1

4

���1

4

��= 0:

En esta etapa, es imprescindible diferenciar no correlación de indepen-dencia. Sabemos de la discusión anterior que el coe�ciente de correlaciónde�ne una medida de dependencia lineal, no dependencia en general. Porlo tanto, la conclusión general que podemos sacar sobre la relación entre nocorrelación e independencia es que:

independencia ) no correlación

Page 237: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.5. MOMENTOS CONDICIONALES Y DEPENDENCIA 237

pero lo inverso no es cierto:

no correlación; independencia

Para concluir esta sección NOTEMOS un concepto estrechamente rela-cionado con no correlación, la noción de ortogonalidad. Se dice que dosvariables aleatorias X y Y , cuyos segundos momentos son �nitos, son ortog-onales si:

E (X�Y ) = 0NOTE que si dos variables aleatorias no están correlacionadas, sus desvia-

ciones medias

X� := [X � E (X)] , Y � := [Y � E (Y )]

son ortogonales

E (X�Y �) = 0.

5.5 Momentos condicionales y dependencia

Volviendo a la de�nición de independencia de dos variables aleatorias X; Yen términos de la densidad condicional:

f(yjx) = fY (y) , para todo (x; y) 2 RX � RY (6.22)

NOTEMOS que la condición de los momentos condicionales análoga a(6.18) es:

E (Y rjX = x) = E (Y r) , para todo x 2 RX , r = 1; 2; ::: (6.23)

Es interesante ver cómo estas igualdades surgen en el caso de indepen-dencia.Paso 1. De la de�nición de independencia, sabemos que para cua-

lesquiera funciones bien comportadas h (:) y g (:) de las variables aleatoriasX y Y :

E (h (X)g (Y )) = E (h (X))E (g (Y )) , para todo (x; y) 2 RX �RY (6.24)

Page 238: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

238 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

Paso 2. Eligiendo las funciones:h (X) de forma arbitraria, pero gr (Y ) := Y r, r = 1; 2; :::, (6.24) se reduce

a (suponiendo que los momentos existen):

E (h (X)Y r) = E (h (X))E (Y r) ; para todo r = 1; 2; ::: (6.25)

Paso 3. En general:

E (h (X)Y r) = [E (h (X)Y r) j� (X)] = E ((h (X))E (Y r) j� (X)) (6.26)

donde la primera igualdad se sigue de la propiedadCE2: E(Y ) = E [E (Y j� (X))]y la segunda de la propiedad CE3 de la esperanza condicional (véase el capí-tulo 7); recordamos al lector que � (X) denota el conjunto de todos los eventosgenerados por la variable aleatoria X (ver capítulo 3).Paso 4. Comparando (6.25) con (6.26) deducimos que las dos variables

aleatorias X y Y son independientes cuando (6.23) se cumple. Al igual queen el caso de momentos conjuntos y marginales (6.18), (6.23) no proporcionauna forma de veri�car la independencia porque implica un número in�nitode momentos. Sin embargo, como con (6.19), su negación se puede utilizarpara trazar el territorio más allá de independencia. A diferencia de (6.19) losmomentos condicionales ofrecen una clasi�cación más sistemática de depen-dencia en el sentido que podemos hablar de primero, segundo, tercero, etc.órdenes de dependencia. Esta medida de dependencia se de�ne en términosde la función distancia:

d�r (X; Y ) := [E (Yrj� (X))� E (Y r)] (6.27)

o equivalentemente (véase el capítulo 7):

dy (Y jx) := [E (Y rjX = x)� E (Y r)] , para todo x 2 RX . (6.28)

Dependencia de r-ésimo orden. Cualesquiera dos variables aleatoriasX; Y , cuyos momentos de r-ésimo orden existen y dk (Y jx) = 0 para todor = 1; 2; :::r � 1 son:

dependientes de r-ésimo orden si: dr (Y jx) 6= 0, para todo x 2 RX , r = 1; 2; 3; :::

Page 239: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.5. MOMENTOS CONDICIONALES Y DEPENDENCIA 239

Por otro lado, las variables aleatorias X;Y son

independientes de r-ésimo orden si: dr (Y jx) = 0, para todo x 2 RX , r = 1; 2; 3; :::

Esta de�nición nos permite trazar el territorio de dependencia usando esteesquema jerárquico de primero, segundo, tercero etc. orden de dependencia.Por ejemplo, cualesquiera variables aleatoriasX y Y cuyo momento de primerorden existe:

d1 (Y jx) 6= 0, para todo x 2 RX ) X y Y son dependientes de primer orden.

El trazado anterior de la dependencia se puede hacer de forma equivalenteen términos de los momentos centrales de la función distancia:

��r (X; Y ) := [E ([Y � E (Y j� (X))]r j� (X))� E [Y � E (Y )]r] (6.29)

o equivalententemente:

�r (Y jx) := [E ([Y � E (Y jX = x)]r jX = x)� E [Y � E (Y )]r] , para todo x 2 RX ,(6.30)

Por ejemplo la independencia de segundo orden se de�ne por:

�2 (Y jx) = 0, V ar (Y jX = x) = V ar (Y ) , para todo x 2 RX ,

En este sentido, dos variables aleatorias X y Y pueden ser independientesde primer orden independiente, pero dependientes de segundo orden, es decir,E(Y jX) = E(Y ), pero V ar(Y jX) 6= V ar(Y ); véase el capítulo 8.Es importante NOTAR que los momentos condicionales dan lugar a una

clasi�cación mucho más fácil de dependencia que las nociones de índice doblede�nidas en términos de los momentos conjuntos en (6.19). Sin embargo, laderivación anterior con base en (6.26) sugiere que las nociones de indepen-dencia de�nidas en términos de los momentos condicionales son un poco másfuertes. Para ver esto consideremos el caso de dependencia de primer ordendonde (6.26) toma la forma:

Page 240: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

240 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

E (h (X)Y ) = E [E (h (X)Y ) jX] = E (h (X))E (Y jX) . (6.31)

Esto sugiere que la independencia de primer orden, es más fuerte que lano correlación, porque en el caso de esta última la función h no puede serarbitraria, como en independencia de primer orden sino que tiene que serde la forma: h(X) = X. A su vez, la independencia de primer orden esmás débil que la independencia (completa), porque para que esta última secumpla necesitamos que todos los momentos condicionales coincidan con losmomentos marginales. En resumen:

independencia ) independencia de primer orden) no correlación.

5.5.1 Independencia condicional

Una forma importante de dependencia es la que llamamos independenciacondicional. En el contexto de un espacio de probabilidad (S;=;P (:)), doseventos A 2 = y B 2 = son condicionalmente independientes dado un tercerevento D 2 =, para el que P (D) > 0, si:

P (A \BjD) = P (A \D)P (B \D) .

Es decir, el conocimiento de que D ha ocurrido hace que los eventos A yB sean independientes.Las variables aleatorias X y Y se dice que son condicionalmente inde-

pendientes dada Z, si y sólo si:

f(x; yjz) = f(xjz)f(yjz), para todo x; y; z 2 (RX � RY � RZ) (6.32)

RZ := fz 2 R : fZ (z) > 0g es el conjunto soporte de fZ (z). Es decir, ladensidad conjunta de (X; Y; Z) se factoriza en dos densidades condicionales.Intuitivamente, X y Y son condicionalmente independientes dada Z, si X yY se relacionan únicamente con Z.EjemploConsidere el caso donde (X1; X2; X3) se distribuyen normalmente con

distribución conjunta denotada por:

Page 241: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.5. MOMENTOS CONDICIONALES Y DEPENDENCIA 241

0@ X1

X2

X3

1A ~N0@24 �1

�2�3

35 ;24 �11 �12 �13�21 �22 �23�31 �32 �33

351A (6.33)

E (Xk) = �k, V ar (Xk) = �kk, k = 1; 2; 3, Cov (Xi; Xj) = �ij, i 6= j,i; j = 1; 2; 3.NOTE que la fórmula general para la distribución normal conjunta de X

(un vector de n� 1) es:

f (x;�) =(det

P)�

12�p

2��n exp

��12(x� �)T

X�1(x� �)

�, (6.34)

E (X) = �, Cov (X) =X

.

Como mostramos anteriormente, la distribución normal sólo permite de-pendencia de primer orden y por lo tanto para cualquier i 6= j; i; j = 1; 2; 3:

�ij = 0, Xi y Xj son independientes.

Resulta ser que la independencia condicional también es fácil de de�nir eneste contexto en términos de la inversa de la matriz de varianzas-covarianzas:24 �11 �12 �13

�21 �22 �23�31 �32 �33

35�1 =24 !11 !12 !13!21 !22 !23!31 !32 !33

35 .para todo i 6= j 6= k; i; j; k = 1; 2; 3:

!ij = 0, XiyXj son condicionalmente independientes dada Xk:

Regresando al concepto de independencia condicional entre las variablesaleatorias X y Y dado Z NOTEMOS que ella se puede de�nir de maneraequivalente por:

(M): f (yjx; z) = f (yjz) , para todo x; y; z 2 (RX � RY � RZ) . (6.35)

Esta forma está directamente relacionada con el concepto ampliamenteutilizado de dependencia Markov. En el contexto de (6.35), Y y X son

Page 242: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

242 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

condicionalmente independientes dada Z, pero si interpretamos Y como el"futuro", X como el "pasado" y Z como el "presente" (M) dice que, dado elpresente el futuro es independiente del pasado; esto se conoce como depen-dencia Markov. Usando los puntos 0 < t1 < t2 < t3 la dependencia Markovse puede escribir en la forma:

(M) : f (xt3 jxt2; xt1) = f (xt3 jxt2) , para todo xt1; xt2; xt3 2 R3X .

Una tercera forma útil de de�nir la independencia condicional, que noimplica ninguna referencia a las distribuciones condicionales, es:

f (x; y; z) =1

fZ (z)(f (x; z) f (y; z)) , para todo x; y; z 2 (RX � RY � RZ) .

NOTA. La independencia condicional de X y Y dado Z se denota amenudo por:

[X ? Y ] (Z) .

Usando esta notación podemos formular algunos resultados útiles en relacióna la independencia condicional (ver Whittaker (1990):(i) ([Y ? (X1; X2)] j (Z))) ([Y ? X1] j (Z)),(ii) ([Y ? (X1; X2)] j (Z)), ([Y ? X1] j (Z;X2)) y ([Y ? X2] j (Z;X1)),(iii) ([Y ? X] j (Z)) y U = h (X)) ([Y ? U ] j (Z)),(iv) ([Y ? X] j (Z)) y U = h (X)) ([Y ? X] j (Z;U)),donde h(:) es una función de Borel. NOTE que estos resultados se

mantienen sin cambios en caso de que X, Y , Z sean vectores aleatorios.Un concepto relacionado con la independencia condicional, pero menos

general se de�ne en términos de la covarianza de las medias condicionales.Esto se conoce como covarianza parcial entre las variables aleatorias X yY dado Z y se de�ne por:

Cov (X; Y jZ) = E ([X � E (XjZ)] [Y � E (Y jZ)]) .

En analogía directa con la covarianza simple, la covarianza parcial mideindependencia condicional lineal. Ya que ella comparte con su hermana lamisma dependencia de las unidades de medida, se procede a estandarizarlapara de�nir la correlación parcial:

Page 243: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.5. MOMENTOS CONDICIONALES Y DEPENDENCIA 243

Corr (X; Y jZ) = E ([X � E (XjZ)] [Y � E (Y jZ)])pV ar (XjZ)V ar (Y jZ)

Este mide la dependencia lineal entre dos variables aleatorias X y Ydespués de eliminar el efecto de una tercera variable aleatoria Z. Esto seintrodujo por primera vez por Yule (1897), quien lo llamó coe�ciente decorrelación neto.NOTE que la correlación parcial se relaciona con las correlaciones simples

a través de:

�ij;k : = Corr (Xi; XjjXk) =�ij � �ik�jkq

(1� �2ik)�1� �2jk

� ;�ij : =

�ijp�ii�jj

; i 6= j 6= k; i; j; k = 1; 2; 3.

EjemploEn el caso donde (X1; X2; :::; Xn) se distribuyen normalmente, discutido

anteriormente, se puede demostrar que las covarianzas condicionales coinci-den con los elementos de la inversa de la matriz de varianzas-covarianzas, esdecir:

Cov (Xi; XjjXk) = !ij; i 6= j 6= k; i; j; k = 1; 2; 3.

En vista del hecho de que para i; j; k = 1; 2; 3; i 6= j 6= k :

�ij;k = 0, !ij = 0 deducimos que [Xi ? Yj] jXk , !ij = 0.

Motivados por la variedad de estructuras de dependencia entre varias vari-ables aleatorias que se pueden ser generadas usando diferentes restriccionesde independencia condicional, una literatura llamada análisis grá�co se hadesarrollado recientemente (ver Whittaker (1990), Edwards (1995) y Pearl(1988)). El término deriva del hecho de que estos modelos se representanen forma de grá�cos conectando las diferentes variables aleatorias involu-cradas. Para dar una muestra de análisis grá�co vamos a considerar el casode las variables aleatorias con distribución normal (X1; X2; X3; X4) con unadistribución conjunta:

Page 244: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

244 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

0BB@X1

X2

X3

X4

1CCA ~N0BB@2664�1�2�3�4

3775 ;2664�11 �12 �13 �14�21 �22 �23 �24�31 �32 �33 �34�41 �42 �43 �44

37751CCA (4.36)

donde, como antes, denotamos la inversa de la matriz de varianzas-covarianzas por:2664

�11 �12 �13 �14�21 �22 �23 �24�31 �32 �33 �34�41 �42 �43 �44

3775�1

=

2664!11 !12 !13 !14!21 !22 !23 !24!31 !32 !33 !34!41 !42 !43 !44

3775 :(i) Modelo 1: !ij 6= 0, para todo i; j = 1; 2; 3; dependencia completa.(ii) Modelo 2: !13 = 0, X1 condicionalmente independendiente de X3

dada X2, X4, !12 6= 0; !14 6= 0; !23 6= 0; !24 6= 0; !34 6= 0.(iii) Modelo 3: !13 = 0, !12 6= 0; !14 6= 0; !23 6= 0; !34 6= 0; !24 = 0, X2

condicionalmente independendiente de X4 dados X1, X3.(iv) Modelo 4: !13 = 0, !24 = 0; !12 6= 0; !23 6= 0; !34 6= 0; !14 = 0, X1

condicionalmente independendiente de X4 dados X2, X3.(v) Modelo 5: !13 = 0, !24 = 0; !12 6= 0; !14 6= 0; !23 6= 0; !34 = 0; X3

condicionalmente independendiente de X4 dados X1, X2.(vi) Modelo 6: !13 = 0, !24 = 0; !14 = 0; !34 = 0; !12 6= 0; !23 6= 0.

5.6 Dependencia y sistema de medida

5.6.1 Escalas de medida y dependencia

Una limitación importante del coe�ciente de correlación, como una medida dedependencia lineal, es que la linealidad tiene sentido sólo en los casos en quela variable aleatoria en cuestión toma valores en un sistema de medición talcomo el sistema de intervalo o el de razón. En el caso de variables aleatoriasdel tipo nominal u ordinal (véase el capítulo 1 y Spanos (1986), p. 409), lalinealidad no tiene mucho sentido. En el capítulo 1 hablamos de la siguientejerarquía de escalas de medición:

(i) razón, (ii) intervalo, (iii) ordinal, (iv) nominal.

Page 245: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.6. DEPENDENCIA Y SISTEMA DE MEDIDA 245

Como se ha dicho allí, las variables de razón tienen la más rica estructuramatemática seguidas de las variables de intervalo, ordinal y nominal en eseorden. Los métodos estadísticos diseñados para una categoría de variables nose aplican necesariamente a las variables de otras categorías. La única reglageneral que podemos utilizar como una guía es que un método estadísticodiseñado para una categoría de variables se aplica también a las variables quepertenecen a una categoría superior, pero no necesariamente a una categoríainferior. Por ejemplo, un concepto estadístico diseñado para una variableordinal es signi�cativo para las variables de intervalo y de razón, pero nonecesariamente para las variables nominales. Para variables nominales, laúnica medida de la localización que tiene sentido es la moda y para lasvariables ordinales se puede agregar a la mediana. En cuanto a las medidasde dispersión el rango intercuartil sólo tiene sentido para variables ordinales.Todo lo que implica la media o la varianza no tiene mucho sentido para lasvariables nominales y ordinales.La medición de la dependencia entre las dos últimas categorías (nominal,

ordinal) de variables aleatorias es algo problemático, ya que no es obviolo que la dependencia signi�ca en su contexto. El problema es aún másserio cuando se mide la dependencia entre las variables de las diferentescategorías. Estos problemas fueron reconocidos a principios del siglo 20 y seconvirtió en un tema que llevó a enconadas discusiones entre K. Pearson yYule. Yule (1900, 1910, 1912) estuvo a favor de diseñar medidas especí�casde asociación entre variables discretas utilizando su carácter discreto. K.Pearson (1910, 1913a, b), por otra parte, favoreció el uso de distribucionescontinuas para la aproximación de la distribución bivariada discreta para lasvariables categóricas y usarlas para medir asociación; véase también Heron(1911). Los argumentos de ambos lados se apasionaron y los que piensan quela teoría de la probabilidad y la inferencia estadística son temas matemáticossin emociones deben leer el siguiente vilipendio de K. Pearson a su ex alumno,ayudante y compañero de trabajo:Lamentamos tener que llamar la atención sobre la forma en la que el

Sr. Yule se ha perdido en cada etapa de su tratamiento de la asociación,pero la crítica de sus métodos ha sido lanzada sobre nosotros no sólo por elreciente ataque del Señor Yule, sino también por los elogios irre�exivos quehan sido otorgados a un libro de texto (de Yule), que en muchos puntos sólopuede conducir a los estudiantes de estadística irremediablemente por el malcamino. (Pearsony Heron (1913), p. 310).

Page 246: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

246 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

Karl Pearson no era ajeno a la controversia y después sufrió mucho amanos de R. A. Fisher; ver los capítulos 7, 11 y 13.

Figura 6.2 Modelos grá�cos (variables aleatorias continuas).

5.6.2 Dependencia para las variables categóricas

Para variables aleatorias categóricass (ordinales y nominales) el conceptode linealidad (y por lo tanto de momentos) no tiene mucho sentido y por lotanto medir la dependencia lineal con la correlación es inadecuado. La nociónde monotonicidad, sin embargo, en el sentido de que una variable tiende aaumentar cuando la otra aumenta (concordancia) o tiende a disminuir cuandola otra disminuye (discordancia), tiene sentido para variables ordinales. Lade�nición de dependencia entre variables nominales no es fácil porque nilinealidad ni monotonía tienen sentido.Una de las medidas más utilizadas de asociación (dependencia) entre vari-

ables ordinales (ya veces nominales) es la razón producto cruzado.Razón producto cruzadoLa razón producto cruzado entre dos eventos A y B se de�ne como:

rpc (A;B) =P(A \B)�P(A \B)P(A \B)�P(A \B)

:

Page 247: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.6. DEPENDENCIA Y SISTEMA DE MEDIDA 247

En el caso donde los eventos A y B son independientes: rpc = 1 oIn(rpc) = 0.

y=x x1 x2 fY (y)y1 �11 �12 �1�y2 �21 �22 �2�

fX (x) ��1 ��2 1

La fórmula anterior se puede adaptar al caso de una distribución de dosvariables f(x; y) donde la variables aleatorias X y Y son variables ordinalescon sólo dos valores (x1; x2 y y1; y2, repectivamente) de la forma dada ante-riormente. En este caso, la razón producto cruzado se de�ne como la razónde los productos �22�11 y �12�21 de probabilidades de celdas opuestas diag-onalmente (de ahí el nombre), es decir,

rpc(X; Y ) =�22�11�12�21

:

Utilizando esta medida, decimos que X y Y son independientes si y sólosi:

In(rpc(X; Y )) = 0:

Q de Yule Q (coe�ciente de asociación)Una cercanamente relacionada medida de dependencia es la Q de Yule

(en honor del estadista belga Quetelet) de�nida por (ver Yule (1900)):

Q =�11�22 � �12�21�11�22 + �12�21

:

Ejemplos(i) Considere el caso donde �11 = 0:3; �12 = 0:1; �21 = 0:2 y �22 =

0:4. rpc(X; Y ) = (0:4)(0:3)(0:1)(0:2)

= 6, y teniendo en cuenta el hecho de queIn(rpc(X; Y )) = 1:792, podemos deducir que X y Y no son independientes.Esto es con�rmado por la Q de Yule:

Q =(0:3) (0:4)� (0:1) (0:2)(0:3) (0:4) + (0:1) (0:2)

= 0:07.

(ii) Considere el caso donde �11 = 0:2; �12 = 0:3; �21 = 0:2 y �22 = 0:3.En vista de la hecho de que:

Page 248: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

248 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

rpc(X; Y ) =(0:3) (0:2)

(0:3) (0:2)= 1 y In(rpc(X;Y )) = 0

podemos concluir que la razón productos cruzado con�rma la indepen-dencia mostrada en términos de la función de densidad conjunta (véase elcapítulo 4). Esto se ve con�rmado por la Q de Yule:

Q =(0:3) (0:2)� (0:3) (0:2)(0:3) (0:2) + (0:3) (0:2)

= 0.

Coe�ciente GammaLa Q de Yule se puede extender a variables ordinales que tengan más de

dos valores notando queY

c= �11�22 puede ser pensado como una medida

de concordancia yY

d= �12�21 como una medida de discordancia. Dos

variables aleatorias X e Y se dice que son concordantes si la unidad demayor jerarquía con respecto a X también jerarquiza más alto con respectoa Y , y discordantes si la unidad de mayor jerarquía en X jerarquiza inferioren Y . En el caso donde X toma m valores y Y toma n valores, podemosutilizar las siguientes medidas:

Concordancia :Y

c= 2

Xm

i=1

Xn

j=1�ij

�Xh>i

Xk>j

�hk

�;

Discordancia :Y

d= 2

Xm

i=1

Xn

j=1�ij

�Xh>i

Xk<j

�hk

�:

Usando estas medidas podemos decir que la asociación (dependencia)entre X y Y es positiva si (

Qc�Q

d) > 0 y negativa si (Q

c�Q

d) < 0. Unaversión a escala de la distancia (

Qc�Q

d) es el llamado coe�ciente Gamma,introducido por Goodman y Kruskal (1954)), y se de�ne por:

=(Q

c�Q

d)

(Q

c+Q

d); donde � 1 � � 1:

Al igual que el coe�ciente de correlación, si j j = 1 las dos variablesaleatorias están perfectamente asociadas Además, al igual que el coe�cientede correlación, si = 0 las dos variables aleatorias no son necesariamenteindependientes. Independencia, sin embargo, implica que = 0.Ejemplo

Page 249: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.6. DEPENDENCIA Y SISTEMA DE MEDIDA 249

Considere la función de densidad conjunta representada en (6.37), dondeX denota el grupo de edad y Y el grupo de ingresos:

X = 1 : (18� 35) ; X = 2 : (36� 55) ; X = 3 : (36� 70) ;Y = 0 : pobre, Y = 1 : ingreso medio, Y = 2; rico.

ynx 1 2 3 fY (y)0 0:20 0:10 0:15 0:451 0:10 0:25 0:05 0:402 0:01 0:06 0:08 0:15

fX(x) 0:31 0:41 0:28 1

(6.37)

Considere la evaluación del coe�ciente de concordancia:

i = 0; j = 1 : �01

�Xh>0

Xk>1

�hk

�= 0:20 (0:25 + 0:05 + 0:06 + 0:08) = 0:088;

i = 0; j = 2 : �02

�Xh>0

Xk>2

�hk

�= 0:10 (0:05 + 0:08) = 0:013;

i = 1; j = 1 : �11

�Xh>1

Xk>1

�hk

�= 0:10 (0:06 + 0:08) = 0:014;

i = 1; j = 2 : �12

�Xh>1

Xk>2

�hk

�= 0:25 (0:08) = 0:020:Y

c= 2 (0:088 + 0:013 + 0:014 + 0:020) = 0:270:

El coe�ciente de discordancia:

i = 0; j = 2 : �02

�Xh>0

Xk<2

�hk

�= 010 (0:10 + 0:01) = 0:011;

i = 0; j = 3 : �03

�Xh>0

Xk<3

�hk

�= 0:15 (0:10 + 0:25 + 0:01 + 0:06) = 0:063;

i = 1; j = 2 : �12

�Xh>1

Xk<2

�hk

�= 0:25 (0:01) = 0:0025;

i = 1; j = 3 : �13

�Xh>1

Xk<3

�hk

�= 0:05 (0:01 + 0:06) = 0:0035:Y

d= 2 (0:011 + 0:063 + 0:0025 + 0:0035) = 0:160:

Por lo tanto,

=(Q

c�Q

d)

(Q

c+Q

d)=0:270� 0:1600:270 + 0:160

= 0:2558;

es decir, existe una baja dependencia positiva entre ingresos y edad.

Page 250: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

250 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

5.6.3 Dependencia entre variables nominales

Como se mencionó anteriormente la de�nición de dependencia entre las vari-ables nominales no es fácil porque ni linealidad ni monotonicidad tienes sen-tido. La única noción de dependencia que podemos adoptar en este contextoes en términos de:

¿cómo el conocimiento de la clasi�cación de la variable aleatoria X nospuede ayudar a conjeturar la clasi�cación de la variable aleatoria Y ?

La incertidumbre de conjeturar la clasi�cación de Y sin la ayuda deX se mide por la varianza de Y : V ar(Y ). Esta incertidumbre cambia aV ar(Y jX = x1) para un valor especí�co x1 de la variable condicional. Dadoque la variable aleatoria X toma más de un valor, tomamos el promedio deestos valores de varianza condicional, es decir, E(V ar(Y jX)), llevando a lamedida estandarizada:

V ar (Y )� E(V ar(Y jX))V ar (Y )

= 1� E(V ar(Y jX))V ar (Y )

.

Esta razón ha sido utilizada por Goodman y Kruskal (1954), en relacióncon la tabla de contingencia (densidad bivariado) dada a continuación:

ynx x1 x2 x3 � � � xn fy (y)y1 �11 �12 �13 � � � �1n �1:y2 �21 �22 �23 � � � �2n �2:y3 �31 �32 �33 � � � �3n �3:� � � � � � � � � � � � � � �ym �m1 �m2 �m3 � � � �mn �m:fx (x) �:1 �:2 �:3 � � � �:n 1

donde la varianza de Y toma la forma:

V ar (Y ) =

mXk=1

�k: (1� �k:) = 1�mXk=1

�2k:,

y la varianza condicional dado que X = xh es:

V ar (Y jX = xh) = 1�mXk=1

�2k:jh, �kjh =�hk�:h, h = 1; 2; :::; n.

Page 251: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.6. DEPENDENCIA Y SISTEMA DE MEDIDA 251

E (V ar (Y jX)) =nXh=1

�:h

1�

mXk=1

�2kjh!= 1�

nXh=1

mXk=1

�2hk�:h,

para sugerir la llamada tau de Goodman y Kruskal (o coe�ciente de con-centración):

� =

nXh=1

mXk=1

�2hk�:h�

mXk=1

�2k

1�mXk=1

�2k

.

Theil (1950), utiliza una medida alternativa de dispersión basada en laentropía:

V (Y ) =mXk=1

�k:In �k:

propuso el coe�ciente de incertidumbre:

U =

nXh=1

mXk=1

�khIn (�kh=�k: � �:h)

mXk=1

�k: In�k:

Ambos, coe�cientes de concentración e incertidumbre son medidas dedependencia que toman valores entre cero y uno; � = 0, U = 0 implica quelas variables aleatorias X; Y son independientes.A �n de formular medidas necesitamos la noción de condicionalidad in-

troducida en el capítulo siguiente, donde se discuten una serie de medidasadicionales de dependencia. El principal argumento del próximo capítulo esque la mejor manera de manejar la dependencia y las funciones de densi-dad conjunta es a través de la noción de condicionalidad y distribucionescondicionales.

Page 252: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

252 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

5.6.4 La distribución de Bernoulli

La distribución de Bernoulli se puede utilizar para modelar tanto variablesordinales como nominales y el modelador debe decidir cuándo usar las me-didas para evaluar la dependencia entre variables. La función de densidadBernoulli de dos variables toma la forma:

f (x; y) = p (0; 0)(1�y)(1�x) p (0; 1)(1�y)x p (1; 0)y(1�x) p (1; 1)xy , x = 0; 1, y = 0; 1.

con las distribuciones marginales y condicionales siendo otra vez Bernoulli:

fx (x) = [p (0; 0) + p (1; 0)](1�x) [p (0; 1) + p (1; 1)]x , x = 0; 1,

fy (y) = [p (0; 0) + p (0; 1)](1�y) [p (1; 0) + p (1; 1)]y , y = 0; 1,

De particular interés es la forma loglineal de la densidad de conjunta quees:

Inf (x; y) = In p (0; 0) + yInp (1; 0)

p (0; 0)+ xIn

p (0; 1)

p (0; 0)+ xyIn

p (1; 1) p (0; 0)

p (1; 0) p (0; 1)= u0 + yu1 + xu2 + xyu12, x = 0; 1, y = 0; 1,

en una notación obvia. Esto último es conocido como la expansión deloglineal y notemos que el término u12 es simplemente el logarítmo de larazón producto cruzado:

u12 := In (rpc (x; y)) = Inp (1; 1) p (0; 0)

p (1; 0) p (0; 1).

Cuando u12 = 0 decimos que las variables aleatorias Bernoulli X y Y sonindependientes.Los resultados anteriores se puede extender a la distribución Bernoulli de

tres variables, cuya función de densidad (en analogía directa con la de dosvariables) toma la forma:

f (x; y; z) = p (0; 0; 0)(1�y)(1�x)(1�z) � � � p (1; 1; 1)xyz , x = 0; 1, y = 0; 1, z = 0; 1.

Su forma loglineal es:

Page 253: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.6. DEPENDENCIA Y SISTEMA DE MEDIDA 253

Inf (x; y; z) = In p (0; 0) + yInp (1; 0)

p (0; 0)+ xIn

p (0; 1)

p (0; 0)+ xyIn

p (1; 1) p (0; 0)

p (1; 0) p (0; 1)= u0 + yu1 + xu2 + zu3 + yxu12 + yzu13 + xzu23 + xyzu123,

donde, como antes, los us representan términos de interacción:

u23 := In (rpc (X;ZjY = 0)) ; u123 := In(rpc (X;ZjY = 1))(rpc (X;ZjY = 0)) ;

rpc (X;ZjY = y1) =p (y1; 1; 1) p (y1; 0; 0)

p (y1; 1; 0) p (y1; 0; 1), para y1 = 0; 1.

Usando esta representación podemos de�nir independencia condicionalen términos de los términos u. Las variables aleatorias X y Z son condi-cionalmente independientes dado Y , denotado por ([X ? Z]jY ), si y sólosi:

u23 = 0 y u123 = 0,

o de manera equivalente:

rpc (X;ZjY = y1) = 1 para y = 0; 1.

Para concluir esta sección es importante señalar que los valores numéricosde los términos de interacción uij, i; j = 1; 2; 3 y u123 no son de interésintrínseco; el interés básico se encuentra en lo ellos implica en términos de laestructura de dependencia entre las variables aleatorias en cuestión. Usandolos modelos grá�cos introducido en la sección anterior podemos ver cómoellos identi�can esta estructura de dependencia.Modelo 1: u123 = 0; uij 6= 0 para i; j = 1; 2; 3.Modelo 2: u123 = 0; u13 = 0; u23 6= 0; u12 6= 0; ([X ? Z]jY ).Modelo 3: u123 = 0; u13 = 0; u23 = 0; u12 6= 0; ([X ? Z]jY ); ([Y ? Z]jY ).

Page 254: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

254 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

Figura 6.3 Modelos grá�cos (variables aleatorias discretas).

NOTE que los nodos en el caso de variables aleatorias discretas no sonya círculos, sino discos; para más discusión sobre modelos grá�cos véaseEdwards (1995) y Lauritzen (1996).

5.6.5 Dependencia en variables aleatorias mezcladas(discretas / continuas)

La discusión de la dependencia en este capítulo tiene un punto de enfoque:

la dependencia está inextricablemente ligada a la distribución conjunta delas variables aleatorias involucradas.

En los casos en que todas las variables aleatorias involucradas son disc-retas o continuas, no surgen problemas porque podemos usar distribucionesconjuntas discretas y continuas, respectivamente, para describir la dependen-cia. Los problemas surgen en el caso donde algunas de las variables aleatoriasson discretas y las otros son continuas y el modelador considera el problemade la dependencia entre estas variables aleatorias.Como se ha dicho en el capítulo 4, la función de densidad conjunta de

(X;Y; Z), donde (X;Y ) son variables aleatorias continuas y Z es una vari-able aleatoria discreta puede ser mejor de�nida indirectamente a través delproducto:

f (x; y; z) = f (x; yjz) fz (z) para todo x; y; z 2 (RX � RY � RZ)

Page 255: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 255

Del mismo modo, la función de distribución acumulada conjunta se de�nea través de:

F (x; y; z) =Xzk�z

fz (zk) =

xZ�1

yZ�1

f (x; yjzk) dudv.

Esto sugiere con mayor claridad que en el caso de una mezcla de vari-ables aleatorias continuas y discretas la estructura de dependencia entre ellasdebe ser mejor acomodada en el contexto de los momentos condicionales def(x; yjz). Motivados por esta observación Lauritzen y Wermuth (1989) in-trodujeron la llamada distribución condicional Gaussiana, que en el caso delas variables aleatorias (X; Y; Z), la densidad condicional f(x; yjz) toma laforma:

��XY

�jZ = z

�~N

���1 (z)�2 (z)

�;

��11 (z) �12 (z)�21 (z) �22 (z)

��; z 2 RZ : (6.38)

Es decir, los momentos de la distribución conjunta de (X; Y ) se suponeque son funciones de la variable condicionante; en el espíritu de las funcionesmomento condicionales. Las formas funcionales que deberían ser postuladaspor un modelador para:

�i (z) ; �ij (z) ; i; j = 1; 2,

no es una cuestión trivial, ya que se re�ere a la parametrización de ladependencia entre variables de distintas escalas de medición. Cualquiera quepiensa que esto es un juego de niños deben re�exionar un momento sobre elproblema de la parametrización de la dependencia (posible) entre los ingresosde la familia y la religión!

5.7 Distribuciones conjuntas y dependencia

Como se sugirió anteriormente, las distribuciones conjuntas constituyen laforma por excelencia de modelar la dependencia. En este sentido los avancesen la modelación de diferentes tipos de dependencia se basa fundamental-mente en el desarrollo de tales distribuciones conjuntas. Desafortunada-mente, el camino de la distribución marginal a las distribuciones conjuntas

Page 256: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

256 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

es traicionero. Hay un número in�nito de distribuciones conjuntas (multi-variadas) distribuciones con las mismas distribuciones marginales! En estesentido no hay manera sistemática (generalmente aplicable) para especi�cardistribuciones multivariadas. Algunos de los intentos más notables para es-peci�car la distribución bivariada y multivariada se resumen en esta sección.Los primeros intentos para generar distribuciones conjuntas no Normales

fueron hechos por Karl Pearson a �nales de 1890. Su éxito en la generaciónde una familia muy rica de distribuciones de una variable, que hoy llamamosla familia Pearson, utilizando una ecuación diferencial (véanse los capítulos4, 13), le animó a tratar de extender el método a dos ecuaciones diferenciales:

@Inf (x; y)

@x=

h3 (x; y)

h4 (x; y), donde h3 (x; y) , h4 (x; y) son polinomios de tercer y cuarto grado,

@Inf (x; y)

@x=

g3 (x; y)g4 (x; y)

, y g4 (x; y) = h4 (x; y) .

Resultó ser que, sin restricciones sobre los coe�cientes de los tres poli-nomios ningún progreso era posible. Progresos importantes a lo largo de estaslíneas fueron hechos por Pretorius (1930) y luego por Van Uven (1947,1948)quienes simpli�can tales ecuaciones a:

@Inf (x; y)

@x=

h1 (x; y)

h2 (x; y), donde h1 (x; y) , h1 (x; y) son polinomios de 1� y 2� grado,

@Inf (x; y)

@x=

g1 (x; y)g2 (x; y)

, sujeto a@2Inf (x; y)

@x@y=

@

@y

�h1 (x; y)

h2 (x; y)

�=

@

@y

g1 (x; y)g1 (x; y)

.

Los siguientes casos especiales resultaron ser de especial interés (ver Mar-dia (1970) para los detalles):(1) h2 (x; y) y g2 (x; y) no tienen factores comunes (como polinomios),(2) h2 (x; y) y g2 (x; y) tienen un factor común,(3) h2 (x; y) y g2 (x; y) son idénticos y(4) g2 (x; y) es un factor lineal de h2 (x; y).Caso 1. Nos proporciona las condiciones su�cientes para la independen-

cia entre X y Y ; sin factores comunes implica que:

f (x; y) = fx (x) fy (y) .

Page 257: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 257

Caso 2. Asumiendo que h2 (x; y) = h12 (x; y) l (x; y) y g2 (x; y) =g12 (x; y) l (x; y)donde todos los polinomios del lado derecho son de grado uno, se produceuna distribución conjunta de la forma general:

f (x; y) = c0 (�x+ �)�1 ( y + �)�2 (ax+ by + c)�3 .

Esta distribución conjunta incluye la Beta bivariada, Pareto y distribuciónF (véase el apéndice B) como casos especiales.Caso 3. Asumiendo que h2 (x; y) =g2 (x; y), da lugar a una distribución

conjunta de la forma:

f (x; y) = c0�ax2 + by2 + 2�1xy + 2�2x+ 2�3y + c

�m.

Esta distribución conjunta incluye la bivariada de Cauchy, la t de Stu-dent y la distribución de Pearson tipo II (véase el apéndice B) como casosespeciales.Caso 4. Asumiendo que h2 (x; y) = h12 (x; y) l (x; y) y g2 (x; y) = l (x; y),

da lugar a una distribución conjunta de la forma general:

f (x; y) = c0 (�x+ �)�1 e��2y (ax+ by + c)�3 .

Esta distribución conjunta incluye la distribución Gamma bivariada (McKay)(véase el apéndice B) como un caso especial.Varios otros métodos para generar distribuciones conjuntas, tales como

la expansión bivariada Edgeworth y el método de traducción, resultan sersólo de un valor marginal; ver Mardia (1970) para una excelente discusión.La manera menos efectiva de crear distribuciones conjuntas es tomar combi-naciones lineales de distribuciones marginales. El primero en proponer estemétodo fue Ste¤ensen (1922). Asumiendo que las dos variables aleatoriasindependientes (Z1; Z2) tienen densidades marginales f1 (z1) y f2 (z2), él con-sideró la distribución conjunta de las transformaciones lineales:

X = a1Z1 + b1Z2 + c1; Y = a2Z1 + b2Z2 + c2.

Considerando el hecho de que la transformación inversa es:

Z1 = X + aY; Z2 = Y + bX,

la densidad conjunta toma la forma general (ver capítulo 11):

f (x; y) = jab� 1j f1 (x+ ay) f2 (y + bx) .

Page 258: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

258 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

Esta es la forma más e�caz para generar distribuciones conjuntas porquepor construcción, la única forma de dependencia incorporada en la distribu-ción conjunta es la de dependencia lineal (correlación). Como se ha dichoanteriormente, sin embargo, la dependencia lineal que caracteriza la depen-dencia distribution relacionada con distribución únicamente en el caso de ladistribución normal.Varias extensiones de este resultado restringido se han sugerido en la lit-

eratura. Para �nes de referencia, resumimos los más importantes de estosresultados. Sea F (x; y), FX (x) y FX (x) las distribuciones conjunta y mar-ginales de las variables aleatorias X y Y . Las distribuciones marginales estándadas y el modelador las combina en una variedad de formas para construirla distribución conjunta.1. Frechet (1951):

F (x; y) = �max (0; FX (x) ; FY (y)� 1)+(1� �)min (FX (x) ; FY (y)) ; 0 � � � 1.

2. Morgenstern (1956):

F (x; y) = FX (x)FY (y) [1 + a (1� FX (x)) (1� FY (y))] ; a 2 [�1; 1] .

3. Gumbel (1960):

(�InF (x; y))m = (�InFX (x))m + (�InFY (y))m ;m � 1.4. Plackett (1965): F (x; y) es la solución de la ecuación:

F (x; y) (1� FX (x)� FY (y) + F (x; y)) = � (FX (x)� F (x; y)) (FY (y)� F (x; y)) ; � > 0.

5. Ali, Mikhail y Haq (1978):

F (x; y) =FX (x)FY (y)

[1� a (1� FX (x)) (1� FY (y))]; a 2 [�1; 1] .

Como podemos ver, la distribución de dos variables en todos estos casos seconstruye con un parámetro que conecta las distribuciones marginales. Estoes claramente de alcance limitado porque la dependencia es ahora capturadapor este único parámetro que es a menudo relacionado con el coe�ciente decorrelación.

Page 259: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 259

El método más e�caz para formular distribuciones conjuntas es por gen-eralización directa de densidades univariadas en los casos donde la formafuncional de la función de densidad permite la sustitución de una variablealeatoria con un vector aleatorio como es el caso de la familia de distribu-ciones simétricas elípticamente discutidas a continuación. Esto se debe aque todas las características de las distribuciones univariadas se extiendennaturalmente a la conjunta y la dependencia no se restringe arti�cialmente.La evaluación de la situación actual por el autor es que debemos centrar

nuestra atención en el desarrollo de nuevas familias paramétricas de distribu-ciones conjuntas con miras a ampliar los conceptos existentes de dependenciarelacionada con la distribución.

5.7.1 Dependencia y la distribución normal

El primer intento de desarrollar una distribución conjunta con objeto de cap-tar la dependencia observada en un conjunto particular de datos fue realizadopor Galton (1886) con la ayuda de su amigo matemático Dickson. Es instruc-tivo referirse a la manera en la que Galton tropezó con la distribución normalbivariada, porque constituye un ejemplo inicial importante de cómo los pa-trones en los datos observados pueden ser utilizados para la construcción deconceptos matemáticos en un intento de modelarlos. Al examinar los datosobservados de la altura medias de los padres (x) y sus descendientes (y),Galton trazó un diagrama de dispersión (los datos (x1; x2; :::; xn) se gra�cancontra (y1; y2; :::; yn); véase más adelante) y observó ( por su propia cuenta):

que las líneas trazadas a través de las entradas del mismo valor forman unaserie de elipses concéntricas y similares ... (Galton (1885), p. 255).

Es decir, el diagrama de dispersión de las dos series de datos mostraronuna clara forma elíptica, que en un examen más detallado reveló que alrecoger los puntos de datos con la misma frecuencia relativa ellos formaronformas elípticas concéntricas. Esta es una notable pieza de trabajo de de-tective que ejempli�ca la destreza de observación de Galton. Su primerareacción fue utilizar estas elipses concéntricas con el �n de construir la su-per�cie de dos variables (la curva de frecuencia conjunta) que está detrásde ellos. Sabiendo que sus habilidades matemáticas eran inadecuadas parala tarea él llamó a su amigo Dickson (un matemático de la Universidad deCambridge). El resultado, publicado como un apéndice en Galton (1886),fue la densidad normal de dos variables:

Page 260: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

260 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

f (x; y;�) =(1� �2)

� 12

2�p�11�22

(6.39)

� exp(�(1� �2)

�1

2

�y � �1p�11

�2� 2�

�y � �1p�11

��x� �2p�22

�+

�x� �2p�22

�2!)(5.1)

donde los parámetros desconocidos � := (�1; �2; �11; �22; �) están rela-cionados con los momentos a través de:

�1 : = E (Y ) , �2 := E (X)

�11 : = V ar (Y ) ; � := Corr (X; Y ) ; �22 := V ar (X) .

Utilizando esta distribución bivariada Galton llegó a desarrollar los con-ceptos de regresión (véase el capítulo siguiente) y de correlación. Comomostramos en el capítulo 4, las densidades marginal y condicional son tam-bién normales (pero univariadas por supuesto). Usando la notación para ladistribución normal bivariada, introducida en el capítulo 4:�

XY

�~N

���1�2

�;

��11 �12�21 �22

��.

donde el coe�ciente de correlación se puede expresar en forma � = �12p�11�22

,deducimos que:(a) Y � N (�1; �11) ; (Y j X = x) � N (�0 + �1x; �

21) ;

(b) X � N (�2; �22) ; (X j Y = y) � N (�0 + �1x; �22) ;

�0 := �1��1�2 ; �1 :=�12�22; �21 := �11 � �212

�22;

�0 := �2��1�1 ; �1 :=�12�11; �22 := �22 � �212

�11:

La normal multivariada es, con mucho, la distribución conjunta más uti-lizada en la modelizaciónempírica. Debido a su papel dominante en la in-ferencia estadística es importante examinar la estructura de dependencia deesta distribución con los conceptos desarrollados en las secciones anteriores.En lo que al orden de la dependencia se re�ere, argumentamos que la formamás directa de evaluarla es a través de los momentos condicionales. En elcaso de la distribución normal bivariada sabemos que:(a) E (Y j X = x) = �0 + �1x;

Page 261: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 261

(b) E [(Y � E (Y j X = x))r j X = x] =

(0; para r par,

r!�r1(0:5r)!20:5r

; para r impar

):

En particular, V ar (Y j X = x) = �21. En vista de las parametrizacionesinvolucradas podemos ver que en el caso donde � = 0 (�12 = 0), todos losmomentos condicionales coinciden con los momentos marginales:

(a) E (Y j X = x) j�=0 = �1;

(b)E [(Y � E (Y j X = x)r j X = x)] j�=0 =(

0; para r par,r!�0:5r1

(0:5r)!20:5r; para r impar

)Esto sugiere que cuando el coe�ciente de correlación es cero las dos vari-

ables aleatorias son independientes, es decir:

para X y Y conjuntamente normales, � = 0) X;Y son independientes.

(ver capítulo 4). Esto es claramente una excepción a la regla generalmencionada en el capítulo 4 que la no correlación no implica independencia.La intuición detrás de esta excepción es que la única forma de dependenciaque se puede describir utilizando la distribución normal es la dependencialineal. En otras palabras, dependencia en el contexto de la distribuciónnormal conjunta se encapsula en el parámetro coe�ciente de correlación � (oequivalente �12).

Desde el punto de vista de la modelizaciónes importante NOTAR larelación entre el coe�ciente de correlación y la forma de la densidad nor-mal conjunta. Con el �n de tener alguna idea de cómo cambia la forma conel valor de �, vamos a comparar la densidad conjunta en la �gura 6.4, donde� = 0 con la dada en la �gura 6.5, donde � = 0:8. La dependencia tomala forma de una densidad conjunta "aplastada". Este efecto puede ser vistofácilmente en los contornos de igual probabilidad insertados (un mapa bivari-ado de la densidad), que son circulares en el caso � = 0 y elipses en el casode � 6= 0. NOTE que los contornos de igual probabilidad son la contraparteteórica de la noción de Galton en términos de frecuencia relativa. De losgrá�cos anteriores, es evidente que cuanto más aplastada es la densidad (ylas elipses) mayor la correlación.

Page 262: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

262 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

Figura 6.4 Densidad normal con � = 0.

Figura 6.5 Densidad normal con � = 8.

La grá�ca de los contornos de igual probabilidad es de particular interésen relación con grá�cas de datos reales (ver sección 6) y vale la pena echar unvistazo más de cerca. Se llaman contornos de igual probabilidad (equiproba-bilidad) porque toda elipse de la siguiente forma:

�y � �1p�11

�2� 2�

�y � �1p�11

��x� �2p�22

�+

�x� �2p�22

�2!= ci, i = 1; 2; :::;

(6.40)representa un conjunto de puntos con la misma probabilidad. Intuiti-

vamente, pueden ser pensados como siendo creados rebenando la super�cietridimensional de la densidad, paralela al plano xy a la misma distancia,

Page 263: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 263

por ejemplo (0; 001), (0:02), (0:04); :::; (0; 18), y dibujado la forma exteriorelíptica de las rebanadas comenzando con la más baja fuera de (0:001) y ter-minando con la más alta (0.18) representando la última rebanada que incluyeel pico. En este sentido, el contorno de las grá�cas de igualdad tiene muchoen común con las líneas de contorno de los mapas ordinarios representandouna super�cie montañosa tridimensional en un mapa de dos dimensiones. Enambos casos el mapa surge proyectando las rebanadas de igual elevación deuna super�cie tridimensional sobre un diagrama bidimensional. Al igual quecon las líneas de contorno del mapa, cuanto más cerca de los contornos másnítida será la elevación.En las �guras 6.6 y 6.7 se pueden ver los contornos de igual probabilidad

de una densidad normal bivariada con correlación � = 0:5 y � = �0:5, re-spectivamente. Observando la grá�ca de los contornos de igual probabilidaddebemos ser capaces de visualizar la super�cie tridimensional. Si compara-mos la grá�ca de contorno en la �gura 6.6 con la de la �gura 6.7 podemosver que son diferentes en términos de su orientación, la pendiente del ejeprincipal de las elipses en la �gura 6.6 es positiva, mientras la de la �gura6.7 es negativa.

Figura 6.6 Contornos de la densidad normal con � = 0:5.Figura 6.7 Contornos de la densidad normal con � = �0:5.

5.7.2 Dependencia y la familia elípticamente simétrica

Desconocidos por Galton los mismos contornos de equiprobabilidad (6.40) sepueden utilizar para generar toda una familia de distribuciones simétricas,

Page 264: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

264 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

conocida como la familia elípticamente simétrica (seeKelker (1970)), que in-cluye la normal como un caso especial. La forma bivariada de estas distribu-ciones depende de (a) la forma cuadrática generando las elipses concéntricas

l (x; y) =

�y � �1p�11

�2� 2�

�y � �1p�11

��x� �2p�22

�+

�x� �2p�22

�2;

y (b) del determinante de

X:=

��11 �12�12 �22

�donde det (

P) = �11�22 � �212 = [(1� �2)�11�22] :

La forma genérica de esta familia en general se puede escribir como:

f (x; y;�) = c0�� det�X�

� h (l (x; y))

donde � (:) y h (:) son funciones positivas arbitrarias en el rango RX�RYy c0 una constante normalizada que asegura que f (x; y;�) es una densidadpropiamente, es decir, ZZ

RX�RY

f (x; y;�) dxdy = 1:

Esta familia se puede extender fácilmente al caso de m variables (m > 2)de�niendo l (:) como:

Page 265: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 265

l (x1; x2; :::; xn) := (x� �)TX�1

(x� �) ; yZ� � �Z

RX�RY ����Rm

f (x1; x2; :::; xm;�) dx1 � � � dxm = 1;

X:=

26664�11 �12 � � � �1m�21 �22 � � � �2m...

. . .�m1 �m2 � � � �mm

37775 ; (x� �) :=0BBB@

x1 � �1x2 � �2...

xm � �m

1CCCA :

Además de la normal, la familia elípticamente simétrica incluye la t deStudent, la Pearson del tipo II y una forma de la distribución logística (véaseFang et al. (1990)). Por ejemplo, la densidad bivariada de la t de Studenttoma la forma:

f (x; y;�) =(v�)�1 �1

2[(v + 2)]

��12v�p

det (P)

(1 +

(1� �2)�1

v[l (x; y)]�

12[v+2] ; (x; y) 2 R2

):

Los contornos de misma probabilidad de esta densidad de � = 0:5 y� = �0:5 se muestran en las �guras 6.8 y 6.9, respectivamente. Comparandolas �guras 6.6 y 6.8 podemos ver que los contornos de igual probabilidad dela t de Student están más cercanos entre sí que los de la Normal y el pico dela primera es mayor que la de esta última. Esto se con�rma por comparaciónde la �gura 6.7 con la 6.9.La diferencia entre las distribuciones t de Student y normal se vuelve

aún más evidente cuando comparamos la �gura 6.10 (normal con � = 0:2)con la �gura 6.11 (t de Student con � = 0:2 y v = 5). Como podemos verla diferencia principal entre ambas es que la distribución t de Student esleptocúrtica (kurtosis > 3). Podemos detectar la leptocurtosis observandolas medidas en el eje z (picos de la t de Student en 0:30 y de la normalen 0:18) y los contornos (los de la t de Student son mucho más cercanosunos de otros). Para una discusión extensa de la distribución t de Studentmultivariada ver Spanos (1994).La comparación entre las densidades t de Student y normal se hace más

evidente cuando estas dos distribuciones se comparan con otro miembro dela familia elíptica, la llamada distribución de Pearson tipo II cuya densidadtoma la forma:

Page 266: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

266 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

f (x; y;�) =

det (

P)�

12

2�

!�(v + 1)

(v + 2)

�(1� (1� �2)

�1

2 (v + 2)[l (x; y)]

)v

:

En contraste con la distribución t de Student la de Pearson es platicúrtica(ver capítulo 3). La densidad bivariada de Pearson tipo II, junto con suscontornos de equiprobabilidad, se muestran en la �gura 6.12.

Figura 6.8 Contornos de la densidad t de Student con � = 0:5.

Figura 6.9 Contornos de la densidad t de Student con � = �0:5.

Page 267: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 267

Figura 6.10 Densidad normal bivariada.

Figura 6.11 Densidad t de Studen bivariada.Figura 6.12 Densidad bivariada Pearson tipo II.

Page 268: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

268 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

La anterior comparación sugiere que en el caso de la familia elípticapodemos distinguir entre los distintos miembros sólo mediante un examencuidadoso de cómo están hacinados los contornos de equiprobabilidad. Entodos los casos, sin embargo, la correlación se puede evaluar por que tanaplastados son los contornos elípticos. Sin embargo, una palabra de precau-ción es: correlación cero no implica independencia para la familia elíptica,excepto en el caso de la distribución normal. Veamos esto con más detalle.La pregunta que surge naturalmente en esta etapa se re�ere a la estruc-

tura de dependencia de la familia elípticamente simétrica. El conjunto dela familia elíptica tiene la misma media condicional, la misma media condi-cional que encontramos anteriormente en relación a la distribución normal,pero los momentos condicionales superiores son en general funciones de lavariable condicionante, es decir,(a) E (Y jX = x) = �0 + �1x,

(b) E [(Y � E (Y jX = x))r jX = x]

�0 para r impar,qr (x) para r par.

�,

Por ejemplo, en el caso de la t de Student y Pearson tipo II las varianzascondicionales (véase el apéndice B) toman la forma:

t de Student: V ar (Y jX = x) = �21�

vv�1� �1 + 1

v(x��2)2�22

�,

Pearson tipo II: V ar (Y jX = x) = �21�

12v+3

� �1� (x��2)2

�22

�,

Este resultado sugiere que en el caso de que � = 0 todos los miembros dela familia elíptica se convierten en independientes de primer orden, pero laúnica distribución para la que esto es equivalente a independencia completaes la normal. Por ejemplo, en el caso de la distribución t de Student:

V ar (Y jX = x) j�=0 =�v�11v � 1

� 1 +

1

v

(x� �2)2

�22

!,

que es claramente diferente de la varianza marginal, V ar(Y ) =�v�11v�2�.

En este sentido, la distribución t de Student es dependiente de segundo ordenincluso después de imponer la restricción de correlación cero.

5.7.3 Dependencia y las distribuciones sesgadas

Es importante considerar algunas distribuciones conjuntas adicionales queno son simétricas en forma de campana como lo es la familia elíptica, con el�n de proporcionar al lector una visión equilibrada de las distribuciones de

Page 269: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 269

dos variables. Desafortunadamente, no hay forma sistemática de presentarlas distribuciones y el lector debe considerar esta sección como una colecciónde ejemplos cuyo objetivo básico es proporcionar al lector una imagen menosdistorsionada de la literatura de libros de texto dominada por la Normal.Densidad logística bivariadaLa densidad logística bivariada toma la forma:

f (x; y;�) =2 exp

n��y��1p�11

��x��2p�22

�op�11�22

h1 + exp

n��y��1p�11

�+ exp

�x��2p�22

�oi ;� 2 R2�R2+; (x; y) 2 R2;donde � := (�1; �2; �11; �22). En la �gura 6.13 podemos ver la forma es-

tandarizada de esta densidad bivariada con � := (0; 0; 1; 1). Como podemosver, esta densidad no es simétrica, con contornos que le recuerdan a unouna hacha paleolítica. Sin embargo, es importante señalar que las densi-dades marginales son simétricas (siendo logística). Desafortunadamente, laestructura de dependencia de esta distribución es bastante in�exible, porqueda lugar a un coe�ciente de correlación constante: � := Corr(X; Y ) = 0:5,independientemente de los valores de �.Para una estructura de correlación más �exible esta distribución bivariada

se ha generalizado mediante la introducción de un parámetro adicional � paraformar:

F (x; y;�) =

�1 +

hexp (��x)

1�

i+hexp (��y)

1�

i�1:

�dando

� := Corr(X; Y ) = 1� 1

2�2; donde � � 1; 1

2que incluye el caso anterior como un caso especial con a = 1. Es in-

teresante notar que hay una forma de la distribución logística bivariada quepertenece a la familia elípticamente simétrica pero no tiene una forma cer-rada (ver Fang et al. (1990)). Note que la extensión tmultivariada de estadistribución toma la forma:

f (x1; x2; :::; xm;�) =

"1 +

�Xm

k=1exp

����xk � �kp

�kk

��� 1�

#�1, � � 1;

Page 270: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

270 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

siendo la logística ordinaria un caso especial con � = 1.

Figura 6.13 Densidad logística bivariada (estándar).

que incluye como caso especial el anterior con � = 1:Densidad Gamma bivariadaLa distribución gamma bivariada viene en un número de formas diferentes

(véase el apéndice B para tres de estas formas), cada una con su propiaestructura de dependencia. En esta sección vamos a considerar dos de estasformas.La densidad Gamma Cherian bivariada toma la forma:

f (x; y;�) =e�(x+y)

� (�0) � (�1) � (�2)

Z min(x;y)

0

ezz�0�1 (x� z)�1�1 (y � z)�2�1 dz; (x; y) 2 R2;

donde � := (�0; �1; �2) 2 R3+: El coe�ciente de correlación � es:

� := Corr(X;Y ) =�0p

(�0 + �1) (�0 + �2); 0 < � � 1:

En las �guras 6.14 - 6.15 podemos ver la densidad bivariada con los con-tornos insertados para dos conjuntos de parámetros � := (1; 3; 3) con � = 0:25y � := (8; 3; 3) con � = 0:727, respectivamente.La forma McKay de la densidad bivariada Gamma es la siguiente:

f (x; y;�) =a(�1+�2)

� (�1) � (�2)e�ayx�1�1 (y � x)�2�1 ;� := (a; �1; �2) 2 R3+; (x; y) 2 R2;

Page 271: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 271

con coe�ciente de correlación:

� := Corr(X; Y ) =

s�1p

(�1 + �2):

En las �guras 6.16-6.17 podemos ver la densidad Gamma bivariada (McKay)densidad con los contornos insertados para dos conjuntos de parámetros� := (2; 2; 6) con � = 0:5 y � := (2; 6; 4) con � = 0:775, respectivamente. Enestas �guras, la asimetría es diferente de la de las �guras 6.14-6.15.

Figura 6.14 Densidad Gamma bivariada (Cherian) (1; 3; 3).Figura 6.15 Densidad Gamma bivariada (Cherian) (8; 3; 3).

Densidad exponencial bivariada

Page 272: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

272 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

Al igual que en el caso de la distribución Gamma bivariada, la exponencialbivariada tiene varias formas. La densidad exponencial bivariada de Gumbeltoma la forma:

f (x; y; �) = [(1 + �x) (1 + �y)� �] exp f�x� y � �xyg ; � 2 R+; (x; y) 2 R2+:

Esta densidad, junto con sus contornos de equiprobabilidad, para dosdiferentes valores de �, se muestra en las �guras 6.18 y 6.19. En el casode la �gura 6.18 � = 0:2 lo que implica un coe�ciente de correlation � =�0:148. En el caso de la �gura 6.19 � = 0:1 que implica un coe�ciente decorrelación � = �0:404. NOTE que esta densidad bivariada da lugar sólo auna correlación negativa. Una comparación directa entre las dos super�cies ylos contornos de equiprobabilidad sugiere que la mayor correlación se puededetectar por una mayor concentración de probabilidad en los brazos de ladensidad.Densidad bivariada FEsta densidad bivarida F toma la forma:

f (x; y;�) = � [0:5v]2Yi=0

�v0:5vii

� [0:5vi]

�(v0 + v1x+ v2y)

�0:5v x0:5vx0:5v1�1y0:5v2�1; (x; y) 2 R2+;

donde (v0; v1; v2) 2 R3+; v = (v0 + v1 + v2) : Esta densidad, junto con suscontornos de equiprobabilidad, para dos diferentes valores de �, se muestra enlas �guras 6.20 y 6.21. En el caso de la �gura 6.20 � := (v0 = 12; v1 = 8; v2 = 8),lo que implica un coe�ciente de correlación � = 0:444. En el caso de la�gura 6.21 � := (v0 = 5; v1 = 60; v2 = 60), lo que implica un coe�ciente decorrelación � = 0:953. Comparando las dos super�cies y sus contornos deequiprobabilidad podemos ver que cuanto mayor sea la correlación más aplas-tada es la densidad. Sin embargo, esto debe interpretarse con cautela debidoa que el coe�ciente de correlación no es su�ciente para capturar la estruc-tura de dependencia de la distribución F (véase la sección siguiente). Con el�n de obtener una imagen más completa considerar otras dos formas de ladistribución bivariada F en las �guras 6.22 y 6.23 cuyas correlaciones no sonmuy diferentes, pero los parámetros son � := (v0 = 80; v1 = 4; v2 = 2), concoe�ciente de correlación � = 0:035 y � := (v0 = 200; v1 = 20; v2 = 20), concorrelación � = 0:092. NOTE que en el caso de que la correlación es cero la Fbivariada se parece a la exponencial bivariada sin la curvatura hacia adentro.

Page 273: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.7. DISTRIBUCIONES CONJUNTAS Y DEPENDENCIA 273

Figura 6.16 Densidad Gamma bivariada (McKay) (2; 2; 6).

Figura 6.17 Densidad Gamma bivariada (McKay) (2; 6; 4).

Figura 6.18 Exponencial Gumbel bivariada � = 0:2.

Page 274: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

274 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

Figura 6.19 Exponencial Gumbel bivariada � = 1:0.

Figura 6.20 Densidad F bivariada � := (12; 8; 8).

Figura 6.21 Densidad F bivariada � := (5; 60; 60).

Page 275: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOSDATOSOBSERVADOS275

Densidad bivariada BetaAl igual que en el caso de la exponencial de dos variables, hay varias

distribuciones conjuntas llamadas Beta. La densidad Filón-Isserlis Betabivariada toma la forma:

f (x; y;�) =� (v1; v2; v3)

� (v1) � (v2) � (v3)

�yv1�1xv2�1 (1� x� y)v3�1

, x � 0; y � 0; x+y � 1.

donde (v1; v2; v3) 2 R3+. Esta densidad, junto con sus contornos deequiprobabilidad, para dos diferentes valores de �, se muestra en las �g-uras 6.24 y 6.25. En el caso de la �gura 6.24 la densidad bivariada tienevalores de los parámetros � := (v1 = 3; v2 = 3; v3 = 6), lo que supone un co-e�ciente de correlación � = �0:333. En el caso de la �gura 6.25 la densidadbivariada � := (v1 = 6; v2 = 6; v3 = 8), lo que supone un coe�ciente de cor-relación � = �0:429. La comparación de las dos super�cies sobre la basedel coe�ciente de correlación no es tan buena idea en este caso debido a quela distribución exhibe una gran �exibilidad y la correlación por sí misma noproporciona una guía con�able.En la discusión anterior de dependencia en el contexto de distribuciones

bivariadas no simétricas se utilizó el coe�ciente de correlación con el �n deexplorar cómo cambian estas densidades cuando cambia la dependencia. Estoes claramente insatisfactorio porque sabemos que el coe�ciente de correlaciónmide sólo dependencia de primer orden. Está claro que necesitamos un án-gulo de visión más general con el �n de evaluar la estructura de dependenciade las diferentes distribuciones conjuntas. Como una extensión del coe�cientede correlación podríamos considerar el uso de los primeros momentos condi-cionales, por decir hasta orden cuatro, con el �n de obtener una imagen máscompleta de la estructura de la dependencia. Esto se tratará más adelante enel siguiente capítulo en relación con algunas pocas funciones condicionales.

5.8 De los conceptos probabilísticos a los datosobservados

5.8.1 Generación de números pseudo aleatorios*

Las técnicas para generar números pseudo aleatorios introducidas en el capí-tulo 5 se pueden extender a las distribuciones conjuntas. En el caso de

Page 276: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

276 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

varibles aleatorias Independientes e Idénticamente Distribuidas la extensiónes trivial porque la relación:

f (x1; x2; :::; xn)IID=

nYk=1

f (xk) para todo x 2 Rn .

sugiere que la generación de números pseudo aleatorios para la distribu-ción conjunta del vector aleatorio X := (X1; X2; :::; Xn) se puede hacer paracada variable aleatoria Xk por separado. Las cosas no son apreciablementemás complicadas en el caso de que (X1; X2; :::; Xn) sean Independientes, perono Idénticamente Distribuidas ya que:

f (x1; x2; :::; xn)I, no IID=

nYk=1

fk (xk) para todo x 2 Rn .

Esto sugiere que, al menos teóricamente, la heterogeneidad se puedemanejar sin di�cultades insuperables. Las cosas se vuelven mucho más com-plicadas en el caso de que (X1; X2; :::; Xn) sean dependientes debido a que elsistema generador tiene que manejar las dependencias entre estas variablesaleatorias. En esta sección vamos a considerar varios métodos para generarnúmeros pseudo aleatorios para un vector aleatorio X := (X1; X2; :::; Xn).

Figura 6.22 Densidad bivariada F con � := (80; 4:2).

Page 277: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOSDATOSOBSERVADOS277

Figura 6.23 Densidad bivariada F con � := (200; 20; 20).

Figura 6.24 Densidad bivariada Beta con � := (3; 3; 6).

Figura 6.24 Densidad bivariada Beta con � := (6; 6; 8).

Page 278: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

278 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

La aproximación de distribución condicionalEn la sección 2 anterior se argumentó que en el caso donde (X1; X2; :::; Xn)

no son ni Independientes ni Idénticamente Distribuidas la única reducciónposible a un producto de distribuciones univariadas es la derivada por condi-cionamiento secuencial y toma la forma (6.9) que, al simpli�carse haciendocaso omiso de los parámetros desconocidos, es:

f (x1; x2; :::; xn)no IID= f1 (x1)

nYk=2

fk (xkjxk�1; xk�2; :::; 1) para todo x 2 Rn .

(6.41)Esta reducción sugiere que la generación de números pseudo aleatorios

para el vector aleatorio (X1; X2; ::; Xn) equivale a usar distribuciones uni-variadas de forma secuencial:1. Generar las observaciones para X1 usando la distribución marginal

f1 (x1).2. Generar las observaciones para X2 usando la distribución condicional

f2 (x2jx1) dado X1 = x1.3. Generar las observaciones para X3 usando la distribución condicional

f3 (x3jx2; x1) dado X2 = x2, X1 = x1....n. Generar las observaciones para Xn usando la distribución condicional

fn (xnjxn�1; :::; x1), dado Xn�1 = xn�1; Xn�2 = xn�2; :::; X2 = x2 y X1 = x1.La implementación de este resultado requiere que el modelador especi�que

explícitamente estas fda condicionales.EjemploConsidere el caso n = 2 donde la función de densidad conjunta toma la

forma:

f (x; y) = exp fc� ax� by + xyg , a > 0; b > 0; � 0; (x; y) 2 R2+Las correspondientes densidades marginales y condicionales toman la

forma (cf. Arnold et al (1992)):

fX (x) = h

�� ab

��abe�ax

b� x

�, x > 0 donde h (u) =

�Z 1

0

e�z (1 + uz)�1 dz

��1f (yjx) = (b� x) e�(b� x)y, y > 0 :

Page 279: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOSDATOSOBSERVADOS279

Esto sugiere que el modelador puede generar números pseudo aleatoriospara X usando el método de rechazo (véase el capítulo 5.7) y luego procedera utilizar los valores simulados de X para generar Y utilizando el métodode la función de distribución inversa (véase el capítulo 5.7) a través de ladensidad condicional f(yjx). En términos de las funciones de distribuciónacumulativa (fda) la reducción (6.41) toma la forma:

F (x1; x2; :::; xn)no IID= F1 (x1)

nYk=2

Fk (xkjxk�1; xk�2; :::; 1) para todo x 2 Rn .

Utilizando este resultado Rosenblatt (1952) extendió la transformación in-tegral de probabilidad (véase el capítulo 4) para el caso de un vector aleatoriode la siguiente manera.Transformación integral de probabilidad condicional. Sea (X1; X2; ::; Xn)

un vector aleatorio continuo con función de distribución conjunta F (x1; x2; ::; xn),entonces las n variables aleatorias de�nidas por:

Z1 := F1 (X1) ; Z2 := F2 (X2jX1) ; Z3 := F3 (X3jX2; X1) ; :::; Zn := Fn (XnjXn�1; :::; X1)

son variables aleatorias IID distribuidas uniformemente, es decir:

Z1 = F1 (X1) ~U (0; 1) ; Zk := Fk (XkjXk�1; Xk�2; :::; X1) ~U (0; 1) ; k = 2; 3; :::; n.

Rosenblatt sugirió el uso de números pseudo aleatorios a partir de unvector aleatorio de variables aleatoria IID uniformes a través del uso de lastransformaciones inversas:

Xk := F�1k (Zk) ; k = 1; 2; :::; n

generar los números pseudo aleatorios para el vector aleatorio (X1; X2; ::; Xn).EjemploConsidere el caso n = 2 donde la función de densidad conjunta toma la

forma:

f (x; y) = exp f�yg , x < y; (x; y) 2 R2+Las correspondientes densidades marginales y condicionales toman la

forma

Page 280: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

280 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

FX (X) = 1� exp (�x) ; x > 0; F (yjx) = 1� exp (x� y) ; 0 < x < y <1.

La transformación integral de probabilidad condicional sugiere que:

�Z1 := FX (X) = 1� exp (�X) ~U (0; 1)

Z2 := F (Y jX) = 1� exp (X � Y ) ~U (0; 1)

�0 < X < Y <1.

El método de distribución de la función inversa puede ser fácilmente uti-lizado en el presente caso para generar números pseudo aleatorios para elvector aleatorio (X; Y ). Este resultado se puede veri�car directamente conel siguiente lema (ver Devroye (1986)).Lema. Sea (Z1; Z2) uniforme bivariado con densidad conjunta g(z1; z2).

Sean f1 y f2 dos funciones marginales preespeci�cadas con las fda correspon-dientes F1 y F2. Entonces, la densidad conjunta de (X;Y ) :=

�F�11 (Z1) ; F

�12 (Z2)

�,

toma la forma:

f (x; y) = f1 (x) f2 (y)g (F1 (x)F2 (y))

Por el contrario, si el vector aleatorio (X; Y ) tiene densidad conjuntaf(x; y) como la dada anteriormente, entonces, (f1; f2) son las funciones dedensidad marginales deX e Y , respectivamente. Además, (Z1; Z2) = (F1 (x)F2 (y))es un vector de dos variables aleatorias con densidad conjunta:

g (z1; z2) =f�F�11 (Z1) ; F

�12 (Z2)

�f1�F�11 (Z1)

�f2�F�12 (Z2)

� ; z1 2 [0; 1] ; z2 2 [0; 1]que es una densidad uniforme de dos variables.El método de rechazoEl método de rechazo para generar números pseudo aleatorios en el caso

de las distribuciones univariadas se encontró en el capítulo 5.7. En teoría, estemétodo se puede extender al caso de un vector aleatorioX sin ninguna di�cul-tad. En la práctica, sin embargo, varias trampas esperan a los desprevenidos;ver Devroye (1986) y Johnson (1987). El resultado básico fundamental deeste método es el siguiente.Lema del método de rechazo. Sea f(x) la función de densidad con-

junta del vector aleatorio X. Supongamos que f(x) se puede representar enla forma:

Page 281: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOSDATOSOBSERVADOS281

f(x) = c � h (x) � g (x) , donde c > 1, 0 < h (x) < 1 y g (x) � 0, h (x) 2 RnXSea Z~N (0; 1) y Y un vector aleatorio con densidad conjunta g (y); Y y

Z independientes. Entonces la distribución condicional de Y dado Z � g (y)coincide con la distribución de X, es decir,

F (yjZ � g (y)) = F (x) :

El método función de dependenciaUn método prometedor para la generación de números pseudo-aleatorios,

que aún no se ha explorado, podría basarse en la función de dependencia (verCastillo (1988)).Función de dependencia. Sea F (x; y) la fda de las variables aleatorias

(x; y) con fda marginales FX (x) y FY (y). La función de la dependencia sede�ne como la transformación que mapea las fda marginales uniforme en unafda conjunta:

d (FX (x) ; FY (y)) = F (x; y) ; (x; y) 2 RX�RY , donde d (:; :) : [0; 1]2 ! [0; 1]:(6.42)

En el caso donde F (x; y) es una fda continua con fda marginales univari-adas (FX (:) ; FY (:)) y funciones cuantil

�F�1X (:) ; F�1Y (:)

�, entonces:

d (z1; z2) = F�F�1X (z1) ; F

�1Y (z2)

�= (z1; z2) 2 R1 � R2. (6.43)

La función de la dependencia constituye un medio importante para aislarla estructura de dependencia de variables aleatorias distribuidas conjunta-mente.Podemos utilizar esta última forma de la función de dependencia a �n

de obtener una idea adicional. En el capítulo 3 nos encontramos con latransformación integral de probabilidad que establece que para cualesquierafda continuas FX (:) ; FY (:), las variables aleatorias Z1 = FX (x) y Z2 =FY (y) se distribuyen uniformemente, es decir,

Z1 = FX (x) ~U (0; 1) , Z2 = FY (y) ~U (0; 1) ,

y la inversa de la transformación integral de probabilidad que garantizaque

Page 282: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

282 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

F�1X (z1) ~FX (:) , F�1Y (z2) ~FY (:) .

Por lo tanto, podemos ver la función de dependencia en (6.43) comoun mapeo mixto de variables aleatorias (independientes) uniformemente dis-tribuidas que dan lugar a variables aleatorias dependientes con fda F (x; y).Por lo tanto, dada la función de dependencia el modelador puede utilizarnúmeros uniformes pseudo-aleatorios para generar números para el vectoraleatorio (X; Y ).Ejemplos (ver Castillo (1988))(i) Considere la distribución exponencial Gumbel cuya fda toma la forma:

F (x; y) = exp (�x� y + �xy) + 1� exp (�x)� exp (�y)

En vista del hecho de que la transformación integral inversa de la fda

FX (x) = 1� exp (�x) es F�1X (z1) = �In (1� z1)

podemos mostra que

d (z1; z2) = F (�In (1� z1) ;�In (1� z2))

= exp [In (1� z1) + In (1� z2) + �In (1� z1) In (1� z2)]

�1 + z1 + z2

la función de dependencia es

d (x; y) = (1� x) (1� y) exp [�In (1� z1) In (1� z2)]� 1 + x+ y:

(ii) Consideremos la distribución exponencial Mardia cuya función dedistribución toma la forma:

F (x; y) = [exp (x) + exp (y)� 1]�1 + 1� exp (�x)� exp (�y) :

Una vez más, utilizando la misma transformación integral inversa de prob-abilidad podemos demostrar que:

Page 283: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOSDATOSOBSERVADOS283

d (z1; z2) = F (�In (1� z1) ;�In (1� z2))

=

�1

z1�1+

1

z2�1� 1�1�

+ 1� (1� z1)� (1� z2)

=

�1

z1�1+

1

z1 � 1� 1�1�

� 1 + z1 + z2

Por lo tanto, la función de dependencia es:

d (x; y) =

�1

x1 � 1+

1

x2�1� 1�1�

� 1 + x+ y:

5.8.2 Una representación grá�ca: el diagrama de dis-persión

En el capítulo anterior hemos introducido la representación grá�ca de unagrá�ca de tiempo y otras representaciones grá�cas relacionadas de losdatos observacionales, tales como el histograma y el histograma suavizado,para proporcionar un vínculo entre los conceptos teóricos y los datos reales.En esta sección llevamos la historia un paso más allá mediante la introducciónde otra importante representación grá�ca que puede establecer una relaciónentre las nociones probabilísticas de densidad conjunta y dependencia y losdatos observados. Esto se conoce como el diagrama de dispersión (o cross-plot) y sus raíces se remontan a la mitad del sigulo XIX. Un diagrama dedispersión es una representación grá�ca de dos dimensiones de la forma

diagrama de dispersión: f(xt; yt) ; t = 1; 2; :::; Tg :

Page 284: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

284 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

Figura 6.26. Datos normales bivariados simulados con (� = 0)

donde el eje y representa el rango de valores de la variable aleatoria Yty el eje X representa el rango de valores de la variable aleatoria Xt. Enlas �guras 6.26 y 6.27 podemos ver dos de esas grá�cas de dispersión dedatos bivariados IID normales simulados. Como podemos ver, la �gura 6.26muestra una cierta forma circular con el número de observaciones cada vezmayor conforme se avanza desde la periferia hacia el centro de la formacircular. La �gura 6.27 exhibe una forma elíptica, con la misma tendenciapara el número de observaciones a aumentar a medida que se pasa de lascolas al eje principal de la forma elíptica. Resulta que la única diferenciaentre las dos grá�cas es el coe�ciente de correlación que es � = 0 para la�gura 6.26 y � = 0:8 para la �gura 6.27.La clave para relacionar esas grá�cas de datos con el concepto teórico

de función de densidad conjunta nos fue dada por Galton (1886) que fuecapaz de unir los puntos de igual frecuencia en curvas elípticas y entoncesderivar la densidad misma. Con las técnicas grá�cas de hoy en día podemosformalizar el procedimiento de Galton y hacer las distinciones necesariasentre los conceptos teóricos y sus contrapartes empíricas.

Figura 6.26. Datos normales bivariados simulados con (� = 0:8)

Estereograma suavizado. Al igual que en el caso de una única serie dedatos discutido en el capítulo 5, el primer paso para relacionar el diagramade dispersión en la �gura 6.26 con una función de densidad de densidadconjunta teórica es construir el histograma de dos dimensiones, llamado es-tereograma por Pearson, y luego suavizarlo. La suavización más utilizada

Page 285: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOSDATOSOBSERVADOS285

es una extensión del kernel de una dimensión discutido en el capítulo 5. Unkernel suavizado de un histograma toma la forma:

bgh (x) = 1

nh

Xn

k=1K�xk � x

h

�; h > 0;K (z) � 0;

Zz2Rz

K (z) dz = 1;

donde K (:) es el kernel; para ejemplos de este kernel veáse el capítulo 5.El kernel más utilizado es el que se basa en la densidad normal produciendoel histograma suavizado:

bgh (x) = 1

nhp2�

Xn

k=1exp

(�12

�xk � x

h

�2); h ' �� (1:06) �n� 1

5 :

La forma más simple del estereograma alisado extiende este a:

bgh (x; y) = 1

nh

Xn

j=1

Xn

i=1K��

xi � x

h

����yj � x

h

��; h > 0;

donde el kernel toma la forma (Cacoullos, 1966):

K (x; y) � 0;Z

x2RX

Zy2RY

K (x; y) dxdy = 1.

Las formas más generales de kernels suavizado permite anchos de bandadiferentes y / o de correlación (ver Silverman (1986)). El estereogramasuavizado de los datos en la �gura 6.26 se muestra en la �gura 6.28. Estopuede ser comparado con la densidad normal bivariada teórica con � = 0,que se muestra en la �gura 6.29. Como podemos ver, el estereograma alisadoes muy similar a la super�cie teórica.

Page 286: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

286 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

Figura 6.28. Estereograma suavizado de datos normales simulados con(� = 0)

Figura 6.29. Datos normales bivariados con (� = 0)

Contornos. El segundo paso es evaluar qué tan buena aproximación es elestereograma suavizado a la función de densidad bivariada. Esta evaluaciónpuede hacerse en términos de los contornos de estas dos super�cies. Enla �gura 6.30 podemos ver los contornos del estereograma suavizado y en la�gura 6.31 los mismos contornos se superponen con los de la densidad normalbivariada (� = 0).Como podemos ver, esta superposición proporciona una representación

grá�ca donde las diferencias entre la densidad bivariada y su contraparteempírica puede ser fácilmente evaluada a diferentes alturas. En este ejemplo,es evidente que las dos están muy cerca para la mayoría de las alturas, exceptola parte superior donde se detecta una cierta diferencia. Para el principiantenotemos que estas pequeñas (pero insigni�cantes) diferencias son la regla yno la excepción en la modelación empírica, así que no espere que las doscoincidan!Este ejercicio se repite para el diagrama de dispersión en la �gura 6.27.

En las �guras 6.32-6.33 podemos ver el estereograma suavizado y la densidadnormal bivariada con (� = 0:8), respectivamente. Un vistazo a estas grá�-cas sugiere que esta última es una buena aproximación del primero. Estaconclusión se ve con�rmada por la grá�ca de los contornos del estereogramasuavizado en la �gura 6.34 que se superponen con los de la densidad bivariadacon (� = 0:8), que se muestra en la �gura 6.35.Una comparación entre las �guras 6.26 y 6.28 a 6.31 por un lado, y las

�gura 6.27 y 6.32 a 6.35, por otro lado, puede ser utilizada como un marco

Page 287: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOSDATOSOBSERVADOS287

de referencia en el contexto del cual el modelador puede evaluar la dependen-cia en datos IID Normales (donde I se re�ere a la independencia temporal).Quizás la mejor manera de resumir los dos grupos de grá�cas es la super-posición de los contornos del estereograma suavizado con el diagrama dedispersión. En cifras 6.36 y 6.37 podemos ver estas dos grá�cas para losdatos simulados de una normal bivariada con diferente correlación.La forma elíptica, junto con la creciente concentración de los puntos del

diagrama de dispersión cuando el ojo se mueve hacia la intersección de losdos ejes principales, apuntan hacia la hipótesis de normalidad y el grado deexcentricidad de la forma elíptica (cómo se ve aplastado) indica el nivel decorrelación.La discusión en la sección anterior, sin embargo, sugirió que la forma elíp-

tica del diagrama de dispersión no es una característica únicamente de la Nor-mal sino una característica de toda una familia de distribuciones conjuntasque llamamos elípticamente simétricas. Para ilustrar este punto, volvamos alos datos de la tasa de cambio Cánada/EEUU introducidos en el capítulo 1 ydiscutidos en el capítulo 5 en relación con sus características distribucionales.En el capítulo 1 observamos los patrones de regularidad aleatoria exhibidospor la grá�ca de tiempo de estos datos, incluyendo la simetría en forma decampana. La conclusión preliminar en el capítulo 5, basada en las grá�casP-P normalizadas, era que los datos presentaban una simetría en forma decampana cercana a la distribución t de Student con 4 grados de libertad enlugar de la distribución normal. Además, a primera vista los datos no pare-cen presentar ninguna dependencia temporal signi�cativa de primer orden ocualquier heterogeneidad.

Figura 6.30 Contornos de estereograma suavizadode datos normales simulados (� = 0)

Page 288: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

288 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

Figura 6.31 Estereograma suavizado y contornos normales (� = 0)Figura 6.32 Estereograma suavizado y datos normales simulados (� = 0:8)

Figura 6.33. Densidad normal bivariada con (� = 0:8)

Page 289: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOSDATOSOBSERVADOS289

Figura 6.34. Contornos de estereograma suavizadode datos normales simulados (� = 0:8)

Figura 6.35 Estereograma suavizado y contornos normales (� = 0:8)

Page 290: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

290 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

Figura 6.36 Contornos de estereograma suavizadoy diagrama de dispersión de datos normales (� = 0)

Figura 6.37 Contornos de estereograma suavizadoy diagrama de dispersión de datos normales (� = 0:8)

Figura 6.38 Diagrama de dispersión (xt; xt�1) de los datos de la tasa decambio

En este capítulo se procede a examinar la cuestión de la dependenciatemporal de la distribución relacionada. A pesar de la importancia de la dis-tinción entre la dependencia contemporáneas y temporal en el contexto de lamodelación, en relación con la evaluación de la dependencia de la distribu-ción relacionada, la distinción es sólo una cuestión de notación. Usando ladistribución conjunta apropiada podemos discutir la dependencia relacionada

Page 291: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOSDATOSOBSERVADOS291

con la distribución f(xt; yt) con la misma facilidad que la de f(xt; xt�1); ladiferencia es sólo de notación. En el contexto actual, podemos utilizar eldiagrama de dispersión:

f(xt; yt) ; t = 1; 2; :::; Tg

mostrado en la �gura 6.38, para evaluar la dependencia temporal entreelementos sucesivos del proceso estocástico fXtg1t=1. El diagrama de dis-persión muestra una clara forma elíptica (casi circular) con la concentraciónde observaciones cada vez mayor a medida que avanzamos hacia el centrode esta forma elíptica. Con el ojo de nuestra mente podemos visualizar lasuper�cie de dos dimensiones (estereograma) sugerido por esta grá�ca. Yaque el número de observaciones aumenta movimiéndose hacia el centro dela forma elíptica, el correspondientes estereograma aumenta en altura. Elstereograma suavizado se grá�ca en la �gura 6.39 y representa los datos demanera similar a la super�cie de dos dimensiones que representa la funciónde densidad. Observando esta grá�ca podemos decir que está muy cerca dela densidad teórica bivariada para la distribución de la t de Student.

Figura 6.39 Estereograma suavizado/contornos de los datos de la tasa decambio.

En la �gura 6.39 podemos ver también las correspondientes densidadesmarginales suavizadas, así como los contornos insertados en el margen dere-cho. La �gura 6.39 con�rma que la t de Student bivariada constituye unsupuesto de distribución mucho más apropiado que la normal debido a que

Page 292: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

292 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

un vistazo a las �guras 6.10 y 6.11, que representan a esas densidades bivari-adas, sugieren más claramente que la densidad bivariada suavizada de estosdatos está más cerca de la densidad mostrada en la Figura 6.11 que a la de la�gura 6.10; es importante tener en cuenta las medidas en el eje vertical. Estose con�rma en la �gura 6.40, donde los contornos del estereograma suavizadoen la �gura 6.39 se superponen a los de la densidad t de Student bivariadacon 4 grados de libertad.La correlación (dependencia de primer orden) entre Xt y Xt�1 no parece

ser signi�cativa debido a que las formas elípticas son cercanas a círculos.Cabe señalar que la correlación cero en este contexto no signi�ca que elproceso estocástico fXtg1t=1 sea temporalmente independiente. Como hemosdicho anteriormente, no correlación no implica independencia en el caso dela distribución t de Student. Para una evaluación más precisa, sin embargo,tenemos que aplicar procedimientos adecuados de prueba (véase el capítulo15).A �n de garantizar que las conclusiones sobre la dependencia de la dis-

tribución relacionada sobre la base del diagrama de dispersión f(xt; xt�1) ; t = 1; 2; :::; Tg,son de hecho válido para el proceso estocástico fXtg1t=1, tenemos que consid-erar los diagramas de dispersión adicionales de la forma:

f(xt; xt�k) ; k � 2; t = 1; 2; :::; Tg :

Figura 6.40 Estereograma suavizado (xt; xt�1) y contornos t de Student(v = 4).

Con �nes ilustrativos consideremos el diagrama de dispersión en el casode k = 2 en la �gura 6.42 y el correspondiente estereograma suavizado en

Page 293: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOSDATOSOBSERVADOS293

la �gura 6.43; podemos asegurar al lector que las grá�cas adicionales paravalores k > 2 son muy similares. Como podemos ver, estas dos representa-ciones grá�cas con�rman las conclusiones obtenidas con base en las grá�cas6.38 a 6.40. Esto se ve reforzado por la �gura 6.41, donde los contornos dela estereograma suavizado en la �gura 6.43 se superponen a los de densidadde la t de Student bivariada con 4 grados de libertad.En la sección anterior hemos discutido la importancia de superar la in-

debida in�uencia de la distribución normal en la modelizaciónempírica. Elejemplo empírico anterior lleva al modelador un paso más allá de la dis-tribución Normal y a la familia elíptica. Otros pasos son necesarios, sinembargo, con el �n de escaparse del hechizo de la Normalidad. Con estoen mente vamos a considerar algunos diagramas de dispersión adicionales dedatos simulados a partir de distribuciones asimétricas con el �n de garantizarque el lector no concluya este capítulo con la impresión errónea de que losdiagramas de dispersión aparecen como formas simétricas elípticas.Figura 6.41 Estereograma suavizado (xt; xt�2) y contornos t de Student

(v = 4).La distribución bivariada no simétricas que consideramos en primer lu-

gar es la distribución Gamma (Cherian). Elegimos los parámetros de talmanera que generemos una distribución casi simétrica en un intento por ilus-trar algunas de las formas más sutiles de la asimetría. En la �gura 6.44podemos ver un diagrama de dispersión de una distribución gamma bivari-ada con parámetros (�0 = 2; �1 = 16; �2 = 16), que implica un coe�ciente decorrelación � = 0:111; NOTE que la forma Cherian de la distribución gammabivariada sólo permite correlación positiva. Figura 6.45 muestra los contornos

Page 294: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

294 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

de la correspondiente densidad teórica, que presentan una asimetría en formade huevo con la yema (la moda) más cerca del extremo más puntiagudo apun-tando hacia el origen.La asimetría del diagrama de dispersión no es tan evidente, pero un ex-

amen detallado del diagrama de dispersión de los datos en la �gura 6.44,en conjunción con los contornos de la densidad teórica que se muestra en la�gura 6.45 pone de mani�esto la relación de asimetría.En relación al diagrama de dispersión en la �gura 6.44 vale la pena señalar

que si el modelador decide declarar algunas de las observaciones en las colascomo valores atípicos, la asimetría expuesta podría muy fácilmente perdersey con ella la información que conduciría directamente al modelador hacie ladistribución correcta.

Figura 6.42 Diagrama de dispersión (xt; xt�2) de los datos de la tasa decambio.

Figura 6.43 Estereograma suavizado/contornos de los datos de la tasa decambio.

Page 295: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOSDATOSOBSERVADOS295

Figura 6.44 Datos simulados: Gamma (Cherian) (�0 = 2; �1 = 16; �2 = 16).

Figura 6.45 Contornos de una densidad Gamma (Cherian)(�0 = 2; �1 = 16; �2 = 16).

La misma asimetría en forma de huevo se exhibe en las �guras 6.46-6.47, donde el coe�ciente de correlación es � = 0:5. Al igual que en el casode la distribución normal, la alta correlación se visualizada como contornosaplastados.En las �guras 6.48-6.49 la correlación aumenta a � = 0:8 y la compresión

de los contornos aumenta.Como ejemplo de una distribución muy sesgada consideramos diagramas

de dispersión de datos simulados de la distribución exponencial (Gumbel)con correlación, � = �0:01 y � = �0:36, en las �guras 6.50-6.51, respectiva-mente. Estos diagramas de dispersión corresponden aproximadamente a lasdensidades bivariadas mostradas en las �guras 6.18-6.19, respectivamente.

Page 296: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

296 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

Como podemos ver, la correlación negativa en una distribución Gumbel ex-ponencial es exhibida por la concentración de las observaciones a lo largo delos ejes en forma de cola de pez. Aunque la exponencial bivariada Gumbel nopermite la correlación positiva, otras formas permiten una gama completa decorrelationes �1 � � � 1 (ver Devroye (1986)). En la �gura 6.52 podemosver un diagrama de dispersión de los datos simulados de una exponencial noGumbel con correlación positiva � = 0:36. La dependencia positiva se visu-aliza en la �gura 6.52 como acercándose a la forma triangular en la �gura6.50. Esto se hace más evidente en la �gura 6.53, donde la correlación se haincrementado a � = 0:9 induciendo una forma similar a un cometa para eldiagrama de dispersión.

Concluimos esta sección haciendo hincapié una vez más que las grá�casanteriores son sólo de carácter indicativo y constituyen sólo la punta deliceberg en términos de la variedad de formas y patrones que uno deberíaesperar en la modelación con datos reales. Es altamente recomendable queel lector genere diagramas de dispersión y las correspondientes densidadessuavizadas con el �n de apreciar la riqueza de la información que tales grá�caspueden proporcionar.

UNA NOTA DE PRECAUCIÓN. En esta sección discutimos el problemade relacionar el diagrama de dispersión de la serie de datos f(xt; yt) ; t = 1; 2; :::; Tgcon la estructura de la distribución de la densidad de dos variables f (x; y),(x; y) 2 RX �RY . Yendo a tres series de datos, el diagrama de dispersión seconvierte en una nube de dispersión y se plantean algunos problemas en larotación de la nube para obtener una visión más �able. Cuando el modeladorintenta relacionar la nube de dispersión para la distribución conjunta, él / ellatiene la obligación de pensar en cuatro dimensiones. En la discusión anteriornos centramos exclusivamente en dos series de datos porque la cognición hu-mana se limita a tres dimensiones. Por lo tanto, a menudo es más prácticoconsiderar el caso de m series de datos viendo dos series y juntándolas enuna película más completa usando instantáneas tridimensionales.

Page 297: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOSDATOSOBSERVADOS297

Figura 6.46 Datos simulados: Gamma bivarida (Cherian)(�0 = 16; �1 = 16; �2 = 16).

Figura 6.47 Contornos de una densidad Gamma (Cherian)(�0 = 16; �1 = 16; �2 = 16).

Page 298: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

298 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

Figura 6.48 Datos simulados: Gamma bivarida (Cherian)(�0 = 32; �1 = 16; �2 = 16).

Figura 6.49 Contornos de una densidad Gamma (Cherian)(�0 = 32; �1 = 16; �2 = 16).

Figura 6.50 Datos simulados de una exponencial Gumbel bivariada con� = 0:01:

Figura 6.51 Datos simulados de una exponencial bivariada no Gumbel con� = 0:36:

Figura 6.52 Datos simulados de una exponencial bivariada no Gumbel con� = 0:09:

Page 299: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.8. DE LOS CONCEPTOS PROBABILÍSTICOS A LOSDATOSOBSERVADOS299

Page 300: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

300 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

5.9 ¿Qué sigue?

Después de la discusión anterior de dependencia, procedemos a examinarel problema planteado por la condicionalidad estocástica. El capítulo 7 seconcentra en las distribuciones condicionales y sus momentos y como ellosse relacionan con la dependencia y / o la homogeneidad concentrándones denuevo en el caso simple de dos variables

f (x; y;�) = f (yjx : '2) fx (x : '1) , para todo (x; y) 2 RX � RY :

De particular interés en el capítulo 7 será el concepto de dependencia dela distribución relacionada y cómo se relaciona con las distribuciones condi-cionales f (yjx : '2), para todo x 2 RX . Se argumenta que la forma másefectiva para modelar tales formas de dependencia es a través del conceptode funciones momento condicionales:

E (Y rjX = x) = hr (x) ; x 2 RX ; r = 1; 2; :::Los conceptos desarrollados en estos dos capítulos se extienden entonces

en el capítulo 8 más allá del caso simple de dos variables con el �n de propor-cionar un marco de referencia general para modelar dependencia y hetero-geneidad en lo que respecta a las sucesiones de variables aleatorias. Es decir,regresamos al caso general donde la reducción de la distribución conjuntatoma la forma:

f (x1; x2; :::; xn;�)no IID= f1 (x1; 1)

Yfk (xkjxk�1; :::; x1; k) , para todo x 2 RnX ;

y proceder a examinar el problema de la imposición de restricciones dedependencia y heterogeneidad para que la anterior reducción de lugar a mod-elos operativos.

5.10 Ejercicios

1. ¿Por qué nos preocupamos por la heterogeneidad y la dependencia en losmodelos estadísticos?2. Explicar cómo la idea de condicionamiento secuencial ayuda a lidiar

con el problema de múltiples dimensiones de la distribución conjunta de unamuestra no aleatoria.

Page 301: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

5.10. EJERCICIOS 301

3. De�nir los siguientes conceptos:(a) momentos conjuntos, (b) momentos condicionales, (c) no correlación,

(d) ortogonalidad, (e) relación producto cruzado y (e) el coe�ciente Gamma.4. Sea la función de densidad conjunta de dos variables aleatorias X e Y:

x n y 0 1 20 0:1 0:2 0:21 0:2 0:1 0:2

(a) Deduzca las distribuciones condicionales: f(yjx), x = 0; 1.(b) Deducir los siguientes momentos:E(X), E(Y ), V ar(X), V ar(Y ), Cov(X; Y ), E(XY ), Corr(X; Y ),E(Y jX = 0), E(Y jX = 1), V ar(Y jX = 0).5. Explique la diferencia entre dependencia, correlación y no ortogonali-

dad.6. Explique el concepto de dependencia de r-ésimo orden y compárela

con la de dependencia de (m; k)-ésimo orden.7. Explique el concepto de independencia condicional y su relación con

el de dependencia de Markov.8. Explique por qué no correlación implica independencia en el caso de

una distribución normal bivariada. ¿Cómo se puede evaluar la correlación alobservar un diagrama de dispersión de los datos observados?9. Explique cómo se puede distinguir entre los contornos de equiproba-

bilidadde las densidades bivariadas, Normal, t de Student y de Pearson tipo II.10. Explique por qué correlación cero no implica independencia en el caso

de las distribuciones bivariadas t de Student y Pearson tipo II.11 Explique cómo un aumento en la correlación afectará la densidad ex-

ponencial bivariada. ¿Qué signi�ca esto para el diagrama de dispersión?12 Explique por qué la noción de correlación no tiene sentido en el caso

de variables aleatorias medidas en la escala nominal.13 Considere la variable aleatoria X~(0; 1) y de�na la variable aleatoria

Y = X2 � 1.Demuestre que: Cov(X; Y ) = 0, pero las dos variables aleatorias no son

independientes.

Page 302: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

302 CAPÍTULO 5. EL CONCEPTO DE MUESTRA NO ALEATORIA

Page 303: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

Capítulo 6

Regresión y conceptosrelacionados

6.1 Introducción

En el capítulo anterior dimos el primer paso en el territorio de la muestra noaleatoria de la teoría de probabilidad. El lector se habría dado cuenta ahoraque este territorio puede ser peligroso y emocionante al mismo tiempo. Bastacon SEÑALAR que se trataba de un territorio en gran parte inexploradohasta el primer trimestre del siglo 20. El objetivo principal de la discusiónque sigue es extender el concepto de modelo estadístico simple, y, en partic-ular, el concepto de muestra aleatoria (variables aleatorias Independientes eIdénticamente Distribuidas), hacia formulaciones más realistas. Estos mod-elos permitirán variables aleatorias que están dotadas de dependencia y / oheterogeneidad. En este capítulo continuamos este viaje y descubrimos quehemos estado sosteniendo la llave del territorio de la muestra no aleatoriadesde el capítulo 4: el concepto de condicionalidad. La manejabilidad delmodelo estadístico simple se deriva del hecho de que la distribución conjuntade la muestra se puede simpli�car mucho por su reducción a un producto dedistribuciones marginales univariadas (idénticas):

f (x1; x2; :::; xn;�)I=

nYk=1

fk (xk;�k)IID=

nYk=1

f (xk;�) ; para todo x := (x1; x2; :::; xn) 2 Rn:

(7.1)En el caso de una muestra no aleatoria, si consideramos la no aleatoriedad

303

Page 304: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

304 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

negativamente como la falta de independencia y homogeneidad (ID), el únicoresultado disponible es el siguiente:

f (x1; x2; :::; xn;�)no IID6=

nYk=1

f (xk;�) ; para todo x := (x1; x2; :::; xn) 2 Rn:

(7.2)En el capítulo 6 vimos no aleatoriedad de manera positiva como la pres-

encia de dependencia y / o heterogeneidad y se argumentó que la clave paralidiar con la distribución conjunta de una muestra no aleatoria fue el con-cepto de condicionamiento secuencial simpli�cando la distribución conjuntaa:

f (x1; x2; :::; xn;�)no IID= f1 (x1; 1)

nYk=2

fk (xk j xk�1; :::; x1; k) ;8x 2 RnX :

(7.3)Una comparación directa entre (7.1) y (7.3) revela que las muestras no

aleatorias intercambiaron distribuciones marginales por condicionales. Es-tas distribuciones condicionales proporcionarán los medios para modelar ladependencia y / o heterogeneidad.El primer problema que debemos abordar cuando se modela la dependen-

cia de modelos en el contexto de la reducción (7.3) es el problema condicional-idad estocástica. Este problema surge porque el lado derecho de (7.3) no essólo un producto, de una densidad marginal (f1 (x1; 1)) y (n� 1) densidadescondicionales (fk (xk j xk�1; :::; x1; k)) como podría parecer a primera vista.En vista del hecho de que el concepto de función de densidad condicional sede�ne para un valor especí�co de las variables condicionantes, para cada k,el conjunto de densidades condicionales:

ffk (xk j xk�1; :::; x1; k)g ; para todo (xk�1; :::; x1) 2 Rn�1X (7.4)

representa a toda una familia de funciones de densidad, una para cadavalor de (xk�1; :::; x1) en Rn�1X , y que cambia con k. Hacer frente a estosproblemas en su generalidad en el contexto de (7.3) y (7.4), sin embargo,sería muy enredado. Por esta razón, simpli�camos el problema eludiendo losproblemas de dependencia y heterogeneidad asociada con un general K > 2

Page 305: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.1. INTRODUCCIÓN 305

y nos concentramos exclusivamente en el caso K = 2. En cierto sentido,evitamos los problemas de (a) el conjunto de condicionalidad cambiante (elnúmero de variables condicionantes cambia con k) y (b) la heterogeneidadde las densidades condicionales (que cambian con k). Estas dos cuestionesse discutirán en el próximo capítulo.

Una vista panorámica del capítulo

En la sección 2 discutimos el problema de la condicionalidad en el contextodel caso más sencillo de dos variables aleatorias.

f (x; y;�) = f (yjx;'2) �fX (x;'1) ; para todo (x; y) 2 RX � RY : (7.5)

NOTE que, como en el capítulo anterior, con el �n de simpli�car la no-tación utilizamos (x; y) en lugar de (x1; x2). En este caso sencillo, los prob-lemas del conjunto de condicionalidad creciente y el de heterogeneidad nose presentan. En este contexto, el problema de condicionalidad se trata deforma e�caz mediante la extensión del concepto de momentos condicionales afunciones de los valores de la variable condicionante. En la sección 3 exten-demos el concepto de funciones momento condicional para tener en cuenta lapresencia de la distribución marginal f1 (x1;'1). Esto da lugar al conceptode funciones momento condicional estocástico. En la sección 4 consideramosla pregunta: ¿en qué circunstancias puede el modelador ignorar la distribu-ción marginal? - la respuesta conduce al concepto de exogeneidad débil. Enla sección 5 se introduce un nuevo componente al concepto de modelo es-tadístico, además de los modelos de probabilidad y muestral. Este nuevocomponente se llama mecanismo generador estadístico (MG) y constituyeun puente entre los modelos estadísticos y teóricos. En la sección 6 hace-mos una breve excursión histórica para rastrear las raíces de la regresión aFrancis Galton (1822-1911) y Karl Pearson (1857-1936) con el �n de propor-cionar una breve descripción de la tradición biométrica en estadística. Estatradición fue reformulada posteriormente por R.A Fisher (1890 - 1962) enla inferencia estadística moderna. Recordamos al lector que en el capítulo 1hemos mencionado brevemente dos de las tradiciones más antiguas en la es-tadística, la teoría de los errores y el diseño experimental, argumentando queson más adecuadas para el análisis estadístico de datos experimentales; o dedatos que puede ser visto como generados por un sistema casi aislado. Unalínea especialmente importante de la argumentación que corre a través de

Page 306: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

306 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

este libro es que la tradición biométrica es más adecuada para la modelaciónde datos observacionales (no experimentales).

6.2 Condicionalidad y regresión

6.2.1 Reducción y funciones condicionales momento

Como se ha dicho anteriormente, la igualdad en la reducción (7.5) no rep-resenta una distribución conjunta a la izquierda y un producto de una dis-tribución condicional y una marginal de la derecha! El concepto de dis-tribución condicional discutido en el capítulo 6 se de�ne con respecto a unvalor especí�co de la variable condicionante, pero el cuanti�cador para todo(x; y) 2 RX � RY signi�ca que para cada valor de la variable condicionante,x 2 RX , existe una distribución condicional. Desde el punto de vista dela modelación, el problema de la condicionalidad tiene dos dimensiones. Laprimera dimensión es que:

f (yjx;'2) ; (x; y) 2 RX � RY ; (7.6)

de�ne una (posiblemente in�nita) familia de densidades condicionales in-dexada por los diferentes valores de la variable aleatoria X. La segundadimensión es que cada densidad condicional en (7.5) es ponderada por laprobabilidad marginal asociada con el correspondiente valor condicionantede la variable aleatoria X. En esta sección consideramos el problema de mu-chos (posiblemente un número in�nito de) distribuciones condicionales. Ladimensión de la ponderación será discutido en las secciones 3-4. Para hacer ladiscusión menos abstracta consideremos esta cuestión usando algunos ejem-plos.Ejemplos(i) Considere la distribución conjunta y marginal como se indica a con-

tinuación:

y/x 1 2 3 fY (y)0 0.20 0.10 0.15 0.451 0.10 0.25 0.05 0.402 0.01 0.06 0.08 0.15

fX (x) 0.31 0.41 0.28 1

(7.7)

Page 307: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.2. CONDICIONALIDAD Y REGRESIÓN 307

De acuerdo con (7.6) esta distribución conjunta dará lugar a tres difer-entes distribuciones condicionales, f (y j X = x) para x = 1; 2 y 3; dadaspor:

f(yjx = 1) =

8><>:f(x=1;y=0)fX(x=1)

= 0:200:31

; y = 0;f(x=1;y=1)fX(x=1)

= 0:100:31

; y = 1;f(x=1;y=2)fX(x=1)

= 0:010:31

; y = 2;

9>=>;! y 0 1 2

f (yjx = 1) 0.645 0.323 0.032

f(yjx = 2) =

8><>:f(x=2;y=0)fX(x=2)

= 0:100:41

; y = 0;f(x=2;y=1)fX(x=2)

= 0:250:41

; y = 1;f(x=2;y=2)fX(x=2)

= 0:060:41

; y = 2;

9>=>; (7.8)

! y 0 1 2f (y j x = 2) 0.244 0.610 0.146

f(yjx = 3) =

8><>:f(x=3;y=0)fX(x=3)

= 0:150:28

; y = 0;f(x=3;y=1)fX(x=3)

= 0:050:28

; y = 1;f(x=3;y=2)fX(x=3)

= 0:080:28

; y = 2;

9>=>;! y 0 1 2

f (yjx = 3) 0.536 0.179 0.285

NOTA. En f(yjx = 3) hay un error en el texto. Dice f(x=2;y=1)fX(x=3)

yf(x=2;y=2)fX(x=3)

; debería decir, f(x=3;y=1)fX(x=3)

y f(x=3;y=2)fX(x=3)

:

ii) Considere el caso en que f (x; y;�) es normal bivariada de la forma:�YX

�� N

���1�2

�;

��11 �12�21 �22

��: (7.9)

NOTAR que �1 = E(Y ); �2 = E(X); �11 = V ar(Y ); �22 = V ar(X);�12 = Cov(X; Y ): Las distribuciones condicional y marginal en (7.5) tomanla forma:

Page 308: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

308 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

(Y jX = x) � N��0 + �1x; �

2�; x 2 R; X � N (�2; �22) ; (7.10)

�0 = �1 � �1�2; �1 =

��12�22

�; �2 = �11 �

��212�22

�:

Esto muestra que la distribución condicional representa una familia in-�nita de las densidades condicionales, una para cada valor de x 2 R.Los ejemplos anteriores sugieren que cualquier intento de tratar con la

modelación de la reducción (7.5), concentrándose en los momentos de lasdistribuciones implicadas está condenado. Esto se debe a la presencia de unadensidad condicional para cada valor de la variable condicionante. Es decir,aún cuando la distribución conjunta de la izquierda y la distribución marginalde la derecha puedan (posiblemente) ser modeladas a través de sus momentos,las densidades condicionales dan lugar a un número posiblemente in�nito demomentos condicionales (un conjunto para cada valor de la variable aletoriaX). Es decir, el uso de los momentos condicionales no trata con la reducciónde manera efectiva. Esto se debe a que los momentos condicionales se de�nenpara cada miembro de la familia (7.6) por separado y el modelador se enfrentaa la pregunta: ¿qué conjunto de momentos condicionales usar?EjemploEn el caso de la distribución conjunta dada en (7.7), le corresponden tres

distribuciones condicionales (véase (7.8)), una para cada valor de X. Por lotanto, hay tres pares de medias y varianzas condicionales:

f (yjx = 1) : E (Y jx = 1) = 0:387; V ar (Y jx = 1) = 0:301;f (yjx = 2) : E (Y jx = 2) = 0:902; V ar (Y jx = 2) = 0:380;f (yjx = 3) : E (Y jx = 3) = 0:749; V ar (Y jx = 3) = 0:758:

La respuesta a la pregunta de qué conjunto de momentos condicionalesutilizar es, en pocas palabras, todas ellos combinados extendiendo los mo-mentos condicionales de una manera análoga a la familia (7.6). Es decir,extendiendo el concepto de momentos condicionales para dar cuenta de to-dos los valores de la variable aleatoriaX, de�nimos las funciones momentocondicional:

Crudo: E (Y rjX = x) = hr (x) ; x 2 R; r = 1; 2; :::

Page 309: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.2. CONDICIONALIDAD Y REGRESIÓN 309

Central: E (Y � E [Y jX = x]r j X = x) = gr (x) ; x 2 R; r = 2; 3; :::;(7.11)

donde para un valor especi�cado X = x, estos momentos condicionalesse de�nen (ver capítulo 4) por:

E (Y rjX = x) =

Zy2RY

yr�f (yjx) dy; r = 1; 2; :::

E ([Y � E (Y jX = x)]r jX = x) =

Zy2RY

[y � E (yjx)]r �f (yjx) dy; r = 2; 3; :::

EjemploEn el caso de la distribución conjunta dada en (7.7) y los momentos

condicionales como los dados en el ejemplo anterior, las funciones asociadascon la media y la varianza condicional toman la forma:

x E (Y jX = x) = h1 (x)1 0.3872 0.9023 0.749

x V ar (Y jX = x) =g2 (x)1 0.3012 0.3803 0.758

La utilización del concepto de funciones trata directamente con el prob-lema de muchos sistemas diferentes de momentos condicionales al hacer losmomentos funciones de los valores de la variable condicionante. En los casosen los cuales estas funciones pueden ser de�nidas en términos de formas fun-cionales especí�cas, ellas ofrecen formas sencillas de modelar la dependencia.Como argumentamos en lo que sigue, para la mayoría de las distribucionesde dos variables, podemos obtener estas funciones de forma explícita.

6.2.2 Regresión y funciones cedásticas

En la modelación de la dependencia a menudo nos concentramos sólo en lasprimeras de estas funciones relacionadas con la familia de densidades (7.6).En particular, el objetivo principal de losmodelos de regresión es el mod-elo (7.6) a través de las primeras pocas funciones momento condicional tal

Page 310: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

310 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

como se de�nen en (7.11). La literatura actual sobre los modelos de regre-sión se concentra casi exclusivamente en las dos primeras de tales funcionesmomento condicional.(i) La función de regresión se de�ne como la media condicional de Y

dado X = x, interpretada como una función de x:

E (Y jX = x) = h (x) ; x 2 RX : (7.12)

NOTE que el término Regresión fue acuñado por primera vez por Galton(1885); véase más adelanteii) La función cedática se de�ne como la varianza condicional interpre-

tada como una función de x:

V ar (Y jX = x) = g (x) ; x 2 RX : (7.13)

El término cedástico fue acuñado por Pearson (1905) y se basa en laspalabras griegas ��"���� = dispersión (scattering) y ��"��� �o& = disperso(scattered).OBSERVACIÓN: las grá�cas (h (x) ; x) y (g (x) ; x) para todo x 2 RX ;

constituyen lo que llamamos las curvas de regresión y cedástica, respec-tivamente.(1) Normal bivariada. Como se ha mostrado antes, en el caso de la

distribución normal de dos variables (7.9) con � := (�1; �2; �11; �12; �22) ; ladensidad condicional de Y dado X = x es también normal de la forma

(yjX = x) � N

���1 +

��12�22

�(x� �2)

�; �11 �

��212�22

��; x 2 R; (7.14)

Esto muestra que '1 := (�2; '22) ; '2 := (�0; �1; �2) y las funciones de

regresión y cedástica toman la forma dada antes:

E (Y jX = x) = �0 + �1x; V ar (Y jX = x) = �2; x 2 R;

�0 = (�1 � �1�2) 2 R; �1 =��12�22

�2 R; �2 = �11 �

��212�22

�2 R+:(7.15)

Como podemos ver, la función de regresión para la normal conjunta esuna función lineal de x y la función cedástica está libre de x.

Page 311: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.2. CONDICIONALIDAD Y REGRESIÓN 311

Las funciones de regresión y cedástica (7.15) se muestran en las �guras 7.1y 7.2, respectivamente, con valores de los parámetros �1 = 1:5, �2 = 1, �11 =1, �22 = 1 y tres distintos valores de �12 = �0:8, 0:1, 0:9. Como podemosver, la pendiente de la recta de regresión depende del signo de la covarianza.En la �gura 7.2 podemos ver las correspondientes curvas cedásticas que sonparalelas al eje x, como se esperaba. El modelo de regresión Normal es uno delos pocos modelos donde la distribución marginal deX puede ser ignorada, yaque, como se muestra en la sección 4, X es débilmente exógena con respectoa la parámetros '2.Regresión lineal. En el caso donde la media condicional tiene la forma

dada en (7.15), la función de regresión se dice que es lineal en x.PRECAUCIÓN. Es importante distinguir entre la linealidad en x y la

linealidad en los parámetros. El polinomio de segundo grado de la forma:

h (x) = a0 + a1x+ a2x2

no es lineal en x pero es lineal en los parámetros (a0; a1; a2). Por otraparte, la función

h (x) = 1 � 3 (x� 2)2

no es lineal, tanto en los parámetros ( 1; 2; 3) como en x. NOTE quehay una relación directa entre los dos conjuntos de parámetros: a0 = 1 � 3

22, a1 = 2 2 3, a2 = � 3. Esto sugiere que la parametrización de interés

particular es a menudo una cuestión de elección.La función de regresión (7.15) es lineal en x y en los parámetros (�0; �1),

pero a partir de (7.14) es obvio que no es lineal en los parámetros primarios(�1; �2; �11; �22; �12).

Page 312: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

312 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

Figura 7.1 Líneas de regresión Normal.

Figura 7.2 Líneas cedástica Normales.

Homocedasticidad. En el caso de que la varianza condicional no de-penda de lavariable condicionante, es decir, para alguna constante c0 2 R:

V ar (Y jX = x) = c0; x 2 RX ;

se dice que es homocedástica (Ver (7.15)).Heterocedasticidad. En el caso de que función cedástica dependa de

los valores de lavariable condicionante, es decir:

V ar (Y jX = x) = g (x) ; x 2 RX ;

se dice que es heterocedástica.Es interesante NOTAR que los conceptos (y la terminología) de homo-

cedasticidad/heterocedasticidad se introdujo por primera vez por Pearson(1905). (2) t de Student bivariada. En el caso de la distribución t deStudent de dos variables con v > 2 grados de libertad, que se denota por:�

YX

�� St

���1�2

�;

��11 �12�21 �22

�; v

�; (7.17)

la densidad condicional de Y dado X = x y la densidad marginal de Xson también t de Student (veáse Apéndice B). Las funciones de regresión ycedástica toman la forma dada a continuación:

Page 313: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.2. CONDICIONALIDAD Y REGRESIÓN 313

E (Y jX = x) = �0 + �1x; V ar (Y jX = x) =v�2

v � 1

�1 +

1

v�22[x� �2]

2

�; x 2 R;

�0 = �1 � �1�2 2 R; �1 =��12�22

�2 R; �2 = �11 �

��212�22

�2 R+: (7.18)

Como podemos ver, los parámetros �0; �1 y �2 coinciden con los de la

Normal condicional en (7.10). La función cedástica di�ere de la Normalen la medida en que (7.18) es heterocedástica: una función de la variablecondicionante. En la �gura 7.3 podemos ver tres funciones cedásticas t deStudent (v = 4; 8; 20) con los parámetros �2 = 1, �22 = 1, �12 = �0:8.La curvatura de la curva cedástica está inversamente relacionada con losgrados de libertad de parámetros: cuanto menor sea el valor de v mayor es lacurvatura de la función cedástica. Es interesante NOTAR que en el caso deque v = 20, la curva cedástica está muy cerca de una línea recta (una líneaNormal cedástica).

Figura 7.3 Curvas cedásticas t de Student.

(3) Exponencial bivariada. En contraste con la forma de las funcionesde regresión y cedástica de la Normal de dos variables, en el caso de ladistribución exponencial bivariada las funciones de regresión y cedástica sonaltamente no lineales en x (y por lo tanto heterocedásticas):

E (Y jX = x) =1 + � + �x

(1 + �x)2; V ar (Y jX = x) =

�(1 + � + �x)2 � 2�2

�[1 + �x]4

, x 2 R+; � > 0:

Page 314: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

314 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

El parámetro � se relaciona de forma no lineal con el coe�ciente de cor-relación a través de:

� := �1 +Z 1

0

�e�x

1 + �x

�dx

con algunos valores típicos dados enseguida:� = 0.01 0.2 0.5 1 2 3 4 8 12

20 600�� = 0.01 0.148 0.278 0.404 0.538 0.614 0.665 0.770 0.820 0.870

0.990En la �gura 7.4 podemos ver tres curvas de regresión Exponencial (� = 1; 2; 3)

y las curvas cedásticas correspondientes se muestran en la �gura 7.5.

Figura 7.4 Curvas de regresión Exponencial.

Figura 7.4 Curvas cedásticas Exponenciales.

Page 315: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.2. CONDICIONALIDAD Y REGRESIÓN 315

Regresión. Distribuciones continuas adicionalesVarios ejemplos de funciones de regresión y cedásticas asociadas a otras

distribuciones conjuntas se muestran a continuación en un intento de disiparla impresión errónea de que la linealidad de la función de regresión y lahomocedasticidad de la función cedástica es la regla.(4) Bivariada tipo Pearson II.

E (Y jX = x) = �0 + �1x; [�2 (v + 2)p�22] < x < [2 (v + 2)

p�22]

V ar (Y jX = x) = �2

(�1

2v + 3

� 1� (x� �2)

2

�22

!), x 2 R

�0 = (�1 � �1�2) 2 R; �1 =��12�22

�2 R; �2 = �11 �

��212�22

�2 R+.

La función de regresión de las distribuciones Pearson tipo II coincide conlas de las distribuciones Normal y t de Student. Su función cedástica, quese muestra en la �gura 7.6 para tres valores diferentes para los grados delibertad (v = 1; 2; 3) y (�2 = 1; �22 = 1; �12 = �0:8), es heterocedástica peroa diferencia de la t de Student, tiene un rango �nito (compare las �guras 7.3y 7.6).

Figura 7.6. Curvas cedásticas tipo Pearson II.

Familia simétricas elípticamente. El hecho de que las funciones deregresión de las distribuciones Normal, t de Student y Pearson tipo II co-incidan es un caso especial de un resultado general. Las tres distribuciones

Page 316: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

316 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

pertenecen a la familia de distribuciones simétricas elípticamente que com-parten la misma función de regresión (cuando los momentos requeridos ex-isten). Por otra parte, la función cedástica para todas las distribucionesexcepto la Normal, son heterocedásticas (véase Spanos (1994) para más dis-cusión). La diferencia básica entre estas tres distribuciones simétricas elípti-camente es en términos de su curtosis: la Normal es mesocúrtica (curtosis =3), la distribución t de Student es leptocúrtica (kurtosis > 3) y la tipo II dePearson es platicúrtica (curtosis < 3).

(5) Pareto bivariada.

E (Y jX = x) = �1 +

��1�3�2

�x

V ar (Y jX = x) =

��1�2

�2(1 + �3)

(1 + �3) �23

x2, x 2 R+

y > �1 > 0, x > �2 > 0, �3 > 0:

En las �guras 7.7 y 7.8 podemos ver la regresión Pareto y las curvascedásticas con parámetros (�1 = 1, �2 = 1:5) y tres diferentes valores de �3 =3; 4; 8, respectivamente.

Figura 7.7. Líneas de regresión Pareto.

Page 317: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.2. CONDICIONALIDAD Y REGRESIÓN 317

Figura 7.8. Curvas cedásticas Pareto.

(6) Logística bivariada.

E (Y jX = x) = 1� loge 1 + exp��(x� �)

�, x 2 R

V ar (Y jX = x) =1

3�2 � 1 = 2:29, � 2 R, � 2 R+

En las �guras 7.9 y 7.10 podemos ver las curvas de regresión y cedásticasde la distribución Logística con parámetros (�1, � = 0:5, 1:2, 4:5), respec-tivamente. Como podemos ver, la distribución Logística bivariada produceuna curva de regresión altamente no lineal y una función varianza condicionalhomocedástica. Cabe señalar que la Logística bivariada es una de las pocasdistribuciones con una función de cedasticidad constante.

Figura 7.9 Curvas de regresión logística.

Page 318: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

318 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

Figura 7.9 Líneas cedásticas logísticas.

(5) Beta bivariada.

E (Y jX = x) =�2

[�2 + �3](1� x)

V ar (Y jX = x) =�2�3

(�2 + �3)2 (1 + �2 + �3)

(1� x)2 ,

para x 2 [0; 1] , donde �1 > 0, �2 > 0, �3 > 0.

En la �gura 7.11 podemos ver las curvas cedásticas de la distribución Betacon parámetros (�1 = 20; �2 = 20; �3 = 1), (�1 = 4; �2 = 4; �3 = 4), (�1 = 1; �2 = 1; �3 = 8).Teniendo en cuenta el hecho de que el coe�ciente de correlación toma la forma:

� = �1

s�1�2

(�1 + �3) (�2 + �3),

podemos ver que la pendiente de estas líneas está directamente rela-cionada con la correlación. En la �gura 7.12 podemos ver las correspondientescurvas cedásticas.

Page 319: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.2. CONDICIONALIDAD Y REGRESIÓN 319

Figura 7.11 Líneas de regresión Beta.

Figura 7.12 Curvas cedásticas Beta.

(8) Gamma Bivariada (Kibble).

E (Y jX = x) = �2 (1� �1) + �1x, x 2 R+, �1 2 [0; 1], �2 2 R+V ar (Y jX = x) = (1� �1) [�2 (1� �1) + 2�1x] , x 2 R+.

para x 2 [0; 1] , donde �1 > 0, �2 > 0, �3 > 0.

En las �guras 7.13 a 14 podemos ver las curvas de regresión y cedásticas dedistribución gamma (Kibble) con parámetros (�1 = 1:0, 1:5, 2:0, �2 = 2:0).NOTE que �1 es el coe�ciente de correlación.

Page 320: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

320 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

Figura 7.13 Regresiones Gamma (Kibbel).

Figura 7.14 Curvas cedásticas Gamma (Kibbel).

(9) Gamma Bivariada (Cherian).

E (Y jX = x) = �2 +

��0

(�1 + �0)

�x, x 2 R+, (�0; �1; �2) 2 R3+

V ar (Y jX = x) = �2 +�0�1

(�1 + �0)2 (1 + �1 + �0)

x2, x 2 R+.

En las �guras 7.15-7.16 podemos ver las curvas de regresión y cedástica dela distribución Gamma (Cherian) con parámetros (�0 = 0:1; 0:2; 20, �1 = 2:0, �2 = 1).

NOTE que el coe�ciente de correlación toma la forma � =q

�0(�1+�0)(�2+�0)

,

y por lo tanto, para los tres valores anteriores de �0 la correlación toma los

Page 321: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.2. CONDICIONALIDAD Y REGRESIÓN 321

valores: 0,066, 0,577, 0,930, respectivamente. La pendiente de las líneas deregresión es mayor cuanto mayor sea la correlación y la curvatura de lascurvas cedásticas es mayor cuanto mayor sea la correlación.

Figura 7.15 Regresiones Gamma (Cherian).

Figura 7.16 Curvas cedásticas Gamma (Cherian).

(10) Gamma Bivariada (McKay).

E (Y jX = x) =

��1a

�+ x, x 2 R+, (�1; �2; a) 2 R3+,

V ar (Y jX = x) =

��1a2

�, x 2 R+,

E (XjY = y) =

��1

(�1 + �2)

�y, y > x 2 R+, (�1; �2; a) 2 R3+,

V ar (XjY = y) =

��1�2

(�1 + �2)2 (1 + �1 + �2)

�y2, y > x 2 R+.

Page 322: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

322 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

NOTA IMPORTANTE. Esta distribución Gamma bivariada ilustra unacuestión importante en relación a los modelos tipo regresión. Dado el pre-dominio de la distribución Normal bivarida, hay una idea equivocada de quetodas las distribuciones de dos variables son simétricas con respecto a lasvariables aleatorias X e Y . En el caso anterior de la distribución Gamma bi-variada McKay las distribuciones condicionales f(yjx; �) y f(xjy; �) son muydiferentes, dando lugar a momentos condicionales que no se parecen el unoal otro. Por ejemplo f(yjx; �) da lugar a una función homoscedástica perof(xjy; �) da lugar a una función heterocedástica.(11) F Bivariada.

E (Y jX = x) =

��0

(�0 + �1 � 2)

�+

��1

(�0 + �1 � 2)

�x, x 2 R+, (�0; �1; �2) 2 R3+

V ar (Y jX = x) =

�2 (�1 + �2 + �0 � 2)

�2 (�1 + �0 � 4) (�1 + �0 � 2)2�(�0 + �1x)

2 , x 2 R+, (�1 + �2) > 4

En las �guras 7.17-7.18, podemos ver tres curvas de regresión y cedásticasde la distribución F con parámetros (�0 = 80, �1 = 4, �2 = 2), (�0 = 12, �1 = 8, �2 = 8),(�0 = 5, �1 = 60, �2 = 60). NOTE que el coe�ciente de correlación toma laforma:

� =

s�1�2

(�1 + �0 � 2) (�2 + �0 � 2),

y por lo tanto para estos tres conjuntos de valores la correlación es de0.035, 0.444 y 0.952, respectivamente. Las líneas de regresión tienen unapendiente mayor cuanto mayor sea la correlación y las curvas cedásticas pre-sentan mayor curvatura cuanto mayor es la correlación.

Page 323: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.2. CONDICIONALIDAD Y REGRESIÓN 323

Figura 7.17 Líneas de regresión F.

Figura 7.18 Curvas cedásticas F.

(12) Log Normal Bivariada.

E (Y jX = x) =

�x

�2

��e�1+

12�2, x 2 R+, �2 = �11 �

��212�22

�2 R+,

V ar (Y jX = x) =

�x

�2

�2�e2�1+�

2�e�

2 � 1�, x 2 R+, � =

��12�22

�2 R.

La �gura 7.19 muestra tres funciones de regresión de una distribución log-arítmica normal con parámetros (�1 = 1, �2 = 1, �

2 = 0:4) y tres diferentesvalores de � = 0:2; 0:4; 0:8. NOTE que la diferencia principal entre estascurvas de regresión y las correspondientes curvas cedásticas mostradas en la�gura 7.20 es el factor de escala

�e�

2 � 1�.

Page 324: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

324 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

Figura 7.19 Curvas de regresión Lognormales.

Figura 7.20 Curvas cedásticas Lognormales.

Regresión: distribuciones discretas(13) Binomial bivariada.

E (Y jX = x) = �2 (1� �1) (n� x) ,

V ar (Y jX = x) =�2 (1� �1 � �2)

(1� �1)(n� x) ,

�1 2 [0; 1], �2 2 [0; 1], n = 1; 2; :::; �1 + �2 < 1, x = 0; 1; :::

(14) Poisson bivariada.

E (Y jX = x) = (�2 � �3) +�1�3x, x = 0; 1; 2; :::; �1 > 0, �2 > 0; �3 > 0,

V ar (Y jX = x) = (�2 � �3) +

�[�1 � �3]

�3

�21

�x; x = 0; 1; :::; �3 < min (�1; �2) .

�1 2 [0; 1], �2 2 [0; 1], n = 1; 2; :::; �1 + �2 < 1, x = 0; 1; :::

(15) Binomial negativa bivariada.

E (Y jX = x) =�2

(1� �2)(�1 + x) , x = 0; 1; 2; :::; �2 2 (0; 1) > 0, �1 > 0,

V ar (Y jX = x) =�2

(1� �2)2 (�1 + x) , x = 0; 1; 2; :::

Page 325: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.2. CONDICIONALIDAD Y REGRESIÓN 325

Concluimos esta subsección SEÑALANDO que entre los ejemplos anteri-ores, la normal es la única distribución conjunta con una función de regresiónlineal y una varianza condicional homoscedástica. La mayoría de las distribu-ciones anteriores tienen varianza condicional heterocedástica y varias curvasde regresión no lineales.

6.2.3 Funciones clíticas y cúrticas

La pregunta que surge naturalmente en esta etapa es: ¿por qué considerarsólo las dos primeras funciones momento condicional (regresión y cedástica)en la modelación de la dependencia? Sabemos que en general necesitamosmuchos (a menudo un número in�nito) momentos para caracterizar distribu-ciones (ver capítulo 3). El hecho de importancia es que no hay ningún argu-mento convincente que demuestre que el modelador debe considerar sólo lasdos primeras funciones condicionales momento a menos que se asuma que ladistribución es normal; véase el capítulo 3. Una vez más esta situación surgiódebido a que la distribución normal ha ejercido indebidamente su bien cono-cida in�uencia. En la modelación econométrica hay un enfoque casi exclusivoen la función de regresión con raras excursiones en el territorio de la funcióncedástica. Una mirada super�cial a la literatura econométrica tradicional ac-tual revela, no obstante, una especie de esquizofrenia sobre la especi�cacióndel modelo lineal como es llamado tradicionalmente. Por un lado, los librosde texto tradicionales ensalzan las virtudes del teorema de Gauss Markov,basado en una regresión lineal y una función homocedástica (véase el capí-tulo 13), debido a su falta de con�anza en el supuesto de Normalidad. Lacuestión, sin embargo, que se plantea es: ¿por qué sólo especi�car los dosprimeros momentos condicionales si uno no asume normalidad? Por otrolado, hay un apego inexplicable a la distribución normal, incluso en los casosen los cuales la heterocedasticidad es explícitamente modelada (véase Spanos(1995a)). Además, la tendencia en la modelación de la heterocedasticidades a usar funciones ad hoc en lugar de formas funcionales especí�cas rela-cionadas con la distribución conjunta que no sea la Normal. Los ejemplosanteriores sugieren que hay varias otras distribuciones que dan lugar a difer-entes formas de heterocedasticidad que permanecen sin explorar; ver Spanos(1994) sobre los resultados relativos a la familia simétrica elíptica.La teoría de la probabilidad sugiere que existen buenas razones para creer

que cuando se trata con distribuciones conjuntas elípticas no simétricas, seránnecesarias algunas funciones condicional momento para capturar la depen-

Page 326: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

326 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

dencia de orden superior. Las siguientes dos funciones momento condicionalcentral, introducida por primera vez por Pearson (1905), son los siguientes:(iii) función clítica: E

�[Y � E (Y jX = x)]3 jX = x

�=g3 (x), x 2 RX ,

(iii) función cúrtica: E�[Y � E (Y jX = x)]4 jX = x

�=g4 (x), x 2 RX .

Ejemplos(i) En el caso de la distribución Beta bivariada estas funciones toman

la forma:

E�[Y � E (Y jX = x)]3 jX = x

�=�

2�2�3 (�3 � �2)

(�2 + �3)3 (1 + �2 + �3) (2 + �2 + �3)

�(1� x)3 , x 2 [0; 1]

E�[Y � E (Y jX = x)]4 jX = x

�=

"3�2�3

�2�22 � 2�2�3 + �22�3 + 2�

23 � �2�

23

�(�2 + �3)

4 (1 + �2 + �3) (2 + �2 + �3) (3 + �2 + �3)

#(1� x)4 ,

Como podemos ver, la distribución Beta bivariada proporciona funcionesheteróclitas y heterocúrticas. Los conceptos y la terminología homóclita /heteróclita fue introducida por Pearson (1905).(ii) En el caso de la distribución t de Student bivariada estas funciones

tienen la forma:

E�[Y � E (Y jX = x)]3 jX = x

�= 0, x 2 R,

E�[Y � E (Y jX = x)]4 jX = x

�=3 (v � 1)(v � 3) [V ar (Y jX)]

2 , x 2 R.

Como podemos ver, la distribución t de Student bivariada produce fun-ciones homóclitas y heterocúrticas; esta última es una forma especial siendouna función de la función cedástica. Ambas características se deben a lanaturaleza elíptica de la distribución.

Page 327: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA 327

6.3 Reducción y condicionalidad estocástica

Después de haber tratado el problema de muchas distribuciones condicionalesmediante la ampliación del concepto de momentos a funciones condicionalesmomento, regresemos a la reducción original:

f (x; y;�) = f (yjx;'2) fX (x;'1) , para todo (x; y) 2 RX � RY . (7.19)

Observemos que en el lado derecho existe una familia de densidades condi-cionales, donde se pondera cada una por la probabilidad marginal correspon-diente. En la de�nición de las funciones momento condicional:

hr (x) = E (Y rjX = x) , x 2 RX

ignoramos el peso marginal y nos concentramos exclusivamente en la fa-milia de las densidades condicionales ff (yjX = x;'2) , (x; y) 2 RX � RY g.En cierto sentido, esto equivale a suponer que los diferentes valores que tomala variable aleatoria X ocurren con una probabilidad de uno:

hr (x) = E (Y rjX = x) , donde P (X = x) = 1, para todo x 2 RX . (7.20)

Sin embargo, como se muestra en (7.19) esto no es del todo correcto. Unaforma más apropiada de especi�car estas funciones es la de tener en cuentalas probabilidades marginales asociadas a los diferentes valores x 2 RX . Elproblema es especi�car estas funciones sin dejar de lado el hecho de que losdiferentes valores de X ocurren con diferentes probabilidades dadas por ladensidad marginal f (x;'1). NOTE una vez más que en el caso de variablesaleatorias continuas, como se mencionó en el capítulo 3, los pesos no sonprobabilidades propias.La manera formal de hacer frente a este problema consiste en ampliar el

concepto de condicionalidad un paso más allá: para dar cuenta de todos loseventos asociados con la variable aleatoria X; no sólo de su rango de valores.Es decir, en vez de concentrarse exclusivamente en los eventos condicionantesde la forma:

fs : X (s) = xg , para todo x 2 RX ,

Page 328: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

328 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

en el contexto del espacio de probabilidad (S;=; P (:)), consideramos el �-campo generado por la variable aleatoria X (para todos los posibles eventosasociados a X; ver capítulo 3):

� (X) := ��X�1(�1; x]

�2 = para todo x 2 RX .

Esto nos permite de�nir las funciones estocásticas condicional momento:

hr (x) = E (Y rj� (X)) , para X~DX (:) , (7.21)

donde DX(:) denota la distribución marginal de la variable aleatoria X.Este condicionamiento es signi�cativo, porque � (X) � =. La cuestión, sinembargo, es: ¿qué sentido atribuimos a tales funciones estocásticas condi-cionales? Es obvio que las funciones hr (x) = E (Y rj� (X)) son diferentesde aquellas en (7.20), porque las primeras son variables aleatorias, siendouna función de la variable aleatoria X; por lo tanto una variable aleatoriaen sí misma! Se ven como momentos condicionales pero son estocásticos ennaturaleza!NOTA: sin pérdida de generalidad nos concentramos en el caso simple

r = 1. Esto se debe a que para cualquier variable aleatoria Z y cualquierfunción de la forma Zr podemos de�nir una nueva variable aleatoria Y = Zr.

6.3.1 Signi�cado de E (Y rj� (X))En primer lugar, encontramos condicionamiento en el contexto del espacio deprobabilidad (S;=; P (:)) en relación con los eventos A;B 2 =. Recordamosal lector que el concepto matemático de probabilidad P (:) requiere que elmodelador especi�que el conjunto de todos los eventos de interés relacionadoscon S, por ejemplo, =, y la con�guración de matemática es de�nida porel espacio de probabilidad (S;=; P (:)). En este contexto, la probabilidadcondicional de A dado B toma la forma:

P (AjB) = A \BP (B)

, para P (B) > 0,

y el condicionamiento sobre B puede ser intuitivamente entendido como"se sabe que el evento B ha ocurrido. " El condicionamiento en general sede�ne en relación al conocimiento de que cierto evento(s) ha ocurrido. Eneste sentido, la densidad condicional:

Page 329: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA 329

f (yjx) = f (x; y)

fX (x), y 2 RY ,

debe ser entendida como la densidad revisada de la variable aleatoria Y ,dado que el evento fs : X (s) = xg ha ocurrido. En este punto es fundamentalhacer hincapié una vez más que una distribución condicional se de�ne en unvalor particular de la variable condicionante. Usando la densidad condicionalpodemos de�nir la esperanza condicional sin ambigüedades como:

E (Y jX = x) =

Zy2RY

yf (yjx) dy.

En vista de la discusión anterior la expresión:

E (Y jX) (7.22)

no tiene sentido matemático porque la condicionalidad no es relativa a unevento; una variable aleatoria no es un evento (un subconjunto del conjuntode resultados de referencia S). Intuitivamente, sin embargo, sabemos quepara cada valor X = x, está bien de�nida y así uno puede pensar en (7.22)como una función de X y, por lo tanto, una variable aleatoria en sí misma.Nuestra intuición es ciertamente correcta, pero necesitamos formalizarla.Para una variable aleatoria X de�nida sobre S, el evento fs : X (s) = xgconstituye un elemento de =, en el sentido de que X�1 (x) 2 =. En efecto,por de�nición (ver capítulo 3):

X�1 (x) 2 =, para todos lo valores x 2 RX .

En vista de esto podemos deducir que la única forma en la cual (7.22)podría tener sentido matemático es convertir la variable aleatoria condicio-nante en un conjunto de eventos. Es decir, de�nir � (X): el �-campo de�nidopor la variable aleatoria X (ver capítulo 3). En este sentido, la esperanzacondicional:

E (Y j� (X)) (7.23)

debe ser signi�cativa, ya que, al menos intuitivamente, ésta representala experanza dado que "algún evento relacionado con X ha ocurrido". Elsentido común sugiere que la experanza normal E(Y ) se puede ver desdeeste punto de vista como

Page 330: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

330 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

E (Y jÐ0) , donde Ð0 = fS;?g , el espacio trivial de evento (no informativo).

Desde este punto de vista � (X) constituye una restricción sobre = (todoinformativo) en el sentido de que (ver capítulo 3):

fS;?g � � (X) � =.

Habiendo acordado que (7.23) tiene sentido intuitivo necesitamos asegurarque también tiene sentido matemático.Un caso simple. Antes de considerar el caso general, vamos a discutir

primero el caso en que ambas variables aleatorias X e Y son discretas ytoman solamente un número �nito de valores, es decir:

RY := fy1; y2; :::; yng , RX := fx1; x2; :::; xmg .

En este caso la media condicional (7.23) se puede pensar en términos delos eventos:

ß:= fBk, k = 1; 2; :::;mg , donde Bk := fs : X (s) = xkg , (7.24)

que constituyen una partición de S, en el sentido de que:

S =[m

k=1Bk, y Bk \Bi = ?, i 6= k, i; k = 1; 2; :::;m.

En términos de estos eventos podemos pensar en � (X) como de�nido porsus 2m uniones; ni intersecciones ni complementos son necesarios porque ßconstituye una partición de S.EjemploConsideremos el ejemplo de lanzar una moneda dos veces, S = f(HH); (HT ); (TH); (TT )g,

se elige que = sea el conjunto potencia y se de�nen las variables aleatorias:

X(TT ) = 0; X(HT ) = X(TH) = 1; X(HH) = 2;

Y (TT ) = Y (HH) = 2; Y (HT ) = Y (TH) = 1.

Tomando la preimagen de la variable aleatoria X podemos ver que:

Page 331: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA 331

B0 = X�1(0) = f(TT )g; B1 = X�1(1) = f(HT ); (TH)g; B2 = X�1(2) = f(HH)g;

mostrando que esto constituye una partición de S, ya que:

B0 \B1 = ?; B1 \B2 = ?; B0 \B2 = ? y S = B0 [B1 [B2.

Por lo tanto,

�(X) = fS;?; B0; B1; B2; B0 [B1; B0 [B2; B1 [B2g.Regresando a la media condicional (7.23), podemos verla en términos de

los eventos Bk:

E (Y jXk = xk) =Xn

i=1yi�P (Y = yijX = xk) , k = 1; 2; :::;m, (7.25)

que de�ne una sucesión de medias condicionales, una para cada valor deX, donde:

P (Y = yijX = xk) =P (Y = yi, X = xk)

P (X = xk), i = 1; 2; :::; n k = 1; 2; :::;m.

(7.26)En este sentido las diferentes medias condicionales en (7.25) pueden in-

terpretarse en términos de la variable aleatoria:

Z (:) := E (Y (:) j� (X(:))) : S ! R, (7.27)

de tal manera que cuando X(s) = xk entonces Z(s) = zk; k = 1; 2; :::;m.Además, sustituyendo (7.26) en (7.25) y reordenando los términos resulta:

E (Y jXk = xk) �P (X = xk) =Xn

i=1yi�P (Y = yi; X = xk) , k = 1; 2; :::;m.

En esta etapa debemos resistir la tentación de interpretar la media condi-cional (7.23) como la suma:

Xm

k=1E (Y jXk = xk) �P (X = xk) =

Xm

k=1

Xn

i=1yi�P (Y = yi; X = xk) ,

(7.28)

Page 332: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

332 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

porque, como se mostró anteriomente, � (X) involucra más eventos quesólo

[m

k=1Bk. Un momento de re�exión, sin embargo, sugiere que esta suma

(7.28) de�ne la media condicional estocástica:

E (Y (:) jß) : S ! R.

Recordemos que yendo deßtal como se de�ne en (7.24) (no un �-campo)a � (X) sumamos todas las uniones de los eventos Bk 2ß, la variable aleatoria(7.27) se puede pensar en términos de todos los eventos de B 2 � (X) como:

XB2�(X)

E (Y j� (X)) �P (B) =X

B2�(X)

Xn

i=1yi�P (Y = yi; B) , para todo B 2 � (X)

(7.29)Es claro que E (Y j� (X)) es una variable aleatoria en relación con � (X).EjemploConsidere la siguiente distribución conjunta:

x/y -1 0 1 f (x)-1 0.1 0.2 0.1 0.41 0.2 0.1 0.3 0.6

f (y) 0.3 0.3 0.4 1

(7.30)

La distribución(s) condicional de (Y jX = x) para x = �1 y x = 1 sonlas siguientes:

y �1 0 1f (yjx = �1) 1

412

14

,y �1 0 1

f (yjx = 1) 13

16

12

(7.31)

Además, las medias condicionales en estos casos son:

E (Y jX = �1) = (�1) 14+ 0

1

2+ 1

1

4= 0,

E (Y jX = 1) = (�1) 13+ 0

1

6+ 1

1

2=1

6.

E (Y j� (X)) es una variable aleatoria en relación con � (X) en el sentidode que puede tomar dos valores

�0; 1

6

�, con probabilidades (0:4; 0:6), respec-

tivamente:

Page 333: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA 333

x �1 1P (X = x) 0:4 0:6E (Y j� (X)) 0 1

6

(7.32)

El caso más general. Libros matemáticamente más inclinados expresan(7.29) en el caso general, donde (X; Y ) son variables aleatorias arbitrarias,utilizando la expresión más bien poco apetecible:Z

B

E (Y j� (X)) �dP =ZB

Y �dP para todo B 2 � (X) . (7.33)

Esto dice que el promedio de E (Y j� (X)) sobre B es el mismo mismoque la media de Y misma sobre todos los subconjuntos B � � (X) � =.NOTE que en general Y 6= E (Y j� (X)) porque Y no es necesariamente

una variable aleatoria en relación con � (X). Este resultado fue probadopor primera vez por Kolmogorov (1933a), pero las matemáticas necesariaspara deducir la relación anterior con rigor son bastante exigentes (ver Ash(1972) para una deducción más rigurosa). Sin embargo, una comprensiónintuitiva de (7.33) puede ser adquirida viendo la esperanza como un operadorsuavizado.La manera más conveniente para deshacerse de las integrales poco apeteci-

bles (o sumatorias) en (7.33) (y (7.29)) es utilizar la función indicador encombinación con el operador esperanza, es decir:Z

B

Z�dP := E [Z�IB] .

donde IB denota la función indicador del conjuntoB: IB (s) =�1, si s 2 B,0, si s =2 B.

�.

Esto nos permite expresar (7.33) en la forma menos intimidante:

E [E (Y j� (X)) �IB] = E [Y �IB]ZB

Y �dP para todo B 2 � (X) . (7.34)

NOTA: en vista del hecho de que � (X) incluye todas las posibles fun-ciones de Borel de la variable aleatoria X, podemos de�nir E (Y j� (X)) entérminos de dichas funciones a través de:

E [E (Y j� (X)) �g (X)] = E [Y �g (X)] , para toda función Borel g (X) .(7.34)

Page 334: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

334 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

suponiendo que E [Y �g (X)] <1; ver Parzen (1962).Una extensión más. La anterior de�nición de esperanza condicional

(7.34) en el contexto del espacio de probabilidad (S;=; P (:)), se puede ex-tender aún más a:

E [E (Y jÐ) �ID] = E [Y �ID] , para toda D 2 Ð � =,

donde la de�nición de la variable aleatoria E (Y jÐ) gira en torno a laelección de Ð. En uno de los extremos del espectro podemos elegir que Ð seasubcampo no informativo: Ð:= fS;Og en cuyo caso:

E (Y jÐ0) = E (Y ) ,

donde Y0 := E (Y jÐ0) puede ser visto como una variable aleatoria degen-erada de la forma:

Y0 (:) : S ! E (Y ) , con probabilidad uno (w:p:1) .

NOTE que esta es una variable aleatoria con respecto a cualquier Ð� =;todos los �-campos incluyen fS;Og. Vista como una operación suavizada,la variable aleatoria Y es completamente suavizada a una constante. En elotro extremo del espectro podemos elegir que Ð sea el sub �� campo todoinformativo (para Y ): ÐY := � (Y ), en cuyo caso el condicionamiento dalugar a:

E (Y jÐY ) = Y , donde Y (:) : S ! RX .

Viendo las esperanzas condicionales como una operación de suavizado,la variable aletoria Y se deja intacta. NOTE que, en general, Y no es unavariable aleatoria con respecto a Ð0. Entre esos dos casos extremos, podemoselegir que Ð sea cualquier sub �-campo, tal que:

Ð \ÐY = Ð� 6= ?. (7.35)

Esto nos permite pensar en Ð�como la cantidad de información acercade Y que Ð contiene y E (Y jÐ) puede ser vista como una operación desuavizado cuyo efecto es inversamente proporcional a la proximidad de Ð�aÐ. En particular, la elección Ð0 := fS;?g no contiene información acerca deY (obteniéndose una variable aleatoria degenerada) y la elección ÐY contienetoda la información relevante acerca de Y (obteniéndose la variable aleatoria

Page 335: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA 335

Y misma). La elección ÐX := � (X) para la que (7.35) se mantiene, darálugar a cierta suavización de Y que se encuentra entre estos dos extremos.Función estocástica esperanza condicional. Recopilando los hilos

de todo lo expuesto, de�nimos E (Y j� (X)) como una variable aleatoria quesatisface las siguientes propiedades:(i) E (Y j� (X)) es una variable aleatoria en relación con � (X),(ii) E (Y j� (X)) = h (X) para alguna h (:) : R! R,(iii) E [E (Y j� (X)) �IB] = E ([Y �IB]), para toda B 2 � (X).NOTE que necesitamos establecer la existencia, así como la unicidad

de E (Y j� (X)). La existencia es establecida por la derivación matemáticade (7.33) (utilizando la derivada llamada de Radon-Nikodym). La unici-dad de la esperanza condicional E (Y j� (X)) = h (X) también se deriva delmismo aparato matemático, pero es una unicidad casi segura (c.s) (véase elcapítulo 3) que dice que para cualesquiera par de esperanzas condicionalesE (Y j� (X)) = h1 (X) y E (Y j� (X)) = h2 (X), debe ser cierto que:

P (h1 (X) = h2 (X)) = 1 o h1 (X) = h2 (X) c.s.

Este concepto de esperanza condicional se puede extender a cualquier sub�-campo Ð� =, ya que siempre podemos encontrar una variable aleatoria Xtal que � (X) =Ð, en el sentido de que todos los eventos (X � x) 2Ð, paratodo x 2 R. Esta es otra manera de decir que la información Ð transmiteal modelador lo que la variable aleatoria X tiene. NOTE que X podría serfácilmente un vector aleatorio.EjemploEs interesante observar los dos casos extremos de dicha esperanza condi-

cional los cuales que son:

E (Y jfS;?g) = E (Y ) , E (Y j=) = Y .

La primero se sigue del hecho de que Ð0 no es informativo y lo segundoporque = incluye toda la información relevante incluyendo � (X).

6.3.2 Determinando hr (X) = E (Y rj� (X))Una vez establecida la existencia y la unicidad c.s. de E (Y rj� (X)), pro-cedemos a considerar el problema de determinar la forma funcional de hr (X) =E (Y rj� (X)). El sentido común sugiere que la similitud entre (7.20) y (7.21)

Page 336: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

336 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

se trasladará a las formas funcionales. Es decir, cuando las funciones ordi-narias condicional momento toman la forma:

E (Y rjX = x) = hr (x) , x 2 RX , r = 1; 2; :::;

interpretamos las funciones estocásticas condicionales momento como

E (Y rj� (X)) = hr (X) , para X~DX (:) , r = 1; 2; ::: (7.36)

En este sentido se puede conjeturar que:

E (Y rjX = xi) = hr (xi) , para todo xi 2 RX ) E (Y rj� (X)) = hr (X) .(7.37)

Esta conjetura resulta ser válida. Es decir, la forma funcional ordinaria ylas correspondientes funciones estocásticas momento condicional coinciden.La única diferencia es que las funciones estocásticas momento condicionalson variables aleatorias.La pregunta que surge naturalmente es ¿cómo se determina la función

hr (x) en primer lugar. La respuesta desde el punto de vista de modelaciónes que tanto las densidades condicionales como las funciones condicionalesmomento se determinan por la densidad conjunta como se muestra en (7.19).Sin embargo, esta respuesta no siempre es posible y necesitamos que consid-erar formas alternativas para determinar estas funciones. Una vez más, sinpérdida de generalidad consideramos el caso simple r = 1.De�niendo la propiedad. SeanX e Y dos variables aleatorias de�nidas

en el mismo espacio de probabilidad (S;=; P (:)) tal que E(jY j) < 1, en-tonces:

E (Y j� (X)) = h (X) , de�nida a través de: E [(Y � h (X)) �g (X)] = 0, para toda g (:) .(7.38)

donde g(:) : R! R es cualquier función acotada Borel.

6.3.3 Propiedades de la esperanza condicional estocás-tica

De la discusión anterior es evidente que cualquier intento de poner en prác-tica la reducción de la distribución conjunta en (7.3) requerirá no sólo la

Page 337: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA 337

distribución condicional ordinaria o la forma encontrada en el capítulo 6,sino productos de la forma:

f (x; y;�) = f (yjx; 2) �f (x; 1) , para todo (x; y) 2 RX � RY . (7.39)

Como se dijo antes, el concepto de las correspondientes funciones condi-cionales momento cambian a:

E (Y rj� (X)) = hr (X) , r = 1; 2; :::

Con el �n de ser capaces de manejar esos momentos aleatorios pro-cedemos a establecer ciertas propiedades útiles de la esperanza condicionalE (Y j� (X)). Observemos en primer lugar que, para los propósitos de la dis-cusión que sigue E (Y jX = x) puede ser provechosamente visto como un casoespecial de E (Y j� (X)).Considere las tres variables aleatorias X, Y y Z de�nidas en el mismo

espacio de probabilidad (S;=; P (:)), cuyos momentos, como se requiere encada caso, existen. La primera propiedad importante es que la esperanzacondicional tiene la misma estructura matemática lineal que la experanzaordinaria (ver capítulo 3).LinealidadEC[1]. E (aX + bY j� (Z)) = aE (Xj� (Z)) + bE (Y j� (Z)), a; b, con-

stantes.Esta propiedad puede ser fácilmente adaptada al caso especial: E (aX + bY jZ = z).Una segunda propiedad importante es que la esperanza condicional está

relacionada con la experanza ordinaria, tomando otra experanza con respectoa la variable condicionante.La ley del logaritmo iterado (lie)EC[2]. E (Y ) = E [E (Y j� (X))].Esta propiedad se deduce directamente de la de�nición de esperanza

condicional ya que:

E�E (Y j� (X)) �I�(X)

�= E

��Y �I�(X)

��= E (Y ) .

NOTA: la esperanza doble se de�ne como sigue:

E [E (Y jX)] =1Z

�1

24 1Z�1

y�f (yjx) dy

35 �f (x) dx.

Page 338: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

338 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

En otras palabras, para derivar la media (marginal) haciendo uso de lamedia condicional, tomamos esperanzas de la esperanza condicional, con re-specto a la distribución marginal de la variable aleatoria X.EjemploConsidere la distribución conjunta (7.30) junto con las densidades condi-

cionales (7.31). Vamos a obtener E(Y ) a través de las experanzas condi-cionales. La propiedad CE2 sugiere tomar esperanzas de E(Y jX) sobre Xes decir,

E(Y ) = (0:4)E(Y jX = �1) + (0:6)E(Y jX = 1) = 0:1;

que coincide con la evaluación directa de la esperanza:

E(Y ) = (�1)(0:3)0(0:3) + 1(0:4) = 0:1:Del mismo modo, la distribución(es) condicional de x dado y = �1; 0; 1

se dan a continuación:

x �1 1f (xjy = �1) 1

323

,x �1 1

f (xjy = 0) 23

13

;x �1 1

f (xjy = 1) 14

34

E (XjY = �1) = (�1) 13+ (1) 2

3= 1

3,

E (XjY = 0) = (�1) 23+ (1) 1

3= �1

3,

E (XjY = 1) = (�1) 14+ (1) 3

4= 1

2,

E (X) = (0:3)E (XjY = �1) + (0:3)E (XjY = 0) + (0:4)E (XjY = 1) =0:2,lo cual coincide con la evaluación directa: E (X) = (�1) (0:4)+(1) (0:6) =

0:2.Una tercera propiedad de la esperanza condicional es que cualquier fun-

ción de Borel de la variable aleatoria X (que es una variable aleatoria enrelación con � (X)) pasa a través del condicionamiento inalterada.Tomando lo que es propiedad conocidaEC3. E (h (Y ) �g (X) j� (X)) =g(X)�E (h (Y ) j� (X)).Esta propiedad implica que en el caso donde Y es una variable aleatoria

en relación con � (X):

E (Y j� (X)) = Y c.s.

El propiedad EC3 puede ser fácilmente adaptada al caso especialE (h (Y ) �g (X) jX = x),y se puede utilizar para mejorar nuestra intuición. Cuando una variable

Page 339: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.3. REDUCCIÓN Y CONDICIONALIDAD ESTOCÁSTICA 339

aleatoria condicionante es "clavada" en un cierto valor X = x, esto indirec-tamente "clava" todas las funciones de X.EjemploConsidere las funciones h (Y ) =

pY , g(X) = X2:

E (h (Y ) �g (X) jX = �1) = (�1)2E�p

Y jX = �1�= E

�pY jX = �1

�.

Estas propiedades son especialmente útiles en el contexto de modelos deregresión por numerosas razones que se discutirán en las próximas secciones.En este punto es instructivo utilizar estas propiedades a �n de obtener unresultado importante en relación a las regresiones lineales.Ejemplo. En el caso de la distribución normal bivariada la media condi-

cional toma la forma:

E (Y j� (X)) = �0 + �1X (7.40)

donde los parámetros (�0; �1) adoptan la forma dada en (7.10). Si par-timos de (7.40), la pregunta que surge es: ¿cómo los parámetros �0 y �1se relacionan con los momentos de f (x; y)? Usando la lie (EC2) podemosdeducir que E (Y ) = �0 + �1E (X), es decir,

�0 = E (Y )� �1E (X) . (7.41)

Aplicando las propiedades lie (EC2) y el "sacar lo que se conoce" (EC3)podemos deducir que:

E (X�Y ) = E [E (X�Y j� (X))] = E [X�E (Y j� (X))] .

Sustituyendo la forma de la media estocástica condicional signi�ca quepodemos deducir que:

E (X�Y ) = E [X�E (�0 + �1X)] = E fX�E (Y )� �1 [E (X) + �1X]g= E (X) �E (Y ) + �1E f[X � E (X)] �Xg= E (X) �E (Y ) + �1

�EX2 � E (X) �E (X)

= E (X) �E (Y ) + �1

�E�X2�� [E (X)]2

= E (X) �E (Y ) + �1V ar (X)

) Cov (X;Y ) = E (X�Y )� E (X) �E (Y ) = �1V ar (X) ,

�1 =Cov (X; Y )

V ar (X). (7.42)

Page 340: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

340 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

Este resultado implica que, independientemente de la naturaleza de ladensidad conjunta f(x; y), si la función de regresión es lineal, cuando se ex-presa en la forma E (Y j� (X)) = �0 + �1X, los parámetros �0 y �1 estánrelacionados con los momentos de f(x; y) a través de (7.41) y (7.42). Tam-bién tenga en cuenta que, en vista de la relación entre la covarianza y elcoe�ciente de correlación Corr(X; Y ) = Cov(X;Y )p

V ar(X)�pV ar(Y )

5, b1 también se

puede expresar en forma equivalente:

�1 =

"sV ar (Y )

V ar (X)

#Corr (X; Y ) .

Esta es la razón por la cual en la sección 2 relacionamos las funcionesde regresión lineal con el coe�ciente de correlación, incluso en los casos dedistribuciones no simétricas donde la correlación no es una medida adecuadade la dependencia de distribución. La conclusión es que cuando uno postula(7.40) la parametrización implícita coincide con la parametrización bajo elsupuesto de normalidad bivariada dado en (7.10).

La propiedad mejor pronóstico de mínimos cuadrados[EC4]. E [Y � E (Y j� (X))]2 � E [Y � g (X)]2 para toda g(:).Esto signi�ca que de entre todas las posibles funciones g(:) deX,

�E [Y � g (X)]2

�,

la distancia, conocida como el error cuadrático medio (ECM):E [Y � g (X)]2,es minimizada por la función: g(X) = E (Y j� (X)).Es decir, la media condicional proporciona el mejor predictor del error

cuadrático medio. Esta es una propiedad particularmente muy útil porquehace a la esperanza condicional la opción obvia para un predictor (regla depronóstico).

La última propiedad de esperanza condicional estocástica está relacionadocon el tamaño del conjunto de información condicionante.

La propiedad del corsé[EC5]. E fE (Y j� (X;Z) j� (X))g = E ffE (Y j� (X))g j� (X;Z)g = E (Y j� (X)).La intuición que subyace a esta propiedad es que en condicionamiento se-

cuencial el conjunto más pequeño de información (note que � (X) � � (X; Y ))domina el condicionamiento. Igual que usar dos corsés; el más pequeño dom-inará independientemente del orden en el que los lleve puestos!

Page 341: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.4. EXOGENEIDAD DÉBIL� 341

6.4 Exogeneidad débil�

En las dos secciones anteriores hemos discutido la cuestión de hacer frente ala reducción:

f (x; y;�) = f (yjx;'2) �f (x;'1) , para todo (x; y) 2 RX � RY . (7.43)

En la sección 2 ignoramos la distribución marginal f (x;'1) y se argu-mentó que podemos hacer frente a las muchas distribuciones condicionales(una para cada valor de X) extendiendo el concepto de momentos condi-cionales a funciones. En la sección 3 hemos extendido el concepto de fun-ciones condicionales momento a su versión estocástica que toma en cuentalos pesos como los de�nidos por la distribución marginal.La pregunta que naturalmente surge en esta etapa es si existen circun-

stancias en las que el modelador pueda en realidad hacer caso omiso de ladistribución marginal y modelar en términos de las funciones momento condi-cional. Esto sería útil porque haciendo caso omiso de la distribución marginalreducimos el número de parámetros desconocidos y por lo tanto resolvemosel problema de sobreparametrización. Como se ha dicho en la introducción,la reducción en (7.3) no ofrece ningún alivio al problema de la sobrepara-metrización. A �n de que la discusión sea menos abstracta vamos a discutiresta cuestión en relación con un ejemplo especí�co.EjemploComo mostramos anteriormente, en el caso en el cual f (x; y;�) es nor-

mal bivariada como la dada en (7.9), las densidades condicional y marginaltambién son normales:

(Y jX = x) ~N��0 + �1X; �

2�, x 2 R, X~N (�2; �22) ;

�0 = �1 � �1�2; �1 =

��12�22

�; �2 = �11 �

��212�22

�(7.44)

La reducción ha provocado una reparametrización de la forma: � !('1; '2) :

� := (�1; �2; �12; �11; �22) 2 � :=�R3 � R2+

�;

'1 := (�2; �22) 2 �1 := (R� R+) ;'2 := (�0; �1; �

2) 2 �2 := (R2 � R+) ;pero el número de parámetros desconocidos no ha cambiado.

Page 342: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

342 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

Esto sugiere que a menos que haya alguna forma de ignorar ciertos parámet-ros, por ejemplo los parámetros '1 de la distribución marginal, no hay unaverdadera simpli�cación del problema de la modelación, ya que, en ciertosentido, todavía estamos tratando con la distribución conjunta. La preguntaque surge naturalmente en esta etapa es en qué medida podemos concen-trarnos exclusivamente en la distribución condicional y sus parámetros en elcaso donde la distribución marginal no es de interés intrínseco. La respuestaen pocas palabras es que depende de cómo los dos conjuntos de parámet-ros '1 2 �1, '2 2 �2 se restrinjan entre sí. La respuesta es a�rmativa enel caso de que �2 (el conjunto de valores permisibles de '2) no es afectadopor cualquiera de los valores tomados por '1 2 �1 y viceversa; pero no deotra manera. El concepto que necesitamos es el llamado variación libre(variation freeness).Variación libre. Decimos que '1 y '2 son de variación libre si para

todos los valores de '1 2 �1, el rango de valores posibles de '2 permaneceen el espacio original de parámetros y no en algún subconjunto propio de él.Utilizando el concepto de variación libre, podemos dar una respuesta

más formal a la pregunta anterior sobre si podemos concentrarnos en ladistribución condicional.Exogeneidad débil. En el caso donde los parámetros de interés son

sólo aquellos de '2 (o alguna función de ellos) y '1 y '2 son variación libre,entonces se dice que X es débilmente exógena con respecto a '1 y f (x;'1)puede ser ignorada. En los casos donde X no es débilmente exógena conrespecto a '1 necesitamos construir el modelo estadístico teniendo en cuentalas distribuciones condicional y marginal en (7.43); (véase Engle, Hendry yRichard (1983)).El concepto de exogeneidad débil se ilustra a continuación en el contexto

de ejemplos especí�cos, empezando por el caso Normal de dos variables.(i) Normal bivariada. En el caso donde f (x; y;�) es Normal bivariada,

como aparece en (7.9), notemos que '1 2 �1 := R�R+ y '2 := (�0; �1; �2) 2�2 := R2 � R+. Por lo tanto, se puede argumentar que X es débilmenteexógena con respecto a '2, ya que no importa qué valores de '1 en �1 seeligen, los parámetros '2 pueden tomar todos sus posibles valores en �2.(ii) t de Student bivariada. En el caso de la distribución t de Student

bivariada con v > 2 grados de libertad, denotada por:�YX

�~St

���1�2

�;

��11 �12�21 �22

�; v

�(7.45)

Page 343: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.4. EXOGENEIDAD DÉBIL� 343

la densidad condicional de Y dado X = x y la densidad marginal de Xtambién son también t de Student de la forma:

(yjX = x) ~St

��0 + �1X;

v�2

v � 1

�1 +

1

v�22[x� �2]

2

�v + 1

�, x 2 R.

X~St (�2; �22; v) (7.46)

donde los parámetros (�0; �1; �2) coinciden con los de la Normal bivariada

(ver (7.44)). La parametrización involucrada toma la forma:� := (�1; �2; �12; �11; �22) 2 � :=

�R3 � R2+

�;

'1 := (�2; �22) 2 �1 := (R� R+) ;'2 := (�0; �1; �2; �22; �

2) 2 �2 :=�R3 � R2+

�.

En vista de estos resultados podemos argumentar que X no es débilmenteexógena con respecto a '2, porque los valores de parámetros tomados por'2 en �2 pueden ser directamente restringidos a través de '1 debido a que(�2; �22) aparecen en los dos conjuntos de parámetros desconocidos. Comoresultado de esto, la modelación no puede ignorar la distribución marginal deX, incluso si los parámetros de interés son aquellos en '2. En este sentido,la condicionalidad anterior es bastante engañosa; deberíamos haber utilizadoen su lugar condicionalidad sobre �-campo �(X), con la regresión y curvascedásticas siendo:

E (Y j�(X)) = �0 + �1X, V ar (Y j�(X)) =v�2

v � 1

�1 +

1

v�22[x� �2]

2

�(7.47)

Concluimos esta sección haciendo notar dos características importantesde exogeneidad débil.(i) El concepto de exogeneidad débil está inextricablemente ligado a la

distribución conjunta y su parametrización en relación a la de las distribu-ciones condicionales y marginales.(ii) Teniendo en cuenta los resultados en las dos secciones anteriores, es

probable que exogeneidad débil sea la excepción y no la regla en la práctica.

Page 344: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

344 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

6.5 El concepto de mecanismo generador es-tadístico (MG)

Como se ha argumentado en el capítulo 1, para que los datos observados pro-porcionen evidencia sin prejuicios en la evaluación de la validez de una ciertateoría, es imperativo que construyamos el modelo estadístico (un resumenconveniente de los datos) en términos de conceptos no teóricos (non-theoryconcepts). En los capítulos 2-6 introdujimos varios conceptos probabilísti-cos que tienen por objeto sentar los fundamentos y el andamiaje del marcode referencia en el contexto del cual tales modelos estadísticos se puedenconstruir. El concepto de modelo estadístico de�nido hasta el momento sólocuenta con dos componentes, los modelos de probabilidad ymuestral. Aunqueesto es su�ciente para modelos estadísticos simples, para la modelación defenómenos económicos que muestran dependencia y heterogeneidad necesita-mos introducir un tercer componente que llamamosmecanismo generadorestadístico (MG). El objetivo principal de este componente es proporcionarun puente entre el modelo estadístico y el modelo teórico sugerido por lateoría económica. El objetivo último de la modelación empírica no es sóloel resumen de la información sistemática en los datos en forma de un mod-elo paramétrico parsimonioso, sino el uso de estos modelos para entenderfenómenos económicos. En este sentido, relacionar tales modelos estadísti-cos con los modelos de la teoría económica es de fundamental importancia.En este libro relacionar un modelo estadístico adecuado con los modelos dela teoría económica en cuestión se llama identi�cación (ver también Spanos(1986,1990)).

6.5.1 El ángulo de visión de la teoría

La tesis anterior debe ser contrastada con el enfoque de libro de texto tradi-cional a la modelación econométrica (véase, en particular Gujarati (1995)),que asume desde el principio que el MG estadístico y el modelo teórico coinci-den, además de algún término de error, independientemente de la naturalezay la estructura de los datos observados. Consideremos la teoría-modelo cono-cida como la hipótesis de ingreso absoluto:

Ct = �+ �Y D, donde � > 0, 1 < � < 1,

NOTA. En el libro de Spanos dice "Ct = a + �Y D, donde � > 0,

Page 345: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.5. EL CONCEPTODEMECANISMOGENERADORESTADÍSTICO (MG)345

1 < b < 1" (p. 68). En la ecuación y en las desigualdades loscoe�cientes no son los mismos.donde C y Y D designan las variables teóricas consumo e ingreso, respec-

tivamente. Este modelo es metamorfoseado en el Modelo de Regresión lineal:

Ct = �+ �Y Dt + "t, "t~NIID

�0; �2

�, t = 1; 2; :::; Y . (7.48)

(I) pretendiendo que estas variables de la teoría coinciden con lo que losdatos observados disponibles pretenden medir y

(ii) adjuntando un término de error ruido blanco (normal) al modelo dela teoría.

Ni que decir tiene que (i) es infantil ingenuo y (ii) destruye al principiocualquier posibilidad de que los datos podrían proporcionar evidencia sin pre-juicios en la evaluación de la validez de la teoría en cuestión. El modeladorsimplemente forza la teoría a los datos y luego procede a jugar morfogeométri-camente ("Procrustes"); corta los trozos que parecen sobresalir! Además,este punto de vista da la impresión de que un modelo teórico en la formade una ecuación lineal entre dos variables observables es un requisito previopara que el modelador sea capaz de especi�car un modelo de regresión lineal.Esto constituye el ángulo de visión de la teoría: viendo (7.48) de derechaa izquierda, como un mecanismo que genera Ct dado

�Y Dt ; "t

�. El argumento

es que este punto de vista asume que:

(a) el término de error "t es una prótesis autónoma al modelo teórico,

(b) los parámetros teóricos (�; �) gozan de una interpretación clara dela teoría (� es el ingreso de subsistencia, � es la propensión marginal alconsumo), que son los invariantes del sistema y sin relación con las vari-ables

�Y Dt ; "t

�. Este ángulo de visión es adecuado para analizar los aspectos

teóricos del modelo de la teoría como un sistema, pero puede ser miope yengañoso cuando se utiliza para analizar los aspectos estadísticos del modelo.Para este último caso tenemos que introducir un punto de vista alternativoque contemple (7.48) en términos puramente probabilísticos y está directa-mente integrado en la estructura de los datos observados. Este punto de vistacontempla (7.48) como un MG estadístico que, en pocas palabras, constituyeuna descomposición ortogonal de la variable aleatoria Ct dado la conjuntode información asociado con el valor de la variable aleatoria Y D

t . Vamos aconsiderar este concepto con algún detalle.

Page 346: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

346 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

6.5.2 El concepto de conjunto de información condi-cional

Sea el espacio de probabilidad de interés (S;=; P (:)). En vista del hecho deque todos los eventos de interés son elementos de =, de�nimos informaciónen términos de subconjuntos de =, es decir, Ð constituye información en elcontexto del espacio de probabilidad (S;=; P (:)) si Ð� =, donde Ð abarcadesde el caso no informativo Ð0 = fS;?g, lo sabemos a priori, al caso com-pletamente informativo Ð� = =, lo sabemos todo. En vista del hecho de quesiempre podemos de�nir una variable aleatoria X tal que el mínimo �-campogenerado por X coincide con Ð, es decir, � (X) =ÐX , podemos pensar la in-formación como una restricción sobre el espacio de eventos = relativo a algúnaspecto observable del mecanismo aleatorio de que se trate. Esto nos per-mitirá poner en práctica las expresiones de la forma E(Y jÐ), que se puedeinterpretar como la esperanza condicional de la variable aleatoria Y dado elsubconjunto Ð: un conjunto de eventos conocidos por el modelador. Además,sabemos que por la transformación de la información no hay posibilidad deaumentarlo, pero hay una cierta posibilidad de que la transformación podríareducirlo. Más formalmente, para cualquier función (Borel) bien comportadag(:) de X :

� (g (:)) � � (X) ,

pero lo contrario también es cierto sólo en el caso de que la función esuno a uno, es decir,

� (g (:)) = � (X) , sólo si g (:) : RX ! R es uno a uno.

6.5.3 Descomposiciones ortogonales del MG estadís-tico

El MG estadístico en relación con el primer momento condicional estocásticode una variable aleatoria Y respuesta (asumiendo que E

�jY j2 <1

�, referido

al conjunto de información Ð se especi�ca para ser la descomposición ortog-onal de la forma:

Y = E(Y jÐ) + u, (7.49)

E(Y jÐ): el componente sistemático,

Page 347: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.5. EL CONCEPTODEMECANISMOGENERADORESTADÍSTICO (MG)347

u = Y � E(Y jÐ): el componente no sistemático,en relación con el conjunto de información condicionante Ð. La existen-

cia de tal descomposición ortogonal está garantizada por la existencia de unsegundo momento (integrabilidad cuadrática para los peritos en matemática)de la variable aleatoria Y . Su unicidad es la equivalencia casi segura (o conprobabilidad uno) discutida anteriormente; véase también el capítulo 9. Alver las variables aleatorias con varianza acotada como elementos de un espa-cio lineal, E(Y jÐ) representa una proyección ortogonal y la descomposición(7.49) es análoga al teorema de proyección ortogonal (ver Luenberger (1969)),con E(Y jÐ), el mejor predictor en el sentido de�nido por la propiedad EC4anterior. La conexión entre las proyecciones ortogonales y esperanzas condi-cionales se remonta a Kolmogorov (1941a, b), extendieno el trabajo de Wold(1938).El componente no sistemático a menudo se llama término error o pertur-

bación. Los dos componentes cumplen las siguientes propiedades:

(i) E(ujÐ) = 0;

(ii) E(u2jÐ) = V ar (Y jÐ) <1; (7.50)

(iii) E(u� [E(Y jÐ)]) = 0:

La descomposición ortogonal anterior es puesta en funcionamiento cuandoel conjunto de información condicionante Ð es relacionado con variablesaleatorias observables como en el caso donde: Ð= � (X), donde X es unvector de variables aleatorias de�nidas en el mismo espacio de probabilidad(S;=; P (:)). NOTE que en este caso (7.49) es una descomposición de lafunción de regresión. La descomposición ortogonal anterior se puede exten-der fácilmente a las funciones momento condicional de orden superior en elsentido de que (asumiendo que los momentos requeridos existen):

ur = E (urjÐ) + vr; r = 2; 3; :::

donde u = Y �E(Y jÐ). De particular interés son los primeros momentoscentrales condicionales.IMPORTANTE: las descomposiciones anteriores suponen implícitamente

la existencia de momentos hasta un cierto orden. En general, la descomposi-ción ortogonal de r-ésimo momento condicional existe cuando los momentoshasta orden 2r están acotados, por ejemplo, E

�jY j2r

�<1.

Page 348: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

348 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

En la sección 2 se argumentó que el objetivo principal de los modelos deregresión es modelar (7.6) a través de las primeras funciones momento condi-cional tal como se de�nen en (7.11). Usando las anteriores descomposicionesortogonales podemos proceder a especi�car los modelos de regresión en tér-minos de las primeras cuatro funciones momento condicional de la siguientemanera:

Yt = E (Ytj� (Xt)) + ut,urt = E (urt j� (Xt)) + vrt, r = 2; 3; 4.Consideremos varios ejemplos de tales descomposiciones.MG estadístico simplePara entender el papel del conjunto de información condicionante Ð, con-

sideremos primero el caso en que no hay información de dependencia. En estecaso elegimos que Ð sea el conjunto no informativo conjunto Ð0 = fS;?g.Se dice que no es informativo porque, como se mencionó anteriormente, paracualquier variable aleatoria Y de�nida sobre S, E(Y jÐ0) = E (Y ). En estecaso, la descomposición en (7.49) toma la forma:

Yk = E (Yk) + "k, k 2 N,y las condiciones [i] - [iii] son trivialmente ciertas.Modelo Normal simple[1] MG estadístico: Yk = E (Yk) + "k, k 2 N,[2] Modelo de probabilidad:

� = ff (y;�)g =((�11)

� 12

p2�

exp

�� 1

2�11(y � �1)

2

�); � 2R� R+, x2R;

� : = (�1; �11) ; E (X) = �1; V ar (X) = �11.

[3] Modelo muestral: Y := (Y1; Y2; :::; Yn) es una muestra aleatoria.Este es un ejemplo particularmente importante de un modelo estadístico

simple que se utiliza ampliamente en los capítulos 11-15. Por lo tanto, enel caso de modelos estadísticos simples (una muestra aleatoria se postula),podemos complementar los modelos de probabilidad y muestral con un MGestadístico de la forma simple dada anteriormente.MG estadístico de Regresión.En el caso donde Ð incluye alguna información de dependencia como en

el caso de los modelos de regresión donde:Ðt = (Xk = xk),el MG estadístico toma la forma general:

Page 349: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.5. EL CONCEPTODEMECANISMOGENERADORESTADÍSTICO (MG)349

Yk = E (YkjXk = xk) + uk, k 2 N.Por diseño, los componentes sistemático y no sistemático, se de�nen por:� (xk) := E (YkjXk = xk) ; uk = Yk � E (YkjXk = xk), k 2 N,respectivamente, son ortogonales. Esto se deduce directamente de las

propiedades de esperanza condicional EC1-EC3 (véase más atrás):

[i] E (ukjXk = xk) = E fYk � E [(YkjXk = xk)] jXk = xkg= E (YkjXk = xk)� E (YkjXk = xk) = 0, k 2 N.

es decir, uk condicionada Xk = xk, no tiene efectos sistemáticos medios.Además,

[ii] E fuk�� (xk)g = E (E fuk�E [(YkjXk = xk)]g jXk = xk)

= E (YkjXk = xk) �E f(ukjXk = xk)g = 0, k 2 N.

de EC2, EC3, y [i], es decir, uk y E (YkjXk = xk), condicional a Xk = xk,son mutuamente ortogonales; denotado por:

uk ? E (YkjXk = xk), k 2 N.Además de las propiedades [i] - [ii] podemos mostrar que uk y Yk tienen

la misma varianza condicional:[iii] E (u2kjXk = xk) = V ar (YkjXk = xk), k 2 N,de EC1. Por otra parte, la media no condicional de uk también es cero[iv] E (uk) = E (E (ukjXk = xk)) = 0, k 2 N,de EC2, EC2 y EC3, es decir uk es ortogonal a Xk.IMPORTANTE: es importante tener en cuenta que media condicional

cero para el componente no sistemático implica media no condicional cero:

E (ukjXk = xk) = 0) E (uk) = 0,

pero lo contrario no es cierto :

E (uk) = 0; E (ukjXk = xk) = 0.

Para ver esto consideremos el siguiente ejemplo.EjemploVolviendo a la distribución conjunta (7.7) y las distribuciones condi-

cionales relacionadas, se observa que ninguna de estas esperanzas condi-cionales es cero. Por otro lado, la esperanza no condicional de Y , evaluadausando la ley de esperanzas iteradas es:

Page 350: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

350 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

E (Y ) = E fE (Y jX = x)g = 1

5(0:5)� 1

5(0:5) = 0.

Del mismo modo, ortogonalidad condicional entre Xk y uk implica ortog-onalidad no condicional:

E (Xk�ukjXk = xk) = 0) E (Xk�uk) = 0,pero lo contrario no es cierto:E (Xk�uk) = 0; E (Xk�ukjXk = xk) = 0.NOTA: la intuición detrás de este resultado es que para la media no

condicional hay un promedio más (sobre los valores de X), más allá de lamedia condicional.Regresión lineal/Normal. El modelo de regresión más ampliamente

utilizado es el de regresión Lineal/Normal, cuyo MG estadístico toma laforma:donde el término de error ut, satisface las propiedades [i] - [v] obtenidas

anteriormente. La especi�cación completa del modelo de regresión lin-eal/Normal toma la forma:[1] MG estadístico: Yt = �0 + �1Xt + ut, t 2T,[2] Modelo de probabilidad:

� = ff (ytjxt;�)g =(

1

�p2�exp

(�(y � �0 � �1xt)

2

2�2

); � 2 �, yt2R

);

� : =��0; �1; �

2�;� := R2 � R+,

�0 : = E (Yt)� �1E (Xt) , �1 =Cov (Xt; Yt)

V ar (Xt), �2 := V ar (Yt)�

[Cov (Xt; Yt)]2

V ar (Xt).

[3]Modelo muestral: Y := (X1; X2; :::; Xn) es una muestra independientesecuencialmente extraída de f (ytjxt;�), t = 1; 2; :::; T .Una comparación directa entre los modelos Normal simple y de regresión

lineal/Normal revela algunas diferencias interesantes. Al comparar los dosmodelos de probabilidad, podemos ver que el modelo de regresión se expresaen términos de la distribución condicional f (ytjxt;�), pero el modelo Normalsimple en términos de la distribución marginal f (yt;�). Una comparación delos modelos muestrales revela que en el caso de la regresión la muestra ya noaleatoria (independientes e idénticamente distribuida), es sólo independiente.Este es el caso, ya que las densidades condicionales f (ytjxt;�), t 2T, estáncambiando con t, porque las medias condicionales están cambiando con xt:

Page 351: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.5. EL CONCEPTODEMECANISMOGENERADORESTADÍSTICO (MG)351

(YtjXt = xt) ~NI (�0 + �1xt; �2), t 2T;

es decir, ellas no están idénticamente distribuidas.Como argumentamos antes, utilizando las funciones momento condicional

(a menudo las funciones de regresión y cedástica) introducidas en la secciónanterior, podemos especi�car un modelo de regresión diferente para cadadistribución bivariada. El modelo de regresión lineal/Normal puede ser muyengañoso como la base de los modelos de regresión en general, debido aque una serie de temas importantes no surgen en su contexto. Más allá delmodelo de regresión lineal/Normal se plantean varias cuestiones nuevas. Sepuede obtener alguna idea de las di�cultades planteadas por otros modelosde regresión al considerar el modelo de regresión lineal t de Student.Regresión lineal t de Student[1] MG estadístico: Yt = �0 + �1Xt + ut, t 2T,u2t =

v�2

(v�1)

h1 + 1

v�22[Xt � �2]

2i+ v2t

[2] Modelo de probabilidad:

� =�f (ytjxt;�) �f (x;�2) ;� :=

��0; �1; �2; �

2; �22�2 R3 � R2+, (xt; yt) 2 R2

;

ff (ytjxt;�)g =

��12[v + 2]

���12[v + 1]

�! ((v � 1)�ht (xt))� 12

(1 +

(yt � �0 � �1xt)2

(v � 1)ht (xt)

)� 12(v+2)

f (xt;�2) =

��12[v + 1]

���12v� !

[v��22]� 12

�1 +

1

v�22[Xt � �2]

2

�� 12(v+1)

, �2 = E (Xt) ;

�22 = V ar (Xt) ; �0 = E (Yt)� �1�2; �1 =Cov (Xt; Yt)

V ar (Xt),

�2 : = V ar (Yt)�[Cov (Xt; Yt)]

2

V ar (Xt).

[3]Modelo muestral: Y := (X1; X2; :::; Xn) es una muestra independientesecuencialmente extraída de f (ytjxt;�), t = 1; 2; :::; T .Este modelo di�ere del de regresión lineal/Normal en dos aspectos im-

portantes:(i) X no es débilmente exógena con respecto a los parámetros de la dis-

tribución condicional, y por lo tanto no podemos ignorar la distribución mar-ginal f (x; �2).

Page 352: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

352 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

(ii) La varianza condicional es heterocedástica, por lo que necesitamoscompletar la descomposición ortogonal de la función de regresión con la dela función cedástica.Para concluir esta subsección notamos que la literatura econométrica

tradicional hasta la década de 1980 se limitó a la función de regresión. Recien-temente, sin embargo, ha habido intentos por relacionar la teoría económicacon la función cedástica, especialmente en relación con los modelos teóricosen �nanzas. El hecho de que los momentos condicionales de orden superiorno se hallan tenido en cuenta es el resultado de ver estos momentos desde elángulo de visión de la teoría que exige la teoría económica para introducirlas relaciones conectadas con estos momentos.

6.5.4 El ángulo de visión estadístico

El MG estadístico como se de�ne en (7.49) con las propiedades (7.50) de�neel punto de vista estadístico, en contraste con el teórico discutido en lasubsección anterior. Como podemos ver, el MG estadístico se de�ne paratodos los modelos estadísticos, no sólo para los modelos de regresión, y tieneuna interpretación puramente probabilística. Por ejemplo, en el caso delmodelo lineal/Normal el ángulo de visión estadístico considera:

Yt = �0 + �1xt + ut; t 2 T; (7.53)

de izquierda a derecha como una descomposición ortogonal de la variablealeatoria observable (Yt) en un componente sistemático E (YtjXt = xt) y uncomponente no sistemático (no modelado) ut = Yt � E (YtjXt = xt). Encontraste con los supuestos implícitos (a) - (b) del ángulo de visión de lateoría, el ángulo de visión estadístico postula explícitamente que:(a)* el término de error ut es deducido y vinculado a la estructura prob-

abilística de (Yt; Xt),(b)* los parámetros estadísticos (�0; �1; �

2) gozan de una interpretaciónprobabilística clara y que están indisolublemente ligados a la estructura prob-abilística de (Yt; Xt).Una mirada más de cerca a los otros modelos estadísticos especidica-

dos anteriormente pone de mani�esto que todos los parámetros tienen unainterpretación probabilística en términos de los momentos de las variablesaleatorias observables involucradas y no hay parte de�nida en términos delos conceptos de la teoría. En los próximos capítulos de estos modelos se ex-

Page 353: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.5. EL CONCEPTODEMECANISMOGENERADORESTADÍSTICO (MG)353

tenderán en una serie de direcciones, pero su estructura básica seguirá siendola misma.Un mecanismo generador estocástico.Resulta que para ciertos aspectos del análisis estadístico, el MG estadís-

tico podría ser provechosamente visto como un mecanismo generador estocás-tico. Es decir, un punto de vista que contemple (7.53) de derecha a izquierda,como un mecanismo que genera a Yt dado (xt; ut). Esta interpretación alter-nativa parece en un primer momento tener una cierta a�nidad con el puntode vista teórico, pero, de hecho, la semejanza resulta para ser más aparenteque real.El MG estadístico del modelo Normal simple, cuando se ve como un

mecanismo generador estocástico, se expresa en la forma:

Yk = �1 + (�11)12 �k; �k~NIID (0; 1) ; k 2 N: (7.54)

La forma más fácil de interpretar esto es como el mecanismo que cuandose simula utilizando números pseudoaleatorios (véase el capítulo 5) dará datoscon la misma estructura probabilística que la muestra postulada;Normal In-dependiente e Idénticamente Distribuida (NIID). Del mismo modo, el MGestadístico de los modelos de regresión Normal y t de Student, como mecan-ismos generadores estocásticos, toman la forma:

Yt = �0 + �1xt + ��t; �t~NIID (0; 1) ; t 2 TYt = �0 + �1Xt + (h (Xt))

12 �t; �t~St (0; 1; v + 1) ; Xt~St (�2; �22; v) ; t 2 T

donde h (Xt) =v�2

(v � 1)

�1 +

1

v�22[Xt � �2]

2

�, respectivamente. (7.55)

Hay varias cosas que tener en cuenta sobre esta interpretación.En primer lugar, se trata de una interpretación estadística porque el prin-

cipal objetivo es simular (utilizando números pseudo aleatorios) una estruc-tura probabilística de la muestra (Y1; Y2; :::; Yn) como se de�ne por su dis-tribución conjunta. En segundo lugar, una parte integral del punto de vistade la simulación es la interpretación estadística de los parámetros involu-crados. Como hemos visto, estos parámetros se de�nen en términos de losmomentos de las variables aleatorias observables implicadas, por lo que lassimulaciones bien diseñadas deben tener esto en cuenta, ya que representanrestricciones implícitas. Esto es particularmente crucial cuando se diseñan

Page 354: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

354 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

simulaciones Monte Carlo para abordar los difíciles problemas de distribu-ción muestral. Un diseño que ignore cualquiera de las restricciones implícitassobre los parámetros y los momentos de las distribuciones subyacentes esproblable que puedan dar lugar a resultados engañosos. En tercer lugar, lainterpretación del mecanismo generador estocástico se basa en el MG estadís-tico del primero momento condicional, pero debe ser modi�cado para incluirla información contenida en los momentos condicionales de orden superior.En el caso de los modelos Normal simple y de regresión lineal /Normal nohay ninguna información adicional porque el segundo momento es constante.En el caso del modelo de regresión t de Student, sin embargo, esto ya no esasí y la información adicional deberá integrarse en el MG estadístico comose mostró anteriormente.

6.5.5 Razón de dependencia*

El concepto de mecanismo generador estadístico (GM), introducido anteri-ormente, sugiere una forma natural para medir la dependencia entre Y y lavariable aleatoria(s) X, de�niendo el conjunto de información condicional.Correspondiente a la descomposición ortogonal basada en la media condi-cional:

Y = E (Y jX) + u,existe una relación entre las varianzas de los tres términos:

V ar (Y ) = V ar [E (Y jX)] + V ar (u) : (7.56)

Esto se deduce directamente de la ortogonalidad de los componentes sis-temático y no sistemático e indirectamente de la igualdad:

V ar (Y ) = E [V ar (Y jX)] + V ar [E (Y jX)] ,y del hecho de que (propiedad EC2 anterior):

E [V ar (Y jX)] = E�E�u2jX

��= E

�u2�= V ar (u) .

Dado que u representa el componente no sistemático (la parte no mod-elada) del MG estadístico, una medida de dependencia que se sugiere en simisma, es la razón de dependencia:

Dr (Y jX) = V ar fE (Y jX)gV ar (Y )

= 1� E fV ar (Y jX)gV ar (Y )

= 1� V ar (u)

V ar (Y ).

Page 355: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.5. EL CONCEPTODEMECANISMOGENERADORESTADÍSTICO (MG)355

Esto se introdujo por primera vez por Kolmogorov (1933a), quien lo llamórazón de correlación, atribuyendo la idea a Pearson (1903). Como semencionó en el capítulo 6, esta medida es de dependencia que se puede uti-lizar cualquiera que sea el sistema de medición de las variables aleatorias encuestión.La razón de dependencia, como una medida de dependencia, satisface

ciertas propiedades deseables:[1]. 0 � Dr (Y jX) � 1.[2]. Dr (Y jX) = 0, si X y Y son independientes.[3]. Dr (Y jX) = 1, si y sólo si Y = h (X) c.s.La primera propiedad se deriva de (7.56) directamente. La segunda

propiedad se deduce del hecho de que cuando X e Y son independientes:

E (Y jX) = E (Y )) V ar [E (Y jX)] = 0.

La parte si de la tercera propiedad es trivial ya queDr (Y jX) = 1 implicaque:

E�[Y � E (Y jX)]2

= 0) Y = h (X) c.s.

La parte sólo si se deduce del hecho de que si Y = h (X), entonces lafunción �h (X) � � (X), y por lo tanto h (X) = E (Y jX) con probabilidaduno (c.s).En vista de la propiedad [3], Dr (Y jX) se puede interpretar como una

medida de dependencia probabilística análoga a la noción matemática de de-pendencia funcional Y = h (X), donde la función h (:) coincide con la funciónde regresión de Y dado X = x. Para dar un paso más, esta propiedad puedeser utilizada para caracterizar la función de regresión. Es decir, Dr (Y jX)se puede interpretar como la correlación máxima entre Y y todas las posi-bles funciones h(X), con el máximo alcanzado por la función de regresiónh0 (X) = E (Y jX):

Dr (Y jX)maxh(:)

Corr2 [Y; h (:)] = Corr2 [Y; h0 (:)] (7.57)

Renyi (1970) introduce tal caracterización añadiendo las siguientes condi-ciones:[1]. E [h0 (X)] = E (Y ),[2]. V ar [h0 (X)] = V ar (Y )�Dr (Y jX),[3]. E [h0 (X) �Y ] > 0.

Page 356: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

356 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

Esto se deduce de la propiedad EC4 que dice que la media condicional deY dado X proporciona el mejor predictor (en el sentido de error cuadráticomedio) de Y .OBSERVACIONES:(i) La razón de dependencia no es una función simétrica de Y y X, como

lo es el coe�ciente de correlación. La razón intuitiva para la asimetría es elhecho de que las dos funciones de regresión, por ejemplo E (Y jX) = h (X) yE (XjY ) = g (Y ) no necesariamente tienen la misma forma funcional.(ii) En el caso donde la función de regresión es lineal en X, E(Y jX) =

�0 + �1X, la razón de dependencia coincide con el coe�ciente de correlaciónal cuadrado:

Dr (Y jX) = [Corr (X; Y )]2 .Esto se deduce del hecho, de que en este caso:

V ar [E (XjY )] = [Cov (X; Y )]2

V ar (X).

Para concluir esta sección observamos que una ventaja importante de larazón de dependencia es que se puede extender fácilmente al caso en que Xes un vector de variables aleatorias, por ejemplo X := (X1; X2; :::; Xm):

Dr (Y jX) = V ar fE (Y jX)gV ar (Y )

= 1� E fV ar (Y jX)gV ar (Y )

.

En el caso donde la función de regresión E (Y jX) es lineal enX, Dr (Y jX)coincide con el coe�ciente de correlación múltipleR2, donde: R2 = max

�Corr2 (Y;�0X),

�0X =Xm

i=1�iXi y Corr2 (:), la correlación al cuadrado (ver Spanos (1986),

capítulo 15).

6.6 La tradición biométrica en estadística

Como se ha dicho en Spanos (1995b), el enfoque de los libros de texto tradi-cionales puede ser visto como un híbrido de dos antiguas tradiciones en es-tadística: la teoría de los errores y las tradiciones de diseño experimental.También se a�rma que ambas tradiciones son más adecuadas para la mod-elación de datos experimentales en lugar de datos observacionales (no exper-imentales); el resultado de la observación pasiva de un sistema sin los medios

Page 357: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 357

para interferir o controlar el proceso de generación de datos. Se mencionó enel capítulo 1 que la tradición biométrica, desarrollada a �nales del siglo 19 y20 es más adecuada para la modelación con datos observacionales.En esta sección hacemos una breve digresión para rastrear las raíces de la

tradición biométrica. Para una discusión más amplia ver entre otros, Stigler(1986), Porter (1986), MacKenzie (1981) y Kevles (1985)).

6.6.1 Galton

El concepto de regresión es uno de los muy pocos conceptos en estadística,cuyas raíces son a la vez claras e incuestionables. El concepto fue propuestopor primera vez por Galton (1877), formalizado en Galton (1885,1886), exten-dido por Pearson (1894,1895,1896) y relacionado con la tradición de mínimoscuadrados por Yule (1897). El padre de la moderna inferencia estadística R.A Fisher acredita a Galton y sus estudios pioneros en la herencia de propor-cionar los fundamentos de la estadística moderna. En el prólogo de Fisher(1956) él alaba los estudios pioneros de Galton y continúa:El gran regalo de Galton estaba en su conciencia, que creció durante su

vida, de la vaguedad de muchas de las frases en las que los hombres trataronde expresar la descripción de fenómenos naturales. Se adelanto a su tiempoen su reconocimiento de que la imprecisión podría ser eliminada y una ciertaprecisión de pensamiento intentada encontrando de�niciones cuantitativasen condiciones de tomar el lugar de frases tales como "el hombre medio","variabilidad", "la fuerza de la herencia", y así sucesivamente, a través delconjunto de datos objetivos, y su examen sistemático ... (Fisher (1956), p.2).Galton fue muy impresionado por la variedad de variables medidas cuya

histograma Quetelet (1849) fue capaz de describir utilizando la distribuciónnormal (conocido en ese tiempo como la ley de error), abarcando desdeel número de suicidios y violaciones en París en un año a algunas medidasantropomór�cas. El interés de Galton estabe principalmente en la eugenesia:la mejora de la raza humana de Gran Bretaña mediante la reproducciónselectiva (ver Kevles (1985)). Según MacKenzie (1981, p. 11):Un conjunto especí�co de objetivos sociales es común a la obra de Galton,

Karl Pearson y R. A Fisher. Todos eran eugenistas. A�rmaron que la carac-terística humana más importante, como la capacidad mental, eran heredadade una generación a la siguiente. Los ancestros de la gente, en lugar de suentorno, es fundamental para determinar sus características. La única forma

Page 358: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

358 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

segura a largo plazo para mejorar la sociedad, argumentaron, era mejorarlas características de los individuos en ella, y la mejor manera de hacer estoes asegurar que los de la generación actual con buenas características (el"apto") tengan más hijos que aquellos con malas características (el "no apto") ...En un giro terrible del destino, la atroz causa de la eugenesia utilizada

por Hitler para dar una justi�cación seudo cientí�ca a sus políticas racistas,proporcionó el impulso principal para el desarrollo de la estadística moderna.Vamos a recorrer los primeros pasos de la estadística moderna que llevarona la regresión y correlación.Quetelet aplicó ampliamente la más temprana tradición estadística, la

teoría de errores (ver Spanos (1995b)), desarrollada por primera vez en laastronomía y la geodesia, al análisis estadístico de las medidas sociales conla esperanza de desarrollar la física social. En la tradición de la teoría de loserrores, el centro de atención fue dado a los errores de medición. Los datosobservados se consideraron como medida de la misma (verdadera), variablepero cada observación tenía un error de medición que podría ser descritocomo aleatorio. Además, cuando algunas observaciones se recolectaron ellastendían a mostrar el patrón de regularidad aleatoria asociado a la distribu-ción Normal en forma de campana. En este contexto, el objetivo principalde la modelación era descubrir la verdadera variable reduciendo al mínimolos errores de medición. Gauss introdujo la distribución normal como la que,bajo ciertas restricciones, descubre la verdadera variable a través de la me-dia de la distribución. Quetelet adapto este procedimiento para dar lugar ala física social, mediante la asociación de la media con l�homme moyen (elhombre promedio), representando una especie de ideal y viendo el compor-tamiento social como desviaciones del hombre promedio; ver Stigler (1986),Porter (1986).Galton, continuando con la tradición asociada a Quetelet, utilizó la curva

de frecuencia de la ley de error (Normal) para describir algunos conjuntosde datos de medidas antropomór�cas, como la capacidad mental y carac-terísticas físicas de las poblaciones humanas, tales como altura y peso, y sesorprendió por lo bien que la curva normal describía estos datos. El primerproblema que Galton tuvo que enfrentar fue la interpretación de las desvia-ciones de la media heredado de Quetelet. Al describir la capacidad mentalusando la curva normal, la pregunta obvia es si ¿un genio constituye un errorde la naturaleza y la mente promedio el ideal? Para una eugenista la re-spuesta era ciertamente no! Además, para Galton la variación alrededor de

Page 359: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 359

la media no era un error a ser minimizado. En sus memorias Galton (1908,p. 305) explica cómo tuvo que romper con la tradición de la teoría de errores:Los objetos principales de la Ley de Gauss de los errores se oponían

exactamente, en un sentido, a aquellos a los que se les aplica. Ellos teníanque ser eliminados o proporcionar una asignación justa de los errores. Peroestos errores o desviaciones fueron las mismas cosas que yo quería preservary conocer...En este sentido, Galton volcó la mesa a la teoría de la tradición errores

viendo la aleatoriedad como inherente a la naturaleza y no introducida comoun intento de observar y medir. Además, la variabilidad asociada con estaaleatoriedad era precisamente en lo que se interesaba. Como resultado de estecambio de actitud las variables aleatorias observables tomaron el centro delescenario y la media fue sólo una característica de la distribución describiendoesta variabilidad. De hecho, Galton (1875a) fue un paso más allá y propusosustituir la noción de media y de error probable con los conceptos de medianay rango intercuartil (ver capítulo 3), como medidas más adecuadas para lasmediciones antropomór�cas. El rompimiento de Galton con la tradición dela teoría de los errores pueden ser fácilmente discernida de su propuesta desustituir el término de error estándar (conocida en ese entonces como errorprobable) con el término desviación estándar ; las desviaciones de la mediaya no eran vistas como errores.La segunda principal separación de la teoría de errores iniciada por Galton

fue motivada por su interés en el descubrimiento de la dependencia entrelas variables lo cual condujo naturalmente a las distribuciones conjuntas ycondicionales. Los conceptos más in�uyentes introducido por Galton fueronlos de regresión y correlación, que, como se muestra en este y en los últimoscapítulos, se basan en las distribuciones condicionales y conjuntas y se puedenutilizar para modelar (y cuanti�car) la dependencia entre variables aleatorias.El término regresión fue acuñado por Galton (1885) en el contexto del

estudio de la herencia en las poblaciones humanas. En su intento de descubriruna relación entre la altura de los padres y la altura de sus hijos, introdujoel concepto de curva de regresión en el contexto de poblaciones Normales.Es bastante interesante que él formuló el concepto de regresión medianteel estudio de la relación entre dos conjuntos de datos usando diagramas dedispersión. Veamos esto en detalle.El concepto de regresión, se propuso por primera vez por Galton (1877) al

estudiar las características heredadas entre dos generaciones de chícharos y sellamó inicialmente reversión. El documento que puso regresión en estadística

Page 360: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

360 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

fue Galton (1885), estudiando la relación entre la altura del padre y el dela descendencia.Galton (1885), examinando la distribución de la altura deuna generación de seres humanos a la siguiente, observó que la distribuciónde la altura (histograma) de su población muestral parece seguir siendo lamisma, como en el caso de los chícharos (véase Galton (1877 )). Para sermás especí�co, en su estudio de la herencia, Galton notó que el histogramade las mediciones:

Xt - la altura de la mitad de los padres y Yt - la altura de la descendencia,se podría describir con una curva de frecuencia casi idéntica a la Normal.

Él de�ne la altura de la mitad de los padres como:

Xt :=X1t + (1:08)X2t

2

donde X1t es la altura del padre y X2t es la altura de la madre. La escalade 1:08 se basó en la diferencia entre la altura media de los hombres frente ala de las mujeres.La pregunta que naturalmente surge en la mente de Galton fue la misma

que en el caso de los chícharos:¿Cómo es que, aunque cada individuo no tiene como regla, dejar detrás

de él, sin embargo, las sucesivas generaciones se parecen entre sí con granexactitud en todas sus características generales? ...

(Galton(1877), p. 492)Su explicación última de este aparente enigma se basó principalmente en

la línea de regresión de�nida por:

[E (YtjXt = xt)� E (Yt)] =

�Cov (Yt; Xt)

V ar (Xt)

�[xt � E (Xt)] , xt 2 R.

Cómo Galton derivó la línea de regresión es una historia fascinante quevale la pena contar con algún detalle.Paso 1. Trazó el diagrama de dispersión de los dos conjuntos de datos

f(xt; yt) ; t = 1; 2; :::; Tg.Paso 2. Unió los puntos de datos con aproximadamente la misma fre-

cuencia de ocurrencia y se dio cuenta de que estas curvas de igual frecuenciaforman curvas elípticas concéntricas.

Page 361: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 361

Paso 3. Usando el argumento de que "cuando el número de observacionesaumenta las curvas de igual frecuencia se obtienen curvas más lisas y suaves",supone que en el límite ellas forman elipses perfectas.Paso 4. Al darse cuenta de que su formación matemática no fue su�ciente

para aprovechar estos contornos concéntricos elípticos de la distribución bi-variada correspondiente, él requisó la ayuda de su amigo matemático Dick-son. Con la ayuda de Dickson, deriva la densidad normal bivariada (véase elapéndice de Galton (1886)).Paso 5. Utilizando un argumento ingenioso, Galton sugirió que la línea

que describe mejor la relación entre (Xt; Yt) (lo que él llama la línea deregresión) es la que pasa por el centro de las elipses (el punto en el que losdos ejer principales se encuentran) y corta las elipses en su punto de tangenciacon las líneas paralelas al eje y. En la �gura 7.21 podemos ver los contornosde una densidad Normal bivariada con parámetros:

E (Yt) = 1:0, E (Xt) = 2:0, V ar (Yt) = 0:8, V ar (Xt) = 1:8, Cov (Xt; Yt) =0:6,y las dos líneas de regresión:E (YtjXt = xt) = 0:333 + 0:333xt,E (YtjXt = xt) = 1:25 + 0:75yt.Tenga en cuenta que la línea de regresión:[E (XtjYt = yt)� E (Xt)] =

�Cov(Yt;Xt)V ar(Yt)

�[yt � E (Yt)], yt 2 R,

también pasan por el centro de las elipses, pero las corta en el punto detangencia con las líneas rectas paralelas al eje x; otra idea de Galton!

Figura 7.27. Normal bivariada (= 0:5) contornos y lineas de regresión.Lo que es fascinante desde nuestro punto de vista es que Galton fue capaz

de proceder a partir de los datos observados, generar la densidad teórica

Page 362: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

362 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

bivariada subyacente a estos datos usando al diagrama de dispersión y luegoproceder a de�nir la línea de regresión.OBSERVACIONES:(i) Galton asume implícitamente que E (Yt) = E (Xt) := � y V ar (Xt) =

V ar (Yt), en cuyo caso la línea de regresión anterior se reduce a la relaciónproporcional:

[E (YtjXt = xt)� �] = � (xt � �) , xt 2 R (7.59)

� := Corr (Xt; Yt) ; j�j � 1 (7.60)

A partir de esto Galton concluyó que hay una tendencia a regresar a lamedia (debido a j�j � 1) en el sentido de que padres muy altos producenvástagos que no son tan altos y padres muy bajos producen descendientesque no son tan bajos.(ii) Galton vio (7,59) como la ley de la herencia que subyace a la aparente

estabilidad de las características de la población en las generaciones sucesivas.Galton estaba claramente equivocado en la elaboración de las implicacionesde causalidad basado únicamente en la curva de regresión, porque por lamisma razón, desde el punto de vista estadístico, la regresión inversa:

[E (XtjYt = yt)� �] = � (yt � �) , yt 2 R

tiene tanto justi�cación como la original. La regresión inversa corta laselipses en su punto de tangencia con las líneas paralelas al eje x (véase la�gura 7.21).(iii) Cabe señalar que Galton supone implícitamente normalidad conjunta

y marginal, para las variables aleatorias Xt y Yt.Para un estudiante moderno de estadística parece muy extraño que la

noción de correlación fue introducida por Galton (1888) (inicialmente comoco-relación) a través de la regresión utilizando las pendientes de las líneas deregresión y regresión inversa:

[E (YtjXt = xt)� �] =

�Cov (Xt; Yt)

V ar (Xt)

�[xt � �] , xt 2 R.

[E (XtjYt = yt)� �] =

�Cov (Xt; Yt)

V ar (Yt)

�[yt � �] , yt 2 R.

Page 363: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 363

La multiplicación de las dos pendientes da lugar al cuadrado del coe�-ciente de correlación:

Corr (Xt; Yt) =

�Cov (Xt; Yt)

V ar (Xt)

��Cov (Xt; Yt)

V ar (Yt)

�.

Para los detalles de esta fascinante historia ver Stigler (1986).

6.6.2 Karl Pearson

Karl Pearson fue el primero en apreciar la importancia de las contribucionesde Galton en relación a la regresión y correlación y procedió a formalizar yampliar ambas en direcciones diferentes.La primera contribución fundamental de Pearson (1895,1896) fue la for-

malización del procedimiento de curvas de frecuencia de ajuste a los datosobservados, mediante la utilización de los cuatro primeros momentos (veásecapítulo 3); el ajuste de la distribución Normal antes de Pearson tomó laforma de dibujar la curva en forma de campana en el histograma de los datosobservados. Es interesante NOTAR que el concepto de momentos se ha uti-lizado durante los siglos 18 y 19, pero Pearson acuñó el término e introdujo elconcepto en la estadística; Chebyshev utilizó el concepto de momentos en lateoría de probabilidades en relación con el Teorema Central del Límite en ladécada de 1870 , pero los dos hechos fueron separados en gran medida hastamediados del siglo 20. Pearson (1895) también fue el primero en introducirlos conceptos de asimetría y curtosis.Pearson comenzó su trabajo estadístico sobre las cuestiones planteadas

por el intento de Weldon para aplicar los resultados de Galton a la correlaciónde las poblaciones de cangrejos; Weldon fue un distinguido zoólogo en la Uni-versity College donde Pearson fue profesor de Matemática Aplicada. Resultóque el histograma de las mediciones de los cangrejos de Nápoles era a lavez asimétrico y bimodal y Pearson (1894), en su primer documento estadís-tico, intentó demostrar que el histograma puede ser descrito por la suma dedos curvas normales con diferentes medias y varianzas; el primer intento portratar con el problema de heterogeneidad. La asimetría mostrada por losdatos biológicos y los datos de precios de Edgeworth convenció a Pearson deque la distribución normal no era de aplicación universal, como previamentehabía creido Quetelet y Galton. Esta situación llevó a la segunda contribu-ción importante de Pearson a la tradición biométrica que llegó en la formade lo que hoy llamamos la familia de distribuciones Pearson, que incluye la

Page 364: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

364 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

normal y la mayoría de las distribuciones más utilizadas, incluyendo variasdistribuciones no simétricas, como casos especiales (ver capítulo 4).Relacionado con el procedimiento de modelación de las curvas de fre-

cuencias de ajuste de la familia Pearson a los datos observados es la terceracontribución importante de Pearson, la prueba de chi cuadrado para eval-uar la bondad de ajuste como parte de su estrategia de modelación; véasePearson (1900). Esta prueba constituye la primera prueba de errores de es-peci�cación (ver capítulo 15), que tuvo un impacto crucial en el desarrollode la inferencia estadística en el siglo 20. Pearson es el más conocido por loscientí�cos sociales con algún interés en estadística por esta prueba que porcualquiera de sus otras contribuciones.La cuarta contribución importante de Pearson fue la formalización y ex-

tensión de la regresión y la correlación de distribuciones bivariadas a multi-variadas; véase Pearson (1896,1901,1902,1903,1904). Las fórmulas modernaspara los coe�cientes de correlación y regresión son en gran parte debidasa Pearson. En relación con estas fórmulas también debemos mencionar aYule (1895-96,1896) que fue el primer alumno de Pearson, y más tarde suayudante; en sus publicaciones él le da todo el crédito a este maestro. Lasextensiones de correlación y regresión incluyen no sólo la correlación múlti-ple, sino también la correlación parcial. Es interesante notar que Pearsonfue también el primero en advertir el modelador del problema de correlaciónespuria en el caso de las variables medidas como razones con denominadorescomunes y / o numeradores (véase Pearson (1897)).La quinta, y posiblemente la menos in�uyente de sus aportaciones, es su

extensión de la regresión y las funciones momento condicional de orden supe-rior a distribuciones conjuntas no Normales; véase Pearson (1905,1906,1920,1923a-b, 1924,1925). Pearson fue el primero en apreciar la generalidad del con-cepto de regresión y procedió a argumentar que el concepto se aplica a todaslas distribuciones conjuntas cuyos dos primeros momentos existen. Él conje-tura que la linealidad y la homocedasticidad están inextricablemente ligadoscon el supuesto de normalidad conjunta e instó a los modeladores a explorardistribuciones conjuntas no simétricas. La investigación conjunta de Pear-son con Weldon sobre poblaciones de cangrejos le llevó a las distribucionesno simétricas y conjeturó que la curva de regresión es poco probable quesea lineal y homoscedástica en estos casos. Sin embargo, Pearson no podríaofrecer ejemplos concretos de otras formas funcionales de las curvas de re-gresión, porque no había otras distribuciones de dos variables en ese tiempo.Desafortunadamente, antes de tales distribuciones estuvieran ampliamente

Page 365: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 365

disponibles su propuesta fue superada por ciertos acontecimientos cruciales.En un artículo seminal Yule (1897) fue más allá de Galton y de Pearson

y propuso una relación directa entre la regresión de Galton y la relaciónlineal entre dos variables como sugiere la tradición de la teoría de los errores(mínimos cuadrados):

Yt = �0 + �1xt + "t, "t~IID�0; �2

�, t = 1; 2; ::::; T .

Luego pasó a señalar que:(a) (7.58) se puede estimar mediante el método de mínimos cuadrados

(véase el capítulo 13) y(b) el supuesto de normalidad no juega ningún papel en la estimación.Él procedió a argumentar en favor del uso de los mínimos cuadrados

para aproximar una línea de regresión, incluso en los casos en que la líneaimaginaria a través de la grá�ca" no es del todo una línea recta" (Yule (1897),p. 817).Karl Pearson se opuso de inmediato a la generalidad aparente de Yule

y argumentó a favor de mantener la normalidad de la distribución conjuntapara propósitos de especi�cación:Pearson quería empezar con una super�cie de frecuencia y, si una línea

de regresión se buscaba, encontrar esa línea apropiada a la super�cie. Sila super�cie sigue la ley normal, entonces se podría aceptar el camino delas líneas rectas de ajuste por mínimos cuadrados. Pero, "¿ pero, por quéno debería otra ley incluso de frecuencia simétrica conducir a las p-ésimaspotencias de los residuos siendo mínimos? "... (Stigler (1986), p. 352)?" ...(Stigler (1986), p. 352)Desafortunadamente para la estadística Pearson fue mucho menos per-

suasivo que Yule y como resultado, el modelo de regresión lineal se confundea menudo con un número de diferentes modelos lineales, como el modelo lin-eal de Gauss (ver Spanos (1986,1999)). La convicción de Pearson no tuvoimpacto en la estadística porque sus esfuerzos por generar distribuciones bi-varidas no simétricas a través de un par de ecuaciones diferenciales parcialesestuvo en gran parte sin éxito hasta la década de 1930 (véase el capítulo 6 yMardia (1970). El principal obstáculo fue la disponibilidad de distribucionesconjuntas cuyas funciones momento condicional pudieran derivarse analíti-camente y luego usadas para especi�car modelos de regresión. Los intentosparcialmente exitosos por Pretorius (1930) y después por Van Uven (1947a,b, 48a,b) tuvieron muy poco impacto debido a que en los 1930 el éxito de

Page 366: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

366 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

Yule fue completo . Desde el punto de vista de la regresión, los resultados deVan Uven (véase el capítulo 6) son interesantes en la medida en que las dis-tribuciones condicionales implícitas en las ecuaciones diferenciales parcialesrestringidas pertenecen a la familia Pearson en el sentido de que cumplen larelación general:

@Inf (yjx)@y

=g1 (x; y)g2 (x; y)

El grado de éxito de Yule era tal que incluso el éxito anterior de Narumi(1923a, b), que invierte el procedimiento especi�cando las funciones de re-gresión y cedástica y luego procede a derivar la distribución conjunta, pasódesapercibido. Los resultados de Narumi son de interés en el contexto actualy se resumen para �nes de referencia; para más detalles vea la Mardia (1970).El impacto de Yule, puede ser parcialmente explicado por el hecho de queél escribió el primer libro de texto ampliamente utilizado en estadística (verYule (1911)). Motivado por la relación:

f (x; y;�) = f (yjx;'2) �fX (x;'1) , para todo (x; y) 2 RX � RY .

la función de densidad bivariada de Narumi toma la forma restringida:

f (x; y) = 1 (x) �'1�y � h1 (x)

g1 (x)

�, f (y; x) = 2 (y) �'2

�x� h2 (y)

g2 (y)

�.

Esta distribución bivariada está restringida poque pertenece a la familiade distribuciones localización-escala. Las densidades condicionales tienen laforma:

f (yjx) = c1�'1�y � h1 (x)

g1 (x)

�, f (xjy) = c2�'2

�x� h2 (y)

g2 (y)

�,

donde c1 y c2 son dos constantes de normalización. Aunque Narumiexploró varios casos mediante la especi�cación de la forma funcional de lasfunciones de regresión y cedástica, los más interesantes desde nuestro puntode vista son los siguientes.1. Regresión lineal y varianza condicional homocedástica. Pos-

tulando:

Page 367: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 367

� (yjx) = �0 + �1x, � (xjy) = 0 + 1x,

�2 (yjx) = �21, �2 (xjy) = �22,

derivó densidades condicional y marginal que resultaron ser Normales,produciendo una distribución Normal bivariada.Regresión lineal y varianza condicional heterscedástica (lineal).

Al postular

� (yjx) = �0 + �1x, � (xjy) = 0 + 1x,

�2 (yjx) = a1 + x, �2 (xjy) = a2 + y,

deriva una densidad conjunta de la forma general:

f (x; y) = c0 (�x+ �)�1 ( y + �)�2 (ax + by + c)�3 .

Esta distribución conjunta incluye las distribucionesBeta bivariada, Paretoy la F (véase el apéndice B) como casos especiales. Al restringir la varianzacondicional de Y dado X a ser:

�2 (yjx) = a1,

Narumi deriva la densidad de dos variables:

f (x; y) = c0 (�x+ �)�1 e��2y (ax + by + c)�3 ,

que incluye la distribución Gamma (McKay) (véase el apéndice B) comoun caso especial.Regresión lineal y varianza heterocedástica condicional (parabólica).

Al postular

� (yjx) = �0 + �1x, � (xjy) = 0 + 1x,

�2 (yjx) =pa1 + x2, (xjy) =

pa2 + y2,

muestra que la densidad conjunta toma la forma general:

f (x; y) = c0�ax2 + by2 + 2�1xy + 2�2x+ 2�3y + c

�m.

Page 368: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

368 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

Esta distribución conjunta incluye las distribución bivariada de Cauchy,la t Student y la Pearson tipo II (véase el apéndice B) como casos especiales.NOTA: el lector perspicaz habría dado cuenta de la conexión entre los

resultados de Narumi y de Van Uven (véase el capítulo 6).Un siglo después del primer intento fallido de Pearson para generar dis-

tribuciones conjuntas podemos ahora argumentar que Pearson estaba en locierto desde el principio. La sección 2 anterior se puede interpretar comoprueba de la tesis de Pearson presentando varios modelos de regresión aso-ciados con diferentes distribuciones bivariadas. En efecto, si la sugerenciade Yule se sigue cuando se estiman modelos de regresión, tal como la asoci-ada a la distribución exponencial bivariada, el resultado es probable que estélejos de su objetivo! En la subsección siguiente regresamos a la estrategia demodelación de Pearson.

6.6.3 Revisando la estrategia de modelación de Pear-son

Desde el punto de vista de la modelación empírica, la estrategia de mod-elación de Pearson (véase Pearson (1905, 1923a, b, 1924,1925)) tiene perfecta-mente buen sentido y proporciona el fundamento para el planteamiento adop-tado en este libro. La aproximación de Galton a la regresión lineal/Normalse puede extender fácilmente a algunos otros modelos de regresión como sediscute en la sección 2. En el capítulo 6 consideramos la cuestión de utilizarlos diagramas de dispersión con el �n de tener una idea de la naturaleza de ladensidad bivariada por suavizamiento del estereograma (histograma bivari-ado). Esto es simplemente una versión moderna del procedimiento de Galtoncomo se describio anteriormente. La super�cie suavizada del estereograma(véase el capítulo 6) da al modelador ideas en cuanto a la distribución bivari-ada más acorde, y esta información se puede utilizar con el �n de postular elmodelo de regresión adecuado.Para ilustrar la relación entre la densidad bivariada y las curvas de re-

gresión volvamos a las distribuciones bivariadas en el capítulo 6. En las�guras 7.22-7.23 podemos ver la densidad bivariada F con � := (12; 8; 8) ylos contornos de equiprobabilidad correspondientes que son claramente noelípticos y asimétricos. La relación entre la distribución conjunta y la líneade regresión se puede ver en la �gura 7.23 que tiene una cierta a�nidad conla de la distribución conjunta Normal en la �gura 7.21, pero también hay

Page 369: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 369

una diferencia obvia. Las líneas de regresión Normales y F son similares entanto que el signo del coe�ciente de correlación determina su pendiente, perodi�eren en la medida en cuanto que este último no pasa por la moda de ladensidad bivariada.Además, no existe una relación evidente simple entre la pendiente de los

contornos en los puntos de intersección con la línea de regresión como señalóGalton en el caso de la densidad Normal bivariada. NOTE que el coe�cientede correlación en las �guras 7.22 a 7.23 es � = 0:444.

Figura 7.22. Bivariada F (23,8,8) la densidad de la super�cie.

Figura 7.23. Bivariada F (12,8,8) contornos y línea de regresión.

En las �guras 7.24-7.25 podemos ver las misma grá�cas en el caso en que lacorrelación entre las variables aleatorias (X;Y ) es bastante alta (� = 0:953).Como podemos ver la línea de regresión está mucho más cerca a (pero no

Page 370: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

370 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

coincide con) el eje principal de los contornos elípticos casi simétricos. Aligual que en el caso de la distribución normal, aumentando el coe�ciente decorrelación tiene el efecto de aplastar los contornos.

Figura 7.24. Bivariada F (5,60,60) la densidad de la super�cie.

Figura 7.25. Bivariada F (5,60,60) contornos y la línea de regresión.

La conexión entre el coe�ciente de correlación y la recta de regresión sehace más clara en las �guras 7.26-7.27 donde la correlación entre las variablesaleatorias (X;Y ) es baja (� = 0:035), con�rmando la relación directa entreel coe�ciente de correlación y la pendiente de la línea de regresión.

Figura 7.26. Bivariada F (80,4,1) la densidad de la super�cie.

Page 371: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 371

Page 372: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

372 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

Figura 7.27. Bivariada F (80,4,1) contornos y la línea de regresión.

En las �guras 7.28-7.29 podemos ver la densidad Gamma bivariada (Cherian)(2,3,4) y los contornos correspondientes con la línea de regresión insertada,respectivamente. Como podemos ver, la Gamma bivariada es muy similara la distribución F, pero con una forma diferente de asimetría. La línea deregresión es similar a las líneas de regresión Normal y F en la medida en queestán directamente relacionadas con el coe�ciente de correlación. Este es elresultado general que se deriva en la sección 3 anterior que dice que en elcaso de regresiones lineales, la línea toma la forma:

E (Y j� (X)) = E (Y )� Cov (X; Y )

V ar (X)[X � E (X)] . (7.61)

En las �guras 7.30-7.31 podemos ver la densidad versión Beta bivariada(3,3,6) y la densidad de los contornos correspondientes con la línea de regre-sión insertda, respectivamente. Una vez más, la asimetría mostrada por loscontornos es muy diferente tanto de la distribución F como de la Gammabivariada. Como se muestra en el apéndice B, esta forma de la distribuciónBeta bivariada sólo permite correlación negativa y por lo tanto la línea deregresión, también de la forma general (7.61), sólo puede tener pendientenegativa.

Figura 7.30. Beta bivarida (3,3,6). Super�cie de la densidad.

Figura 7.31. Beta bivarida (3,3,6) contornos y línea de regresión.

Page 373: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 373

En un intento por evitar la impresión errónea de que "las curvas de re-gresión son normalmente las líneas rectas" presentamos dos distribucionesbivariadas con funciones de regresión no lineales.En las �guras 7.32 a 7.33 podemos ver la densidad bivariada Exponencial

y los contornos correspondientes con la curva de regresión insertada, respec-tivamente. Una vez más notamos la aparente falta de conexión entre la pen-diente de los contornos y la curva de regresión en los puntos de intersección.La forma de las funciones de regresión para esta y las otras distribucionesdiscutidas anteriormente fueron señaladas en la sección 2 anterior.

Figura 7.32. Bivariada Exponencial (� = 1) densidad de la super�cie.

Figura 7.33. Exponencial bivariada (� = 1) contornos y curva de regresión.

Page 374: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

374 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

En las �guras 7.34 y 7.35 podemos ver la densidad logística bivariada(estándar) la y los correspondientes contornos con la curva de regresión in-sertada, respectivamente.

Figura 7.34. Super�cie de la densidad logística bivariada.

Figura 7.35. Logística bivariada contornos y línea de regresión.

Una comparación entre las �guras 7.35 y 7.29 sugiere que decidir si la re-gresión es lineal o no lineal con sólo mirar el diagrama de dispersión puede serpeligroso! Una mejor estrategia de modelación será evaluar los contornos delestereograma suavizado (véase el capítulo 6) antes tomar cualquier decisiónrelativa a la naturaleza de la función de regresión. De hecho, la estrategia demodelación de Pearson puede ser la mejor elección: primero decidir sobre la

Page 375: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.6. LA TRADICIÓN BIOMÉTRICA EN ESTADÍSTICA 375

distribución conjunta (utilizando los contornos del estereograma suavizado)y luego proceder a la regresión y otras funciones momento condicional; véasePearson (1905,1920,1923 a-b, 1924,1925 ). Esta estrategia puede ser com-plementada por la regresión suavizada de kernel no paramétrico discutido acontinuación a �n de evaluar la idoneidad de la distribución conjunta postu-lada.

6.6.4 Kernel suavizado y regresión

Las técnicas de kernel suavizado introducidas en los capítulos 5-6 se puedenutilizar para proporcionar al modelador una ayuda visual para decidir sobrela idoneidad del modelo de regresión postulado. La idea básica es utilizarla información transmitida por el diagrama de dispersión para evaluar unacurva de regresión no paramétrica directamente.Como se ha dicho anteriormente, la función de regresión se de�ne por:

E (Y jX = x) =

Zy2RY

y�f (yjx) dy = h (x) , x 2 RX .

Sustituyendo f (yjx) = f(x;y)fX(x)

en esta de�nición resulta:

E (Y jX = x) =

Zy2RY

y�f (x; y)fX (x)

dy = h (x) , x 2 RX .

A partir de esta relación podemos observar que el modelador puede obteneruna evaluación no paramétrica de la curva de regresión a partir del his-tograma suavizado (véase el capítulo 5) y estereograma (véase el capítulo 6),

Page 376: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

376 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

que representan los equivalentes empíricos de las densidades fX (x) y f (x; y),respectivamente:

bfX (x) =1

nhx

Xn

k=1Kx

�xk � x

hx

�; hx > 0

bf (x; y) =1

nhxhy

Xn

k=1Kx

�xk � x

hx

��Ky

�yk � y

hy

�; hx > 0; hy > 0,

donde ambos kernels satisfacen las propiedades:

[a] K (z) � 0, [b]Zz2RZ

K (z) dz = 1.

La función de regresión puede ser evaluada empíricamente a través de:

E�Y j bX = x

�=

Zy2RY

y�f (x; y)fX (x)

dy

=

Xn

k=1Kx

�xk�xhx

��ykXn

k=1Kx

�xk�xhx

� (7.62)

=Xn

k=1wk�yk, x 2 RX .

donde las ponderaciones la forma:

wk =Kx

�xk�xhx

�Xn

k=1Kx

�xk�xhx

� .El lado derecho de (7.62) se deduce del hecho de que:Z

y2RYKY (y) dy = 1 y

Zy2RY

y�KY (y) dy = 0.

El evaluador no paramétrico de la función de regresión en (7.62) se conocecomo el "estimador" Nadaraya-Watson. Para más so�sticados evaluadoresde la función de regresión basado en técnicas de suavizado de kernel y otrosver Hardle (1990).Intuitivamente, las anteriores curvas suavizadas de regresión equivalen a

tomar una media ponderada (siendo los pesos wk, k = 1; 2; :::; n) de todos los

Page 377: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.7. RESUMEN 377

puntos (xk; yi) en el intervalo (xk � hx) cuando k varía sobre todos los valoresde X. En la �gura 7.36 podemos ver un intervalo de este tipo (0:6� 0:1)dentro del cual varios puntos se promediarán verticalmente para reducirlos aun punto.En este libro consideramos el anterior evaluador no paramétrico de la

función de regresión no como un sustituto de la estrategia de modelaciónexpuesta anteriormente, sino como un complemento de la evaluación de laidoneidad del modelo de regresión postulado. Esto se debe a que el evaluadorde la regresión suavizada hace caso omiso de las otras funciones condicionalesmomento. Por el contrario, postulando una distribución bivariada permiteal modelador derivar las funciones momento condicional de orden superior.Como hemos visto en la sección 2 anterior, la mayoría de las distribucionesbivariadas dan lugar a funciones de varianza condicional heterocedástica.Por lo tanto, el mejor uso de la regresión suavizada es para el modeladorsuperponer la curva de regresión teórica (que corresponde a la distribuciónbivariada postulada) y la curva de regresión empírica no paramétrica en undiagrama de dispersión para evaluar visualmente lo adecuado de la primera.Para otros usos de tales evaluadores no paramétricos véase el capítulo 15.

6.7 Resumen

El principal objetivo de los anteriores tres últimos capítulos ha sido la exten-sión del modelo estadístico simple, construido sobre el concepto de muestraaleatoria, hacia modelos más realistas que pueden acoger alguna dependenciay / o heterogeneidad. Después de haber argumentado que la mejor manerade modelar la dependencia y la heterogeneidad es a través de distribucionesconjuntas, se procedió a encontrar formas de lidiar con los problemas dela multidimensionalidad y sobreparametrización derivados de tales distribu-ciones. En el capítulo 6, además de desarrollar una serie de conceptos dedependencia, se mostró que la condicionalidad secuencial proporciona unamanera más e�caz de lidiar con el problema de la dimensionalidad planeadopor las distribuciones conjuntas. Cualquier distribución conjunta se puedereducir a un producto de distribuciones condicionales univariadas. Sin em-bargo, este producto a menudo representa una familia in�nita de densidadescuya información no puede ser modelada utilizando los momentos condi-cionales ordinarios. El objetivo principal de este capítulo ha sido el desarrollodel concepto de función estocástica momento condicional. Estas funciones

Page 378: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

378 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

se de�nen en términos de los momentos condicional, pero se consideran fun-ciones de las variables condicionantes. Las funciones condicional momentomás conocidas son las funciones de regresión y cedástica. Otro de los obje-tivos de este capítulo ha sido mostrar que las funciones momento condicional(regresión, cedástica, clítica y curtica) pueden ser integradas en la especi�-cación de modelos estadísticos mediante la introducción de un componenteadicional, el mecanismo generador estadístico (MG). El MG estadístico ten-drá un papel importante en la estimación y en la etapa de identi�cación:relacionando un modelo estadístico a un modelo teórico.El enfoque propuesto en este capítulo para modelar la dependencia / het-

erogeneidad utilizando modelos de regresión general se remonta a la tradiciónbiométrica fundada por Galton, formalizada y ampliada por Karl Pearson (yhasta cierto punto Yule) y transformada en la estadística moderna por Fisher(véanse los capítulos 11-15). Nuestro interés en la tradición biométrica se harestringido a su dimensión de modelación empírica y no se ha hecho referen-cia a su relación con el tema de la Biología; para esto ver a MacKenzie (1981)y Kevles (1985). Sin embargo, es importante mencionar la lección fundamen-tal que se aprendió del fracaso de la tradición biométrica para dar lugar a labiología estadística, como fue originalmente pensado por Karl Pearson. Lalección es que los modelos estadísticos por sí solos proporcionan una descrip-ción y no una explicación. Para esto último necesitamos sintetizar modelosestadísticos empíricamente adecuados con los modelos teóricos (ver capítulo1). Cuando Fisher (1930) sintetiza la tradición estadística biométrica conla teoría de la herencia de Mendel, el híbrido resultó ser un gran éxito! Lademanda de Fisher a la fama no es sólo como el padre de la estadística mod-erna, sino también como una �gura importante en la genética del siglo 20;véase MacKenzie (1981).

6.8 Ejercicios

1. Explique cómo la noción de condicionamiento nos permite tratar con elproblema de la dimensionalidad planeatdo por las distribuciones conjuntasde las muestras.2. Explique por qué en la reducción f (x; y) = f (yjx) fx (x), usando

momentos condicionales para los propósitos de la modelación, plantea unproblema en relación con x 2 RX .3. Considere la distribución conjunta dada enseguida:

Page 379: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

6.8. EJERCICIOS 379

xny 1 2 3 fx(x)-1 0.10 0.08 0.02 0.20 0.15 0.06 0.09 0.31 0.02 0.20 0.10 0.5fY (y) 0.45 0.34 0.21 1

(a) Deduzca las distribuciones condicionales de (Y jX = x) para todos losvalores de la variable aleatoria X.(b) Derive la regresión y funciones cedásticas de las distribuciones en (a).4. Sea la función de densidad conjunta de dos variables aleatorias X e Y:xny 0 1 20 0.1 0.2 0.21 0.2 0.1 0.2(a) Derive los siguientes momentos condicionales:E(Y jX = 1), V ar(Y jX = 1), Ef[Y � E(Y jX = 1)]3jX = 1g.(b) Veri�que las igualdades:(i) V ar(Y jX = 1) = E(Y 2jX = 1)� fE[Y jX = 1]g2.(ii) E(Y ) = EfE(Y jX)g.(iii) * V ar(Y ) = EfV ar(Y jX)g+ V arfE(Y jX)g.5. Compare y contraste los conceptos E[Y jX = X] y E[Y j�(X)].6. De�na y explique los siguientes conceptos:(a) Funciones condicionales momento,(b) función de regresión,(c) función Cedástica,(d) homoscedasticidad,(e) heterocedasticidad.7. De las distribuciones de dos variables del capítulo 7, recoger las fun-

ciones de regresión que son lineales y las funciones cedásticas que son ho-moscedásticas.8. Explique el concepto de regresión lineal. Explique la diferencia entre

la linealidad en x y la linealidad en los parámetros.9. Considere la distribución normal conjunta representada por:�

YX

�~N

���1�2

�;

��11 �12�21 �22

��.

(a) Para los valores �1 = 1, �2 = 1:5, �11 = 1; �12 = �0:8, �22 =2, gra�que la esperanza condicional E (Y jX = x) y la varianza condicionalV ar (Y jX = x) para x = 0; 1; 2.

Page 380: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

380 CAPÍTULO 6. REGRESIÓN Y CONCEPTOS RELACIONADOS

b) Gra�que E (Y jX = x) y V ar (Y jX = x) para x = 0; 1; 2, para una dis-tribución t de Student bivariada, cuyos momentos toman los mismos valoresque los indicados en (a) para v = 3; 5; 7.(c) Exprese las distribuciones marginales de Y y X.10. Explique el concepto de función estocástica momento condicional.¿Porqué

nos importa?11. Explique el concepto de exogenedad débil. ¿Porqué nos importa?12. Explique el concepto de mecanismo generador estadístico. ¿Porqué

lo necesitamos?13. Sea Y una variable aleatoria y de�na el término de error por: u =

Y � E (Y j� (X)).Muestre que, por de�nición, esta variable aleatoria cumple las siguientes

propiedades:[i] E (uj� (X)) = 0,[ii] E (u�Xj� (X)) = 0,[iii] E (u) = 0,[iv] E fu� [E (Y j� (X))] j� (X)g = 0.14 Explique la diferencia entre dependencia temporal y contemporánea.15 Compare y contraste el MG estadístico de:(a) el modelo Normal simple,(b) el modelo de regresión lineal /Normal, y(c) el modelo lineal/autorregresivo Normal.16. Compare y contraste los modelos de regresión Normal simple y lin-

eal/Normal en términos de sus modelos de probabilidad y muestral.17 Compare y contraste los modelos de regresión lineal/Normal y t de

Student en términos de sus modelos de probabilidad y muestral.18 Explique la estrategia de Karl Pearson en la postulación de modelos

de regresión.19 "El argumento de que, observando las exposiciones grá�cas de distribu-

ciones bivariadas y la grá�ca de contorno asociada a la curva de regresión,es muy engañoso cuando se tienen m > 2 variables, es equivalente a decirlea los astrónomos que abandonen sus telescopios, ya que sólo pueden ver dospor ciento del universo a lo más". Discuta.

Page 381: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

Capítulo 7

Procesos estocásticos

7.1 introducción

En el capítulo 6 nos propusimos ampliar el alcance previsto del modelo es-tadístico simple basado en el concepto de muestra aleatoria (un conjuntode (X1; X2; :::; Xn) variables aleatorias independientes e idénticamente dis-tribuidas (IID)) para incluir fenómenos estocásticos que no pueden ser con-siderados como realizaciones de muestras aleatorias. En este capítulo anal-izamos el concepto de dependencia en general. El problema de la mod-elización de la dependencia se prosiguió en el capítulo 7, donde llegamosa la conclusión de que una forma e�caz de abordar las cuestiones planteadaspor la modelización fue través de las distribuciones condicionales y, en par-ticular, a través de las funciones condicionales momento estocásticas. Ladiscusión en ambos capítulos se limito al caso de dos variables con el �n deeludir algunos problemas adicionales planteados por el caso general. El obje-tivo principal de este capítulo es regresar al caso general de n variables y unirlos cabos sueltos. El concepto básico requerido es el de proceso estocásticoque extiende el concepto de variable aleatoria.

7.1.1 La historia hasta ahora

Como se muestra en los capítulos 6 y 7, el cali�cativo simple en un modeloestadístico simple proviene del hecho de que el supuesto de muestra aleato-ria simpli�ca considerablemente el análisis; la distribución conjunta de lamuestra es reducida a un producto distribuciones marginales univariadas

381

Page 382: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

382 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS

(idénticas)1:

f (x1; x2; :::; xn;�)I=

nYk=1

fk (xk;�k)IID=

nYk=1

f (xk;�) ; para todo x := (x1; x2; :::; xn) 2 RnX :

(8.1)Como se muestra en el capítulo 6, en el caso de una muestra no aleatoria

la correspondiente reducción basada en el condicionamiento secuencial tomala forma:

f (x1; x2; :::; xn;�)no IID= f1 (x1; 1)

nYk=2

fk (xk j xk�1; :::; x1; k) ;8x 2 RnX :

(8.2)Al comparar las dos reducciones (8.1) y (8.2) podemos ver que la clave

para la modelización de la no aleatoriedad se presenta en la forma de dis-tribuciones condicionales. En efecto, de la discusión preliminar del problemade medir la dependencia en el capítulo 6 concluimos que la vía más promete-dora se presenta en forma de momentos condicionales. En el capítulo 7, sinembargo, se hizo evidente que los momentos condicionales no podíaa hacerel trabajo porque para cada k:

fk (xkjxk�1; :::; x1; k) ; (xk�1; :::; x1) 2 Rk�1X : (8.3)

representa una colección completa de funciones de densidad; una paracada valor posible en Rk�1X , cada una con sus propios momentos condicionales.La solución a este problema viene bajo la forma de funciones condicionalesmomento, tales como la función de regresión y cedástica. Incluso estas fun-ciones, sin embargo, no son su�cientes para hacer frente al problema, yaque ignoran la estructura probabilística de la variable condicionante. En elcapítulo 7 extendemos las funciones condicionales momento para tener encuenta la estructura probabilística de las variables condicionantes en formade funciones estocásticas condicionales momento.A lo largo de la discusión en los dos capítulos anteriores nos hemos con-

centrado en el caso simple de dos variables:

1En el libro de Spanos (1999), la expresión 8.1 en lugar de la primera igualdad aparecesólo I y en lugar de la segunda aparece III.

Page 383: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

7.1. INTRODUCCIÓN 383

f (x; y;�) = f (yjx;'2) � fx (xj;'1) ; para todo (x; y) 2 RX � RY : (8.4)

por una razón muy buena: esquivar dos problemas interrelacionados quesurgen en el contexto de las distribuciones condicionales secuenciales (8.3):(i) El conjunto de información condicionante cambiante: el número de

cambios en las variables condicionantes con el índice en el sentido de queel número de variables condicionantes que intervienen en (xkjxk�1; :::; x1; k)cambia con k = 2; 3; :::; n, haciendo estas densidades diferentes, por ejemplopara el n = 5:

f2 (x2jx1; 2)f3 (x3jx2; x1; 3)f4 (x4jx3; x2; x1; 4)f5 (x5jx4; x3; x2; x1; 5) :ii) La heterogeneidad inherente: además del hecho de que las densidades

condicionales puede ser diferentes para cada k (fk (:j:) ; k = 1; 2; :::; n), ex-iste también el problema de la heterogeneidad introducida por el cambianteconjunto de información condicionante.Con el �n de motivar la discusión que sigue, vamos a proceder a aplicar las

soluciones propuestas en el capítulo 7 para el caso general (8.3). En partic-ular, vamos a considerar los conceptos de funciones condicionales momentoen el caso de la secuencia de densidades condicionales (8.3). Lo primeroque se hace evidente observando estas densidades es que no podemos utilizarlas funciones ordinarias condicionadas momento debido a que las densidadesmarginales son sin duda relevantes.Con la excepción de las últimas Xn vari-ables aleatorias, las otras aparecen a ambos lados del condicionamiento. Porlo tanto, debemos tener en cuenta las funciones estocásticas condicionalesmomento. Las dos primeras funciones estocásticas condicionales momento,conocidas como funciones autorregresivas y autocedásticas, toman la formageneral:

E (Xkj� (Xk�1; :::; X1)) = hk (Xk�1; :::; X1) ; k = 2; 3; :::; n

V ar (Xkj� (Xk�1; :::; X1)) = gk (Xk�1; :::; X1) ; k = 2; 3; :::; n (8.5)

Un vistazo a (8.5) revela que esas no producen modelos operativos, porqueellas cambian con el índice k. Esto indica que sin algunas restricciones

Page 384: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

384 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS

sobre la dependencia y la heterogeneidad del conjunto de variables aleato-rias (X1; X2; :::; Xn), no surgen modelos operativos a través de los momentoscondicionales estocásticos; el problema de la imposición de tales restriccionesse llevará a cabo en este capítulo.

7.1.2 Variables aleatorias y ordenamiento

En el caso de una muestra aleatoria (X1; X2; :::; Xn), el ordenamiento de lasvariables aleatorias involucradas, aunque se especi�ca, es irrelevante debido aque las variables aleatorias son réplicas de cada una y no podemos distinguirentre, por ejemplo X1 yX3, incluso si quisiéramos, a menos que la realizaciónde estos valores se lleve a cabo en sucesivos momentos y su orden se tomeen cuenta. Esto es evidente en (8.1), porque cualquier reorganización dela secuencia no hará ninguna diferencia en el lado derecho. En contrastecon esto, en el caso de una muestra no aleatoria la reducción de (8.2) haceperfectamente claro que el orden es muy importante.El concepto de variable aleatoriaX (ver capítulo 3) de�nida en un espacio

de probabilidad (S;=; P (:)), (donde S denota el conjunto de resultados, =el conjunto apropiado de eventos de interés y P (:) una función conjunto deprobabilidad), como una función de la forma:

X (:) : S ! R tal que X�1 (�1; x] 2 =es, básicamente, adimensional y no puede ser dotado de dependencia

y heterogeneidad. En nuestro intento de de�nir el concepto de muestra noaleatoria necesitamos dotar al concepto de variable aleatoria con dependenciay heterogeneidad. Ambos conceptos se de�nen en relación con algún orde-namiento de las variables aleatorias involucradas. Esto hace que debamosdotar al concepto de variable aleatoria de una dimensión (un índice) que rep-resenta a este ordenamiento y representa a menudo tiempo, posición, espacio,etc. La sucesión indexada de variables aleatorias fX1; X2; :::; Xng, llamadaproceso estocástico, es la extensión requerida. El lector perspicaz habránotado que el concepto de proceso estocástico fue implícitamente utilizadoen los tres capítulos anteriores, cuando la muestra fue especi�cada.

7.1.3 Una vista panorámica del capítulo

El objetivo principal de este capítulo es de�nir y explicar el concepto deproceso estocástico y las restricciones relacionadas de dependencia y hetero-

Page 385: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

7.1. INTRODUCCIÓN 385

geneidad, necesarias para especi�car modelos estadísticos operacionales quese pueden utilizar para la modelización de datos no IID.La discusión de los procesos estocásticos puede llegar a ser una de las

partes más enmarañadas y confusas de la teoría de la probabilidad, debidoprincipalmente a los numerosos tipos de procesos estocásticos traslapados queuno encuentra. Las di�cultades de dominar el material se mitigan cuando ladiscusión se estructura de una manera que hace que sea más fácil comparary contrastar los distintos procesos estocásticos. En un intento por mitigarla confusión para los no iniciados utilizamos las siguientes ayudas de apren-dizaje:i) Comenzamos la discusión con una breve reseña de los primeros desar-

rollos en procesos estocásticos. Esto se hace para aminorar el problema deintroducir demasiados conceptos muy rápidamente y establecer cierta termi-nología básica.(ii) La estructura probabilística de procesos estocásticos se discute en

relación con las tres categorías básicas de supuestos probabilísticos:

(D)Distribución, (M)Dependencia, (H)Homogeneidad. ((8.6))

Esto hace la comparación entre los diferentes procesos mucho más claray más intuitiva.(iii) Utilizamos varias taxonomías de procesos estocásticos, comenzando

la discusión con la distinción discreto / continuo.(iv) En vista del hecho de que la mayoría de los procesos estocásticos se

especi�can indirectamente como funciones de otros procesos estocásticos (amenudo más simples), hacemos hincapié en la distinción entre los puntos devista distrbucional y constructivista.En la sección 2 de�nimos el concepto de proceso estocástico y dis-

cutimos su estructura básica. En la sección 3, consideramos brevementelos primeros desarrollos de algunos de los procesos estocásticos más impor-tantes y las asociadas restricciones de dependencia y heterogeneidad. Unadiscusión más completa de las restricciones de dependencia y heterogeneidadde los procesos estocásticos se da en las secciones 4 y 5, respectivamente. Sehace hincapié en la distinción entre los enfoques distribucional y construc-cionista a la especi�cación de los procesos estocásticos; la primera se re�erea la especi�cación a través de la distribución conjunta de un número �nitode elementos del proceso y la segunda a la especi�cación de un proceso es-tocástico a través de una función de otro proceso (a menudo más simple). La

Page 386: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

386 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS

sección 6 se presentan algunos de los procesos estocásticos utilizados comobloques de construcción para la construcción de tales procesos. Las prin-cipales categorías de procesos estocásticos, procesos Markov, procesos decaminata aleatoria, procesos martingala, procesos de Gaussianos y procesosPunto, se discuten en las secciones 7-11. En relación con la especi�caciónde un proceso estocástico, concluimos el problema de la especi�cación demodelos estadísticos operativos mediante la imposición de restricciones dedependencia y heterogeneidad en la sección 10.

7.2 El concepto de proceso estocástico

7.2.1 De�nición de un proceso estocástico

Un proceso estocástico es simplemente una colección indexada de vari-ables aleatorias fXt; t 2 Tg de�nidas en el mismo espacio de probabilidad(S;=; P (:)), es decir, Xt es una variable aleatoria en relación a (S;=; P (:)),para cada t en el conjunto índice T .EjemploEl número de llamadas telefónicas llegando a una central telefónica en el

intervalo [0; t] se puede modelar usando una secuencia indexada de variablesaleatorias, donde Xt mide el número de llamadas hasta el momento t; susvalores posibles son: 0; 1; 2; 3; :::Recordando que una variable aleatoria X es una función del conjunto de

resultados S a la línea real R, observamos que un proceso estocástico es unafunción con dos argumentos:

X (:; :) : S � T ! R:Una notación más atenta de un proceso estocástico es:

fX (s; t) ; s 2 S; t 2 Tg :Teniendo en cuenta los dos argumentos, podemos considerar un proceso

estocástico a partir de dos diferentes pero interrelacionados entre sí ángulosde visión.(i) El ángulo de visión variable aleatoria. Para un determinado t = t,�

X�s; t�; s 2 S

:

X�:; t�: S ! R,

Page 387: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

7.2. EL CONCEPTO DE PROCESO ESTOCÁSTICO 387

es una variable aleatoria ordinaria respecto a (S;=; P (:)) con sus propiasfunciones de distribución y densidad, como antes. Para un determinado sub-conjunto de T , por ejemplo ft1; t2; :::; tng, fX (:; t1) ; X (:; t2) ; :::; X (:; tn)ges simplemente una colección de variables aleatorias, similar a la que us-amos para de�nir el concepto de muestra en los capítulos anteriores. Laestructura probabilística de esta colección está completamente descrita porsu distribución conjunta acumulada o por su función de densidad conjuntaf (x (t1) ; x (t2) ; :::; x (tn)).

(ii) El ángulo de visión funcional. Para un determinado s = s, fX (s; t) ; t 2 Tg:

X (s; :) : T ! R,

es solo una función ordinaria de T a R. La grá�ca de esta función sellama a menudo trayectoria muestral (o realización muestral), porque ésta esla característica del proceso estocástico que a menudo asociamos con los datosobservados. En las �guras 8.1 y 8.2 podemos ver las trayectorias muestralesde un proceso estocástico discreto y continuo, respectivamente.

Figura 8.1. Una trayectoria muestral discreta

Page 388: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

388 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS

Figura 8.2. Una trayectoria muestral continua

Permitiendo que s cambie (siempre dentro de S) y tomando los valores,por ejemplo fs1; s2; s2; :::; skg, las funciones fX (s1; :) ; X (s2; :) ; :::; X (sk; :)g,t 2 T , de�nen una colección de diferentes trayectorias muestrales, que sellama un ensamble. La estructura matemática del ensamble también de-sempeña un papel importante en la formalización del concepto de procesoestocástico.NOTAS:(a) Es importante destacar en esta etapa que es una práctica común

conectar los puntos de un trayectoria muestral de un proceso discreto. Estosugiere una cierta precaución cuando se observan grá�cas para evitar con-fundir un proceso discreto con uno continuo, debido a que uno observa unatrayectoria muestral continua (ver �gura 8.2).(b) A menudo no se puede resistir la tentación de interpretar a t como el

tiempo por conveniencia, pero fácilmente podría haber alguna otra dimensiónque nos interese, como el espacio y la posición geográ�ca, siempre y cuandoel conjunto índice para la dimensión particular esté ordenado.(c) El índice t puede fácilmente ser multidimensional en el sentido de que

el proceso estocástico fXt; t 2 R3g podría representar la velocidad de unapartícula suspendida en un líquido con t siendo su posición en el espacioeuclidiano tridimensional.(d) El proceso estocástico fXt; t 2 Tg se puede extender fácilmente al caso

en queXt es un vector k�1 de variables aleatorias k31: Xt = (X1t; X2t; :::; Xkt)T .

Desde el punto de vista de la modelización hay una diferencia muy im-portante entre tener una realización xt := (x1; x2; :::; xT ) a partir de unamuestra aleatoria (X1; X2; :::; XT ) o a partir de un proceso estocástico no

Page 389: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

7.2. EL CONCEPTO DE PROCESO ESTOCÁSTICO 389

IID fXt; t 2 Tg. En el caso de la muestra aleatoria, debido al hecho de quecada valor de xt proviene de la misma distribución f (x;�), la fecha t carecede importancia ya que las variables aleatorias son réplicas de cada una. Comoresultado de esto, podemos utilizar los promedios t (momentos muestrales),tales como:

1

T

XT

t=1xrt , r = 1; 2; ::: (8.7)

para estimar los correspondientes momentos de la distribución (promediosde probabilidad):

E (Xr) =

Zx2RX

xrf (x) dx, r = 1; 2; ::: (8.8)

En cierto sentido, (8.7) se de�ne promediando sobre t 2 T y (8.8) prome-diando s 2 S; recuerde el espacio de probabilidad (S;=; P (:)).

Esos dos tipos de promedio puede ser visualizados en el contexto de la�gura 8.3 que representa 5 trayectorias muestrales de un proceso estocásticoIID Normal. El promedio t se realiza en sentido horizontal y el promediode distribución se realiza verticalmente. Cuando estas trayectorias mues-trales constituyen realizaciones de muestras IID los promedios t (momentosmuetrales) convergen a los promedios de distribución (momentos), porquesabemos que las variables aleatorias involucradas tienen momentos comunes

y como se muestra en el capítulo 9 los promedios t, 1T

XT

t=1xrt , convergen a

estos momentos comunes. Sin embargo, la situación en el contexto de unamuestra no aleatoria es radicalmente diferente, ya que, sin ninguna restric-ción de dependencia y heterogeneidad, cada valor de Xt, proviene de unadistribución diferente y por lo tanto no hay momentos comunes a los que lospromedios t converjan!

Page 390: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

390 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS

Figura 8.3 Un ensamble de cinco trayectorias muestrales

Otra forma de ver este problema es observar que para un proceso estocás-tico no IID los parámetros desconocidos �t en f (xt;�t) son, por de�nición,funciones de los momentos que cambian con t:

E (Xrt ) = �r (�t; t), r = 1; 2; :::; t 2 T .

En cierto sentido, el problema es que tenemos sólo una observación paracada conjunto de parámetros desconocidos �t. La pregunta que se sugiereen esta etapa, es si sólo en el caso de variables aleatorias IID los promediost convergerán a los promedios distribución (momentos). La respuesta es nonecesariamente, pero las variables aleatorias involucradas tienen que teneralgo en común para que la convergencia tenga lugar. Este algo en comúnse de�ne en términos de las restricciones sobre la estructura probabilísticadel proceso en cuestión a �n de permitir al modelador utilizar promedios ttales como (8.7) como estimaciones con�ables de los parámetros desconocidos(momentos). Esto requiere restricciones de dependencia/heterogeneidad queserán el centro de este capítulo.

7.2.2 Clasi�cación de los procesos estocásticos

La estructura del proceso estocástico fXt; t 2 Tg depende parcialmente de lanaturaleza de dos conjuntos: el conjunto índice T y el rango de la variablealeatoria X, por ejemplo RX . Dado que el rango de la aleatoria Xt puedecambiar con t, de�nimos el rango del proceso estocástico fXt; t 2 Tg comola unión de la conjuntos de valores de X (:; T ) para cada t, digamos RX(t) :

Page 391: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

7.2. EL CONCEPTO DE PROCESO ESTOCÁSTICO 391

<x = [t2TRX(t)

conocido como el espacio de estado del proceso estocástico. Lo que haceque al proceso estocástico matemáticamente diferente es que los conjuntos(T , <x) sean numerables o no numerables; una distinción ya encontrada enel capítulo 2.(a) En el caso en que T es un conjunto numerable, tal como T = f0; 1; 2; 3; :::g,

llamamos a fXt; t 2 Tg un proceso estocástico de índice discreto. Porotro lado, cuando T es un conjunto no numerable, tal como T = [0;1),llamamos a fXt; t 2 Tg un proceso estocástico de índice continuo.Cuando tenemos que enfatizar la distinción entre procesos de índice continuoy discreto para �nes expositivos, utilizaremos la NOTACIÓN: fXt; t 2 Tgpara un proceso de índice continuo.(b) Del mismo modo, el espacio de estado <x del proceso estocástico

fXt; t 2 Tg, puede ser numerable o no numerable, introduciendo una cuartaforma de conjunto índice/espacio de estado (T , <) de los procesos estocásti-cos:

Conjunto índice T Espacio de estado < EjemploD-D numerable numerable Caminata aleatoria simpleD-C numerable no numerable Proceso NormalC-D no numerable numerable Proceso PoissonC-C no numerable no numerable Proceso movimiento Browniano

Esta clasi�cación constituye una representación esquemática, agrupandoprocesos estocásticos mutuamente excluyentes que es útil para organizar nue-stros pensamientos en las etapas iniciales de la interiorización del material,pero no es la única, o aún la clasi�cación más útil, ya que hace caso omisode la estructura probabilística de un proceso estocástico. Varias otras clasi-�caciones traslapadas de procesos estocásticos, tales como estacionario/noestacionario, Markov/no Markov, Gaussiano /no Gaussiano, ergódica / noergódico, se basan en su estructura probabilística y proporcionar agrupa-ciones útiles de los procesos estocásticos. Una vista panorámica de una clasi-�cación basada en la estructura probabilística de procesos estocásticos se daen la �gura 8.4 (véase Srinivasan y Mehata (1988) para más detalles).

Page 392: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

392 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS

Figura 8.4 Una taxonomía de los procesos estocásticos

7.2.3 Especi�cación de un proceso estocástico

Dado que la estructura probabilística de un conjunto de variables aleatoriasse describe mejor por su distribución conjunta, es natural utilizar el mismodispositivo para especi�car la estructura probabilística de un proceso estocás-tico. Sin embargo, esto plantea el problema de especi�car distribuciones dedimensión in�nita porque el proceso astochastic fXt; t 2 Tg tiene a menudoun conjunto índice in�nito. Una solución efectiva a este problema fue prop-uesta por Kolmogorov en el mismo libro de 1933 que fundó la moderna teoríade probabilidad.RECURSO DE NOTACIÓN. En muchos casos, durante la exposición

que sigue vamos a discutir los conceptos que son aplicables a ambos procesosestocásticos de índices discreto y de ínidce continuo. La notación para losprocesos de índice discretos es, por supuesto, más natural y menos complicadaque la de procesos de índice continuo y las más de las veces se utilizará laprimera. Sin embargo, en los casos en que queremos hacer hincapié en laaplicabilidad general de un concepto, usamos un recurso de notación que encierto sentido nos permite utilizar la notación discreta para cubrir amboscasos. En lugar de utilizar la sucesión fXkg1k=1, que es claramente discreta,usamos fXtkg

1k=1, de tal manera que:

0 < t1 < t2 < � � � < tn < � � � <1, donde tk 2 T , para k = 1; 2; :::; n; :::

Se dice que un proceso estocástico fXt; t 2 Tg está especi�cado si es �nitala función de distribución acumulativa conjunta (fda):

Page 393: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

7.2. EL CONCEPTO DE PROCESO ESTOCÁSTICO 393

F (xt1 ; xt2 ; :::; xtn),

se de�ne para todos los subconjuntos �nitos ft1; t2; :::; tng � T . Esteresultado es muy útil debido a que su opuesto también es cierto (ver Kol-mogorov (1933a)).El teorema de extensión de KolmogorovPara cada n, sea Fn (xt1 ; xt2 ; :::; xtn) la función de distribución acumulada

conjunta. Si la condición de consistencia se cumple:

limxtn+1!1

Fn+1�xt1 ; xt2 ; :::; xtn ; xtn+1

�= Fn (xt1 ; xt2 ; :::; xtn),

para cada (n+ 1) > 1 y (xt1 ; xt2 ; :::; xtn) 2 Rn, existe un espacio deprobabilidad (S;=; P (:)) y un proceso estocástico fXt; t 2 Tg de�nido en él,tal que Fn (xt1 ; xt2 ; :::; xtn) es la función de distribución acumulada conjuntade (Xt1 ; Xt2 ; :::; Xtn) para cada n (ver Billinsgley (1986)). En este sentido,estamos seguros para asumir que la estructura probabilística de un procesoestocástico se puede describir por completo usando solamente distribucionesconjuntas de dimensión �nita.Es interesante NOTAR que el precedente teorema de extensión permite

al modelador de pasar de la distribución conjunta F2 (xt1 ; xt2) a la mar-ginal lim

xt2!1F2 (xt1 ; xt2) = F1 (xt1) y luego a la condicional F2j1 (xt2 jxt1) =Z x2

�1

f(xt1 ;u)f(xt1)

du.

La visualización de un proceso estocástico a través de la distribuciónconjunta de un subconjunto �nito de componentes se llama punto de vistadistributivo. Históricamente, sin embargo, el concepto de proceso estocásticosurgió en el siglo 20 como función de procesos IID simples. Este punto de vistaconstruccionista es equivalente a la especi�cación de un proceso estocásticofYk; k 2 Ng de�niéndolo como una función de un proceso estocástico simple(a menudo IID o únicamente independiente) fXt; t 2 Tg:

Yk = g (Xt1 ; Xt2 ; :::; Xtn) ; k 2 N: ((8.9))

Esto signi�ca que podemos pensar en una gran cantidad de procesos es-tocásticos como sistemas construidos usando bloques de construcción simples.La estructura probabilística del proceso construido fYk; k 2 Ng se determinaa partir de la del proceso más simple fXt; t 2 Tg vía el mapero (8.9).Ejemplos(i) Considere la siguiente función:

Page 394: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

394 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS

Yk = X1cos !k +X2sen !k, Xi~NIID (0; �2), i = 1; 2, k 2 N.

Esto de�ne un proceso estocástico fYk; k 2 Ng.(ii) un mapeo muy importante que desempeña un papel fundamental

para el punto de vista constructivista es la de�nición de mapeos como sumasparciales de un proceso fXk; k 2 Ng:

Yk =Xk

i=1Xi, k 2 N

El proceso estocástico fYk; k 2 Ng ha jugado un papel importante en eldesarrollo del concepto de proceso estocástico como se ha señalado.Debe hacerse hincapié, sin embargo, que incluso en el contexto de la

aproximación construccionista la mejor manera de comprender la estructurade un proceso estocástico es deducir la distribución conjunta de los procesosconstruidos.Volviendo a la distribución conjunta de un subconjunto �nito de elemen-

tos de un proceso estocástico, como la descripción más general de un pro-ceso estocástico, notemos que para propósitos de modelización necesitamosdomesticar el proceso mediante la imposición de algún tipo de estructuraprobabilística sobre el mismo. La razón es que tal y como está (sin restric-ciones) la distribución conjunta no proporciona modelos operativos. Par-tiendo de un proceso estocástico general fXk; k 2 Ng, procedemos a domarloimponiéndole ciertas restricciones de distribución, heterogeneidad y depen-dencia. Estas restricciones nos permitirán hacer frente tanto a los problemasde dimensionalidad como a los de sobreparametrización planteados en loscapítulos 6-7.En un intento por explorar algunos de los conceptos relativos a las re-

stricciones de dependencia y la heterogeneidad, proporcionamos una breveperspectiva histórica de algunos de los primeros intentos para enfrentarse conel concepto de proceso estocástico.

7.3 Procesos estocásticos: una visión prelim-inar

El concepto matemático de proceso estocástico, dado anteriormente, fue for-mulado en la década de 1930. Antes de ese momento el concepto de proceso

Page 395: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

7.3. PROCESOS ESTOCÁSTICOS: UNA VISIÓN PRELIMINAR 395

estocástico sólo existía en la forma de un modelo para determinados fenó-menos estocásticos. Estos modelos de los fenómenos estocásticos eran casiexclusivamente en la física. La notable excepción a esto es el intento deBachelier (1900) para presentar un modelo para el comportamiento de losprecios en el mercado de valores de París. Desde el punto de vista proba-bilístico, los conceptos necesarios para de�nir un proceso estocástico no sedesarrollaron hasta la década de 1920. De hecho, desde la época de Car-dano (1501-1576), cuando el concepto de independencia entre dos eventos seencontró por primera vez y luego formalizado por Moivre en la década de1730, hasta �nales del siglo 19, la dependencia fue vista como un estorboe interpretada negativamente como la falta de independencia. Más allá delbien conocido territorio de la independencia se encuentra un territorio inex-plorado conocido como no independencia/heterogeneidad. Comenzamos conuna breve reseña de los primeros intentos por formular un modelo para elfenómeno físico conocido como movimiento browniano.

7.3.1 El movimiento browniano y los fundamentos dela probabilidad

El proceso movimiento browniano, acuñado después de que el botánico RobertBrown (1773-1858) observó el movimiento errático de una partícula de polensuspendida en �uido, se remonta a 1827. Se pensaba erróneamente en esemomento que el comportamiento errático era el resultado de las moléculasque viajan a toda velocidad. Resultó ser que este movimiento fue el resultadodel bombardeo de las partículas por millones de moléculas de �uido causadopor difusión térmica. El efecto de la colisión de una particula con una decualesquiera de las moléculas es insigni�cante, pero el efecto acumulativo demillones de tales colisiones produce la comportamiento errático observableque exhibe ciertos patrones de regularidad aleatoria.El primer intento sistemático para modelar patrones observables de reg-

ularidad aleatoria del comportamiento errático de las partículas fue hechopor Einstein en 1905 utilizando una ecuación diferencial estocástica de lasiguiente forma:

@f(x;t)@t

= ��@2f(x;t)@x2

�,

donde � := lim�t!0

�(�x)2

2�t

�, es el coe�ciente de difusión y f (x:t) dx es la

probabilidad de queX(t) se encuentre en el intervalo (x; x+ dx). Resolviendo

Page 396: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

396 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS

esta ecuación diferecial sujeta a la condición inicial X(0) = 0, se puededemostrar que la distribución del desplazamiento de partículas (después deun tiempo t su�cientemente largo) toma la forma:

f (x; t) = np4��t

expn� x2

4�t

oEsta es la densidad Normal con momentos:

E (X (t)) = 0, V ar (X (t)) = 2�t.

Intuitivamente, esto puede explicarse por el hecho de que el desplaza-miento neto de la partícula X(�) durante cualquier intervalo de tiempo X(t,t + �) será la suma de numerosas pequeñas contribuciones (en gran parteindependientes) de impactos de moléculas individuales. El Teorema Centraldel Límite (véase el capítulo 9) sugiere que en estas condiciones el desplaza-miento errático de la partícula se puede aproximar por una variable aleatoriaNormalmente distribuida X(�).El movimiento browniano como un proceso estocástico puede verse como

la integral de un proceso NIID:

X(t) =

Z t

0

Z (u) du, Z (t) ~NIID (0; 1), t 2 (0;1) .

El primer intento por formular este proceso como un modelo para loscambios de las tasas de cambio de las acciones, fue hecha por Bachelier(1900). Desafortunadamente, su tesis no fue apreciada por matemáticoscomo Poincaré (uno de sus dos examinadores) y sus resultados, publicadosen su libro The Calculus of Probability (publicado en 1912), pasaron de-sapercibidos hasta principios de 1930, cuando Kolmogorov (1931) se re�ereen términos poco halagadores a su rigor matemático. Dejando a un ladoel rigor matemático, a Bachelier debe atribuirse la primera formulación delproceso estocástico que hoy conocemos como movimiento browniano. Es in-teresante notar que Bachelier entendió el problema de la modelización muchomejor que algunos de los matemáticos en la década de 1920. Él llegó inclusoa reconocer la necesidad de restricciones de dependencia/heterogeneidad y aintroducir lo que llegó a ser conocido más tarde como dependencia Markovy homogeneidad Markov (véase Von Plato (1994)). La primera formulación

Page 397: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

7.3. PROCESOS ESTOCÁSTICOS: UNA VISIÓN PRELIMINAR 397

matemática rigurosa del proceso estocástico movimiento Browniano fue dadapor Wiener en 1920 y desarrollada más ampliamente por Levy en los años1930 y 1940.El movimiento browniano es con mucho el más importante proceso es-

tocástico de índice continuo cuyo estudio inicial se basó en sus trayectoriasmuestrales. Sin embargo, las trayectoias seguidas por el movimiento irregularde las partículas resultaron ser continuas pero no diferenciables en ningunaparte. Eso fue una conmoción para la comunidad cientí�ca porque eso signi�-caba que las partículas viajan a velocidades in�nitas! La teoría de Einsteinfue con�rmada en 1916 por Pierre Perrin, quien recibió el premio Nobel en1926 por sus esfuerzos. La pelota estaba de lleno en el patio de los proba-bilistas que no tenían una teoría consistente de la probabilidad para cubrir elmodelo de Einstein. La teoría clásica de la probabilidad basada en el mod-elo de una lotería era muy insu�ciente para tal �n. En la década de 1920Wiener demostró la existencia de probabilidades para el modelo de Einstein,pero una teoría consistente de la probabilidad que cubriera este modelo tuvoque esperar hasta 1933, cuando Kolmogorov publicó su libro clásico sobre losfundamentos de la teoría de la probabilidad (1933a).El teorema de extensión de Kolmogorov, en términos generales, sugiere

que los fenómenos que presentan regularidad aleatoria se pueden modelardentro del marco de referencia matemático delimitado por el espacio de prob-abilidad (S;=; P (:)), dotado de la estructura matemática dada en el capítulo2, a menos que contengan inconsistencias de la forma mencionada en el teo-rema. El fundamento de Kolmogorov se convirtió en un éxito inmediato yaque aclaró todo el asunto creado con el estudio del movimiento browniano yliberó al tema de la camisa de fuerza impuesta por el modelo de lotería de laprobabilidad.

7.3.2 Sumas parciales y procesos estocásticos asocia-dos

Un número importante de procesos estocásticos, tales como Markov, cami-nata aleatoria, incrementos independientes y martingalas y sus restriccionesde dependencia y heterogeneidad asociadas, se pueden ver en el contexto delenfoque construccionista como sumas parciales de variables aleatorias inde-pendientes. Es natural que los primeros intentos por extender los procesosestocásticos IID fZtgt2T se asociaran con funciones simples de tales proce-

Page 398: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

398 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS

sos, como la suma. En efecto, el proceso movimiento browniano tal como sede�ne por (8.10) es la integral (suma sobre un continuo) de un proceso NIID.Considere una sucesión de variables aleatorias IID fZtgt2T que para 0 <

t1 < � � � < tk < � � � < 1, tk 2 T , k = 1; 2; :::; es parcialmente sumada paracrear un proceso derivado fSkg1k=1:

Sk =Xk

i=1Zti ; k = 1; 2; 3; ::: ((8.13))

El primero en aventurarse en el territorio desconocido de los procesosestocásticos no IID desde el punto de vista probabilístico fue Markov en1908 quien se percató que el proceso derivado fSkg1k=1 ya no es IID; tienetanto dependencia como heterogeneidad. Para ver esto vamos a simpli�car elproblema considerando los dos primeros momentos (suponiendo que existen)de la sucesión IID:(i) E (Ztk) = �, k = 1; 2; 3; :::;(ii) V ar (Ztk) = �2, k = 1; 2; 3; :::;Utilizando la linealidad de la esperanza (ver capítulo 3) podemos deducir

que:

(a) E (Sk) = k�; k = 1; 2; 3; :::;

(b) V ar (Sk) = k�2; k = 1; 2; 3; :::;

(c) Cov (Sk; Sm) = �2min (k;m) ; k;m = 1; 2; 3; ::: ((8.12))

Los resultados (a) y (b) son triviales de obtener pero (c) puede demostrarsecomo sigue:

Cov (Sk; Sm) = E f(S

k� k�) (Sm �m�)g

= E

( kXi=1

(Zti � �)

! mXj=1

�Ztj � �

�!)

=

kXi=1

mXj=1

E�(Zti � �)

�Ztj � �

��=

min(k;m)Xi=1

E (Zti � �) = �2min (k;m) ,

ya que Cov�Zti ; Zttj

�= 0, i 6= j. La sucesión de las sumas parciales

Page 399: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

7.3. PROCESOS ESTOCÁSTICOS: UNA VISIÓN PRELIMINAR 399

fSkg1k=1 fue llamada más tarde, un proceso de caminata aleatoria proporcionóel impulso para numerosos avances en los procesos estocásticos.PRECAUCIÓN. Se recuerda al lector una vez más que la estructura an-

terior es sólo indicativa de la estructura de dependencia más general de lassumas parciales, debido a que nos hemos concentrado exclusivamente en losdos primeros momentos, los que, en general, ni siquiera pueden existir!Markov estaba trabajando en un marco de referencia espacio de estado

discreto/conjunto índice discreto y se concentró principalmente en la estruc-tura de dependencia de tales procesos. En particular, se dio cuenta de doscosas:(i) todos los elementos del proceso fSkg1k=1 son mutuamente dependientes,

independientemente de la distancia entre ellos, pero(ii) la dependencia se vuelve más fácil modelar cuando se ve a través de

la distribución condicional.¿Qué es tan especial de este proceso?La distribución condicional de Sk dado su pasado (Sk�1; Sk�2; :::; S1) de-

pende sólo del pasado más reciente, es decir,

fk (skjsk�1; :::; s1; k) = fk (skjsk�1;'k) , para todo sk 2 Rk, k = 2; 3; :::(8.13)

Es decir, la estructura de dependencia entre Sk y su pasado (Sk�1; Sk�2; :::; S1)es totalmente capturada por su distribución condicional dado su pasado másreciente Sk�1; lo llamamos dependencia Markov. Los procesos que satisfacenesta restricción de dependencia se llaman procesos Markov. El resultado deMarkov se formalizó en su generalidad por Kolmogorov (1928b, 1931); versección 7.Es muy importante destacar que la Markovenes no implica restricción

alguna de heterogeneidad. Una forma evidente de tratar el problema deheterogeneidad en este contexto es asumir homogeneidad de las distribucionescondicionales, es decir

fk�xtk jxtk�1 ;'k

�= f

�xtk jxtk�1 ;'

�, k = 2; 3; :::; n

que podríamos llamar homogeneidad Markov. NOTE que esto involucrasólo las densidades condicionales; no hay supuesto de homogeneidad parala densidad marginal f1

�xt1jxtk�1 ; 1

�, que todavía puede ser una fuente de

heterogeneidad.

Page 400: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

400 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS

Otro proceso estocástico importante que surge sumando parcialmentevariables aleatorias independientes es el proceso de caminata aleatoria.El proceso estocástico fSkg1k=1 se dice que es una caminata aleatoria si se

puede especi�car como la suma parcial de variables aleatorias IID fZtgt2T ,es decir, para 0 < t1 < � � � < tk < � � � <1, tk 2 T , k = 1; 2; :::; es decir:

Sk =Xk

i=1Zti, donde Zti~IID (:) , i = 1; 2; :::; k = 1; 2; 3; ::: ((8.14))

NOTE que esta notación nos permite de�nir el proceso de suma parcial(un proceso de índice discreto) en términos de un proceso IID fZtkg

1k=1 que

puede ser o bien un proceso de índice discreto o continuo. Para un procesocontinuo de suma parcial es necesario sustituir la suma por una integral comoen (8.10).En términos de nuestra taxonomía de los supuestos probabilísticos, los

procesos Markov y de caminata aleatoria se de�nen sin ningún tipo de supuestode distribución y por lo tanto se debe tener cuidado cuando se discute su es-tructura de dependencia y de heterogeneidad en términos de momentos. Latendencia a concentrarse en los dos primeros momentos del proceso puedeser muy engañoso debido a que:(a) ellos podrían no existir (Zi~Cauchy (0,1), i = 1; 2; :::),(b) ellos capturan sólo formas limitadas de dependencia/heterogeneidad.En cierto sentido, el concepto de proceso de caminata aleatoria es una

caja vacía que se puede llenar con numerosos casos especiales, mediante laimposición de algún tipo de estructura probabilística adicional. Eligiendo ladistribución a ser discreta (por ejemplo, de Poisson) o continua (por ejem-plo, Normal) podemos de�nir algunos distintos tipos de procesos estocásticoslos cuales, sin embargo, comparten una estructura común determinada. Esinstructivo examinar brevemente esta estructura común.La estructura probabilística impuesta al concepto genérico de caminata

aleatoria se realiza a través de su de�nición como una sucesión de sumasparciales de variables aleatorias IID. La estructura probabilística del procesode IID fZtkg

1k=1 (utilizamos la notación índice discreto por conveniencia)

es transformada a través de las sumas parciales para determinar indirecta-mente la estructura probabilística del proceso de caminata aleatoria fSkg1k=1.Vamos a considerar el problema de la determinación de la estructura proba-bilística de fSkg1k=1 partir de los principios básicos.En primer lugar, vamos a considerar la estructura de la dependencia de

Page 401: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

7.3. PROCESOS ESTOCÁSTICOS: UNA VISIÓN PRELIMINAR 401

un proceso de caminata aleatoria. A partir de (8.14) podemos deducir queel proceso de suma parcial se puede escribir en la forma:

Sk = Sk�1 + Zk, k = 1; 2; 3; :::; con S0 = 0.

Como podemos ver, el proceso de caminata aleatoria tiene una estructurade dependencia Markov porque:

f (skjsk�1; sk�1; :::; s1) = f (skjsk�1) , k = 2; 3; :::

Es importante señalar que el concepto de proceso de Markov es consider-ablemente más general que el de caminata aleatoria. En el caso de esta úl-tima, la Markovenes es inducida por la transformación de las sumas parciales.La dependencia Markov, sin embargo, no depende de la transformación sumaparcial como lo muestra el siguiente ejemplo.EjemploSea fZtkg

1k=1 un proceso IID con media cero (E (Zk) = 0, k = 1; 2; :::).

Entonces la sucesión de�nida por la recursión:

Yk = h (Yk�1) + Zk, k = 2; 3; :::;

para cualquier función (Borel) bien comportada h (:) es un proceso Markov.Esto demuestra más claramente que la estructura de dependencia Markov

no depende de la linealidad de la transformación, sino de su recursividad.Regresando a la estructura de dependencia de un proceso de caminata

aleatoria, llegamos a la conclusión de que su forma se restringe a la de de-pendencia Markov. En vista de la discusión anterior, no debería ser unasorpresa descubrir que la estructura de heterogeneidad de un proceso decaminata aleatoria también es de un tipo especial. Esto también surge delhecho de que, como mostramos anteriormente, el proceso fSkg1k=1 tiene in-crementos fSk � Sk�1g1k=1 que son variables aleatorias IID. Por lo tanto, ladistribución conjunta toma forma:

f (s1; s2; :::; sn;�) = f1 (s1;�1)

nYk=2

fk (sk � sk�1;�k) = f1 (s1;�1)

nYk=2

f (sk � sk�1;�) , s 2 Rn

((8.16))donde la primera igualdad se sigue del hecho de que el proceso de incre-

mentos fSk � Sk�1g1k=1 es independiente y el segundo del supuesto ID para el

Page 402: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

402 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS

mismo proceso. Esto sugiere que la estructura de heterogeneidad del procesode caminata aleatoria fSkg1k=1 tendrá un componente que es común a todoslos subconjuntos del proceso y un componente que depende de la distanciadesde la condición inicial S0 = 0; lo que llamamos heterogeneidad separable.Esto es mejor empli�cado utilizando los dos primeros momentos deduci-

dos anteriormente (asumiendo que existen!). Observando (8.12), podemos verque los dos primeros momentos son separables en el sentido de que tienenun componente ID (el momento correspondiente del proceso IID) y un com-ponente heterogéneo que es una función del índice de las variables aleatoriasinvolucradas. Una formulación más general de este tipo de heterogeneidad,conocido como heterogeneidad separable de segundo orden, toma la forma:

(a) E (Xk) : = �k = h (k) � �, k = 1; 2; :::;

(c) Cov (Xk; Xm) : = vk;m = q (k;m) � �2, k;m = 1; 2; ::: ((8.17))

Nótese que en el caso de un proceso de caminata aleatoria fSkg1k=1:h (k) = k, q (k;m) = min (k;m).Tales formas de heterogeneidad dan lugar a modelos operativos en un

número de casos interesantes encontrados en la práctica. Esto debe con-trastarse con la heterogeneidad arbitraria que signi�ca que los momentos sonfunciones del índice con el tipo de dependencia funcional sin especi�car (laprimera igualdad en (a) y (b)).Históricamente, el concepto de proceso Markov se introdujo a principios

de 1900 y a principios de 1920 (ver Kolmogorov (1928a, b)) otras formas deprocesos estocásticos, a menudo motivadas por la formulación de suma par-cial, hicieron su aparición. Ya hemos encontrado el proceso de incrementosIID asociado con un proceso de caminata aleatoria. Una extensión naturalde esto es relajar el supuesto ID y de�nir un proceso fXtgt2T que tiene in-crementos independientes para todo 0 < t0 < t1 < t2 < � � � < tn < 1, losincrementos fXtk �Xtk�1g

nk�1 son independientes:

f (xt1 ; xt2 ; :::; xtn ;�) = f1 (xt1 ;�1)

nYk=2

fk�xtk � xtk�1 ;�k

�, x 2 Rn. ((8.18))

En términos de su estructura de la dependencia, sabemos de la discusiónanterior que un proceso de incrementos independientes fXtgt2T es dependi-ente Markov:

Page 403: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

7.3. PROCESOS ESTOCÁSTICOS: UNA VISIÓN PRELIMINAR 403

fk�xtk jxtk�1 ;'k

�= fk

�xtk � xtk�1 ;�k

�, k = 2; 3; ::: ((8.19))

Lo que una sucesión de incrementos independiente tiene además, sin em-bargo, es un tipo de linealidad incorporada a la estructura de la sucesiónde variables aleatorias fXtgt2T , cuando se toma la diferencia entre variablesaleatorias adyacentes. Esto puede verse mediante la de�nición de sucesiónindependiente fYtkg

1k=1, donde:

Yt1 := Xt1, Ytk := Xtk �Xtk�1, k = 2; 3; :::;y observando que:

Xtk =Xk

i=1Yti, k = 1; 2; 3; :::; n

De esto podemos deducir que Xtk se relaciona linealmente con los incre-mentos anteriores:

Xtk = Xt1 +Xk

i=2Xti �Xti�1.

Esta linealidad suma parcial restringe la distribución conjunta f (xt1 ; xt2 ; :::; xtn ;�)en la medida en que la distribución de Xt3�Xt2 debe ser la misma que la dis-tribución de la suma (Xt3 �Xt2) + (Xt2 �Xt1). Por el contrario, si fYtkg

1k=1

es un proceso independiente, entonces, por alguna variable aleatoria arbi-traria Xt1, el proceso fXtkg

1k=1 de�nido por:

Xtn �Xt1 =Xn

i=1Yti, n � 1,

es un proceso estocástico con incrementos independientes.Regresando a (8.18), se observa que la de�nición de una sucesión con in-

crementos independientes plantea un problema de homogeneidad más allá delsupuesto de Distribución Idéntica, en la medida en que la de�nición implicala marginal así como las distribuciones de las diferencias fk

�xtk � xtk�1 ;�k

�,

k = 2; 3; :::Una solución obvia es la de imponer el supuesto ID sobre lasdistribuciones marginales de ambas sucesiones fXtkg

1k=1 y fXtk �Xtk�1g

1k=1:

(i) fk (xtk ; k) = f (xtk ; ), k = 1; 3; :::(ii) fk

�xtk � xtk�1 ;�k

�= f

�xtk � xtk�1 ;�

�, k = 2; 3; :::

El supuesto de homogeneidad (ii) se podría llamar incrementos Idén-ticamente Distribuidos. Nótese que en vista de la relación (8.19), esto esequivalente a homogeneidad Markov.Las condiciones de homogeneidad presentadas anteriormente han con-

ducido al importante concepto de Estacionariedad. Khinchine (1934) se diocuenta de que la condición de homogeneidad (ii) es equivalente a la restric-ción de que la distribución conjunta de dos variables aleatorias adyacentes

Page 404: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

404 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS

sólo depende de la diferencia de las fechas no de las fechas reales, es decir,para cualesquiera dos fechas: 0 < t1 < t2 <1:

ft1;t2 (xt1 ; xt2 ;�) = ft2�t1 (xt1 ; xt2 ;�).Siguiendo la misma línea, esto se puede extender al caso de n variables

fXt1 ; Xt2 ; :::; Xt1ng, 0 < t1 < � � � < tk < 1, tk 2 T , k = 1; 2; :::; de tal man-era que la densidad conjunta depende únicamente de las (N � 1) diferenciasft2 � t1; t3 � t1; t4 � t1; :::; tn � t1g es decir(iii) ft1;t2;:::;tn (xt1 ; xt2 ; :::; xtn ;�) = ft2�t1;t3�t1;t4�t1;:::;tn�t1 (xt1 ; xt2 ; :::; xtn ;�).Khinchine mostró que esas condiciones de homogeneidad equivalen a la

restricción de que la distribución conjunta de fXt1 ; Xt2 ; :::; Xt1ng es invariantea un cambio � de las fechas, es decir,

ft1;t2;:::;tn (xt1 ; xt2 ; :::; xtn ;�) = ft1+�;:::;tn+� (xt1+� ; xt2+� ; :::; xtn+� ;�) :((8.20))

Esto se conoce como la condición de estacionariedad estricta que se con-virtió en la restricción de homogeneidad dominante en el desarrollo de dichassucesiones de variables aleatorias.Otro proceso estocástico importante motivado por la formulación de sumas

parciales es el proceso martingala. La importancia de este proceso se derivadel hecho de que permite su�ciente dependencia y heterogeneidad para que elproceso de sumas parciales se comporte asintóticamente como un proceso IIDsimple. El concepto de proceso martingala se introdujo a �nales de 1930 perosu importancia no se aprecia plenamente hasta los años 1950. El conceptode proceso martingala, en contraste con el proceso de Markov, se concentraprincipalmente en el primer momento condicional en lugar de la distribuciónmisma.Consideremos el proceso estocástico de sumas parciales fS

kg1k=1 donde

Sk =Xk

i=1Zi, donde Z

i~D (0; :) , i = 1; 2; :::; k = 1; 2; 3; ::: ((8.21))

son variables aleatorias independientes pero no distribuidas ID con mediascero (E (Zk) = 0, k = 1; 2; :::; n). Como se muestra anteriormente, el procesode sumas parciales se puede escribir en la forma:

Sk = Sk�1 + Zk; S0 = 0; k = 1; 2; 3; :::

Podemos mostrar que la esperanza condicional de Sk dado su pasado tomala forma:

Page 405: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

7.3. PROCESOS ESTOCÁSTICOS: UNA VISIÓN PRELIMINAR 405

E (SkjSk�1; Sk�2; :::; S1) = E (Sk�1 + ZkjSk�1; Sk�2; :::; S1) ((8.22))= Sk�1; k = 2; 3; :::; n.

Esto se deduce de la propiedad CE4 �taking what is known out�(véase el capítulo 7) y el hecho de que � (Sk�1; Sk�2; :::; S1) = � (Zk�1; Zk�2; :::; Z1),es decir, los dos espacios de eventos coinciden en vista del mapero uno a unoentre ellos, y por lo tanto:

E (ZkjSk�1; Sk�2; :::; S1) = E (ZkjZk�1; Zk�2; :::; Z1) = E (Zk) = 0

El elemento esencial de este argumento no es la independencia de los Zkssino la combinación de las medias cero condicionales y no condicionales:(a) E (Zk) = 0, k = 1; 2; ::::;(b) E (ZkjZk�1; Zk�2; :::; Z1) = 0, k = 2; 3; :::ninguno de los cuales requiere independencia sino la existencia del primer

momento. En la sección 8 llamaremos al proceso fZkg1k=1 satisfaciendo (a) -

(b) un proceso martigala diferencia.Recolectando juntos los elementos anteriormente señalados, podemos de-

cir que el proceso estocástico fYkg1k=1 es una martingala si

(i) E (jYkj) < 1, k = 1; 2; :::;

(ii) E (Ykj� (Yk�1; Yk�2; :::; Y1)) = Yk�1, k = 2; 3; :::; n: ((8.23))

Un proceso martingala se especi�ca exclusivamente en términos del primermomento condicional en el que también implícitamente se impone una restric-ción de heterogeneidad. Esto se debe a la condición de dependencia martin-gala (8.23) implica que si usamos la propiedad CE1 "la ley de esperanzasiteradas" tenemos:(ii) E (E (Y

kj� (Yk�1; Yk�2; :::; Y1))) = E (Yk) = E (Yk�1), k = 2; 3; :::; n,

que se cumple sólo en el caso en que la media del proceso es constante.Esta es una restricción de homogeneidad que se de�ne en términos del primermomento y llama homogeneidad de primer orden (o media).En la �gura 8.5 resumimos la relación entre los procesos estocásticos dis-

cutidos anteriormente para �nes de referencia. Como podemos ver, la cam-inata aleatoria y los procesos incrementos independientes son subconjuntos

Page 406: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

406 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS

de la categoría proceso Markov. Por otro lado, los procesos martingala noson un subconjunto propio de la categoría de procesos Markov, porque elprimero impone la restricción adicional de un primer momento acotado queninguna de las otras categorías requiere.

Figura 8.5 Procesos Markov y relacionados con él

7.3.3 Proceso Gaussiano

Como se ha mencionado en muchas ocasiones hasta ahora, la Normal (gaus-siana) es con mucho la distribución más importante en la teoría de la probabil-idad y en la inferencia estadística. Cuando aplicamos los anteriores conceptosde dependencia (Markov, incrementos independientes, martingala) a un pro-ceso estocástico Normal (Gaussiano) fX

kg1k=1 nos encontramos observando

distribuciones Normales bivariadas de la forma (ver capítulo 4):

fx1;x2 (xt1 ; xt2 ;�12) =(1� �2)

� 12

2�p�11�22

�exp(�(1� �2)

�1

2

�x1 � �1p

�11

�2� 2�

�x1 � �1p

�11

��x2 � �2p

�22

�+

�x2 � �2p

�22

�2!)((8.24))

donde �12 := (�1; �2; �11; �22; �) 2 R2 � R2+ � [�1; 1] ; (x1; x2) 2 R2. Estoes debido a que estas formas de dependencia pueden ser capturadas porvariables aleatorias contiguas. Como se argumentó en el capítulo 6, bajoNormalidad la única forma posible de dependencia es dependencia de primerorden capturada por el coe�ciente de correlación �.El razonamiento anterior en relación con la distribución Normal dio lugar

a una forma de dependencia especi�cada en términos de los dos primeros

Page 407: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

7.4. RESTRICCIONES DE DEPENDENCIA 407

momentos de cualesquiera variables aleatorias Xk y Xm (m > k); conocidacomo dependencia lineal de�nida por (véase el capítulo 6):

�k;m := Corr (Xk; Xm) 6= 0. ((8.25))

Como con los otros conceptos de dependencia, el concepto de variablesaleatorias correlacionadas plantea el problema de la homogeneidad asociadacon él. En analogía directa con la estacionariedad estricta (8.20) podemosespeci�car las siguientes condiciones en términos de los dos primeros momen-tos:(a) E (Xk) = E (Xk+� ), para todo k; � = 1; 2; :::(b) E (XkXm) = E (Xk+�Xm+� ), para todo k;m; � = 1; 2; :::Estas condiciones garantizan que la correlación (8.25) estará libre de fe-

chas. Una manera más transparente, pero equivalente de expresar esto es quelos dos primeros momentos no dependen ni de k ni de m, sino de la diferenciajm� kj:(a) E (Xk) = �, para todo k = 1; 2; :::;(b) E [Xk � E (Xk)]

2 = �2, para todo k = 1; 2; :::;(c) E f[Xk � E (Xk)] [Xm � E (Xm)]g = h (jm� kj)�2, k;m = 1; 2; :::Las condiciones (a) - (c) de�nen lo que se conoce como estacionariedad

débil (o de segundo orden).

7.4 Restricciones de dependencia

Después de haber introducido una serie de conceptos importantes utilizandoel desarrollo histórico de los procesos estocásticos, procedemos a de�nir al-gunas restricciones de dependencia y heterogeneidad. Nos limitamos a muypocos ejemplos, porque el resto de este capítulo estará dedicado a la utili-dad de los conceptos introducidos en esta sección en el contexto de distintosprocesos estocásticos. Por conveniencia de notación utilizamos la notaciónde índice discreto, pero con ligeras modi�caciones los siguientes conceptospueden ser escritos en la notación más general 0 < t1 < � � � < tk <1.

7.4.1 Conceptos basados en distribución

Históricamente, la primera restricción de dependencia adoptada fue el casoextremo de no dependencia.

Page 408: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

408 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS

Independencia. Se dice que el proceso estocástico fYt; t 2 Tg es inde-pendiente de si:

f (y1; y2; :::; yT ;�) =YT

i=1f (yt; t) , para todo y := (y1; y2; :::; yT ) 2 <Y .

Este concepto ha sido discutido ampliamente en los capítulos anteriores.Procedemos a de�nir supuestos menos restrictivos en relación a la dependen-cia.Dependencia Markov. El proceso estocástico fYt; t 2 Tg se dice que es

Markov dependiente si:

fk (ykjyk�1; yk�2; :::; y1;'k) = fk (ykjyk�1; k) , k = 2; 3; :::

Esta noción de dependencia se puede extender fácilmente a órdenes may-ores de la siguiente manera.Dependencia Markov de orden m. El proceso estocástico fYt; t 2 Tg se

dice que es Markov dependiente de orden m si para m � 1:

fk (ykjyk�1; yk�2; :::; y1;'k) = fk (ykjyk�1; :::; yk�m; k) , k = m+1;m+2; :::.

La intuición detrás de este tipo de dependencia es que la informacióncondicional relevante para predecir yn es sólo el pasado reciente que se re-monta a sólo m periodos.Dependencia diferencia martingala. El proceso estocástico fYt; t 2 Tg

se dice que es dependiente diferencia martingala si E (Yk) = 0, k = 1; 2; :::;y:

E (Ykj� (Yk�1; Yk�2; :::; T1)) = 0, k = 2; 3; :::

Es decir, el proceso es de primer orden condicionalmente independientede su pasado.m-dependencia. El proceso estocástico fYt; t 2 Tg se dice que es m-

dependiente si para � � m > 0:

f�y1; :::; yn; yn+� ; yn+�+1; y2n+� ;�n;�

�= f (y1; :::; yn; n) f

�yn+� ; :::; y2n+� ; n;�

�.

Page 409: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

7.4. RESTRICCIONES DE DEPENDENCIA 409

La intuición detrás de esta forma de dependencia es que cuando los ele-mentos del proceso estocástico están m o más períodos separados son inde-pendientes. Esta forma de dependencia surge naturalmente cuando el mod-elador considera una sucesión IID fY

kg1k=1 con media cero y de�ne:

Yk := Xk �Xk+m, k = 1; 2; :::El proceso estocástico fY

kg1k=1 es un proceso m-dependiente.

Independencia asintótica. El proceso estocástico fYt; t 2 Tg se diceque es asintóticamente independiente si cuando � !1:

f�yn+� jyn; yn�1; :::; y1;�n;�

�' f

�yn+� ; n;�

�.

La intuición detrás de esta forma de dependencia es que los elementosdel proceso estocástico llegan a ser independientes cuando la distancia entreellos aumenta hasta in�nito.

Page 410: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

410 CAPÍTULO 7. PROCESOS ESTOCÁSTICOS

Page 411: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

Capítulo 8

Estimación I: Propiedades delos estimadores

8.1 Introducción

Para cualquier forma de inferencia estadística (paramétrica), como se de-scribe en el capítulo anterior, el modelador necesita dos componentes básicos:(A) modelo estadístico: S := (�;X), � - modelo de probabilidad, X -

modelo muestral,(B) conjunto de datos: x := (x1; x2; :::; xn).Los datos son entonces interpretados una realización del mecanismo aleato-

rio especi�cado por el modelo estadístico. El objetivo principal de la inferen-cia estadística es utilizar la información de los datos para extraer conclusionesen relación con el mecanismo de probabilidad de que se trate. La estimaciónequivale a utilizar la información en los datos para elegir un determinadovalor de � de �. Una vez que el parámetro es estimado por algún estimadorb�, tenemos una descripción probabilística del mecanismo aleatorio en cuestiónbS := �b�;X� . En el caso de un modelo estadístico simple, este mecanismoestocástico se puede describir utilizando el modelo de probabilidad estimado:

b� := nf �x;b�� ; x 2 RXo . (12.1)

Es importante destacar, en primer lugar que la estimación de � no es elúltimo objetivo de la modelación; la estimación de � es un medio para un �n.El objetivo �nal es obtener una descripción estadística empírica adecuada

411

Page 412: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

412CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

del mecanismo estocástico que dió origen a los datos que, en el caso anterior,es el modelo estadístico estimado (12.1).La teoría de la estimación en su forma moderna comienza con el tra-

bajo seminal de 1922 de Fisher "Sobre los fundamentos matemáticos de laestadística teórica", donde algunos de los conceptos fundamentales de la es-timación, tales como verosimilitud, información, e�ciencia y consistencia, sepropusieron por primera vez.

8.1.1 Vista panorámica del capítulo

En la sección 2 discutimos el concepto de estimador y conceptos relacionados,y lps ilustramos con dos ejemplos básicos que forman la columna vertebralde la discusión en este capítulo. Un concepto fundamental es el de distribu-ción muestral que forma la base de la discusión de lo que constituye un buenestimador. El concepto de buen estimador se formaliza en términos de variaspropiedades de�nidas en términos de la distribución muestral del estimador.Las propiedades de los estimadores se dividen en las propiedades de muestra�nita (insesgamiento y e�ciencia) examinadas en la sección 3 y propiedadesasintóticas (consistencia, Normalidad asintótica y e�ciencia asintótica) ex-aminadas en la sección 4. A lo largo de la discusión utilizamos dos modelosestadísticos muy simple, el Bernoulli y el Normal (de un parámetro) con el�n de ilustrar las diversas ideas y conceptos. Estos ejemplos son elegidospara mantener las manipulaciones matemáticas a un mínimo absoluto. Enla sección 5 discutimos el modelo estadístico más ampliamente utilizado, elmodelo Normal simple, en un intento de hacer resaltar algunas de las car-acterísticas más sutiles de la estimación óptima. En la sección 6 discutimosla propiedad de un estadístico (en función de la muestra), el cual se puedeutilizar para diseñar estimadores óptimos: la propiedad de su�ciencia.

8.2 La de�nición de un estimador

La estimación del parámetro � desconocido, es equivalente a la de�nición deuna función de la forma:

h (x) : X ! �

donde � es el espacio muestral (el conjunto de todas las posiblres realiza-ciones de la muestra), y � representa el espacio de parámetros (el conjunto

Page 413: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.2. LA DEFINICIÓN DE UN ESTIMADOR 413

de todos los valores posibles de �). La función, que se denota por:

b� = h (X1; X2; :::; Xn) ,

se conoce como un estimador de �. Un estimador, (que es una funciónde las variables aleatorias (X1; X2; :::; Xn), es en mismo una variable aleato-ria que toma diferentes valores dependiendo de la realización muestral. Unvalor particular de este estimador, basado en una realización particular de la

muestra�`x1;

`x2; :::;

`xn

�, se llama una estimación de � y se representa por:

b� = h�`x1;

`x2; :::;

`xn

�.

El signi�cado de � siempre está claro por el contexto, dependiendo desi representa una variable aleatoria o un valor de una variable aleatoria (unnúmero).Ejemplo 1Considere el modelo Bernoulli simple:[i] MG estadístico: Xi = � + "i, i 2 N.[ii] Modelo de probabilidad:� =

�f (x; �) = �x (1� �)1�x , 0 � � � 1; x = 0; 1

;

[iii] Modelo muestral: X := (X1; X2; :::; Xn) es una muestra aleatoria.Las siguientes funciones constituyen estimadores probables de �:(a) b�1 = X1, (b) b�2 = 1

2(X1 +X2),

(c) b�3 = 12(X1 +X2 +X3), (d) b�n = 1

n

Xn

i=1Xi,

(e) b�n+1 = � 1n+1

�Xn

i=1Xi, (f) b�n+2 = � 1

n+2

�Xn

i=1Xi.

Nota. En Spanos (pg. 603) en el inciso (c) dice b�3 = 12(X1 +X2 +Xn);

debería decir b�3 = 12(X1 +X2 +X3).

ContraejemplosLas siguientes funciones f (X1; X2; :::; Xn) no constituyen estimadores de

�:g) b�4 = (X1 �Xn)u 45 (X12Xn). El rango de esta función no es� = [0; 1];

puede tomar valores fuera de el X1 = 0 y Xn = 1.(h) b�5 = � 1n�Xn

i=1X�i . El dominio de la función no es el espacio mues-

tral, sino que depende de algún escalar desconocido �.(i) b�5 = 0:8. Su dominio no es el espacio muestral.Ejemplo 2Considere el modelo Normal simple (de un parámetro):[i] MG estadístico: Xi = �+ "i, i 2 N.

Page 414: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

414CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

[ii] Modelo de probabilidad:

� =nf (x; �) = 1p

2�exp

��12(x� �)2

, � := � 2 R; x 2 R

o;

[iii] Modelo muestral: X := (X1; X2; :::; Xn) es una muestra aleatoria.NOTE que el modelo de probabilidad se de�ne en términos de: X~N (�; 1).Las siguientes funciones constituyen estimadores posibles de �:(i) b�1 = X1, (ii) b�2 = 1

2(X1 +X2),

(iii) b�3 = (X1 �Xn), (iv) b�n = 1n

Xn

i=1Xi,

(v) b�n+1 = � 1n+1

�Xn

i=1Xi, (vi) b�n+2 = � 1

n+2

�Xn

i=1Xi.

Dado que el parámetro � toma valores en el conjunto de la recta real (R),será imposible de�nir una función de la muestra (X1; X2; :::; Xn), que no seaun estimador de �. En vista del hecho de que es muy fácil de�nir numerososposibles estimadores, la pregunta que surge naturalmente es: ¿cómo se puedeelegir uno entre tales estimadores? Intuitivamente, la respuesta a esta pre-gunta es obvia: se elige el estimador que se aproxima al verdadero parámetrodesconocido �0 con la mayor precisión posible. La formalización del conceptode aproximación precisa resulta ser complicado porque no podemos de�nirloen la forma matemática usual

���b� � �0

��� ' 0. Esto se debe a que tal distancia:(a) depende del parámetro desconocido �0, y(b) b� = h (X1; X2; :::; Xn) es una variable aleatoria que puede tomar mu-

chos valores diferentes.Sin embargo, el hecho de que un estimador b� = h (X1; X2; :::; Xn) sea una

variable aleatoria, sugiere que cualquier formalización del concepto de aproxi-mación precisa implicará su distribución, la cual podemos llamar distribuciónmuestral de �.

Distribuciones muestrales de los estimadores

La distribución muestral de un estimador de b� = h (X1; X2; :::; Xn) :=h (X) se de�ne como la distribución de la función h (X1; X2; :::; Xn). Sufunción de densidad se representa por:

f�b�;x1; x2; :::; xn� := f

�b�;x� ,con el �n de enfatizar su dependencia de la muestra (X1; X2; :::; Xn).

Como argumentamos en el capítulo 11, el problema del establecimiento detales distribuciones muestrales fue considerado por Fisher como uno de los

Page 415: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.2. LA DEFINICIÓN DE UN ESTIMADOR 415

tres aspectos básicos de la inferencia estadística, siendo las otras dos especi-�caciones la especi�cación y la estimación:(iii) Problemas de distribución incluyen la deducción matemática de la

naturaleza exacta de las distribuciones en muestras aleatorias de nuestrasestimaciones de los parámetros ... (Fisher (1925b), p. 8).De la discusión en los capítulos 4 y 11, sabemos que matemáticamente

podemos de�nir la función de distribución acumulada (cdf) de cualquier fun-ción b� = h (X1; X2; :::; Xn) a través de:

P�b� � y

�=

ZZ� � �Z

fh(X1;X2;:::;Xn)��g

f�x1; x2; :::; xn;b�� dx1dx2 � � � dxn (12.2)

donde(a) �(X) := fh (X1; X2; :::; Xn) � yg representa el rango de valores Y =

h (X1; X2; :::; Xn) para todo (x1; x2; :::; xn) 2 X .(b) f

�x1; x2; :::; xn;b��denota la distribución de la muestra: la dis-

tribución conjunta de las variables aleatorias X := (X1; X2; :::; Xn).Ejemplo 1. Bernoulli (continuación).Armados con un lema del capítulo 11, que dice que una suma de variables

aletorias distribuidas Bernoulli IID es Binomialmente distribuida, podemosproceder a derivar la distribución muestral de los estimadores (a) - (e). Envista del hecho de que todos estos estimadores son funciones lineales de lamuestra, podemos deducir que sus distribuciones muestrales son todas Bi-nomiales. Todo lo que resta es obtener su media y varianza utilizando laspropiedades de E(:) (véase el capítulo 3). Por ejemplo, la distribución mues-tral de b�n = 1

n

Xn

i=1Xi es Binomial con media y varianza:

E�b�n� =

�1

n

�E�Xn

i=1Xi

�=

�1

n

�n�,

V ar�b�n� =

�1

n

�2Xn

i=1V ar (Xi) =

�1

n

�2(n� (1� �)) =

�1

n

�� (1� �) .

Estos resultados se obtienen usando la independencia de la muestra y laspropiedades de la media y la varianza (ver capítulo 3). Por lo tanto, lasdistribuciones muestrales son las siguientes:

Page 416: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

416CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

(a) b�1 = Bi (�; � (1� �) ; 1), (d) b�n = Bi��; �(1��)

n;n�,

(b) b�2 = Bi��; 1

2� (1� �) ; 2

�, (e) b�n+1 = Bi

��nn+1

��; n�(1��)

(n+1)2;n�,

(b) b�2 = Bi��; 1

3� (1� �) ; 3

�, (f) b�n+2 = Bi

��nn+2

��; n�(1��)

(n+2)2;n�.

Estos resultados distribucionales sugieren que los estimadores (a) - (d)tienen distribuciones muestrales con la misma media � (igual al parámetroque pretenden estimar), pero diferentes varianzas. La varianza de b�n esmenor que cualquiera de los otros, para cualquier tamaño muestral n > 3.En efecto, la varianza de b�n es n veces más pequeña que la varianza de lasvariables aleatorias en en la muestra! La distribución muestral de b�n+1 noestá centrada en �, pero su varianza es menor que la de los otros. Sobre labase de su distribución muestral, b�n parece ser el mejor estimador de � eneste grupo. Este argumento intuitivo de mejor estimador se formalizará enla próxima sección.Ejemplo 2. Normal (continuación).Utilizando el lema 2 del capítulo 11, que dice que la suma de vari-

ables aleatorias Independientes Normalmente variables es Normalmente dis-tribuida, podemos deducir que para el modelo Normal las distribucionesmuestrales de los estimadores (i) - (vi) son:(i) b�1 = N (�; 1), (ii) b�2 = N

��; 1

2

�,

(iii) b�3 = N (0; 2), (iv) b�n = N��; 1

n

�,

(v) b�n+1 = N��

nn+1

��; n

(n+1)2

�, (vi) b�n+2 = N

��nn+2

��; n

(n+2)2

�.

Por razones intuitivas b�n parece ser el mejor estimador en este grupoporque su distribución muestral tiene una media igual a � (el parámetroque tiene por objeto estimar) y su varianza V ar (b�n) = �2

nes n veces más

pequeña que la varianza de las variables aleatorias individuales V ar (Xi),i = 1; 2; :::; n. En la �gura 12.1 podemos ver cuánto se reduce la varianzapor un tamaño muestral tan pequeño como n = 12. Este es un resultadoimportante que a menudo es explotado por diversas técnicas de muestreotales como los métodos Monte Carlo y bootstrap (véase el capítulo 11.8).Figura 12.1. Xi~N (0; �

2) frente a b�n~N (0; �2n) para �2 = 4, n = 12.NOTA: el lector perspicaz habrá notado que los mejores estimadores en los

modelos Normal y Bernoulli coinciden. La pregunta que surge naturalmentees:

¿Es una coincidencia que para los parámetros � y � de los modelos Bernoulliy Normal, respectivamente, el mejor estimador parece ser 1

n

Xn

i=1Xi?

Page 417: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.3. PROPIEDADES DE MUESTRA FINITA 417

El hecho de importancia es que hay una buena razón para este resultado.En ambos casos el parámetro que queremos estimar es la media de la dis-tribución E(X) y el mejor estimador 1

n

Xn

i=1Xi es la media muestral. La

idea de la estimación de un momento de la distribución usando el correspon-diente momento muestral tiene una larga historia en la estadística que seremontan al siglo XIX (véase el capítulo 13, sección 2).

8.3 Propiedades de muestra �nita

8.3.1 Motivación: el estimador ideal

Como mostramos en la sección anterior, es muy fácil de�nir estimadores.Esto plantea el problema de elegir el mejor entre estos estimadores. Dadoque los estimadores son funciones de la muestra (variables aleatorias) ellasson variables aleatorias en sí mismas. Por lo tanto, cualquier discusión demejor estaría relacionadaa con su distribución.El problema de la de�nición de un buen estimador se asemeja a una

situación en la que un arquero está parado al pie de una colina con el objetivoen el otro lado de la colina más allá de su visión. Lo que tiene que hacer esdiseñar una estrategia (regla) en relación con los factores dentro de su control,tales como el ángulo de disparo y la potencia de tiro, lo cual asegurará que la�echa caiga lo más cerca que sea posible del objetivo. El modelador tiene queelegir una regla (un estimador) de una manera que garantice la proximidadal valor desconocido del parámetro �.Con el �n de motivar a algunas de las propiedades óptimas de los, vamos

Page 418: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

418CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

a considerar en primer lugar el concepto del estimador ideal. Idealmente,queremos tener un estimador, por ejemplo: �� = h (X), que toma sólo unvalor (�0 el verdadero valor de �), con probabilidad uno, independientementede la realización muestral. Es decir, la distribución muestral de �� toma laforma:

P (�� = �0) = 1,

es decir, �� es igual a �0 con probabilidad uno; tiene una distribucióndegenerada. En la �gura 12.2 podemos ver el estimador ideal y lo que pareceser una buena aproximación de su distribución muestral.

Figura 12.2 La distribución del estimador ideal �� y una posible "buena"aproximación.

En cuanto a la analogía del arquero, estimador ideal equivale a un proced-imiento que asegure que el arquero acierte al blanco cada vez. Desafortunada-mente, para un dado tamaño muestral n, no existe tal estimador.Estimadoresfactibles generalmente proporcionan diferentes estimaciones para diferentesrealizaciones muestrales. Por lo tanto, necesitamos tener en cuenta criteriosde optimización que se basen en un distribución muestral no degenerada delestimador en cuestión. El mejor entre tales estimadores será el que más seaproxime al estimador ideal. ¿Cómo formalizar el concepto más próximo alestimador ideal?En vista del hecho de que ningún estimador factible podría aproximar

la distribución muestral del estimador ideal (siendo degenerada), vamos a

Page 419: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.3. PROPIEDADES DE MUESTRA FINITA 419

considerar aproximaciones basadas en los dos primeros momentos. Heurís-ticamente, podemos ver el estimador ideal en términos de sus dos primerosmomentos:

(i) E (��) = �0, (ii) V ar (��) = 0.

Esto sugiere que un estimador óptimo será uno cuya media está localizadaen el verdadero valor del parámetro que pretende estimar y su varianza escero. Para un tamaño de muestra �nito n, la segunda propiedad no puedeser emulada por los estimadores factibles, pero cuando n tiende a in�nitoalgunos estimadores pueden de hecho emularla. Debido a esto podemos dis-tinguir entre las propiedades de muestra �nita (válidas para cualquier n) ypropiedades asintóticas (válidas cuando n tiende a in�nito).

Insesgamiento

Formalizamos la propiedad de localización en la forma de insesgamiento.Una estimador b� se dice que es un estimador insesgado de � si su

distribución muestral tiene una media igual al parámetro �0 que tiene porobjeto estimar, es decir,

E�b�� = �0.

De lo contrario u se dice que � es sesgado, el sesgo se de�ne por: ð�b�; �0� =

E�b��� �0.

NOTA: Para evitar notación engorrosa, el subíndice de �0 será omitidocuando no parezca no ser necesario.Ejemplo 1. (continuación)En el caso de los anteriores estimadores (a) - (f), podemos ver que b�1;b�2;b�3

y b�n son estimadores insesgados de � pero b�n+1 y b�n+2 no. El sesgo de estosestimadores es:(e) ð

�b�n+1� = � � 1n+1

��, (f) ð

�b�n+2� = � � 1n+2

��.

¿Signi�ca esto que los estimadores b�n+1 y b�n+2 son inferiores a los otrosestimadores? Como se muestra a continuación, la respuesta no es tan obviacomo parece a primera vista, debido a que el insesgamiento no es la únicapropiedad, o incluso la propiedad más deseable para buenos estimadores.

Page 420: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

420CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

Otras propiedades relacionadas con los momentos de orden superior suelenser más importantes.El concepto de insesgamiento es intuitivamente atractivo, pero no deja de

tener sus problemas.1. Estimadores insesgados no siempre existen.Ejemplo 2Considere el modelo Exponencial simple:[i] MG estadístico: Xk =

�1�

�+ uk, k 2 N.

[ii] Modelo de probabilidad:� = ff (x; �) = f� exp f��xg , � > 0; x > 0gg ;[iii] Modelo muestral: X := (X1; X2; :::; Xn) es una muestra aleatoria.Se puede demostrar (véase Schervish (1995), p. 297) que ningún esti-

mador insesgado de � existe!2. Estimadores insesgados no son invariantes a transformaciones de los

parámetros desconocidos. Es decir, si b�n := h (X) es un estimador insesgadode �, es decir,

E�b�n� = �,

entonces, en general, para # = g (�), donde g (:) : �! � y b#n = g�b�n�:

E�b#n� 6= #.

Ejemplo 3. Exponencial (continuación).Considere el modelo Exponencial simple como se especi�có anteriormente.

Hemos visto que ningún estimador insesgado de � existe, pero podemosdemostrar que para # = 1

�, el estimador b#n = 1

n

Xn

i=1Xi es insesgado. Esto

se sigue del hecho de que:

E�b#n� = 1

n

Xn

i=1E (Xi) =

�1

n

�Xn

i=1# =

1

nn# = #.

E�ciencia

La idea de que la distribución muestral debe ser lo más concentrada que seaposible alrededor del verdadero valor de � se puede formalizar en términosde la varianza de la distribución muestral de un estimador. Esta propiedadse conoce como e�ciencia: qué tan disperso está el estimador alrededor del

Page 421: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.3. PROPIEDADES DE MUESTRA FINITA 421

verdadero valor de �. Consideramos dos tipos de e�ciencia: e�ciencia relativay e�cienciaompleta.E�ciencia relativa. Para dos estimadores insesgados b� y b# de �, se dice

que b� es relativamente más e�ciente que b# si:V ar

�b�� � V ar�b#� .

Ejemplo 1. Bernoulli (continuación).En el caso de los estimadores insesgados b�1;b�2;b�3 y b�n, b�2 es relativa-

mente más e�ciente que b�1, b�3 es relativamente más e�ciente que b�2 y b�n esrelativamente más e�ciente que b�3, es decir,

V ar�b�n� � V ar

�b�3� � V ar�b�2� � V ar

�b�1� .La e�cacia relativa no es una propiedad muy valiosa, porque la compara-

ción es siempre relativa a algunos estimadores alternativos especí�cos. Esto,sin embargo, sugiere que un estimador que es mejor que algunos estimadoresterribles no es necesariamente un buen estimador. Por lo tanto, la preguntaque inmediatamente viene a la mente es si existe un punto más bajo a partirdel cual la varianza del estimador no puede pasar. Esto plantea la cuestiónde la e�ciencia absoluta o total.El desafío de diseñar una cota absoluta inferior se cumplió con éxito en

1945- 6 por dos pioneros de la estadística moderna H. Cramer (1946a) y C. R.Rao (1945). Utilizando diferentes enfoques ambos llegaron a la misma con-clusión. La cota absoluta inferior para los estimadores insesgados se relacionacon un concepto introducido por Fisher (1922a) y, posteriormente, llamadoinformación de Fisher.Información de Fisher para la muestraEn el contexto de la teoría de la Probabilidad de�nimos información

en el contexto de nuestro universo de discurso, el espacio de probabilidad(S;=; P (:)), de una manera muy sencilla. Cualquier forma de conocimientoque reduce = a un cierto subconjunto del mismo, se considera como infor-mación. Es decir, sabiendo que nuestro espacio de eventos se ha reducido de= a =1 donde:

=1 � =,

se considera como información.

Page 422: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

422CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

En la inferencia estadística, la información tiene que ver con cómo elmodelador utiliza la información para sacar conclusiones relacionadas con elmecanismo estocástico que dió origen a los datos. Intuitivamente, la informa-ción tiene que ver con lo bien que el modelador puede �ltrar la informaciónsistemática que sale de los datos observados. El grado de nuestra utilizaciónde la información sistemática de los datos será re�ejado en la precisión denuestras estimaciones y pruebas estadísticas relativas a los parámetros de-sconocidos �. Una medida de tal información es la información de Fisherpara la muestra de los modelos de probabilidad regulares.Modelos regulares probabilidad. Se dice que un modelo de probabil-

idad � es regular si la distribución de la muestra f (x; �) := (x1; x2; :::; xn; �)satisface las siguientes condiciones de regularidad:(Rf1) el espacio de parámetros � es un subconjunto abierto de Rm,

m < n,(Rf2) el soporte de la distribución: X0 := fx : f (x; �) > 0g es la misma

para todo � 2 �,(Rf3) @Inf(x;�)

@�existe y es �nita para todo � 2 �, x 2X0,

(Rf3) h ((X) podemos intercambiar diferenciación e integración, es decir,

@

@�

�Z� � �Zh ((X) �f (x; �) dx1dx2; :::; dxn

�=Z

� � �Zh ((X)

�@

@�f (x; �)

�dx1dx2; :::; dxn < 1.

La primera condición excluye los puntos fronterizos para garantizar quelas derivadas (de ambos lados de un punto) existan. Para este tipo de mod-elos regulares de probabilidad podemos proceder a de�nir la información deFisher para la muestra que está diseñada para proporcionar una medida dela información emitida por la muestra para un parámetro � 2 �.La información de Fisher para la muestra (X1; X2; :::; Xn) se de�ne

por:.

In (�) := E

(�dInf (x; �)

d�

�2). (12.3)

Hay varias cosas que NOTAR sobre este concepto.(1) Surgen di�cultades cuando el rango de X depende de �; véase el

ejemplo 4 anterior.

Page 423: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.3. PROPIEDADES DE MUESTRA FINITA 423

(2) Bajos las condiciones de regularidad (I) - (III) se puede demostrarque:

In (�) := E

(�dInf (x; �)

d�

�2)= E

��d

2Inf (x; �)

d�2

�.

Esto a menudo proporciona una manera más conveniente para obtener lainformación de Fisher y por lo tanto la cota inferior de Cramer-Rao.(3) La forma de la información de Fisher depende fundamentalmente

del modelo estadístico postulado y no tiene nada que ver con estimadores oestadísticos de prueba. Por ejemplo, en el caso de una muestra independiente:

E

�df (x; �)

d�

�=Xn

i=1

�df (x; �)

d�

�.

en el caso de la muestra aleatoria la información de Fisher toma la formaaún más simple:

In (�) = nI (�) := nE

(�dInf (x; �)

d�

�2),

donde f (x; �) representa la función de densidad de cualquier variablealeatoria Xk IID, k = 1; 2; :::; n y:

I (�) := E

(�dInf (x; �)

d�

�2),

representa la información de Fisher para una observación individual. Sudependencia de la forma del modelo de probabilidad puede ser ilustrada enel caso de una muestra aleatoria de una distribuciónNormal (un parámetro):Xk~N (�; 1), k = 1; 2; :::n, es decir,

f (x; �) =1

2�e�

12(x��)2,

d

d�f (x; �) = (x� �) , I (�) = 1, In (�) = n.

NOTA: el término información de la muestra proviene del hecho de quela varianza de la mejor estimador insesgado es igual a la inversa de ésta. Amedida que la información aumenta esto reduce la varianza y por lo tanto segana más información acerca de �.

Page 424: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

424CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

La desigualdad de Cramer-Rao. Utilizando la información de Fisherpara la muestra Cramer (1946a) y Rao (1945) propusieron una cota inferiorabsoluta para estimadores insesgados.Cota inferior de Cramer-Rao. Asumiendo que la información de

Fisher para la muestra existe y In (�) > 0 para todo � 2 �, la varianzade cualquier estimador de un parámetro �, por decir, b�, no puede ser menorque la inversa de In (�), es decir,

V ar�b�� � CR (�) := I�1n (�) :=

(E

�dInf (x; �)

d�

�2)�1. (12.4)

En el caso de que el modelador se interese en alguna función diferenciablede �, por ejemplo q (�) y bq (�) es un estimador de q (�), la cota inferior deCramer-Rao adopta la forma:

Var (bq (�)) � CR (q (�)) := I�1n (q (�)) :=

�d

d�E (q (�))2

��1I�1n (�) . (12.5)

Utilizando (12.5) podemos ampliar la cota inferior de Cramer-Rao parael caso de cualquier estimador, por ejemplo e� (no necesariamente insesgado):

Var�b�� �

0@d�E�b���db�

1A2(E

�dInf (x; �)

d�

�2)�1. (12.6)

para todo estimador e� de �.El siguiente ejemplo ilustra la utilidad de la condiciónRf2 para la derivación

de la cota inferior de Cramer-Rao.Ejemplo 4Considere el modelo Uniforme simple:[i] MG estadístico: Xk = E (Xk) + �k, k 2 N.[ii] Modelo de probabilidad:� =

�f (x; �) =

�1�

�; � 2 (0;1) ; 0 < x < �

;

[iii] Modelo muestral: X := (X1; X2; :::; Xn) es una muestra aleatoria.En este caso, el rango de X depende de � y la condición de regularidad

Rf2 no se cumple. Si utilizamos la cota mínima de Cramer-Rao (C-R) en

Page 425: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.3. PROPIEDADES DE MUESTRA FINITA 425

este caso vamos a obtener resultados muy engañosos, porque lo que pareceser una cota mínima C-R:

dInf (x; �)

d�=dIn

d�

�1

�n

�=dIn

d�(�nIn�) = �n

�) In (�) =

�n�

�2,

en realidad no es aplicable.E�ciencia completa. Una estimador insesgado b� se dice que es un

estimador plenamente e�ciente si su varianza alcanza la cota mínima C-R:

V ar�b�� = CR (�) := I�1n (�) .

Una condición necesaria y su�ciente para que un estimador insesgado b�de � alcance este límite es que

�b� � ��se pueda expresar en la forma:�b� � �

�= h (x)

�d In f (x;�)

d�

�, (12.7)

para alguna función h (x).Ejemplo 2. Normal (continuación)En el caso del modeloNormal (un parámetro), la distribución de la mues-

tra toma la forma:

f (x; �) :=

�1

2�

�nexp

(�12

nXi=1

(xi � �)2), In f (x; �) = �n

2In 2��1

2

nXi=1

(xi � �)2 .

La primera y segunda derivadas toman la forma:

d In f (x; �)d�

=nXi=1

(xi � �) ,d2 In f (x; �)

d�2= �n.

Por lo tanto, In (�) = n y la cota mínima C-R es CR (�) := I�1n (�) = 1n,

lo que con�rma que el estimador b�n = 1n

nXi=1

Xi es un estimador totalmente

e�ciente. En este caso se cumple la igualdad (12.7) ya que:

(b�n � �) =1

n

�d In f (x;�)

d�

�=1

n

nXi=1

(Xi � �) .

Page 426: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

426CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

Ejemplo 1. Bernoulli (continuación)Como mostramos anteriormente, la distribución de la muestra para el

modelo de Bernoulli es:

f (x; �) := �

nXi=1

xi

(1� �)

nXi=1

(1�xi)

.

Por lo tanto:

In f (x; �) =

nXi=1

xi

!In � +

nXi=1

[1� xi]

!In (1� �) .

d In f (x; �)d�

=

nXi=1

xi

!1

��

nXi=1

[1� xi]

!1

(1� �).

d2 In f (x; �)d�2

=

nXi=1

xi

!1

�2�

nXi=1

[1� xi]

!�1

(1� �)

�2.

E

��d

2 In f (x; �)d�2

�=

n

� (1� �).

Esto se sigue del hecho que:

E

nXi=1

xi

!= n�, E

nXi=1

[1� xi]

!= n�

nXi=1

E (xi) = n (1� �) ,

y entonces:

CR (�) =� (1� �)

n.

Si volvemos a los estimadores (a) - (d) para �, podemos ver que el únicoestimador insesgado de �, que es plenamente e�ciente es b�n, ya que:

V ar�b�n� = � (1� �)

n=� (1� �)

n= CR (�) .

Ejemplo 4?. Uniforme (continuación)Considere el estimador insesgado b�n = n+1

nmax (X1; X2; :::; Xn) de �. Se

puede demostrar que la distribución muestral del estadístico de mayor orden

Page 427: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.3. PROPIEDADES DE MUESTRA FINITA 427

Y := max (X1; X2; :::; Xn) es f (y; �) =nyn�1

�n, 0 < y < � (ver capítulo 10).

El uso de este, nos lleva a la conclusión errónea de que b�n es un estimadorsuper plenamente e�ciente, pues:

E�b�n� := n+ 1

n

Z 1

0

ynyn�1

�n= �, V ar

�b�n� := � �2

n (n+ 2)

�<�2

n2.

en el supuesto de que I�1n (�) := �2

n2es la cota mínima. Por supuesto, este

argumento es erróneo porque la información de Fisher no se puede de�nir en elcaso de la distribución Uniforme debido a que las condiciones de regularidadno se cumplen.

Estimadores mínimo ECM

Las medidas anteriores de e�ciencia nos permite elegir entre estimadoresinsesgados pero no ofrecen una guía sobre la cuestión de elegir entre unestimador sesgado y uno insesgado tal como

�b�n+1, b�n+2� y �b�1;b�2;b�3�, re-spectivamente, en el contexto del modelo de Bernoulli. Esto es interesanteporque los estimadores plenamente e�cientes e insesgados no siempre existeny los estimadores insesgados no siempre son buenos estimadores. Hay casosen los que podemos elegir un estimador sesgado en lugar de uno insesgado,porque el primero tiene menor varianza. En el caso de los anteriores b�1;b�2 yb�3, podemos ver que su varianza puede ser considerablemente mayor que lade�b�n+1, b�n+2� para cualquier valor razonable de n.

¿Cómo podemos comparar estimadores sesgados e insesgados?

Si queremos penalizar el sesgo de un estimador b#, no debemos usar suvarianza como una medida de su dispersión, ya que esto pasa por alto elhecho de que E

�b#� 6= �0. En su lugar, debemos utilizar una medida de lavariación en torno a �0. La medida más ampliamente utilizada es el ErrorCuadrático Medio de�nido en � = �0 como:

ECM�b#; �0� := E

��b#� �0

�2�.

NOTE que en el caso de un estimador insesgado b�, ECM�b�; �0� = V ar�b��,

pero en el caso de un estimador sesgado:

Page 428: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

428CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

ECM�b#; �0� := E

��b#� E�b#�+ E

�b#�� �0

�2�= V ar

�b#�+hg�b#; �0�i ,donde el sesgo se ha de�nido anteriormente para ser:�b#; �0� = E

�b#�� �0.

Esto se puede deducir directamente de la de�nición de la ECM (veri-�quelo!).Un estimador b� se dice que es un estimador mínimo ECM de � si:

ECM�b�; �� � ECM�b#; �0� ,

para cualquier otro estimador b# y todos los valores de �.Ejemplo 1. Bernoulli (continuación)En términos del ECM,

�b�n+1, b�n+2� son mejores estimadores de b�1;b�2 yb�3, ya que para n > 3:ECM

�b�n+1� =

�n

(n+ 1)2

�� (1� �) +

���

(n+ 1)

�2=

n� (1� �) + �2

(n+ 1)2� ECM

�b�i� ; i = 1; 2; 3,

ECM�b�n+2� =

�n

(n+ 2)2

�� (1� �) +

���

(n+ 2)

�2=

n� (1� �) + �2

(n+ 2)2� ECM

�b�i� ; i = 1; 2; 3,y la mayoría de los valores de �. Además, ECM

�b�n+1� >ECM�b�n+2�.Inadmisibilidad de los estimadores. La anterior propiedad de mínimo

ECM puede ser utilizada como una extensión de las formas de la e�cienciade�nidas anteriormente. En el caso de cualesquiera dos estimadores, b#2 y b#1,si:

Page 429: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.3. PROPIEDADES DE MUESTRA FINITA 429

ECM�b#2� � ECM�b#1� para todo � 2 �,

decimos que b#2 domina a b#1 en el sentido de ECM y se dice que b#1 esinadmisible.Ejemplo 1. Bernoulli (continuación)En el caso de

�b�n+1, b�n+2�:ECM

�b�n+2� � ECM�b�n+1� para todo � 2 [0; 1] ,y por lo tanto b�n+1 es inadmisible. Sin embargo, ambos estimadores

alcanza sus respectivas cotas inferiores de Cramer-Rao:

E�b�n+1� =

�n

n+ 1

��,dE�b��db� =

�n

n+ 1

�,

E�b�n+2� =

�n

n+ 2

��,dE�b��db� =

�n

n+ 2

�.

Por lo tanto, de (12.6) las cotas inferiores de Cramer-Rao para estosestimadores sesgados son:

CR�b�n+1� =

�n

n+ 1

�2� (1� �)

n=n� (1� �)

(n+ 1)2,

CR�b�n+2� =

�n

n+ 2

�2� (1� �)

n=n� (1� �)

(n+ 2)2.

que son iguales a sus respectivas varianzas.Hay otro sentido en el que

�b�n+1, b�n+2� son estimadores mucho mejoresque los estimadores insesgados b�1;b�2 y b�3. Esto surge del hecho de que lasvarianzas de b�1;b�2 y b�3 no sólo son más grandes que las de �b�n+1, b�n+2�, sinoque ellas no disminuyen a medida que se añaden observaciones adicionales ala muestra.Esto nos lleva convenientemente a las propiedades asintóticas de los esti-

madores. Llamamos a tales propiedades asintóticas porque, a diferencia de

Page 430: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

430CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

las anteriores propiedades de muestra �nita que se re�eren a la distribu-ción muestral �nita f

�b�;x�, ellas se re�eren a las propiedades de suce-siones de distribuciones de muestreo

nf�b�n;x�o1

n=1. En pocas palabras, las

propiedades asintóticas equivalen a extender los teoremas límite discutidosen el capítulo 9 (para la función

Xn

k=1Xk), al caso de funciones arbitrariasb�n := h (X1; X2; :::; Xn).

8.4 Propiedades asintóticas

Debido a que el estimador ideal �� de�nido por P (�� = �) = 1, no es posiblepara un tamaño de muestra n �jo, al modelador le gustaría tener estimadoresque alcancen su forma ideal a medida que el tamaño de la muestra aumentahacia in�nito. Es decir, estimadores cuya distribución muestral se aproximaa la distribución muestral ideal P (�� = �) = 1, en un sentido probabilísticocuando n!1.El sentido probabilístico en términos del cual esto se puede lograr asintóti-

camente viene en dos versiones: convergencia en probabilidad y convergen-cia casi segura encontradas en relación con la Ley de los Grandes Números(LGN) discutida en el capítulo 9. La convergencia en probabilidad, asociadaa la Ley Débil de los Grandes Números da lugar a la propiedad conocidacomo consistencia, mientras que la convergencia casi segura da lugar a lapropiedad conocida como consistencia fuerte. Además, el Teorema Centraldel límite a menudo puede ser utilizado para determinar la distribución deb�n := h (X1; X2; :::; Xn) cuando n ! 1. Este último puede ser utilizadocomo una aproximación de la distribución de muestra �nita del estimador encuestión. Cabe señalar una vez más que sin una distribución de muestreo noes posible la inferencia estadística.

8.4.1 Consistencia

Una estimador b�n se dice que es un estimador consistente de �, si paracualquier " > 0:

limn!1

P�����b�n � �

���� < "�= 1, representado por: b�n P! � (12.8)

Page 431: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.4. PROPIEDADES ASINTÓTICAS 431

Esto se lee "el límite de la probabilidad del evento que b�n di�era delverdadero � por menos de alguna constante positiva " > 0, tiende a unocuando n tiende a in�nito"; véase el capítulo 9.OBSERVACIONES:(i) b�n en esta de�nición es sinónimo de un estimador genérico y no el

estimador particular utilizado en el ejemplo 1; el subíndice n se utiliza paradestacar el papel del tamaño de la muestra.(ii) En cierto sentido, la consistencia es una extensión de la LGN para las

funciones de la muestra, por ejemplo h (X1; X2; :::; Xn), que no sea la suma.(iii) En el caso de que b�n tenga una varianza acotada, podemos comprobar

su consistencia utilizando la desigualdad de Chebyshev (ver capítulo 3):

P����b�n � �

��� � "�� 1�

E�b�n � �

�2"2

.

Esto se debe a que E�b�n � �

�2es simplemente el error cuadrado medio

de b�n. Por lo tanto, si ECM�b�n�! 0 cuando T !1, entonces E(b�n��)2"2

! 0

y (12.8) se mantiene.

Usando la de�nición ECM�b�n; �� = V ar

�b�n�+h �b�n; ��i2, podemos verque:

ECM�b�n�! 0 si V ar

�b�n�! 0 y�b�n; ��! 0.

Esto sugiere dos condiciones fácilmente veri�cables para que b�n sea unestimador consistente de � cuando los momentos necesarios de su distribuciónmuestral existen:

(a) limn!1E�b�n� = �, (b) limn!1 V ar

�b�n� = 0.Esto sugiere que en el caso de que b�n tenga una varianza acotada, podemos

comprobar su consistencia mediante la comprobación de las anteriores condi-ciones (su�cientes): ellas son sólo condiciones su�cientes debido a que b�npuede ser consistente, aunque su varianza no podría existir. El concepto deconsistencia basado en (a) - (b) se llama a veces consistencia en mediacuadrática.Ejemplo 1. Bernoulli (continuación)

Page 432: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

432CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

En el caso de los estimadores b�1;b�2 y b�3 y sabemos que son insesgados demodo que (i) se cumple automáticamente. Sin embargo, dado que:

(a) V ar�b�1� = � (1� �) , (b) V ar

�b�2� = 1

2� (1� �) , (b) V ar

�b�3� = 1

3� (1� �) ,

podemos deducir que ninguno de estos estimadores cumple la segundacondición, y por lo tanto todos ellos son inconsistentes. Otra forma dever esto es que el segundo momento de las distribuciones muestrales de estosestimadores no cambia cuando n cambia. En otras palabras, para la precisiónde estos estimadores no importa si uno tiene n = 5 o n = 105. En contraste,los estimadores (b�n+1;b�n+2), son consistentes, ya que:

(e) limn!1

E�b�n+1� = lim

n!1E

�n�

(n+ 1)

�= �, lim

n!1V ar

�b�n+1� = limn!1

E

�n� (1� �)

(n+ 1)2

�= 0,

(f) limn!1

E�b�n+2� = lim

n!1E

�n�

(n+ 2)

�= �, lim

n!1V ar

�b�n+2� = limn!1

E

�n� (1� �)

(n+ 2)2

�= 0,

Es importante hacer hincapié en el hecho de que la consistencia es unapropiedad mínima. Es decir, cuando un estimador es inconsistente, no esdigno de una consideración sreia, pero el hecho de que sea consistente nolo hace un buen estimador. Hay numerosos ejemplos de estimadores con-sistentes, sin embargo, que son prácticamente inservibles (ver Rao (973), p.344). Los estimadores b�1;b�2 y b�3, siendo inconsistentes se pueden eliminarde la lista de buenos estimadores de � y la elección está entre b�n y b�n+1.Dado que b�n es a la vez sesgado y plenamente e�ciente y b�n+1 es sesgado,preferimos b�n a b�n+1.Ejemplo 2. (continuación)

Uso de las distribuciones muestrales de los estimadores (i) - (vi), derivadoanterioremte, podemos ver que:

Page 433: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.4. PROPIEDADES ASINTÓTICAS 433

(i) E (b�1) = �, V ar (b�1) = 1, es decir, insesgado pero consistente,(ii) E (b�2) = �, V ar (b�2) = 1

2, es decir, insesgado pero consistente,

(iii) E (b�3) = 0, V ar (b�3) = 2, es decir, sesgado e inconsistente,(iv) E (b�n) = �, V ar (b�n) = 1

n, es decir, insesgado plenamente e�ciente,

(v) E�b�n+1� =

�n�

n+ 1

�, V ar

�b�n+1� = n

(n+ 1)2, es decir, sesgado pero inconsistente,

(vi) E�b�n+2� =

�n�

n+ 2

�, V ar

�b�n+2� = n

(n+ 2)2, es decir, sesgado pero inconsistente,

De la comparación anterior podemos concluir que b�n = 1n

Xn

i=1Xi es el

mejor estimador de �.NOTA. En Spanos (p. 617) en (vi) dice: V ar

�b�n+1�; deberíadecir V ar

�b�n+2�.Es importante señalar que en el caso de los ejemplos anteriores (y en mu-

chos casos en la práctica), utilizamos sólo sus primeros dos momentos cuandose decide la optimalizdad de los distintos estimadores; la distribución mues-tral no es explícitamente utilizada. Para efectos de la inferencia estadísticaen general, sin embargo, a menudo requerimos la distribución muestral en sí,no sólo sus primeros dos momentos.

8.4.2 Consistencia fuerte

Un estimador b�n se dice que es un estimador fuertemente consistente de� si:

P�limn!1

b�n = �n

�= 1 representado por: b�n a:s:! �n.

Esta es exactamente la versión asintótica de la propiedad de estimadorideal de�nida anteriormente. El concepto de convergencia subyacente a con-sistencia fuerte se conoce como convergencia casi segura (c.s.). En elcapítulo 9 se muestra que la convergencia caso segura es más fuerte que laconvergencia en probabilidad y no es sorprendente que la primera impliquela segunda.Ejemplo 1. Bernoulli (continuación)

Page 434: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

434CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

En el caso del estimador b�n de �n discutido anteriormente, podemos uti-lizar LGN fuerte de Borel (véase el capítulo 9) directamente para deducirque: b�n a:s:! �nEjemplo 2. Normal (continuación)En el caso del estimador b�nde � discutido anteriormente, podemos utilizar

la segunda LGN fuerte de Kolmogorov (véase el capítulo 9) para deducir que:b�n a:s:! �n.Como se mencionó anteriormente, la consistencia (débil y fuerte) es una

extensión de la Ley de los Grandes Números a funciones de la muestra, porejemplo h (X1; X2; :::; Xn), más allá de suma

Xn

i=1Xi. De la misma manera,

la siguiente propiedad asintótica, conocida como Normalidad asintótica, esuna extensión del Teorema Central del Límite (TCL), discutido en elcapítulo 9.

8.4.3 Normalidad asintótica

Una estimador b�n de �n se dice que es asintóticamente Normal si podemosencontrar una sucesión de normalización fcng1n=1 tal que:

cn

�b�n � ��~aN (0; V1 (�)) , para V1 (�) 6= 0

OBSERVACIONES:(a) "~

a" se lee "asintóticamente distribuida".

(b) V1 (�) denota la varianza asintótica de b�n.(c) La sucesión fcng1n=1 es una función de n. Por ejemplo, en el caso de

una muestra aleatoria la sucesión de normalización se de�ne por cn =pn.

Ejemplo 1. Bernoulli (continuación)En el caso de los estimadores b�n y b�n+1 de � discutidos anteriormente,

podemos demostrar que tienen la misma distribución asintóticamente Nor-mal:

pn�b�n � �

�~aN (0; � (1� �)) ,

pn�b�n+1 � �

�~aN (0; � (1� �)) . (12.9)

Ejemplo 2. Normal (continuación)En el caso de los estimadores b�n y b�n+1 de � discutidos anteriormente,

podemos demostrar que tienen la misma distribución asintóticamente Nor-mal:

Page 435: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.4. PROPIEDADES ASINTÓTICAS 435

pn (b�n � �) ~

aN (0; 1) ,

pn�b�n+1 � �

�~aN (0; 1) . (12.10)

Para estimadores consistentes y asintóticamente normales (CAN)de �, utilizamos la varianza asintótica para elegir entre ellos. La varianza as-intótica más pequeña posible, en el caso de que las condiciones de regularidadde Cramer-Rao se cumplen, está dada por la información asintótica deFisher de�nida en términos de:

I1 (�) = limn!1

�1

cn

�2�In (�)

!, CR1 (�) = [I1 (�)]

�1 .

donde CR1 (�) signi�ca cota inferior asintótica de Cramer-Rao.Ejemplo 1. Bernoulli (continuación)En el caso del modelo de Bernoulli se mostró anteriormente queE

��d2 In f(x;�)

d�2

�=

n�(1��) . Por lo tanto:

I1 (�) = limn!1

��1

n

�n

� (1� �)

�=

1

� (1� �)) CR1 (�) = � (1� �) .

Ejemplo 2. Normal (continuación)En el caso del modelo Normal discutido anteriormente, hemos demostrado

que E��d2 In f(x;�)

d�2

�= n. Por lo tanto:

I1 (�) = limn!1

��1

n

�n

�= 1) CR1 (�) = 1.

8.4.4 E�ciencia asintótica

Un estimador CAN b�n de � se dice que es asintóticamente e�ciente si:cn

�b�n � ��~aN�0; [I1 (�)]

�1� , asumiendo I1 (�) 6= 0.Es decir, la varianza asintótica es igual a la cota mínima asintótica de

Cramer-Rao.Ejemplo 1. Bernoulli (continuación)En el caso del modelo de Bernoulli hemos demostrado anteriormente que

los estimadores en (12.9) son, en efecto asintóticamente e�cientes.

Page 436: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

436CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

Ejemplo 2. Normal (continuación)En el caso del modelo normal hemos demostrado anteriormente que los

estimadores de (12.10) son, en efecto asintóticamente e�cientes.Esto sugiere que los estimadores CAN b�n y b�n+1 son asintóticamente

e�cientes, porque alcanzan cota mínima asintótica de Cramer-Rao. Comopodemos ver el estimador b�n se se se distingue porque satisface todas laspropiedades deseables, muestra �nita y asintótica.

8.4.5 Distribuciones muestrales y propiedades de losestimadores

La discusión en esta sección y las anteriores giraba principalmente en tornoa los dos primeros momentos de las distribuciones muestrales de los esti-madores. Esto podría dar la impresión errónea de que la distribución mues-tral en sí misma no es necesaria y sólo los dos primeros momentos son re-queridos. De�nimos insesgamiento y e�ciencia en términos de la media yla varianza de la distribución muestral de un estimador, respectivamente.Aunque la de�nición de la consistencia:

limn!1

P����b�n � �

��� < "�= /1,

pone de relieve el papel de la distribución muestral en la evaluación de lasucesión de probabilidades:

fpng1n=1 , donde pn := P����b�n � �

��� < "�,

la forma más conveniente de probar la consistencia es a menudo el com-portamiento asintótico del ECM; este último involucra sólo los dos primerosmomentos. Del mismo modo, las otras propiedades asintóticas implican ladistribución muestral, pero a menudo esto no es explícitamente claro. Elhecho de importancia es que en la inferencia estadística lo que a menudo senecesita es la distribución muestral del estimador mismo, no sólo los primerosmomentos. Nuestro enfoque en los dos primeros momentos se basa princi-palmente en la conveniencia. Hay varias otras propiedades que no estánde�nidas en términos de los momentos de la distribución muestral, sino enalgunas otras características numéricas.Insesgamietno de moda (mode unbiasedness). Un estimador b�n de

� se dice que es moda insesgada si la distribución muestral de b�1 tiene una

Page 437: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.4. PROPIEDADES ASINTÓTICAS 437

moda que coincide con el parámetro desconocido �:

Moda�b�n� = �, para toda � 2 �.

Ejemplo 4 *. Uniforme (continuación)Considere el estimador de � de�nido por:

b�[n] = max (X1; X2; :::; Xn) ,

Se puede demostrar (véase el capítulo 11) que la distribución muestral deb�[n] es:f (x; �) =

nxn�1

�n, 0 < x < �.

En vista del hecho de que para cualquier � > 0 la función de densidadf (x; �) tiene un máximo único en el punto h (�) = �, el estimador b�[n] es unestimador moda insesgada de �:

Moda�b�n� = �, para toda � 2 (0;1) .

Ejemplo 2. Normal (continuación)En el caso del modelo normal hemos mostrado anteriormente que el es-

timador b�n = 1n

Xn

k=1Xk es media insesgada con una distribución muestral

Normal. Esto último implica que b�n también es estimador moda y medianainsesgada.Además utilizando las características numéricas de la distribución mues-

tral, hay otras maneras de de�nir la cercanía de un estimador al verdaderovalor del parámetro que ponen de relieve el papel de la distribución muestralcon mayor claridad. Por ejemplo, podemos de�nir el concepto de la cercaníade dos estimadores b� y e� del parámetro desconocido � al veradero valor �0utilizando la siguiente medida de concentración:

P����b� � �0

��� � c�� P

����e� � �0

��� � c�, para todo c > 0.

En el caso donde la condición anterior sea válido y la desigualdad estrictase cumpla para algunos valores de c > 0, entonces se dice que b� está másconcentrado en torno a �0 que e�. Como podemos ver, la comparación anteriorinvolucra directamente las distribuciones muestrales de los dos estimadores.

Page 438: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

438CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

Una medida de la cercanía a lo largo de estas líneas es la medida de cercaníade Pitman (ver Pitman (1937)):

P����b� � �0

��� < ���e� � �0

���� � 1

2, para todo � 2 �.

Estas medidas no se proseguirán más allá en este libro, pero se señalanpara destacar el papel de la distribución muestral en la evaluación de laoptimalidad de los estimadores.

8.5 El modelo Normal simple

En la sección anterior utilizamos dos ejemplos muy simples en un intentopor mantener las di�cultades técnicas en un mínimo y concentrarse en lasideas y conceptos. En esta sección utilizamos el modelo (posiblemente) másampliamente discutido en estadística en un esfuerzo por ilustrar algunos delos puntos más �nos de los buenos estimadores.

8.5.1 La distribución muestral de la media de la mues-tra

Ejemplo 5Considere el modelo Normal simple (dos parámetros):Modelo Normal simple[1] MG estadístico: Xk = �+ "k, k 2 N,[2] Modelo de probabilidad:

� = ff (y;�)g =�

1

�p2�exp

�� 1

2�2(x� �)2

��; � :=

��; �2

�2R� R+,

[3] Modelo muestral: X := (X1; X2; :::; Xn) es una muestra aleatoria.Ya hemos decidido que el mejor estimador de �, en el caso de un modelo

Normal de un parámetro es:

b�n = 1

n

Xn

k=1Xk. (12.11)

El argumento intuitivo de por qué este estimador resulta ser un buenestimador fue dado anteriormente como la coincidencia entre la distribución

Page 439: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.5. EL MODELO NORMAL SIMPLE 439

y los momentos muestrales, lo que llamamos el principio de los momentoscoincidentes (moment matching principle) en el próximo capítulo. Esdecir, parece como si b�n resulta ser un estimador óptimo debido a que elparámetro desconocido � es la media de la distribución Normal (E(X) = �)y el estimador anterior es justamente la media de la muestra (X1; X2; :::; Xn).Usando el mismo argumento intuitivo para �2, donde sabemos que V ar (X) =�2, debemos considerar la varianza de la muestra como un estimador posiblede �2:

b�2n = 1

n

Xn

i=1(Xi � b�n)2 . (12.12)

Utilizando el lema 2 del capítulo 11 se puede deducir que la distribuciónmuestral de b�n toma la forma:

b�n~N ��; �2n�.

Esta distribución muestral se puede utilizar para establecer las propiedadesde este estimador. En el caso del modelo normal de un parámetro (�2 = 1),hemos visto que b�n es un estimador insesgado, plenamente e�ciente y fuerte-mente consistente de �. Lo único que cambia es la cota inferior de Cramer-Rao límite, pero como se muestra a continuación b�n es totalmente e�cienteya que alcanza la nueva cota mínima.

Considere la nueva distribución de la muestra:

Page 440: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

440CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

f�x;�; �2

�=

�1

�p2�

�nexp

�� 1

2�2

Xn

i=1(xi � �)2

�,

In f�x;�; �2

�= �n

2In (2�)� n

2In��2�� 1

2�2

Xn

i=1(xi � �)2 ,

@In f (x;�; �2)@�

=1

�2

Xn

i=1(xi � �) ,

@In f (x;�; �2)@�2

= � n

2�2+

1

2 (�2)2

Xn

i=1(xi � �)2 ,

@2In f (x;�; �2)@�2

=1

�2

Xn

i=1(�1) ,

@2In f (x;�; �2)

@ (�2)2=

n

2�4� 1

�6

Xn

i=1(xi � �)2 ,

@2In f (x;�; �2)@�2@�

= � 1

�4

Xn

i=1(xi � �)2 .

En este caso, la matriz de información de Fisher para la muestra tomala forma:

In��; �2

�:=

0BB@ E

��@2In f(x;�;�2)

@�2

�E

��@2In f(x;�;�2)

@�2@�

�E

��@2In f(x;�;�2)

@�2@�

�E

��@2In f(x;�;�2)

@(�2)2

�1CCA

y la cota mínima de Cramer-Rao para cualesquiera estimador insesgadode (�; �2) es:

CR��; �2

�:=�In��; �2

���1.

Debido a que E��@2In f(x;�;�2)

@�2@�

�= 0, la matriz de información de Fisher

toma la forma:

In��; �2

�:=

�n�2

00 n

2�4

�,

y así la cota mínima de Cramer-Rao para cualesquiera estimadores inses-gados de los dos parámetros es la siguiente:

Page 441: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.5. EL MODELO NORMAL SIMPLE 441

CR (�) :=�2

n, CR

��2�:=2�4

n. (12.13)

Como podemos ver, b�n alcanza esta cota. Además, es fácil demostrar queb�n goza de todas las propiedades óptimas asintótica: consistencia, Normali-dad asintótica y e�ciencia:

pn (b�n � �) ~

aN�0; �2

�.

8.5.2 La distribución muestral de la varianza de lamuestra

Con el �n de derivar la distribución muestral de b�2n observamos que éstaes una función cuadrática de variables aleatorias normalmente distribuidas;(X1; X2; :::; Xn) se asume que son NIID y b�n es normal como una combi-nación lineal de estas variables aleatorias. Usando el lema 4 (la suma de loscuadrados de n variables aleatorias independientes Normal estándar es chicuadrado con n grados de libertad), podemos deducir que:

dado que Zi =�Xi � �

�~N (0; 1))

Xn

i=1Z2i =

Xn

i=1

�Xi � �

�2~�2 (n) .

Nuestro estimador, sin embargo, no es exactamente de esta forma porqueinvolucra b�n en lugar de � y los dos son muy diferentes; el primero es una vari-able aleatoria; el último es una constante. Sin embargo, podemos demostrarque:

Xn

i=1

�Xi � �

�2=Xn

i=1

�Xi � b�n

�2+ n

�b�n � �

�2. (12.14)

(ver Spanos (1986), p. 240). Teniendo en cuenta (12.11) podemos deducirque:

n

�b�n � �

�2~�2 (n) .

Además, podemos demostrar que n�b�n��

�2yXn

i=1

�Xi�b�n�

�2son inde-

pendientes ya que este último se puede escribir como una función únicamente

Page 442: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

442CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

de (X2 � b�n; X3 � b�n; :::; Xn � b�n), y estas cantidades son independientes deb�n. En primer lugar, observamos que:Xn

i=1(Xi � b�n)2 = (Xi � b�n)2 +Xn

i=2(Xi � b�n)2

=hXn

i=2(Xi � b�n)i2 +Xn

i=2(Xi � b�n)2 ,

por el hecho de queXn

i=1(Xi � b�n) = 0 y entonces (Xi � b�n) =Xn

i=2(Xi � b�n),

es decir:

b�2n = g (X2 � b�n; X3 � b�n; :::; Xn � b�n) .La independencia de b�2n y b�n se deduce del hecho de que cuando cua-

lesquiera variables aleatorias son independientes también lo son las funcionesde ellas (véase el capítulo 4).En vista del hecho de que el lado izquierdo de (12.14) se distribuye como

�2 (n) y el lado derecho se compone de dos variables aleatorias independientesy una tiene una distribución �2 (1), se sigue del lema (8b) (véase el capítulo11) que:

n�b�2n�2

=Xn

i=1

�Xi � b�n

�2~�2 (n� 1) . (12.15)

Usando el hecho de que la media de una variable aleatoria distribuida chicuadrado es igual a los grados de libertad (ver Apéndice A), podemos deducir

que E�n�b�2n�2

�= (n� 1), lo que implica que b�2n es un estimador sesgado de

�2 debido a que:

E�b�2n� = (n� 1)

n�2 6= �2.

Debido a este sesgo, el estimador insesgado alternativo:

s2n :=

�n

n� 1b�2n�=

n

n� 1Xn

i=2(Xi � b�n)2 , E �s2n� := �2,

a menudo se pre�ere en la práctica.La cuestión que se plantea es si s2n, además de insesgadez, tiene otras

ventajas sobre b�2n. Para obtener la varianza del estimador insesgado s2n dosusamos el resultado de que la varianza de una variable aleatoria distribuida

Page 443: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.5. EL MODELO NORMAL SIMPLE 443

chi cuadrado es igual al doble de sus grados de libertad (ver Apéndice A),para deducir que:

V ar

�(n� 1) s2n

�2

�= 2 (n� 1)) V ar

�s2n�=

2�4

n� 1 > CR��2�=2�4

n.

Es decir, el estimador s2n no alcanza la cota mínima de Cramer-Rao.La búsqueda de estimadores e�cientes plenamente con la cota mínima de

Cramer-Rao ha dejado a dos preguntas importantes sin respuesta. En primerlugar: ¿qué hacer cuando las condiciones de regularidad no se cumplen? Unarespuesta parcial a esta es proporcionada por la desigualdad de ChapmanRobbins (véase Stuart y Ord (1991)). En segundo lugar: ¿cómo jusgamos alos estimadores, como s2n, que no alcanzan la cota mínima? La respuesta esproporcionada por (12.7), puesto que

@In f (x;�; �2)@�2

=� n

2�4

�+

��1

n

Xn

i=1(xi � �)2

�� �2

�,

lo que implica que:

��1

n

Xn

i=1(xi � �)2

�� �2

�=

�2�4

n

�@In f (x;�; �2)

@�2, (12.16)

Por lo tanto, el único estimador insesgado de �2 que alcanza la cotamínima CR (�2) es

h1n

Xn

i=1(xi � �)2

i, que constituye un estimador, sin

embargo, sólo si � es conocido. En otras palabras, sabemos que no hayestimador insesgado que alcance esta cota a menos que � sea conocido. Envista de esta información: ¿cómo podemos juzgar la optimalidad de s2n?Comparemos s2n con b�2n = (n�1)

ns2n:

(i) V ar�b�2n� = �n�1n �2 � 2�4n�1

�= 2(n�1)

n2�4,

(ii) ECM�b�2n� = 2(n�1)

n2+��

n�1n

��2 � �2

�2=�2(n�1)n2

��4.

Esto nos permite a�rmar que en términos del Error Cuadrático Medio b�2ntiene menor concentración en torno al verdadero valor de �2 que s2n:

ECM�b�2n� = �2 (n� 1)n2

��4 < ECM

�s2n�=

�2

n� 1

��4.

Page 444: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

444CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

A su vez, s2n no alcanza la cota mínima de Cramer-Rao para estimadoressesgados ya que:

CRB��2�=

dE�b�2n�d�2

!2(E

�d In f (x;�; �2)

d�2

�2)�1

=

�n� 1n

�2�2�4

n

�=

2 (n� 1)2

n3

!�4.

Después de todas las comparaciones anteriores entre los estimadores b�2ny s2n no somos más acertados en cuanto a cuál es el óptimo en términos desu concentración en torno al verdadero valor de �2, principalmente porquela cota mínima de Cramer-Rao no puede ser alcanzada por cualquiera deestos estimadores. Sabemos por (12.16) que no existe estimador insesgadode �2 que alcance la CR (�2). La pregunta que surge naturalmente en estaetapa es: ¿existe algún otro estimador que esté más cerca a este límite? Larespuesta es proporcionada por otra cota inferior que es más alcanzable.Bhattacharyya (1946), viendo que la desigualdad de Cramer-Rao se basa

en la correlación entre un estimador h (X) y d In f(x;�)d�

= 1f(x;�)

d f(x;�)d�

, pro-puso una desigualdad más nítida sobre la base de la correlación múltiple entreh (X) y:

1

f (x; �)

d f (x; �)

d�;

1

f (x; �)

d 2f (x; �)

d�2;

1

f (x; �)

d 3f (x; �)

d�3; :::;

1

f (x; �)

d mf (x; �)

d�m, m � 1.

En lugar de ser capaz de expresar la diferencia�b�n � �

�como una función

lineal de la primera derivada (véase (12.7)), se extiende para incluir mayoresderivadas en el sentido de que:

�b�n � ��= h (�)

�1

f (x; �)

�Xm

k=1ak

�d kf (x; �)

d�k

�, m � 1, (12.17)

para una función h (�) y las constantes k = 1; 2; :::;m. En el caso de que(12.7) se cumpla, podemos usar la cota inferior Bhattacharyya:

V ar�b�� �Xm

i;j=1cij (�) �aiaj, para algún m � 1,

Page 445: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.5. EL MODELO NORMAL SIMPLE 445

donde cij = E��

1f(x;�)

di f(x;�)

d�i

��1

f(x;�)dj f(x;�)

d�j

��, los coe�cientes se de-

�nen por el sistema de ecuaciones:Xm

;j=1cij (�) �aj, i = 1; 2; :::;m.

En el caso donde [cij (�)]mi;j=1 es de�nida positiva con un inverso de la

forma [cij (�)]mi;j=1, la cota mínima Bhattacharyya es:

V ar�b�� �Xm

i;j=1cij (�) , para algún m � 1.

En nuestro caso tenemos dos parámetros desconocidos y no podemos usar(12.17) directament; debe ampliarse para incluir los términos de productoscruzados. Para mostrar que el estimador insesgado s2n alcanza esta cotaobservemos que:

�1

f (x; �)

@ f (x;�; �2)

@�2

�: =

@In f (x;�; �2)@�2

=�n2�2

+1

2�4

Xn

i=1(xi � b�n)2 + n

2�4(b�n � �)2 ,�

1

f (x; �)

@2 f (x;�; �2)

@�2

�: =

@In f (x;�; �2)@�2

+

�@In f (x;�; �2)

@�

�2=

�n�2+n2

�4(b�n � �)2 .

Tomando la siguiente combinación lineal de estas dos derivadas podemosmostrar que:

�s2n � �2

�=

�2�4

n

���n

n� 1

��@In f (x;�; �2)

@�2

���

1

2 (n� 1)

��1

f (x; �)

@2 f (x;�; �2)

@�2

��lo que con�rma que el estimador insesgado s2n es el mejor en el sentido de

se alcanza la cota mínima Bhattacharyya.En términos de sus propiedades asintóticas ambos estimadores b�2n y s2n

disfrutan de todas las propiedades asintóticas óptimas: consistencia, Nor-malidad asintótica y e�ciencia asintótica:

pn�b�2n � �2

�~aN�0; 2�4

�,pn�s2 � �2

�~aN�0; 2�4

�,

Page 446: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

446CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

en vista del hecho de que la matriz asintótica de información de Fisheres:

I1��; �2

�:= lim

n!1

�1

nIn��; �2

��:=

�1�2

00 1

2�4

�.

8.5.3 Reduciendo el sesgo: estimadores navaja (jack-knife estimators)

Hay ocasiones en la práctica, donde necesitamos reducir el sesgo de ciertosestimadores. Sea b�n (X) un estimador sesgado del parámetro desconocido �y el sesgo expresado en la siguiente forma conveniente:

E�b�n (X)�� � =

a1 (�)

n+a2 (�)

n2+ � � � ak (�)

nk+ � � � (12.19)

NOTE que en muchos casos encontrados hasta el momento el sesgo es dela forma de primer orden, es decir,

E�b�n (X)�� � =

a1 (�)

n.

Plegamiento (Jackkni�ng). Considere la sucesión de estimadores de� especi�cada con n� 1 observaciones:

e�n�1 �X(k)

�, k = 1; 2; :::; n, (12.20)

donde X(k) := (X1; X2; :::; Xk�1; Xk+1; :::; Xn). Es decir, utilizamos lamisma fórmula que la de b�n (X), pero dejamos la k-ésima observación fueraen todo momento. Procedemos a de�nir el promedio (la media aritmética)de estos estimadores:

e�n (X) = 1

n

Xn

k=1

e�n�1 �X(k)

�, (12.21)

luego tomamos una combinación convexa de éste y el estimador originalpara de�nir el estimador navaja:

�n (X) = nb�n (X)� (n� 1)e�n (X) . (12.22)

Quenouille (1956) demostró que para el nuevo estimador �n (X) el sesgode primer orden desaparece, es decir,

Page 447: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.5. EL MODELO NORMAL SIMPLE 447

E��n (X)

�� � =

a2 (�)

n2+ � � � ak (�)

nk+ � � � (12.23)

En el caso donde el sesgo fue de primer orden el estimador navaja es ahorainsesgado. Además, el sesgo de primer orden se puede estimar utilizando:

Sesgo�b�n (X)� = (n� 1) he�n (X)� b�n (X)i . (12.24)

EjemploConsidere el modelo Normal como se especi�có anteriormente y la esti-

mación del parámetro �2. Apliquemos el estimador navaja en el caso delestimador sesgado:

�2n :=1

n

Xn

k=1(Xk �X)2 .

Como se muestra anteriormente, el sesgo de este estimador es de primerorden y toma la forma:

E�b�2n�� �2 = ��

2

n.

b�n (X) =1

n

Xn

i=1(Xi �X)2 =

1

n

Xn

i=1X2i �

1

n2

�Xn

i=1Xi

�2.

e�n�1 �X(k)

�=

1

(n� 1)Xn

i=1i6=k

X2i +

1

(n� 1)

Xn

i=1i6=k

Xi

!2.

e�n (X) =1

n

Xn

i=1

e�n�1 �X(i)

�=

1

n

Xn

i=1X2i �

1

n (n� 1)2��1

n

Xn

i=1X2i

�+ (n� 2)

�1

n

Xn

i=1X2i

��.

Después de la sustitución de éstos en el estimador navaja obtenemos:

�n (X) =Xn

i=1X2i �

1

n

�Xn

i=1Xi

�2��n� 1n

�Xn

i=1X2i +

�1

n (n� 1)

�Xn

i=1X2i +

(n� 2)n (n� 1)

�Xn

i=1Xi

�2=

1

(n� 1)Xn

i=1X2i �

�1

n (n� 1)

��Xn

i=1Xi

�2=

1

(n� 1)Xn

i=1

�Xi �X

�2Como podemos ver el estimador navaja coincide con el estimador s2 dis-

cutido en la subsección anterior.

Page 448: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

448CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

La idea de sentido común en la que se basa el concepto de plegamiento(jackkni�ng) es casi trivial, pero su intuición intrínseca es de gran alcance.Veamos cómo trabaja el plegamiento para eliminar el sesgo de primer ordende un estimador. A partir de la forma general de la sesgo como se indica en(12.19) se puede argumentar que el estimador e�n�1 �X(k)

�satisface la relación

similar pero basada en (n� 1) observaciones:

E�e�n (X)�� � =

a1 (�)

n� 1 +a2 (�)

(n� 1)2+ � � � ak (�)

(n� 1)k+ � � �

E�nb�n (X)� (n� 1)e�n (X)�� � = � a2 (�)

n (n� 1) + � � �

Lo que hace de plegamiento una idea muy interesante, sin embargo, es elhecho de que involucra la operación de suavizamiento en la forma de promediocomo se muestra en (12.21). Esto se ve mejor en el contexto del ejemplo dondeel suavizamiento equivale a un promedio de los promedios:

e�n (X) := 1

n

Xn

k=1

e�n�1 �X(k)

�=1

n

Xn

i=1

24 1

(n� 1)Xn

i=1i6=k

X2i +

1

(n� 1)2

Xn

i=1i6=k

Xi

!235 .Esta idea tiene sus raíces en la teoría matemática de sumabilidad Cesaro

de series divergentes que se remonta a �nales de los siglos 19 y 20. Hay

casos en que la seriensn =

Xn

k=1ak

o1n=1

diverge, pero su versión suavizadan�n =

1n

Xn

k=1sk

o1n=1

converge (véase Knopp (1947)). Además, cuando la

seriensn =

Xn

k=1ak

o1n=1

converge entoncesn�n =

1n

Xn

k=1sk

o1n=1

también

converge al mismo límite, es decir:

si limn!1

sn = s) limn!1

�n = s.

Concluimos esta sección haciendo notar que la idea de plegamiento sepuede extender fácilmente a la reducción de sesgo de orden superior.

Page 449: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.6. ESTADÍSTICOS SUFICIENTES Y ESTIMADORES ÓPTIMOS *449

8.6 Estadísticos su�cientes y estimadores óp-timos *

La discusión de estimadores óptimos hasta el momento no ha arrojado ningunaluz sobre las circunstancias bajo las cuales se pueden obtener mejores esti-madores. Regresando a la analogía de un arquero parado al pie de una colinacon el blanco en el otro lado más allá de su visión, sólo hemos discutido lacuestión de la evaluación de la cercanía una vez que la �echa ha sido clavada.La cuestión de la elaboración de una estrategia relativa a los factores dentrode su control, tales como el ángulo de disparo y la potencia de tiro a �n degarantizar que la �echa se clave tan cerca del blanco como sea posible, nose ha discutido. La propiedad de los estimadores conocida como su�cien-cia aborda esta pregunta y en términos de esta analogía se propone colocaruna especie de red a la �echa diseñada de una manera que garantice unacobertura óptima.

8.6.1 Su�ciencia

La idea de su�ciencia se remonta a Fisher (1922b), pero el concepto se for-malizó a principios de 1930. El concepto de su�ciencia plantea la posibilidadde reducir la dimensionalidad de los datos observados sin ninguna pérdidade información. La información de la muestra original viene en forma de unconjunto de datos x := (x1; x2; :::; xn), considerado como una realización deuna muestra en particular X := (X1; X2; :::; Xn) especi�cada a priori por elmodelo estadístico S := (�;X). Un estadístico h (X), una función de�nidaen el espacio muestral X (no necesariamente un estimador), es su�ciente siresume toda la información relevante para el modelo estadístico postuladoS. A menudo se llama un estadístico su�ciente para �, porque el modeloestadístico se determina una vez que � se determina. Intuitivamente, la su�-ciencia se re�ere a qué tan bien un estimador (una función de un estadístico)utiliza la información de la muestra en relación con el modelo estadísticopostulado �. La utilidad del concepto de su�ciencia surge del hecho de queel estadístico h (X) es a menudo de la dimensión mucho menor que la mues-tra n-dimensional. Antes de embarcarse en las de�niciones es importanteexplicar la intuición en que se basa la propiedad mediante un ejemplo.Ejemplo 1. Bernoulli (continuación)En el caso del modelo de Bernoulli, sabemos que la muestraX := (X1; X2; :::; Xn)

Page 450: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

450CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

se compone de variables aleatorias IID distribuidas Bernoulli con P (Xk = 1) =� y P (Xk = 0) = (1� �). Una realización de la muestra incluirá una sucesiónde ceros y unos, por ejemplo,

x := (0; 1; 0; 0; 1; :::; 1) .

En vista del hecho de que la localización exacta de unos en esta real-ización es irrelevante debido a los supuestos IID, es intuitivamente evidenteque el conocimiento de la suma es equivalente a conocer la realización ex-acta. En este caso parece que el estadístio h (X) =

Xn

k=1Xk contiene toda

la información relevante en relación con el modelo estadístico de Bernoulli�. Es decir, el conocimento de la realización completa x es equivalente alconocimiento únicamente de la suma h (x) =

Xn

k=1xk. El resutlado �nal es

que en vez de portar los n números de la realización de la muestra portamossólo uno, su suma; una reducción signi�cativa en la dimensión. Por lo tanto,intuitivamente parece que este estadístico es su�ciente para � (o �).Este ejemplo pone de mani�esto la conveniencia de un estadístico su�-

ciente, mostrando que el estadístico en si mismo contiene la misma informa-ción sobre � que la muestra original, pero tiene una dimensión mucho menor.El atractivo de un estadístico su�ciente surge del hecho de que si existe unmejor estimador entonces es necesariamente una función del estadístico su-�ciente. Además, la búsqueda de un estadístioa su�ciente se puede utilizarcomo el primer paso para de�nir un estimador óptimo. Vamos a discutirtodos estos resultados iniciando con la de�nición de su�ciencia.Intuitivamente, la su�ciencia de un estadístico Y = h (X) para un parámetro

� signi�ca que cuando el valor de la estadística se da, cualquier otra formade información es irrelevante para �. Esto sugiere que el conocimiento de larealización de toda la muestra X, cuando el valor de Y = h (X) es conocido,no añade información relevante para � (o �). La formalización de esta ideaintuitiva da lugar a la siguiente de�nición de la su�ciencia.Su�ciencia. Se dice que un estadístico h (X) es un estadístico su�ciente

para � si y sólo si la distribución condicional de la muestra X dado h (X) = yno depende de �:

f (xjh (x) = y; �) = q (x) , para todo x 2X, � 2 �. (12.25)

Esta de�nición, aunque intuitiva, no provee al modelador de una formadirecta de encontrar estadísticos su�cientes. El modelador tiene que conje-turar h (X) y luego proceder a veri�car (12.25), lo cual no parece trivial. El

Page 451: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.6. ESTADÍSTICOS SUFICIENTES Y ESTIMADORES ÓPTIMOS *451

siguiente teorema, debido a Halmos y Savage (1949), simpli�can la tarea delmodelador considerablemente.Teorema de factorización. Un estadístico h (X) se dice que es un

estadístico su�ciente para � si y sólo si existen funciones g (h (X) ; �) y v (X),donde la primera depende de X sólo a través de h (X), mientras que lasegunda es libre de �, tal que la distribución de los factores de la muestra enel producto:

f (x; �) = g (h (x) ; �) �v (x) , para todo x 2X, � 2 �. (12.26)

Encontrar un estadístico su�ciente usando este teorema implica la inspec-ción de la distribución de la muestra y algo de imaginación para poder darsecuenta de la factorización.Ejemplo 2. Normal (continuación)Considere el modelo Normal (un parámetro) (�2 se supone conocido):

f (x; �) =nYk=1

1

�p2�e��

12�2

(xk��)2�=

�1

2��2

��n2

exp

�� 1

2�2

Xn

k=1(xk � �)2

=

�1

2��2

��n2

exp

�� 1

2�2

Xn

k=1(xk � x+ x� �)2

�=

�1

2��2

��n2

exp

�� 1

2�2

Xn

k=1(xk � x)2 + n (x� �)2

�.

Este resultado se puede utilizar para factorizar la distribución de la mues-tra en (12.26):

f (x; �) =hexp

n� n

2�2(x� �)2

oi�"�

1

2��2

��n2

exp

�� 1

2�2

Xn

k=1(xk � x)2

�#.

donde el primer factor entre corchetes depende de � sólo a través delestadístico X = 1

n

Xn

i=1Xi y el segundo es libre de �. En vistas del teorema

anterior, el estadístioa es su�ciente para �.Es importante NOTAR que el teorema de factorización está directamente

relacionado con la condición necesaria y su�ciente para e�ciencia plena deun estimador b� de � en el sentido de que la condición:

Page 452: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

452CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

�b� � ��= h (�)

�d In f (x; �)

d�

�,

implica que la distribución de la muestra tiene la forma (12.26). Estosugiere que existe un estimador e�ciente si y sólo si existe un estadísticosu�ciente; lo contrario, sin embargo, no es necesariamente cierto.

Ejemplo 5. Normal de 5 (continuación)Considere el modelo Normal (de dos parámetros) (�2 supuesto descono-

cido). Usando la igualdad:

Xn

k=1(Xk � �)2 =

hXn

k=1X2k

i� 2�

hXn

k=1Xk

i+ n�2

= h2 (X)� 2� [h1 (X)] + n�2,

podemos proceder a factorizar la distribución de la muestra en:

f�x;�; �2

�=

�1

2��2

��n2

exp

�� 1

2�2

Xn

k=1(xk � �)2

�= g

�h (x) ;�; �2

��v (x)

=

"�1

2��2

��n2

exp

�� 1

2�2�h2 (X)� 2� [h1 (X)] + n�2

��#� [1] .

Por lo tanto, los estadísticos h1 (X) :=Xn

k=1Xk, h2 (X) :=

Xn

k=1X2k ,

son su�cientes para los parámetros desconocidos (�; �2). Utilizando estosestadísticos podemos de�nir los estimadores:

b�n =

�1

n

�h1 (X) =

�1

n

�Xn

k=1Xk,

s2n : =

�1

n� 1

��h2 (X)� (h1 (X))2

�=

�1

n� 1

�Xn

k=1(Xk � b�n)2 ,

para los parámetros (�; �2), respectivamente. En la sección anterior sedemostró que estos dos estimadores son, en efecto, óptimos.Ejemplo 4. Uniforme (continuación)La distribución de la muestra en este caso toma la forma:

Page 453: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.6. ESTADÍSTICOS SUFICIENTES Y ESTIMADORES ÓPTIMOS *453

f (x; �) =nYk=1

�1

�=

�1

�n

�, para 0 � x[1] � x[n] � �,

donde X[1] = min (X1; X2; :::; Xn) y X[n] = max (X1; X2; :::; Xn) son losdos extremos para los estadísticos. Usando la función heaviside (pesantez):

h (x) =�0, para x < 0,1, para x � 1,

�podemos expresar f (x; �) como: f (x; �) =

�1�n

�h�� � x[n]

�����h�x[1]��.

Esto sugiere que X[n] es un estadístic o su�ciente para � y en la búsqueda deestimadores óptimos debemos considerar las funciones de X[n]. Recordamosal lector que utilizamos el estimador b�n = n

n+1X[n], en una de las ilustraciones

relacionadas con la cota mínima de Cramer-Rao.

8.6.2 Su�ciencia e insesgamiento

Volvamos a nuestro objetivo principal que es diseñar una estrategia parala de�nición de estimadores óptimos. Veremos en esta sección que existeuna relación directa entre estadísticos su�cientes y estimadores insesgados.Intuitivamente, la relación entre su�ciencia y insesgamiento es que si el mod-elador comienza con algún estimador insesgado arbitrario y a continuaciónde�ne otro estimador por condicionamiento de un estadístico su�ciente, elestimador resultante a menudo tendrá una varianza más pequeña que el es-timador insesgado original.Con el �n de deducir esta relación recordamos dos propiedades impor-

tantes de la esperanza condicional para cualesquiera dos variables aleatoriasX y Y tales que V ar (X) <1, V ar (Y ) <1:(a) E (E (Y jX)) = E (Y ),(b) V ar (Y ) = E (V ar (Y jX)) + V ar (Y jX) = E (Y ); véase el capítulo 7,

sección 3.Teorema de Rao-Blackwell (véase Blackwell (1947), Rao (1949)). Seab� un estimador insesgado de � �E �b�� = �

�, y sea h(X) un estadístico su�-

ciente para �. El estadístico de�nido por:

e� = E�b�jh(X)� ,

satisface las siguientes propiedades:

Page 454: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

454CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

(i) e� es un estimador de �,(ii) insesgado: E

�e�� = �,

(iii) relativamente más e�ciente que b�: V ar �e�� � V ar�b��.

La propiedad (ii) se deduce del hecho de que:

E�b�� = E

hE�b�jh(X)�i = E

�e�� = �,

y la propiedad (iii) a partir de:

V ar�b�� = V ar

�E�b�jh(X)��+ E

hV ar

�b�jh(X)�i= V ar

�e��+ EhV ar

�b�jh(X)�i � V ar�e�� .

El lector perspicaz podría preguntarse si la su�ciencia se requiere paralos resultados que acabamos para tener, ya que no se usó la su�ciencia en ladeducción de (ii) - (iii). El hecho de importancia es que e� es un estimador(que no depende de parámetros desconocidos) precisamente porque h(X) esun estadístico su�ciente.El teorema de Rao-Blackwell proporciona una forma de mejorar un es-

timador insesgado, ofreciendo un estimador relativamente más e�ciente queel original, pero no nos dice nada acerca de la e�ciencia plena del estimadorresultante. El modelador puede proceder a inspeccionar la cota mínima deCramer-Rao, pero si el estimador resultante no la alcanza, ella no es acertada.

8.6.3 Su�ciencia mínima

Los resultados anteriores sugieren que en la búsqueda de mejores estimadoresinsesgados la mejor estrategia para el modelador es comprobar la presencia deestadísticos su�cientes y, a continuación proceder a de�nir los estimadoresóptimos en términos de estos estadísticos su�cientes usando el teorema deRao-Blackwell o sólo inspiración. Sin embargo, la propia muestra X (y decualquier función uno a uno de ella) es un estadístico su�ciente (el estadísticosu�ciente trivial) y esta estrategia sólo será fructífera si se puede basar enun estadístico su�ciente que economice sobre las dimensiones. Esto lleva alconcepto de estadístico su�ciente mínimo que alcanza la máxima reducciónposible de datos sin pérdida de información. Teniendo en cuenta el hecho de

Page 455: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.6. ESTADÍSTICOS SUFICIENTES Y ESTIMADORES ÓPTIMOS *455

que en la búsqueda de estimadores óptimos de � debemos considerar las fun-ciones de un estadístico su�ciente h (X), por ejemplo g (h(X)), llamamos alúltimo estadístico necesario. El estadístico necesario no contiene necesaria-mente toda la información relevante en los datos. Pero cuando un estadísticoes a la vez necesario y su�ciente debe ser un estadístico su�ciente mínimo.Estadístico su�ciente mínimo. Un estadístico su�ciente h (X) es mín-

imo si todo otro estadístico su�ciente g (X) es una función de él, es decir,para cualquier estadístico su�ciente g (X):

g (X) = q (h (X)) para alguna función q (:) .

Es importante tener en cuenta que para cualquier modelo estadístico, talcomo se de�ne en este libro, siempre existe un estadístico su�ciente mínimo;sin excluir a la propia muestra en dimensión.Ni la de�nición de estadístico su�ciente ni el teorema de factorización

proporciona una manera fácil de concebir estadísticos su�cientes. El sigu-iente resultado, sin embargo, proporciona una manera relativamente fácilde obtener estadísticos su�cientes mínimos. La idea se debe a Lehmann ySche¤é (1950).Teorema de Lehmann-Sche¤é 1. Supongamos que existe un estadís-

tico h (X) tal que para dos diferentes realizaciones de la muestra x y z (x 2X,z 2X), la razón:

f (x; �)

f (z; �)es libre de � si y sólo si h (X) = h (Z) ,

entonces h (X) es un estadístico su�ciente mínimo para �.Ejemplo 1. Bernoulli (continuación)En el caso del modelo Bernoulli, la razón:

f (x; �)

f (z; �)=�Xn

k=1xk (1� �)

Xn

k=1(1� xk)

�Xn

k=1zk (1� �)

Xn

k=1(1� zk)

=

��

1� �

�Xn

k=1(xk � zk) ,

es libre de � si y sólo si:Xn

k=1Xk =

Xn

k=1Zk. Por lo tanto, el estadístico�Xn

k=1Xk

�no sólo es su�ciente sino su�ciente mínimo.

Ejemplo 5. Normal (continuación)

Page 456: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

456CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

Considere el modelo Normal (de dos parámetros) (�2 desconocido). Larazón:

f (x;�; �2)

f (z;�; �2)=

�1

2��2

��n2 exp

n� 12�2

Xn

k=1(xk � �)2

o�

12��2

��n2 exp

n� 12�2

Xn

k=1(zk � �)2

o= exp

�� 1

2�2

hXn

k=1x2k �

Xn

k=1z2k

i+

n

�2

hXn

k=1xk �

Xn

k=1zk

i�,

es libre de (�; �2) si y sólo si:Xn

k=1X2k �

Xn

k=1Z2k ;Xn

k=1Xk �

Xn

k=1Zk.

Por lo tanto, los estadísticos�Xn

k=1X2k ,Xn

k=1Xk

�no sólo son su�-

cientes, sino su�cientes mínimos.

8.6.4 Completitud

Volviendo a nuestro objetivo principal que es encontrar estimadores óptimosutilizando estadísticos su�cientes, observamos que el concepto de estadísticosu�ciente mínimo no puede garantizar la unicidad de este estimador porquecualquier función uno a uno de un estadístico su�ciente mínimo es tambiénsu�ciente y mínima. Para garantizar la unicidad de los estimadores ópti-mos necesitamos otra característica de los estadísticos su�cientes llamadaexhaustividad.La exhaustividad es una propiedad de una familia de densidades e intuiti-

vamente signi�ca que el único estimador insesgado de cero es cero sí mismo.La familia de densidades � = ffX (x; �) ; � 2 �g se dice que es completa si,para cada función � (X), se cumple la siguiente relación:

E (� (X)) = 0) � (X) = 0 (c.s.) para todo x 2 fx : fX (x; �) > 0g .

Esta idea puede ser trasplantados sin cambios para el caso de la distribu-ción de la muestra f (x; �), mediante la sustitución de X por la muestra Xen la relación anterior. En el caso de un estadístico su�ciente, tenemos quede�nir la completitud en términos de la distribución de este estadístico.

Page 457: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.6. ESTADÍSTICOS SUFICIENTES Y ESTIMADORES ÓPTIMOS *457

Completitud. Una estadístico su�ciente Y = h (X) se dice que es com-pleto si la familia de las densidades G:= ffY (y; �) ; � 2 �g es completa.NOTA: la utilidad de la propiedad de completitud se deriva del hecho

de que si h (X) es un estadístico su�ciente completo y b� = g (h (X)), unestimador insesgado de �, es decir

E (g (h (X))) = �,

entonces este estimador es único.La relación entre un estadístico su�ciente completo y un estadístico su-

�ciente mínimo es que un estadístico su�ciente completo es su�ciente mín-imo (véase Lehmann y Sche¤é (1950)). Esto nos lleva al �nal de nuestrabúsqueda de mejores estimadores insesgados mediante la utilización de es-tadísticos su�cientes. El resultado principal es dado por el siguiente teorema(véase Lehmann y Sche¤é (1955)).Teorema de Lehmann-Sche¤é 2. Sea h (X) un estadístico su�ciente

completo para � (o mejor, de un modelo estadístico S). Si existe un estimadorinsesgado b� de �, que es una función de h (X) (es decir, b� = g (h (X))),entonces este estimador es el mejor y el único.Ejemplo 4. Uniforme (continuaciónEn un intento de ilustrar algunos de los resultados anteriores, volvamos a

la problemática del modelo Uniforme discutido anteriormente. En vista delhecho de que:

E (X) =�

2,

podría ser tentador usar la correspondencia entre los momentos de ladistribución y de la muestra para obtener el estimador b� = 2� 1

n

Xn

k=1Xk

�.

Este ciertamente no es un mal estimador porque es a la vez insesgado:

E�b�� = 2� 1

n

Xn

k=1(Xk)

�=

�2

n

��n�

2

�= �,

y consistente:

V ar�b�� = � �2

3n

�! 0 cuando n!1.

Sin embargo, no es la mejor estimator. Sabemos de la discusión anteriorque:

Page 458: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

458CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

X[n] = max (X1; X2; :::; Xn) ,

es un estadístico su�ciente para �. Usando el teorema de Rao-Blackwellprocedemos a de�nir el estimador:

e� = E�b�jX[n]

�= E

�2

�1

n

Xn

k=1(Xk)

�jX[n]

�=

n

n+ 1X[n].

Resulta que la familia de las densidades consideradas es completa y, porlo tanto, este estimador es el mejor estimador de insesgado de �; es tambiénúnico.La principal desventaja de la estrategia anteriormente mencionada se en-

cuentra en asegurar que un cierto estadístico su�ciente mínimo también escompleto. Para hacerse una idea de las di�cultades considerar el caso relati-vamente simple en el ejemplo siguiente.Ejemplo 1. Bernoulli (continuación)En el caso del modelo de Bernoulli el estadístico Sn :=

Xn

k=1Xk es

su�ciente mínimo, con una distribución muestral (véase el lema 1) de laforma:

f (sn; �) =

�ns

��s (1� �)n�s , � 2 [0; 1] .

Considere un estimador ÷(X) tal que E (÷(X)) = 0, para todo � 2 [0; 1]:Xn

s=0÷(X)

�ns

��s (1� �)n�s = 0, para todo � 2 [0; 1].

Teniendo en cuenta el hecho de que la función g (�) =Xn

s=0÷(X)

�ns

��s (1� �)n�s =

0 es un polinomio en �1�� con raíces a lo más n, es igual a cero si y sólo si:

÷(X) = 0 para todo s = 1; 2; :::; n. Esto sugiere que Sn :=Xn

k=1Xk también

es un estadístico su�ciente completo.Combinando el teorema anterior con el de Rao-Blackwell, el modelador

puede formar la siguiente estrategia: en el caso de que un estadístico su�-ciente completo exista, ella debe comenzar con un estimador insesgado arbi-trario y luego proceder a obtener la esperanza condicional dado el estadísticosu�ciente; ver Casela y Berger (1990).

Page 459: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.7. ¿QUÉ VIENE A CONTINUACIÓN? 459

Volviendo a la analogía de un arquero parado al pie de una colina con elobjetivo en el otro lado más allá de su visión, la cuestión de la elaboración deuna estrategia relativa a los factores dentro de su control, ahora pueden sercontestada: conectar una red que llamamos un estadístico su�ciente completosobre la �echa en un intento de especi�car un estimador insesgado.

8.6.5 Exponencial de la familia de distribuciones

Hay una familia importante de densidades para la cual el problema de en-contrar un estadístico su�ciente mínimo, que también es completo, es relati-vamente fácil. Esta es la familia exponencial (no el modelo exponencial).Familia exponencial de las densidades. Un modelo de probabilidad

� = ff (x; �) ; � 2 �g se dice que pertenece a la familia exponencial si lafunción de densidad se puede expresar en la forma:

f (x; �) = c (�) �h (x) exp�Xk

i=1gi (�) �� i (x)

�,

(a) c (�) � 0,(b) h (x) � 0,(c) gi (�), i = 1; 2; :::; k, funciones reales (sin x),(d) � i (x), i = 1; 2; :::; k, funciones reales (sin �).Muchas distribuciones conocidas como la Normal, Gamma, Beta, Bino-

mial, Poisson y Binomial Negativa pertenecen a esta familia. Para esta fa-milia, los estadísticos:�Xn

j=1� i (xj) , i = 1; 2; :::; k

�,

son estadísticos su�cientes mínimos para (gi (�), i = 1; 2; :::; k), y en elcaso de que el número de parámetros desconocidos es � es k, estos estadísticosson también completos.

8.7 ¿Qué viene a continuación?

El objetivo de este capítulo ha sido formalizar el concepto de estimadoróptimo. Usando el concepto intuitivo de estimador ideal motivamos laspropiedades de muestra �nita de insesgamiento y e�ciencia y las propiedadesasintóticas de consistencia, normalidad asintótica y e�ciencia asintótica. Us-ando el concepto de reducción óptima de la información relevante en los datos

Page 460: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

460CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

motivamos la propiedad de su�ciencia. En el siguiente capítulo procedemos adiscutir los métodos de estimación que a menudo dan lugar a los estimadoresóptimos.

8.8 Ejercicios

1. Explique brevemente lo que hacemos cuando construimos un estimador.¿Por qué un estimador es una variable aleatoria?2. "De�nir la distribución muestral de un estimador es teórcamente triv-

ial, pero deducirla es muy difícil". Discuta.3. Para el modelo estadístico Bernoulli:(i) Discutir si las siguientes funciones constituyen estimadores posibles de

�:

(a) b�1 = Xn; (b) b�2 = 1

2(X2 �X1) ; (c) b�3 = 1

3(X1 �X2 +Xn) ;

(d) b�n =1

n

Xn

i=1Xi; (e) b�n + 1 = 1

n+ 1

Xn

i=1Xi.

(ii) Para aquellos que constituyen estimadores obtienen sus distribucionesde muestreo.4. Explique brevemente las propiedades de insesgamiento y e�ciencia de

los estimadores.5. "En la evaluación de la optimalidad de un estimador tenemos que

observar solamente los dos primeros momentos de su distribución muestral."Discuta.6. Explique brevemente qué es un estimador consistente. ¿Cuál es la

manera más fácil de probar la consistencia de los estimadores con segundosmomentos acotados?7. Explique brevemente la diferencia entre consistencia débil y fuerte de

los estimadores.8. "La normalidad asintótica de un estimador es una extensión del Teo-

rema Central del Límite para las funciones de la muestra más allá de la mediamuestral." Discuta.9. Explique la diferencia entre e�ciencia completa y e�ciencia asintótica.10. Explicar el concepto de estimador ideal y explicar intuitivamente

cómo su de�nición se relaciona con las propiedades de insesgamiento, e�cien-cia y consistencia.

Page 461: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

8.8. EJERCICIOS 461

11. Explique la diferencia entre las cotas inferiores de Cramer-Rao y deBhattacharyya.12. Explique el concepto de su�ciencia.13. Explique el concepto de estadístico su�ciente mínimo y cómo se

relaciona con el mejor estimador insesgado.14. Explique el teorema de Rao-Blackwell y cómo puede ser utilizado

para obtener los mejores estimadores insesgados.15. Considere el modelo estadístico normal (dos parámetros).(a) Derive (no conjeture!) las distribuciones muestrales de los estimadores

siguientes:

(i) b�1 = Xn, (ii) b�2 = 1

3(X1 +X2 +X3)

(iii) b�3 = (X1 �Xn) , (iv) b�n = 1

n

Xn

i=1Xi,

(SUGERENCIA: indicar explícitamente las propiedades deE (:) o cualquierlema que utilice).(b) Compare estos estimadores en términos de las propiedades óptimas,

insesgamiento, e�ciencia y consistencia.c) Compare y contraste los estimadores b�2n = 1

n

Xn

i=1(Xi � b�n)2 y bs2n =

1n+1

Xn

i=1(Xi � b�n)2, en términos de sus propiedades.

Page 462: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

462CAPÍTULO 8. ESTIMACIÓN I: PROPIEDADESDE LOS ESTIMADORES

Page 463: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

Capítulo 9

Estimación II: métodos deestimación

9.1 Introducción

En el capítulo anterior discutimos estimadores y sus propiedades. Las prin-cipales propiedades deseables de muestra �nita discutidas en el capítulo 12fueron:

Insesgamiento, E�ciencia,

siendo la su�ciencia una propiedad relacionada con los modelos especí�-cos de probabilidad. Las propiedades asintóticas deseables discutidas en elcapítulo anterior fueron los siguientes:

Consistencia, Normalidad Asintótica, E�ciencia Asintótica.

El concepto de estimador ideal se usó como vara de comparación con el�n de mejorar la comprensión intuitiva de estas propiedades. La cuestiónde cómo se pueden construir buenos estimadores se eludió en el capítuloanterior. El objetivo principal de este capítulo es examinar esta cuestión concierto detalle discutiendo cuatro métodos de estimación:

1. El principio de momento de coincidencia,

2. El método de mínimos cuadrados,

3. El método de momentos y

4. El método de máxima verosimilitud.

463

Page 464: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

464 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

9.1.1 Una vista panorámica del capítulo

En la sección 2 se discute una aproximación a la estimación que tiene unatractivo intuitivo, pero carece de generalidad. Llamamos a este proced-imiento el principio de momento de coincidencia porque estimamos los parámet-ros desconocidos haciendo coincidir la distribución y los momentos de lamuestra. La relación entre la distribución y los momentos de la muestra estambién de interés en el contexto de los otros métodos. La sección 3 presentael método de mínimos cuadrados, en primer lugar como un método de aprox-imación matemática y después como un método de estimación característicode la inferencia estadística moderna. En la sección 4 discutimos el métodode momentos de Pearson y luego lo comparamos con el método paramétricode momentos, una adaptación del método original para el paradigma actualde la inferencia estadística El método de máxima verosimilitud se discute enla sección 5.

9.1.2 Métodos de estimación: una visión preliminar

La discusión que sigue se diferencia de la discusión de libros de texto tradi-cionales en una serie de formas que resumimos desde el principio. Se argu-menta que el principio de momentos coincidentes surgio durante el siglo 19y 20 como parte de la confusión general entre frecuencias relativas y proba-bilidades. La misma confusión impregna el método de momentos en la formapropuesta por Pearson en 1895, diseñado para utilizar los datos con el �nde elegir una descripción adecuada en la forma de una curva de frecuenciasde la familia Pearson. Ambos procedimientos se desarrollaron en el contextode lo que hoy llamamos estadística descriptiva. El método de Pearson, sinembargo, se adaptó más tarde para satisfacer a la aproximación moderna ala inferencia estadística. A �n de distinguir entre el método de Pearson yel método adaptado nos referimos a este último como el método paramétricode momentos. Una tesis particular adoptada en la discusión que sigue esque todos los métodos de estimación se entienden mejor en el contexto delmarco de referencia estadístico (paradigmas) en el que se desarrollaron porprimera vez. En este sentido, el único método de estimación especí�camentedesarrollado para el enfoque moderno de la inferencia estadística, que implicapostular un modelo estadístico a priori y la interpretación de los datos comouna realización del mecanismo estocástico descrito por este modelo, es el demáxima verosimilitud, propuesto por Fisher en la década de 1920; sus raíces

Page 465: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 465

se remontan a Fisher (1912). Los otros tres métodos se han desarrolladoen el contexto de paradigmas diferentes y es importante tenerlo en mentecuando hablamos de estos métodos. El método de mínimos cuadrados, comouna técnica de aproximación matemática (la aproximación de una funcióndesconocida en un intervalo), se desarrolló a principios de 1800 en el con-texto de un paradigma estadístico conocido como la teoría de errores. En lasección 3 proponemos una interpretación alternativa de los mínimos cuadra-dos como el equivalente muestral a la descomposición ortogonal usada parade�nir el concepto de mecanismo generador estadístico (MG) en el capítulo7.El método de máxima verosimilitud (MV) fue desarrollado especí�ca-

mente para utilizar toda la información disponible en la fase de especi�caciónde la modelación: el modelo estadístico y los datos observados. Por eso, elmétodo MV tiene ciertas ventajas evidentes sobre los otros métodos. Porejemplo, el principio de momentos coincidentes y el método de momentoscon frecuencia producen estimadores menos e�cientes, ya que no utilizantoda la información disponible en el modelo estadístico; ellos ignoran partede la información relativa al modelo de probabilidad. Esto puede explicarsepor el hecho de que el paradigma en el contexto del cual estos métodos se handesarrollado, no implica postular un modelo estadístico a priori. En su lugar,la modelación procedió de los datos al mejor modelo descriptivo en el formade una curva de frecuencias. Del mismo modo, mínimos cuadrados se desar-rolló originalmente como una técnica de ajuste de curvas para las funcionesde�nidas sobre un dominio determinado. La estructura probabilística se in-trodujo posteriormente en la formulación a través del error de aproximaciónde una manera no esencial. En contraste, el método de máxima verosimili-tud ha sido diseñado para un enfoque donde el modelador postula un modeloestadístico a priori y los datos observados son vistos como una realizacióndel mecanismo aleatorio especi�cado por el modelo estadístico postulado.

9.2 Principio de momentos coincidentes

El principio de momento coincidentes no puede ser acreditado a ningúnestadistico famoso porque se puede decir que el caso, esencialmente, surgióde una confusión fundamental entre los momentos de la distribución y losmomentos de la muestra. En su artículo clásico, que sentó las bases dela inferencia estadística moderna, Fisher atribuye el abandono de las bases

Page 466: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

466 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

teóricas de los métodos estadísticos a dos razones:(i) Una razón �losó�ca: ya que la estadística es "un tema en el que todos

los resultados están sujetos a errores mayores o menores, la de�nición precisade las ideas o conceptos es, si no imposible, al menos no una necesidadpráctica" (Fisher (1922b), p. 311).(ii) Una razón metodológica: "ha ocurrido que en estadística una con-

fusión puramente verbal ha di�cultado la formulación de los distintos prob-lemas estadísticos; es costumbre aplicar el mismo nombre, media, desviaciónestándar, coe�ciente de correlación, etc, tanto al verdadero valor que nosgustaría conocer, pero sólo se puede estimar, como al valor particular al quequeremos llegar por nuestros métodos de estimación" (Fisher (1922b), p.311).Fisher señaló una confusión entre tres conceptos distintos: el momento

de una distribución de probabilidad, su estimador y la estimación correspon-diente basada en una realización de la muestra especí�ca. Una confusiónprovocada debido a la utilización del mismo término para los tres distintosconceptos. Desafortunadamente para la estadística esta elección de termi-nología inadecuada todavía impregna el tema. El precio de esta inadecuaday a menudo confusa terminología es pagado por los estudiantes y profesoresde estadística que tienen que perder mucho tiempo valioso tratando de dis-tinguir entre distintos conceptos que llevan implícita la misma terminología.La tabla 13.1 presenta tres grupos muy diferentes de momentos que ll-

evan el mismo nombre. La primera columna presenta estos momentos enel contexto de la estadística descriptiva donde ellos representan formas deresumir los datos observados utilizando medidas de localización, dispersión,etc. Como tales, estos momentos se re�eren a los momentos de lo que lla-mamos las frecuencias relativas de los datos observados y que denotan sóloun resumen de números. Estos números deben compararse con los momentosde la muestra en la tercera columna, donde las fórmulas son idénticas apartedel hecho de que usamos letras mayúsculas en lugar de minúsculas paraX. Apesar de la apariencia los momentos de la muestra son cualitativamente muydiferentes de los momentos de la estadística descriptiva. Los momentos de lamuestra son funciones de una muestra (X1; X2; :::; Xn), cuya estructura prob-abilística se determina a priori por el modelo estadístico elegido. Como tal,los momentos muestrales representan variables aleatorias en lugar de sólo losnúmeros como en el caso de los momentos de estadística descriptiva. Estosúltimos, como señala Fisher, también di�eren cualitativamente de los valoresparticulares adoptados por los momentos muestrales basados en la realización

Page 467: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 467

de la muestra en particular, a pesar de que a menudo utilizamos notaciónidéntica; ellos representan un valor particular de una variable aleatoria nosólo un resumen de números. Por último, los momentos de una distribuciónde probabilidad se diferencian de todos esos otros momentos, en la medida enque representan constantes desconocidas que se de�nen en términos de fun-ciones de densidad particulares. Optamos por de�nir estos momentos paravariables aleatorias continuas en términos de integrales con el �n de hacerel contraste más evidente. Para variables aleatorias discretas los momentoscrudos se de�nen a través de:

�0r := E (Xr) =X

x2RXxrf (x) ; r = 1; 2; :::

Tabla 13.1 Momentos

Lo que distingue a estos momentos de todos los demás es la presencia deuna función de densidad particular en la de�nición. Como se ha dicho en elcapítulo 3, los momentos de la distribución de probabilidad son a menudo lamejor manera de tratar con los parámetros desconocidos �. Esto se sigue delhecho de que estos momentos dependen fundamentalmente de la naturalezade la función de densidad, que a su vez es una función de � y, por lo tanto, losmomentos son funciones de �. Esta relación se ejempli�ca en los momentoscrudos siguientes:

�0r := E (Xr) =

Zx2RX

xrf (x;�) dx = �0r (�) ; r = 1; 2; :::

La confusión entre los diversos usos del término momentos se ve agravadapor el hecho de que en la inferencia estadística a menudo hablamos de los

Page 468: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

468 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

momentos de los momentos de la muestra. En un intento por hacer frentea esta di�cultad, utilizamos la notación (�0r (:) , �r (:)) que nos permite serespecí�cos respecto a qué momentos nos estamos re�riendo cuando no esevidente por el contexto. Por lo tanto, la notación �0r

�X�, r = 1; 2; :::, denota

los momentos crudos de la distribución muestral de la media muestral.Durante los siglos 18 y 19 la distinción entre probabilidades y frecuencias

relativas no existía; en la mente de los matemáticos de la época las doscoinciden. En vista de esto, no debería ser una sorpresa para nadie saberque la transición de la estadística descriptiva a la inferencia estadística enla primera parte del siglo 20, pasó casi desapercibida, incluso por pioneroscomo Karl Pearson (ver más adelante). Por lo tanto, la práctica endémicade confundir los momentos de la distribución y los momentos muestrales(estadística descriptiva) durante este período de transición, mucho más tardese convirtió en el principio de momento coincidentes:la de�nición de estimadores, haciendo coincidir los momentos de la dis-

tribución con los momentos de la muestra.El principio de momentos coincidentes se lleva a cabo en dos pasos:Paso 1. Relacionar el parámetro desconocido � con los momentos de la

distribución en términos de los cuales se especi�ca el modelo de probabilidad,por ejemplo,

� = g (�01; �02) .

Paso 2. Sustituir los momentos muestrales en el lugar de los momentosde la distribución:

b�01 = 1

n

Xn

i=1Xi, b�02 = 1

n

Xn

i=1X2i .

es decir, construir un estimador de �, a través de b� =g�b�01; b�02�.NOTA: vale la pena señalar en este procedimiento es al revés del utilizado

por el Método de Momentos (véase más adelante), donde tenemos la relaciónespeci�cada en términos de los momentos, por ejemplo �01 = h1 (�1; �2), �02 =h2 (�1; �2), sustituir los momentos muestrales en lugar de (�01; �

02) y resolver

para (�1; �2) para de�nir sus estimadores.Ejemplo 1. Considere el modelo Bernoulli simple:[i] MG estadístico: Xk = � + "k, k 2 N,[ii] Modelo de probabilidad: � = ff (x; �) = �x (1� �)1�x ; � 2 [0; 1] ; x =

0; 1g,

Page 469: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 469

[iii] Modelo muestral: X := (X1; X2; :::; Xn) es una muestra aleatoria.Teniendo en cuenta el hecho de que para elmodelo Bernoulli el parámetro

desconocido � coincide con la media de X:

E (X) = �,

el principio de momentos coincidentes sugiere que un estimador naturalde � es la media muestral :

b� = 1

n

Xn

i=1Xi.

Ejemplo 2Considere el modelo Normal simple:[i] MG estadístico: Xk = �+ uk, k 2 N,[ii] Modelo de probabilidad:

� =

�f (x;�) =

1

�p2�exp

�� 1

2�2(x� �)2

�;� :=

��; �2

�2 R� R+; x 2 R

�,

[iii] Modelo muestral: X := (X1; X2; :::; Xn) es una muestra aleatoria.Para el modelo Normal especi�cado anteriormente los parámetros de-

sconocidos � := (�; �2) están relacionados con los momentos de distribucióna través de:

E (X) = �, V ar (X) = �2.

El principio de momentos coincidentes propone la media muestral y lavarianza muestral, respectivamente, como los estimadores evidentes de estosparámetros, es decir,

b� = 1

n

Xn

i=1Xi, b�2 = 1

n

Xn

i=1(Xi � b�)2 .

Ejemplo 3Considere el modelo de regresión lineal Normal:[i] MG estadístico: Yt = �0 + �1xt + ut, t 2 N,[ii] Modelo de probabilidad:

� =

�f (ytjxt;�) =

��1p2�exp

�� 1

2�2(Yt � �0 � �1xt)

2

�;� :=

��; �2

�2 R2 � R+; yt 2 R

�,

Page 470: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

470 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

,[iii] Modelo muestral: Y := (Y1; Y2; :::; Yn) es una muestra aleatoria ex-

traída secuencialmente de f (ytjxt;�), t = 1; 2; :::; T .En este caso los parámetros desconocidos están relacionados con los mo-

mentos de las variables aleatorias y y X a través de:

�0 = E (Yt)��1E (Xt) , �1 =Cov (Yt; Xt)

V ar (Xt), �2 = V ar (Yt)�

(Cov (Yt; Xt))2

V ar (Xt).

Mediante la sustitución de los momentos muestrales en lugar de los mo-mentos de la distribución, obtenemos los siguientes estimadores del principiode momentos coincidentes:

b�0 = Y��1x, b�1 = 1T

XT

t=1

�Yt � Y

�(xt � x)

1T

XT

t=1(xt � x)2

, b�2 = 1

T

XT

t=1

�Yt � Y

�2��1T

XT

t=1

�Yt � Y

�(xt � x)

�21T

XT

t=1(xt � x)2

En todos los casos anteriores los estimadores sugeridos por el principio demomentos coincidentes disfrutan de varias propiedades óptimas. Por ejemplo,como se muestra en el capítulo anterior, b� es un estimador insesgado, e�cientey consistente de � y b� es un estimador insesgado, e�ciente y consistente de�. La pregunta que naturalmente surge es si los estimadores sugeridos por elprincipio de momentos coincidentes disfrutan siempre de tales propiedadesóptimas. La respuesta es que dichos estimadores tienden con tener buenaspropiedades, pero a menudo no tan buenas como sugieren estos ejemplos.Consideremos esta proposición con algún detalle más.

9.2.1 Momentos muestrales y sus propiedades

Como se ha dicho anteriormente, los momentos crudos y centrales de unavariable aleatoria univariada X:

�0r (�) :=

Zx2RX

xrf (x; �) dx; r = 1; 2; ::: �r (�) :=

Zx2RX

(x� �)r f (x; �) dx; r = 2; 3; :::

corresponden a los momentos muestrales:

Page 471: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 471

b�0r = 1

n

Xn

i=1Xi; r = 1; 2; 3; ::: b�r (�) = 1

n

Xn

i=1(Xi � b�)r ; r = 2; 3; :::.

Del mismo modo, en el capítulo 4 de�nimos los momentos crudos y cen-trales de la distribución conjunta:

b�0r;s (�) : =

Zx2RX

Zy2RY

xrysf (x; y; �) dxdy; r; s = 1; 2; 3; :::

b�r;s (�) : =

Zx2RX

Zy2RY

(x� �x)r �y � �y

�sysf (x; y; �) dxdy; r; s = 1; 2; 3; :::

Los correspondientes momentos conjuntos crudos y centrales son:

b�0r;s = 1

n

Xn

i=1Xri Y

si ; �r;s =

1

n

Xn

i=1(Xi � b�x)r �Yi � b�y�s , r; s = 1; 2; 3; :::.

Para la aplicación del principio de momentos coincidentes, en el cuadro13.2 se resumen las primeras distribuciones y los momentos muestrales cor-respondientes.

Tabla 13.2 Momentos

De interés en el contexto actual son las distribuciones muestrales de losmomentos muestrales anteriores y sus propiedades. En general, la distribu-ción de cualquier momento muestral depende fundamentalmente de los mod-elos de probabilidad y muestral postulados. Como vimos en el capítulo an-terior, en el caso de una muestra aleatoria de la distribución Bernoulli, el

Page 472: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

472 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

estimador b� = 1n

Xn

i=1Xi (la media de la muestra) se distribuye Binomial y

resulta ser un estimador insesgado, plenamente e�ciente y consistente de �.Además, en el caso del modelo Normal simple, el estimador b� = 1

n

Xn

i=1Xi

tiene una distribución Normal y resulta ser un estimador insesgado, plena-mente e�ciente y consistente de �.En la práctica los estimadores del principio de momentos coincidentes se

utilizan a menudo en los casos de modelos estadísticos simples incompletosdonde no se postula explícitamente a priori ningún modelo de probabilidad.En tales casos, por supuesto, no podemos determinar la distribución muestralde un estimador (a menos que se recurra a la teoría asintótica) y los resultadosdisponibles a menudo se re�eren a los primeros momentos de esta distribucióndesconocida. En el caso de un modelo estadístico simple incompleto (es decir,independientemente de la naturaleza explícita de �, pero asumiendo que losmomentos necesarios existen) podemos obtener los resultados en la tabla 13.3para la momentos muestrales crudos.

Tabla 13.3 Momentos muestrales crudos

Estos resultados sugieren que, en el caso de una muestra aleatoria, in-dependientemente de la distribución subyacente (suponiendo que los mo-mentos requeridos existen), los momentos muestrales crudos proporcionanestimadores insesgados y consistentes para los momentos crudos de ladistribución.La consistencia se deduce del hecho de que la varianza de los momentos

muestrales crudos V ar (�0r) tiende a cero cuando n!1.Un ejemplo particularmente importante de estos momentos es la media

muestral cuyos primeros momentos se muestran en la tabla 13.4.

Page 473: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 473

Tabla 13.4 Media muestral b� = 1n

Xn

i=1Xi

Las fórmulas para losmomentos centrales muestrales no son tan sim-ples como las de los momentos muestrales crudos porque implican la variaciónde muestreo de la media muestral. La tabla 13.5 muestra la aproximaciónde los dos primeros momentos de los momentos centrales muestrales (véaseStuart y Ord (1994)) donde la notación o

�nk�y O

�nk�indican el orden de

aproximación.

Tabla 13.5 Momentos centrales muestrales

La NOTACIÓN an =o�nk�, para algún k 6= 0, indica una sucesión

fang1n=1 de orden menor que nk, es decir,

limn!1

�annk

�= 0,

y la notación an =O�nk�indica una sucesión fang1n=1 a lo más de orden

nk, es decir,

limn!1

�janjnk

�� K, donde 0 < K <1,

Page 474: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

474 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

(ver Spanos (1986)). Nótese que para k > 0: an =O�nk�) an =o

�nk+1

�.

Para tener una idea de lo que estas aproximaciones re�eren, vamos aconsiderar los momentos de la varianza de la muestra, que se muestran en latabla 13.6. La covarianza de b�2 y b� sugiere que en el caso de que la muestraaleatoria provenga de una distribución simétrica (�3 = 0), b� y b�2 no estáncorrelacionados, es decir Cov

�b�; b�2� = 0.

Tabla 13.6 Varianza muestral

NOTE que �r, r = 2; 3; 4 indican los momentos de la distribución delmodelo de probabilidad subyacente. En el caso de los momentos muestralescentrales de orden superior, los resultados en la tabla 13.5 son sólo resultadosaproximados en el sentido de que en el caso en que r sea par:

Cov (b�; b�r) = 1

n

��r+1 � r�2�r � 1

�+ o

�n�1�,

y por lo tanto para una distribución simétrica �r+1; �r�1 serán cero, yaque son momentos impares y por lo tanto no correlacionados para el ordenn�1:

Cov (b�; b�r) = 0 + o �n�1� .Los resultados de los momentos centrales muestrales indican que ya que:

(a) limn!1

E (b�r) = �r, (b) limn!1

V ar (b�r) = 0, para r = 2; 3; :::) b�r P! �r,

es decir, b�r es un estimador consistente de �r, para r = 2; 3; :::En el caso de los momentos muestrales conjuntos crudos podemos demostrar

(véase la tabla 13.7) que los resultados son muy similares para los momentosmuestrales crudos ordinarios (véase Stuart y Ord (994)).

Page 475: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 475

Tabla 13.7 Momentos muestrales conjuntosEl estadístico más utilizado basado en el segundo momento muestral

conjunto es el coe�ciente de correlación:

b� =Xn

i=1(Xi � b�x) �Yi � b�y�rhXn

i=1(Xi � b�x)2i hXn

i=1

�Yi � b�y�2i .

Como podemos ver, la varianza del coe�ciente de correlación muestral esuna función muy complicada de varios momentos conjuntos de la distribuciónsubyacente al modelo de probabilidad postulado. En el caso de un modeloNormal de dos variables, con varianzas unitarias (véase el capítulo 6) estaexpresión se reduce a:

V ar (b�) = 1

n

�1� �2

�2+ o

�n�1�.

Tabla 13.8 Coe�ciente de correlación muestral

Resulta que los resultados anteriores para los momentos muestrales sesimpli�can notablemente en el caso del modelo Normal simple; en el cuadro13.9 se resumen estas simpli�caciones (véase Stuart y Ord (1994)).

Page 476: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

476 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

Tabla 13.9. Varianzas de estadísticos frecuentes

Los resultados en relación a los primeros momentos de los momentosmuestrales muestran más claramente la di�cultad de deducir y operacionalizartales resultados. Obtener resultados aún aproximados para los momentosmuestrales superiores al cuarto resulta ser muy enmarañado y complicado.Fisher (1929), sin embargo, nos demostró que esto no es la mejor manerade proceder. En su lugar, demostró que los llamados estadísticos k rela-cionados con los cumulantes son mucho más fáciles de manejar porque suscumulantes muestrales se pueden obtener utilizando métodos combinatorios(ver McCullagh (1987)).Hasta ahora hemos encontrado que en el caso de una muestra aleatoria,

los estimadores sugeridos por el principio de los momentos coincidentes, sonen general consistentes y a veces insesgados; el principal ejemplo de éxito deeste procedimiento es el caso de los momentos crudos.¿Qué pasa con la e�ciencia y normalidad asintótica?Los estimadores sugeridos por el principio de los momentos coincidentes

suelen ser ine�cientes porque los estimadores ignoran información importanterelacionada con el modelo de probabilidad: la naturaleza de la distribuciónsubyacente. Ellos son, sin embargo, asintóticamente normales. Este resul-tado se sigue del hecho de que una forma estandarizada de los momentosmuestrales crudos es normal con media cero y varianza

��02r � (�0r)

2� es de-cir:

pn�b�0r � �0r

�~aN�0;h�02r � (�0r)

2i�,

donde, ~ase lee "asintóticamente distribuido como". Del mismo modo:

Page 477: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.2. PRINCIPIO DE MOMENTOS COINCIDENTES 477

pn [b�r � �r] ~

aN (0; V1 (�r)) , donde V1 (�r) =

��2r � 2r�r�1�r+1 � �2r + r2�2�

2r�1�.

9.2.2 Funciones de los momentos de la muestra

Como argumentamos anteriormente, la estimación de un parámetro � uti-lizando el principio de momentos coincidentes implica relacionarlo con cier-tos momentos de la distribución y sustituirlo en esta última con los corre-spondientes momentos muestrales. Por lo tanto, a menudo los resultadosanteriores no se puede utilizar directamente a menos que � coincida con uncierto momento de la distribución. En este sentido, es de interés consid-erar la distribución muestral de la función, digamos g(:), de los momentosmuestrales.La forma más fácil de hacer frente a este problema es obtener resultados

aproximados sobre la base de expansiones en series de Taylor de la funcióndel momento muestral (ver Ser�ing (1980)):

g�b�0r� = g (�0r) + @g (�0r)

@�0r

�b�0r � �0r�+1

2

@2g (�0r)

@ (�0r)2

�b�0r � �0r�2+ � � �

Tomando en cuenta que E�b�0r � �0r

�= 0, esta expansión se puede uti-

lizar para deducir resultados aproximados de los primeros momentos de estafunción (véase Sargan (1974)):

E�g�b�0r�� ' g (�0r) +

1

2

@2g (�0r)@2�0r

E�b�0r � �0r

�2,

V ar�g�b�0r�� '

�@2g (�0r)

@ (�0r)2

�2E�b�0r � �0r

�2,

dónde ' indica aproximación asintótica. Utilizando estos resultadospodemos deducir que en el caso de una función diferenciable g(:) de losmomentos muestrales cuya derivada en �0r (el verdadero valor) no es cero, esdecir, @g(�

0r)

@�0r6= 0:

pn�g�b�0r�� g (�0r)� ~

aN

0;

�@g (�0r)@�0r

�2 h�02r � (�0r)

2i!.

Page 478: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

478 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

Las derivaciones son un poco más complicadas cuando la función g(:) in-volucra más de un momento muestral. Considere el caso donde g

�b�01; b�02; :::; b�0m�,m < n:

g�b�01; b�02; :::; b�0m� = g (�01; �02; :::; �0m) +Xm

k=1

@g (�0)@�0k

�b�0k � �0k�O�n�1�,

donde � =�b�01; b�02; :::; b�0m�. De esto podemos deducir que:

E�g�b�01; b�02; :::; b�0m�� ' g (�01; �

02; :::; �

0m)

V ar�g�b�01; b�02; :::; b�0m�� ' E

�Xm

k=1

@g (�0)@�0k

�b�0k � �0k��2

=Xm

k=1

�@g (�0)@�0k

�2V ar

�b�0k�+Xm

k=1

Xm

l=1k 6=l

�@g (�0)@�0k

��@g (�0)@�0l

�Cov

�b�0kb�0l� b�0m.Recordamos al lector una vez más que estos resultados se basan en el

supuesto restrictivo de muestra aleatoria.

9.3 El método de mínimos cuadrados

9.3.1 El principio de mínimos cuadrados

El principio de mínimos cuadrados fue originalmente propuesto como unprocedimiento de aproximación matemática por Legendre en 1805; ver Harter(1974-76). El principio proporciona una forma para aproximar :una función desconocida y =g(x), mediante una función casi conocida

h (x) =Xk

i=0ai�i (x), donde �0 (x) ; �1 (x) ; �2 (x) ; :::; �k (x) son funciones

conocidas de x apropiadamente elegidas:

(por ejemplo, �0 (x) = 1; �1 (x) = x; �2 (x) = x2; :::; �k (x) = xk),

de una manera que asegura que g(x) y h (x) coinciden tanto como seaposible en un cierto dominio D; a menudo un conjunto de T puntos discretos(T > k). El concepto de aproximación óptima, en el sentido de mínimoscuadrados se de�ne en términos de minimizar la suma de errores al cuadrado,donde el error se de�ne por:

Page 479: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.3. EL MÉTODO DE MÍNIMOS CUADRADOS 479

�t = yt �Xk

i=0ai�i (xt) ,

en el dominio D = f(yt; xt) , t = 1; 2; :::; Tg. Es decir, los parámetrosa0; a1; a2; :::; ak se eligen para minimizar la función objetivo:

l (a0; a1; a2; :::; ak) =XT

t=1

�yt �

Xk

i=0ai�i (xt)

�2.

NOTA:(i) Para el método de mínimos cuadrados la linealidad que importa es la

linealidad en los parámetros a0; a1; a2; :::; ak, no la linealidad en x como en elcaso del modelo de regresión lineal/Normal (ver Spanos (1986, disponible)),(ii) no hay supuestos probabilísticos que estén involucrados en el problema

anterior.EjemploEn el caso simple donde k = 1 y �0 (x) = 1; �1 (x) = x, la función objetivo

toma la forma:

l (a0; a1) =XT

t=1(yt � a0 � a1xt)

2 .

Considerando que la función es in�nitamente diferenciable podemos en-contrar el mínimo usando cálculo. Las condiciones de primer orden daránlugar a las llamadas ecuaciones normales:

@l

@a0= (�2)

XT

t=1(yt � a0 � a1xt) = 0,

@l

@a1= (�2)

XT

t=1(yt � a0 � a1xt)xt = 0,

cuya solución da como resultado:

ba0 = y � ba1x, ba1 =XT

t=1(yt � y) (xt � x)XT

t=1(xt � x)2

, paraXT

t=1(xt � x)2 6= 0.

donde y = 1T

Xn

t=1yt y x = 1

T

Xn

t=1xt. Esto se puede ver geométrica-

mente como el ajuste de una línea a un grá�co de dispersión de f(yt; xt) , t = 1; 2; :::; Tg,como se muestra en la �gura 13.1.

Page 480: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

480 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

Figura 13.1. Línea ajustada de mínimos cuadrados

NOTA. En Spanos (1999) pg. 648 se escriben las solucionescomo: b�0 y b�1; creo que deberían escribirse: ba0 y ba1.La principal justi�cación de Legendre para el método de mínimos cuadra-

dos fue que en el caso donde la función de aproximación es una constante, esdecir, h (x) = a0, el valor de a0 que minimiza la función:

l (a0) =XT

t=1(yt � a0)

2 ,

coincide con la media aritmética:

ba0 = 1

T

XT

t=1yt.

Esto se deduce de la condición de primer orden:

dl

da0= (�2)

XT

t=1(yt � a0) = 0.

En ese momento, la media aritmética se consideró la mejor manera deresumir la información contenida en los T puntos de datos y1; y2; :::; yT .NOTA. En Spanos (1999) pg. 649 se escribe la solución como:b�0; creo que debería escribirse como ba0.La primera interpretación probabilística de mínimos cuadrados fue prop-

uesta por Gauss en 1809. Sostuvo que para una sucesión de T variablesaleatorias independientes y1; y2; :::; yt, cuyas funciones de densidad f (yt) sat-isfacen ciertas condiciones de regularidad, si la media aritmética y es la com-binación más probable de todos los valores de las variables aleatorias y cada

Page 481: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.3. EL MÉTODO DE MÍNIMOS CUADRADOS 481

T � 1, entonces para algún �2 > 0 (véase Heyde y Seneta (1977)) su funciónde densidad es Normal:

f (yt) =�2��2

�� 12 exp

�� 1

2�2y2t

�.

Utilizando este argumento, Gauss iba refundar el argumento de aproxi-mación por mínimos cuadrados en la forma probabilística siguiente:

yt =Xk

i=0ai�i (xt) + �t, �t~NIID

�0; �2

�, t = 1; 2; :::; T .

y �0 (x) ; �1 (x) ; :::; �k (x) son funciones conocidas de x; NIID signi�caNormal, Independientes e Idénticamente Distribuidas.Un argumento más convincente para el uso de la distribución Normal de

los errores fue proporcionada por Laplace en 1812 en la forma de la ley delos errores; conocida como el Teorema Central del Límite (véase el capítulo9). La idea era que en los casos en que los errores representan la sumade varios factores que in�uyen, que individualmente no dominan la suma, ladistribución de la suma se aproxima a la normal, cuando el número de factoresque in�uyen aumenta a in�nito. Laplace también señaló que la mínimizaciónde: XT

t=1(yt � h (xt))

2 ,

es equivalente de la maximización del logaritmo de la distribución con-junta de los errores:

In f (�1; �2; :::; �T ) = �T

2In�2��2

�� 1

2�2

XT

t=1(yt � h (xt))

2 .

Esta idea puede ser vista como un precursor del método conocido hoycomo el método de máxima verosimilitud (ver más adelante).En términos de propiedades de muestra �nita de los estimadores de

mínimos cuadrados, el resultado el resultado más célebre es el teorema deGauss-Markov discutido enseguida.

9.3.2 Teorema de Gauss-Markov.

Sea la relación estadística entre yt y las xit:

Page 482: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

482 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

yt =Xk

i=0ai�i (xt) + �t, t = 1; 2; :::; T ,

donde �0 (x) ; �1 (x) ; :::; �k (x) son funciones conocidas de x. Bajo lossupuestos:(i) E (�t) = 0, t = 1; 2; :::; T ,

(ii) Cov (�t; �s) =��2, t 6= s0, t = s

t; s = 1; 2; :::; T;

�,

�0 (x) ; �1 (x) ; :::; �k (x) son funciones linealmente independientes (en elsentido matemático) de x,podemos deducir que los estimadores de mínimos cuadrados:

bai =XT

t=1 t (i) yt, i = 0; 1; 2; :::; k, (13.1)

(donde t (i) son funciones de �0 (x) ; �1 (x) ; :::; �k (x)) son:

a)mejores (relativamente e�ciente): V ar (bai) � V ar�`ai

�, para cualquier

otro estimador lineal`aique sea también insesgado,

(b) funciones lineales de (y1; y2; :::; yt),(c) estimadores insesgados de ai: E (bai) = ai, i = 0; 1; 2; :::; k.Es decir, los estimadores de mínimos cuadrados (13.1) son los mejores,

dentro de la clase de los estimadores lineales (en términos de yt) e insesgados(MELI).NOTAS:(a) No hay ninguna hipótesis de distribución involucrada en las especi-

�caciones anteriores y por lo tanto no podemos considerar la cuestión de lae�ciencia completa.(b) El teorema de Gauss-Markov depende fundamentalmente de la lineali-

dad del MG estadístico en términos de los parámetros desconocidos (a0; a1; a2; :::; ak).Por otra parte, la linealidad de la regresión lineal/Normal, discutida en elcapítulo 7, es con respecto a las variables condicionantes.(c) El teorema de Gauss-Markov es útil en los casos en los que sólo quer-

emos tener en cuenta los estimadores que son lineales en yt. Si permitimosque los estimadores no sean lineales en yt podemos hacer mucho más queestimadores de mínimos cuadrados (ver Judge et al. (1988)).Propiedades asintóticasSe puede mostrar que ba1 es consistente y asintóticamente normal bajo

ciertas restricciones sobre el comportamiento deXT

t=1x2t cuando T ! 1.

Page 483: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.3. EL MÉTODO DE MÍNIMOS CUADRADOS 483

En particular:

(i)XT

t=1x2t !1 cuando T !1 implica ba1 P! a1.

(ii) limT!1

�XT

t=1x2t

�= qx implica

pT (ba1 � a1) ~

aN (0; �2 [1=qx]).

Antes de proceder a una interpretación más estadística del método delos mínimos cuadrados, es importante destacar que a pesar de la introduc-ción de terminologías probabilísticas, tales como distribuciones y medias, elmétodo, como se describió anteriormente, es esencialmente uno de aprox-imación matemática. Además, su interpretación probabilística no es tanrobusta ante cambios en el supuesto de distribución de Normalidad como amenudo se supone (véase Pearson (1920)).

9.3.3 El método estadístico de mínimos cuadrados

El propósito de esta sección es el de reinterpretar el método de mínimoscuadrados como método de estimación general en el contexto de la especi�-cación del modelo estadístico dado en el capítulo 7. En particular, relacionarel método de mínimos cuadrados con la especi�cación del Mecanismo Gen-erador Estadístico (MG).Como se ha dicho en el capítulo 7, el MG estadístico para los modelos

estadísticos en este libro se basan en el siguiente esquema de descomposición:

yt = E (ytjDt) + ut, t 2 T (13.2)

donde yt es una variable aleatoria tal que V ar (yt) <1. El objetivo prin-cipal para el modelador es elegir Dt a �n de asegurar que no hay informaciónsistemática en los datos que se deje en el componente no sistemático (error)ut. La idea es elegir Dt con el �n de minimizar el componente no sistemáticout, que se de�ne como la parte no modelada de yt:

ut = yt � E (ytjDt) , t 2 T,

o de forma equivalente elegir Dt con el �n de maximizar el componentesistemático:

ut = E (ytjDt) , t 2 T.

Page 484: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

484 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

Por construcción el error no es sistemático en relación con el conjunto deinformación Dt, es decir,�

(i) E (utjDt) = 0(ii) E (�t�utjDt) = 0

�; T 2 T: (13.3)

(véase el capítulo 7). Sobre la base de los supuestos probabilísticos, elcomponente sistemático tendrá una forma paramétrica, por ejemplo:

E (ytjDt) = g (xt; �) , t 2 T. (13.4)

El método demínimos cuadrados se asegura de que las propiedades (13.3)se cumplan por los componentes estimados sistemático y no sistemático. Estose consigue eligiendo el valor del parámetro desconocida �, por ejemplo b�MC ,que minimiza la suma de los cuadrados de los errores fut, t = 1; 2; ::; Tg.Es decir, mínimos cuadrados sugiere minimizar la función absoluta (lossfunction):

l (�) =XT

t=1(yt � g (xt; �))2 ,

con respecto a �. Para el valor b�MC la función absoluta tiene su mínimoen el punto:

l�b�� =XT

t=1

�yt � g

�xt;b�MC

��2,

y los componentes estimados sistemático y no sistemático son:

b�t = g�xt;b�MC

�y but = yt � g

�xt;b�MC

�.

La optimalidad de los estimadores de mínimos cuadrados se deriva del he-cho de que las condiciones (13.3) son válidas para los componentes estimadosen el sentido de que:

1

T

XT

t=1but = 0 y

1

T

XT

t=1

�g�xt;b�MC

���but = 0.

Ejemplo 1. Bernoulli (continuación)El MG estadístico del modelo Bernoulli toma la forma:

Xi = E (XijDi) + ui, i 2 N = f1; 2; 3; :::g ,

Page 485: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.3. EL MÉTODO DE MÍNIMOS CUADRADOS 485

dondeDi = fS; �g (el conjunto no informativo) y, por lo tanto, E (XijDi) =E (Xi) = 0. El método de mínimos cuadrados para la estimación de � sobrela base de la muestra (X1; X2; ::; Xn) equivale a minimizar:

l (�) =Xn

k=1(Xk � �)2 .

Del cálculo elemental sabemos que la forma más fácil de localizar el mín-imo de una función diferenciable es resolver la condición de primer orden:

dl

d�= (�2)

Xn

k=1(Xk � �) = 0 para �, que da como resultado: b�MC =

Xn

k=1Xk.

Sabemos que l�b�MC

�=Xn

k=1

�Xk � b�MC

�2es un mínimo de l (�)

puesto que:�d2ld�2

�j�=b�MC

= 2n > 0. b�MC y buk = �Xk � b�MC

�cumple

con las propiedades:

1

T

Xn

k=1buk = 0 y

1

T

XT

t=1

b�MC �but = 0,puesto que:

Xn

k=1

�Xk � b�MC

�=

Xn

k=1Xk � nb�MC =

Xn

k=1Xk �

Xn

k=1Xk = 0Xn

k=1

hb�MC

�Xk � b�MC

�i= b�MC

Xn

k=1

�Xk � b�MC

�= 0.

NÓTESE que el estimador de mínimos cuadrados de � coincide con el es-timador propuesto por el principio de los momentos coincidentes y compartelas mismas propiedades óptimas: insesgado, plenamente e�ciente consistentey asintóticamente normal.Ejemplo 2. Normal (continuación)El MG estadístico del modelo Normal tiene la misma forma:

Xt = �+ ut, t 2 N,y por lo tanto el método de mínimos cuadrados para estimar � sobre la

base de la muestra (X1; X2; ::; Xn) equivale a minimizar:

l (�) =Xn

k=1(Xk � �)2 .

Page 486: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

486 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

Resolviendo la condición de primer orden dld�= (�2)

Xn

k=1(Xk � �) = 0

para � da como resultado:

b�MC =XT

t=1Xt:

Como en el caso Bernoulli b�MCybut = (Xk � b�MC) satisfacen los equiv-alentes muestrales de las condiciones (13.3). Una vez más, el estimador demínimos cuadrados de � coincide con el estimador sugerido por el principiode los momento coincidentes y goza de las mismas propiedades óptimas comoinsesgamiento, e�ciencia completa, consistencia y Normalidad asintótica (vercapítulo 12). El método de mínimos cuadrados no sugiere un estimador de �2,pero la intuición sugiere que podemos usar el mínimo de la función objetivol (�) para de�nir el siguiente estimador de �2:

b�2 = 1

T

XT

t=1(Xt � b�MC)

2 .

Este es también el estimador propuesto por el principio de los momen-tos coincidentes. Como se muestra en el capítulo anterior, la distribuciónmuestral de b�2 toma la forma:�

Tb�2�2

�=XT

t=1

�Xt � b��

�2~�2 (n� 1) .

y por lo tanto b�2 es un estimador sesgado de �2 puesto que E �b�2� =(T�1)T

�2 6= �2. Debido a este sesgo, el estimador de alternativo:

s2 =1

T � 1XT

t=1(Xt � b�MC)

2 ~�2 (n� 1) ,

se utiliza a menudo en la práctica (ver la discusión en el capítulo 12).

9.3.4 Propiedades de estimadores de mínimos cuadra-dos

En la anterior interpretación estadística de mínimos cuadrados, está claro quelas propiedades de muestra �nita de los estimadores de mínimos cuadradosdependen fundamentalmente de los supuestos probabilísticos sobre la variablealeatoria yt y el conjunto de información condicionante Dt. En vista de ello,los únicos resultados generales de optimalidad para los estimadores mínimos

Page 487: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.4. EL MÉTODO DE MOMENTOS 487

cuadrados son asintóticos. Bajo ciertas condiciones de regularidad y en vistadel hecho de que los componentes estimados sistemático y no sistemático:

b�t = g�xt;b�MC

�y but = yt � g

�xt;b�MC

�,

respectivamente, satisfacen las condiciones de ortogonalidad:

1

T

XT

t=1but = 0 y

1

T

XT

t=1

hg�xt;b�MC

��buti = 0,

podemos demostrar que el estimador de mínimos cuadrados b�MC de �, es ala vez consistente y asintóticamente Normal. Las condiciones de regularidadse re�eren a la función g(xt; �), garantizando la existencia y unicidad delestimador de mínimos cuadrados b�MC como una solución a la minimizaciónde la función absoluta:

l (�) =Xn

k=1(yk � g (xt; �))2 .

En particular, en el caso de una muestra independiente:

b�MCP! �,

y:

pT�b�MC � �

�~aN (0; V1 (�)) ,

pero b�MC no es necesariamente asitóticamente e�ciente.

9.4 El método de momentos

El método de momentos fue propuesto originalmente en 1895 por Karl Pear-son en el contexto de lo que hoy llamamos (so�sticado) estadística descriptiva.El método original fue propuesto como un método de especi�cación y de es-timación, pero más tarde (en la década de 1920) fue adaptado simplementecomo un método de estimación en el contexto de la inferencia estadística mod-erna. Para entender las limitaciones del método en este último contexto, esaconsejable considerar el método en el contexto originalmente concebido. Elenfoque actual a la inferencia estadística sustituye la estadística descriptivasólo de forma gradual y en cierta medida, este cambio pasó desapercibido.

Page 488: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

488 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

El cambio de paradigmas de la estadística descriptiva a la inferencia estadís-tica propiamente estaba en marcha en la década de 1910 pero no se terminóhasta mediados de 1930. La confusión entre los momentos de la distribu-ción y muestrales en la literatura estadística del primer trimestre del siglo20 da testimonio del hecho de que el cambio de paradigmas no era ni obvioni claro para muchos participantes. Karl Pearson murió en 1936 sin darsecuenta de que su método era inferior al método de máxima verosimilitud,principalmente porque fue desarrollado para un enfoque muy diferente a laestadística; un enfoque para el cual el método de máxima verosimilitud fueinútil.

9.4.1 Método de momentos de Pearson

La estadística descriptiva, como una aproximación al modelado de datos,procede a partir de los datos y utilizando técnicas como el histograma buscaun resumen parsimonioso de los datos en términos de una curva de frecuen-cia: un modelo descriptivo.Cuando Pearson propuso su método de momentosla idea era que el modelador utilizara los momentos crudos de los datos paraelegir la curva de frecuencia más apropiada de una familia especí�ca, la fa-milia Pearson. Esto es muy diferente del enfoque clásico de la estadísticadonde un modelo estadístico (un mecanismo aleatorio) se postula a prioriy los datos observados se interpretan como una realización del mecanismoaleatorio postulado.El enfoque de Pearson a la estadística se puede resumir como se muestra

en la �gura 13.2.

Figura 13. 2. El método de momentos de Person

La familia Pearson de curvas de frecuencia se puede expresar entérminos de la siguiente ecuación diferencial en cuatro parámetros descono-cidos:

df (x)

dx= f (x)

�(x� a)

b0 + b1x+ b2x2

�.

Page 489: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.4. EL MÉTODO DE MOMENTOS 489

Dependiendo de los valores tomados por los parámetros (a; b0; b1; b2), estaecuación puede generar numerosas curvas de frecuencia, como la Normal, lat de Student, la Beta, la Gamma, la Laplace y la Pareto; en el contexto de laprobabilidad moderna ellas se conocen como funciones de densidad. Pearsoninvento esta familia de curvas de frecuencia al observar que la función dedensidad normal �(x) satisface la siguiente ecuación diferencial:

d� (x)

dx= � (x)

�(x� a)

b0

�, donde � = a y �2 = �b0.

Usando las correspondientes ecuaciones en diferencia asociadas con lasdistribuciones Binomial e hipergeométrica, pasó a extender esto a la ecuacióndiferencial (13.5).En el contexto de la teoría de la probabilidad, hemos visto que podemos

relacionar los parámetros desconocidos, por ejemplo (�1; �2; �3; �4), con losmomentos de una función de densidad dada f (x; �1; �2; �3; �4) (véase el capí-tulo 3) a través de:

�0r (�1; �2; �3; �4) =

Zx2RX

xrf (x; �1; �2; �3; �4) dx, para r = 1; 2; :::

Al interpretar las curvas de frecuencia como funciones de densidad, sepuede adaptar la relación anterior en conjunción con la ecuación diferencial(13.5) para relacionar la familia Pearson con los momentos crudos mediantela integración de ambos lados:

Zx2RX

xr�b0 + b1x+ b2x

2�df =

Zx2RX

xrf (x� a) f (x) dx, para r = 1; 2; :::

Reuniendo los términos de la misma potencia en x, obtenemos la siguienterelación recursiva entre los momentos y los parámetros (véase Stuart y Ord(1991)):

kb0�0k�1 + f(k + 1) b1 � ag�0k + f(k + 2) b2 + 1g�0k+1 = 0, k = 1; 2; :::

De esto podemos ver que primeros cuatro momentos �01, �02, �

03 y �

04 son

su�cientes para seleccionar la f (x) particular de la familia Pearson a travésde las cuatro primeras ecuaciones:

Page 490: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

490 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

(b1 � a) + 2 (b2 + 1)�01 = 0

b0 + (2b1 � a)�01 + 3 (b2 + 1)�02 = 0

2b0�01 + (3b1 � a)�02 + 4 (b2 + 1)�

03 = 0

3b0�02 + (4b1 � a)�03 + 5 (b2 + 1)�

04 = 0.

Pearson propuso sustituir los cuatro primeros cuatro momentos crudosde los datos b�01, b�02, b�03 y b�04, en el sistema anterior y resolverlo para losparámetros (a; b0; b1; b2). La solución a estas ecuaciones se ocuparía de losdos problemas simultáneamente:(a) especi�cación: la elección de un modelo descriptivo (una curva de

frecuencia), sobre la base de los valores particulares de b�01, b�02, b�03 y b�04 y(b) estimación: la atribución de valores numéricos a los parámetros de-

sconocidos (a; b0; b1; b2). Por ejemplo, en el caso de que los valores numéricosobtenidos de los parámetros fueran: b0 < 0, b1 ' 0 y b2 ' 0, los datossugieren que el modelo descriptivo más apropiado, entre los de la familiaPearson, es la curva de frecuencia Normal.Es instructivo ver el anterior procedimiento en el contexto de la inferencia

estadística clásica, donde el modelo estadístico se elige a priori y los datos sonvistos como una realización del mecanismo aleatorio descrito por el modelopostulado. La primera diferencia importante entre los dos enfoques es que nohay ningún argumento inductivo integrado en el enfoque de Pearson, que esesencialmente uno de estadística descriptiva. En segundo lugar, el enfoque dePearson parece ignorar el concepto de modelo muestral. En efecto, el enfoqueinvolucra el supuesto implícito de que los datos constituyen una realización deuna muestra aleatoria. En otras palabras, sólo considera modelos estadísticossimples. La tercera limitación importante del enfoque de Pearson es que lafamilia de modelos descriptivos se limita a los de la familia Pearson.Además de ser importante desde el punto de vista histórico, el método

de Pearson de seleccionar una función de densidad utilizando los momentosestimados es también de cierto interés en el contexto de la inferencia estadís-tica, en los casos en que la distribución de muestra �nita de un estadístico esdesconocida y se sospecha que la distribución asintóticamente Normal inducea error. En tales casos, podría ser de interés considerar ajustes de la familiade Pearson con el �n de tener una idea sobre la naturaleza de la falta denormalidad.

Page 491: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.4. EL MÉTODO DE MOMENTOS 491

9.4.2 El método paramétrico de momentos

El método paramétrico de momentos (MPM) es una adaptación del métodoanterior para su aplicación adecuada a la inferencia estadística. En esteúltimo caso el modelo de probabilidad adecuado es elegido a priori y, porlo tanto, el único papel que queda para el método de momentos es el deestimar sus parámetros usando los momentos muestrales. Como se ha dichoen el capítulo 3, la mejor manera de tratar los parámetros desconocidos esrelacionarlos con los momentos de la función de densidad de que se trate através de:

�0r (�1; �2; :::; �k) =

Zx2RX

xrf (x; �1; �2; :::; �k) dx, r = 1; 2; :::

La idea detrás de la MPM es que coincidan los momentos poblacionalescrudos requeridos con sus momentos muestrales correspondientes:

b�0r = 1

T

XT

t=1Xrt , t = 1; 2; 3.

y resolver el resultante sistema de ecuaciones para los parámetros de-sconocidos (�1; �2; :::; �k).Ejemplo 2. (continuación)En el caso del modelo Normal, tenemos dos parámetros desconocidos

� := (�; �2) y por lo tanto necesitamos al menos dos momentos crudos. Elprimer paso es obtener la relación entre estos parámetros y los momentos dela población:

�0r��; �2

�=

Zx2RX

xrf�x;�; �2

�dx, r = 1; 2.

Considerando el hecho de que la función generatriz de momentos (fgm)es: mx (t) = e�t+

12�2t2 (ver capítulo 3), podemos deducir que:

�01 =dmx (t)

dtjt=0 = e�t+

12�2t2

��+

1

2�2t

�jt=0 = �

�02 =d2mx (t)

dt2jt=0 =

"e�t+

12�2t2

��+

1

2�2t

�2+�e�t+

12�2t2��2

#t=0

= �2 + �2.

El segundo paso es igualar los momentos poblacionales y los muestrales yresolver para los parámetros desconocidos, es decir,

Page 492: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

492 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

b�01 = 1

T

XT

t=1Xt = �, b�02 = 1

T

XT

t=1X2t = �2 + �2.

Resolviéndolas para � y �2 x,

b� = 1

T

XT

t=1Xt = �, b�2 = 1

T

XT

t=1(Xt � b�)2 .

De nuestra discusión anterior, sabemos que estos estimadores coincidencon los estimadores sugeridos por el principio de momento coincidentes y elmétodo de mínimos cuadrados y disfrutan de varias propiedades óptimas.En particular, b� es un estimador insesgado, completamente e�ciente y con-sistente de �. b�2 no es insesgado pero se puede transformar en un estimadorinsesgado usando s2 = T

T�1b�2. s2 no es sólo insesgado, es también un esti-mador relativamente e�ciente, consistente y asintóticamente Normal de �2.Ejemplo 4. Considere el modelo Gamma simple:[i] MG estadístico: Xt = �� + ut, t 2 N,[ii] Modelo de probabilidad:

� = f (x;�) =

(1

�� (�)

�x

���1exp

���x

��;� := (�; �) 2 R2+; x > 0

),

,[iii] Modelo muestral: X := (X1; X2; :::; Xn) es una muestra aleatoria.Tomando en cuenta el hecho de que la fgm es: mx (t) = (1� �t)��,

podemos deducir que (ver capítulo 3):

�1 =dmx (t)

dtjt=0 =

h�� (��) (1� �t)���1

it=0= ��.

�2 =d2mx (t)

dt2jt=0 =

h��2 (� + 1) (1� �t)���2

it=0= � (� + 1)�2,

o forma equivalente E (X) = ��, V ar (X) = � (� + 1)�2. Por lo tanto,los estimadores MPM se obtienen resolviendo el sistema de ecuaciones: b�01 =��, b�02 = � (� + 1)�2, resultando:

b� = X2

b�2!, b� = b�2

X,

Page 493: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.4. EL MÉTODO DE MOMENTOS 493

donde X = 1T

XT

t=1Xt y b�2 = 1

T

XT

t=1

�Xt �X

�2.

Ejemplo 5. Considere el modelo log-Normal simple:[i] MG estadístico: Xt = � + ut, t 2 N,[ii] Modelo de probabilidad:

� = f (x;�) =

(1

x�p2�exp

(��In x� �

2�2

�2);� := (�; �2) , x > 0

),

[iii] Modelo muestral: X := (X1; X2; :::; Xn) es una muestra aleatoria.En este ejemplo va a poner de mani�esto la no invarianza del estimador

MPM a las transformaciones. Teniendo en cuenta las siguientes relaciones:

�01 = e�+12�2, �02 =

�e�+

12�2�e�

2

,

el camino más directo para obtener los estimadores MPM de � := (�; �2)es resolver las siguientes ecuaciones para los parámetros desconocidos:

1

n

Xn

k=1Xk = e�+

12�2 ,

1

n

Xn

k=1X2k =

�e�+

12�2�e�

2

.

Esto produce los siguientes estimadores:

b� = In8>><>>:pTh1T

XT

t=1Xt

i2rXT

t=1X2t

9>>=>>; , b�2 = In8><>:

1T

XT

t=1X2th

1T

XT

t=1Xt

i29>=>; .

Otra forma de obtener los estimadores de MPM de � := (�; �2) en estecaso es utilizar la información de que: E (In X) = �, V ar (In X) = �2, paradeducir los estimadores MPM alternativos:

b� = 1

T

XT

t=1Xt, b�2 = 1

T

XT

t=1(In Xt � b�)2 ,

que son de hecho muy diferentes de los anteriores.Por último, es importante señalar que los estimadores MPM no coinciden

con los estimadores sugeridos por el principio de los momentos coincidentes.El contra ejemplo evidente es proporcionado por el modelo de regresión lineal,discutido anteriormente, donde el método de momentos no se puede aplicardirectamente porque estamos tratando con momentos condicionales.

Page 494: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

494 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

9.4.3 Propiedades de los estimadores MPM

En general, las únicas propiedades óptimas que los estimadores MPM disfru-tan son asintóticas. Como se ha indicado anteriormente, en el caso de unamuestra aleatoria (X1; X2; :::; Xn), los momentos muestrales crudos:

b�0r = 1

T

XT

t=1Xrt , r = 1; 2; :::,

son estimadores consistentes de los momentos poblacionales crudos (suponiendoque existan), es decir,

b�0r P! �0r.

En el caso de que �0r (�1; �2; :::; �k) sea una función bien comportada de

las �s podemos deducir que para los estimadores MPM b� := �b�1;b�2; :::;b�k�,donde b�i := b�i �b�01; b�02; :::; b�0k�, i = 1; 2; :::; k:

b�MPMP! � y

pT�b�MPM � �

�~aN (0; V1 (�)) ,

pero estos estimadores no son necesariamente asintóticamente e�cientes.La cuestión de las propiedades óptimas de los estimadores MPM frente

a las de los estimadores de máxima verosimilitud, discutida a continuación,se remonta a la década de 1930. Fisher (1937) argumentó que el método demomentos dio lugar a estimadores ine�cientes, salvo en los casos en que ladistribución en cuestión estaba cerca de la normal. Karl Pearson montó unarespuesta enérgica, pero perdió el argumento porque no se dio cuenta de queFisher había cambiado las reglas del juego de las de estadística descriptiva(utilizar los datos para elegir un modelo descriptivo) a las de la inferenciaestadística (postular un modelo estadístico a priori y utilizar los datos paraestimar los parámetros de este modelo). Como se argumenta a continuaciónel método de máxima verosimilitud está hecho a la medida para la inferen-cia estadística, pero es completamente inútil en el contexto del enfoque dePearson. El hecho de que el método MPM a menudo da lugar a estimadoresmenos e�cientes no debe resultar una sorpresa debido a que un vistazo a ladiscusión anterior revela que el método no utiliza toda la información con-tenida en el modelo postulado. A partir del modelo de probabilidad utilizasólo la parte de la información referente a algunos de los momentos de ladensidad postulada y es bien sabido que, la mayoría de las veces, conocer un

Page 495: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 495

número �nito de momentos no es equivalente a conocer la distribución propia(véase el capítulo 3).

9.5 El método de máxima verosimilitud

9.5.1 La función de verosimilitud

Como se mencionó en la introducción, el método de máxima verosimilitud(MV) fue desarrollado especí�camente para el enfoque moderno de la infer-encia estadística propuesto por Fisher (1912,1922 b, 1925a). Este enfoquepostula un modelo estadístico S := (�; X) que tiene por objeto describir(probabilísticamente) el mecanismo estocástico que dio origen a los datosobservados x := (x1; x2; :::; xn). Como se muestra en la �gura 13.3, la in-formación a priori en la forma del modelo estadístico es encapsulada por ladistribución de la muestra X := (X1; X2; :::; Xn):

D (X1; X2; :::; Xn;�) ,

la distribución conjunta de las variables aleatorias que conforman la mues-tra.NOTACIÓN: para subrayar la diferencia entre la muestra y la realización

de la muestra, se usa la notación D (X1; X2; :::; Xn;�) y no la notaciónf (x1; x2; :::; xn;�) utilizada en los capítulos anteriores.

Figura 13.3. La aproximación clásica a la inferencia estadística

El método de verosimilitud, visualizando los datos observados x comouna realización de la muestra, de�ne a la función de verosimilitud como

Page 496: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

496 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

proporcional a la distribución de la muestra, pero interpretada como unafunción de �:

L (�;x1; x2; :::; xn) / D (X1; X2; :::; Xn;�) .

En este sentido, la función de verosimilitud evalúa la posibilidad, asociadacon los diferentes valores de �, de que han sido los verdaderos parámetrosdel mecanismo estocástico los que dieron lugar a la realización muestral par-ticular x. NOTE que la proporcionalidad es importante para propósitosmatemáticos porque L (�;x1; x2; :::; xn) se interpreta como una función de �,pero D (X1; X2; :::; Xn;�) es una función de X y por lo general tienen di-mensiones muy diferentes. Una forma equivalente de de�nir la función deverosimilitud es:

L (�;x1; x2; :::; xn) := k (x) �D (X1; X2; :::; Xn;�) ,

donde k (x) sólo depende de la realización de la muestra x y no de �.Formalmente, la función de verosimilitud viene de�nida por:

L (:;x) := �! [0;1),y por lo tanto la verosimiltud no se podría interpretar como la asignación

de probabilidades a �.El hecho de que el método de máxima verosimilitud esté hecho a la me-

dida para el enfoque moderno a la inferencia estadística se puede ver en eldiagrama. 13.3, donde la distribución de la muestra se de�ne a �n de in-corporar toda la información relevante contenida en el modelo estadísticopostulado. Esto está en contraste con el método paramétrico de momentosdonde sólo la información referida a � los momentos de f (x; �) es utilizada.En un intento por proporcionar una cierta comprensión intuitiva del con-

cepto de función de verosimilitud, consideremos el siguiente ejemplo.Ejemplo 1. (continuación)En el caso del modelo Bernoulli, la distribución muestral toma la forma:

D (X1; X2; :::; Xn;�) =

nYk=1

f (xk; �) =

nYk=1

�xk (1� �)1�xk = �

Xn

k=1xk(1� �)

Xn

k=1(1�xk)

.

La primera igualdad se deduce del supuesto de muestreo de una muestraaleatoria (variables aleatorias IID) y la segunda del supuesto de probabilidad

Page 497: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 497

de que las Xks se distribuyen Bernoulli. La función de verosimilitud vienede�nida por:

L (�;x) / �

Xn

k=1xk(1� �)

Xn

k=1(1�xk)

.

En la �gura 13.4 la función de verosimilitud L (�;x) se muestra en elcaso en que k (x) = 1000 (elegido para evitar números muy pequeños) y larealización muestral es:

x := (0; 0; 0; 1; 0; 0; 1; 0; 0; 1) .

Como podemos ver, L (�;x) es una función continua de �, en contrastecon D (x;�) que es una función discreta de x o de forma equivalente yn =Xn

k=1xk.

Figura 13.4. Una función de verosimilitud

9.5.2 Estimadores de máxima verosimilitud

Con el �n de poder obtener resultados con cierta generalidad limitamos ladiscusión a los modelos estadísticos regulares que cumplen las restriccionesRf1-TRf4 que aseguran la existencia de la información de Fisher (ver capí-tulo 12). La medida en que estas condiciones de regularidad restringen losmodelos de probabilidad se ha discutido en el capítulo anterior; ver Gourier-oux y Monfort (1995) para más detalles.Por simplicidad de exposición y conveniencia de notación, vamos a con-

siderar el caso en que � es un escalar. La estimación de máxima verosimilitud

Page 498: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

498 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

signi�ca encontrar el valor particular b� = h (x) que maximiza la función deverosimilitud, es decir,

L�b�;x� = max

�2�L�b�;x� .

b� = h (X) se conoce como el estimador de máxima verosimilitud(EMV) de � y b� = h (x) como la estimación de máxima verosimilitud. Hayvarias cosas a destacar en esta de�nición:(a) el EMV puede no existir,(b) el EMV puede no ser único,(c) el EMV pueden no tener una expresión de forma cerrada b� = h (x).A pesar de los casos patológicos para los que la existencia y unicidad

del EMV no está garantizada (Gourieroux y Monfort (1995)), en la inmensamayoría de los casos en la práctica b� existe y es único.A �n de reducir los casos patológicos para los que b� puede no existir a

menudo restringimos nuestra discusión a los casos en los que:Rf5. L (:;x) := �! [0;1), es continua en todos los puntos � 2 �.Además, en un intento por reducir los casos patológicos para los que b�

puede no ser única, restringimos nuestro análisis a los casos en que b� esidenti�cable:Rf5. Para todo �1 6= �2 donde �1 2 �, �2 2 �, f (x;�1) 6= f (x;�1),

x 2 RnXM .En el caso donde la función de verosimilitud es diferenciable, se puede

encontrar el máximo diferenciando L (�;x). El EMV se obtiene mediante laresolución de las condiciones de primer orden:

dL (�;x)

d�= g

�b�MV

�= 0, dado que

d2L (�;x)

d�2j�=b�MV

< 0.

A menudo, es preferible máximizar la función de log-verosimilitud en sulugar, porque tienen el mismo máximo (el logaritmo es una transformaciónmonótona):

dInL (�;x)d�

= l�b�MV

�=

�1

l

�dL (�;x)

d�=

�1

l

�g�b�MV

�= 0, dado L 6= 0.

Ejemplo 1. (continuación)En el caso del modelo Bernoulli la función de verosimilitud es:

Page 499: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 499

InL (�;x) = const +�Xn

k=1xk

�In � +

�Xn

k=1(1� xk)

�In (1� �) ,

donde const representa la constante de proportionalidad. Diferenciandola función de log-verosimilitud con respecto a � resulta:

d

d�InL (�;x) =

1

�Xn

k=1xk

���

1

1� �

��Xn

k=1(1� xk)

�= 0,

o bien

�Xn

k=1xk

��1� b�� = b� �n�Xn

k=1xk

�) b�MV =

1

n

Xn

i=1Xi.

NOTA. En Spanos p. 663, la suma después de la primera igual-dad está escrita

Xn

i=1xk; creo que debería escribirse

Xn

k=1xk.

Como podemos ver, el estimador de máxima verosimilitud (EMV) coin-cide con el estimador propuesto por los tres métodos anteriores, el principiode los momentos coincidentes, mínimos cuadrados y el método paramétricode momentos (MPM). Podemos asegurar que en efecto esto es un máximo,considerando la segunda derivada evaluada en � = b�MV . Puesto que b�MV > 0

y n >�Xn

i=1xi

�podemos deducir que b�MV de�ne un máximo ya que la

condición de segundo orden evaluada en b�MV es negativa:

d2

d�2InL (�;x) =

"� 1�2

�Xn

k=1xk

���

1

1� �

�2 �Xn

k=1(1� xk)

�#�=b�EMV

< 0.

La función puntuación (score function)La cantidad d

d�InL (�;x) se encontró en el capítulo 12 en relación a la

e�ciencia completa, pero en ese momento utilizamos el log de la distribuciónde la muestra Inf (x;�) en lugar de InL (�;x) para de�nir la informaciónde Fisher:

In (�) := E

(�@ In f (x;�)

@�

�2)(13.6)

Page 500: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

500 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

En términos de la función logaritmo de verosimilitud la desigualdad deCramer-Rao toma la forma:

V ar�b�� � "E(�@ In f (x;�)

@�

�2)#�1, (13.7)

para cualquier estimador insesgado b� de �.La función s (�;X) := d

d�InL (�;X), cuando se ve como una función de X,

se llama función puntuación y goza de las siguientes propiedades:(sc1) E [s (�;X)] = 0,(sc2) V ar [s (�;X)] = E [s (�;X)]2 = E

�� d2

d�2InL (�;X)

�:= In (�).

Como se muestra en el capítulo anterior, un estimador insesgado b� de �alcanza la cota mínima de Cramer-Rao si y sólo si

�b� � ��puede expresarse

en la forma: �b� � ��= h (�) �s (�;X)

para alguna función h (�).Ejemplo 1. (continuación)En el caso del modelo Bernoulli la función puntuación toma la forma:

s (�;X) :=d

d�InL (�;X) =

1

�Xn

k=1Xk

���

1

1� �

��Xn

k=1(1�Xk)

�.

Tomando en cuenta el hecho de que:�b�MV � ��=

�� (1� �)

n

�s (�;X) ,

podemos deducir que b�MV =1n

Xn

i=1Xi es de hecho completamente e�-

ciente. Esto se con�rma usando la información de Fisher:

d2InL (�;x)d�2

= ��Xn

i=1Xi

�� 1�2

���Xn

i=1(1�Xi)

�� 1

1� �

�2.

E

��d

2InL (�;x)d�2

�=

n

� (1� �)) CR (�) =

� (1� �)

n.

Page 501: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 501

Caso de un solo parámetroEjemplo 6. Considere el modelo exponencial simple:[i] MG estadístico: Xt = � + uk, k 2 N,[ii] Modelo de probabilidad: � =

�f (x;�) =

�1�exp

���x�

�; � > 0; x > 0

,

[iii] Modelo muestral: X := (X1; X2; :::; Xn) es una muestra aleatoria.La distribución de la muestra toma la forma:

D (X1; X2; :::; Xn;�) =nYk=1

f (xk; �) =nYk=1

1

�exp

���1

�xk

�=

�1

�nexp

���1

�Xn

k=1xk

�,

y por lo tanto la función de log-verosimilitud es:

InL (�;x) = const � nIn � � 1�

Xn

k=1xk,

d

d�InL (�;X) = �n

�+1

�2

Xn

k=1xk = 0) b�MV =

1

n

Xn

k=1Xk.

Considerando el hecho de que E (Xt) = �, este estimador coincide con losestimadores sugeridos por el principio de los momentos coincidente, el métodoparamétrico de momentos, así como el método de mínimos cuadrados. Lacondición de segundo orden:

d2

d�2InL (�;x) =

�n

�2� 2

�3

��=b�MV

< 0,

asegura que L�b�;x� es un máximo y no mínimo o un punto de in�exión.

Usando la segunda derivada de la función log-verosimilitud podemos obtenerla información de Fisher:

In (�) := E

�� d2

d�2InL (�;x)

�=

n

�2

9.5.3 Caso multiparámetros

En el caso donde � contiene más de un parámetro, por ejemplo � := (�1; �2),las condiciones de primer orden para los EMV adoptan la forma de un sistemade ecuaciones:

Page 502: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

502 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

@InL (�;x)@�1

= 0,@InL (�;x)

@�2= 0,

que necesita ser resuelto simultáneamente a �n de obtener los EMV.Ejemplo 2. (continuación)En el caso delmodelo Normal, el supuesto de muestra aleatoria implica

que la función de verosimilitud tiene la forma:

L��; �2;x

�/

nYk=1

�1

�p2�exp

�� 1

2�2(xk � �)2

��=

��1

�p2�

�nexp

�� 1

2�2

Xn

k=1(xk � �)2

��.

La función de log-verosimilitud es:

In L��; �2;x

�= const� n

2In�2 � 1

2�2

Xn

k=1(xk � �)2 .

Por lo tanto, podemos obtener los EMV de � y �2 mediante las condicionesde primer orden:

@InL (�;x)@�

= � 1

2�2(�2)

Xn

k=1(xk � �) = 0,

@InL (�;x)@�2

= � n

2�2+

1

2�4

Xn

k=1(xk � �) = 0.

Al resolver este sistema para � y �2 resulta:

b�MV =1

n

Xn

k=1Xk y b�2MV =

1

n

Xn

k=1(Xk � b�MV )

2 .

Una vez más, los EMV coinciden con los estimadores sugeridos por losotros tres métodos. InL

�b�;x�para b� := �b�; b�2� es de hecho un máximo yaque las segundas derivadas en � = b� toman los siguientes signos:�@2InL (�;x)

@�2

�j�=b�EMV

= �� n�2

�j�=b�EMV

= � nb�2 < 0,�@2InL (�;x)@�2@�

�j�=b�EMV

= � 1

�4

Xn

k=1(xk � �) j�=b�EMV

= 0,�@2InL (�;x)

@�4

�j�=b�EMV

=n

2�4� 1

�6

Xn

k=1(xk � �)2 j�=b�EMV

= �n2b�6 < 0,

Page 503: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 503

y entonces

�@2InL (�;x)

@�2

��@2InL (�;x)

@�4

���@2InL (�;x)@�2@�

�j�=b�EMV

> 0.

Por el modelo Normal simple las segundas derivadas de la función log-verosimilitud y sus valores esperados son:

�@2InL (�;x)

@�2

�= � n

�2= � nb�2 , E

��@

2InL (�;x)@�2

�=

n

�2,�

@2InL (�;x)@�2@�

�= � 1

�4

Xn

k=1(xk � �) , E

��@

2InL (�;x)@�2@�

�= 0,�

@2InL (�;x)@�4

�=

n

2�4� 1

�6

Xn

k=1(xk � �)2 , E

��@

2InL (�;x)@�4

�=

n

2�4.

Estos resultados sugieren que matriz de información de Fisher toma laforma:

In (�) :=

�n�2

00 n

2�4

�.

Por lo tanto, las cotas inferiores de Cramer-Rao para cualesquiera esti-madores insesgados de � y �2 son (ver capítulo 12):(a) CR(�) = �2

n(b) CR(�2) = 2�4

n.

Teniendo en cuenta el hecho de que (véase el capítulo 12):

(i) b�MV ~N��; �

2

n

�, (ii) nb�2MV

�2~�2 (n� 1).b�MV es un estimador insesgado, e�ciente y consistente de �, pero b�2MV

no es insesgado, es, sin embargo, consistente y asintóticamente Normal yasintóticamente e�ciente (véase el capítulo 12 para los detalles).En este punto es importante hacer una digresión por unos segundos con

el �n de introducir un concepto a veces utilizado en lugar de la matriz deinformación de Fisher. El concepto se llama la matriz de informaciónobservada y se de�ne por:

Jn (�) = ��@2InL (�;x)@�@�0

�.

En el caso del modelo Normal simple esta matriz toma la forma:

Page 504: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

504 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

Jn (�) =

n�2

1�4

Xn

k=1(xk � �)

1�4

Xn

k=1(xk � �) � n

2�4+ 1

�6

Xn

k=1(xk � �)2

!.

Como podemos ver que esto es mucho más fácil de evaluar porque no hayesperanzas que deban tomarse.Antes de que el lector llege a la conclusión errónea de que los tres métodos

de estimación proporcionan estimadores idénticos, consideremos el siguienteejemplo, donde EMV y los estimadores MPM son diferentes.Ejemplo 4. (continuación)En el caso del modelo Gamma, la distribución de la muestra toma la

forma:

D (X1; X2; :::; Xn;�; �) =nYk=1

f (xk;�; �) =nYk=1

����x��1k

� [�]

�exp

���xk�

��.

La función log-verosimilitud con � := (�; �) toma la forma:

InL (�;x) = const�nIn� [�]�n�In�+(�� 1) 1

2�2

Xn

k=1In xk�

Xn

k=1

�xk�

�,

donde � [�] es la función Gamma (ver Apéndice A).

@InL (�;x)@�

= �n��+1

�2

Xn

k=1xk = 0,

@InL (�;x)@�

= �n 0 [�]� n In � +Xn

k=1In xk = 0,

donde 0 [z] := ddzIn � [z] se conoce como la función di-gamma (véase

Abramowitz y Stegum (1970)). Al resolver la primera ecuación se obtiene:b�MV = Xnb� , donde Xn =1n

Xn

k=1Xk. Sustituyendo esto en la segunda

ecuación resulta:

l (�) = �n 0 [�]� n InXnb� +

Xn

k=1In Xk = 0, (13.9)

Page 505: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 505

que no pueden ser resueltas explícitamente para b�; pueden resolversenuméricamente. Antes de considerar la cuestión de la evaluación numéricavale la pena señalar que estos EMV son diferentes de los estimadores MPMde � y �:

b�MPM =X2

nb�2 , b�MPM =b�2Xn

,

obtenido en la sección anterior.Evaluación numéricaAl igual que en el caso del modelo Gamma simple discutido anteriormente,

cuando se resuelven las condiciones de primer orden para EMV el modeladora menudo tiene que utilizar métodos numéricos ya que ninguna expresión enforma cerrada b� = h (X) se puede obtener. El problema es entonces resolvernuméricamente la ecuación función puntuación:

l (�) = 0,

que es una función no lineal de �. Hay varios algoritmos numéricos que sepueden utilizar para resolver este problema, que son apropiados para difer-entes circunstancias. Uno de los algoritmos más simples y más utilizado esel de Newton-Raphson, que podemos describir brevemente de la siguientemanera.Paso 1. Elija una solución inicial (tentativa): �0.Paso 2. El algoritmo de Newton-Raphson mejora esta solución eligiendo:

�1 = �0 � [l0 (�0)]�1 l (�0) , donde l0 (�0) =dl (�0)

d�.

Esto se basa en tomar una aproximación de primer orden de Taylor:

l (�1) ' l (�0) + (�0 � �1) l0 (�0)

igualándola a cero l (�1) = 0 y resolviéndola para �1. Esto proporcionauna aproximación cuadrática de la función l (�).Paso 3. Continuar iterando usando el algoritmo:

b�k+1 = b�k � hl0 �b�k�i�1 l �b�k� , k = 1; 2; :::; N + 1,

hasta que la diferencia entre b�k+1 y b�k sea menor que un pequeño valorpreasignado �, por ejemplo � = 0:00001, es decir,

Page 506: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

506 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

���b�N+1 � b�N ��� < �.

NOTE queh�l0�b�k�i es la información observada (matriz) encontrada

anteriormente.Paso 4. El EMV se elige sea el valor b�N+1 para el que: �l0 �b�N+1� ' 0.Como se puede ver, este algoritmo requiere la elección de una conjetura

inicial para el estimador que a menudo se elige sea el estimador de MPM.Un algoritmo numérico relacionado, conocido como el método de pun-

tuación, sustituye l0�b�k� con la información de Fisher In (�), siendo la justi-

�cación el resultado de convergencia:

1

nl0�b�k� c:s:! In (�) ,

dando el esquema de iteración:

b�k+1 = b�k � 1

n

hIn�b�k�i�1 l �b�k� , k = 1; 2; :::; N + 1.

IMPORTANTE: resulta que todo lo que modelador tiene que hacer paralograr estimadores asintóticamente e�cientes es usar cualquiera de los esque-mas de iteración anteriores para una iteración! Una iteración es su�cientepara la e�ciencia asintótica. Para una discusión extensa de estos algoritmosnuméricos utilizados en la econometría, veáse Gourieroux y Monfort (1995),Hendry (1995) y Davidson y McKinnon (1993).Ejemplo 7Consideremos el modelo Logístico simple (un parámetro):[i] MG estadístico: Xk = E (Xk) + �k, k 2 N,[ii] Modelo de probabilidad: � =

nf (x; �) = exp(�(x��))

[1+exp(�(x��))]2 ; � 2 R > 0; x 2 Ro,

[iii] Modelo muestral: X := (X1; X2; :::; Xn) es una muestra aleatoria.La función de log-verosimilitud y las condiciones de primer orden son:

InL (�;x) = �Xn

k=1(xk � �)� 2

Xn

k=1In [1 + exp (� (xk � �))] ,

dInL (�;x)d�

= n� 2Xn

k=1

exp (� (xk � �))

[1 + exp (� (xk � �))]= 0.

Page 507: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 507

El EMV de � se puede obtener utilizando el algoritmo de Newton-Raphsoncon:

l0 (�) = 2Xn

k=1

exp ((xk � �))

[1 + exp ((xk � �))]2,

y Xn como un valor inicial para �. Para efectos de comparación OB-SERVEMOS que:

pn�Xn � �

�~aN

�0;�2

3

�, donde

�2

3= 3:2899 y

pn�b�EMV � �

�~aN (0; 3) .

Ejemplo 4. (continuación).En el caso del modelo Gamma, los EMV de � := (�; �) puede ser

obtenidos a través del algoritmo de Newton-Raphson con:

l0 (�) = n

00 (�) 1

�1�

2Xn����3

!,

donde 00 (z) = d2

dz2In � [z] se conoce como la función tri-gamma (véase

Abramowitz y Stegum (1970)). El método de puntuación simpli�ca esto a:

In (�) = n

00 (�) 1

�1�

��2

!.

Ambos algoritmos numéricos requieren algunas estimaciones iniciales para(�; �) para las que el modelador puede utilizar las estimaciones de MPM(13.10). Usando el algoritmo de Newton-Raphson para evaluar (13.9) seobtiene el esquema de iteración:

b�k+1 = b�k + 1n

Xn

k=1In Xk � In

�Xn

�� 0 [b�k] + In [b�k]

00 [b�k]� 1b�k , k = 1; 2; :::.

Verosimilitud y la distancia de Kullback-Leibler*Alguna intuición sobre lo tratan los EMV se puede obtener al considerar

la relación entre la función de log-verosimilitud y la distancia de Kullback-Leibler (véase Kullback (1959)). Considere el modelo estadístico simple cuyomodelo de probabilidad toma la forma:

Page 508: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

508 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

� = ff (x; �) = [p1 (�) ; p2 (�) ; :::; pm (�)] , que corresponde a [x1; x2; :::; xm] , � 2 �g

Asumiendo que nk representa el número de Xis que toman el valor xk, lafunción log-verosimilitud promedio en este caso toma la forma:

1

nInL (�;x) =

Xn

k=1In f (xk; �) =

Xm

k=1

�nkn

�In pk (�) .

La última expresión puede estar relacionada con la información de ladistancia de Kullback-Leibler entre dos densidades:

K (f0; f1) = E

�Inf0 (x)

f1 (x)

�=

Zx2RX

Inf0 (x)

f1 (x)f0 (x) dx,

encontrada por primera vez en el capítulo 6, en relación a la medición de ladependencia. Esta medida en el caso donde las dos distribuciones implicadasson:

bf (x) := �n1n;n2n; :::;

nmn

�y f (x; �) := [p1 (�) ; p2 (�) ; :::; pm (�)] ,

toma la forma:

K� bf; f� =Xm

k=1

�nkn

�In

"(nk)n

pk (�)

#= �

Xm

k=1

�nkn

�In pk (�)+

Xm

k=1

�nkn

�In�nkn

�.

Teniendo en cuenta el hecho de que el último término es una constante,esto sugiere que una manera equivalente a ver la deducción del EMV b�MV

es minimizando la distancia de Kullback-Leibler. Intuitivamente, esto im-plica que el EMV se obtiene minimizando la distancia entre el modelo deprobabilidad postulado y las frecuencias empíricas. Para los conocedores enmatemática esto se puede escribir de manera más formal en términos de ladistancia entre la función de distribución acumulada empírica y la fda pos-tulada usando la integral de Riemann-Stieltjes (véase Stuart y Ord (1994)):

K� bF ; F� = Z

x2@In

"d bF (x)dF (x; �)

#d bF (x) .

Page 509: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 509

Esta observación refuerza el caso que se argumentó en el capítulo 10 quela función de distribución acumulada estimada proporciona el puente entrela teoría de la probabilidad y la inferencia estadística.EjemploPor conveniencia del argumento asumamos que en el caso del modelo

Bernoulli, � toma sólo dos valores, digamos � = f0:2g [ f0:8g; en lugar delhabitual [0; 1]. Recordando que � = P (X = 1): ¿Cuál es el valor probablede � que ha dado lugar a la realización muestal

x := (0; 0; 0; 1; 0; 0; 1; 0; 0; 1)?

Tomando en cuenta el hecho de que el evento X = 1, se ha producidosólo en tres de los diez casos, la intuición sugiere que el verdadero valor de� es más probable que sea � = 0:2 en lugar de � = 0:8. En términos de ladistancia de Kullback-Leibler la frecuencia empírica 3

10está mucho más cerca

de � = 0:2 que de � = 0:8.

9.5.4 Propiedades de los EMV

Propiedades de muestra �nitaLos estimadores de máxima verosimilitud no son insesgados en general

pero en su lugar disfrutan de una propiedad muy útil: que son invariantescon respecto a parametrizaciones funcionales bien comportadas.[1] Invarianza con respecto a parametrizaciónPara � =g(�) una función bien comportada (Borel) de �, el EMV de �

viene dado por:

b�MV = g�b�MV

�.

Ejemplo 6. (continuación)En el caso del modelo Exponencial se especi�cado anteriormente, a

menudo estamos interesados en � = 1�. A partir de esta propiedad del EMV

podemos deducir que el EMV de � es:

b�MV =1b�MV

=nXm

k=1Xk

. (13.11)

Con el �n de con�rmar esto vamos a expresar la función de densidad entérminos de � decir:

Page 510: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

510 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

f (x; �) = � exp f��xg ,

y obtenemos el EMV de � mediante la maximización de la función log-verosimilitud:

InL (�;x) = const+ n In �� �Xn

k=1xk.

Dado que @@�InL (�;x) = n

��Xn

k=1xk = 0, el resultado es (13.11).

Esta propiedad es particularmente útil en el contexto del enfoque defen-dido en este libro, porque los parámetros teóricos de interés rara vez coinci-den con los parámetros estadísticos y esta propiedad nos permite deducir losEMV de los primeros. Tomando en cuenta el hecho de que, en general:

E�b�MV

�6= g

�b�MV

�,

podemos pensar en el sesgo en algunos EMV como el precio que tenemosque pagar por la propiedad invariancia. Por lo tanto, si b�MV es un estimadorinsesgado de �, es decir, E

�b�MV

�= �, no hay ninguna razón para creer queb�MV va a ser un estimador insesgado de �, en general E

�b�MV

�6= �.

[2] Insesgamiento - e�ciencia completaEn un modelo estadístico regular (véase el capítulo 12), si un estimador

insesgado, que también alcanza la cota mínima de Cramer-Rao, existe, porejemplo b�U , entonces coincide con el estimador de máxima verosimilitud b�MV ,es decir, b�U = b�MV .Ejemplo 8Consideremos el modelo Poisson simple:[i] MG estadístico: Xk = E (Xk) + �k, k 2 N,[ii] Modelo de probabilidad: � =

nf (x; �) =

�e���x

x!

�; � > 0; x 2 N0 = f0; 1; 2; :::g

o,

[iii] Modelo muestral: X := (X1; X2; :::; Xn) es una muestra aleatoria.Tomando en cuenta el hecho de que E (Xt) = �, podemos deducir que

el estimador propuesto por los tres últimos métodos de estimación sería:b�U = 1n

Xn

k=1Xk. Usando la linealidad de E (:) (ver capítulo 3) podemos

demostrar que:

E�b�U� = � y V ar

�b�U� = �

n.

Page 511: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 511

De la distribución de la muestra:

D (X1; X2; :::; Xn; �) =

nYk=1

f (xk; �) =nYk=1

�xke���1

xk!

�= �

Xn

k=1xke�n�

�1

xk!

�,

podemos deducir la cota mínima de Cramer-Rao. Teniendo en cuenta:

d2

d�2InL (x;�) =

d

d�

��n+ 1

Xn

k=1Xk

�= �

�1

�2

Xn

k=1Xk

�.

In (�) = E

�� d2

d�2InL (x;�)

�=n

�) CR (�) =

n.

Esto sugiere que b�U es a la vez insesgado y totalmente e�ciente. En vistade la propiedad anterior de EMV, b�U debe coincidir con el EMV de �. Conel �n de veri�car este resultado, vamos a obtener el EMV de �. La condiciónde primer orden:

d

d�InL (x;�) = �n+ 1

Xn

k=1Xk ) b�MV =

1

n

Xn

k=1Xk.

Este, efectivamente, coincide con el estimador insesgado, completamentee�ciente b�U .[3] Su�cienciaComo se ha dicho en el capítulo 12, el concepto de estadístico su�ciente

se analiza mejor utilizando el teorema de Factorización.Un estadístic h (X) se dice que es un estadístico su�ciente para � si y sólo

si existen funciones g(h (X) ; �) y v (X), donde la primera depende de X sóloa través de h (X), mientras que la última es libre de �, de tal manera que ladistribución de la muestra se factoriza en el producto:

f (x;�) = g (h (X) ; �) �v (X) , para todo x 2 X, � 2 �. (13.12)

Esto sugiere que si existe un estadístico su�ciente h (X), entonces el EMVes una función de él porque:

L (x;�) = [k (X) �v (X)]g (h (X) ; �) ,

Page 512: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

512 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

y la maximización de la función de verosimilitud es equivalente a max-imizar g(h (X) ; �), que depende de la muestra sólo a través del estadísticosu�ciente.Propiedades asintóticas (muestra aleatoria)Vamos a considerar las propiedades asintóticas de EMV en el caso de

muestra aleatoria simple cuando

In (�) = nI (�) . (13.13)

Con el �n de poder obtener resultados generales necesitamos imponer al-gunas condiciones de regularidad, además deRf1-Rf6 utilizadas hasta ahora.Rf7. E (In f (x;�)) existe,Rf8. 1

nIn L (�;x) c:s:! E (In f (x;�)) para todo � 2 �.

[4] Consistencia(a)Consistencia débil. Bajo estas condiciones de regularidad, los EMV

son débilmente consistentes, es decir:

P�limn!1

b�MV = ��= 1, denotado por: b�MV

c:s:! �.

Véase el capítulo 9 para una discusión acerca de estos dos distintos tiposde convergencia.

[5] Normalidad asintóticaPara Normalidad asintótica de los EMV tenemos que asegurarnos de que,

además de las condiciones de regularidad Rf1-Rf6, mencionadas anterior-mente, se cumplen las siguientes condiciones (Gourieroux y Monfort (1995)):Rf9. La información de Fisher para una observación: 0 <I(�) < 1,

donde

I (�) := E

�dInf (x;�)

d�

�2!= E

��d2Inf (x;�)

d�2

��,

Rf10. In L (�;x) es dos veces diferenciable en un intervalo abierto alrede-dor de �.Bajo las condiciones de regularidad Rf1-Rf10, los EMV son asintótica-

mente normales, es decir:

pn�b�MV � �

�~aN (0; V1 (�))

donde V1 (�) denota la varianza asintótica de b�MV .

Page 513: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 513

[6] E�ciencia asintóticaBajo las mismas condiciones de regularidad la varianza asintótica de los

estimadores de máxima verosimilitud alcanza la cota mínima asintótica deCramer-Rao, que, en vista de (3.13) toma la forma:

V1

�b�MV

�= I�1 (�) .

Ejemplos(1) El modelo Bernoulli. Los resultados anteriores en relación con este

modelo indican que:

pn�b�MV � �

�~aN (0; � (1� �)) .

(2) El modelo Exponencial. Los resultados anteriores en relación con estemodelo indican que:

pn�b�MV � �

�~aN�0; �2

�.

3) El modelo Normal. A la vista de los resultados en (13.8) se puedededucir que:

pn (b�MV � �) ~

aN�0; �2

�,

pn�b�2MV � �

�~aN�0; 2�4

�.

Propiedades asintóticas (muestra no ID, pero independiente)Las propiedades asintóticas anteriores necesitan modi�carse en cierta me-

dida en el caso de que la muestra sea independiente pero no idénticamentedistribuida. En este caso, la relación entre la información de observaciónindividual de Fisher I(�) y la información de Fisher de la muestra In (�) no serelacionan como en (13.13). En su lugar, las dos están relacionadas a travésde:

In (�) =Xn

k=1Ik (�) , donde Ik (�) = E

�dInf (xk;�)

d�

�2!, (13.14)

debido a la independencia. Para que las anteriores propiedades se cum-plan necesitamos imponer determinadas restricciones sobre In (�). Estas re-stricciones estarán relacionadas con su comportamiento asintótico y, en par-ticular, su orden de magnitud (ver Spanos (1986), cap. 10). En términosbrutos estas condiciones equivalen a:

Page 514: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

514 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

(1). limn!1

In (�) =1,(2). Existe una sucesión fcng1n=1 tal que

limn!1

�1

c2nIn (�)

�= I1 (�) donde 0 < I

�11 (�) <1.

La primera condición asegura consistencia y la segunda asegura Normal-idad asintótica. La Normalidad asintótica en estas condiciones toma laforma:

cn

�b�MV � ��~aN�0; I�11 (�)

�.

Ejemplo 3. (continuación)Considere el modelo de regresión lineal normal simple. Resulta que los

EMV de � := (�0; �1; �2) coinciden con los estimadores principio de momen-

tos coincidentes:

b�0 = y�b�1x, b�1 =Xn

k=1(yk � y) (xk � x)Xn

k=1(xk � x)2

, b�2 = 1

n

Xn

k=1(yk � y)2�

�1n

Xn

k=1(yk � y) (xk � x)

�21n

Xn

k=1(xk � x)2

(13.15)Para ver esto vamos a de�nir la función de verosimilitud:

L��0; �1; �

2;y�/

Yn

k=1

1

�p2�exp

�� 1

2�2(yk � �0 � �1xk)

2

�=

���2�n(2�)�

n2 exp

�� 1

2�2

Xn

k=1(yk � �0 � �1xk)

2

�.

Como suele ser el caso, para localizar los EMV utilizamos la función log-verosimilitud, que en el presente caso es:

InL (�;y) = const� n

2In �2 � 1

2�2

Xn

k=1(yk � �0 � �1xk)

2 .

Por lo tanto, al resolver las condiciones de primer orden:

Page 515: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 515

@In L (�;y)@�0

= � 1

2�2(�2)

Xn

k=1(yk � �0 � �1xk) = 0,

@In L (�;y)@�1

= � 1

2�2(�2)

Xn

k=1(yk � �0 � �1xk)xk = 0,

@In L (�;y)@�2

= � n

2�2+

1

2�4

Xn

k=1(yk � �0 � �1xk)

2 = 0,

tenemos los EMV (13.15). Para ver las di�cultades en relación con elorden de magnitud de la matriz de información de Fisher la deducimos. Lassegundas derivadas y sus valores esperados producen:

@2In L (�;y)@�20

= � n

�2, ) E

��@

2In L (�;y)@�20

�=

n

�2,

@In L (�;y)@�21

= � 1

�2

Xn

k=1x2k, ) E

��@In L (�;y)

@�21

�=1

�2

Xn

k=1x2k,

@2In L (�;y)@�1@�0

= � 1

�2

Xn

k=1xk, ) E

��@

2In L (�;y)@�1@�0

�=1

�2

Xn

k=1xk,

@2In L (�;y)@�2@�0

= � 1

�4

Xn

k=1uk, ) E

��@

2In L (�;y)@�2@�0

�= 0,

@2In L (�;y)@�2@�1

= � 1

�4

Xn

k=1ukxk, ) E

��@

2In L (�;y)@�2@�1

�= 0,

@In L (�;y)@�4

= � n

2�4� 1

�6

Xn

k=1u2k = 0, ) E

��@In L (�;y)

@�4

�=

n

2�4,

donde ut = yt � �0 � �1xt. Por lo tanto, la matriz de información tomala forma:

In��0; �1; �

2�=

0B@n�2

1�2

Xn

k=1xk 0

1�2

Xn

k=1xk

1�2

Xn

k=1x2k 0

0 0 n2�4

1CA (13.16)

Para la consistencia requerimos que esta matriz de información converjaa in�nito como en (1). Esto se logra si:

Page 516: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

516 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

Xn

k=1x2k !

n!11.

Sin embargo, para la normalidad asintótica del estimador b�1 el modeladortambién necesita saber la tasa de convergencia de

�Xn

k=1x2k

�con el �n de

de�nir la sucesión de normalización fcng1n=1. A falta de dicha información élo ella siempre pueden utilizar:

cn =�Xn

k=1x2k

� 12 )

�Xn

k=1x2k

��b�1 � �1

�~aN�0; �2

�.

NOTA. En Spanos, p. 674, dice E��@2In L(�;y)

@�20

�= T

�2; creo debería

decir E��@2In L(�;y)

@�20

�= n

�2.

Propiedades asintóticas (muestra no aleatoria)*En el caso de una muestra no aleatoria Xn := (X1; X2; :::; Xn) la infor-

mación de Fisher no satisface (13.13) ni (13.14). La forma más sencilla deobtener una forma comparable es a través del condicionamiento secuencialutilizado en los capítulos 6-8 para muestras no aleatorias. Tomando en cuentael hecho de que:

D (X1; X2; :::; Xn; ) = D (X1;�1) �nYk=2

Dk (XkjXk�1; :::; X1;�k) , X 2 @.

En los casos en que el índice de dependencia del parámetro pueda serrestringido por la imposición de una cierta restricción de heterogeneidad,cuya forma débil es: lim

n!1�n = �, la función de log-verosimilitud se puede

expresar en la forma:

InLn (�;x) /Xn

k=1In Dk (XkjXk�1; :::; X1;�) , � 2 �,

donde por k = 1 la distribución es marginal inicial D (X1;�). La funciónpuntuación toma la forma:

sn (�;x) =@

@�InLn (�;x) =

Xn

k=1

@

@�In Dk (XkjXk�1; :::; X1;�) :=

Xn

k=1uk (�;x) , � 2 �.

Por lo tanto, viendo sk (�; :) y uk (�; :) como funciones de la historiapasada de Xt+1:

Page 517: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 517

Xk := (X1; X2; :::; Xk) ,

podemos deducir que para s0 (�) = 0:(i) uk (�;Xk) = sk (�;Xk)� sk�1 (�;Xk�1), k = 1; 2; :::; n,

(ii) sn (�;X) =Xn

k=1[sk (�;Xk)� sk�1 (�;Xk�1)],

o de manera equivalente:sk (�;Xk) = sk�1 (�;Xk�1) + uk (�;Xk), k = 1; 2; :::; n.Estos resultados sugieren que los procesos fsk (�;Xk)g1k=1 y fuk (�;Xk)g1k=1

son, respectivamente, un proceso martingala y un proceso de diferencia mar-tingala con respecto a � (Xk�1), ya que:(iii) E (uk (�;Xk) j� (Xk�1)) = 0, k = 1; 2; :::; n,(iv) E (sk (�;Xk) j� (Xk�1)) = sk�1 (�;Xk�1), k = 1; 2; :::; n;véase el capítulo 8. Además, fsk (�;Xk)g1k=1 es una martingala de media

cero debido a que:

E (sk (�;Xk)) = E fE (sk (�;Xk) j� (Xk�1))g = 0; k = 1; 2; :::; n,

con�rmando la propiedad sc1 de la función puntuación antes mencionada.Dado que el EMV b�MV es una raíz de la ecuación de la función puntuación

sn (�;X) = 0 y fsk (�;Xk) , � (Xk�1)g1k=1 es una martingala de media ceroque puede ser escrita como la suma:

sn (�;X) =Xn

k=1uk (�;Xk) ,

podemos usar los teoremas límite del capítulo 9 para probar tanto laconsistencia como la Normalidad asintótica. La forma más sencilla de veresto es de�nir el proceso (segundo orden) de información condicional :

�n (�;X) =Xn

k=1E�u2k�;Xkj� (Xk�1)

�,

que también es una martingala, porque el proceso de diferencia martingalafuk (�;Xk)g1k=1 se comporta como un proceso no correlacionado (véase elcapítulo 8) NOEA que la información de Fisher es sólo la media de esteproceso, es decir:

In (�) = E�s2n (�;X)

�= E�n (�;X) .

Page 518: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

518 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

Bajo ciertas condiciones regularidad similares a las condiciones de la ma-triz de información en el caso no ID, se puede demostrar que:

(a) [In (�)]�1Xn

k=1uk (�;Xk)

c:s:!n!1

0.

(b) [In (�)]� 12

Xn

k=1uk (�;Xk)

D!n!1

N (0; 1) .

Ejemplo 9Consideremos el modelo autorregresivo Normal:[i] MG estadístico: Xk = �Xk�1 + uk, k 2 N,

[ii] Modelo de probabilidad: � =

(f (x1; x2; :::; xn;�) = f (x1;�)

nYt=2

f (xkjxk�1;�) , � 2 (�1; 1)� R+, x 2Rn),

f (x1;�) =p1��2

�0p2�exp

��(1��

2)2

x2k�20

�, f (xkjxk�1;�) = 1

�0p2�exp

n�12

(xk��xk�1)2�20

o,

� : = (�; �20), � =E(Xk�1Xk)

E(X2k�1)

, �20 = E�X2k�1�� [E(Xk�1Xk)]

2

E(X2k�1)

[iii] Modelo muestral: (X1; X2; :::; Xn) es una muestra estacionaria depen-diente Markov extraída secuencialmente de f (xkjxk�1;�), k 2 N.La distribución de la muestra X := (X1; X2; :::; Xn) se determina a través

de:

X1~N

�0;

�201� �2

�,

�Xk

Xk��

�~N

0@� 00

�;

24 ��201��2

� ��201��2

��j� j�

�201��2

��j� j

��201��2

� 351A ,k; � = 1; 2; :::; n.

La función de log-verosimilitud toma la forma:

InL (�;x) =1

2In�1� �2

�� n

2In �20 �

1

2�20

�d00 � 2�d01 + �2d11

,

di;j =Xn�i

k=j+1xkxk+i�j, i; j = 0; 1.

Las condiciones de primer orden son:

Page 519: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 519

(@In L(�;x)

@�20= � n

2�20+ 1

2�40fd00 � 2�d01 + �2d11g = 0

@In L(�;x)@�

= � �(1��2) �

�d11�2d012�20

= 0,

))

b�20 = 1

n

�d00 � 2b�d01 + b�2d11 ,

��n� 1n

�d11

� b�3 + ��n� 2n

�d01

� b�2 � �d11 + �d00n

�� b�+ d01 = 0.

La primera ecuación da el EMV de �2, pero la segunda es una ecuacióncúbica con tres raíces, pero la única relevante es la raíz relacionada con elintervalo (21,1). Aunque hay una solución de forma cerrada a esta ecuaciónes muy complicada y a menudo � se estima utilizando un algoritmo de aprox-imación numérica, como el de Newton-Raphson descrito anteriormente.La derivación se puede simpli�car de manera signi�cativa, dejando la

distribución de la observación fuera y obtener el EMV aproximado basadoen:

InL (�;x) = �n� 12In �20 �

1

2�20

Xn

k=2(xk � �xk�1)

2 .

Por lo tanto, obtenemos los EMV aproximados resolviendo las condicionesde primer orden:

@In L (�;x)@�

=1

�20

Xn

k=1(xk � �xk�1)xk�1 = 0, ) b� =

Xn

k=2xkxk�1Xn

k=2x2k�1

,

@In L (�;x)@�20

= �n� 12�20

+1

2�40

Xn

k=2(xk � �xk�1)

2 = 0, ) b�20 = 1

n� 1Xn

k=2(xk � b�xk�1)2 ,�

@2In L (�;x)@�2

�= � 1

�20

Xn

k=2x2k�1, ) E

��@

2In L (�;x)@�2

j� (Xk�1)

�=1

�20

Xn

k=2x2k�1,�

@In L (�;x)@�20@�

�= � 1

�40

Xn

k=2(xk � �xk�1)xk�1, ) E

��@In L (�;x)

@�20@�j� (Xk�1)

�= 0,�

@In L (�;x)@�40

�=

n� 12�40

� 1

�60

Xn

k=2(xk � �xk�1)

2 = 0, ) E

��@In L (�;x)

@�40j� (Xk�1)

�=n� 12�40

.

La matriz de información condicional toma la forma:

Page 520: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

520 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

�n��; �20;X

�=

1�20

Xn

k=2x2k�1 0

0 n�12�40

!que recuerda a una de la regresión lineal discutida anteriormente. Te-

niendo en cuenta que:

In (�) = E

�E

��@

2In L (�;x)@�2

j� (Xk�1)

��=1

�20E�Xn

k=2x2k�1

�=1

�20

��20

1� �2

�=

1

1� �2.

Por lo tanto, podemos concluir que:

pn (b�� �) ~

aN�0;�1� �2

��,pn�b�20 � �20

�~aN�0; 2�40

�.

Heyde (1975) sugiere el uso de la información condicional para la normal-ización: rXn

k=2x2k�1 (b�� �) ~

aN�0; �20

�.

9.5.5 El método de máxima verosimilitud y sus críticos

Los resultados relativos a los EMV discutidos anteriormente justi�can laamplia aceptación de la máxima verosimilitud (ML) como el método elegidopara los propósitos de estimación. Resulta que hay buenas razones paraque también el método ML se pre�era para propósitos de prueba (véase elcapítulo 14). A pesar de la amplia aceptación del método MV hay tambiéncríticos que señalan varios ejemplos en los que el método no produce resulta-dos satisfactorios. Estos ejemplos incluyen los casos en que (a) el tamaño dela muestra es excesivamente pequeño, (b) las condiciones de regularidad nose cumplen y (c) el modelo postulado está mal especi�cado. En cuanto a loque se re�ere a la primera categoría de ejemplos, investigando para un buenestimador en los casos en que el tamaño de la muestra es excesivamente pe-queño, la crítica está completamente fuera de lugar porque el modelador estábuscando el famoso almuerzo gratis. La crítica del método de MV basada enejemplos que no cumplen las condiciones de regularidad está también fuerade lugar porque si el modelador busca métodos con cualquier caracter generallas condiciones de regularidad son inevitables. Sin condiciones de regulari-dad cada problema de estimación será considerado único; ningún principios

Page 521: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.5. EL MÉTODO DE MÁXIMA VEROSIMILITUD 521

uni�cador es posible. La tercera categoría merece más discusión, ya quepone de mani�esto un problema importante en la modelación empírica. Enesta categoría clasi�camos todos los modelos estadísticos que especi�can losparámetros desconocidos que, o bien crecen con el tamaño de la muestrao bien se relacionan con alguna operación extrañamente impuesta tal comotruncamiento o censura de la muestra (véase Cohen (1991)). De esta últimacategoría vamos a considerar el ejemplo por excelencia.Ejemplo 10Consideremos el modelo de Neyman y Scott (1948):[i] MG estadístico: Xij = E (Xij)+ �ij, i 2 N, j 2 N, donde E (Xij) = �i,

[ii] Modelo de probabilidad: � =

(f (x;�) =

nYi=1

NYj=1

1�p2�ef�

12�2

(xij��i)2g; � 2Rn � R+, xij2R),

[iii] Modelo muestral: X := (X1; X2; :::; Xn) es una muestra independi-ente.Los "EMV" se obtienen de la resolución de las condiciones de primer

orden:

8<:@In L(�;x)

@�i= 1

�2

XN

j=1(Xij � �i) = 0

@In L(�;x)@�2

= �nM2�2+ 1

2�4

Xn

i=1

XN

j=1(Xij � �i)

2 = 0

9=;)

b�i = 1

N

XN

j=1Xij, �2 =

1

nN

Xn

i=1

XN

j=1(Xij � b�i)2 = 1

n

Xn

i=1s2i ,

donde s2i :=1n

XN

j=1(Xij � b�i)2. El argumento comúnmente utilizado

contra el método de MV se basa en el resultado de que:

E�s2i�=(N � 1)N

�2 ) b�2 c:s:! (N � 1)N

�2,

y por lo tanto b�2es un estimador inconsistente de �2.Un momento de re�exión, sin embargo, revela que el argumento de incon-

sistencia sobre la base de n!1, está mal pensado, porque al mismo tiempo,el número de parámetros desconocidos (�1; �2; :::; �m) aumenta hasta in�nito!El modelador debe ser escéptico de cualquier método de estimación que pro-porciona un estimador consistente de �2 sin imponer algunas restriccionesadicionales relativas a lo que ocurre con �n cuando n!1. Consideramos el

Page 522: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

522 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

hecho de que el método MV no proporciona estimadores óptimos en los casosen los que el modelo estadístico está mal especi�cado como un argumento asu favor, no en contra!

9.6 Ejercicios

1. Compare los dos primeros momentos crudos de la muestra y los momentoscentrales de la muestra en relación con los parámetros que pretenden estimar.2. Compare mínimos cuadrados comométodo de aproximación matemática

y el método estadístico de mínimos cuadrados.3. Compare y contraste el método de momentos de Pearson con el método

paramétrico de momentos.4. Explique por qué constituye un anacronismo comparar el método de

máxima verosimilitud con el método paramétrico de momentos.5. "La comparación de los estimadores de máxima verosimilitud y del

método paramétrico momentos por razones de e�ciencia no es un ejerciciomuy interesante." Discuta.6. Describa los principales inconvenientes del método de Pearson para

deducir un modelo descriptivo.7. Explique el principio de los momentos coincidentes y comparelo con el

método paramétrico de momentos.8. Para el modelo estadístico Bernoulli obtenga el estimador de mínimos

cuadrados de �, su distribución muestral y sus propiedades.9. Considere el modelo estadísticoNormal simple.(a) Obtenga los EMV de (�; �2) y sus distribuciones muestrales.(b) Obtenga los estimadores de mínimos cuadrados de (�; �2) y sus

distribuciones muestrales.(c) Compare estos estimadores en términos de las propiedades óptimas,

insesgamiento, e�cacia completa y consistencia.10. Considere el modelo estadísticoNormal simple con � = 0, es decir, el

modelo de probabilidad es:

� =

�f (x; �) =

1

�p2�exp

�� 1

2�2x2�; � := �2 > 0, x2R

�.

Deducir el EMV de � y compararlo con el estimador:

Page 523: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

9.6. EJERCICIOS 523

e�2 = 1

n+ 2

Xn

k=1Xk,

en términos de su ECM.11. Considere el modelo estadístico simple de Laplace basado en el modelo

de probabilidad:

� =

�f (x; �) =

1

2�e�

1�jxj, � > 0, x2R

�.

Deducir el EMV de � y compararlo con los estimadores MPM y de míni-mos cuadrados.12. Consideremos el modelo estadístico simple de Pareto basado en el

modelo de probabilidad:

� =�f (x; �) = �x�0x

�(�+1); � > 0, x > x0 > 0, x2R.

13. Exponga las propiedades óptimas de los estimadores de máximaverosimilitud (muestras �nitas y asintóticas).14. Explique la diferencia entre:(a) información de la muestra y de observación individual de Fisher,(b) matrices de información y de información observada de Fisher,.(c) matrices de información y de información condicional de Fisher.15. "El método de máxima verosimilitud minimiza la distancia entre las

probabilidades teóricas y sus contrapartes empíricas según su de�nición porla función de distribución acumulada empírica (fdae)." Discuta.16* Obtenga el esquema iterativo para el método de puntuación en la

evaluación del EMV de las condiciones de primer orden en el caso del modelologístico simple.17* Obtenga el esquema iterativo para el método de puntuación en la

evaluación del EMV de � uno en el caso del modelo Gamma simple.18* Explique por qué los procesos fsk (�;Xk)g1k=1 y fuk (�;Xk)g1k=1, de�nidos

en la sección 5.4, constituyen, respectivamente, un martingala y un procesode diferencia martingala con respecto a � (Xk�1).

Page 524: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

524 CAPÍTULO 9. ESTIMACIÓN II: MÉTODOS DE ESTIMACIÓN

Page 525: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

Capítulo 10

Prueba de hipótesis

10.1 Introducción

10.1.1 Las di�cultades inherentes en el dominio de laspruebas de hipótesis

Las prueba de hipótesis es una de los más importantes, pero también una delas partes más confusas de la inferencia estadística, por varias razones, entreellas las siguientes:(i) la necesidad de introducir numerosos nuevos conceptos antes de que

uno sea capaz de de�nir el problema de manera adecuada,(ii) el hecho de que la discusión actual de libros de texto del problema

constituye un híbrido inepto de dos enfoques fundamentalmente diferentes alas pruebas (lo que Gigerenzer (1987) llama la "teoría híbrida") y(iii) el hecho de que no existe un método único para la construcción de

"buenas" pruebas en la mayoría de circunstancias, comparable con el métodode estimación de máxima verosimilitud.Se hace un intento para mitigar estos problemas mediante la utilización

de una serie de técnicas de enseñanza, la más importante de las cuales esel desarrollo histórico de las pruebas desde �nales del siglo 19. Hay quedecir que esta se utiliza como un recurso de enseñanza y no intenta daruna explicación completa del desarrollo histórico de las pruebas: una tareaimportante que aún no se ha realizado. La dimensión histórica de la prueba seutiliza principalmente para facilitar el problema de la introducción de muchosconceptos demasiado rápido y para poner de mani�esto las diferencias entre

525

Page 526: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

526 CAPÍTULO 10. PRUEBA DE HIPÓTESIS

los enfoques de Fisher y Neyman-Pearson a la prueba.Como preludio a la discusión resumimos una serie de diferencias funda-

mentales entre la explicación tradicional de las pruebas y las interpretacionespropuestas en la discusión que sigue:(a) la prueba híbrida "forjada" por los libros de texto de estadística en

la década de 1960 es de�ciente,(b) la formulación de Neyman-Pearson no ha superado la de Fisher,(c) las dos formulaciones son diferentes pero complementarias,(d) el enfoque de Neyman-Pearson se adapta mejor a las pruebas dentro

de los límites demarcados por el modelo postulado y(e) el enfoque de Fisher se adapta mejor a las pruebas fuera de los mismos

límites.La discusión en este capítulo se entremezcla con ejemplos y algunos de

los conceptos más difíciles se han introducido a través de ejemplos de estetipo.

10.1.2 Una vista panorámica del capítulo

En la sección 2 discuimos el enfoque de Fisher (a menudo llamado pruebasde signi�cancia pura), considerado como una extensión natural de los pro-cedimientos de prueba heredados de Edgeworth y Pearson. En la sección 3se examina el enfoque de Neyman-Pearson, prestando especial atención a surelación con el enfoque de Fisher. La sección 4 discute brevemente los tresprocedimientos de prueba asintótica: la razón de verosimilitud, puntuacióne�ciente y los procedimientos de prueba de Wald. En la sección 5 de losdos enfoques se comparan y contrastan. Se argumenta que el enfoque deFisher es más adecuado para la prueba de hipótesis que van más allá de loslímites demarcados por el modelo estadístico postulado. Por otro lado, elenfoque de Neyman-Pearson es esencialmente pruebas dentro de los límitesdel modelo estadístico postulado. En este sentido, los dos enfoques, aunquefundamentalmente diferentes, son considerados como complementarios.IMPORTANTE: como todas las demás formas de inferencia estadística,

la prueba de hipótesis comienza con la postulación por parte del modeladorde un modelo estadístico que pretende describir el mecanismo estocástico quedio origen a los datos observados en cuestión y por lo tanto los resultados deinferencia dependen fundamentalmente de la su�cienca del modelo estadísticopostulado.

Page 527: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

10.2. PRELIMINARES AL ENFOQUE DE FISHER 527

10.2 Preliminares al enfoque de Fisher

La prueba de hipótesis en el principio del siglo 19 alcanzó a nada más queuna comparación informal entre los valores de los parámetros especi�cadospor la hipótesis considerada y de las estimaciones correspondientes. Es decir,la prueba de una hipótesis de la forma:

� = �0, (14.1)

tomó la forma de comprobar si la discrepancia entre una estimación b� de� y el valor especi�cado �0 era "cercano a cero" o no, es decir,���b� � �0

��� � 0. (14.2)

Qué tan grande debe ser la diferencia para ser considerada "lo su�ciente-mente grande" nunca se formalizó adecuadamente.En esta primera etapa podemos distinguir varias características que serán

conservadas en el desarrollo posterior de las pruebas de hipótesis. Estascaracterísticas incluyen:(i) una noción primitiva de una hipótesis de interés: � = �0 y

(ii) una función distancia:���b� � �0

���.Esta es claramente la prehistoria de la prueba. La historia real de la

prueba comienza con Edgeworth.

10.2.1 Edgeworth

Un ejemplo típico de un procedimiento de prueba a �nales del siglo 19 es pro-porcionado por Edgeworth (1885) al comparar la diferencia entre dos medias.La idea fue comparar dos muestras diferentes (o submuestras) para evaluarsi tienen la misma media o no. Una forma de ver este problema es comenzarcon una muestra X := (X1; X2; :::; Xn) y dividirla en dos submuestras detamaño n1 > 2 y n2 > 2 observaciones, respectivamente (n = n1 + n1):

X := (X1; X2; :::; Xn1; Xn1+1; :::; Xn) .

El sentido común y el conocimiento estadístico de la época sugirió buscaren los dos primeros momentos submuestrales (a posteriori interpretados comoestimadores momento principio de coincidencia):

Page 528: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

528 CAPÍTULO 10. PRUEBA DE HIPÓTESIS

b�1 = 1

n1

n1Xi=1

Xi, b�21 = 1

n1

n1Xi=1

(Xi � b�1)2 , b�2 = 1

n2

nXi=n1+1

Xi, b�22 = 1

n2

n1Xi=n1+1

(Xi � b�2)2 ,Edgeworth argumentó que si la distancia estandarizada entre las dos me-

dias submuestrales es mayor que una constante preespeci�cada:

� (X) :=jb�1 � b�2jqb�21 + b�22 > 2

p2, (14.3)

la diferencia entre las dos medias no se puede justi�car como "accidental"y parecerá ser signi�cativa. ¿De dónde proviene la constante? En aquelentonces la única distribución disponible para este tipo de análisis estadísticofue la Normal y, de manera inevitable, la constante 2 fue relacionada conella. Resulta que la probabilidad de la distribución Normal más allá del valor�2p2 es igual a 0.005; el valor de ocurrencia accidental. Retrospectivamente,

la prueba de Edgeworth podría interpretarse como una prueba de la hipótesis:

�1 = �2 = �.

permitiendo la posibilidad de que las varianzas sean diferentes, es decir,

Xk~N��1; �

21

�, k = 1; 2; :::; n1, Xk~N

��2; �

22

�, k = n1 + 1; :::; n,

en el contexto de un modelo Normal simple:[i] MG estadístico: Xk = E (Xk) + uk, k 2 N,[ii] Modelo de probabilidad: � =

nf (x;�) = 1

�p2�ef�

12�2

(x��)2g; � := (�; �2)2R� R+, x2Ro,

[iii] Modelo muestral: X := (X1; X2; :::; Xn) es una muestra aleatoria.Comparando este resultado con el concepto primitivo de prueba antes de

la época de Edgeworth, podemos ver que añadió dos características:(iii) el concepto de distancia (estandarizada): � (X),(iv) una regla de rechazo: � (X) > 2

p2.

Las cuatro características fueron desarrolladas aún más por Pearson yposteriormente formalizadas por Fisher en el siglo 20.

Page 529: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

10.2. PRELIMINARES AL ENFOQUE DE FISHER 529

10.2.2 Pearson

La primera prueba importante que se extiende tanto a la tradición estadísticade Pearson como a la de Fisher (ver capítulo 13), es la llamada prueba chicuadrada de Pearson. Pearson (1900) propuso esta prueba como una formade medir la "bondad de ajuste" en el caso de elegir un modelo descriptivode un conjunto particular de datos dentro de la familia Pearson (Pearson(a; b0; b1; b2)), como se describe en el capítulo 13.Utilizando los primeros cuatro momentos crudos de la "muestra" X :=

(X1; X2; :::; Xn), el procedimiento de Pearson estima los cuatro parámetros

que de�nen la familia Pearson. A su vez estas estimaciones b� := �ba;bb0;bb1;bb2�selecciona un miembro de la familia Pearson, por ejemplo f0 (x), que describe

mejor los datos con f0�x; b��, su contraparte empírica. La hipótesis de interés

de Pearson era si la elección de f0 (x) es válida, es decir,

f (x) = f0 (x) , donde f (x) 2 Pearson (a; b0; b1; b2) (14.5)

Dado que el procedimiento de Pearson alcanzó a ajustar una curva enel histograma, no es sorprendente descubrir que Pearson obtuvo su pruebaal comparar las frecuencias empíricas (no las frecuencias relativas) ( bfi, i =1; 2; :::;m) con las correspondientes frecuencias teóricas (fi, i = 1; 2; :::;m)(según lo especi�cado por f0 (x)), donde los intervalos (i = 1; 2; :::;m) sonmutamente excluyentes y cubren el rango de los valores de la variable aleato-ria considerada . La función distancia estandarizada tomó la forma de sumade cuadrados estandarizados:

� (X) =mXi=1

� bfi � fi

�2fi

. (14.6)

Se demostró que, suponiendo que la curva de frecuencia teórica f0 (x) esapropiada, � (X) tiene una distribución asintótica chi cuadrada con (m� 1)grados de libertad, es decir,

� (X) ~a�2 (m� 1) (14.7)

NOTAS:

Page 530: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

530 CAPÍTULO 10. PRUEBA DE HIPÓTESIS

(i) El uso de las distribuciones asintóticas se utilizó rutinariamente du-rante los siglos 19 y 20. Lo que cambio con el tiempo esta práctica fue elresultado seminal de Gosset (1908).(ii) Lo importante de este resultado es que la distribución (asintótica) no

depende ni de la naturaleza de la curva de frecuencia elegida por los datosni del número de puntos de datos; es muy sensible, sin embargo, al númerode intervalos m.(iii) El resultado distribucional en (14.7) se obtiene del supuesto implícito

de que la hipótesis de interés es válida; este es un supuesto que fue hehcoexplícitamente por Fisher.La intuición sugiere que cuanto mayor sea el valor de �, peor es el ajuste.

Por lo tanto, para un valor dado de � (X), por ejemplo � (x) (basado en losdatos observados x), el modelador decidiría si la distancia era lo su�ciente-mente grande como para indicar una "mal ajuste" usando la probabilidad dela cola �2 (m� 1):

P (� (X) > � (x)) = p. (14.8)

Un pequeño valor de p corresponde a un valor grande de � y, por lo tanto,cuanto menor sea el valor de p, peor será el ajuste.Las contribuciones Karl Pearson a las pruebas se puede resumir de la

siguiente manera:(a) la ampliación de la especi�cación de la hipótesis de interés,(b) la deducción de una función distancia, cuya distribución es libre de

f0 (x) y,(c) el uso de la probabilidad de una cola para evaluar la validez de la

hipótesis de interés.El uso de probabilidad de una cola está implícito en Edgeworth, pero

Pearson lo formalizó al poner en escena de manera explícita la distribución(asintótica) de la función distancia. Por lo tanto, Pearson, además de mejoraralgunas de las características heredadas, agregó algo más:(v) la distribución (14.7) de una función de distancia y(vi) la probabilidad de una cola (14.8).La lógica del sentido común de la probabilidad de una cola era que si

el valor de � (X) pasara a pertenecer a una área de alta probabilidad de ladistribución chi cuadrado entonces los datos observados parecerían apoyar lahipótesis de interés, pero si cae en una área de muy baja probabilidad (en laremota cola derecha de la distribución) no la apoya.

Page 531: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

10.2. PRELIMINARES AL ENFOQUE DE FISHER 531

A pesar de que la anterior prueba de ajuste fue desarrollada por Pearsonpara pruebas dentro de la familia Pearson, cuando se ve en el contexto dela inferencia estadística, su aplicabilidad es más amplia que su ámbito deaplicación original, como lo ilustra ejemplo siguiente.EjemploConsidere uno de los ejemplos históricos más importantes usando datos

de Mendel basado en su experimento clásico de mejoramiento de la forma yel color de las plantas de chícharos. La teoría de Mendel sobre la herencia enrelación con las variables aleatoriasX-forma, Y -color, de�nida de la siguientemanera:

X(round) = 0, X(rugoso) = 1, Y (amarillo) = 0, Y (verde) = 1,

dio lugar a una distribución bivariada de la forma:

y n x 0 1 fy (y)0 0:5625 0:1875 0:7501 0:1875 0:0625 0:250

fx (x) 0:750 0:250 1:000

Tabla 14.1. Distribución de dos variables f (x; y)

En una muestra aleatoria de tamaño 556, los datos de Mendel dieronlugar a las frecuencias observadas tal como se indican en el cuadro 14.2.

y n x 0 1 bfy (y)0

�315556

�= 0:566

�101556

�= 0:182 0:748

1�108556

�= 0:194

�32556

�= 0:058 0:252bfx (x) 0:760 0:240 1:000

Tabla 14.2. Frecuencias relativas observadas

Aplicando la prueba chi cuadrada de Pearson usando las frecuencias es-peradas:

(0:5625)(556) = 312:75; (0:1875)(556) = 104:25; (0:0625)(556) = 34:75;

Page 532: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

532 CAPÍTULO 10. PRUEBA DE HIPÓTESIS

� (X) =

(315� 312:75)2

312:75

!+

(108� 104:25)2

104:25

!+

(32� 34:75)2

34:75

!= 0:470.

Utilizando la probabilidad de la cola de �2 (3) se obtiene: P (� (X) > 0:470) =0:925.En vista de este valor, los datos proporcionan un excelente apoyo a la

teoría de Mendel. Cabe señalar que muchos estadísticos, incluido Fisher,consideran estos datos sospechosamente "exactos".Para concluir este apartado observamos que cuando uno ve la contribución

de Pearson de forma retrospectiva (desde el punto de vista de la inferencia es-tadística moderna y no en el contexto de la estadística descriptiva de Pearson(ver capítulo 13)), dos cuestiones importantes son evidentes:(i) las hipótesis son en última instancia, proposiciones acerca de la dis-

tribución y no de los parámetros como tales,(ii) las pruebas puede ser dentro o fuera de los límites del modelo estadís-

tico postulado.En el caso de la prueba chi cuadrada dada anteriormente la prueba es

fuera porque la hipótesis va más allá de los límites del modelo postulado;prueba su validez.

10.2.3 Gosset

El trabajo seminal de Gosset 1908 proporciona la piedra angular sobre la queFisher fundó la inferencia estadística moderna. En ese momento se sabía que

en el caso del modelo Normal simple (véase (14.4)), el estimador b� = 1n

nXi=1

Xi

tenía la siguiente distribución "muestral ":

b�n~N ��; �2n�) �

�X;�; �2

�:=

�2

n

� 12

(b�n � �) =

pn (b�n � �)

�~N (0; 1) .

Se sabía también que en el caso de que �2 se sustituya por el estimador

s = 1n�1

nXi=1

(Xi � b�n)2, la distribución de la función:

Page 533: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

10.2. PRELIMINARES AL ENFOQUE DE FISHER 533

� (X;�) =

pn (b�n � �)

s� N (0; 1) , (14.9)

donde � se lee "no se distribuye como." Era bien sabido que era normalsólo asintóticamente:

� (X;�) =

pn (b�n � �)

s�aN (0; 1) . (14.10)

Esto se debe a que � (X;�) =pn(b�n��)

ses una razón de una variable

aleatoria con distribución normal y la raíz cuadrada de la variable aleatorias2, cuya distribución no se conocía. Gosset iba a "adivinar" la distribuciónde s2 deduciendo sus primeros cuatro momentos crudos y sustituyéndolos enlas cuatro ecuaciones de la familia Pearson (ver capítulo 13). Este ejerci-cio le llevó a concluir que s2 muy probablemente tenía una distribución chicuadrada. Después de establecer que b�n y s2 no estaban correlacionadas(y pensar erróneamente que era lo mismo que ser independientes), pasó aobtener la distribución de la relación (14.9) usando un argumento casi heurís-ticoa para los estándares actuales. En la terminología de hoy, usando el lema7 del capítulo 11, � (X;�) es la razón entre dos variables aleatorias inde-pendientes, el numerador U =

pn(b�n��)�

es normalmente distribuido y el

denominador, V = (n�1)s2�2

es distribuido chi cuadrado, por lo tanto:

� (X;�) =

pn (b�n � �)

s� St (n� 1) , (14.11)

donde St(n� 1) designa la distribución t de Student con (n�1) grados delibertad. Lo más destacable de este resultado es que, en contraste con (14.10),fue el primer resultado de muestra �nita; un resultado distribucional que eraválido para cualquier tamaño de la muestra, no sólo para grandes n.El resulado de Gosset (14.11) es importante para las pruebas de hipótesis

porque representa la primera cantidad clave (pivotal quantity), la quin-taesencia de muchos estadísticos de prueba.Una función clave (pivotal function) para � es una función monótona

de � de la forma q (X; �):

q (:; :) : X��! R,

cuya distribución de "muestreo" está libre de los parámetros desconocidos(�). Es decir, adada la distribución de la muestra D (X;�), la distribución

Page 534: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

534 CAPÍTULO 10. PRUEBA DE HIPÓTESIS

de q (X; �) es la misma para todo � 2 �.La función (14.11) es clave, porque su distribución es conocida y está

excenta de los parámetros desconocidos (�; �2) del modelo estadístico sub-yacente porque St(n� 1) no involucra estos parámetros. Otra importantecantidad clave ya ha sido encontrada anteriormente:

v�X; �2

�=(n� 1) s2

�2� �2 (n� 1) .

Una vez más su distribución está libre de parámetros desconocidos.Un estadístico h (X), a diferencia del concepto de función clave, es una

función de la forma:

h (:) : X! R.

Es decir, no involucra ningún parámetro desconocido (ver capítulo 11).

10.2.4 La formulación de Fisher

El resultado (14.11) fue formalmente comprobado y ampliado por Fisher(1915) y utilizado subsecuentemente como base para varias pruebas de hipóte-sis asociadas a una serie de diferentes modelos estadísticos en una serie detrabajos, que culminó con su libro de 1925.Fisher usó el resultado (14.11) para obtener una prueba de lo que él llamó:

Hipótesis nula: H0 : � = �0.

En términos del marco de referencia de la inferencia estadística moderna,Fisher considerá la cuestión de deducir una prueba para la hipótesis nulaanterior en el contexto del modelo Normal simple (véase (14.4)). Su ra-zonamiento se basó en la de�nición de distancia estandarizada de tal maneraque cuanto más lejos el "verdadero" valor de � esté del valor especi�cado porH0, cuanto mayor sea la distancia, lleva a:

(b�n � �0)qs2

n

=

pn (b�n � �0)

s.

Fisher llegó a deducir un estadístico de prueba argumentando que a pesarde que (14.11) sea válida para el "verdadero" valor de �, bajo el supuesto deque H0 es válida, el verdadero valor es �0 y se puede inferir:

Page 535: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

10.2. PRELIMINARES AL ENFOQUE DE FISHER 535

� (X) =

�pn (b�n � �0)

s

�H0� St (n� 1) , (14.12)

donde "H0�" se lee "bajo H0 se distribuye como".Un estadístico de prueba. La esencia del resultado de Fisher (14.12)

es que él transformó la función clave de Gosset � (X; �) en un estadísticode prueba � (X): la función distancia de la muestra (un estadístico) cuyadistribución es conocida y no depende de los parámetros desconocidos �. Estose logró deduciendo la distribución del estadístico � (X;�0), que no involucraningún parámetro desconocido bajo H0 : � = �0; es decir, deduciendo ladistribución muestral de � (X; �), asumiendo que la hipótesis nula es válida .Utilizando este resultado, Fisher procedió a derivar una medida de "cuánto

se desvía una realización muestral particular de H0", sobre la base de laprobabilidad del área de la cola de la distribución (14.12) más allá del valorobservado � (x) del estadístico � (X). Esta medida, conocida como el valorde probabilidad o p-value por brevedad, toma la forma:

P (� (X) � � (x) ; H0 es válida) = p. (14.13)

Por de�nición, el p-value evalúa el peor escenario posible para la hipótesisnula en el sentido de que involucra el valor observado del estadístico y lasrealizaciones más dañinas para la nula. Mide la probabilidad de observar unarealización de la muestra que produciría un valor estadístico igual o peor queel que ya se ha observado. La interpretación de Fisher del p-value puede serconsiderada como una formalización de la opinión heredada:si el p-value es pequeño, esto implica que o bien la realización observada

del estadístico de prueba constituye un suceso muy raro o bien la hipótesisnula postulada no es válida.En los casos en que el p-value es pequeño, la primera opción se considera

prácticamente imposible y el modelador adopta el punto de vista de que lahipótesis postulada no es válida.En vista del hecho de que cuanto mayor es el valor de � (x), menor es

el p-value, el modelador puede interpretar los valores pequeños de p comoevidencia contra H0; cuanto menor sea el valor de p, menos plausible es H0.En cierto sentido, el p-value puede ser interpretado como una medida de quétan adecuadamente la hipótesis nula describe el mecanismo que da lugar alos datos observados. En las primeras etapas de su trabajo, Fisher sugirióp-values de 0.05 y 0.01 para ser utilizado como umbrales intuitivos. Más

Page 536: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

536 CAPÍTULO 10. PRUEBA DE HIPÓTESIS

tarde, sin embargo, insistió en que hay que separar el p-value de la decisiónde aceptar o rechazar H0 (véase Fisher (1935a, 1956)).En resumen, Fisher construye obre el trabajo previo de Edgeworth y Pear-

son pero proporciona más estructura al procedimiento de prueba de hipótesis:(a) introduciendo explícitamente el concepto de hipótesis nula,(b) utilizando el concepto de función clave (pivotal function),(c) introduciendo el concepto de distribución de muestra �nita de la clave

bajo H0 ,(d) formalizando el concepto de p-value,(e) introduciendo la naturaleza inferencial de la prueba de hipótesis.En el contexto del enfoque de Fisher, para de�nir una prueba se requiere

de una "función distancia" que utiliza un "buen" estimador del parámetroen cuestión. Esta es, entonces, transformada en una función clave, tal como(14.11). Esta función clave, bajo H0, no involucra parámetros desconocidosy por lo tanto se convierte en un estadístico de prueba. Para tomar una de-cisión sobre la validez de H0, se utiliza una medida de cuánto una realizaciónparticular se desvía de H0. Para Fisher, la decisión que se deberá tomar essi la evidencia sugiere que la hipótesis nula es creíble o noEjemplos1. En el caso del modelo Normal simple (véase (14.4)), utilizando los

datos de las puntuaciones del cuadro 1.6 (véase el capítulo 1), considerar laprueba de la hipótesis nula:

H0 : � = 70.

Para los datos de puntuaciones (ver tabla 1.6): b�n = 71:686, s2 = 13:606y n = 70. Sustituyendo estos en la función clave (14.12) se obtiene:

� (X) =

p70 (71:686� 70)

13:606

!= 3:824, P (j� (X)j > 3:824; �0 = 70) = 0:00014,

donde el valor 0.00014 se encuentra en las tablas St(69). El p-value rela-tivamente bajo indica que los datos no apoyan la validez de H0.2. Conjetura de Arbuthnot. La hipótesis más ampliamente discutida

durante el siglo 18 fue la famosa hipótesis de Arbuthnot (1710), basada en laobservación de que en la ciudad de Londres, por un período de 82 años con-secutivos, nacieron sistemáticamente más hombres que mujeres en cualquier

Page 537: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

10.2. PRELIMINARES AL ENFOQUE DE FISHER 537

año; la conjetura de Arbuthnot era que las probabilidades de hombres a mu-jeres en los recién nacidos no es "justa".La hipótesis de "juego justo" puedenformularse en el contexto del modelo simple de Bernoulli:

[i] MG estadístico: Xi = E (Xi) + �i; i 2 N,[ii] Modelo de probabilidad : � =

�f (x;�) = �x (1� �)1�x ; � 2 [0; 1] , x = 0; 1

,(14.14)

[iii]Modelo muestral : X := (X1; X2; :::; Xn) es una muestra aleatoria.

La variable aleatoria se de�ne por: {mujeres}= fX = 1g, {hombres}= fX =0g, y la hipótesis nula se especi�ca como sigue:

H0 : � = 0:5.

3. La conjetura de N. Bernoulli. N. Bernoulli llevo la conjetura unpaso más allá y propuso las probabilidades 18:17 para los hombres (véaseHacking (1965)). La conjetura de Bernoulli puede ser formulado en forma dela hipótesis nula:

H0 : � = 0:4857.

Las dos hipótesis toman la forma general: H0 : � = �0, �0 2 (0; 1).

La función distancia que se sugiere en este caso es:���b�n � �0

���, donde b�n =1n

Xn

k=1Xk; se muestra en el capítulo 12 que es el "mejor" estimador de �.

Dado que b�n es una variable aleatoria, ���b�n � �0

��� es un evento cuya probabil-idad de ocurrencia puede ser evaluada utilizando la distribución muestral deb�n. En el capítulo 12, se demostró también que b�n Binomialmente distribuidacon media � y [� (1� �) =n], denotado por:

b�n � Bi��; � (1� �)

n;n

�.

Esto sugiere que: � (X;�) =pn(b�n��0)p�0(1��0)

�Bi((� � �0) ; 1;n). Por lo tanto,

podemos proceder a obtener el estadístico de prueba:

� (X;�) =

pn�b�n � �0

�p�0 (1� �0)

H0� Bi (0; 1;n) . (14.15)

Page 538: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

538 CAPÍTULO 10. PRUEBA DE HIPÓTESIS

Prueba de la conjetura de Bernoulli. Los datos observados se re�erenal número de nacimientos (hombre, mujer) durante el período 1974-6 enChipre: n = 25928, 13375 hombres y 12553 mujeres.

b�n = 12553

25928= 0:48415, � (x) =

p25928(0:48415� 0:4857)p

0:4857(0:5143)= �0:49988.

P (j� (X)j > �0:49988; � = 0:4857) = 0:617.

El alto p-value sugiere que la evidencia es fuerte en favor de H0; la con-jetura de Bernoulli es apoyada por los datos en el caso de Chipre!Aunque Fisher ofreció inicialmente algunas reglas empiricas en relación

con los p-values y la solidez de la evidencia a favor o en contra de la hipótesisnula, posteriormente hizo un gran esfuerzo por explicar que no eran más quetoscas orientaciones. En la siguiente tabla ofrecemos similares orientacionesde "reglas empíricas " para ayudar a los no iniciados, a sabiendas de quepuede ser fácilmente criticada como ad hoc e injusti�cada.

p > 0:10: datos que indican un fuerte apoyo para H0,

0:05 < p < 0:10: datos que indican poco apoyo para H0,

0:02 < p < 0:05: datos que indican falta de apoyo para H0,

p < 0:01: datos que indican una fuerte falta de apoyo para H0.

10.2.5 Resumen

Pruebas en el contexto del enfoque de Fisher comienzan con la especi�caciónde una hipótesis nula, cuya forma más simple es:

H0 : � = �0.

A pesar de las apariencias, una hipótesis nula no es sólo una proposi-ción acerca de un parámetro, ella es, en última instancia, una proposiciónsobre el modelo estadístico subyacente y, como tal, puede tomar varias for-mas diferentes. Para simpli�car, nos limitamos a esta forma simple en estasección.La construcción de una prueba se puede resumir en los siguientes pasos.

Page 539: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

10.2. PRELIMINARES AL ENFOQUE DE FISHER 539

Paso 1. Especi�car una "distancia", que intuitivamente tiene sentidopara considerar H0 como válida cuando esta distancia es "pequeña". Porlo general, esto implica la elección de un buen estimador, por ejemplo b� delparámetro desconocido � y tomar una función de la diferencia entre esteestimador y el valor especi�cado por la hipótesis nula tal como como

���b� � �0

���o�b� � �0

�2.

Paso 2. Transformar la función distancia en una función clave. Estoa menudo implica la estandarización de la distancia

�b� � �0

�utilizando la

distribución de b� bajo H0 (asumiendo que H0 es válida):

� (X) =

���b� � �0

���hV ar

�b��i 12 o � (X) =�b� � �0

�2V ar

�b�� ,y determinar la distribución de � (X). Esto a veces implica la sustitución

de los parámetros desconocidos y después deducir la distribución de � (X)suponiendo H0 es válida. En los casos en los que la distribución exacta de� (X) bajo H0 es desconocida, la aproximamos, en su lugar, con la distribu-ción asintótica de � (X) bajo H0.Paso 3. Utilizando la distribución de � (X) bajo H0, especi�car los p-

values de la siguiente manera:

P (� (X) � � (x) ; H0 es válida) = p. (14.16)

Por lo tanto, los principales elementos de una prueba de Fisherf� (X) ; pg son las siguientes:(i) una hipótesis nula H0,(ii) un estadístico de prueba � (X),(iii) la distribución de � (X) bajo H0,(iv) el p-value P (� (X) � � (x) ; H0 es válida) = p,donde � (x) denota el valor del estadístico de prueba � (X), dada la re-

alización muestral particular X = x. El p-value puede ser visto como unaindicación de que tan satisfactoria es H0, dados los datos observados. Encierto sentido, el p-value representa el peor de los escenarios para la hipótesisnula, teniendo en cuenta no sólo la realización muestral observada, sino tam-bién realizaciones más desfavorable. La cuestión de la aceptación o rechazode H0 es un problema aparte y el p-value no debe confundirse con el nivel

Page 540: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

540 CAPÍTULO 10. PRUEBA DE HIPÓTESIS

de signi�cancia del marco de referencia de las pruebas de Neyman-Pearsondiscutido a continuación.

10.3 El marco de referencia de Neyman-Pearson

El resumen anterior pone de mani�esto una importante limitación del enfoquede Fisher:

¿Cómo debe el modelador elegir el estadístico de prueba � (X)?

Los argumentos de sentido común utilizados por Fisher no constituyenun procedimiento óptimo para deducir la "mejor" prueba posible, de formaanáloga a la de un "mejor" estimador. Esto proporcionó la motivación paraNeyman y Pearson (1928a), cuyo objetivo declarado era hacer frente a estalimitación del enfoque de Fisher; algo que Fisher nunca Fisher acepto y quedio lugar a numerosas discusiones acaloradas entre Neyman y Fisher (véase,por ejemplo, Fisher (1956) ). Neyman y Pearson (b 1928a, de 1933 a, b)motivaron su propio enfoque de prueba argumentando que Fisher no teníauna base lógica para:(a) su elección de estadísticos de pruebas tales como (14.12) y(b) su uso del p-value como una medida de la credibilidad otorgada a H0

por la realización muestral.Estaba claro que para cada hipótesis nula se podría construir varios es-

tadísticos de prueba y el enfoque de Fisher no proporciona una forma dedecidir cuál es el más adecuado entre estas funciones. Su solución a esteproblema fue ver las pruebas de hipótesis como una elección entre hipótesisrivales y así cambiar el enfoque de la prueba de hipótesis de proporcionaruna medida de la cantidad de credibilidad que los datos observados dan a lahipótesis nula, a decidir si aceptar o rechazar la hipótesis nula sobre la basede los datos observados. La clave de su enfoque fue la introducción del con-cepto de hipótesis alternativa para complementar el concepto de hipótesisnula y por lo tanto transformar la prueba en una elección entre diferenteshipótesis.En un intento por mantener nuestros ojos en el bosque vamos a considerar

el desarrollo del argumento de Neyman-Pearson en etapas. Antes de dispon-ernos a estudiar el procedimiento de Neyman-Pearson vale la pena repetiruna vez más que subyacente a todo tipo de inferencia estadística existe (a)un modelo estadístico (�;X) postulado a priori y (b) un conjunto de datos

Page 541: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

10.3. EL MARCO DE REFERENCIA DE NEYMAN-PEARSON 541

observados x := (x1; x2; :::; xn), vistos como una realización de la muestrax := (X1; X2; :::; Xn); x es un punto en el espacio muestral n-dimensional:@ � Rnx (véanse los capítulos 10 - 11).

10.3.1 Etapa I - El concepto de hipótesis alternativa

La hipótesis de interés en conexión con los modelos Normal simple y deBernoulli fue de la forma simple:

H0 : � = �0.

La especi�cación de Neyman-Pearson de la hipótesis nula y alternativa amenudo toma la forma:

H0 : � = �0 conta H1 : � 6= �0, pero � 2 �� f�0g . (14.17)

Esta especi�cación divide el espacio de parámetros � del modelo estadís-tico que se considere, en dos subconjuntos mutuamente excluyentes:

�0 := f�0g y �1 := �� f�0g , donde �0 \�1 = ?, �0 [�1 = �.

Ejemplos(a) En el caso del modelo Normal simple la hipótesis nula H0 : � =

10, ahora puede ser reconsiderada en la formulación de Neyman-Pearson enconjunción con una hipótesis alternativa, tomando la forma: H0 : � = 10contra H1 : � 2 R � f10g, donde �0 := f10g es un número único y �1 :=R� f10g; R excluido el número 10.(b) En el caso del modelo simple de Bernoulli la hipótesis nula H0 : � =

0:5, ahora puede ser reconsiderada en la formulación de Neyman-Pearson enconjunción con una hipótesis alternativa, tomando la forma: H0 : � = 0:5contra H1 : � 2 [0; 1] � f0:5g, donde �0 := f0:5g y �1 := [0; 1] � (0:5) es elintervalo [0; 1] excluyendo el número 0:5.Una formulación más general de la especi�cación Neyman-Pearson de la

hipótesis nula y la hipótesis alternativa toma la forma:

H0 : � 2 �0 contra H1 : � 2 �1 := ���0. (14.18)

Ejemplos

Page 542: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

542 CAPÍTULO 10. PRUEBA DE HIPÓTESIS

(i) En el caso del modelo Normal simple (véase (14.4)) la hipótesisnula y alternativa pueden ser de la forma: H0 : � 2 [40; 100] contra H1 : � 2R� [40; 100], donde �0 := [40; 100] y �1 := R� [40; 100].(ii) En el caso del modelo simple de Bernoulli la hipótesis nula y alterna-

tiva pueden ser de la forma: H0 : � 2 [0; 0:5] contra H1 : � 2 (0:5; 1].La especi�cación Neyman-Pearson de la hipótesis nula y la alternativa

dada en (14.18), divide, en efecto, el modelo de probabilidad (original) pos-tulado:

� = ff (x; �) ; � 2 �; x 2 Rxg ,en subconjuntos mutuamente excluyentes usando la partición del espacio

de parámetros � = �0 [�1:

�0 = ff (x; �) ; � 2 �0; x 2 Rxg , �1 = ff (x; �) ; � 2 �1; x 2 Rxg .

Esta fórmula pone de mani�esto el hecho de que las hipótesis nula yalternativa son en última instancia acerca de la distribución y no de losparámetros como parece a primera vista. Por lo tanto, asumiendo que la"verdadera" distribución de probabilidad para los datos considerados es f(x),un manera más atenta de especi�car estas hipótesis es en términos de susmodelos de probabilidad implícitos en cada caso:

H0 : f (x) 2 �0 contra H1 : f (x) 2 �1. (14.19)

Hipótesis simples frente a hipótesis compuestasEn el caso de que �0 o �1 incluyan sólo un elemento (distribución), se

dice que la hipótesis nula o la alternativa es simple, respectivamente; de locontrario la llamamos compuesta. En los ejemplos (a) y (b) anteriores lahipótesis nula es simple, pero la alternativa es compuesta. En los ejemplos(i) y (ii) tanto la hipótesis nula como la alternativa son compuestas.EjemploConsidere el modelo Normal simple (véase (14.4)) y la hipótesis:Considere el modelo simple normal (véase (14.4)) y las hipótesis:

H0:� = �0 contra H1:� = �1, (�1 > �0) .

Caso A: �2 es conocido. Las hipótesis nula y alternativa H0 y H1 sonsimples porque los modelos de probabilidad bajo H0 y H1 son, respectiva-mente:

Page 543: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

10.3. EL MARCO DE REFERENCIA DE NEYMAN-PEARSON 543

�0 = ff (x;�0) ; x 2 Rxg y �1 = ff (x;�1) ; x 2 Rxg .Es decir, H0 y H1 son simples porque �0 y �1 contienen sólo un elemento.Caso B: �2 es desconocido. En este caso la hipótesis nula: H0:� = �0

es compuesta porque �0 = ff (x;�0; �2) ; �2 2 R+, x 2 Rxg , representa unafamilia completa de funciones de densidad, una para cada valor de �2 > 0.De la misma manera, la especi�cación:

H0:� = �0, �2 = �20 contra H1:� = �1, �

2 = �21 ,

tiene una H0 simple y una H1 simple, ya que ambos �0 y �1 son únicos:

�0 =�f�x;�0; �

20

�; x 2 Rx

y �1 =

�f�x;�1; �

21

�; x 2 Rx

.

Una forma aún más �exible de la especi�cación Neyman-Pearson de lahipótesis nula y alternativa es:

H0 : � 2 �0 contra H1 : � 2 �1 � �, �1 \�0 = ?. (14.20)

Ejemplos(i) En el caso del modelo Normal simple la hipótesis nula y alternativa

pueden ser de la forma: H0:� = �0 contra H1:� > �0.(ii) En el caso de la conjetura de N. Bernoulli, la especi�cación de la

hipótesis nula y la hipótesis alternativa sería adoptar la forma: H0:� = 0:4857contra H1:� > 0:4857. Esto se debe a que sólo estamos interesados en lasalternativas en la dirección de un "juego justo".En estos casos la hipótesis alternativa no está de�nida en términos del

complemento de �0 con respecto a �, sino como un subconjunto de la misma.Ésta es diseñada para proporcionar al modelador la �exibilidad de ignorarciertas partes del espacio de parámetros de ningún interés a �n de mejorarlas propiedades de la prueba (en términos de potencia; véase más adelante).

10.3.2 Etapa II - La región de rechazo

El objetivo principal de la prueba se convierte en la formulación de una reglade decisión la que, para cualquier realización x de la muestra postulada X,permite al modelador decidir si acepta o rechaza H0. En el caso de unahipótesis nula como se especi�ca en (14.17), la decisión de aceptar o rechazar

Page 544: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

544 CAPÍTULO 10. PRUEBA DE HIPÓTESIS

H0 se basará en un estadístico de prueba � (X). En efecto, el estadístico deprueba implica una partición del espacio muestral @ en dos conjuntos com-plementarios C0 y C1, conocidas como las regiones de aceptación y rechazo,respectivamente:

C0 [ C1 = @ y C0 \ C1 = ?.

Las decisiones de aceptar o rechazar H0 se pueden especi�car en términosde estas dos regiones (véase la �gura 14.4):

(i) si x 2C0: aceptar H0, (ii) si x 2C1: rechazar H0.

Figura 14.4. c� para una prueba de una cola

Ejemplos(i) En el caso del modelo Normal simple, la prueba de las hipótesis: H0 :

� = 70 contra H1 : � 6= 70, podría basarse en el estadístico de prueba:

� (X) =

�pn (b�n � 70)

s

�H0� St (n� 1) ,

y la intuición sugiere que es probable que la región de rechazo sea de laforma:

C1 = fx : j� (X)j > cg ,

para alguna c > 0 elegido apropiadamente.

Page 545: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

10.3. EL MARCO DE REFERENCIA DE NEYMAN-PEARSON 545

(ii) En el caso del modelo simple de Bernoulli, la prueba de la conjeturade Bernoulli:

H0 : � = 0:48 contra H1 : � > 0:48; (14.21)

� (X) :=

pn (b�n � 0:48)p0:48(0:52)

!H0� Bi (0; 1;n) ,

y otra vez la intuición sugiere que es probable que la región de rechazosea de la forma:

C1 = fx : j� (X)j > cg ,

para alguna c > 0 elegida apropiadamente.NOTA. En Spanos, p. 695 esta última igualdad se escribe: C1 =

fx : � (X) > cg; creo debería escrbirse: C1 = fx : j� (X)j > cg.

10.3.3 Etapa III - Los dos tipos de errores

En el caso de las dos hipótesis que se han especi�cado anteriormente la de-cisión de aceptar o rechazar H0 es acompañada por la posibilidad de cometeruno de los dos tipos de errores:(i) error tipo I: rechazar la hipótesis nula cuando en realidad es válida,(ii) error de tipo II: Aceptar la hipótesis nula cuando en realidad no es

válida.Es interesante observar que Neyman y Pearson (1928a) criticó a Fisher

para reconocer sólo el error tipo I haciendo caso omiso del error de tipo II.Esta crítica, sin embargo, estaba fuera de lugar porque Fisher no vio las prue-bas de hipótesis como una decisión de aceptar o rechazar H0. Considerabalas pruebas de hipótesis como un procedimiento inferencial que permite almodelador evaluar el apoyo otorgado por los datos a la hipótesis de que setrate.

H0 válida H0 no válidaAceptar H0 decisión correcta error tipo IIRechazar H0 error tipo I decisión incorrecta

(a) La probabilidad del error tipo I

Page 546: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

546 CAPÍTULO 10. PRUEBA DE HIPÓTESIS

La probabilidad de error tipo I en un punto � = �0, en su forma generalse puede expresar por:

P (x 2 C1; � = �0) = �.

Considere el modelo simple de Bernoulli (véase (14.14)) y la hipótesisespeci�cada por:

H0 : � = 0:5 contra H1 : � 6= 0:5.La intuición sugiere que la región de rechazo para H0 tomará la forma

j�n � 0:5j > c, donde c es alguna constante y la proposición "cuando enrealidad H0 es válida", sugiere que la distribución relevante para evaluar laprobabilidad del error tipo I es (14.15). Es decir, necesitamos evaluar:

P����b�n � 0:5��� > c;H0 es válida

�= �,

para diferentes valoes de c = 0:005, 0:01, 0:02, 0:05, 0:1, 0:2, utilizandolas tablas de probabilidades Binomial1:

P����b�n � 0:5��� > 0:005� ' 0:472, P

����b�n � 0:5��� > 0:050� ' 0:239,P����b�n � 0:5��� > 0:010� ' 0:444, P

����b�n � 0:5��� > 0:100� ' 0:078,P����b�n � 0:5��� > 0:020� ' 0:388, P

����b�n � 0:5��� > 0:200� ' 0:0024.NOTE que n = 50. Como podemos ver, haciendo el intervalo alrededor

de b�n más pequeño, la probabilidad de error tipo I aumenta (véase la �gura14.1). La pregunta que surge naturalmente en esta etapa es:

¿Por qué no simplemente hacemos este intervalo muy grande?

En el caso de que el intervalo sea bastante grande, digamos 0:1 < b�n0; 9,es decir, c = 0:4, la probabilidad de tomar la decisión equivocada es muycercana a cero. En particular:

P����b�n � 0:5��� > 0:4� ' 0:000.

El problema con esta sugerencia es que, cuando ampliamos este intervaloincrementamos la probabilidad de tomar otra decisión incorrecta: aceptar lahipótesis nula cuando no es válida (error tipo II ).

1Cómo obtener estas probabilidades no es importante en esta etapa.

Page 547: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

10.3. EL MARCO DE REFERENCIA DE NEYMAN-PEARSON 547

Figura 14.1. De�nición de una prueba de Neyman-Pearson

(b) La probabilidad del error de tipo IILa probabilidad de error de tipo II en un punto � = �1, en su forma

general se puede expresar por:

P (x 2 C0; � = �1) = � (�1) .

En el caso del modelo simple de Bernoulli, para poder evaluar la prob-abilidad del error de tipo II necesitamos la distribución del estadístico deprueba (14.15):

� (X) =

pn�b�n � 0:5�p� (1� �)

H1� Bi

pn (0:55� 0:5)p0:55 (1� 0:55)

; 1;n

!. (14.22)

En el caso del error de tipo II, tomar la decisión equivocada signi�ca acep-tar H0; decidir que la diferencia

���b�n � 0:5��� no es "signi�cativamente distintade cero". Utilizando la distribución (14.22) podemos evaluar la probabilidaddel error tipo II usando los mismos valores de c como para la probabilidad delerror tipo I c = 0:005, 0:01, 0:02, 0:05, 0:1, 0:2, P

����b�n � 0:5��� � c; � = 0:55�=

� (0:55), de la siguiente manera:

Page 548: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

548 CAPÍTULO 10. PRUEBA DE HIPÓTESIS

P����b�n � 0:5��� > 0:005� ' 0:043, P

����b�n � 0:5��� > 0:050� ' 0:422,P����b�n � 0:5��� > 0:010� ' 0:089, P

����b�n � 0:5��� > 0:100� ' 0:645,P����b�n � 0:5��� > 0:020� ' 0:178, P

����b�n � 0:5��� > 0:200� ' 0:984.A partir de estas probabilidades, podemos ver que a diferencia del error

tipo I, la probabilidad de error tipo II disminuye cuando el intervalo alrededorde la hipótesis nula se hace más pequeño.¿Cómo interpretar los dos tipos de errores? La interpretación de Neyman

y Pearson es en términos de repetir el experimento un gran número de veces(el largo plazo). Es decir, una probabilidad 0:05 de error tipo I signi�caque en pruebas repetidas del mismo experimento (modelo estadístico) 5 porciento de estos casos serán erróneamente rechazados (ver Neyman y Pearson(1933a)). Esta interpretación fue el tema central de desacuerdo entre Neymany Fisher durante varias décadas. Fisher siguió insistiendo en que aún si esteprocedimiento es apropiado para largas sucesiones de pruebas de control decalidad, es completamente inapropiado para la inferencia cientí�ca (véaseFisher (1956)).

Región de rechazo P (error tipo I; � = 0:5) P (error tipo I; � = 0:55)

P�x:���b�n � 0:5��� � 0:005� 0:472, 0:043,

P�x:���b�n � 0:5��� � 0:010� 0:444, 0:089,

P�x:���b�n � 0:5��� � 0:020� 0.388, 0.178,

P�x:���b�n � 0:5��� � 0:050� 0.239, 0.422,

P�x:���b�n � 0:5��� � 0:100� 0.078, 0.645,

P�x:���b�n � 0:5��� � 0:200� 0.002, 0.984.

La tabla de arriba y la �gura 14.1 sugieren que existe un intercambio(trade-o¤) entre las probabilidades de los errores tipo I y tipo II: a medidaque disminuye la probabilidad del error tipo I la probabilidad del error tipoII aumenta y viceversa.

¿Cómo podemos resolver este problema de intercambio?

Page 549: Teoría de la Probabilidad e Inferencia Estadística: Modelización ... · Errores en esta versión de la traducción son, desde luego, mi responsabil-idad y tratarØ de corregirlos

10.3. EL MARCO DE REFERENCIA DE NEYMAN-PEARSON 549

10.3.4 Etapa IV - Construcción de pruebas óptimas

La solución de Neyman-Pearson (1928a, b, 1933a, b) es darle más impor-tancia a la hipótesis nula que a la alternativa. Esto signi�ca que preferimosasegurar que la probabilidad de rechazar la hipótesis nula cuando válida(error tipo I) es pequeña, y luego elegir una prueba que minimice la proba-bilidad del error tipo II. En el contexto anterior, esto equivale a decidir quela probabilidad del error tipo I es pequeña, por ejemplo � = 0:05 o � = 0:01,y elegir una prueba que minimice el error tipo II. Es decir, asumiendo querechazamos la hipótesis nula cuando j� (X)j > c�, para alguna constante c�,elegimos el estadístico de prueba j� (X)j, de tal manera que:(a) P (j� (X)j > c�;H0 válida) = �,(b) P (j� (X)j � c�;H1 (�) válida) = � (�), para � 2 �1 se minimiza.NOTA: la notación H1 (�) se usa para enfatizar la dependencia de H1 de

� ya que ésta varía en el espacio de parámetros �1.La anterior solución representa una convención que considera el error tipo

I como mucho más grave y, por lo tanto, las hipótesis nula y alternativa sontratadas asimétricamente. Al �jar el error tipo I a ser un número pequeño,digamos 0:01, lo consideremoa como mucho más importante que el errortipo II. Por lo tanto, consideramos que el error de rechazar la hipótesis nulacuando es válida es mucho más grave que el de aceptar la hipótesis nulacuando es falsa. Una forma emocionalmente cargada de racionalizar estaopción convencional es en términos de la analogía con una prueba de delitopenal. El jurado en una prueba de delito penal es instruido porel juez para no encontrar al acusado culpable hasta que se hanconvencido de que "más allá de cualquier duda razonable" por laevidencia presentada en la corte durante las deliberaciones.