notas_econometria

136

Upload: jerojasn

Post on 30-Jun-2015

534 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Notas_econometria

Econometría Básica: Notas de clase

Juan David Prada Sarmiento

Ponticia Universidad Javeriana - 2009 I

Trabajo no original y preliminar. Por favor no citar.

4 de mayo de 2009

Page 2: Notas_econometria

Índice general

1. Introducción 51.1. Teoría económica y econometría . . . . . . . . . . . . . . . . . . . . . . . . 51.2. Naturaleza de los datos económicos . . . . . . . . . . . . . . . . . . . . . . 7

1.2.1. Restricción a modelos no experimentales . . . . . . . . . . . . . . . 71.2.2. Estructura de los datos económicos . . . . . . . . . . . . . . . . . . 81.2.3. Calidad y precisión de los datos . . . . . . . . . . . . . . . . . . . . 10

1.3. Noción de ceteris paribus . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2. Conceptos estadísticos/matemáticos básicos 132.1. Conceptos preliminares de probabilidad . . . . . . . . . . . . . . . . . . . 13

2.1.1. Experimento, espacio muestral, eventos y variables aleatorias . . . 132.1.2. Distribución de probabilidad, valor esperado y varianza . . . . . . 152.1.3. Valor esperado condicional . . . . . . . . . . . . . . . . . . . . . . . 172.1.4. Distribuciones Bernoulli, uniforme y normal . . . . . . . . . . . . . 18

2.2. Inferencia estadística . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.2.1. Estimador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.2.2. Insesgamiento, precisión, eciencia . . . . . . . . . . . . . . . . . . 202.2.3. Consistencia y propiedades asintóticas . . . . . . . . . . . . . . . . 202.2.4. Estimación por intervalos y pruebas de hipótesis . . . . . . . . . . 202.2.5. Simulaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.3. Álgebra lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.3.1. Matrices denidas y formas cuadráticas . . . . . . . . . . . . . . . 222.3.2. Diferenciación en notación de vectores y matrices . . . . . . . . . . 23

3. Regresión lineal simple 253.1. Modelo de regresión lineal simple (mrls) . . . . . . . . . . . . . . . . . . . 253.2. Correlación, causalidad y regresión . . . . . . . . . . . . . . . . . . . . . . 273.3. Estimador de Mínimos Cuadrados Ordinarios . . . . . . . . . . . . . . . . 28

3.3.1. Interpretación de los estimadores OLS . . . . . . . . . . . . . . . . 333.4. Propiedades algebraicas del estimador OLS . . . . . . . . . . . . . . . . . 343.5. Bondad de ajuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.6. Propiedades estadísticas de la estimación OLS . . . . . . . . . . . . . . . . 37

3.6.1. Insesgamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.6.2. Varianza de los estimadores OLS . . . . . . . . . . . . . . . . . . . 393.6.3. Estimación de la varianza del término de perturbación σ2 . . . . . 42

2

Page 3: Notas_econometria

Índice general

3.6.4. Sencillo experimento Montecarlo para mostrar el comportamientomuestral del estimador OLS . . . . . . . . . . . . . . . . . . . . . . 45

3.7. Regresión simple desde el punto de vista matricial . . . . . . . . . . . . . 46

4. Regresión múltiple 514.1. Modelo de regresión lineal múltiple (mrlm) . . . . . . . . . . . . . . . . . . 514.2. Estimación por Mínimos cuadrados ordinarios (OLS) . . . . . . . . . . . . 52

4.2.1. Estimación OLS con variables centradas . . . . . . . . . . . . . . . 534.2.2. Interpretación de los estimadores OLS . . . . . . . . . . . . . . . . 55

4.3. Computación de los estimadores OLS . . . . . . . . . . . . . . . . . . . . . 564.3.1. Regresión múltiple vs. Regresión simple: el efecto de una variable

adicional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.3.2. Efectos del cambio de unidades en la estimación OLS . . . . . . . . 614.3.3. Regresión simple como caso particular de la regresión múltiple . . . 634.3.4. Regresión particionada . . . . . . . . . . . . . . . . . . . . . . . . . 65

4.4. Propiedades estadísticas de la estimación OLS . . . . . . . . . . . . . . . . 684.4.1. Insesgamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.4.2. Varianza de los estimadores OLS . . . . . . . . . . . . . . . . . . . 734.4.3. Estimación de la varianza del término de perturbación σ2 . . . . . 774.4.4. Eciencia: Teorema de Gauss-Markov (OLS es BLUE) . . . . . . . 78

4.5. Predicción y grado de explicación . . . . . . . . . . . . . . . . . . . . . . . 814.5.1. Coeciente de determinación . . . . . . . . . . . . . . . . . . . . . 814.5.2. Cambio en SSR cuando una variable es añadida a la regresión . . . 844.5.3. Coeciente de determinación ajustado . . . . . . . . . . . . . . . . 864.5.4. Error de predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

5. Inferencia en el análisis de regresión múltiple 885.1. Normalidad en el término de perturbación . . . . . . . . . . . . . . . . . . 885.2. Estimación por máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . 89

5.2.1. Función de densidad conjunta del modelo lineal . . . . . . . . . . . 895.2.2. Máxima verosimilitud . . . . . . . . . . . . . . . . . . . . . . . . . 905.2.3. Cota inferior de Cramér-Rao . . . . . . . . . . . . . . . . . . . . . 93

5.3. Mínimos cuadrados restringidos . . . . . . . . . . . . . . . . . . . . . . . . 955.4. Estimación por intervalos . . . . . . . . . . . . . . . . . . . . . . . . . . . 98

5.4.1. Intervalo de conanza para una restricción lineal . . . . . . . . . . 985.4.2. Intervalo de conanza para varias restricciones lineales . . . . . . . 1005.4.3. Intervalo de conanza para la predicción . . . . . . . . . . . . . . . 102

5.5. Pruebas de hipótesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1035.5.1. Prueba de hipótesis: coecientes individuales . . . . . . . . . . . . 1045.5.2. Signicancia estadística vs signicancia económica . . . . . . . . . 1065.5.3. Prueba de hipótesis: varias combinaciones lineales . . . . . . . . . . 1075.5.4. Prueba de razón de verosimilitud . . . . . . . . . . . . . . . . . . . 1115.5.5. Prueba de hipótesis sobre σ2 . . . . . . . . . . . . . . . . . . . . . 112

5.6. Consistencia y normalidad asintótica . . . . . . . . . . . . . . . . . . . . . 113

3

Page 4: Notas_econometria

Índice general

5.6.1. Consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1145.6.2. Normalidad asintótica . . . . . . . . . . . . . . . . . . . . . . . . . 1185.6.3. Inferencia basada en propiedades asintóticas . . . . . . . . . . . . . 120

6. Modelo de regresión con variables dicótomas 1226.1. Variables dicótomas e interceptos diferenciales . . . . . . . . . . . . . . . . 1236.2. Términos interactivos y pendientes diferenciales . . . . . . . . . . . . . . . 1246.3. Pruebas de estabilidad estructural: probando diferencias entre grupos . . . 1246.4. Modelo de probabilidad lineal . . . . . . . . . . . . . . . . . . . . . . . . . 126

7. Heteroscedasticidad y autocorrelación 1307.1. Mínimos cuadrados generalizados . . . . . . . . . . . . . . . . . . . . . . . 130

7.1.1. Descomposición de Cholesky - Diagonalización espectral . . . . . . 1307.1.2. Violación de homoscedasticidad y/o no autocorrelación . . . . . . . 1317.1.3. Estimador por mínimos cuadrados generalizado . . . . . . . . . . . 132

4

Page 5: Notas_econometria

1 Introducción

Estas notas de clase son una introducción a la econometría básica. La exposición delos temas sigue de cerca a Wooldridge (2002) y a Judge, Hill, Griths, Lütkepohl yLee (1982). Otros textos complementarios útiles para la econometría básica son Gujarati(2002) y Kennedy (2005). Un texto de referencia importante y algo más formal es Greene(2007).La econometría es la aplicación de métodos estadísticos para cuanticar los problemas

económicos, estimar relaciones, proyectar variables, evaluar políticas y probar o validarla teoría económica. Estas notas tienen como objetivo familiarizar al estudiante con lastécnicas básicas de econometría tanto a nivel teórico como práctico. Las notas se apoyanen ejemplos prácticos diseñados en lenguajes de programación como MATLAB y enese sentido combinan una presentación teórica a nivel básico y el diseño de programaseconométricos sencillos.El tema central de las notas será la implementación y el análisis del modelo de regresión

lineal clásico multivariado, sus supuestos, extensiones e identicación de los problemastípicos que se presentan en el trabajo empírico. Con estas herramientas los estudiantesserán capaces de entender el trabajo empírico básico en la literatura económica y deaplicar las técnicas de econometría estándar en proyectos de investigación, lo cual resultamuy útil para los estudios de clases electivas avanzadas y para realizar trabajos de tesisrespectivamente. Adicionalmente se brindarán las bases necesarias para tomar cursos deeconometría avanzada donde se estudian las series de tiempo y los datos panel.

1.1. Teoría económica y econometría

Literalmente econometría signica medición económica.Una denición de econometría, debida a Samuelson es:

. . . econometrics may be dened as the quantitative analysis of actualeconomic phenomena based on the concurrent development of theory andobservation, related by appropriate methods of inference.1

Así podemos pensar en la econometría como la aplicación de técnicas estadísticas parala evaluación empírica de la teoría económica.La teoría económica se preocupa por estudiar las relaciones entre variables económicas

para explicar la producción, distribución y utilización de los recursos escasos de la so-ciedad. Por otra parte, la inferencia estadistica trata de obtener conclusiones a partir de

1P. A. Samuelson, T. C. Koopmans, and J. R. N. Stone, Report of the Evaluative Committee forEconometrica, Econometrica, vol. 22, no. 2, April 1954, pp. 141146.

5

Page 6: Notas_econometria

1 Introducción

una cantidad limitada de datos e información, y esta cantidad limitada ha originado eldesarrollo de una teoría general para lidiar con la toma de decisiones bajo incertidumbre.Generalmente para la toma de decisiones y para el análisis económico no es suciente

con entender las variables económicas que están relacionadas. Se requiere conocer ladirección de la relación, y en muchos casos la magnitud. La econometría, utilizando teoríaeconómica, economía matemática e inferencia estadística como fundamentos analíticos,y datos económicos como base de información, provee una base para:

Renar, modicar y tal vez refutar conclusiones obtenidas a partir de la teoríaeconómica.

Generar información cuantitativa (signos, magnitudes y conabilidad estadística)sobre las relaciones económicas para facilitar los procesos de toma de decisioneseconómicas.

Es importante entender que la econometría y la teoría económica deben ir de la mano.

Ejemplo: Curva de Phillips, Ley de Okun, PIB potencial. La teoría económica ha tratadode fundamentar la existencia de estas relaciones, que están dentro del conjunto deinformación de los individuos encargados de llevar a cabo la política monetaria.Sin embargo, la ausencia de una vericación empírica, y el desconocimiento de lasmagnitudes asociadas a estas relaciones, puede llevar a no tener en cuenta la teoríaeconómica, y en el peor de los casos, a tomar decisiones equivocadas basados encreencias erróneas (cuanticaciones equivocadas, por ejemplo).

Ejemplo Wooldridge: La oferta de horas de trabajo (Becker, ecuación de Mincer): sala-rios explicados por educación y experiencia. Efectos del entrenamiento en el trabajosobre el salario.

La teoría económica surge de un proceso de abstracción. Inicia con los fenómenos que elcientíco busca entender, y se desarrolla un sistema matemático, una teoría que consisteen un conjunto de armaciones a partir de las cuales ciertas consecuencias pueden deri-varse utilizando las reglas de la lógica formal. El resultado es un modelo de la realidadque intenta reconstruir, de manera simplicada, los mecanismos principales que parecenexplicar fundamentalmente el fenómeno estudiado. Así el modelo es el producto de unproceso de abstracción en el cual explicaciones tentativas son formuladas. Estas expli-caciones, formuladas como proposiciones, proveen hipótesis que pueden ser probadas orefutadas empíricamente.La teoría económica utiliza herramientas matemáticas con el n de

Expresar postulados y conclusiones económicas con claridad y consistencia.

Facilitar la obtención de conclusiones que de otra forma sería difícil obtener.

Postular conclusiones y proposiciones de una forma contrastable empíricamente através del análisis econométrico.

6

Page 7: Notas_econometria

1 Introducción

Ejemplo: Demanda Marshall obtenida de fundamentos microeconómicos sobre prefe-rencias. La teoría explica la demanda marshalliana por un bien como función delingreso disponible, el precio del bien y el precio de los demás bienes en la canasta deconsumo. La econometría permite evaluar la teoría, y aporta información adicional(por ejemplo, podría comprobar o refutar la ley de la demanda, podría concluirsequé bienes son sustitutos y complementarios entre sí etc.).

Es decir, la teoría económica especica un conjunto de variables relevantes en la expli-cación del fenómeno estudiado e indica la dirección esperada de la relación entre estasvariables. La econometría puede, a través de la inferencia estadística, generar conclusionesempíricas sobre la teoría económica.En resumen, la metodología econométrica tradicional (clásica) sigue los pasos:

Formulación de la teoría o hipótesis.

Especicación matemática de la teoría.

Especicación del modelo estadístico-econométrico.

Obtención de los datos necesarios.

Estimación de los parámetros del modelo estadístico-econométrico.

Pronóstico y predicción.

Utilización del modelo para propósitos de política o control.

1.2. Naturaleza de los datos económicos

1.2.1. Restricción a modelos no experimentales

La econometría se enfoca en los problemas inherentes a la recolección y análisis dedatos económicos no experimentales.Los datos no experimentales no se acumulan a través de experimentos controlados

sobre individuos, rmas o partes de la economía. El investigador es un observador pasivoque recolecta los datos generados por la sociedad.Los datos experimentales usualmente se recolectan en ambientes controlados de la-

boratorio, como en las ciencias naturales, pero son prácticamente imposibles de obteneren las ciencias sociales. Aunque pueden diseñarse experimentos sociales (economía expe-rimental, por ejemplo), usualemente estos experimentos son imposibles de llevar a cabo,por sus costos prohibitivos o porque tendrían consecuencias sociales y morales indeseadas.La teoría económica muchas veces puede proveer explicaciones alternativas aceptables

y por lo tanto modelos estadísticos que no contradicen las percepciones acerca de larealidad estudiada. Por lo tanto, en la econometría hay incertidumbre sobre si el modeloeconómico y estadístico utilizado coincide con el modelo social que de hecho generó losdatos observados.

7

Page 8: Notas_econometria

1 Introducción

Cuando los modelos estadísticos son especicados adecuadamente, la teoría estadísticatiene resultados y procedimientos bien denidos acerca del comportamiento de estima-dores puntuales y por intervalos. Sin embargo, las propiedades muestrales de estos esti-madores pueden no son conocidas o no funcionan adecuadamente si el modelo está malespecicado.La econometría debe lidiar con estas dicultades, la restricción a modelos no experi-

mentales.

1.2.2. Estructura de los datos económicos

El éxito de cualquier análisis econométrico depende de los datos con que se realice.

Población y muestra

Población: Conjunto de unidades sobre las cuales se postula un modelo estadístico.Muestra: Subconjunto de la población a partir de la cual se busca inferir conclusiones

sobre la población.Proceso de muestreo:

Denición de la población.

Especicación del marco muestral, conjunto de eventos que son susceptibles de sermedidos (cuanticados).

Denición de un método de muestreo para seleccionar elementos del marco mues-tral.

Determinación del tamaño de la muestra.

Implementación del muestreo.

Estimación - inferencia a partir de la muestra obtenida.

Ejemplo: Conteo de clústers de partículas físicas (Ver Cohen (1991)).

Datos de corte transversal

Los datos de corte transversal consisten en una muestra de individuos, hogares, rmas,ciudades, estados, países o unidades en general, tomadas en un momento dado del tiempo.Algunas veces los datos de todas las unidades no se recolectan exactamente en el mismoinstante, pero se ignoran las diferencias menores en el tiempo de recolección de los datos.Usualmente se supone que los datos se han obtenido a través de muestreo aleatorio

de la población. Es decir, se tiene una muestra aleatoria de la población subyacente.En la práctica, pueden ocurrir muchas violaciones al supuesto de muestreo aleatorio:

Algunas unidades con ciertas características se niegan a reportar datos (porejemplo, hogares con mucha riqueza podrían negarse a revelar su nivel de riquezapor temor a impuestos o por motivos de seguridad) lo que haría que la muestra nosea realmente aleatoria respecto a la población.

8

Page 9: Notas_econometria

1 Introducción

La muestra se toma de unidades que son muy grandes respecto a la población

(por ejemplo, unidades geográcas muy grandes). El problema puede ser que lapoblación no es lo sucientemente grande respecto a las unidades para suponer quelas observaciones son independientes entre sí (por ejemplo, explicar diferencias enel ciclo económico a través de características de los estados de un país, ya que lasituación de un estado inuye la de sus vecinos al ser unidades económicas grandes,violando el supuesto de independencia).

Computacionalmente, los datos de corte transversal pueden verse como matrices de di-mensión N × k, N observaciones de k variables en un momento del tiempo. El ordena-miento de las observaciones no es importante, dado que son independientes entre sí ytomadas aleatoriamente de la población. Algunas de las k variables pueden ser tomadasen diferentes períodos de tiempo (por ejemplo, para explicar el crecimiento actual de lospaíses y comprobar la hipótesis de convergencia condicionada de Solow, se incluye unavariable con el stock de capital en algún momento del pasado, digamos, 1960).

Datos de series de tiempo

Los datos de series de tiempo consisten en observaciones de algunas variables duranteun período del tiempo. Por ejemplo, PIB, precios de acciones, inación, caudales de ríosetc.Como los eventos del pasado pueden inuenciar los eventos del futuro (dependencia

en la historia) y el comportamiento rezagado es habitual en las ciencias sociales, ladimensión del tiempo es muy importante, pues puede contener información valiosa.Contrario a los datos de corte transversal, el orden cronológico es importante en losdatos de series de tiempo.Además las observaciones de series económicas casi nunca pueden suponerse indepen-

dientes en el tiempo. El comportamiento de las variables económicas está fuertementerelacionado con el pasado reciente.La frecuencia de recolección de los datos también inuye sobre el comportamiento de las

series. Pueden existir comportamientos estacionales (el PIB aumenta sistemáticamenteen diciembre, la inación es sistemáticamente mayor en febrero etc.).Computacionalmente, los datos de series de tiempo pueden verse como matrices de

dimensión T ×k, T observaciones (períodos de tiempo) de k variables, y deben ordenarsede acuerdo a la dimensión cronológica.

Combinación de cortes transversales (pooled cross sections)

Algunos datos tienen características de cortes transversales y de series de tiempo.Si durante T períodos se obtuvieron datos de k variables para Nt unidades escogidasaleatoriamente cada vez (es decir, se dispone de una muestra aleatoria diferente

para cada período de tiempo), los T cortes transversales pueden combinarse (pooledcross sections) para formar una base de datos mayor. Es importante que cada vez quese recolecta la información se toma una muestra aleatoria diferente sobre la misma

9

Page 10: Notas_econometria

1 Introducción

población subyacente. Por lo tanto, no tienen que coincidir el número de observacionesdurante todos los períodos.Computacionalmente, los datos de combinación de cortes transversales pueden verse

como matrices de dimensión T∑T

t=1Nt× k y se ordenan respetando la dimensión crono-lógica (primero van todas las observaciones del primer momento del tiempo, luego todaslas observaciones del siguiente período y así sucesivamente).

Datos de panel

Los datos de panel (o datos longitudinales) consiste en una serie de tiempo para cadamiembro del corte transversal en el conjunto de datos. Es decir, se selecciona una muestraaleatoria de la población subyacente y a cada miembro del corte transversal se le realizaun seguimiento temporal, midiendo las variables de interés cada período a los mismosmiembros del corte.Así siempre se siguen a las mismas unidades del corte transversal. Por lo tanto, a

cada miembro del panel corresponde un número que lo identica a lo largo del tiempo(ya que al pasar el tiempo no cambian las unidades). La forma de numerar es irrelevante.Computacionalmente, los datos de panel pueden verse como matrices de dimensión

NT ×k y se ordenan respetando la dimensión cronológica y la unidad del corte (primerovan las T observaciones de la primera unidad, respetando el orden cronológico, luego lasT observaciones de la segunda unidad y así sucesivamente).Dado que los datos de panel requieren de un seguimiento riguroso a las mismas unidades

a lo largo del tiempo, es más difícil obtener datos de este tipo, pero contienen másinformación. En particular, se puede controlar por ciertas características no observablesde los individuos.

1.2.3. Calidad y precisión de los datos

A pesar de la relativa abundancia de datos para hacer estudios econométricos, enmuchas ocasiones la calidad de los datos no es muy buena. Esto se debe a que la economíano es una ciencia experimental. Así hay múltiples factores que afectan la calidad de losdatos:

Errores observacionales, por acción y omisión.

Errores de medición, por redondeo y aproximaciones.

Sesgo de selección por construcción de los formularios o los procedimientos de re-colección de datos. Puede no reejarse realmente las características de la poblaciónobjetivo.

Métodos de muestreo muy diferentes hace imposible comparar datos obtenidos dediferentes muestras.

Los datos económicos usualmente están disponibles a niveles muy agregados y esdifícil obtener información desagregada que puede ser más útil para estudios sobremicrounidades.

10

Page 11: Notas_econometria

1 Introducción

Debe tenerse siempre en cuenta que los resultados de cualquier investigación empíricason tan buenos (o malos) como la calidad de los datos de los que se dispone.

1.3. Noción de ceteris paribus

Muchas veces es de interés inferir los efectos parciales entre variables económicas.Encontrar una asociación entre muchas variables es interesante, pero encontrar una formade cuanticar efectos parciales puede ser muy útil para aplicaciones teóricas y prácticas.Para el análisis de efectos parciales es importante el concepto de ceteris paribus.

Es analizar el efecto de una variable sobre otra, manteniendo todo lo demás constante.Claramente no es posible mantener todos los demás factores relevantes en el problemaanalizado constantes para poder deducir los efectos parciales. Así no es posible cuanticarel efecto parcial que cambios en una variable, manteniendo todo lo demás constante,tiene sobre otra. Sin embargo, al aplicar correctamente las técnicas econométricas, sepuede llegar a simular un experimento ceteris paribus. Es decir, la econometría permite

cuanticar efectos parciales.

Ejemplo Wooldridge: Al realizar un análisis de regresión podría cuanticarse adecuada-mente, bajo el supuesto de ceteris paribus, cuál es el efecto de una semana adicionalde entrenamiento en el trabajo sobre los salarios, manteniendo la educación y laexperiencia constantes. Esto puede ser relevante para políticas públicas. Note queesto no implica causalidad.

Lograr aislar efectos ceteris paribus no implica causalidad. Para verlo, suponga quese tiene un excelente modelo teórico, una forma funcional adecuada y se utiliza la mejortécnica econométrica posible para la estimación de una curva de demanda

Qd = f(PQ, PZ , Y, u

)donde la demanda por el bien Q depende del precio PQ, del precio de otros bienes de lacanasta de consumo de los agentes PZ , del ingreso de la economía Y y de otros factoresu.El efecto parcial del precio PQ sobre Qd indica cuánto cambia la demanda por el

bien Q ante un cambio en el precio del bien, manteniendo todo lo demás constante. Sinembargo no dice que el cambio en precios cause un cambio en cantidades. La funciónf puede ser invertible (así sea localmente) y puede entonces obtenerse la usual funcióninversa de demanda. Al haber sido estimada la demanda, la función inversa tambiénestá estimada, y se obtienen efectos parciales en la otra dirección. Los efectos parcialesson capturados, como su nombre lo indica, por las derivadas parciales. Bien utilizadaslas técnicas econométricas, podemos llegar a cuanticar ∂

∂PQf = ∂

∂PQQd por ejemplo.

Sin embargo el teorema de la función inversa asegura que bajo condiciones usuales deregularidad podemos obtener una función inversa (al menos localmente) y que ∂

∂Qdf−1 =

∂∂Qd

PQ = 1/ ∂

∂PQQd. En ese caso, ¾cuál sería la causalidad?, ¾cambios en precios causan

cambios en cantidades (competencia perfecta)?, ¾es posible que cambios en cantidadescausen cambios en precios (competencia imperfecta)?

11

Page 12: Notas_econometria

1 Introducción

Ninguna de esas preguntas sobre causalidad puede ser respondida con análisis de efectosparciales, aunque es muy valioso y útil contar con la cuanticación de los efectos parcialesde cambios en una variable sobre otra.En la sección 3.2 se discute más profundamente la relación entre causalidad, correlación

y regresión lineal.

12

Page 13: Notas_econometria

2 Conceptos estadísticos/matemáticosbásicos

En este capítulo suponemos que el estudiante está familiarizado con la teoría básicade la probabilidad y la estadística. Se trata únicamente de un repaso.

2.1. Conceptos preliminares de probabilidad

En esta sección repasamos los conceptos de probabilidad básica que deben ser com-prendidos completamente y que son útiles en la econometría.

2.1.1. Experimento, espacio muestral, eventos y variables aleatorias

Un experimento es cualquier procedimiento que, al menos en teoría, puede repetirseinnitamente y produce un conjunto bien denido de resultados. Si con anterioridad alexperimento no es posible predecir el resultado, es un experimento aleatorio.El conjunto de todos los posibles resultados de un experimento es llamado el espacio

muestral. Matemáticamente es un conjunto bien denido y lo notamos con Ω.

Ejemplo: Lanzar una moneda equilibrada es un experimento aleatorio (si bien el resul-tado es inherentemente determinístico, en términos prácticos es imposible predecirel resultado). El espacio muestral consiste en el conjunto Ω = C, S de cara ysello, el conjunto de todos los posibles resultados del experimento.

Ejemplo 2: Si se dispone de una baraja de 52 cartas estándar, tomar una carta al azar esun experimento aleatorio. Las cartas están caracterizadas totalmente por su rango(as, dos, tres...) y por su palo (espadas, corazones...). Si denimos

R = 1, 2, . . . , 10, J,Q,K

el conjunto de los rangos de las cartas y

P = espadas, corazones, diamantes, picas

entonces el espacio muestral, que es el conjunto de las posibles 52 cartas, está dadopor Ω = R× P .

Cualquier subconjunto del espacio muestral al cual una probabilidad pueda ser asignadase llama un evento.

13

Page 14: Notas_econometria

2 Conceptos estadísticos/matemáticos básicos

Ejemplo: En el experimento de tomar una carta al azar, puede ser de interés pregun-tarnos por la probabilidad de obtener un rey. El evento obtener un rey es unsubconjunto de Ω.

No existe una denición directa de probabilidad. Sin embargo, existen al menos dosformas diferentes de interpretarla:

Visión clásica: La probabilidad de un evento aleatorio es la frecuencia relativa deocurrencia del evento cuando un experimento puede repetirse innitas veces. Sebasa en el hecho que el experimento pueda repetirse bajo idénticas condicionesinnitas veces, al menos conceptualmente.

Visión bayesiana: La probabilidad es una forma de representar el grado de creenciade un individuo en un evento, dada toda la información disponible y relevante.

Finalmente denimos variable aleatoria. Intuitivamente, una variable aleatoria esuna función del espacio muestral a los reales

X : Ω→ R

tal que a cada posible resultado del experimento se le asigna un valor real. La variablealeatoria es discreta (numerable) si Ω es discreto, y continua si Ω es continuo.

Axiomas de probabilidad

La medida de probabilidad debe satisfacer los siguientes axiomas (realmente son ladenición de una medida positiva nita):

Para cualquier evento A ⊆ Ω, 0 ≤ P (A) ≤ 1

P (Ω) = 1

P (A1 ∪A2 ∪ . . . ) = P (A1) + P (A2) + . . . para cualquier sucesión de eventos dis-yuntos A1, A2, . . . .

Y pueden ser demostradas las siguientes propiedades

P (∅) = 0

Para cualquier A ⊆ Ω, P (Ω\A) = 1− P (A)

Si A ⊆ B, P (A) ≤ P (B)

P (A ∪B) = P (A) + P (B)− P (A ∩B)

14

Page 15: Notas_econometria

2 Conceptos estadísticos/matemáticos básicos

2.1.2. Distribución de probabilidad, valor esperado y varianza

Valor esperado

Si X es una variable aleatoria discreta y f (x) es su pdf (probability distributionfunction), el valor esperado de X es

E (X) =∑x

xf (x)

es un promedio ponderado por la distribución.Si X es una variable aleatoria continua y f (x) es su pdf (probability density function),

el valor esperado de X es

E (X) =ˆ ∞−∞

xf (x) dx

En muchas aplicaciones encontramos el valor esperado de alguna función deX, digamosg (X):

E (g (X)) =∑x

g (x) f (x)

E (g (X)) =ˆ ∞−∞

g (x) f (x) dx

El procedimiento es igual para funciones de varias variables. Sea Y = g (X1, . . . , Xn).Entonces

E (Y ) =ˆ ∞−∞

. . .

ˆ ∞−∞

g (x1, . . . , xn) f (x1, . . . , xn) dx1 . . . dxn

Utilizando esta denición podemos obtener varios resultados:

Sean a0, a1, . . . , an constantes. Entonces

E (a0 + a1X1 + · · ·+ anXn) = a0 + a1E (X1) + · · ·+ anE (Xn)

SiX1, . . . , Xn son variables aleatorias independientes tal que E (Xi) existe, entonces

E (X1 . . . Xn) = E (X1) . . . E (Xn)

Momentos

Son de especial importancia algunos momentos. El r-ésimo momento no centrado es

µ∗r = E (Xr)

La terminología momento se hereda de la física (el valor esperado es el centro degravedad, por ejemplo).El r-ésimo momento centrado es

µr = E ((X − µ)r)

15

Page 16: Notas_econometria

2 Conceptos estadísticos/matemáticos básicos

donde µ = E (X).Si r = 2 el momento µ2 = E

((X − µ)2

)es llamado varianza de X y se nota var (X)

o σ2. La siguiente identidad es útil

σ2 = E(

(X − E (X))2)

= E(X2)− (E (X))2

La varianza se interpreta como el valor promedio de la distancia euclidiana que toma lavariable aleatoria respecto a su media. Una mayor varianza representa que es hay mayorposibilidad de obtener un valor de la variable aleatoria X que esté lejos de su media.También denimos el producto de momentos de dos variables aleatorias X y Y :

µ∗rs = E (XrY s)µrs = E ((X − E (X))r (Y − E (Y ))s)

De especial interés es cov (X,Y ) = µ11 = E ((X − E (X)) (Y − E (Y ))) = E (XY ) −E (X)E (Y ).La covarianza es una medida de la asociación lineal entre dos variables aleatorias. Para

verlo, denimos el coeciente de correlación entre X y Y como

ρxy =cov (X,Y )√

var (X)√var (Y )

Siempre se tiene 0 ≤ |ρxy| ≤ 1. Si cov (X,Y ) = 0 entonces ρxy = 0. Así si X y Yson independientes, ρxy = 0. Si Y = a + bX para cualesquier constantes a y b entonces|ρxy| = 1 y se dice que X y Y tienen correlación perfecta.Con estas deniciones se puede mostrar que

Sean a0, a1, . . . , an constantes. Entonces

var (a0 + a1X1 + · · ·+ anXn) =n∑i=1

a2i var (Xi) + 2

∑∑i<j

aiajcov (Xi, Xj)

Valor esperado multivariado

En econometría es frecuente encontrar expectativas involucrando variables aleatoriasmultivariadas. Sea X el vector de variables aleatorias

X =

X1...Xn

donde E (Xi) = µi, var (Xi) = σ2

i y cov (Xi, Xj) = σij . Entonces

E (X) =

E (X1)...

E (Xn)

=

µ1...µn

= µ

16

Page 17: Notas_econometria

2 Conceptos estadísticos/matemáticos básicos

el valor esperado de un vector aleatorio es el vector de valores esperados.Podemos denir lamatriz de varianzas-covarianzas de un vector aleatorio X como:

cov (X) = E((X− E (X)) (X− E (X))′

)= E

(X1 − µ1)2 (X1 − µ1) (X2 − µ2) . . . (X1 − µ1) (Xn − µn)

(X2 − µ2) (X1 − µ1) (X2 − µ2)2 . . . (X2 − µ2) (Xn − µn)...

.... . .

...(Xn − µn) (X1 − µ1) (Xn − µn) (X2 − µ2) . . . (Xn − µn)2

=

var (X1) cov (X1, X2) . . . cov (X1, Xn)

cov (X2, X1) var (X2) . . . cov (X2, Xn)...

.... . .

...cov (Xn, X1) cov (Xn, X2) var (Xn)

=

σ2

1 σ12 . . . σ1n

σ21 σ22 . . . σ2n

......

. . ....

σn1 σn2 σ2n

La matriz de varianzas-covarianzas, usualmente notada como ΣX es semidenida posi-

tiva (por lo tanto es simétrica) con varianzas en la diagonal principal y covarianzas fuerade la diagonal.

Ejercicio: Si a es un vector de constantes, demuestre que

E(a′X

)= a′µ

var(a′X

)= a′ΣXa

Si P es una matriz de constantes de dimensión (m× n) con m ≤ n y Z = PX unvector aleatorio de dimensión (m× 1) entonces demuestre que

E (Z) = Pµ

cov (Z) = PΣXP′

2.1.3. Valor esperado condicional

Ley de las expectativas iteradas

Sean x y w vectores aleatorios y y = f (x). Es decir que si se conoce el valor de xentonces se conoce el valor de y. En particular puede suponerse que y es un subconjuntode x. Entonces

E (w|y) = E (E (w|x) |y)E (w|y) = E (E (w|y) |x)

17

Page 18: Notas_econometria

2 Conceptos estadísticos/matemáticos básicos

2.1.4. Distribuciones Bernoulli, uniforme y normal

2.2. Inferencia estadística

La inferencia estadística se preocupa por la obtención resultados importantes sobreuna población a partir únicamente de una muestra observada de esa población.

2.2.1. Estimador

Estimación por método de momentos

Ejemplo 1: Variables uniformes: Suponga que se tiene una sucesión de n variables alea-torias uniformes continuas Xi ∼ U (a, b) donde a, b ∈ R son tales que a < b. Cadavariable aleatoria tiene función de densidad de probabilidad

f (xi|a, b) =

1b−a si a ≤ xi ≤ b0 en otro caso

Suponga que estas variables son independientes entre sí y que se tiene una muestraaleatoria de tamaño n.Se sabe que

E (Xi) =a+ b

2var (Xi) =

(b− a)2

12

y podemos hallar los estimadores por momentos para los parámetros desconocidosa y b. Obtenemos los correspondientes momentos muestrales

X =1n

n∑i=1

(xi) S2 =1n

n∑i=1

(xi −X

)2y al igualar con los momentos teóricos se tiene

2X = a+ b 2√

3S = b− a

Restando estas dos condiciones llegamos a

a = X −√

3S

Sumando estas dos condiciones llegamos a

b = X +√

3S

y estos son los estimadores por momentos para la distribución uniforme continua.

18

Page 19: Notas_econometria

2 Conceptos estadísticos/matemáticos básicos

Estimación por máxima verosimilitud

Ejemplo 1: Variables uniformes: Suponga que se tiene una sucesión de n variables alea-torias uniformes continuas Xi ∼ U (a, b) donde a, b ∈ R son tales que a < b. Cadavariable aleatoria tiene función de densidad de probabilidad

f (xi|a, b) =

1b−a si a ≤ xi ≤ b0 en otro caso

Suponga que estas variables son independientes entre sí y que se tiene una muestraaleatoria de tamaño n.Al tener n variables aleatorias independientes idénticamente distribuidas se tieneque la verosimilitud es

L (a, b|x1, . . . , xn) =n∏i=1

f (xi|a, b)

=

(1b−a

)nsi a ≤ x1, . . . , xn ≤ b

0 en otro caso

Esto es equivalente a

L (a, b|x1, . . . , xn) = 0 si b < max x1, . . . , xn y a > mın x1, . . . , xn

L (a, b|x1, . . . , xn) =(

1b− a

)nsi a ≤ mın x1, . . . , xn y b ≥ max x1, . . . , xn

Se tiene que(

1b−a

)nes decreciente en b y creciente en a. De esta forma el máximo

en el espacio en el que a ≤ mın x1, . . . , xn y b ≥ max x1, . . . , xn ocurre cuandob toma el valor mínimo posible y cuando a toma el valor máximo posible. Fuera deeste espacio la verosimilitud es cero.Así se concluye que para maximizar la verosimilitud debe escogerse

a = mın x1, . . . , xnb = max x1, . . . , xn

y estos son los estimadores por máxima verosimilitud de una variable aleatoriadistribuida uniforme.

Distribución muestral del estimador

La distribución muestral del estimador es la distribución de probabilidad, bajo unmuestreo repetido de tamaño jo de la población, del estimador (una cantidad numéricacalculada con una regla bien denida a partir de los datos de cada muestra).La distribución muestral depende entonces de:

La distribución de la población y el proceso generador de datos.

La regla utilizada para obtener el estimador.

El tamaño de la muestra disponible.

19

Page 20: Notas_econometria

2 Conceptos estadísticos/matemáticos básicos

2.2.2. Insesgamiento, precisión, eciencia

Error cuadrático medio (MSE)

Se dene el error cuadrático medio como

MSE = E

((θ − θ

)2)

y se tiene la siguiente identidad:

MSE = E

((θ − θ

)2)

= E(θ2)− 2E

(θ)θ + θ2

= E(θ2)−(E(θ))2

+(E(θ))2− 2E

(θ)θ + θ2

= var(θ)

+ bias(θ)

2.2.3. Consistencia y propiedades asintóticas

2.2.4. Estimación por intervalos y pruebas de hipótesis

2.2.5. Simulaciones

Esta subsección sigue a Hogg y Craig (1995).

Variables aleatorias continuas

Enfrentamos el siguiente problema: queremos obtener una muestra aleatoria de unavariable aleatoriaX ∼ f (x, θ) de la cual se conoce la función acumulativa de probabilidad(cdf) F (x, θ) (que es sobreyectiva). ¾Qué procedimiento podemos seguir?La siguiente observación será de utilidad:Sea Y una variable aleatoria distribuida uniforme en el intervalo 0 < y < 1. Es decir,

la función de densidad acumulada de Y es

G (y) =

0 si y ≤ 0y si 0 < y < 11 si y ≥ 1

Suponga que F (x) es la función de densidad acumulada continua que es creciente en0 < F (x) < 1.Suponga que denimos una variable aleatoria X por la relación Y = F (X). Entonces

X tiene por distribución a F (x).

20

Page 21: Notas_econometria

2 Conceptos estadísticos/matemáticos básicos

Si 0 < F (x) < 1 entonces F (x) es creciente y X ≤ x es equivalente a F (X) ≤ F (x).Entonces

P (X ≤ x) = P (F (X) ≤ F (x))= P (Y ≤ F (x))= G (F (x))= F (x)

y por lo tanto la función de distribución acumulada de X es F (x).Este resultado nos permite simular variables aleatorias de diferentes tipos. Esto se

hace determinando valores para la variable aleatoria uniforme Y . Una vez obtenidasobservaciones Y = y se debe resolver la ecuación y = F (x). Se obtiene x = F−1 (y) ypor la observación anterior se sabe que x se distribuye con función acumulada F (x).Es interesante que el converso de este resultado también es verdadero:Si X sigue la distribución acumulada F (x) continua, entonces Y = F (X) se distribuye

uniforme en el intervalo 0 < y < 1.Primero note que 0 ≤ Y ≤ 1 porque esos son los posibles valores de la cdf. Además si

P (Y ≤ y) = P (F (X) ≤ y)= P

(X ≤ F−1 (y)

)= F

(F−1 (y)

)= y

donde tenemos que F(F−1 (y)

)= y al ser F sobreyectiva. Es decir que la función de dis-

tribución acumulada de Y es G (y) = y. Como esta distribución acumulada correspondea una variable aleatoria uniforme tenemos

Y ∼ U (0, 1)

Variables aleatorias discretas

Podemos simular una variable aleatoria continua X con cdf F (x) a través de X =F−1 (Y ), donde Y sigue una distribución uniforme con 0 < y < 1. Un procedimientosimilar puede seguirse para simular variables aleatorias discretas, pero debe aclararsequé signica X = F−1 (Y ) en este caso.Se tiene que F (x) es una función denida a trozos en la que F (x0) = P (X = x0).Como se trata de una variable aleatoria discreta, podemos enumerar de forma creciente

los posibles valores que puede tomar: sean esos valores x0, x1, . . . , xn, . . . . Sea Y unavariable aleatoria uniforme y Y = y una realización.Se tiene que necesariamente existe algún xi tal que

F (xi−1) < y ≤ F (xi)

(porque se puede formar el conjunto x (y) = xi : F (xi) ≥ y y tomar xi = mın A).

21

Page 22: Notas_econometria

2 Conceptos estadísticos/matemáticos básicos

En ese caso denimosxi = F−1 (y)

y se tiene que X = F−1 (Y ) sigue la distribución con cdf F (x), siendo Y una variablealeatoria continua uniforme en el intervalo 0 < y < 1.

Ejemplo Bernoulli: Suponga que se quiere obtener una muestra aleatoria de una variablealeatoria que sigue una distribución Bernoulli. Se tiene que

F (x) = P (X ≤ x) =

1− θ si x = 01 si x = 1

y podemos obtener la inversa de esta función acumulativa como

x =

1 si y > 1− θ0 si y ≤ 1− θ

Entonces podemos muestrear de una distribución Bernoulli a partir de una muestrade una distribución uniforme, siguiendo la regla denida para Y .

2.3. Álgebra lineal

2.3.1. Matrices denidas y formas cuadráticas

Sea x ∈ Rn tal que x =[x1 . . . xn

]′. Decimos que una función A : Rn → R

tal que A (x) =∑n

i=1

∑nj=1 aijxixj es una forma cuadrática en Rn. Note que toda

forma cuadrática puede re-expresarse de forma tal que se cumpla con la condición desimetría aij = aji para todo 1 ≤ i, j ≤ n: se tiene B (x) =

∑ni=1

∑nj=1 bijxixj = A (x)

simplemente haciendo que aij = bij+bji2 = aji para todo 1 ≤ i, j ≤ n.

Existe entonces una biyección entre las formas cuadráticas y las matrices simétricasA = A′ de tamaño n× n:

A (x) =n∑i=1

n∑j=1

aijxixj =[x1 . . . xn

] a11 . . . a1n...

. . ....

an1 . . . ann

x1

...xn

con aij = aji para todo 1 ≤ i, j ≤ n.Nos interesa determinar condiciones bajo las cuales se tiene que la forma cuadrática

A : Rn → R es positiva, negativa, no negativa o no positiva para cualquier vector x ∈ Rn.Dada la identicación entre formas cuadráticas y matrices cuadradas simétricas, estascondiciones pueden estudiarse en las matrices en lugar de estudiarse en las funciones. Esomotiva las siguientes deniciones:

Sea A una matriz simétrica (A = A′) de tamaño n×n. Entonces, si para cualquiervector x ∈ Rn:

22

Page 23: Notas_econometria

2 Conceptos estadísticos/matemáticos básicos

Si ∀x ∈ Rn se tiene x′Ax ≥ 0 entonces la matriz A es semidenida positiva.

Si ∀x ∈ Rn se tiene x′Ax ≤ 0 entonces la matriz A es semidenida negativa.

Si ∀x ∈ Rn, x 6= 0 se tiene x′Ax > 0 entonces la matriz A es denida positiva.

Si ∀x ∈ Rn, x 6= 0 se tiene x′Ax < 0 entonces la matriz A es denida negativa.

La matriz A es indenida si no es ni semidenida positiva ni semidenida negativa.

Se tiene una relación de orden entre matrices: se puede armar M ≤ N si y sólo siM−N es semidenida negativa. Eso es equivalente a armar que las formas cuadráticasasociadas satisfacen, para cualquier vector x ∈ Rn que M (x)−N (x) ≤ 0.

2.3.2. Diferenciación en notación de vectores y matrices

Sea f una función de valor real relacionando un conjunto de variables x1, . . . , xn

y = f (x1, . . . , xn) = f (x)

donde x es un vector columna de dimensión (n× 1). Queremos tomar la derivada de ycon respecto a cada elemento de x. Denimos el vector de derivadas

∂y/∂x =

∂y/∂x1

...∂y/∂xn

= ∇f

como el gradiente de f . Esta operación puede extenderse a derivadas de y con respectoa elementos de una matriz X de dimensión (m× n)

∂y/∂X =[∂y/∂x1 . . . ∂y/∂xm

]=

∂y/∂x11 . . . ∂y/∂x1n

.... . .

...∂y/∂xm1 . . . ∂y/∂xmn

donde X =

[x1 . . . xn

].

Sea y un vector columna de dimensión (m× 1) y x un vector columna de dimensión(n× 1). Denimos

∂y/∂x′ = [∂yi/∂xj]

=

∂y1/∂x1 . . . ∂y1/∂xn...

. . ....

∂ym/∂x1 . . . ∂ym/∂xn

que es la matriz jacobiana de y con respecto a x′.

23

Page 24: Notas_econometria

2 Conceptos estadísticos/matemáticos básicos

La segunda derivada de y con respecto al vector columna x está denida por la siguientematriz

∂y/∂x∂x′ = ∂(∂y/∂x)/∂x′

= [∂2y/∂xi∂xj]

que es la matriz hessiana de y.Con estas deniciones se pueden establecer las reglas de derivación en notación matri-

cial.

Si z = c′x donde c y x son vectores columna (n× 1) entonces

∂z/∂x =

∂z/∂x1

...∂z/∂xn

=

c1...cn

= c

Si z = C ′x donde C es una matriz (n× n) y x es un vector (n× 1) entonces

∂z′/∂x = ∂x′C/∂x =[

c1 . . . cn

]= C

donde ci son las columnas de C.

Si z = x′Ax es una forma cuadrática

∂z/∂x = ∂x′Ax/∂x = A′x +Ax =(A′ +A

)x

porque z =∑n

j=1

∑ni=1 aijxixj y la diferenciación respecto al k-ésimo elemento de

x es

∂z/∂xk =n∑j=1

akjxj +n∑i=1

aikxi

Así la segunda derivada es

∂(x′Ax)/∂x∂x′ = A+A′

24

Page 25: Notas_econometria

3 Regresión lineal simple

Con la regresión lineal simple se busca estudiar la relación existente entre dos variables.Es un primer paso para comprender la mecánica y la intuición del método de regresión,y es útil como paso preliminar al estudio de la regresión múltiple.Sean y y x dos variables que representan características de alguna población. Se quiere

estudiar la relación entre y y x. Para ello es necesario considerar los siguientes hechos:

Nunca existe una relación exacta entre dos variables. ¾Cómo incluir otros factores,diferentes a x, que también explican a y?

¾Qué forma funcional relaciona y con x?

¾Cómo asegurar que nuestro modelo captura relaciones ceteris paribus?

3.1. Modelo de regresión lineal simple (mrls)

La relación más simple que permite resolver estas cuestiones es

y = β0 + β1x+ u (3.1)

Al suponer que en la población se satisface la relación (3.1) estamos en el modelo de

regresión lineal simple (mrls).El término regresión tiene sus orígenes en un fenómeno estadístico común llamado re-

gresión hacia la media: intuitivamente se reere al hecho que aquellos valores extremosde cualquier variable en algún momento del tiempo, por razones puramente estadísticas,probablemente tendrán valores más cercanos al promedio (menos extremos) la próximavez que sean medidos. Valores muy altos respecto a la media tienden a bajar y valoresmuy bajos respecto a la media tienden a subir. Por ejemplo los hijos de padres de esta-tura alta (baja) tienden a tener menor (mayor) estatura que sus padres, acercándose ala estatura promedio. En palabras de Francis Galton es regresión a la mediocridad.Este fenómeno de regresión hacia la media da el nombre a la técnica estadística de

regresión, por razones que se explicarán más adelante.En el mrls se tiene que y es la variable dependiente y x es la variable indepen-

diente. El término u es llamado término de perturbación, y representa todos aquellosfactores diferentes a x que ayudan a explicar el comportamiento de y. En términos prác-ticos, u reúne los elementos no observados o no considerados explícitamente y que afectana y.

25

Page 26: Notas_econometria

3 Regresión lineal simple

Algunas consideraciones sobre el término de perturbación

Podría pensarse que añadir muchas variables al modelo (algo que haremos en el capítulo4) podría permitir eliminar el término de perturbación estocástica. Sin embargo esto noes posible:

La teoría es vaga: no es posible conocer con exactitud todas las variables queafectan a y. Así u es un sustituto para todas las variables excluídas y/u omitidasdel análisis.

Disponibilidad de datos: puede no tenerse información cuantitativa (datos) sobreotras variables que se sabe afectan a y. La falta de datos obliga a excluir algunasvariables que teóricamente son relevantes.

Variables periféricas: si bien algunas variables pueden ser relevantes, su efecto com-binado sobre y puede ser pequeño. Se debe hacer un análisis entonces entre el costode obtener la información cuantitativa sobre estas variables periféricas y el beneciode introducirlas en el modelo. A veces el término de perturbación puede cumplirel papel de estas variables periféricas sin tener que pagar el costo por obtener losdatos.

Aleatoriedad intrínseca en el comportamiento humano: a pesar de tener una teoríamuy bien fundamentada, siempre hay espacio para la aleatoriedad en el compor-tamiento de los individuos. Los humanos pueden sorprender con sus acciones, y eltérmino de perturbación u puede capturar esto.

Errores de medición y proxys defectuosas: el modelo de regresión supone que lasvariables en el modelo estadístico coinciden completamente con los datos que van aalimentar ese modelo. Esto usualmente no es el caso, y usualmente los datos estánllenos de errores de medición. Además algunas variables teóricas no son observablesdirectamente en los datos, y los econometristas se ven obligados a utilizar variablescuantitativas que aproximan (pero no son exactamente) las variables teóricas. Eltérmino de perturbación u entonces captura estos errores de medición que soninevitables.

"Pluralitas non est ponenda sine necessitate", William of Ockham1: La cuchilla deOckham (a veces escrito como Occam) está en relación con que la explicación mássencilla usualmente es la más correcta. Así los modelos (estadísticos y económicos)deberían ser lo más simples posible, y es lo que se llama principio de parsimo-

nia. ¾Por qué introducir más variables si con pocas se ha explicado lo que queríaexplicarse?

Forma funcional errónea: a pesar de tener las variables teóricamente adecuadas ytoda la información necesaria, la forma funcional lineal en parámetros puede estarmal.

1El principio de falsación por experimentación y el principio de parsimonia son dos pilares de la cienciamoderna. En econometría también aplican, a través de las pruebas de hipótesis (que buscan falsearla hipótesis inicial) y la simplicidad al formular los modelos econométricos.

26

Page 27: Notas_econometria

3 Regresión lineal simple

Note que (3.1) implica∆y = β1∆x+ ∆u

y si suponemos que ∆u = 0 (ceteris paribus) entonces ∆y = β1∆x y β1 representael cambio en y ante un cambio unitario en x. Sin importar el valor de x, siempre ycambia en la misma cantidad β1 (es un supuesto que podría ser irreal para la mayoríade aplicaciones económicas, pero puede ser corregido cambiando las unidades en que semide x [lineales, logarítmicas etc.]). Por lo tanto β1 es el parámetro de pendiente yβ0 es el parámetro de intercepto.Note que el modelo es lineal en los parámetros. Esta es una aclaración importante,

ya que no debe ser necesariamente lineal en las variables. Más adelante, en la subsección3.3.1, volvemos sobre este punto.Para hacer observaciones ceteris paribus debe imponerse una condición probabilística

sobre la relación entre x y u (ya que ambas son vistas como variables aleatorias).

Supuesto 3.1.1. Media condicional cero

E (u|x) = E (u) = 0

El supuesto es que el valor esperado de u, condicional a x es 0. El valor promediode u no depende del valor de x (para cualquier valor de x el promedio de u dado xes siempre igual). En particular, u no está correlacionado con cualquier función de x:E (u|f (x)) = E (u) = 0.Bajo este supuesto

E (y|x) = β0 + β1x

que es la función de regresión poblacional.La media condicional de la variable dependiente tiene una relación lineal con la variable

dependiente. Los parámetros de este modelo poblacional son lo que se busca estimar através de las técnicas econométricas.

3.2. Correlación, causalidad y regresión

En la sección 1.3 se discutió la relación entre la dependencia entre variables y lasrelaciones ceteris paribus. Recordamos que la obtención de relaciones ceteris paribus nopermite concluir nada sobre la causalidad.Para probar las teorías económicas, muchas veces es de interés inferir las relacio-

nes causales entre variables económicas. Encontrar una asociación entre variables esinteresante, pero encontrar una relación de causalidad es concluyente.

Causalidad

Claramente el modelo de regresión relaciona una variable con otra. Sin embargo nonecesariamente implica causalidad.En las palabras de Kendall y Stuart

27

Page 28: Notas_econometria

3 Regresión lineal simple

A statistical relationship, however strong and however suggestive, can neverestablish causal connection: our ideas of causation must come from outsidestatistics, ultimately from some theory or other.2

En el modelo de regresión lineal no hay razones estadísticas para suponer causalidad:una relación estadística no implica lógicamente una relación de causalidad. Para hacerarmaciones acerca de la causalidad debe apelarse a la teoría económica.

Correlación

Un análisis estadístico relacionado, pero bastante diferente al de regresión lineal, es elanálisis de correlación, en el que el principal objetivo es medir el grado de asociaciónlineal entre variables. En el análisis de regresión no interesa esa medida en particular.Realmente interesa estudiar el valor promedio de una variable dados los valores de otrasvariables. Se pretende con la regresión evaluar si el conocimiento de una variable aportainformación sobre el valor promedio de otra variable. En el análisis de correlación no haydistinción entre variable dependiente e independiente o efectos ceteris paribus.

3.3. Estimador de Mínimos Cuadrados Ordinarios

Se busca estimar β0 y β1. Para ello se necesita una muestra de la población. Seaxi, yi : i = 1, . . . , n una muestra aleatoria de tamaño n de la población. Al ser infor-mación proveniente de la población se satisface la ecuación (3.1) y

yi = β0 + β1xi + ui

Primero vamos a estimar utilizando el método de momentos. Primero calculamos lacovarianza entre u y x:

cov (x, u) = E ((x− E (x)) (u− E (u)))= E ((x− E (x)) (u))= E (xu− E (x)u)= E (xu)− E (x)E (u)= E (xu)

Note que por el supuesto 3.1.1 se satisfacen los siguientes momentos poblacionales:

E (u) = 0cov (x, u) = E (xu) = 0

que pueden ser escritos como

E (y − β0 − β1x) = 0E [x (y − β0 − β1x)] = 0

2M. G. Kendall and A. Stuart, The Advanced Theory of Statistics, Charles Grin Publishers, NewYork, 1961, vol. 2, chap. 26, p. 279.

28

Page 29: Notas_econometria

3 Regresión lineal simple

Siguiendo la estimación por el método de momentos utilizamos los momentos mues-trales correspondientes a los momentos poblacionales:

1n

n∑i=1

(yi − β0 − β1xi

)= 0 (3.2)

1n

n∑i=1

xi

(yi − β0 − β1xi

)= 0 (3.3)

De (3.2) se tiene que los parámetros estimados por el método de momentos satisfacen

y = β0 + β1x

donde y = 1n

∑ni=1 yi y x = 1

n

∑ni=1 xi. Así

β0 = y − β1x

y sustituyendo en (3.3)

1n

n∑i=1

xi

(yi − y + β1x− β1xi

)= 0

n∑i=1

xi (yi − y) = β1

n∑i=1

xi (xi − x)

Ahora:

n∑i=1

(xi − x) (yi − y) =n∑i=1

xi (yi − y)−n∑i=1

x (yi − y)

=n∑i=1

xi (yi − y)− xn∑i=1

(yi − y)

=n∑i=1

xi (yi − y)− xn∑i=1

yi + x

n∑i=1

y

=n∑i=1

xi (yi − y)− xny + xny

=n∑i=1

xi (yi − y)

y análogamente∑n

i=1 (xi − x)2 =∑n

i=1 xi (xi − x).Así, bajo el supuesto que

n∑i=1

(xi − x)2 > 0 (3.4)

29

Page 30: Notas_econometria

3 Regresión lineal simple

se tiene

β1 =∑n

i=1 (xi − x) (yi − y)∑ni=1 (xi − x)2

=cov (x, y)var (x)

El supuesto expresado en (3.4) se cumple para todos los casos de utilidad práctica.La única forma en que la varianza muestral es cero es cuando la muestra aleatoria xies tal que todos los elementos son iguales entre sí (x es constante en la muestra) y laprobabilidad de ocurrencia de dicho evento, siendo x una variable aleatoria es en todocaso práctico cercano a cero.Los estimadores hallados son llamados estimadores de mínimos cuadrados ordi-

narios (OLS por su sigla en inglés). Sea

yi = β0 + β1xi

el valor ajustado por la regresión cuando x = xi. Así yi es el valor que pronosticamoscuando x = xi. Como en la muestra se tiene que ese valor realmente fue yi, podemosdenir el residual para la observación i como

ui = yi − yi = yi − β0 − β1xi

Planteamos el siguiente problema:

mınβ0, β1

n∑i=1

u2i =

n∑i=1

(yi − β0 − β1xi

)2

Las condiciones de primer orden son:

−2n∑i=1

(yi − β0 − β1xi

)= 0

2n∑i=1

xi

(yi − β0 − β1xi

)= 0

y son exactamente las mismas condiciones (3.2) y (3.3).Denimos la función de regresión muestral (nuestra estimación de la función de

regresión poblacional) comoy = β0 + β1x

Cada nueva muestra generará una estimación diferente para el intercepto y para lapendiente.

Ejemplo:

Suponga que en la economía del país cticio Patacolandia el consumo se relacionacon el ingreso disponible de la siguiente forma

C = 20 + 0,8Y + u

30

Page 31: Notas_econometria

3 Regresión lineal simple

siendo C el consumo de los habitantes, Y el ingreso disponible y u el término de pertur-bación exógeno.El gobierno de Patacolandia está interesado en incrementar los impuestos al ingreso, lo

cual tendrá efectos sobre el consumo del habitante promedio. Sin embargo, la autoridadscal desconoce el valor de los parámetros que gobiernan a la relación consumo-ingresopermanente.Así se quiere estimar un modelo de consumo keynesiano de la forma

C = β0 + β1Y + u

y se cuenta con la siguiente información:

Observación C Y u

1 105 100 52 95 100 -53 190 200 104 170 200 -105 275 300 156 245 300 -15

En realidad el investigador no observa u. En este ejemplo u es conocido porquesabemos cómo es el proceso generador de datos, pero en la práctica esto nunca es conocido.Fácilmente nos damos cuenta que el promedio de u, dado cualquier nivel de ingresodisponible, es cero, por lo que podemos hallar efectos ceteris paribus al estimar por OLS.Es decir, en nuestra muestra y en este modelo se cumple que

E (u|Y = 100) = E (u|Y = 200) = E (u|Y = 300) = E (u) = 0

El investigador utiliza los datos observables y calcula las varianzas y covarianzasnecesarias:

Observación C Y C − C Y − Y(C − C

) (Y − Y

) (Y − Y

)21 105 100 -75 -100 7500 100002 95 100 -85 -100 8500 100003 190 200 10 0 0 04 170 200 -10 0 0 05 275 300 95 100 9500 100006 245 300 65 100 6500 10000

Suma 1080 1200 0 0 32000 40000Promedio 180 200 0 0 5333.33 6666.67

de donde se obtiene que

β1 =cov (C, Y )var (Y )

=5333,336666,67

= 0,80

yβ0 = C − β1Y = 180− 0,80× 200 = 20

31

Page 32: Notas_econometria

3 Regresión lineal simple

Gráca 3.1: Ejemplo Consumo-Ingreso disponible

50 100 150 200 250 300 3500

50

100

150

200

250

300

f(x) = 0.8x + 20R² = 0.97

ConsumptionLinear regression for Consumption

Income after tax

Con

sum

ptio

n

32

Page 33: Notas_econometria

3 Regresión lineal simple

3.3.1. Interpretación de los estimadores OLS

La interpretación de los estimadores OLS depende completamente del modelo que seestimó: es decir, de las variables y las unidades con que estén representadas.Las relaciones económicas no son, en general, lineales. Sin embargo no es difícil incor-

porar relaciones no lineales en el mrls.Presentamos algunos ejemplos que ilustran el punto:

Modelo log-lin: Considere el modelo

ln y = β0 + β1x+ u

En este caso se trata de un modelo lineal al cual pueden aplicarse las técnicas deregresión econométrica. Incorpora una no linealidad en la variable dependiente.La interpretación de los coecientes, claro está, es diferente.En este caso β0 representa el nivel de ln y cuando x = 0 y en asuencia de perturba-ciones exógenas. Ahora β1 = ∂

∂x ln y representa una semi-elasticidad ceteris paribus.Es aproximadamente igual (ante cambios marginales) a la variación porcentual eny ante cambios de una unidad en x.

Modelo lin-log: Considere el modelo

y = β0 + β1 lnx+ u

En este caso hay una no linearidad en la variable independiente. β0 representa elnivel de y cuando lnx = 0, es decir cuando x = 1, y en ausencia de perturbacionesexógenas. Ahoraβ1 = ∂

∂ lnxy representa otro tipo de semi-elasticidad ceteris paribus.Es aproximadamente igual (ante cambios marginales) a la variación en el nivel dey ante cambios porcentuales de x (cuánto cambia y ante un cambio de 1 % en x).

Modelo log-log: Considere el modelo

ln y = β0 + β1 lnx+ u

en el que la no linearidad está en la variable dependiente y en la variable indepen-diente. En este caso β0 representa el nivel de ln y cuando lnx = 0 en ausencia deperturbaciones exógenas. Ahoraβ1 = ∂

∂ lnx ln y representa la elasticidad de y antecambios en x, ceteris paribus. Es aproximadamente igual (ante cambios margina-les) a la variación porcentual de y ante cambios porcentuales de x (cuánto cambiaporcentualmente y ante un cambio de 1 % en x).

Otras Claramente pueden introducirse muchas no linearidades. Un ejemplo es la formade incorporar los retornos decrecientes de la experiencia en el salario:

w = β0 + β1exp+ β2exp2

Los modelos no lineales estándar se resumen en la gráca 3.2.

33

Page 34: Notas_econometria

3 Regresión lineal simple

Gráca 3.2: Modelos logarítmicos

0 1 2 3 4 55

10

15

20 Linear Model

x

y

0 1 2 3 4 5

0.5

1

1.5

2

2.5

3

3.5

4

4.5

x 108 Log−lin model

x

y

0 1 2 3 4 5−2

0

2

4

6

8

10 Lin−log model

x

y

0 1 2 3 4 50

2000

4000

6000

8000

10000

12000

14000

16000

18000

Log−log model

x

y

3.4. Propiedades algebraicas del estimador OLS

Note que en general no se tiene que ui = 0. Es decir, en general los datos observadosno están sobre la linea de regresión estimada.

La media muestral de los residuales OLS es cero: 1n

∑ni=1 ui = 0. Eso porque

n∑i=1

ui =n∑i=1

(yi − β0 − β1xi

)=

n∑i=1

yi −n∑i=1

β0 −n∑i=1

β1xi

= n(y − β0 − β1x

)= 0

porque y − β0 − β1x = 0 de acuerdo con la condición (3.2). Es decir, es válido sihay constante en la regresión.

34

Page 35: Notas_econometria

3 Regresión lineal simple

La covarianza muestral entre los residuales OLS y la variable independiente es cero:

n∑i=1

ui (xi − x) =n∑i=1

(yi − β0 − β1xi

)(xi − x)

=n∑i=1

xi

(yi − β0 − β1xi

)− x

n∑i=1

(yi − β0 − β1xi

)=

n∑i=1

xi

(yi − β0 − β1xi

)= 0

por la condición (3.3).

El par ordenado (x, y) siempre está sobre la línea de regresión muestral. Trivial-mente se cumple porque y = β0 + β1x.

Una forma de interpretar la regresión está dada por

yi = yi + ui

donde la observación de la variable dependiente es la observación ajustada más el residual.Se tiene que y = y.Denimos

SST =n∑i=1

(yi − y)2

SSE =n∑i=1

(yi − y

)2SSR =

n∑i=1

(ui)2

Cuando la regresión se hace con intercepto se cumple la siguiente relación:

SST = SSE + SSR

35

Page 36: Notas_econometria

3 Regresión lineal simple

y para verlo considere

n∑i=1

(yi − y)2 =n∑i=1

(yi − yi + yi − y)2

=n∑i=1

(ui + yi − y)2

=n∑i=1

(u2i + 2ui (yi − y) + (yi − y)2

)=

n∑i=1

(u2i

)+

n∑i=1

(yi − y)2 + 2n∑i=1

ui (yi − y)

=n∑i=1

(u2i

)+

n∑i=1

(yi − y)2

ya que∑n

i=1 ui (yi − y) = 0. Esto porque

n∑i=1

uiyi − yn∑i=1

ui =n∑i=1

uiyi

=n∑i=1

ui

(β0 + β1xi

)= β0

n∑i=1

ui + β1

n∑i=1

xiui

= 0

.

3.5. Bondad de ajuste

Una primera medida de la bondad de ajuste del modelo simple de regresión lineal estádado por el coeciente de determinación R2. Simplemente es una medida que indicaqué tan cercanos son los datos observados a los datos ajustados por la regresión estimada.Suponiendo SST > 0 (lo cual es cierto si existe la mínima variabilidad en la variable

dependiente)

R2 =SSE

SST= 1− SSR

SST

El coeciente de determinación indica qué porcentaje de la variabilidad total observadaestá explicada por los datos ajustados por la regresión. Es el porcentaje de la variaciónmuestral en y que es explicado por x. Note que 0 ≤ R2 ≤ 1 si hay constante en laregresión.

36

Page 37: Notas_econometria

3 Regresión lineal simple

3.6. Propiedades estadísticas de la estimación OLS

Note que los estimadores por mínimos cuadrados β0 y β1 son estimadores en sentidoestadístico, funciones de la muestra aleatoria. Por lo tanto cada muestra aleatoria generaunos estimadores diferentes. Esta correspondencia entre muestras aleatorias y estimadores(en este caso de mínimos cuadrados) indica que el estimador es en sí mismo una variablealeatoria, y que podemos derivar propiedades estadísticas a partir de la informaciónmuestral disponible. Es decir, podemos caracterizar estadísticamente al estimador (al seruna variable aleatoria) y obtener el valor esperado, la varianza etc. que dependen de laspropiedades estadísticas de las variables y, x y u.Para obtener ciertas propiedades estadísticas deseables del estimador por OLS deben

agregarse supuestos estadísticos al modelo de regresión lineal simple que estamos anali-zando.

Supuesto 3.6.1. Linealidad en parámetros: En la población las variables y y x están

relacionadas por

y = β0 + β1x+ u

donde y, x y u son variables aleatorias.

Supuesto 3.6.2. Muestreo aleatorio: Es posible obtener muestras aleatorias de la po-

blación a estudiar. Así exise una muestra aleatoria de tamaño n xi, yi : i = 1, . . . , nproveniente de la población.

Supuesto 3.6.3. Media condicional cero:

E (u|x) = E (u) = 0

y para la muestra se tiene que E (ui|xi) = 0 para i = 1, . . . , n.

Adicionalmente requerimos que haya variación muestral en xi. Es decir, no todos losxi son iguales entre sí. Es equivalente a

∑ni=1 (xi − x) > 0.

3.6.1. Insesgamiento

El estimador de pendiente de mínimos cuadrados ordinarios puede escribirse como

β1 =∑n

i=1 (xi − x) (yi − y)∑ni=1 (xi − x)2

=∑n

i=1 (xi − x) yi∑ni=1 (xi − x)2

Ejercicio: Demuestre que∑n

i=1 (xi − x) (yi − y) =∑n

i=1 (xi − x) yi.

Por lo tanto, como poblacionalmente se tiene que yi = β0 + β1xi + ui entonces

β1 =∑n

i=1 (xi − x) yi∑ni=1 (xi − x)2

=∑n

i=1 (xi − x) (β0 + β1xi + ui)∑ni=1 (xi − x)2

=β0∑n

i=1 (xi − x) + β1∑n

i=1 (xi − x)xi +∑n

i=1 (xi − x)ui∑ni=1 (xi − x)2

37

Page 38: Notas_econometria

3 Regresión lineal simple

Claramente∑n

i=1 (xi − x) = 0 y anteriormente mostramos que∑n

i=1 (xi − x)xi =∑ni=1 (xi − x)2. Entonces se puede expresar a β1 como el parámetro de pendiente po-

blacional β1 más un término adicional que es combinación lineal de las perturbacionesu1, . . . , un:

β1 = β1 +∑n

i=1 (xi − x)ui∑ni=1 (xi − x)2

Condicional a los valores de xi, toda la aleatoriedad en el estimador β1 se debe a lasperturbaciones ui.

Teorema 3.6.4. Bajo los supuestos 3.6.1-3.6.3 se tiene que los estimadores por mínimos

cuadrados del modelo de regresión lineal simple son insesgados:

E(β0|x

)= β0 E

(β1|x

)= β1

cualesquiera que sean los valores β0 y β1.

Demostración. Tomando el valor esperado condicional a los valores muestrales de lavariable independiente

E(β1|x

)= E

(β1 +

∑ni=1 (xi − x)ui∑ni=1 (xi − x)2

|x

)

= β1 + E

(∑ni=1 (xi − x)ui∑ni=1 (xi − x)2

|x

)

= β1 +∑n

i=1 (xi − x)E (ui|x)∑ni=1 (xi − x)2

= β1

dado que E (ui) = E (ui|xi) = 0 y al tomar valor esperado se puede tratar a las funcionesde xi como constantes.Ahora como yi = β0 + β1xi + ui, obteniendo el promedio en la muestra se tiene

y = β0 + β1x+ u

y como

β0 = y − β1x

= β0 +(β1 − β1

)x+ u

Ahora, condicional a los valores de los xi

E(β0|x

)= E

(β0 +

(β1 − β1

)x+ u|x

)= β0 + E

((β1 − β1

)x|x)

+ E (u|x)

= β0 + E(β1 − β1|x

)x

38

Page 39: Notas_econometria

3 Regresión lineal simple

porque E (u) = 0, ya que ui es una muestra aleatoria de la variable aleatoria u (supuesto3.6.2), y se tiene que E (u) = E (u) = 0 (ley de los grandes números y por el supuesto

3.6.3). Como E(β1|x

)= β1 entonces

E(β0|x

)= β0

El insesgamiento es una propiedad muestral que nada dice sobre cada muestra enparticular. Si se pudiese obtener muchas muestras aleatorias de la población, en promedioel valor de los estimadores se aproximaría al valor poblacional. La simulación del modelolineal permite ver este hecho.Todos los supuestos 3.6.1-3.6.3 son necesarios para obtener el insesgamiento. En par-

ticular, la posibilidad que la variable independiente x esté correlacionada con el términode perturbación u es una gran preocupación en el análisis de regresión simple. Utilizarla regresión lineal cuando u incluye factores que afectan a y y que están correlacionadoscon x puede resultar en una correlación espuria, encontrar una relación entre y y xque realmente se debe a otros factores que afectan tanto a y como a x. En ese casono es posible realizar análisis ceteris paribus sobre las variables, porque la estimaciónpor mínimos cuadrados sobre o subestima el efecto que tienen cambios en x con y (losestimadores son sesgados).Este tema se tratará a fondo en la regresión múltiple.

3.6.2. Varianza de los estimadores OLS

Además de conocer que, en promedio, el estimador OLS está centrado sobre el ver-dadero valor poblacional, también es de interés conocer la dispersión del estimador, esdecir, en promedio, qué tan cerca o lejos esperamos que el estimador esté de la media.Esta información la proporciona la varianza del estimador.Es posible obtener una expresión general para la varianza de los estimadores por mí-

nimos cuadrados, pero requiere de una utilización mínima de herramientas básicas deálgebra lineal, por lo que aplazamos su derivación en el modelo de regresión lineal múl-tiple hasta la subsección 4.4.2.En esta subsección obtenemos una expresión para la varianza de los estimadores por

mínimos cuadrados bajo un supuesto adicional:

Supuesto 3.6.5. Homoscedasticidad:

var (u|x) = σ2

Como var (u|x) = E(u2|x

)− [E (u|x)]2 = E

(u2|x

)= σ2, por lo que σ2 también es la

varianza no condicional de u. Los supuestos 3.6.2 y 3.6.3 pueden re-expresarse como

E (y|x) = β0 + β1x

var (y|x) = σ2

39

Page 40: Notas_econometria

3 Regresión lineal simple

porque y = β0 + β1x+ u y var (β0 + β1x+ u|x) = var (u|x) = σ2.Cuando var (u|x) depende de x (en lugar de ser constante) se dice que el término de

perturbación es heteroscedástico.

Ejemplo Wooldridge: Heteroscedasticidad en la ecuación de salario-educación. A mayornivel de educación mayor variabilidad del salario respecto a su media (las personascon menores niveles educativos tienen ingresos mínimos similares, cercanos al nivelde subsistencia).

Teorema 3.6.6. La varianza condicional muestral de los estimadores por mínimos cua-

drados ordinarios, bajo los supuestos 3.6.1-3.6.5 es

var(β1|x

)=

σ2∑ni=1 (xi − x)2

var(β0|x

)=

σ2n−1∑n

i=1 x2i∑n

i=1 (xi − x)2

condicionales a los valores x1, . . . , xn.

Demostración. Se tiene que

β1 = β1 +∑n

i=1 (xi − x)ui∑ni=1 (xi − x)2

y al aplicar el operador de varianza condicional a los valores x1, . . . , xn

var(β1|x

)= var

(β1 +

∑ni=1 (xi − x)ui∑ni=1 (xi − x)2

|x

)

= var

(∑ni=1 (xi − x)ui∑ni=1 (xi − x)2

|x

)

=

(1∑n

i=1 (xi − x)2

)2

var

(n∑i=1

(xi − x)ui|x

)

donde las funciones de xi se tratan como constantes (al estar condicionado el valor espe-rado).Ahora por el supuesto de muestreo aleatorio, todos los ui son independientes entre sí.

En ese caso, las covarianzas entre ui y uj son cero y la varianza de las sumas es la sumade las varianzas, de forma tal que

var(β1|x

)=

(1∑n

i=1 (xi − x)2

)2 n∑i=1

var ((xi − x)ui|x)

=

(1∑n

i=1 (xi − x)2

)2 n∑i=1

(xi − x)2 var (ui|x)

40

Page 41: Notas_econometria

3 Regresión lineal simple

Por el supuesto de homoscedasticidad var (ui|x) = σ2 y

var(β1|x

)=

(1∑n

i=1 (xi − x)2

)2 n∑i=1

(xi − x)2 σ2

=σ2∑n

i=1 (xi − x)2

Como

β0 = y − β1x

= β0 +(β1 − β1

)x+ u

(al tomar promedio sobre el valor poblacional) entonces al aplicar varianza condicionada

var(β0|x

)= var

(β0 +

(β1 − β1

)x+ u|x

)= var

(u− β1x|x

)= var (u|x) + x2var

(β1|x

)= var

(n−1

n∑i=1

ui|x

)+ x2var

(β1|x

)= n−2

n∑i=1

var (ui|x) +σ2x2∑n

i=1 (xi − x)2

=n−1σ2

(∑ni=1 (xi − x)2 + nx2

)∑n

i=1 (xi − x)2

=n−1σ2

∑ni=1 x

2i∑n

i=1 (xi − x)2

donde se hace uso del hecho que cov(u, β1x|x

)= 0, y de la independencia de las obser-

vaciones de ui.

Ejercicio: Demuestre que bajo los supuestos 3.6.1-3.6.5

cov(β0, β1|x

)=

−xσ2∑ni=1 (xi − x)2

condicional a los valores x1, . . . , xn.

Ejercicio 2: Demuestre formalmente que cov(u, β1x|x

)= 0.

41

Page 42: Notas_econometria

3 Regresión lineal simple

Estas fórmulas son válidas únicamente en el caso que hay homoscedasticidad. Obtene-mos ciertos resultados intuitivos a partir de estas varianzas:

A mayor varianza del término de perturbación (σ2) mayor es la varianza de losestimadores por mínimos cuadrados. Esto porque mayor variabilidad de y estáasociada al residual y menor variabilidad es explicada por x, lo que hace másincierta la estimación.

A mayor variabilidad de la variable independiente (∑n

i=1 (xi − x)2) menor es lavarianza del estimador β1. Esto porque en ese caso una mayor parte de la variabi-lidad de y está explicada por la variabilidad de x, lo que hace más fácil detectar laverdadera relación entre E (y|x) y x. En particular incrementar el tamaño muestralincrementa la variabilidad total de x. Así a mayor tamaño de muestra menor es lavarianza del estimador β1.

Estas fórmulas son útiles cuando se conoce el valor de σ2, lo cual no es común en lapráctica.

3.6.3. Estimación de la varianza del término de perturbación σ2

Podemos utilizar datos para estimar σ2, y con esta estimación podemos estimar el

valor de var(β0|x

)y var

(β1|x

).

Se tiene que σ2 = E(u2). Sin embargo u es no observable (es la perturbación del

modelo poblacional que por denición no es observable), así que se debe buscar unaforma alternativa de encontrar σ2. Si bien las perturbaciones ui nunca son observadas,están relacionadas con los residuales de la regresión ui que pueden ser calculados apartir de los datos.Es claro diferenciar entre perturbaciones y residuales para obtener la siguiente expre-

sión de los residuales en términos de los términos de perturbación:

ui = yi − yi= β0 + β1xi + ui − β0 − β1xi

ui = ui −(β0 − β0

)−(β1 − β1

)xi (3.5)

de forma tal que los residuales son el término de perturbación y un término adicional devalor esperado cero.Como σ2 = E

(u2), un estimador insesgado natural sería n−1

∑ni=1 u

2i . Como ui no

es observado, podría utilizarse ui en lugar de ui, ya que están linealmente relacionados.En ese caso se consideraría un estimador de la forma

n−1n∑i=1

u2i =

SSR

n

Como es una función de la muestra aleatoria, este sí es un estimador. Sin embargo SSRn

no es insesgado porque no tiene en cuenta las dos restricciones utilizadas en la estimación

42

Page 43: Notas_econometria

3 Regresión lineal simple

de los parámetros β0 y β1

n∑i=1

ui = 0n∑i=1

xiui = 0

que reducen los grados de libertad (la información linealmente independiente disponibleen la muestra) en dos unidades.Una forma de verlo es la siguiente: si conocemos n − 2 residuales, entonces por las

dos restricciones de la estimación por mínimos cuadrados inmediatamente se conocentodos los residuales. Por consiguiente hay únicamente n− 2 residuales independientes, ysólamente n − 2 grados de libertad (contrario a los n grados de libertad que habría deconocerse los n términos de perturbación no observables).Para obtener un estimador insesgado debe realizarse un ajuste por los grados de liber-

tad que realmente estamos utilizando. Así

σ2 =1

n− 2

n∑i=1

u2i =

SSR

n− 2

Teorema 3.6.7. Insesgamiento de σ2: Bajo los supuestos 3.6.1-3.6.5 se tiene

E(σ2|x

)= σ2

Demostración. Promediando (3.5) sobre todos los i, entonces 0 = u = u −(β0 − β0

)−(

β1 − β1

)x. Restando de (3.5)

ui = ui − u−(β1 − β1

)(xi − x)

y por lo tanto

u2i = (ui − u)2 +

(β1 − β1

)2(xi − x)2 − 2 (ui − u)

(β1 − β1

)(xi − x)

Sumando sobre i

n∑i=1

u2i =

n∑i=1

(ui − u)2 +(β1 − β1

)2n∑i=1

(xi − x)2 − 2(β1 − β1

) n∑i=1

(ui − u) (xi − x)

Debe analizarse cada término: como u1, . . . , un es una muestra aleatoria (variablesaleatorias independientes e idénticamente distribuidas) satisfacen que cov (ui, uj) = 0para i 6= j y σ2 = E

(u2i |x)− E (ui|x)2.

Para el primer término

43

Page 44: Notas_econometria

3 Regresión lineal simple

E

(n∑i=1

(ui − u)2 |x

)= E

(n∑i=1

(u2i − 2uiu+ u2

)|x

)

= E

(n∑i=1

u2i − nu2|x

)

= E

n∑i=1

u2i − n

(n−1

n∑i=1

ui

)2

|x

= E

n∑i=1

u2i − n−1

(n∑i=1

ui

)2

|x

=

n∑i=1

E(u2i |x)− n−1

n∑i=1

E(u2i |x)

porque E (uiuj) = 0 para i 6= j. Entonces

E

(n∑i=1

(ui − u)2 |x

)= σ2 (n− 1)

Note que este resultado es estándar en la teoría estadística: la función 1n−1

∑ni=1 (ui − u)2

genera un estimador insesgado para σ2 y se pierde un grado de libertad por tener queutilizar u como estimador de la media muestral que es desconocida.Para el segundo término

E

((β1 − β1

)2n∑i=1

(xi − x)2 |x

)= E

((β1 − β1

)2|x) n∑i=1

(xi − x)2

= var(β1|x

) n∑i=1

(xi − x)2

= σ2

porque var(β1|x

)= σ2Pn

i=1(xi−x)2.

Para el tercer término(β1 − β1

)∑ni=1 (ui − u) (xi − x) =

(β1 − β1

)∑ni=1 ui (xi − x).

Además como β1−β1 =Pni=1(xi−x)uiPni=1(xi−x)2

entonces∑n

i=1 ui (xi − x) =(β1 − β1

)∑ni=1 (xi − x)2

y

E

((β1 − β1

) n∑i=1

ui (xi − x) |x

)= E

((β1 − β1

)2n∑i=1

(xi − x)2 |x

)

= var(β1|x

) n∑i=1

(xi − x)2

= σ2

44

Page 45: Notas_econometria

3 Regresión lineal simple

Así se concluye que

E

(n∑i=1

u2i |x

)= (n− 2)σ2

3.6.4. Sencillo experimento Montecarlo para mostrar el comportamientomuestral del estimador OLS

Para comprender el comportamiento muestral de los estimadores, supongamos que setiene una población con Npop miembros y que se tiene el siguiente modelo poblacional

ypop = β0 + β1xpop + upop

donde ypop, xpop y upop son variables aleatorias, cuya realización se conoce para toda lapoblación.Ahora procedemos a simular la metodología econométrica. El investigador usualmente

no tiene acceso a los datos poblacionales, sino que es capaz de recolectar datos sobremuestras aleatorias tomadas de la población.Supongamos que Nsample es el número de observaciones que pueden tomarse de la

población en cada muestra j, y que el muestreo puede hacerse un número J de vecessobre la misma población en el mismo momento de tiempo. Es decir, vamos a suponerque de la población total pueden obtenerse J muestras aleatorias, cada una de ellas conNsample observaciones.

Así cada muestra j consiste enyji , x

ji : i = 1, . . . , Nsample

y para cada muestra pue-

den hallarse los estimadores por mínimos cuadrados βj0 y βj1.Por lo tanto, vamos a tener una muestra de estimadores: J estimadores para el pará-

metro intercepto β0 y J estimadores para el parámetro de pendiente β1. Los estimadores,al ser funciones de variables aleatorias, son ellos mismos variables aleatorias.El insesgamiento nos dice que bajo los supuestos 3.6.1-3.6.3, en promedio, los estima-

dores βj0 y βj1 van a estar cerca de los verdaderos valores poblacionales β0 y β1. Comotenemos una muestra de estimadores por mínimos cuadrados ordinarios, podemos esti-mar su valor esperado utilizando la media aritmética. Por insesgamiento, esperaríamos

que β0 ≈ β0 y que β1 ≈ β1.En este ejemplo, suponemos que xpop es una variable aleatoria que sigue el siguiente

proceso

xpop = xe(

12

+ zx

)donde zx ∼ U (0, 1), upop sigue el siguiente proceso

upop = σ√

12(zu −

12

)donde zu ∼ U (0, 1),

ypop = β0 + β1xpop + upop

45

Page 46: Notas_econometria

3 Regresión lineal simple

y suponemos que zx es independiente de zu.De esta forma nos aseguramos que

xpop ∼ U(xe

2 ,3xe

2

)es una variable aleatoria uniforme con valor esperado xe (y xpop

no es constante)

Las variables tienen una relación lineal ypop = β0 + β1xpop + upop por construcción

upop ∼ U(−σ√

122 , σ

√12

2

)es una variable aleatoria uniforme con valor esperado 0 y

varianza σ2

E (upop|xpop) = E (upop) = 0 por la independencia entre zx y zu

Puede realizarse muestreo aleatorio de esta población simulada

Por lo tanto en este ejemplo se cumplen los supuestos de la estimación por mínimoscuadrados. Utilizamos los valores

β0 = 2 β1 = 3xe = 50 σ = 0,05

Npop = 100000 Nsample = 40

y computacionalmente tomamosNpop realizaciones de zx y zu de un generador de númerospseudo-aleatorios uniformes para construir los datos requeridos.Se tomaron 5000 muestras aleatorias de esta población y para cada muestra se realizó

la estimación por mínimos cuadrados ordinarios.La gráca 3.3 muestra la distribución muestral obtenida en esta simulación para los

estimadores β0 y β1. El valor esperado muestral es bastante cercano al valor poblacio-nal (no son idénticos dado que obtuvimos una distribución muestral simulada de losestimadores).La gráca 3.4 muestra la distribución muestral obtenida en esta simulación para el

estimador σ2.Note que a pesar de utilizar datos distribuidos uniformemente, los estimadores no si-

guen distribuciones uniformes. Informalmente los estimadores β0 y β1 siguen una distribu-ción simétrica centrada en el valor poblacional (posiblemente una distribución semejantea la normal). El estimador insesgado σ2 sigue una distribución inclinada que siempretoma valores positivos (posiblemente una distribución semejante a la chi-cuadrado).El hecho que los estimadores sigan distribuciones muestrales permite obtener estima-

dores por intervalos.

3.7. Regresión simple desde el punto de vista matricial

Para hallar los estimadores OLS utilizamos la información dada por una muestra alea-toria x1, . . . , xn, y1, . . . , yn de tamaño n. Para cada observación suponemos que se sa-tisface el modelo lineal

yi = β0 + β1xi + ui

46

Page 47: Notas_econometria

3 Regresión lineal simple

Gráca 3.3: Distribución muestral para estimadores OLS por simulación

1.96 1.97 1.98 1.99 2 2.01 2.02 2.03 2.04 2.050

50

100

150

200

250

300

350

400 Beta0: Population value = 2; Sampling Mean = 1.9999212

2.9998 2.9998 2.9999 2.9999 3 3 3.0001 3.0001 3.00020

50

100

150

200

250

300

350 Beta1: Population value = 3; Sampling Mean = 3.0000018

Gráca 3.4: Distribución muestral para estimador σ2 por simulación

1 1.5 2 2.5 3 3.5 4 4.5 5

x 10−3

0

50

100

150

200

250

300

350 Sigma**2: Population value = 0.0025; Sampling Mean = 0.0024956629

47

Page 48: Notas_econometria

3 Regresión lineal simple

y al tener n observaciones se tiene un sistema de n ecuaciones

y1 = β0 + β1x1 + u1

......

yn = β0 + β1xn + un

Si representamos las observaciones de la muestra por los siguientes vectores (aclaramosque u no es observable)

y =

y1...yn

u =

u1...un

x =

x1...xn

nuestro sistema de n ecuaciones puede representarse como y1

...yn

=

1...1

β0 +

x1...xn

β1 +

u1...un

o de forma compacta

y = 1β0 + xβ1 + u

y =[

1 x] [ β0

β1

]+ u

y = Xβ + u

donde 1 es un vector de n unos y X =[

1 x]. Bajo esta representación compacta del

modelo de regresión múltiple β =[β0 β1

]′es el vector de parámetros poblacionales

a ser estimado y X =[

1 x]es una matriz que reúne a las variables independientes

(incluida la constante). A X la llamamos matriz de diseño. Suponemos que X tienecolumnas linealmente independientes: la variable x no es constante en la muestra, por loque se tiene

∑ni=1 (xi − x)2 6= 0.

Recordamos ahora las ecuaciones (3.2) y (3.3) que describen a los estimadores pormínimos cuadrados ordinarios:

n∑i=1

(yi − β0 − β1xi

)= 0

n∑i=1

xi

(yi − β0 − β1xi

)= 0

48

Page 49: Notas_econometria

3 Regresión lineal simple

En términos matriciales estas dos ecuaciones (condiciones de primer orden en el casoOLS) pueden escribirse como

1′(y −Xβ

)= 0

x′(y −Xβ

)= 0

donde β =[β0 β1

]′es el vector de parámetros estimados por OLS. En una notación

más compacta [1′

x′

](y −Xβ

)= 0[

1 x]′ (y −Xβ

)= 0

de donde concluimos que

X ′(y −Xβ

)= 0

Ahora

0 = X ′(y −Xβ

)= X ′y −X ′Xβ

X ′Xβ = X ′y

Bajo el supuesto que∑n

i=1 (xi − x)2 6= 0 la matriz X tiene columnas linealmenteindependientes, y su rango es rank (X) = 2. En ese caso X ′X es una matriz de tamaño2× 2 de rango 2 y es invertible. Así

β =(X ′X

)−1X ′y

Con esta sencilla representación del estimador del modelo lineal simple podemos en-contrar una expresión matricial para la matriz de varianzas y covarianzas condicionadasdel estimador por mínimos cuadrados ordinarios. Recuerde que

var(β|X

)= E

((β − β

)(β − β

)′|X)

porque E(β|X

)= β bajo los supuestos 3.6.1-3.6.3. Además se tiene

β =(X ′X

)−1X ′y

=(X ′X

)−1X ′ (Xβ + u)

=(X ′X

)−1X ′Xβ +

(X ′X

)−1X ′u

= β +(X ′X

)−1X ′u

49

Page 50: Notas_econometria

3 Regresión lineal simple

porque, por el supuesto 3.6.1, y = Xβ + u. Así

var(β|X

)= E

((β − β

)(β − β

)′|X)

= E

(((X ′X

)−1X ′u

)((X ′X

)−1X ′u

)′|X)

= E((X ′X

)−1X ′uu′X

(X ′X

)−1 |X)

=(X ′X

)−1X ′E

(uu′|X

)X(X ′X

)−1

y se concluye que

var(β|X

)=(X ′X

)−1X ′E

(uu′|X

)X(X ′X

)−1

Note que E (uu′|X) es la matriz de varianzas y covarianzas condicionadas del tér-mino de perturbación. En el caso que se cumple el supuesto de homoscedasticidad y noautocorrelación (supuesto 3.6.5) se tiene

var (ui|X) = σ2

cov (ui, uj |X) = 0

y la matriz de varianzas-covarianzas condicionadas del término de perturbación es

E(uu′|X

)= E

u21 u1u2 . . . u1un

u2u1 u22 . . . u2un

......

. . ....

unu1 unu2 . . . u2n

|X

=

σ2 0 . . . 00 σ2 . . . 0...

.... . .

...0 0 . . . σ2

= σ2In

En ese caso se tiene que la matriz de varianzas-covarianzas del estimador OLS, bajo elsupuesto de homoscedasticidad, es

var(β|X

)= σ2

(X ′X

)−1

50

Page 51: Notas_econometria

4 Regresión múltiple

El modelo de regresión lineal simple busca explicar y como función de una únicavariable independiente x. Sin embargo, en la práctica es imposible obtener conclusionesceteris paribus sobre cómo x afecta a y. El supuesto 3.6.3 según el cual los otros factoresafectando a y no están correlacionados con x es irreal.El análisis de regresión múltiple permite explícitamente controlar por muchos

factores que afectan simultáneamente a la variable dependiente, acercando la posibilidadde obtener conclusiones ceteris paribus.Naturalmente añadir variables que expliquen a y ayudan a que el modelo explique una

mayor variabilidad en y. Así puede mejorar la predicción del modelo. Además la regresiónmúltiple permite incorporar más formas funcionales (más allá de lin-lin, log-lin etc.).

Ejemplo Wooldridge 1: El modelo wage = β0 + β1educ + u puede mejorarse al incluirla variable experiencia: wage = β0 + β1educ + β2exper + u. En el modelo linealsimple, la experiencia quedaba relegada al término de perturbación, y era necesariosuponer que no estaba correlacionada con educación, algo que en realidad no pareceser cierto. En ese caso el coeciente β1 estaría sesgado. Al incluir explícitamenteexperiencia el coeciente β1 representa el efecto ceteris paribus sobre el salario decambios en la educación, controlando por experiencia y otros factores. Antes noera posible mantener la experiencia ja, y no era posible realmente el análisis ceterisparibus. Ahora el parámetro β2 reeja el efecto de la experiencia sobre el salario,manteniendo la educación y otros factores constantes.

Ejemplo Wooldridge 2: El análisis de regresión múltiple permite además obtener formasfuncionales más elaboradas. Becker y Mincer argumentan que la relación entreel salario y la experiencia no es lineal, así que podría plantearse que el modeloeconométrico adecuado es de la forma wage = β0+β1educ+β2exper+β3exper

2+u.Note que el modelo sigue siendo lineal en los parámetros pero ahora cambia lainterpretación de los parámetros. En particular β2 ya NO es el cambio en el salarioante un cambio unitario en la experiencia (no tiene sentido medir el cambio de lossalarios ante cambios en exper manteniendo jo exper2).

4.1. Modelo de regresión lineal múltiple (mrlm)

Podemos utilizar k− 1 variables explicativas x1, . . . , xk−1 para explicar a y. Hay k− 1variables porque en total queremos que el modelo contenga k parámetros poblacionalesdesconocidos a estimar (k − 1 parámetros asociados a cada variable explicativa y unintercepto).

51

Page 52: Notas_econometria

4 Regresión múltiple

Entonces el modelo de regresión lineal múltiple (mrlm) puede ser escrito en lapoblación como

y = β0 + β1x1 + · · ·+ βk−1xk−1 + u

donde β0 es el intercepto, βj es el parámetro asociado con xj (j = 1, . . . , k − 1) y u esel término de perturbación. El término de perturbación contiene factores diferentesa x1, . . . , xk−1 que afectan a y.Como hay un intercepto y k− 1 parámetros para k− 1 variables explicativas, en total

el modelo contiene k parámetros poblacionales desconocidos.Para hacer observaciones ceteris paribus debe imponerse una condición probabilística

sobre la relación entre las variables independientes x1, . . . , xk−1 y u.

Supuesto 4.1.1. Media condicional cero

E (u|x1, . . . , xk−1) = E (u) = 0

El supuesto es que el valor esperado de u, condicional a valores para las k − 1 va-riables explicativas x1, . . . , xk−1 es 0. El valor promedio de u no depende de los va-lores de x1, . . . , xk−1 (para cualesquier valor de x1, . . . , xk−1 el promedio de u dadox1, . . . , xk−1 es siempre igual). En particular, u no está correlacionado con cualquierfunción de x1, . . . , xk−1: E (u|f (x1, . . . , xk−1)) = E (u) = 0. Cualquier situación quepermita a u estar correlacionado con alguna variable xj rompe con el supuesto 4.1.1.

4.2. Estimación por Mínimos cuadrados ordinarios (OLS)

Se busca estimar k parámetros poblacionales desconocidos. Para ello utilizamos lainformación dada por una muestra aleatoria xi1, . . . , xik−1, yi : i = 1, . . . , n de tamañon tomada de la población de interés.La ecuación OLS estimada puede escribirse como

y = β0 + β1x1 + · · ·+ βk−1xk−1

y podemos denir los residuales como

ui = yi − yi

El estimador de mínimos cuadrados ordinarios puede hallarse resolviendo el problemade minimizar la suma del cuadrado de los residuales estimados

mınβ0, β1,..., βk−1

n∑i=1

u2i =

n∑i=1

(yi − β0 − β1xi1 − · · · − βk−1xik−1

)2

52

Page 53: Notas_econometria

4 Regresión múltiple

cuyas condiciones de primer orden son

−2n∑i=1

(yi − β0 − β1xi1 − · · · − βk−1xik−1

)= 0

−2n∑i=1

xi1

(yi − β0 − β1xi1 − · · · − βk−1xik−1

)= 0

...

−2n∑i=1

xik−1

(yi − β0 − β1xi1 − · · · − βk−1xik−1

)= 0

Así se satisfacen las siguientes relaciones: si hay constante en la regresión

y = β0 + β1x1 + · · ·+ βk−1xk−1

y en ese caso se tiene quey = y

Para una regresión lineal múltiple se satisface además

n∑i=1

xij ui = 0 (4.1)

para j = 1, . . . , k− 1. Note que estas condiciones de primer orden de mínimos cuadradospueden ser vistas también a través del método de momentos.

Ejercicio: Hallar los estimadores de los parámetros poblacionales β0, β1, . . . , βk−1 utili-zando el método de momentos. Ayuda: E (u) = 0, E (xju) = 0.

4.2.1. Estimación OLS con variables centradas

Es útil algunas veces considerar la regresión múltiple con variables centradas, es decir,cuyo promedio aritmético es cero en la muestra.En particular nos interesa saber cómo cambian los coecientes estimados con variables

no centradas al centrar las variables. La intuición indica que la constante estimada puedecambiar, pero que los efectos recogidos por los demás parámetros no debería ser diferente,ya que las pendientes no han cambiado. Efectivamente este es el resultado que mostramosa continuación.Suponga que se estima el modelo estándar

y = β0 + β1x1 + · · ·+ βk−1xk−1 + u

53

Page 54: Notas_econometria

4 Regresión múltiple

de donde se obtiene que los coecientes estimados satisfacen

n∑i=1

(yi − β0 − β1xi1 − · · · − βk−1xik−1

)= 0

n∑i=1

xi1

(yi − β0 − β1xi1 − · · · − βk−1xik−1

)= 0

...n∑i=1

xik−1

(yi − β0 − β1xi1 − · · · − βk−1xik−1

)= 0

En particular al hacer la regresión múltiple con constante obtuvimos

β0 = y − β1x1 − · · · − βk−1xk−1

Ahora se estima el modelo con variables centradas muestralmente

y − y = β0 + β1 (x1 − x1) + · · ·+ βk−1 (xk−1 − xk−1) + v

Las condiciones de primer orden que satisfacen los nuevos estimadores, con variablescentradas, son

n∑i=1

((yi − y)− β0 − β1 (xi1 − x1)− · · · − βk−1 (xik−1 − xk−1)

)= 0

n∑i=1

(xi1 − x1)(

(yi − y)− β0 − β1 (xi1 − x1)− · · · − βk−1 (xik−1 − xk−1))

= 0

...n∑i=1

(xik−1 − xk−1)(

(yi − y)− β0 − β1 (xi1 − x1)− · · · − βk−1 (xik−1 − xk−1))

= 0

De la primera condición se obtiene

β0 = 0

y las demás condiciones pueden escribirse como

n∑i=1

xi1

(yi −

(y − β1x1 − · · · − βk−1xk−1

)− β1xi1 − · · · − βk−1xik−1

)= 0

...n∑i=1

xik−1

(yi −

(y − β1x1 − · · · − βk−1xk−1

)− β1xi1 − · · · − βk−1xik−1

)= 0

54

Page 55: Notas_econometria

4 Regresión múltiple

Ahora, si denimosb0 = y − β1x1 − · · · − βk−1xk−1

entonces tenemos que los nuevos estimadores OLS para variables centradas satisfacen

n∑i=1

(yi − b0 − β1xi1 − · · · − βk−1xik−1

)= 0

n∑i=1

xi1

(yi − b0 − β1xi1 − · · · − βk−1xik−1

)= 0

...n∑i=1

xik−1

(yi − b0 − β1xi1 − · · · − βk−1xik−1

)= 0

que son exactamente las mismas condiciones de primer orden que satisfacen los esti-madores OLS para las variables no centradas (teniendo en cuenta la nueva variable deintercepto cticia b0). Por lo tanto el único parámetro OLS que cambia al centrar to-das las variables es el estimador para el intercepto. Los estimadores para las pendientessiguen siendo los mismos.Este resultado intuitivo está en correspondencia con lo que sucede en la población. Si

el modelo poblacional es

y = β0 + β1x1 + · · ·+ βk−1xk−1 + u

entonces claramente se satisface

y − E [y] = β1 (x1 − E [x1]) + · · ·+ βk−1 (xk−1 − E [xk−1]) + u

y los estimadores no deberían entonces cambiar, excepto para el intercepto.

4.2.2. Interpretación de los estimadores OLS

La ecuación OLS estimada puede escribirse como

y = β0 + β1x1 + · · ·+ βk−1xk−1

y se tiene entonces que β0 es el valor pronosticado por el modelo para y (es el valor y)en el caso que x1 = · · · = xk−1 = 0.Los estimadores βj tienen interpretación como los efectos parciales de la variable xj

sobre y, en un contexto ceteris paribus:

∆y = β1∆x1 + · · ·+ βk−1∆xk−1

de forma que se puede obtener el cambio pronosticado en y dados los cambios en x1, . . . , xk−1.Si hacemos ∆x1 = · · · = ∆xj−1 = ∆xj+1 = · · · = ∆xk−1 = 0 entonces se tiene

∆y = βj∆xj

55

Page 56: Notas_econometria

4 Regresión múltiple

Así el coeciente βj representa el cambio pronosticado por el modelo en y dado un cambiode una unidad en xj bajo el supuesto ceteris paribus, manteniendo todo lo demás cons-tante. Note que explícitamente las variables diferentes a xj se mantuvieron constantes.Es decir, se controla por las demás variables para estimar el efecto de xj en y.Esta es una de las ventajas de la regresión múltiple: provee una interpretación ceteris

paribus para los coecientes estimados, incluso cuando los datos no fueron recolectadosde una manera ceteris paribus. Permite mantener otros factores jos.

4.3. Computación de los estimadores OLS

Para hallar los estimadores OLS utilizamos la información dada por una muestra alea-toria xi1, . . . , xik−1, yi : i = 1, . . . , n de tamaño n. Para cada observación suponemosque se satisface el modelo lineal

yi = β0 + β1xi1 + · · ·+ βk−1xik−1 + ui

y al tener n observaciones se tiene un sistema de n ecuaciones

y1 = β0 + β1x11 + · · ·+ βk−1x1k−1 + u1

......

yn = β0 + β1xn1 + · · ·+ βk−1xnk−1 + un

Si representamos las observaciones de la muestra por los siguientes vectores (aclaramosque u no es observable)

y =

y1...yn

u =

u1...un

x1 =

x11...xn1

. . . xk−1 =

x1k−1...

xnk−1

nuestro sistema de n ecuaciones puede representarse como y1

...yn

=

1...1

β0 +

x11...xn1

β1 + · · ·+

x1k−1...

xnk−1

βk−1 +

u1...un

o de forma compacta

y = 1β0 + x1β1 + · · ·+ xk−1βk−1 + u

y =[

1 x1 . . . xk−1

]

β0

β1...

βk−1

+ u

y = Xβ + u

56

Page 57: Notas_econometria

4 Regresión múltiple

donde 1 es un vector de n unos. Bajo esta representación compacta del modelo de regre-sión múltiple β =

[β0 β1 . . . βk−1

]′es el vector de parámetros poblacionales a ser

estimado y X =[

1 x1 . . . xk−1

]es una matriz que reúne a las variables indepen-

dientes (incluida la constante). A X la llamamos matriz de diseño. Suponemos que Xtiene columnas linealmente independientes: ninguna variable explicativa es combinaciónlineal de las demás. Si lo fuera, no estaría aportando información adicional.Note que X ′X es una matriz simétrica (es igual a su propia transpuesta). Además, por

álgebra lineal, se cumple la siguiente propiedad:

rank(X ′X

)= rank (X)

y como las columnas de X son linealmente independientes, entonces rank (X) = k =rank (X ′X) y por lo tanto la matriz X ′X es de rango completo, y es invertible.Matricialmente el problema es el siguiente

mınβ

u′u =(y −Xβ

)′ (y −Xβ

)que puede expresarse como

mınβ

u′u = y′y − 2β′X ′y + β′X ′Xβ

porque β′X ′y =(y′Xβ

)′= y′Xβ al ser reales.

La minimización de esta forma cuadrática es un problema común en cálculo y se puederesolver a través del cálculo diferencial (derivando). Recordemos entonces algunas reglasde derivación para problemas cuadráticos en matrices (ver subsección 2.3.2): si A es unamatriz (k × k) simétrica y si z y w son vectores columna (k × 1) entonces

∂(z′w)/∂z = w ∂(z′Az)/∂z = 2Az

Entonces derivando la suma de residuales al cuadrado e igualando a cero obtenemos lasiguiente condición de primer orden:

−2X ′y + 2X ′Xβ = 0

y bajo el supuesto que X ′X es una matriz de rango completo (no hay variables explicati-vas linealmente dependientes en la muestra) se llega al estimador de mínimos cuadradosordinarios

β =(X ′X

)−1

X ′y (4.2)

La condición de primer orden del estimador de mínimos cuadrados dice que

X ′ (y − y) = X ′u = 0

que es la condición que obtendríamos al utilizar el método de momentos.

57

Page 58: Notas_econometria

4 Regresión múltiple

4.3.1. Regresión múltiple vs. Regresión simple: el efecto de una variableadicional

Es interesante preguntarse: ¾cuándo los coecientes obtenidos por regresión simplecoinciden con aquéllos obtenidos por regresión múltiple?La misma pregunta puede responderse si consideramos cuál es el efecto de añadir una

nueva variable sobre los estimadores obtenidos antes de la nueva variable: ¾cuándo losestimadores β para un modelo lineal y = β0 + β1x1 + · · · + βk−1xk−1 + u coinciden conlos estimadores β que se obtienen para el mismo modelo pero añadiendo una variableadicional y = β0 + β1x1 + · · ·+ βk−1xk−1 + βkxk + u?Hay dos maneras en que la estimación anterior y la nueva estimación pueden coincidir

para los parámetros β0, . . . , βk−1:

Si se estima que el efecto de la nueva variable xk sobre y es nulo (es decir, βk = 0).

Si la variable xk no está correlacionada muestralmente con las demás variablesindependientes.

Para verlo, suponga que se estimó el siguiente modelo

y = β0 + β1x1 + · · ·+ βk−1xk−1 + u

y se obtuvieron las condiciones de primer orden

n∑i=1

(yi − β0 − β1xi1 − · · · − βk−1xik−1

)= 0

n∑i=1

xi1

(yi − β0 − β1xi1 − · · · − βk−1xik−1

)= 0

...n∑i=1

xik−1

(yi − β0 − β1xi1 − · · · − βk−1xik−1

)= 0

Ahora supongamos que el investigador considera que una variable adicional xk esimportante para el análisis y decide volver a estimar el modelo. Las condiciones de primer

58

Page 59: Notas_econometria

4 Regresión múltiple

orden son:

n∑i=1

(yi − β0 − β1xi1 − · · · − βk−1xik−1 − βkxik

)= 0

n∑i=1

xij

(yi − β0 − β1xi1 − · · · − βk−1xik−1 − βkxik

)= 0

...n∑i=1

xik−1

(yi − β0 − β1xi1 − · · · − βk−1xik−1 − βkxik

)= 0

n∑i=1

xik

(yi − β0 − β1xi1 − · · · − βk−1xik−1 − βkxik

)= 0

y si se obtuvo en la nueva estimación que βk = 0, las condiciones de primer orden sepueden simplicar a

n∑i=1

(yi − β0 − β1xi1 − · · · − βk−1xik−1

)= 0

n∑i=1

xij

(yi − β0 − β1xi1 − · · · − βk−1xik−1

)= 0

...n∑i=1

xik−1

(yi − β0 − β1xi1 − · · · − βk−1xik−1

)= 0

donde la última condición (respecto a xk) se omite al saber que βk = 0. Estas condicionesson exactamente las mismas condiciones de primer orden que caracterizan a la estimaciónsin considerar la variable adicional. En ese caso se obtienen los mismos coecientes quese tenían sin incluir la variable adicional.Para mostrar el segundo caso utilizamos el modelo matricial. El álgebra lineal en este

caso facilita la demostración.Por facilidad suponemos que trabajamos con variables centradas muestralmente (es

decir, que su promedio en la muestra es cero). Como vimos en la subsección 4.2.1 estesupuesto se puede hacer sin ninguna pérdida de generalidad.Suponga que inicialmente se estimó el modelo

y = Xβ + u

donde X =[

1 x1 . . . xk−1

], se obtuvo el estimador por OLS

β =(X ′X

)−1X ′y

y se desea añadir ahora la variable xk.

59

Page 60: Notas_econometria

4 Regresión múltiple

SeaX =

[X xk

]=[

1 x1 . . . xk−1 xk

]la nueva matriz de diseño. Recuerde que xj es un vector columna de dimensión (n× 1).En este caso el nuevo estimador por mínimos cuadrados ordinarios es

β =(X ′X

)−1X ′y

=([

X ′

xk′

] [X xk

])−1 [X ′

xk′

]y

=[X ′X X ′xk

xk′X xk

′xk

]−1 [X ′

xk′

]y

Analicemos el término xk′X:

xk′X = xk

′ [ 1 x1 . . . xk−1

]=

[xk′1 xk

′x1 . . . xk′xk−1

]=

[ ∑ni=1 xik

∑ni=1 xi1xik . . .

∑ni=1 xik−1xik

]Bajo el supuesto que la variable xk no está correlacionada en la muestra con ninguna de

las otras variables explicativas, y bajo el supuesto que todas las variables tienen promedioaritmético cero (porque son variables centradas) entonces claramente

xk′X = 0

En ese caso

β =[X ′X X ′xk

xk′X xk

′xk

]−1 [X ′

xk′

]y

=[X ′X 0

0 xk′xk

]−1 [X ′

xk′

]y

=[

(X ′X)−1 00 (xk

′xk)−1

] [X ′

xk′

]y

=[

(X ′X)−1X ′y(xk′xk)−1 xk

′y

]y podemos concluir que

β =[

β

(xk′xk)−1 xk

′y

]Como los parámetros estimados para las pendientes no cambian si las variables son

centradas o no, se concluye que en el caso en que la variable adicional no esté muestral-mente correlacionada con las demás variables, entonces los parámetros estimados con lavariable adicional para las pendientes de las demás variables no cambian, con respecto ala estimación sin la variable adicional.

60

Page 61: Notas_econometria

4 Regresión múltiple

4.3.2. Efectos del cambio de unidades en la estimación OLS

Con el n de interpretar adecuadamente los coecientes del modelo de regresión lineales clave conocer las unidades en que están expresadas las diferentes variables del modelo.Es necesario saber que los estimadores OLS cambian en la forma obvia que uno puede

esperar al cambiar las unidades de medida de las variables independientes y la variabledependiente.Para ver cómo cambios en las unidades de medida afecta la estimación OLS, suponga

que se tiene originalmente el modelo

y = Xβ + u

y de acuerdo con la ecuación (4.2) su estimador por mínimos cuadrados ordinarios es

β =(X ′X

)−1X ′y

Recordemos que la matriz de diseño contiene todas las variables independientes rele-vantes en el modelo

X =[

1 x1 . . . xk−1

]y supongamos ahora que hay un cambio de unidades. En ese caso obtenemos una matrizde diseño alternativa

X =[

1 x1 . . . xk−1

]donde

xj = rjxj

El factor de re-escalamiento rj ∈ R es el que convierte las unidades iniciales de la varia-ble j en las unidades nuevas que estamos interesados en analizar. En términos matricialesse tiene

X =[

1 x1 . . . xk−1

]=

[1 r1x1 . . . rnxk−1

]=

[1 x1 . . . xk−1

]

1 0 . . . 00 r1 . . . 0...

.... . .

...0 0 . . . rk−1

= XR

donde R = Diag([

1 r1 . . . rk−1

])es la matriz de cambio de unidades.

Note que R es una matriz simétrica e invertible si rj 6= 0 para 1 ≤ j ≤ k − 1.De igual manera se pueden cambiar las unidades de la variable dependiente

y = sy

con s ∈ R.

61

Page 62: Notas_econometria

4 Regresión múltiple

Con este cambio de unidades se quiere estimar el modelo

y = Xβ + u

y al hacer la estimación por mínimos cuadrados ordinarios (note que el cambio en uni-dades no afecta ningún supuesto necesario para la estimación) se tiene

β =(X ′X

)−1X ′y

=((XR)′XR

)−1 (XR)′ (sy)

= s(R′X ′XR

)−1R′X ′y

= sR−1(X ′X

)−1 (R′)−1

R′X ′y

= sR−1(X ′X

)−1X ′y

β = sR−1β

y se tiene entonces que β0

β1...

βk−1

= s

β01r1β1

...1

rk−1βk−1

De esta forma comprobamos que el cambio de unidades cambia las unidades de los

estimadores de la forma esperada:

Multiplicar la variable dependiente y por s en el cambio de unidades hace que todoslos parámetros estimados sean multiplicados por el mismo valor s.Claramante, un cambio en una unidad en alguna variable independiente represen-taba un cambio en βj unidades en y, y ese cambio es a su vez un cambio de sβjunidades en y.Utilizando cálculo diferencial, si ∂y

∂xj= βj entonces

∂y∂xj

= ∂y∂y

∂y∂xj

= sβj .

Multiplicar una variable independiente xj por rj en el cambio de unidades haceque el parámetro βj esté dividido por rj .Claramente, un cambio en una unidad de xj ocasionaba un cambio en βj unidadesde y. Pero un cambio de una unidad en xj es un cambio de 1

rjunidades de xj , que

ocasiona un cambio de 1rjβj en y.

Utilizando cálculo diferencial, si ∂y∂xj

= βj entonces∂y∂xj

= ∂y∂xj

∂xj∂xj

= 1rjβj .

Ejercicio: En la subsección 4.5.1 denimos el coeciente de determinación R2 para elmodelo de regresión múltiple. Demuestre que este coeciente no cambia al cambiarlas unidades del modelo.

62

Page 63: Notas_econometria

4 Regresión múltiple

4.3.3. Regresión simple como caso particular de la regresión múltiple

Suponga que se tiene el modelo poblacional

y = β0 + β1x1 + u

con una variable explicativa. Es el caso de la regresión simple, pero vamos a abordarlocon la maquinaria desarrollada para la regresión múltiple.Para ello suponemos que se dispone de la información dada por una muestra aleato-

ria xi1, yi : i = 1, . . . , n de tamaño n. Las observaciones de nuestra muestra cumplenentonces

y1 = β0 + β1x11 + u1

......

yn = β0 + β1xn1 + un

Nuestro sistema de n ecuaciones puede representarse como y1...yn

=

1...1

β0 +

x11...xn1

β1 +

u1...un

El modelo de regresión simple puede representarse de forma compacta

y = 1β0 + x1β1 + u

y =[

1 x1

] [ β0

β1

]+ u

y = Xβ + u

donde 1 es un vector de n unos.Vamos a utilizar la regla (4.2) para obtener el estimador por mínimos cuadrados ordi-

nariosβ =

(X ′X

)−1X ′y

Primero analizamos la matriz simétrica (que suponemos es denida positiva) X ′X

X ′X =[

1 x1

]′ [ 1 x1

]=

[1′

x′1

] [1 x1

]=

[1′1 1′x1

x′11 x′1x1

]Al estudiar cuidadosamente cada componente de esta matriz concluimos que

X ′X =[

n∑n

i=1 xi1∑ni=1 xi1

∑ni=1 x

2i1

]

63

Page 64: Notas_econometria

4 Regresión múltiple

Una vez tenemos una expresión para X ′X podemos calcular fácilmente su inversa`X ′X

´−1=

1

det (X ′X)

ˆcof

`X ′X

´˜′=

1

nPni=1 x

2i1 −

`Pni=1 xi1

´2 » Pni=1 x

2i1 −

Pni=1 xi1

−Pni=1 xi1 n

–=

1

nPni=1 (xi1 − x1)2

» Pni=1 x

2i1 −

Pni=1 xi1

−Pni=1 xi1 n

–Esta es una matriz de momentos de la variable independiente x1.Ahora analizamos la matriz X ′y de tamaño 2× 1:

X ′y =[

1 x1

]′ y=

[1′

x′1

]y

=[

1′yx′1y

]Al estudiar cuidadosamente cada componente de esta matriz

X ′y =[ ∑n

i=1 yi∑ni=1 xi1yi

]Este es un vector que contiene momentos de la variable dependiente y con la variable

x1.Con esta información podemos obtener una expresión explícita para β:

β =`X ′X

´−1X ′y

=1

nPni=1 (xi1 − x1)2

» Pni=1 x

2i1 −

Pni=1 xi1

−Pni=1 xi1 n

– » Pni=1 yiPn

i=1 xi1yi

–=

1

nPni=1 (xi1 − x1)2

» Pni=1 x

2i1

Pni=1 yi −

Pni=1 xi1

Pni=1 xi1yi

−Pni=1 xi1

Pni=1 yi + n

Pni=1 xi1yi

–=

1Pni=1 (xi1 − x1)2

»yPni=1 x

2i1 − x1

Pni=1 xi1yiPn

i=1 xi1yi − x1

Pni=1 yi

–=

1Pni=1 (xi1 − x1)2

»yPni=1 (xi1 − x1)2 + nx2

1 − x1

Pni=1 xi1yiPn

i=1 (xi1 − x1) yi

–=

1Pni=1 (xi1 − x1)2

»yPni=1 (xi1 − x1)2 − x1

Pni=1 (xi1 − x1) yiPn

i=1 (xi1 − x1) yi

–Ahora podemos simplicar la expresión para β:

β =`X ′X

´−1X ′y

=1Pn

i=1 (xi1 − x1)2

»yPni=1 (xi1 − x1)2 − x1

Pni=1 (xi1 − x1) yiPn

i=1 (xi1 − x1) yi

–Se concluye de esta expresión que

β =[β0

β1

]=

y − x1

Pni=1(xi1−x1)(yi−y)Pn

i=1(xi1−x1)2Pni=1(xi1−x1)(yi−y)Pn

i=1(xi1−x1)2

64

Page 65: Notas_econometria

4 Regresión múltiple

y por lo tanto se tiene matricialmente

β1 =∑n

i=1 (xi1 − x1) (yi − y)∑ni=1 (xi1 − x1)2

β0 = y − x1β1

que son los mismos estimadores presentados en el capítulo 4.

4.3.4. Regresión particionada

Es común especicar un modelo de regresión múltiple donde el interés (para el análisiseconómico) se centra en un subconjunto de todas las variables explicativas. Consideramosentonces cómo se pueden obtener, aisladamente, los coecientes de un subconjunto devariables de una regresión múltiple.Suponga que se tiene un modelo lineal múltiple

y = β0 + β11x

11 + · · ·+ β1

k1x1k1−1 + β2

1x21 + · · ·+ β2

k2x2k2 + u

donde los regresores están particionados en dos grupos: el grupo número 1 (las variablesx1

1, . . . , x1k1−1 y la constante) y el grupo número 2 (las variables x2

1, . . . , x2k1). Suponga

además que utilizamos la información dada por una muestra aleatoriax1i1, . . . , x

1ik1−1, x

2i1, . . . , x

2ik2 , yi : i = 1, . . . , n

de tamaño n tomada de la población de interés.En forma compacta el modelo puede escribirse como

y = Xβ + u

=[X1 X2

] [ β1

β2

]+ u

= X1β1 +X2β2 + u

donde X1 es la matriz de diseño para las variables del grupo 1, X2 es la matriz de diseñopara las variables del grupo 2, β1 es un vector de parámetros poblacionales asociado conlas variables del grupo 1 de tamaño k1×1 y β2 es un vector de parámetros poblacionalesasociado con las variables del grupo 2 de tamaño k2 × 1. Note que X =

[X1 X2

]y

β =[β1

β2

]El estimador OLS de este modelo es el usual

β =(X ′X

)−1X ′y

de donde se obtiene la relación[X1 X2

]′ [X1 X2

] [ β1

β2

]=

[X1 X2

]′ y[X ′1X ′2

] [X1 X2

] [ β1

β2

]=

[X ′1X ′2

]y[

X ′1X1 X ′1X2

X ′2X1 X ′2X2

] [β1

β2

]=

[X ′1yX ′2y

]

65

Page 66: Notas_econometria

4 Regresión múltiple

Se trata de un sistema de dos ecuaciones vectoriales con dos incógnitas vectoriales.Observando la primera la

X ′1X1β1 +X ′1X2β2 = X ′1y

de donde se tieneX ′1X1β1 = X ′1

(y −X2β2

)y bajo el supuesto que X ′1X1 es invertible

β1 =(X ′1X1

)−1X ′1

(y −X2β2

)(4.3)

Suponga que las variables del grupo X1 son ortogonales con las variables del grupoX2. En ese caso se tiene X ′1X2 = 0 y la ecuación se reduce a

β1 =(X ′1X1

)−1X ′1y

que es el resultado que se obtendría haciendo la regresión de y sobre X1.Siguiendo el mismo procedimiento puede mostrarse que

β2 =(X ′2X2

)−1X ′2

(y −X1β1

)y nuevamente la ortogonalidad entre X1 y X2 implica que X ′2X1 = 0 y

β2 =(X ′2X2

)−1X ′2y

que es el resultado que se obtendría haciendo la regresión de y sobre X2.

Ahora, utilizando β2 = (X ′2X2)−1X ′2

(y −X1β1

)y sustituyendo β1 = (X ′1X1)−1X ′1

(y −X2β2

):

β2 =(X ′2X2

)−1X ′2

(y −X1β1

)=

(X ′2X2

)−1X ′2y −

(X ′2X2

)−1X ′2X1

((X ′1X1

)−1X ′1

(y −X2β2

))=

(X ′2X2

)−1X ′2y −

(X ′2X2

)−1X ′2X1

(X ′1X1

)−1X ′1y +

(X ′2X2

)−1X ′2X1

(X ′1X1

)−1X ′1X2β2

de donde(X ′2X2

)−1X ′2

(In −X1

(X ′1X1

)−1X ′1

)X2β2 =

(X ′2X2

)−1X ′2

(In −X1

(X ′1X1

)−1X ′1

)y

X ′2

(In −X1

(X ′1X1

)−1X ′1

)X2β2 = X ′2

(In −X1

(X ′1X1

)−1X ′1

)y

Denimos la matrizM1 = In −X1

(X ′1X1

)−1X ′1

esta matriz es idempotente y simétrica:

M1M1 = M1 M ′1 = M1

66

Page 67: Notas_econometria

4 Regresión múltiple

y satisface M1X1 = 0, razón por la que se le llama la matriz aniquiladora (un conceptode álgebra).Obtenemos entonces la siguiente expresión para β2:

β2 =(X ′2M1X2

)−1X ′2M1y (4.4)

Por otra parte, considere la regresión de y sobre X1 únicamente: y = X1b1 + e. Alrealizar la estimación OLS de esta regresión se obtiene el estimador

b1 =(X ′1X1

)−1X ′1y

y se tiene que los residuales de esta regresión son

e = y −X1b1

= y −X1

(X ′1X1

)−1X ′1y

=(In −X1

(X ′1X1

)−1X ′1

)y

e = M1y

Estos residuales e = M1y resumen la información contenida en y que no es explicadapor las variables X1.Ahora consideramos las regresiones de cada columna de la matrizX2 sobre las variables

X1. Se quiere estimar el modelox2

j = X1aj + v

donde x2j es la matriz j-ésima de la matriz X2, con 1 ≤ j ≤ k2. El estimador OLS de

este modelo esaj =

(X ′1X1

)−1X ′1x

2j

y los residuales de esta regresión están dados por

fj = x2j −X1aj

= M1x2j

Haciendo esta regresión para todas las variables del conjunto X2 se obtienen los res-pectivos residuales, que se pueden agrupar en una matriz de diseño

f =[

f1 f2 . . . fk2

]=

[M1x2

1 M1x22 . . . M1x2

k2

]= M1

[x2

1 x22 . . . x2

k2

]f = M1X2

Finalmente se hace la regresión de los residuales de una regresión de y sobre únicamenteX1 sobre el conjunto de residuales obtenidos cuando se hace la regresión de cada columnade X2 sobre las variables X1. Es decir, queremos estimar el modelo

e = fB + w

M1y = M1X2B + w

67

Page 68: Notas_econometria

4 Regresión múltiple

y el estimador OLS de este modelo es

B =[(M1X2)′ (M1X2)

]−1 (M1X2)′M1y

=[X ′2M

′1M1X2

]−1X ′2M

′1M1y

=(X ′2M1X2

)−1X ′2M1y

B = β2

4.4. Propiedades estadísticas de la estimación OLS

El estimador puntual por mínimos cuadrados ordinarios del vector de parámetros po-blacionales β depende de una muestra particular. Para cada posible muestra de la po-blación a estudiar se podría obtener un estimador diferente, siguiendo la regla OLSβ = (X ′X)−1X ′y. Por lo tanto β es un vector aleatorio. Si nos imaginamos que puedenobtenerse muestras repetidas diferentes de la población, podemos obtener propiedadesestadísticas del estimador OLS.Para ello necesitamos algunos supuestos:

Supuesto 4.4.1. Linealidad en parámetros: En la población las variables y y x1, . . . , xk−1

están relacionadas por

y = β0 + β1x1 + · · ·+ βk−1xk−1 + u

donde y, x1, . . . , xk−1 y u son variables aleatorias.

Supuesto 4.4.2. Muestreo aleatorio: Es posible obtener muestras aleatorias de la pobla-

ción a estudiar. Así exise una muestra aleatoria de tamaño n xi1, . . . , xik−1, yi : i = 1, . . . , nproveniente de la población.

Supuesto 4.4.3. Media condicional cero:

E (u|x1, . . . , xk−1) = E (u) = 0

y para la muestra se tiene que E (ui|xi1, . . . , xik−1) = 0 para i = 1, . . . , n.

Este supuesto puede fallar si la forma funcional especicada no corresponde al modelopoblacional (por ejemplo no incluir algún término cuadrático, o utilizar variables enniveles cuando en la población está en logaritmos etc).Omitir algún factor importante que esté correlacionado con x1, . . . , xk−1 también puede

hacer fallar este supuesto. En este caso la estimación puede tener sesgo por variableomitida correlacionada (¾qué pasa si la variable omitida no está correlacionada con lasvariables independientes que están en el modelo?).Finalmente requerimos un supuesto adicional para asegurar que los estimadores OLS

estén bien denidos. Así como en la regresión simple se requería variabilidad en la variableindependiente, para la regresión múltiple debe imponerse un supuesto análogo:

68

Page 69: Notas_econometria

4 Regresión múltiple

Supuesto 4.4.4. No multicolinealidad perfecta: No hay relaciones lineales exactas entre

las variables explicativas. Matemáticamente esto es rank (X) = k y puede verse como:

Todas las variables explicativas son linealmente independientes entre sí.

La matriz de diseño tiene rango completo por columnas.

Note que la violación de este supuesto implicaría que X ′X no es una matriz invertible,al tener dos o más las linealmente dependientes. La violación del supuesto impide laestimación por mínimos cuadrados ordinarios. Sin embargo debe aclararse que las varia-bles independientes sí pueden estar correlacionadas entre sí. Lo único que se pide es queesa correlación no sea perfecta.Note además que el supuesto de no multicolinealidad perfecta implica que necesaria-

mente n ≥ k, es decir, que se al menos tantos datos como parámetros haya a estimar.Esto porque

k = rank (X) ≤ mın n, k

al ser X una matriz de tamaño n× k.

Ejemplo: Considere el caso en el que n = k, es decir, hay el mismo número de datosy de parámetros a estimar. Suponga que se cumplen los supuestos 4.4.1-4.4.4. Elestimador por mínimos cuadrados ordinarios es

β =(X ′X

)−1X ′y

pero como n = k, se tiene que rank (X) = k = n y que X es una matriz cuadradade tamaño n × k = k × k. Toda matriz cuadrada de rango completo es invertible,así que para el caso particular en que n = k y no hay multicolinealidad perfecta,se tiene que existe X−1. En ese caso el estimador OLS puede simplicarse a

β = X−1y

El vector de residuales estimados en este caso es cero:

y −Xβ = y −XX−1y = 0

y el hiperplano de regresión se ajusta perfectamente a los datos disponibles.

Ejemplo: El modelocons = β0 + β1inc+ β2inc

2 + u

no viola el supuesto de no perfecta multicolinealidad. Si bien claramente inc y inc2

están correlacionados, la correlación no es perfecta.Sin embargo una extensión ingenua del modelo, como por ejemplo

ln cons = β0 + β1 ln inc+ β2 ln inc2 + u

genera claramente el problema de multicolinealidad perfecta. El problema aquí esque es imposible identicar (separar) los parámetros β1 y β2.

69

Page 70: Notas_econometria

4 Regresión múltiple

4.4.1. Insesgamiento

El estimador OLS puede expresarse como

β =(X ′X

)−1X ′y

=(X ′X

)−1X ′ (Xβ + u)

= β +(X ′X

)−1X ′u

y tomando valor esperado, condicional a la muestra X

E(β|X

)= E

(β +

(X ′X

)−1X ′u|X

)= β + E

((X ′X

)−1X ′u|X

)= β +

(X ′X

)−1X ′E (u|X)

= β

Note que el supuesto de media condicional cero E (u|X) = E (u) = 0 es clave paraobtener este resultado.Así, en promedio, el estimador de mínimos cuadrados ordinarios acierta en el valor

poblacional.

Efectos de sobre-especicación

Suponga que el modelo poblacional es de la forma

y = β0 + β1x1 + · · ·+ βk−1xk−1 + u

y que se satisfacen los supuestos 4.4.1-4.4.4 de forma que el estimador

β =(X ′X

)−1X ′y

es insesgado, donde X =[

1 x1 . . . xk−1

].

Si por alguna razón se decide estimar el modelo

y = β0 + β1x1 + · · ·+ βk−1xk−1 + βkxk + v

donde se incluye la variable adicional xk, de forma tal que se siguen satisfaciendo lossupuestos, entonces el nuevo estimador por mínimos cuadrados ordinarios es

β =(X ′X

)−1X ′y

donde X =[X xk

]=[

1 x1 . . . xk−1 xk

]. La variable adicional xk es una

variable irrelevante en la explicación de y, y en el modelo poblacional el parámetro dependiente de esta variable adicional es cero.

70

Page 71: Notas_econometria

4 Regresión múltiple

Si denimos

β =

β0

β1...

βk−1

0

como el vector de parámetros poblacionales correspondientes al modelo poblacional, en-tonces se cumple y = Xβ + u y se puede mostrar que

β = β +(X ′X

)−1X ′u

Aplicando el valor esperado condicional a todas las variables independientes utilizadasse concluye que

E(β)

= β =

β0

β1...

βk−1

0

y por lo tanto tener un modelo sobre-especicado no afecta el insesgamiento del estimadorOLS.Note que el estimador del parámetro de pendiente de la variable irrelevante no es cero

en cada estimación, aunque en promedio sí lo es, por insesgamiento.Sin embargo estimar un modelo con más variables independientes de lo necesario,

además de romper con el principio de parsimonia, tiene implicaciones negativas sobre lavarianza de los estimadores OLS.

Efectos de variable omitida

Suponga que el modelo poblacional es de la forma

y = β0 + β1x1 + · · ·+ βk−1xk−1 + βkxk + u

y cumple con los supuestos 4.4.1-4.4.4, pero que por alguna razón (falta de datos, igno-rancia o descuido) se omitieron en la estimación variables relevantes para explicar y. Sinpérdida de generalidad podemos suponer que se omitió la última variable xk.En ese caso suponemos que se estimó el modelo

y = β0 + β1x1 + · · ·+ βk−1xk−1 + v

donde v = βkxk + u.Para que los estimadores del modelo con variables omitidas sean insesgados, deberían

cumplirse los supuestos 4.4.1-4.4.4. En particular deberíamos tener que

E (v|x1, . . . , xk−1) = 0

71

Page 72: Notas_econometria

4 Regresión múltiple

Tabla 4.1: Resumen del sesgo en β1 cuando hay una variable omitida correlacionadacorr (x1, x2) > 0 corr (x1, x2) < 0

β2 > 0 Sesgo Positivo Sesgo Negativoβ2 < 0 Sesgo Negativo Sesgo Positivo

(ver Wooldridge (2002)).

Con variables omitidas se tiene que

E (v|x1, . . . , xk−1) = E (βkxk + u|x1, . . . , xk−1)= βkE (xk|x1, . . . , xk−1) + E (u|x1, . . . , xk−1)= βkE (xk|x1, . . . , xk−1)

Si βk = 0 obviamente los estimadores con variable omitida son insesgados, porque enla población la variable omitida no juega ningún papel en explicar a la variable y. Asíque nos interesa el caso en que βk 6= 0.Los estimadores por mínimos cuadrados ordinarios para un modelo con variables omi-

tidas es insesgado en el caso βk 6= 0 si y sólo si

E (xk|x1, . . . , xk−1) = 0

lo cual equivale a pedir que el valor esperado de xk no depende de los valores que tomenlas demás variables independientes. En particular, si xk está correlacionado con algunavariable independiente entonces no se cumplen los supuestos y el estimador OLS parael modelo con variable omitida está sesgado. Esto pasa porque al tener variables omiti-das correlacionadas con las variables independientes incluidas los residuales del modeloincompleto están correlacionados, vía las variables omitidas, con las variables indepen-dientes, generando sesgo en la estimación.De igual forma si la variable omitida no está correlacionada con las demás variables

independientes entonces no hay sesgo en la estimación con variable omitida. Un resultadorelacionado se obtuvo en la subsección 4.3.1, donde añadir una variable que no estácorrelacionada con las otras independientes no cambia el valor estimado de los parámetrosdel modelo.En el caso en que hay correlación, el signo del sesgo depende del signo de la correlación

entre las variables omitidas y las variables independientes incluidas, y en general no esfácil de determinar.Para el sencillo caso de un modelo con dos variables independientes y = β0 + β1x1 +

β2x2 + u en el cual se omite una de ellas en la estimación (por facilidad se omite x2) sepuede establecer el signo del sesgo, que se resume en la Tabla 4.1.

72

Page 73: Notas_econometria

4 Regresión múltiple

4.4.2. Varianza de los estimadores OLS

Se tiene que β = β + (X ′X)−1X ′u y que E (β) = β. Podemos calcular la matriz devarianzas-covarianzas del estimador OLS como sigue:

Σβ = E

((β − β

)(β − β

)′)= E

(((X ′X

)−1X ′u

)((X ′X

)−1X ′u

)′)= E

(((X ′X

)−1X ′u

)(u′X

(X ′X

)−1))

= E((X ′X

)−1X ′uu′X

(X ′X

)−1)

y como estamos tomando valor esperado condicionado al valor en la muestra de lasvariables independientes X, el supuesto E (u|X) = E (u) = 0 nos permite simplicar laanterior expresión

Σβ =(X ′X

)−1X ′E

(uu′)X(X ′X

)−1(X ′X

)−1X ′ΣuX

(X ′X

)−1

ya que por la sección 2.1.2 se tiene que E (uu′) = Σu es la matriz de varianzas-covarianzasdel término de perturbación (Σu es de dimensión (n× n)).Esta es la expresión general para la matriz de varianzas-covarianzas del estimador

OLS insesgado. Obtener esta expresión general sin la ayuda del álgebra lineal puede serbastante dispendioso y por ello lo habíamos aplazado hasta esta subsección (note que nofue necesario utilizar el supuesto simplicador de homoscedasticidad, caso contrario alcapítulo anterior).De ahora en adelante necesitaremos ese supuesto sobre la matriz de varianzas y cova-

rianzas de los términos de perturbación, así que lo enunciamos explícitamente:

Supuesto 4.4.5. Homoscedasticidad: La varianza condicional del término de perturba-

ción es constante

var (u|x1, . . . , xn) = σ2

En particular la matriz de varianzas-covarianzas del término de perturbación para una

muestra de tamaño n es

Σu = σ2In

Bajo el supuesto de homoscedasticidad Σu = σ2In y la expresión de la varianza delestimador OLS se simplica a

Σβ = σ2(X ′X

)−1

Valor esperado y Varianza no condicionados

A partir de los momentos condicionados del estimador OLS puede obtenerse informa-ción no condicionada, gracias a la ley de expectativas iteradas.

73

Page 74: Notas_econometria

4 Regresión múltiple

Suponga que se cumplen los supuestos 4.4.1-4.4.5. Entonces ya se demostró queE(β|X

)=

β y que var(β|X

)= σ2 (X ′X)−1. Se tiene que el valor esperado no condicionado

E(β)

= EX

(E(β|X

))= EX (β) = β

Así el estimador OLS es insesgado incluso no condicionalmente.Respecto a la varianza se tiene la siguiente propiedad (ver Greene (2007), Apéndice

B)

var(β)

= EX

(var

(β|X

))+ varX

(E(β|X

))y entonces

var(β)

= EX

(σ2(X ′X

)−1)

+ varX (β)

= σ2EX

((X ′X

)−1)

Multicolinealidad y micronumerosidad

Podemos intentar caracterizar, de manera intuitiva, la varianza de los estimadoresOLS en el caso de regresión múltiple.

Claramente un mayor valor de σ2 implica una mayor varianza en los estimadoresOLS. Esto porque en términos relativos las variables independientes explican menorvariación en y que la que explica el término de perturbación y esto diculta capturarel efecto parcial que se pretende estimar.

Suponga por un momento que las variables independientes no tienen correlaciónmuestral entre sí, y sin pérdida de generalidad que se trabaja con variables centra-das. En ese caso particular, y sólo como ejemplo,

X ′X = n

1 0 . . . 00 ˆvar (x1) . . . 0...

.... . .

...0 0 . . . ˆvar (xk−1)

de donde se tiene que

Σβ = σ2(X ′X

)−1 =σ2

n

1 0 . . . 00 1

ˆvar(x1) . . . 0...

.... . .

...0 0 . . . 1

ˆvar(xk−1)

En ese caso vemos que

var(βj

)=σ2

n

1ˆvar (xj)

74

Page 75: Notas_econometria

4 Regresión múltiple

y la varianza del estimador disminuye con el tamaño de muestra (n) y con la varian-za muestral de la variable xj . Estos resultados se mantienen para el caso general.Al aumentar el tamaño de la muestra se dispone de más información para poderrealizar la estimación y esto reduce la incertidumbre acerca del valor de los paráme-tros desconocidos. Además una mayor varianza muestral de la variable xj implicaque esta variable explica una mayor proporción de la variación de y y hace másfácil identicar el efecto parcial, reduciendo la varianza del estimador.El hecho de contar con una muestra pequeña (y un n pequeño) implica que se pue-de tener una alta incertidumbre en la estimación, y es un problema que se conocecomo micronumerosidad.

Intuitivamente, entre más cercana a ser una matriz singular sea X ′X, los ele-mentos de la matriz (X ′X)−1 son mayores en valor absoluto (puede asociarse alcaso en que se hace una división entre un número que se acerca a cero). En esecaso claramente la varianza de los estimadores se hace cada vez más grande. Enel caso particular en que dos variables tengan una alta relación lineal, conocidocomo multicolinealidad, entonces la matriz X ′X se acerca a ser singular, y estogenera que las varianzas de los estimadores sean grandes. Note que alta relaciónlineal y acercarse a ser singular no son conceptos matemáticos bien denidos,pero los utilizamos para diferenciar multicolinealidad del caso de multicolinealidadperfecta, que se excluye por el supuesto 4.4.4.El alto grado de asociación lineal aumenta la varianza de los estimadores porquediculta la distinción entre las variables que están altamente correlacionadas. Elefecto parcial de las variable altamente correlacionadas se confunde y esto aumen-ta la incertidumbre sobre los estimadores de la pendiente de estas variables. Sinembargo es difícil determinar cuándo hay un alto grado de correlación lineal ycuándo esto puede ser un problema.Pero es claro que, manteniendo todo lo demás constante, para estimar βj es pre-ferible que xj no tenga correlación con ninguna otra variable independiente. Noteque alta correlación entre xj y xl no hace que la varianza de los estimadores dependiente de otras variables independientes con baja correlación, βi, sea alta.

Para formalizar la discusión anterior, enunciamos sin demostración el siguiente teorema:

Teorema 4.4.6. Bajo los supuestos 4.4.1-4.4.5, condicional a los valores muestrales de

las variables independientes, se tiene

var(βj |X

)=

σ2

SSTj

(1−R2

j

)para j = 1, . . . , k − 1, donde SSTj =

∑ni=1 (xij − xj)2 es la variabilidad total en la

muestra de xj y R2j es el coeciente de determinación de la regresión auxiliar

xj = γ0 + γ1x1 + · · ·+ γj−1xj−1 + γj+1xj+1 + · · ·+ γk−1xk−1 + v

que explica el grado de asociación lineal entre xj y las demás variables independientes.

75

Page 76: Notas_econometria

4 Regresión múltiple

Demostración. Apéndice 3A, Wooldridge (2002).

Modelos mal especicados y varianza

Suponga por facilidad que el modelo poblacional que satisface los supuestos 4.4.1-4.4.5es

y = β0 + β1x1 + β2x2 + u

con dos variables independientes. Queremos entender el efecto de omitir la variable rele-vante x2 en la varianza del estimador OLS del parámetro β1.Así suponemos que se tiene un estimador OLS del modelo bien especicado tal que

y = β0 + β1x1 + β2x2

y un estimador para el modelo con variable omitida

y = β0 + β1x1

Si β2 6= 0 en el modelo poblacional, la regresión con variable omitida se realizóexcluyendo una variable relevante del modelo. Por la subsección 4.4.1 se sabe que sicorr (x1, x2) 6= 0 entonces el estimador β1 es sesgado. Por otra parte el estimador β1 esinsesgado. Si sólo se mira el sesgo, se preere el estimador β1 sobre el estimador β1.Si β2 = 0 ambos estimadores son insesgados, y debe recurrirse a la varianza para poder

escoger entre ellos.En términos de varianzas muestrales del estimador se tiene, por el Teorema 4.4.6

var(β1

)=

σ2

SST1

(1−R2

1

)donde R2

1 es el coeciente de determinación de una regresión x1 = γ0 + γ1x2 + v ySST1 =

∑ni=1 (xi1 − x1)2. Pero por el mismo teorema se tiene

var(β1

)=

σ2

SST1

y siempre se cumple

var(β1

)> var

(β1

)Este resultado es válido en general: incluir variables en el modelo a estimar aumenta

la varianza de los estimadores OLS.Y omitir variables relevantes puede generar estimadores sesgados pero con menor va-

rianza muestral.

76

Page 77: Notas_econometria

4 Regresión múltiple

4.4.3. Estimación de la varianza del término de perturbación σ2

Vamos a calcular E (u′u)

E(u′u)

= E

((y −Xβ

)′ (y −Xβ

))= E

((y −X

(X ′X

)−1X ′y

)′ (y −X

(X ′X

)−1X ′y

))= E

(((In −X

(X ′X

)−1X ′)

y)′ (

In −X(X ′X

)−1X ′)

y)

= E

(y′(In −X

(X ′X

)−1X ′)′ (

In −X(X ′X

)−1X ′)

y)

Denimos M = In −X (X ′X)−1X ′. M es una matriz simétrica porque

M ′ =(In −X

(X ′X

)−1X ′)′

= I ′n −X(X ′X

)−1X ′

= M

y M es una matriz idempotente porque

MM =(In −X

(X ′X

)−1X ′)(

In −X(X ′X

)−1X ′)

= In −X(X ′X

)−1X ′ −X

(X ′X

)−1X ′ +X

(X ′X

)−1X ′X

(X ′X

)−1X ′

= In − 2X(X ′X

)−1X ′ +X

(X ′X

)−1X ′

= M

Note además que MX = 0, por lo que la matriz X es llamada matriz aniquiladora(un concepto proveniente del álgebra abstracta).Como y = Xβ + u entonces

E(u′u)

= E

(y′(In −X

(X ′X

)−1X ′)′ (

In −X(X ′X

)−1X ′)

y)

= E(y′M ′My

)= E

(y′My

)= E

((Xβ + u)′M (Xβ + u)

)= E

(β′X ′MXβ + u′MXβ + β′X ′Mu + u′Mu

)= E

(u′Mu

)Ahora u′Mu es un escalar, y por lo tanto u′Mu = tr (u′Mu).Una propiedad de la traza es que para el producto de matrices AB y BA (si son

conformables) entonces se tiene tr (AB) = tr (BA). Además para tres matrices A, B y

77

Page 78: Notas_econometria

4 Regresión múltiple

C se cumple tr (ABC) = tr (CAB) = tr (BCA). Por esta propiedad

E(u′u)

= E(u′Mu

)= E

(tr(u′Mu

))= E

(tr(Muu′

))y como tr (·) y E (·) son operadores lineales

E(u′u)

= E(tr(Muu′

))= tr

(ME

(uu′))

= tr (MIn)= σ2tr (M)

= σ2tr(In −X

(X ′X

)−1X ′)

= σ2tr (In) + σ2tr(X(X ′X

)−1X ′)

= σ2tr (In) + σ2tr((X ′X

)−1X ′X

)= σ2tr (In) + σ2tr (Ik)= σ2 (n− k)

Por consiguiente, si denimos

σ2 =1

n− ku′u =

SSR

n− kentonces

E(σ2)

=1

n− kE(u′u)

= σ2

y σ2 es un estimador insesgado de σ2.Además

σ2 =1

n− ku′u

=1

n− ky′My

=1

n− ky′(In −X

(X ′X

)−1X ′)

y

=1

n− k(y′y − β′X ′y

)y σ2 es un estimador que es una forma cuadrática en y.

4.4.4. Eciencia: Teorema de Gauss-Markov (OLS es BLUE)

Hasta este momento conocemos las siguientes propiedades sobre el estimador β =(X ′X)−1X ′y para el modelo lineal y = Xβ + u:

78

Page 79: Notas_econometria

4 Regresión múltiple

β es una función lineal del vector aleatorio observable y.

β es un vector aleatorio que tiene asociada una distribución muestral.

β es insesgado, y en promedio se acerca al verdadero valor poblacional.

β tiene una matriz de varianzas-covarianzas igual a σ2 (X ′X)−1.

Por lo tanto se puede armar que β es un vector aleatorio con valor esperado β y matriz

de varianza-covarianza σ2 (X ′X)−1 (β ∼(β, σ2 (X ′X)−1

)).

Es interesante comparar el estimador por mínimos cuadrados con todos los estimadoresalternativos que compiten con él. Para hacer la comparación nos restringimos a la clasede estimadores lineales en y e insesgados (condicional a X). Cualquier estimador de estaclase puede ser escrito de la forma

β = Ay

donde A es una matriz de dimensión (k × n) que no depende de y o de los parámetrospoblacionales desconocidos. En particular el estimador de mínimos cuadrados ordinariosestá caracterizado por A = (X ′X)−1X ′. Nos interesa hallar el mejor estimador lineal

insesgado (MELI o BLUE) para β. Nuestro criterio de mejor se remite al conceptode eciencia estadística, que repasamos en la subsección (2.2.2).Al comparar dos estimadores insesgados para un sólo parámetro, preferimos el esti-

mador con menor varianza porque en promedio la estimación va a estar más cercadel verdadero valor poblacional. Cuando hay un vector de parámetros debemos anali-zar la matriz de varianzas-covarianzas de los estimadores. En particular, el criterio deeciencia nuevamente es que preferimos el estimador que tenga una matriz de varianzas-covarianzas menor que el de los otros estimadores. En matrices el orden está dado alser semidenidas las matrices y lo repasamos en la subsección (2.3.1).

Mejor estimador: Sea a un vector columna de dimensión (k × 1) de constantes arbitra-rias. Decimos que un estimador insesgado β para un vector de parámetros β esmejor que otro estimador insesgado β si y sólo si

var(a′β)≤ var

(a′β)

Si Σβ es la matriz de varianzas-covarianzas de β y Σβ es la matriz de varianzas-

covarianzas de β esta condición es equivalente a

a′(Σβ −Σβ

)a ≥ 0

o equivalentemente la matriz(Σβ −Σβ

)es semidenida positiva.

Ahora enunciamos el teorema de Gauss-Markov.

Teorema 4.4.7. Teorema de Gauss-Markov: Bajo los supuestos 4.4.1-4.4.5 se tiene que

el estimador por mínimos cuadrados ordinarios β = (X ′X)−1X ′y es el mejor estimador

lineal insesgado (best linear unbiased estimator BLUE).

79

Page 80: Notas_econometria

4 Regresión múltiple

Demostración. Sea β cualquier estimador lineal insesgado y sea β = (X ′X)−1X ′y. De-bemos probar que para cualquier vector a de constantes de dimensión (k × 1) se tiene

a′(Σβ −Σβ

)a ≥ 0.

Como β = Ay (al ser estimador lineal), podemos denir la matriz C de dimensión(k × n)

C = A−(X ′X

)−1X ′

de forma tal que

β = Ay

=(C +

(X ′X

)−1X ′)

(Xβ + u)

= β + CXβ +(X ′X

)−1X ′u + Cu

Como β es insesgado condicional a los valores deX, debe cumplirse que E(β − β|X

)=

0. Es decir

E(β − β|X

)= E

(CXβ +

(X ′X

)−1X ′u + Cu|X

)= CXβ +

((X ′X

)−1X ′ + C

)E (u|X)

= CXβ = 0

y para que CXβ = 0 para cualquier valor de β debe ser cierto entonces que CX = 0.Así CX = 0 si β es un estimador lineal insesgado. Entonces

β − β =(X ′X

)−1X ′u + Cu

y la matriz de varianzas-covarianzas de β es

Σβ = E((β − β

) (β − β

)′) = E

(((X ′X

)−1X ′u + Cu

)((X ′X

)−1X ′u + Cu

)′|X)

= E

(((X ′X

)−1X ′ + C

)uu′

((X ′X

)−1X ′ + C

)′|X)

= E(((

X ′X)−1

X ′ + C)

uu′(X(X ′X

)−1 + C ′)|X)

(X ′X

)−1X ′E

(uu′|X

)X(X ′X

)−1 + CE(uu′|X

)X(X ′X

)−1

+(X ′X

)−1X ′E

(uu′|X

)C ′ + CE

(uu′|X

)C ′

Utilizando el supuesto de homoscedasticidad E (uu′|X) = σ2In entonces

Σβ = σ2(X ′X

)−1 + σ2CX(X ′X

)−1 + σ2(X ′X

)−1X ′C ′ + σ2CC ′

y por el insesgamiento de β se tiene que CX = 0, entonces

Σβ = σ2(X ′X

)−1 + σ2CC ′

80

Page 81: Notas_econometria

4 Regresión múltiple

de donde se concluye queΣβ −Σβ = σ2CC ′

porque Σβ = σ2 (X ′X)−1.

Es claro que σ2CC ′ es semidenida positiva. Sea a un vector de dimensión (k × 1)arbitrario. Entonces

a′σ2CC ′a = σ2a′CC ′a

= σ2(C ′a

)′ (C ′a

)σ2(C ′a

)′In(C ′a

)y se tiene que b = C ′a es un vector columna de dimensión (n× 1). Como la matrizidentidad es trivialmente semidenida positiva, entonces b′Inb ≥ 0 y como σ2 ≥ 0entonces σ2 (C ′a)′ In (C ′a) ≥ 0. Así Σβ −Σβ es semidenida positiva y β es mejor que

β.Note que las dos matrices de varianzas-covarianzas son iguales si y sólo si C = 0, que

por denición implica que A = (X ′X)−1X ′, es decir, si y sólo si β = β.

Concluimos entonces que el estimador por mínimos cuadrados ordinarios es BLUE: elmejor estimador lineal insesgado.

4.5. Predicción y grado de explicación

4.5.1. Coeciente de determinación

Las mismas propiedades algebraicas que se obtenían en el modelo de regresión linealsimple pueden extenderse en general al modelo de regresión lineal múltiple.Note que en general no se tiene que ui = 0. Es decir, en general los datos observados

no están sobre la linea de regresión estimada.

Si hay constante en la regresión, la media muestral de los residuales OLS es cero:1n

∑ni=1 ui = 0.

La covarianza muestral entre los residuales OLS y las variables independientes es

81

Page 82: Notas_econometria

4 Regresión múltiple

cero:

n∑i=1

ui (xij − xj) =n∑i=1

(yi − β0 − β1xi1 − · · · − βk−1xik−1

)(xij − xj)

=n∑i=1

xij

(yi − β0 − β1xi1 − · · · − βk−1xik−1

)−xj

n∑i=1

(yi − β0 − β1xi1 − · · · − βk−1xik−1

)=

n∑i=1

xij

(yi − β0 − β1xi1 − · · · − βk−1xik−1

)= 0

por la condición (4.1) o equivalentemente porque X ′u = 0.

El punto (x1, . . . , xk−1, y) siempre está sobre la línea de regresión muestral si hayconstante en la regresión.

Una forma de interpretar la regresión está dada por

yi = yi + ui

donde la observación de la variable dependiente es la observación ajustada más el residual.Se tiene que y = y.Cuando la regresión se hace con intercepto se cumple la siguiente relación:

SST = SSE + SSR

donde

SST = y′y − ny2

SSE = y′y − ny2

SSR = u′u

y para verlo considere

(y − y)′ (y − y) = (y − y + y − y)′ (y − y + y − y)= (u + y − y)′ (u + y − y)=

(u′ + (y − y)′

)(u + y − y)

= u′u + u′ (y − y) + (y − y)′ u + (y − y)′ (y − y)= u′u + (y − y)′ (y − y) + 2u′ (y − y)= u′u + (y − y)′ (y − y)

ya que u′ (y − y) = 0. Esto porque, si hay constante en la regresión,

82

Page 83: Notas_econometria

4 Regresión múltiple

u′ (y − y) = u′y − u′y = u′y

= u′ (Xβ)=

(u′X

= 0

porque X ′u = 0.Suponiendo SST > 0 (lo cual es cierto si existe la mínima variabilidad en la variable

dependiente) podemos volver a denir el coeciente de determinación

R2 =SSE

SST= 1− SSR

SST

El coeciente de determinación indica qué porcentaje de la variabilidad total observadaestá explicada por los datos ajustados por la regresión. Es el porcentaje de la variaciónmuestral en y que es explicado por las variables independientes en X. Note que 0 ≤ R2 ≤1 si hay constante en la regresión.Hay formas alternativas pero algebraicamente equivalentes para expresar el coeciente

de determinación R2. Están basadas en formas alternativas para expresar SSE.

SSE = y′y − ny2 = β′X ′Xβ − ny2

= β′X ′y − ny2

= β′X ′ (y + u)− ny2

= β′X ′y − ny2 + β′X ′u

= β′X ′y − ny2

porque por la condición de primer orden de los mínimos cuadrados X ′u = 0. En ese caso

R2 =y′y − ny2

y′y − ny2 =β′X ′y − ny2

y′y − ny2

Una forma útil para interpretar el coeciente de determinación R2 es que puede ex-presarse como el cuadrado del coeciente de correlación lineal entre y y y:

R2 =

[∑ni=1 (yi − y)

(yi − y

)]2∑ni=1 (yi − y)2

∑ni=1

(yi − y

)2y puede pensarse como una medida del grado de asociación lineal entre y y y.El coeciente R2 no está restringido a tomar valores 0 ≤ R2 ≤ 1 si se utiliza en un

modelo diferente al modelo de regresión lineal múltiple con constante. Esto pasa porque,por ejemplo, si no hay constante en la regresión, no se tiene necesariamente y = y ytampoco se tiene necesariamente que X ′u = 0.

83

Page 84: Notas_econometria

4 Regresión múltiple

Ejemplo: Suponga que se quiere estimar el modelo

y = β1x1 + u

sin constante, y se tienen las observaciones (0, 1− ε) , (2, 1 + ε) con ε > 0. Lasuma de residuales al cuadrado es

SSR =2∑i=1

(yi − β1x1

)2

= (1− ε)2 +(

1 + ε− 2β1

)2

y es minimizada si y sólo si

1 + ε− 2β1 = 0

β1 =1 + ε

2

Se tiene que y1 = 0 y y2 = 1 + ε

SST = 2ε2

SSE = 2(

1 + ε

2

)2

SSR = (1− ε)2

Se tiene que

R2 =SSE

SST=(

12

+12ε

)2

R2alt = 1− SSR

SST=

12

+1ε

(1− 1

)y que SSE + SSR 6= SST . Note que para ε sucientemente pequeño entonceseventualmente R2 > 1 y R2

alt < 0.

4.5.2. Cambio en SSR cuando una variable es añadida a la regresión

Se quiere analizar el efecto sobre la suma de residuales al cuadrado SSR al añadir unavariable adicional a la regresión. Suponga que se tiene el modelo

y = WB + u

donde W =[X z

], siendo z la variable adicional. El modelo puede expresarse como

y = Xβ + zb+ u

84

Page 85: Notas_econometria

4 Regresión múltiple

donde B =[βb

]. Se tiene que los residuales estimados en este modelo son

u = y −Xd− zb

donde B =[

db

]es el estimador OLS de la regresión con variable adicional. Es decir,

B =(W ′W

)−1W ′y

En la subsección 4.3.4 se obtuvo la expresión para d en el contexto de regresión par-ticionada (ecuación (4.3))

d =(X ′X

)−1X ′(y − zb

)= β −

(X ′X

)−1X ′zb

y sustituyendo en los residuales

u = y −Xd− zb

= y −Xβ +X(X ′X

)−1X ′zb+−zb

= e−(In −X

(X ′X

)−1X ′)

zb

= e−Mzb

donde e = y −Xβ es el residual de la regresión sin la variable adicional z. Ahora

u′u =(e−Mzb

)′ (e−Mzb

)=

(e′ − b′z′M

)(e−Mzb

)= e′e− b′z′M e− e′Mzb+ b′z′MMzb

= e′e + b2z′Mz− 2b′z′M e

Se tiene que e = My por propiedades de la matriz aniquiladora M . Y por la ecuación(4.4)

z′Mzb = z′My

Entonces

u′u = e′e + b2z′Mz− 2b′z′M e

= e′e + b2z′Mz− 2b′z′My

= e′e− b2z′Mz

Como b2z′Mz ≥ 0 porque b2z′M ′Mz ≥ 0 entonces siempre se cumple que

u′u ≤ e′e

85

Page 86: Notas_econometria

4 Regresión múltiple

4.5.3. Coeciente de determinación ajustado

La medida R2 tiene una importante debilidad cuando se utiliza para comparar labondad de ajuste entre varios modelos alternativos: un mayor número de variables ex-plicativas necesariamente no disminuye el valor del coeciente R2. De hecho, el valor R2

puede incrementarse añadiendo variables en la regresión. Una medida de la capacidadexplicativa del modelo que trata de corregir esta denciencia es una que incorpora losgrados de libertad adecuados

R2 = 1−

1n−k (u′u)

1n−1

(y′y − ny2

)1−

(n− 1n− k

)(1−R2

)donde 1

n−k (u′u) es un estimador insesgado para la varianza del término de perturbacióny 1n−1

(y′y − ny2

)es un estimador insesgado para la varianza de y.

4.5.4. Error de predicción

Uno de los objetivos de realizar estimaciones sobre los parámetros desconocidos β esque se abre la posibilidad de realizar predicciones informadas acerca de las realizacionesde la variable aleatoria y, dados valores para X.Para una observación y0 y dado x0 (note que x0 es el vector la de la observación en

el momento 0 de las k variables explicativas) se tiene que el error de predicción es

y0 − y0 = x0β − y0

El predictor y0 es insesgado si E (y0 − y0) = 0. Note que el predictor es insesgadocondicional al valor de la muestra si y sólo si los estimadores son insesgados condicionalal valor de la muestra:

E (y0 − y0|X) = E(x0β − x0β − u0|X

)= E

(x0

(β − β

)|X)

= x0E(β − β|X

)El valor del predictor y0 diere del verdadero valor y0 porque los estimadores son

diferentes al verdadero valor poblacional y porque el verdadero término de perturbacióndiere del valor que predecimos para él (cero).

86

Page 87: Notas_econometria

4 Regresión múltiple

La varianza del error de predicción está dada por

E((y0 − y0) (y0 − y0)′ |X

)= E

((x0

(β − β

)− u0

)(x0

(β − β

)− u0

)′|X)

= E

((x0

(β − β

)− u0

)((β − β

)′x0′ − u′0

)|X)

= E

(x0

(β − β

)(β − β

)′x0′ − 2

(β − β

)′x0′u0 + u′0u0|X

)= x0E

((β − β

)(β − β

)′|X)

x0′ + E

(u′0u0|X

)= x0Σβx0

′ + E(u′0u0|X

)que se resume en

x0Σβx0′ + var (u0|X)

y bajo el supuesto de homoscedasticidad se llega a

var (y0 − y0|X) = σ2(x0

(X ′X

)−1 x0′ + 1

)Ejercicio: Demuestre que para el modelo simple y = β0 +β1x+u se tiene que la varianza

del error de predicción es

var(β0|X

)+ 2x0cov

(β0, β1|X

)+ x2

0var(β1|X

)+ var (u0|X)

y bajo el supuesto de homoscedasticidad

E(

(y0 − y0)2 |X)

= σ2

(1 +

1n

+(x0 − x)2∑ni=1 (xi − x)2

)

Del ejercicio anterior se deduce que si x0 está muy lejos de la media x entonces mayor esla varianza del error de predicción en el modelo lineal simple. Predicción fuera del rangode xi utilizado en la estimación genera una mayor varianza del error de predicción.

87

Page 88: Notas_econometria

5 Inferencia en el análisis de regresiónmúltiple

El proceso de inferencia estadística se divide principalmente en dos ramas: estimacióny pruebas de hipótesis. A lo largo de estas notas se ha cubierto el tema de estimación.En estadística es de interés realizar pruebas de hipótesis sobre los parámetros poblacio-nales, para poder deducir resultados teóricamente relevantes a partir de la informaciónmuestral disponible. Para ello es necesario conocer la distribución de probabilidad de losestimadores. Con los supuestos utilizados hasta ahora en la estimación OLS no es posiblerealizar esto, así que un supuesto probabilístico adicional es necesario para poder realizarpruebas de hipótesis.

5.1. Normalidad en el término de perturbación

Los supuestos 4.4.1-4.4.5 permiten obtener el valor esperado y la varianza muestral delos estimadores OLS, además de permitir concluir que el estimador OLS es BLUE. Sinembargo para hacer pruebas de hipótesis no es suciente con tener dos momentos, sinoque se necesita la distribución de probabilidad del estimador.Al condicionar por los valores de las variables independientes en la muestra, es claro

que la distribución del estimador debe depender de la distribución del término de pertur-bación. Claramente podría suponerse que los términos de perturbación siguen cualquierdistribución. Pero por facilidad y por características propias de los datos con que usual-mente se trata, se escoge la distribución normal.

Supuesto 5.1.1. Normalidad:

El término de perturbación u del modelo poblacional es independiente de las variables

explicativas x1, . . . , xk−1 y se distribuye normalmente con media cero y varianza constante

σ2:

u ∼ N(0, σ2

)Este es un supuesto mucho más fuerte que todos los supuestos anteriores. En particular

la independencia de u respecto a las variables explicativas implica matemáticamente queE (u|x1, . . . , xk−1) = E (u) = 0 y var (u|x1, . . . , xk−1) = var (u) = σ2.Es claro entonces que al aceptar el supuesto 5.1.1, entonces necesariamente se está

suponiendo 4.4.3 y 4.4.5.Note que

u|x ∼ N(0, σ2

)↔ y|x ∼ N

(β0 + β1x1 + · · ·+ βk−1xk−1, σ

2)

¾Por qué suponer normalidad en el término de perturbación?

88

Page 89: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

1. El término de perturbación ui representa el efecto combinado de múltiples varia-bles independientes que explican a y. Por el Teorema del Límite Central (TLC) sesabe que la suma de variables aleatorias estandarizadas, independientes e idénti-camente distribuidas tiende a distribuirse normalmente. Este teorema provee unajusticación teórica del supuesto de normalidad. Incluso si el número de variablesno es grande y si no son estrictamente independientes puede todavía mostrarse,bajo algunas condiciones, normalidad en la distribución de la suma de variablesaleatorias.

2. Con el supuesto de normalidad la distribución muestral del estimador OLS es muyfácil de derivar, al ser función lineal de los términos de perturbación.

3. La distribución normal es sencilla y múltiples propiedades matemáticas son am-pliamente conocidas.

Claramente el argumento de normalidad por TLC es débil: no es claro por qué las varia-bles que afectan a y lo hacen de forma aditiva.El supuesto de normalidad debe conrmarse empíricamente, ya que es clave para la

inferencia estadística. Siempre en la aplicación debe buscarse evidencia de normalidad.Afortunadamente la no normalidad de los términos de perturbación no es tan problemá-tico para muestras grandes.

5.2. Estimación por máxima verosimilitud

Hemos supuesto que el término de perturbación en el modelo lineal sigue una distri-bución normal, condicional a los valores tomados por la variable independiente. Estonos permite utilizar uno de los criterios más sencillos para hallar estimadores de losparámetros poblacionales: máxima verosimilitud.

5.2.1. Función de densidad conjunta del modelo lineal

Si se tiene una muestra de tamaño n de la población de forma tal que

y = Xβ + u

entonces se cumple, por el supuesto 5.1.1 que

u ∼ N(0, σ2In

)Ahora para cada observación i se tiene

yi = x′iβ + ui ∼ N(x′iβ, σ

2)

y su función de densidad de probabilidad, condicional al valor de x′ies

f(yi|x′i, β, σ2

)=

√1

2πσ²exp

(−1

2(yi − x′iβ)2

σ2

)

89

Page 90: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

Como las observaciones provienen de variables aleatorias independientes, la función dedensidad conjunta puede expresarse como

f(y1, . . . , yn|x′1, . . . ,x′n, β, σ2

)= f

(yn|x′n, β, σ2

). . . f

(yn|x′n, β, σ2

)=

√(1

2πσ²

)nexp

(−1

2

∑ni=1 (yi − x′iβ)2

σ2

)

= (2πσ²)−n2 exp

(−1

2(y −Xβ)′ (y −Xβ)

σ2

)La función de densidad conjunta describe completamente la probabilidad de obtener

una muestra para la variable y condicionada a los valores poblacionales β, σ2 y a lamuestra de variables independientes X.

5.2.2. Máxima verosimilitud

Para poder obtener información útil acerca de los parámetros poblacionales que ge-neraron los datos muestrales de los que se dispone se debe establecer un criterio deestimación.Uno de los criterios, propuesto por Sir R. A. Fisher entre 1912 y 1922, es que los valores

de los parámetros deconocidos (en este caso β y σ2) deberían aproximarse escogiendoestimadores tales que se maximice la probabilidad de obtener la muestra disponible.Recordando un poco la estadística básica, se tiene que la función de verosimilitud

representa la probabilidad de obtener ciertos parámetros dada la información muestral.Es decir

L(β, σ2|y1, . . . , yn,x′1, . . . ,x

′n

)= f

(y1, . . . , yn|x′1, . . . ,x′n, β, σ2

)Los estimadores por máxima verosimilitud resuelven el problema

maxβ,σ²

L(β, σ2|y1, . . . , yn,x′1, . . . ,x

′n

)Como lnx es una función monótona creciente, hallar los maximizadores de la función

de verosimilitud L (·) es lo mismo que hallar los maximizadores de la función lnL (·).Así el problema de máxima verosimilitud es equivalente, en nuestro caso particular, a

maxβ,σ²

−n2

ln (2π)− n

2lnσ²− 1

2(y −Xβ)′ (y −Xβ)

σ2

= −n2

ln (2π)− n

2lnσ²− 1

2y′y − 2β′X ′y + β′X ′Xβ

σ2

Estimador por máxima verosimilitud de β

El estimador por máxima verosimilitud (ml) de β puede hallarse fácilmente notando

que para maximizar L debe maximizarse, respecto a β, el último término−12

(y−Xβ)′(y−Xβ)σ2 ,

90

Page 91: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

que es equivalente a minimizar su negativo (y −Xβ)′ (y −Xβ). Es decir, hallar el esti-mador por máxima verosimilitud de β es equivalente a minimizar la suma de residualesal cuadrado.Por lo tanto la regla para obtener el estimador por máxima verosimilitud bajo el

supuesto de normalidad esβ =

(X ′X

)−1X ′y

Como la regla para obtener el estimador es la misma, las propiedades muestrales delestimador por máxima verosimilitud son las mismas que las propiedades del estimadorOLS. En ese caso

E(β)

= β E

((β − β

)(β − β

)′)= σ2

(X ′X

)−1

y se trata de un estimador BLUE.Además, como se verá adelante, el estimador por máxima verosimilitud es BUE (Best

Unibiased Estimator).Como β es una función lineal de y y y ∼ N

(Xβ, σ2

)condicional a las variables

independientes, entonces

β ∼ N(β, σ2

(X ′X

)−1)

Finalmente, obtenemos las condiciones de primer orden respecto a β, que permitencomprobar que la regla que utilizamos es la adecuada, y obtenemos las segundas derivadasque serán de utilidad más adelante

∂βL = −1

2−2X ′y + 2X ′Xβ

σ2

∂β

(∂

∂βL)

= −X′X

σ2

∂σ2

(∂

∂βL)

=12−2X ′y + 2X ′Xβ

(σ2)2

Estimador por máxima verosimilitud de σ2

Para maximizar la función de verosimilitud escogiendo σ2 es necesario utilizar cálculodiferencial

∂σ2L = − n

2σ²+

12

(y −Xβ)′ (y −Xβ)(σ2)2

∂σ2

(∂

∂σ2L)

=n

2 (σ²)2− (y −Xβ)′ (y −Xβ)

(σ2)3

∂β

(∂

∂σ2L)

=12−2X ′y + 2X ′Xβ

(σ2)2

91

Page 92: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

Para obtener el maximizador hacemos la primera derivada igual a cero, y teniendo encuenta que σ 6= 0

− n

2σ²+

12

(y −Xβ

)′ (y −Xβ

)(σ2)2

= 0

nσ2 =(y −Xβ

)′ (y −Xβ

)= 0

σ2 =

(y −Xβ

)′ (y −Xβ

)n

=u′un

donde u′ =(y −Xβ

).

El estimador por máxima verosimilitud para σ2 es una variable aleatoria (porque y esvariable aleatoria) y varía de muestra a muestra. Por lo tanto sus propiedades muestralesson de interés.La regla de máxima verosimilitud genera un estimador para σ2 que es una función

cuadrática de y. Como la regla para encontrar β es la misma regla para encontrar βentonces los residuales estimados son los mismos para ambos criterios y por la subsección4.4.3 se tiene

E(u′u)

= σ2 (n− k)

Entonces

E(σ2)

= σ2

(n− kn

)y claramente el estimador por máxima verosimilitud σ2 es sesgado. Es por esta razónque se preere el estimador insesgado

σ2 =u′un− k

Para las pruebas de hipótesis es de importancia conocer la distribución de σ2. Primeroestudiamos la distribución de(

y −Xβ)′ (

y −Xβ)

σ2=

u′uσ2

=

((In −X (X ′X)−1X ′

)y)′ ((

In −X (X ′X)−1X ′)

y)

σ2

=

((In −X (X ′X)−1X ′X

)u)′ ((

In −X (X ′X)−1X ′)

u)

σ2

=u′(In −X (X ′X)−1X ′

)u

σ2

=u′Muσ2

92

Page 93: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

El numerador es una forma cuadrática que involucra al vector u, que es normal, y Mque es una matriz idempotente.Por un teorema de estadística (consultar Judge y otros (1982), capítulo 2), si u ∼

N(0, σ2In

)y M es una matriz idempotente, entonces u′Mu

σ2 se distribuye χ2 con gradosde libertad igual al rango de la matriz M . Para una matriz idempotente se tiene que elrango es igual a la traza, y

tr(In −X

(X ′X

)−1X ′)

= tr (In)− tr(X(X ′X

)−1X ′)

= tr (In)− tr((X ′X

)−1X ′X

)= tr (In)− tr (Ik)= n− k

de forma que el rango de M es n− k.Entonces

n− kσ2

σ2 =u′uσ2

=u′Muσ2

∼ χ2(n−k)

y como σ2 = u′un−k

σ2 ∼[

σ2

n− k

]χ2

(n−k)

el estimador es una constante multiplicada por una variable chi-cuadrado.El valor esperado de una variable chi-cuadrado es igual a sus grados de libertad. En

este caso

E

(n− kσ2

σ2

)= (n− k)

E(σ2)

= σ2

y la varianza de una variable chi-cuadrado es igual a dos veces sus grados de libertad.En este caso

var

(n− kσ2

σ2

)= 2 (n− k)(

n− kσ2

)2

var(σ2)

= 2 (n− k)

var(σ2)

=2σ4

n− kEl supuesto de normalidad aporta información adicional sobre la varianza del estimador

σ2, que de otra forma no hubiera podido obtenerse.

5.2.3. Cota inferior de Cramér-Rao

Independencia entre σ2 y β

Teorema 5.2.1. El vector aleatorio β es independiente de la variable aleatoria σ2.

93

Page 94: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

Demostración. Como σ2 = u′un−k se tiene que si u y β son independientes, entonces β es

independiente de σ2. Al ser u y β normales, es suciente mostrar que la covarianza escero. La matriz de varianzas-covarianzas es

E

(u(β − β

)′)= E

((y −Xβ

)(β − β

)′)= E

((In −X

(X ′X

)−1X ′)

u(β − β

)′)= E

((In −X

(X ′X

)−1X ′)

uu′(X(X ′X

)−1X ′))

=(In −X

(X ′X

)−1X ′)E(uu′) (X(X ′X

)−1X ′)

= σ2(In −X

(X ′X

)−1X ′)(

X(X ′X

)−1X ′)

= σ2(X(X ′X

)−1X ′ −X

(X ′X

)−1X ′X

(X ′X

)−1X ′)

= 0

Cota inferior de Cramér-Rao

Si suponemos que la función de verosimilitud es doblemente diferenciable, entonces lamatriz de información de Fisher es

I (γ) = −E(∂2 lnL (γ|y, X)

∂γ∂γ′

)y su inversa provee una cota inferior para la precisión de estimadores insesgados para γ.Para el modelo lineal normal se tiene que la matriz de información es

I (γ) = −E

−X′Xσ2

12−2X′y+2X′Xβ

(σ2)2

12−2X′y+2X′Xβ

(σ2)2n

2(σ²)4− (y−Xβ)′(y−Xβ)

(σ2)3

=

[X′Xσ2 00 n

2(σ²)4

]

donde E (−2X ′y + 2X ′Xβ) = 0 por la denición del modelo poblacional y porqueE (u) = 0 y E

((y −Xβ)′ (y −Xβ)

)= nσ2.

Al invertir la matriz de información se tiene la cota inferior de Cramér-Rao[σ2 (X ′X)−1 0

0 2σ4

n

]

94

Page 95: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

5.3. Mínimos cuadrados restringidos

Considere el modelo linealy = Xβ + u

bajo la hipótesis H0 : Cβ = c donde C es una matriz de (J × k) y c un vector de J × 1.La matriz C y el vector c resumen J restricciones lineales del tipo

C11β0 + C12β1 + · · ·+ C1kβk−1 = c1

C21β0 + C22β1 + · · ·+ C2kβk−1 = c2...

...

Cq1β0 + Cq2β1 + · · ·+ Cqkβk−1 = cq

Suponemos que la matriz C es de rango completo: ninguna restricción puede expresarsecomo combinación lineal de las demás.Se quiere hallar el estimador por mínimos cuadrados restringidos βC que minimiza la

suma de residuales al cuadrado (y −Xβ)′ (y −Xβ) bajo la restricción Cβ = c.El problema de maximización restringida puede resolverse con el método de Lagrange:

L = (y −Xβ)′ (y −Xβ) + 2λ′ (Cβ − c) = y′y − 2β′X ′y + β′X ′Xβ + 2 (Cβ − c)′ λ

donde λ ∈ RJ es el vector de multiplicadores de Lagrange asociado a las J restricciones.Derivando:

d

dβ′L = −2X ′y + 2X ′Xβ + 2C ′λ

Igualando esta condición a cero se tiene

C ′λ = X ′y −X ′XβC

de donde

βC =(X ′X

)−1X ′y −

(X ′X

)−1C ′λ

= β −(X ′X

)−1C ′λ

Entonces β − βC = (X ′X)−1C ′λ, de forma que C (X ′X)−1C ′λ = C(β − βC

)=(

Cβ − c)porque por denición se tiene que βC cumple con la restricción impuesta,

de forma tal que CβC = c.Así

C(X ′X

)−1C ′λ =

(Cβ − c

)λ =

(C(X ′X

)−1C ′)−1 (

Cβ − c)

95

Page 96: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

y sustituyendo en βC se llega a la expresión para el estimador por mínimos cuadradosordinarios restringidos:

βC = β −(X ′X

)−1C ′(C(X ′X

)−1C ′)−1 (

Cβ − c)

Valor esperado y matriz de varianzas y covarianzas de los estimadores restringidos

Suponga que se cumplen los supuestos clásicos 4.4.1-4.4.4. En ese caso se tiene inses-

gamiento del estimador por mínimos cuadrados ordinarios, es decir E(β|X

)= β. Ahora

queremos estudiar el valor esperado condicional del estimador restringido:

E(βC|X

)= E

(β −

(X ′X

)−1C ′(C(X ′X

)−1C ′)−1 (

Cβ − c)|X)

= E(β|X

)− E

((X ′X

)−1C ′(C(X ′X

)−1C ′)−1 (

Cβ − c)|X)

= β −(X ′X

)−1C ′(C(X ′X

)−1C ′)−1 (

CE(β|X

)− c)

= β −(X ′X

)−1C ′(C(X ′X

)−1C ′)−1

(Cβ − c)

El estimador restringido es insesgado, bajo los supuestos clásicos 4.4.1-4.4.4, si y sólosi

Cβ − c = 0

es decir, si y sólo si las restricciones impuestas en la estimación son verdaderas en lapoblación.Para obtener la matriz de varianzas-covarianzas condicional calculamos

βC − E(βC|X

)=

(Ik −

(X ′X

)−1C ′(C(X ′X

)−1C ′)−1

C

)(β − β

)Denimos

MC = Ik −(X ′X

)−1C ′(C(X ′X

)−1C ′)−1

C

Note que la matriz MC es idempotente y depende de constantes y valores de X

MCMC =(Ik − (X ′X)−1

C ′(C (X ′X)−1

C ′)−1

C

)(Ik − (X ′X)−1

C ′(C (X ′X)−1

C ′)−1

C

)= Ik − 2 (X ′X)−1

C ′(C (X ′X)−1

C ′)−1

C

+ (X ′X)−1C ′(C (X ′X)−1

C ′)−1

C (X ′X)−1C ′(C (X ′X)−1

C ′)−1

C

= Ik − (X ′X)−1C ′(C (X ′X)−1

C ′)−1

C

= MC

96

Page 97: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

Así se tiene que

E

((βC − E

(βC

))(βC − E

(βC

))′)= E

(MC

(β − β

)(MC

(β − β

))′)= E

(MC

(β − β

)(β − β

)′M ′C

)= MCE

((β − β

)(β − β

)′)M ′C

= MCΣβM′C

donde Σβ es la matriz de varianzas y covarianzas del estimador OLS estándar.

Supongamos ahora homoscedasticidad (ver supuesto 4.4.5). En ese caso Σβ = σ2 (X ′X)−1

y

ΣβC= σ2MC

`X ′X

´−1M ′C

= σ2

„Ik −

`X ′X

´−1C′“C`X ′X

´−1C′”−1

C

«`X ′X

´−1„Ik −

`X ′X

´−1C′“C`X ′X

´−1C′”−1

C

«′= σ2

„`X ′X

´−1 −`X ′X

´−1C′“C`X ′X

´−1C′”−1

C`X ′X

´−1«„

Ik − C′“C`X ′X

´−1C′”−1

C`X ′X

´−1«

= σ2 `X ′X´−1 − 2σ2 `X ′X´−1C′“C`X ′X

´−1C′”−1

C`X ′X

´−1. . .

+σ2 `X ′X´−1C′“C`X ′X

´−1C′”−1

C`X ′X

´−1C′“C`X ′X

´−1C′”−1

C`X ′X

´−1

= σ2 `X ′X´−1 − σ2 `X ′X´−1C′“C`X ′X

´−1C′”−1

C`X ′X

´−1

= σ2MC

`X ′X

´−1

Es fácil darse cuenta que

Σβ −ΣβC= σ2

(X ′X

)−1C ′(C(X ′X

)−1C ′)−1

C(X ′X

)−1 = A

donde A es una matriz semidenida positiva. De esta forma la matriz de varianzas-covarianzas del estimador OLS restringido ΣβC

cumple que todos los elementos en sudiagonal son menores o iguales que los elementos de la diagonal de la matriz de varianzas-covarianzas del estimador OLS estándar. El estimador restringido βC es el mejor esti-mador en la clase de estimadores lineales insesgados siempre y cuando las restriccionesCβ = c sean verdaderas.

Residuales Restringidos

Sea u = y−Xβ y uC = y−XβC. Como βC = β−(X ′X)−1C ′(C (X ′X)−1C ′

)−1 (Cβ − c

)entonces

uC = y −XβC

= y −Xβ +X(X ′X

)−1C ′(C(X ′X

)−1C ′)−1 (

Cβ − c)

uC = u +X(X ′X

)−1C ′(C(X ′X

)−1C ′)−1 (

Cβ − c)

97

Page 98: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

Así:

u′CuC =[u′ +

(Cβ − c

)′ (C (X ′X)−1

C ′)−1

C (X ′X)−1X ′] [

u +X (X ′X)−1C ′(C (X ′X)−1

C ′)−1 (

Cβ − c)]

= u′u + 2u′X (X ′X)−1C ′[C (X ′X)−1

C ′]−1 (

Cβ − c)

+(Cβ − c

)′ [C (X ′X)−1

C ′]−1

. . .

. . . C (X ′X)−1X ′X (X ′X)−1

C ′[C (X ′X)−1

C ′]−1 (

Cβ − c)

= u′u + 2u′X (X ′X)−1C ′[C (X ′X)−1

C ′]−1 (

Cβ − c)

+(Cβ − c

)′ [C (X ′X)−1

C ′]−1 (

Cβ − c)

La matriz 2u′X (X ′X)−1C ′[C (X ′X)−1C ′

]−1 (Cβ − c

)vale cero. La razón es que

u′X = 0:

u′X =(y −Xβ

)′X

= y′X − β′X ′X

= y′X −((X ′X

)−1X ′y

)′X ′X

= y′X − y′X(X ′X

)−1X ′X

= 0

Así:

u′CuC = u′u +(Cβ − c

)′ [C(X ′X

)−1C ′]−1 (

Cβ − c)

Esta fórmula será de utilidad cuando estudiemos la prueba F .

5.4. Estimación por intervalos

El estimador por máxima verosimilitud β se distribuye normal multivariado con mediaβ y matriz de varianzas-covarianzas σ2 (X ′X)−1. Ahora es de interés obtener intervalosde conanza individuales y conjuntos.Esta es otra manera de interpretar la estimación de un modelo: obtener armaciones

acerca de la probabilidad de encontrar el valor poblacional verdadero en cierto intervaloque depende de la muestra aleatoria. Es la estimación por intervalos.

5.4.1. Intervalo de conanza para una restricción lineal

Sea C una matriz de restricciones de dimensión J×k y sea C1 una matriz que representauna única restricción (C1 es de dimensión 1× k).Se tiene que

β ∼ N(β, σ2

(X ′X

)−1)

98

Page 99: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

y al ser C1 una matriz de restricción constante

C1β ∼ N(C1β, σ

2C1

(X ′X

)−1C ′1

)de donde

C1β − C1β ∼ N(

0, σ2C1

(X ′X

)−1C ′1

)Note que al tener una única restricción entonces C1β − C1β es un número real, y la

distribución normal considerada en este caso es la univariada.Como σ2C1 (X ′X)−1C ′1 es un real (es una matriz de 1 × 1) se puede entonces estan-

darizar la variable normal de forma tal que

z =C1

(β − β

)σ√C1 (X ′X)−1C ′1

∼ N (0, 1)

Si conociéramos el verdadero valor de σ entonces podrían construirse intervalos deconanza utilizando la distribución normal.Se escoge un intervalo

[−zα/2, zα/2

]de forma tal que P

(−zα/2 ≤ z ≤ zα/2

)= 1 − α.

Es decir´ zα/2−zα/2 f (z) dz = 1 − α donde f es la función de densidad de probabilidad (en

este caso de una normal estándar). Entonces los valores −zα/2 y zα/2 son valores críticosasociados al nivel de signicancia α. Se tiene entonces que

P(−zα/2 ≤ z ≤ zα/2

)= 1− α

P

−zα/2 ≤ C1

(β − β

)σ√C1 (X ′X)−1C ′1

≤ zα/2

= 1− α

P

(C1β − zα/2σ

√C1 (X ′X)−1C ′1 ≤ C1β ≤ C1β + zα/2σ

√C1 (X ′X)−1C ′1

)= 1− α

En un contexto de muestreo repetido, en promedio el intervalo[−zα/2, zα/2

]contiene α

por ciento veces el estadístico z =C1(β−β)

σ√C1(X′X)−1C′1

.

El problema de utilizar este intervalo de conanza es que σ no es conocido. Entonceses necesario utilizar un estimador insesgado de σ2 y buscar la distribución de la variablealeatoria

C1

(β − β

)σ√C1 (X ′X)−1C ′1

Recordamos ahora que una variable aleatoria t igual a la razón entre una variablealeatoria normal estándar z y la raíz cuadrada de una variable aleatoria x que se dis-tribuye χ2

s dividida entre sus grados de libertad, sigue una distribución ts si z y x sonindependientes:

t =N (0, 1)√

χ2s/s

∼ ts

99

Page 100: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

Dado que β y σ2 son independientes y que además sabemos que

n− kσ2

σ2 ∼ χ2n−k

entonces

t =

C1(β−β)σ√C1(X′X)−1C′1√

1σ2 σ2

=C1

(β − β

)σ√C1 (X ′X)−1C ′1

∼ tn−k

y el intervalo de conanza puede reescribirse utilizando la distribución t como

P

(C1β − tα/2,n−kσ

√C1 (X ′X)−1C ′1 ≤ C1β ≤ C1β + tα/2,n−kσ

√C1 (X ′X)−1C ′1

)= 1−α

Como caso particular, y de suma importancia, considere

C1 = e′j=

[0 . . . 0 1 0 . . . 0

]el vector la de tamaño 1×k con un uno en la posición j y ceros en las demás posiciones.En ese caso

P

(βj − tα/2,n−kσ

√(X ′X)−1

jj ≤ βj ≤ βj + tα/2,n−kσ√

(X ′X)−1jj

)= 1− α

donde (X ′X)−1jj es el j-ésimo elemento de la diagonal de la matriz (X ′X)−1.

Los intervalos son aleatorios porque los extremos son funciones de variables aleatorias.

5.4.2. Intervalo de conanza para varias restricciones lineales

Primero recordemos algo de estadística. Si Z es un vector aleatorio de tamaño n × 1tal que

Z ∼ N (0, In)

entonces por denición de la distribución chi-cuadrado se tiene

Z′Z ∼ χ2n

al ser la suma de n variables aleatorias independientes normal estándar al cuadrado.Ahora considere el vector aleatorio normal multivariado X de tamaño n× 1:

X ∼ N (µ,Σ)

Por el teorema de descomposición espectral se sabe que existe una matriz A de tamañon× n tal que

AΣA′ = In

100

Page 101: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

(ver Sección A.11, Judge y otros (1982)). Entonces

AX ∼ N(Aµ,AΣA′

)AX−Aµ ∼ N (0, In)

Denimos entonces Z = A (X− µ) y se tiene

Z′Z = (A (X− µ))′A (X− µ)= (X− µ)′A′A (X− µ)= (X− µ)′Σ−1 (X− µ)

de donde concluimos que(X− µ)′Σ−1 (X− µ) ∼ χ2

n

Volviendo a la econometría, sea C una matriz de restricciones de dimensión J × k. Esdecir, tenemos J restricciones lineales.Se tiene que

β ∼ N(β, σ2

(X ′X

)−1)

y al ser C una matriz de restricciones constante

Cβ ∼ N(Cβ, σ2C

(X ′X

)−1C ′)

Utilizando el resultado anterior sobre distribuciones normales y chi-cuadrado se tiene(C(β − β

))′ [σ2C

(X ′X

)−1C ′]−1

C(β − β

)∼ χ2

J

de donde (β − β

)′C ′[C (X ′X)−1C ′

]−1C(β − β

)σ2

∼ χ2J

Este resultado nos permitiría obtener intervalos de conanza conjuntos para J combi-naciones lineales de parámetros si σ2 fuera conocido. Sin embargo, usualmente no es así.Afortunadamente sabemos que

n− kσ2

σ2 ∼ χ2n−k

y sabemos que la razón de dos variables aleatorias independientes distribuidas chi-cuadrado, cada una dividida entre sus grados de libertad, se distribuye F :

F =x2/sy2/r

∼ Fs,r

si x2 ∼ χ2s y y

2 ∼ χ2r y son independientes.

101

Page 102: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

Como β y σ2 son variables aleatorias independientes, y la matriz C está compuesta de

constantes, puede demostrarse que(β−β)′C′[C(X′X)−1C′]−1

C(β−β)σ2 y n−k

σ2 σ2 son variables

aleatorias independientes. En ese caso podemos construir la siguiente razón:

λ =(β−β)′C′[C(X′X)−1C′]−1

C(β−β)σ2

1J

n−kσ2 σ2 1

n−k

=

(β − β

)′C ′[C (X ′X)−1C ′

]−1C(β − β

)Jσ2

y por denición se tiene queλ ∼ FJ,n−k

Ahora podemos escoger un valor crítico Fα,J,n−k de forma tal que

P (λ < Fα,J,n−k) = 1− α

y entonces

P

(β − β

)′C ′[C (X ′X)−1C ′

]−1C(β − β

)Jσ2

< Fα,J,n−k

= 1− α

5.4.3. Intervalo de conanza para la predicción

Para una observación y0 y dado x0 (note que x0 es el vector la de la observación enel momento 0 de las k variables explicativas) se tiene que el error de predicción es

y0 − y0 = x0β − y0

En la subsección 4.5.4 se mostró que, bajo los supuestos clásicos de Gauss-Markov, setiene que

E (y0 − y0|X) = 0

y

var (y0 − y0|X) = σ2(x0

(X ′X

)−1 x0′ + 1

)Al añadir el supuesto de normalidad en el término de perturbación se tiene que

y0|X = x0β|X ∼ N(x0β, σ

2x0

(X ′X

)−1 x′0)

y por hipótesisu0|X ∼ N

(0, σ2

)Como cualquier combinación lineal de variables aleatorias normales se distribuye nor-

mal, se concluye que

x0β − x0β − u0 ∼ N(

0, σ2(x0

(X ′X

)−1 x0′ + 1

))

102

Page 103: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

Estandarizando esta variable aleatoria normal se tiene que

x0β − y0

σ

√(x0 (X ′X)−1 x0

′ + 1) ∼ N (0, 1)

lo que permitiría construir intervalos de conanza. Sin embargo, esta variable aleatoriadepende del parámetro desconocido σ.

Ejercicio: Demuestre que y0 está en el intervalo de conanza a dos colas

P

„x0β − tn−k,α/2σ

q`x0 (X ′X)−1 x0

′ + 1´< y0 < x0β + tn−k,α/2σ

q`x0 (X ′X)−1 x0

′ + 1´«

= 1−α

donde tn−k,α/2 es el valor crítico de la distribución t con n − k grados de libertad(es decir, P

(t ≤ tn−k,α/2

)= 1− α

2 ) y 1− α es el nivel de signicancia deseado.

5.5. Pruebas de hipótesis

Algunas veces la teoría, además de predecir relaciones entre variables, también predicevalores para algunos coecientes del modelo lineal. Es de interés entonces comparar losvalores obtenidos por la estimación del modelo econométrico con los valores predichos porla teoría económica. Una forma de formalizar esta comparación es utilizando las pruebasde hipótesis.Supongamos el modelo lineal

y = β0 + β1x1 + · · ·+ βjxj + · · ·+ βk−1xk−1 + u

para el cual la teoría económica predice un valor

Cβ = cecon

donde C es una matriz de coecientes de tamaño 1× k y cecon ∈ R.Claramente por la naturaleza aleatoria del modelo, cuando realicemos la estimación

de este modelo se va a tenerCβj 6= cecon

Sin embargo esta información obtenida de una sola muestra aleatoria no es evidenciasuciente para decir que el valor estimado es estadísticamente diferente al predicho porla teoría. Para poder decidir debemos construir, a partir de la única muestra de la quedisponemos, un estadístico con distribución conocida para poder realizar una prueba dehipótesis.La hipótesis nula es una restricción adicional a los supuestos del modelo, y queremos

construir un estadístico de forma tal que, si la hipótesis es correcta y los supuestos delmodelo se cumplen, tenga una distribución conocida. En ese caso la interpretación de laspruebas de hipótesis es válida si y sólo si el modelo está correctamente especicado, yúnicamente bajo el supuesto que la hipótesis nula es verdadera.Por ejemplo, se puede construir un estadístico del cual se sabe que tiene un valor muy

alto, por lo que tiende a rechazarse la hipótesis nula. Sin embargo, esta interpretación esválida únicamente si el modelo es el adecuado.

103

Page 104: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

5.5.1. Prueba de hipótesis: coecientes individuales

Para realizar pruebas de hipótesis sobre coecientes individuales necesitamos contras-tar las siguientes hipótesis:

H0 : βj = βeconj

Ha : βj 6= βeconj

para algún j. Nuestra hipótesis nula es que el verdadero parámetro poblacional tomael valor predicho por la teoría económica (y que es conocido), mientras que la hipótesisalternativa es el caso contrario.Denimos la matriz

Cj = ej =[

0 . . . 0 1 0 . . . 0]

con ceros en todas partes y un uno en la posición j-ésima. Tenemos

Cjβ = βj

y si la hipótesis nula se supone verdadera entonces

Cjβ = βeconj

Ahora utilizamos el estadístico t construido en la sección 5.4

tj =Cj

(β − β

)σ√Cj (X ′X)−1C ′j

y tenemos que si el modelo está bien especicado y bajo el supuesto que la hipótesis nulaes verdadera

tj =βj − βeconj

σ√

(X ′X)−1jj

∼ tn−k

donde σ√

(X ′X)−1jj es la desviación estándar estimada del parámetro estimado βj . Así

la prueba t puede verse como indicador de cuántas desviaciones estándar estimadas sealeja βj del valor que toma según la hipótesis nula.Note que nuestro estadístico tj satisface tres propiedades útiles:

El valor tj se puede calcular a partir de la muestra aleatoria que tenemos.

La distribución condicional del estadístico tj no depende de X. Es decir, la distri-bución condicional es independiente del valor de la muestra aleatoria. No se debeconfundir esto con el hecho de que efectivamente el valor (mas no la distribución)del parámetro tj depende de X.

La distribución de este estadístico es conocida cuando H0 es verdadera.

104

Page 105: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

Teniendo a la mano este estadístico de distribución conocida podemos hacer pruebas dehipótesis sobre el valor poblacional de los parámetros desconocidos.Note que todo lo anterior es válido para cualquier matriz de coecientes C de tamaño

1× k. Es decir que podemos hacer pruebas de hipótesis sobre una combinación lineal delos parámetros utilizando la prueba t:

tC =Cβ − cecon

σ√C (X ′X)−1C ′

∼ tn−k

donde cecon es el valor que la teoría económica predice para la combinación lineal deparámetros.

Regla de decisión para la prueba t

Tenemos la siguiente regla de decisión utilizando el valor del estadístico tC , para lahipótesis nula

H0 : Cβ = cecon

y la hipótesis alternativaHa : Cβ 6= cecon

que indica una prueba a dos colas.

Dado el valor hipotético cecon se puede construir la razón tC = Cβ−cecon

σ√C(X′X)−1C′

. Entre

más lejos esté el valor tC de cero, entonces es más posible que falle la hipótesisnula.

Para saber qué tan lejos es lejos se debe buscar el valor crítico para una variablealeatoria t con n−k grados de libertad. Este es el valor tα/2,n−k. Como la distribuciónt es simétrica, este valor crítico satisface

P(−tα/2,n−k < t < tα/2,n−k

)= 1− α

donde 1− α es el nivel de signicancia deseado.

No hay evidencia para rechazar H0 si

−tα/2,n−k < tC < tα/2,n−k

y se rechaza H0 en caso contrario.

Como tC ∼ tn−k bajo H0, la probabilidad de rechazar H0 dado que H0 es verdadera esα. Entonces el error de tipo I es α y el nivel de signicancia estadística es 1− α.Esta regla es equivalente a no rechazar H0 si

cecon ∈(Cβj − tα/2,n−kσ

√C (X ′X)−1C ′, Cβj + tα/2,n−kσ

√C (X ′X)−1C ′

)

105

Page 106: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

y rechazar H0 en caso contrario.Otra forma alternativa de decidir si rechazar o no la hipótesis nula es la siguiente.

Denimos el p-value como el valor p tal que

P (− |tC | < t < |tC |) = 1− p

Se dice que no hay evidencia para rechazar H0 si

p > α

y se rechaza H0 en caso contrario.Note que la regla de decisión para la prueba tC cambia si la hipótesis alternativa es de

un solo lado (una prueba a una sola cola). Considere el caso

Ha : Cβ > cecon

Esto signica que no nos interesan las alternativas a H0 de la forma Ha:Cβ < cecon poralguna razón, usualmente sustentada en la teoría económica (por ejemplo, las elastici-dades de una función de producción respecto a los insumos son teóricamente positivas).Para hacer la prueba de hipótesis, primero se escoge un nivel de signicancia α. Bajola hipótesis alternativa se esperaría que la prueba tC tenga un valor signicativamen-te positivo, de forma que exista evidencia para rechazar la hipótesis nula. Si la pruebatC es negativa, no tenemos ninguna evidencia para rechazar la hipótesis nula. Entoncesestamos interesados en una prueba a una sola cola.Se rechaza la hipótesis nula si el estadístico tC es mayor que el valor crítico a una sola

cola:tC > tα,n−k

y no existe evidencia para rechazar la hipótesis nula en caso contrario. Esta es la pruebaa una sola cola, y la hipótesis alternativa Ha:Cβ < cecon puede estudiarse de formaanáloga.

5.5.2. Signicancia estadística vs signicancia económica

En la práctica de la econometría es necesario, además de prestar atención al valorde los estadísticos t de prueba de signicancia, tener en cuenta también la magnituddel coeciente. La signicancia económica, es decir, en términos prácticos qué tanrelevante es una variable xj para explicar a la variable y, depende del tamaño y del signodel coeciente βj . La signicancia estadística en cambio depende únicamente de laprueba t.La prueba tj para la signicancia estadística del parámetro βj es

tj =βj

σ√

(X ′X)−1jj

106

Page 107: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

donde σ√

(X ′X)−1jj es la desviación estándar estimada para el estimador βj . Este esta-

dístico depende del tamaño de βj y del tamaño de σ√

(X ′X)−1jj .

Muchas veces una variable puede ser signicativa estadísticamente no porque el

tamaño de βj sea grande, sino porque σ√

(X ′X)−1jj es muy pequeño. Esto podría dar

la falsa impresión de que la variable es signicativa económicamente y explica a lavariable y, aunque su efecto es muy pequeño. Cuando se dispone de una muestra grande ladesviación estándar tiende a disminuir, y esto hace que sea más posible que el estadísticotj sea grande y rechaze la hipótesis nula de βj = 0. Por eso también hay que ver lamagnitud del coeciente estimado.

Por otra parte, σ√

(X ′X)−1jj puede ser grande si hay alta relación lineal entre variables

independientes (multicolinealidad). De acuerdo con el Teorema 4.4.6 se sabe que

var(βj

)=

σ2

SSTj

(1−R2

j

)y un alto grado de relación lineal entre las variables independientes aumenta la varianza(y por lo tanto la desviación estándar estimada) de los estimadores OLS. En ese casosiempre la prueba tj tiende a ser muy pequeña, y variables que podrían ser realmentesignicativas económicamente (porque el parámetro de pendiente es realmente grande)tienden a no ser signicativas estadísticamente.

5.5.3. Prueba de hipótesis: varias combinaciones lineales

Sea C una matriz de tamaño J × k y c un vector de tamaño J × 1. Representamosrestricciones lineales sobre los parámetros poblacionales como

Cβ = c

y planteamos nuestra hipótesis nula en términos del valor de verdad de estas restriccioneslineales:

H0 : Cβ = c

Ha : Cβ 6= c

Se tiene que

β ∼ N(β, σ2

(X ′X

)−1)

y al ser C una matriz de restricciones constante

Cβ ∼ N(Cβ, σ2C

(X ′X

)−1C ′)

Entonces sabemos por propiedades de la distribución normal que(Cβ − Cβ

)′ [σ2C

(X ′X

)−1C ′]−1 (

Cβ − Cβ)

∼ χ2J

107

Page 108: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

y si suponemos como verdadera la hipótesis nula tenemos Cβ = c, de donde(Cβ − c

)′ [C (X ′X)−1C ′

]−1 (Cβ − c

)σ2

∼ χ2J

Este resultado nos permitiría obtener un estadístico para la prueba de hipótesis de Jcombinaciones lineales de parámetros si σ2 fuera conocido. Sin embargo, usualmente noes así. Afortunadamente sabemos que

n− kσ2

σ2 ∼ χ2n−k

y puede construirse la razón λ:

λ =(Cβ−c)′[C(X′X)−1C′]−1(Cβ−c)

σ21J

n−kσ2 σ2 1

n−k

=

(Cβ − c

)′ [C (X ′X)−1C ′

]−1 (Cβ − c

)Jσ2

Por denición de una variable aleatoria F se tiene que

λ ∼ FJ,n−k

Note que nuestro estadístico λ satisface tres propiedades útiles:

El valor λ se puede calcular a partir de la muestra aleatoria que tenemos.

La distribución condicional del estadístico λ no depende de X.

La distribución de este estadístico es conocida cuando H0 es verdadera.

Teniendo a la mano este estadístico de distribución conocida podemos hacer pruebasde hipótesis sobre el valor poblacional de las combinaciones lineales de los parámetrosdesconocidos.

Regla de decisión para la prueba F

Tenemos la siguiente regla de decisión utilizando el valor del estadístico λ, para lahipótesis nula

H0 : Cβ = c

Dado el vector hipotético c se puede construir la razón λ = (Cβ−c)′[C(X′X)−1C′]−1(Cβ−c)Jσ2 .

Entre más lejos esté el valor λ de cero, entonces es más posible que falle la hipó-tesis nula.

108

Page 109: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

Para saber qué tan lejos es lejos se debe buscar el valor crítico para una variablealeatoria F con (J, n− k) grados de libertad. Este es el valor Fα,J,n−k. Este valorcrítico satisface

P (F < Fα,J,n−k) = 1− α

donde 1− α es el nivel de signicancia deseado.

No hay evidencia para rechazar H0 si

λ < Fα,J,n−k

y se rechaza H0 en caso contrario.

Como λ ∼ FJ,n−k bajo H0, la probabilidad de rechazar H0 dado que H0 es verdadera esα. Entonces el error de tipo I es α y el nivel de signicancia estadística es 1− α.Otra forma alternativa de decidir si rechazar o no la hipótesis nula es la siguiente.

Denimos el p-value como el valor p tal que

P (F < λ) = 1− p

Se dice que no hay evidencia para rechazar H0 si

p > α

y se rechaza H0 en caso contrario.

Prueba de signicancia conjunta

Queremos probar si un grupo de variables no tiene efecto sobre la variable dependiente.La hipótesis nula entonces sería que un conjunto de variables no tiene efecto sobre y, dadoque se controla por otras variables. La prueba de signicancia conjunta que se utilizacomunmente tiene por hipótesis nula

H0 : β1 = β2 = · · · = βk = 0

donde se busca probar si todos los parámetros excepto el intercepto son nulos (es decir,si el modelo no tiene poder explicativo sobre y). La hipótesis alternativa es simplementeque la nula sea falsa: que algún parámetro de pendiente sea diferente de cero.Este prueba de signicancia conjunta es importante porque es una señal estadística de

la utilidad real del modelo. Se puede realizar utilizando la prueba F .

Ejemplo: No hay una relación clara entre las pruebas de signicancia individuales t y laprueba de signicancia conjunta F . Si dos variables explicativas están altamentelinealmente asociadas, las pruebas t tienden a indicar que no son signicativasindividualmente, porque la desviación estándar de los estimadores de pendientepara esas variables es relativamente grande (por la alta relación lineal). Sin embargola prueba F puede indicar que, en conjunto, estas variables son signicativas paraexplicar la variable y. Eso porque la alta relación lineal no es determinante en laprueba F .

109

Page 110: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

Relación entre la prueba t y la prueba F

Considere una sola restricción lineal (J = 1). En ese caso la prueba F es

λ =

(Cβ − c

)′ [C (X ′X)−1C ′

]−1 (Cβ − c

)Jσ2

Ahora como la matriz C es de tamaño 1× k entonces C (X ′X)−1C ′ es de tamaño 1× 1y Cβ − c es de tamaño 1× 1 y se tiene que

λ =

(Cβ − c

)′ (Cβ − c

)σ2C (X ′X)−1C ′

=

(Cβ − c

)2

σ2C (X ′X)−1C ′

= t2C

Así la prueba t es un caso particular de la prueba F .

Prueba F: Forma II

La prueba F está dada por λ = (Cβ−c)′[C(X′X)−1C′]−1(Cβ−c)Jσ2 . Además se tiene que

u′CuC = u′u +(Cβ − c

)′ [C (X ′X)−1C ′

]−1 (Cβ − c

). Así

λ =u′CuC − u′u

Jσ2=SSRC − SSR

Jσ2

y esta es una forma alternativa de expresar la prueba F : entre más lejana esté la suma deresiduales al cuadrado restringidos de la suma de residuales al cuadrado no restringidaes más posible que falle la hipótesis nula.Como SST =

∑ni=1 (yi − y)2 y esta es la suma de totales al cuadrado sin importar si

el modelo es restringido o no, entonces se tiene, en el caso en que el modelo restringidoy no restringido se estimen con intercepto, que:

λ = SSTSSRCSST −

SSRSST

Jσ2

= SST1− SSR

SST −(

1− SSRCSST

)Jσ2

=SST

Jσ2

(R2 −R2

C

)=

n− kJ

SST

SSR

(R2 −R2

C

)=

n− kJ

R2 −R2C

1−R2

110

Page 111: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

Ejercicio: Demuestre que para la prueba de signicancia conjunta el estadístico de pruebaes

λ =n− kk − 1

R2

1−R2

Prueba F: Forma III

A partir del estimador por mínimos cuadrados restringidos

βC = β −(X ′X

)−1C ′(C(X ′X

)−1C ′)−1 (

Cβ − c)

se tiene que

X(βC − β

)= X

(X ′X

)−1C ′(C(X ′X

)−1C ′)−1 (

c− Cβ)

y se puede calcular

“βC − β

”′X′X

“βC − β

”=

“c− Cβ

”′ “C`X′X

´−1C′”−1

C`X′X

´−1X′X

`X′X

´−1C′“C`X′X

´−1C′”−1 “

c− Cβ”

=“c− Cβ

”′ “C`X′X

´−1C′”−1 “

c− Cβ”

y se tiene entonces que la prueba F puede expresarse como

λ =

(Cβ − c

)′ [C (X ′X)−1C ′

]−1 (Cβ − c

)Jσ2

=

(βC − β

)′X ′X

(βC − β

)Jσ2

Intuitivamente entre más alejado esté el estimador restringido del estimador no res-tringido, más probable es rechazar la hipótesis nula.

5.5.4. Prueba de razón de verosimilitud

La prueba de razón de verosimilitud compara LU , el máximo valor de la verosimilitudalcanzado al estimar el modelo sin restricciones, con LC , el máximo valor de la verosi-militud alcanzado suponiendo además la restricción impuesta por la hipótesis nula. Esdecir, denimos

LU = maxβ,σ2L

LC = maxβ,σ2L

s.a

Cβ = c

111

Page 112: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

y la prueba de razón de verosimilitud es

λL =LULC

Intuitivamente si la razón λL es muy alta entonces el modelo restringido tiene pocaverosimilitud y es más probable que se rechace la hipótesis nula.La prueba F presentada anteriormente es una prueba de razón de verosimilitud porque

es una transformación monótona de la razón λ.La verosimilitud en nuestro caso está dada por

(2πσ²)−n2 exp

(−1

2(y −Xβ)′ (y −Xβ)

σ2

)con σ2 = SSR

n en el caso sin restricción y σ2 = SSRCn en el caso restringido. Así

LU =(

2πSSR

n

)−n2

exp(−n

2

)LC =

(2πSSRCn

)−n2

exp(−n

2

)y por lo tanto

λL =(SSR

SSRC

)−n2

Ahora como la prueba F está dada por

λ =SSRC − SSR

Jσ2=n− kJ

(SSRCSSR

− 1)

entonces la prueba F y la razón de verosimilitud están relacionadas por

λ =n− kJ

((λL)

2n − 1

)de forma tal que ambos tests son estadísticamente el mismo.

5.5.5. Prueba de hipótesis sobre σ2

Considere la hipótesis nulaH0 : σ2 = σ2

0

donde σ20 es un valor conocido, y la hipótesis alternativa

Ha : σ2 6= σ20

Se demostró en la subsección 5.2.2 que

n− kσ2

σ2 ∼ χ2(n−k)

112

Page 113: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

y bajo el supuesto que la hipótesis nula es verdadera se tendría que

n− kσ2

0

σ2 ∼ χ2(n−k)

y con esta razón, que puede ser calculada a partir de la muestra de la que disponemos,se puede hacer pruebas de hipótesis sobre la varianza del término de perturbación.Se escogen los valores críticos χ2

α2,n−k y χ

21−α

2,n−k de forma tal que se cumpla

P(χ2α2,n−k < χ2 < χ2

1−α2,n−k

)= 1− α

y no existe evidencia para rechazar la hipótesis nula si

χ2α2,n−k <

n− kσ2

0

σ2 < χ21−α

2,n−k

También puede construirse el intervalo de conanza

P

(χ2α2,n−k <

n− kσ2

σ2 < χ21−α

2,n−k

)= 1− α

de donde

P

((n− k) σ2

χ21−α

2,n−k

< σ2 <(n− k) σ2

χ2α2,n−k

)= 1− α

5.6. Consistencia y normalidad asintótica

Por el momento se tienen resultados importantes acerca del estimador por mínimoscuadrados ordinarios (o por máxima verosimilitud):

Insesgamiento bajo los Supuestos 4.4.1-4.4.4.

Mejor estimador lineal insesgado bajo los supuestos 4.4.1-4.4.5.

Normalidad (distribución exacta del estimador OLS), si se toma como cierto elSupuesto 5.1.1.

Pruebas t, F , intervalos de conanza e inferencia estadística, bajo el Supuesto 5.1.1.

Todos estos resultados son válidos sin importar el tamaño de muestra. Es decir, paracualquier n dado que satisfaga el supuesto trivial de n > k (hay positivos grados delibertad) se tienen estos resultados. Estas son las llamadas propiedades de muestra

nita.Sin embargo a veces interesa conocer las propiedades asintóticas o de muestra

grande del estimador OLS. Estas propiedades no están denidas para un tamaño demuestra en particular. De hecho están denidas cuando el tamaño de la muestra creceindenidamente. Un resultado importante es que, incluso si se viola el Supuesto 5.1.1,los estadísticos t y F tienen aproximadamente la distribución t y F , cuando la muestraes sucientemente grande.

113

Page 114: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

5.6.1. Consistencia

La consistencia es una propiedad deseable de los estimadores. Si un estimador no esconsistente, no hay esperanzas que al aumentar el tamaño de la muestra (obtener másinformación) mejore en algún sentido la estimación. Por lo tanto no es bueno tener unestimador inconsistente.Recordamos que un estimador es una función de la muestra aleatoria. Como tal depende

del tamaño de la muestra aleatoria n. Así indexamos nuestro estimador del parámetroθ al tamaño de la muestra, de forma que el estimador obtenido para una muestra detamaño n es θn.Decimos que un estimador θn es consistente sii

lımn→∞

P(∣∣∣θn − θ∣∣∣ > ε

)= 0

para cualquier ε > 0.Intuitivamente, θn tiene una distribución de probabilidad asociada (al ser una variable

aleatoria, que representa los valores posibles del estimador para distintas muestras detamaño n), y esta distribución cambia cuando cambiamos el tamaño de la muestra. Siun estimador es consistente, esta distribución muestral del estimador se vuelve cada vezmás concentrada alrededor del verdadero valor del parámetro poblacional θ a medidaque el tamaño de la muestra aumenta. Cuando n tiende a innito la distribución colapsaen un solo punto θ. En términos prácticos esto signica que se puede hacer el estimadorarbitrariamente cercano al verdadero valor θ aumentando el número de datos utilizadosen la estimación (incrementando el tamaño de la muestra).

Consistencia de β

Para mostrar la consistencia introducimos el siguiente supuesto:

Supuesto 5.6.1. Se tiene que

p lım(X ′X

n

)= Q

donde Q es una matriz nita denida positiva de tamaño k × k. Pedimos además que

exista la matriz Q−1.

114

Page 115: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

Analicemos el término X′Xn :

X ′X

n=

1n

1′

x′1...

x′k−1

[ 1 x1 . . . xk−1

]

=1n

1′1 1′x1 . . . 1′xk−1

x′11 x′1x1 . . . x′1xk−1...

.... . .

...x′k−11 x′k−1x1 . . . x′k−1xk−1

=1n

n

∑ni=1 xi1 . . .

∑ni=1 xik−1∑n

i=1 xi1∑n

i=1 xi1xi1 . . .∑n

i=1 xi1xik−1...

.... . .

...∑ni=1 xik−1

∑ni=1 xi1xik−1 . . .

∑ni=1 xik−1xik−1

=

1 x1 . . . xk−1

x1 ˆcov (x1, x1)− x21 . . . ˆcov (x1, xk−1)− x1xk−1

......

. . ....

xk−1 ˆcov (x1, xk−1)− x1xk−1 . . . ˆcov (xk−1, xk−1)− x2k−1

donde

ˆcov (xj , xl) =1n

n∑i=1

(xij − xj) (xil − xl)

y

xj =1n

n∑i=1

xij

Entonces estamos pidiendo que los estimadores de los momentos de las variables aleatoriascontenidas en X converjan en probabilidad a algún valor nito.Este supuesto signica que las sumas contenidas en X ′X crecen a una tasa menor a

la que crece n, y pedir la existencia de Q−1 nos indica que las variables explicativas noson linealmente dependientes en el límite en probabilidad (es extender el supuesto de nomulticolinealidad perfecta en el límite).El estimador por mínimos cuadrados ordinarios puede escribirse como

β =(X ′X

n

)−1(X ′yn

)= β +

(X ′X

n

)−1(X ′un

)A continuación seguimos a Greene (2007). Aplicando el operador de límite en proba-

115

Page 116: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

bilidad a ambos lados

p lım β = p lımβ + p lım

(X ′X

n

)−1(X ′un

)

= β + p lım(X ′X

n

)−1

p lım(X ′un

)= β +

(p lım

X ′X

n

)−1

p lım(X ′un

)β +Q−1p lım

(X ′un

)donde se hace uso del hecho que el operador límite de una función continua es la funciónevaluada en el límite (Teorema de Slutsky), y suma, producto e inversión de matrices sonfunciones continuas.Ahora necesitamos analizar p lım

(X′un

).

Denimos el vector de observación i como

xiobs =[

1 xi1 xi2 . . . xik−1

]Este vector reúne la i-ésima observación de todas las variables independientes. En una

muestra aleatoria de tamaño n se tienen n vectores de observación.Cada observación de la muestra satisface la relación lineal

yi = β0 + β1xi1 + β2xi2 + · · ·+ βk−1xik−1 + ui

yi =[

1 xi1 xi2 . . . xik−1

]

β0

β1

β2...

βk−1

+ ui

yi = xiobsβ + ui

Sea1nX ′u =

1n

n∑i=1

x′iobsui =1n

n∑i=1

wi = w

En ese casop lım β = β +Q−1p lım w

Por el Supuesto 4.4.3 se tiene que

E (wi) = EX (E (wi|X))= EX

(E(x′iobsu|X

))= EX

(x′iobsE (u|X)

)= 0

116

Page 117: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

de forma tal que el valor esperado exacto (y sin condicionar) es

E (w) = 0

Ahora consideramos la varianza. Por un Teorema del Apéndice B de Greene (2007) setiene que

var (w) = EX (var (w|X)) + varX (E (w|X))

Como E (w|X) = 0 entonces varX (E (w|X)) = 0. Así

var (w) = EX (var (w|X))= EX

(E(ww′|X

))= EX

(E

(1n2X ′uu′X|X

))= EX

(1n2X ′E

(uu′|X

)X

)=

σ2

nEX

(X ′X

n

)La varianza colapsa a cero si el valor esperado entre paréntesis es (o converge a) una

matriz constante, de forma tal que el escalar domina el producto al incrementar n. ElSupuesto 5.6.1 debería ser suciente para que esto suceda (teóricamente puede sucederque el valor esperado diverja aunque el límite en probabilidad no, pero este caso no esrelevante para propósitos prácticos). En ese caso seguiría que

lımn→∞

var (w) = 0Q = 0

Como el valor esperado de w es idénticamente cero y su varianza converge a cero,entonces se sigue que w converge en media a cero1. Por un corolario de la desigualdadde Chebychev generalizada2 sigue que p lım w = 0.Entonces

p lımX ′un

= 0

de forma quep lım β = β +Q−10 = β

Así bajo los supuestos 4.4.1-4.4.4 y añadiendo 5.6.1 se tiene que β es un estimadorconsistente de β en el modelo de regresión clásico.Note que si se tiene

cov (xj ,u) 6= 0

entonces se viola la consistencia del estimador OLS.1Si xn es una sucesión de variables aleatorias tales que E (|xn|r) < ∞ y lımn→∞E (|xn − c|r) = 0decimos que xn converge en r-ésima media a c.

2Si xn es una sucesión de variables aleatorias y c es una constante tal que E (|xn − c|r) <∞ y ε es una

constante positiva, entonces P (|xn − c| > ε) ≤ E(|xn−c|r)εr

.

117

Page 118: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

Consistencia de σ2

Por el supuesto 4.4.2 se tiene queu2

1, . . . , u2n

es una muestra aleatoria de variables

independientes e idénticamente distribuidas (iid), tal que E(u2i

)= σ2. Por el teorema de

Khinchine, que dice que la media muestral de variables iid es un estimador consistentede la media poblacional, se tiene que

p lım∑n

i=1 u2i

n= p lım

u′un

= σ2

Se tiene que el estimador OLS de la varianza es

σ2 =u′un− k

=u′Mun− k

siendo M = In −X (X ′X)−1X ′ la matriz aniquiladora generadora de residuales. Así

p lım(σ2)

= p lım

u′(In −X (X ′X)−1X ′

)u

n− k

= p lım

(u′un− k

)− p lım

(u′X (X ′X)−1X ′u

n− k

)

= p lım(

n

n− k

)[p lım

(u′un

)− p lım

(u′Xn

(X ′X

n

)−1 X ′un

)]

= p lım(

n

n− k

)[p lım

(u′un

)− p lım

(u′Xn

)p lım

((X ′X

n

)−1)p lım

(X ′un

)]= 1

[σ2 − 0Q−10

]= σ2

por Khinchine y el teorema de Slutsky.Así σ2 es un estimador consistente.

5.6.2. Normalidad asintótica

Tenemos que√n(β − β

)=(X ′X

n

)−1( 1√n

)X ′u

Como la inversión de matrices es una función continua, p lım(X′Xn

)−1=(p lım X′X

n

)−1=

Q−1. Por lo tanto si una distribución límite del vector aleatorio√n(β − β

)existe, en-

tonces esa distribución límite debe ser la misma distribución de

p lım

[(X ′X

n

)−1( 1√n

)X ′u

]= Q−1

(1√n

)X ′u

118

Page 119: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

y por lo tanto debemos establecer la distribución límite de(1√n

)X ′u =

√n (w − E [w])

donde E [w] = 0. Se puede ahora utilizar la versión multivariada del teorema de límitecentral de Lindberg-Feller3 para obtener la distribución límite de

√nw. Se tiene que w

es el promedio de n vectores aleatorios independientes wi = x′iobsui con media cero yvarianza

varX(x′iobsui

)= σ2EX

(x′iobsxiobs

)= σ2Qi

y la varianza de√nw es

σ2Qn = σ2

(1n

)(Q1 +Q2 + · · ·+Qn)

En el caso que esta suma no esté dominada por algún término en particular y quelos regresores estén bien comportados (en términos prácticos que se cumpla el supuesto5.6.1) entonces

lımn→∞

σ2Qn = σ2Q

y podemos aplicar el teorema de límite central de Lindenberg-Feller al vector√nw. Más

formalmente:

Teorema 5.6.2. Teorema de Normalidad Asintótica:

Bajo los supuestos 4.4.1-4.4.5, si ui son independientes con media cero y varianza

nita σ2 y además se cumple p lım(X′Xn

)= Q, entonces

βd→ N

(β,σ2

nQ−1

)3Suponga que x1, . . . ,xn es una muestra de vectores aleatorios tal que E (xi) = µi, var (xi) = Qi ytodos los terceros momentos mezclados de la distribución multivariada son nitos. Sea

µn =1

n

nXi=1

µi

Qn =1

n

nXi=1

Qi

Suponga quelımn→∞

Qn = Q

donde Q es nita, denida positiva y para cada i

lımn→∞

`nQn

´−1Qi = lım

n→∞

nXi=1

Qi

!−1

Qi = 0

Note que implícito está el supuesto que la suma de estas matrices no es singular. Con estos supuestosse tiene que √

n (xn − µn)d→ N (0, Q)

119

Page 120: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

Demostración. Si x′iobsui son vectores independientes distribuidos con media cero y va-

rianza σ2Qi <∞ y si p lım(X′Xn

)= Q entonces(

1√n

)X ′u d→ N

(0, σ2Q

)por el teorema de límite central de Lindenberg-Fuller.Se sigue entonces que

Q−1

(1√n

)X ′u d→ N

(0, Q−1

(σ2Q

)Q−1

)y combinando términos se tiene

√n(β − β

)d→ N

(0, σ2Q−1

)Entonces

βd→ N

(β,σ2

nQ−1

)

En la práctica se hace necesario estimar 1nQ−1 con (X ′X)−1 y σ2 con u′u

n−k . Note que sihay heteroscedasticidad, sin importar el tamaño de la muestra, las pruebas estadísticasusuales no son válidas.Deben tenerse en cuenta las siguientes observaciones:

Si u se distribuye normal, entonces la distribución exacta de β es β ∼ N(β, σ2 (X ′X)−1

)para cualquier tamaño de muestra. Así que también es normal asintóticamente.

Si los regresores están bien comportados y las observaciones son independientes, en-tonces la normalidad asintótica del estimador OLS no depende de la normalidadde las perturbaciones; es una consecuencia del teorema central del límite.

5.6.3. Inferencia basada en propiedades asintóticas

Incluso si el supuesto 5.1.1 de normalidad en el término de perturbación no se cumple,aun es posible tener un fundamento teórico para la realización de pruebas de hipótesis.Del teorema de normalidad asintótica se tiene que

√n(β − β

)d→ N

(0, σ2Q−1

)y se sabe que los teoremas sobre las distribuciones asociadas a la normal se mantienenen el caso límite. Así, si C es una matriz constante conocida de tamaño J × k y de rangoJ , se tiene que

√n(Cβ − Cβ

)d→ N

(0, σ2CQ−1C ′

)

120

Page 121: Notas_econometria

5 Inferencia en el análisis de regresión múltiple

y

n(Cβ − Cβ

)′ [CQ−1C ′

]−1(Cβ − Cβ

)σ2

d→ χ2J

En estas expresiones, por tratarse de funciones límite, puede reemplazarse

X ′X

n→ Q

σ2 → σ2

sin alterar la distribución límite. En ese caso

λas =

(Cβ − Cβ

)′ [C (X ′X)−1C ′

]−1 (Cβ − Cβ

)σ2

d→ χ2J

y

tC =Cβ − Cβ

σ√C (X ′X)−1C ′

d→ N (0, 1)

y estas razones pueden utilizarse para construir intervalos de conanza, basados en lateoría asintótica.Note que estos resultados dieren un poco de los obtenidos en la subsección 5.4.

1. Cuando el término de perturbación se distribuye normal, se tiene que tC sigueuna distribución t con n − k grados de libertad. Cuando la distribución de lostérminos de perturbación es desconocida, tC converge a una normal estándar. Paramuestras grandes no hace diferencia cuál de las dos distribuciones utilizar, ya que

tn−kd→ N (0, 1).

2. El estadístico F construido antes era la base para varias pruebas de hipótesis li-neales, bajo el supuesto de normalidad. Se tiene que

λ =λasJ

Cuando u no se distribuye normal, la distribución de λ es desconocida y es preferibleutilizar λas que tiende a una chi cuadrado. Para muestras grandes no hace diferencia

cuál de las dos distribuciones utilizar, ya que JFJ,n−kd→ χ2

J .

Estos resultados indican entonces que si E (u) = 0, los términos de perturbación sonindependientes entre sí y el proceso generador de X es independiente del proceso gene-rador de u, entonces los resultados sobre inferencia estadística, pruebas de hipótesis yestimación por intervalos son aproximadamente válidos en el caso límite.

121

Page 122: Notas_econometria

6 Modelo de regresión con variablesdicótomas

Este capítulo sigue totalmente a Gujarati (2002) y Wooldridge (2002).En general las variables de interés económico pueden clasicarse en cuatro categorías:

Escala de proporción: Al tomar dos valores de la variable X, x1 y x2, la proporciónx1x2

y la distancia d (x1, x2) son cantidades que tienen sentido. Además existe unordenamiento natural de los valores a lo largo de la escala. Ejemplo: PIB.

Escala de intervalo: la distancia d (x1, x2) es una cantidad que tiene sentido (masno la proporción) y tienen un orden natural. Ejemplo: Tiempo (años).

Escala ordinal: Únicamente satisface la propiedad de poseer un orden natural. Ejem-plo: Sistemas de clasicaciones, estratos. Existe el orden pero la distancia entrecategorías no puede cuanticarse.

Escala nominal: No tienen ninguna de las características de las variables de pro-porción. Ejemplo: Género, estado civil.

Las técnicas econométricas que pueden ser adecuadas para las variables de escala deproporción pueden no ser adecuadas para otros tipos de variables. Los modelos de re-gresión pueden trabajar con variables de escala nominal, variables categóricas, variablescualitativas o variables dicotómicas (dos categorías).En el análisis de regresión, la variable dependiente está inuida no sólo por variables de

razón de escala (por ejemplo, ingreso, producción, precios, costos, estatura, temperatura)sino también por variables que son esencialmente cualitativas por naturaleza (per ejemplosexo, raza, religión, nacionalidad, región geográca, aliación a un partido político). Lasvariables cualitativas sí inuyen sobre la variable dependiente y deben ser incluidas dentrode las variables explicativas.Usualmente las variables cualitativas indican la presencia o ausencia de alguna cualidad

o atributo. Se pueden cuanticar con la generación de una variable binaria, la variableindicador

xi =

1 si la característica está presente en la observación i

0 en caso contrario

Por ejemplo, el uno (1) puede indicar que el individuo es de sexo masculino y cero (0)el caso contrario; o 1 puede indicar que una persona se ha graduado en la universidad y0 que no lo ha hecho.

122

Page 123: Notas_econometria

6 Modelo de regresión con variables dicótomas

6.1. Variables dicótomas e interceptos diferenciales

Las variables dicótomas pueden utilizarse para categorizar a las observaciones, es decir,agruparlas en categorías predenidas. Al tener dividida la muestra en varios grupos,puede analizarse las diferencias que se presenta entre los grupos. La forma más sencillade analizar estas diferencias entre grupos es teniendo interceptos diferenciales.

Ejemplo: Efecto diploma (sheepskin eect): evaluar el impacto de la consecución de untítulo académico en el salario esperado de los individuos. Esto puede modelarse conla regresión

lnw = β0 + β1educ+ β2exper + α1d+ u

siendo d una variable dicótoma que indica si la persona obtuvo un título universita-rio o no. El coeciente β3 indica, para dos personas con idénticas características, elefecto adicional sobre el salario que genera el hecho de tener un título universitario.Representa una forma de diferenciar el intercepto entre dos grupos de individuos.Note que

E (lnw|educ, exper, d = 0) = β0 + β1educ+ β2exper

E (lnw|educ, exper, d = 1) = (β0 + α1) + β1educ+ β2exper

Es fácil hacer pruebas de hipótesis acerca de diferencias en medias entre grupos diferentesde observaciones. Al realizar la estimación OLS, suponiendo que se cumplen todos lossupuestos necesarios, pueden realizarse pruebas de signicancia sobre los parámetros queacompañan a las variables dicótomas. Si estos coecientes son signicativos, entoncesestadísticamente es signicativa la diferencia en la variable dependiente entre gruposdistintos.En general se tiene que el modelo con variables dicótomas es

yi = β0 + β1xi1 + · · ·+ βk−1xik−1 + α1di1 + · · ·+ αqdiq + ui

siendo dq una variable dicótoma, para i = 1, . . . , n.Las variables dicótomas se deben utilizar con cuidado:

Deben utilizarsem−1 variables dicótomas para una variable que tienem categorías.De lo contrario el modelo presenta multicolinealidad perfecta con parámetro deintercepto.

La categoría a la cual no se asigna una variable dicótoma se conoce como catego-ría de control. La elección de esta categoría queda a criterio del investigador, ydepende del problema a tratar.

El valor del intercepto representa el valor medio de la categoría de control.

Los coecientes anexos a las variables dicótomas se conocen como coecientes dela intersección diferencial.

123

Page 124: Notas_econometria

6 Modelo de regresión con variables dicótomas

6.2. Términos interactivos y pendientes diferenciales

Las variables dicótomas también permiten introducir cambios en los parámetros dependiente entre agrupaciones diferentes de la muestra disponible. Es decir, debe reco-nocerse que el efecto marginal de una variable explicativa puede cambiar entre gruposdiferentes.La forma de incorporar este efecto es a través de la introducción de términos interacti-

vos en la regresión: el producto de las variables dicótomas por la variable independientede interés, en la cual se cree que puede existir un cambio del parámetro de pendiente.

Ejemplo: Efecto diploma (sheepskin eect): podría pensarse que tener o no el títulouniversitario modica el efecto de la experiencia sobre el salario. Una forma demodelar esto es:

lnw = β0 + β1educ+ β2exper + α1exper × d+ u

En ese caso se tiene

E (lnw|educ, exper, d = 0) = β0 + β1educ+ β2exper

E (lnw|educ, exper, d = 1) = β0 + β1educ+ (β2 + α1) exper

La multiplicación de la variable dicótoma por la variable explicativa permite diferenciarentre los coecientes de las pendientes entre los dos grupos, de la misma forma que laintroducción aditiva de la variable dicótoma permite distinguir entre las interseccionesde los dos grupos.En general

yi = β0 +k−1∑j=1

βjxi1 +q∑l=1

αldil +k−1∑j=1

q∑l=1

γjlxijdil + ui

Note que si se utiliza el supuesto de homoscedasticidad, siempre se está suponiendoque la varianza del término de perturbación entre los diferentes grupos es igual.

6.3. Pruebas de estabilidad estructural: probandodiferencias entre grupos

Esta sección sigue a Wooldridge (2002).La regresión estándar implica que la estructura del modelo no cambia entre los períodos

de estudio, o entre las observaciones disponibles. Pero esto puede no ser siempre el caso.Cuando se utiliza un modelo de regresión que involucra series de tiempo, tal vez suceda

que haya un cambio estructural en la relación entre la variable dependiente y y lasvariables independientes. Por cambio estructural se quiere decir que los valores de losparámetros del modelo no permanecen constantes a lo largo de todo el período de estudio.Esto puede deberse a factores exógenos o a cambios de política.

124

Page 125: Notas_econometria

6 Modelo de regresión con variables dicótomas

Esta situación también podría pasar en cortes transversales (ej: comisiones de ventasdiferenciadas por el volumen de ventas: hay mayores comisiones si el volumen de ventassupera cierto umbral). También puede suceder que el modelo de regresión es diferenteentre diferentes grupos.En las secciones anteriores se vio cómo probar estadísticamente diferencias en medias

y pendientes entre grupos. Ahora nos concentramos en una prueba de hipótesis globalque responda a la pregunta: ¾existe diferencia (de cualquier tipo) en el modelo que siguendos grupos diferentes?Suponga que se tiene una muestra de n observaciones y que existen dos grupos ex-

cluyentes en nuestra muestra. Cada grupo se denota por g = 1 y g = 2, y podrían serhombres y mujeres, graduados y no graduados, hispanos y no hispanos etc. Se quiereprobar si el intercepto y los parámetros de pendiente son iguales entre los dos grupos.El modelo es

y = βg,0 + βg,1x1 + · · ·+ βg,k−1xk−1 + u

para g = 1 y g = 2 y la hipótesis nula a probar es

H0 : β1,j = β2,j

para j = 0, 1 . . . , k − 1.Se puede generar la variable dicótoma d1 tal que

di1 =

1 si la observación i pertenece al grupo 10 en caso contrario

El modelo no restringido (en el cual la hipótesis nula es falsa) es:

y = β0 + α0d1 + (β1 + α1d1)x1 + · · ·+ (βk−1 + αk−1d1)xk−1 + u

Note que en este modelo se permite que todos los parámetros del modelo sean diferentesentre los dos grupos (determinados por la variable dicótoma d1).El modelo restringido sería

y = β0 + β1x1 + · · ·+ βk−1xk−1 + u

en el cual se tiene α0 = α1 = · · · = αk−1 = 0. Es decir, si hacemos que todos losparámetros que acompañan a la variable dicótoma sean iguales a cero, se tendría que elmodelo de regresión lineal es igual para ambos grupos.Así se puede expresar la hipótesis nula como

H0 = αj = 0

con j = 0, 1 . . . , k − 1.Note que se tiene un modelo no restringido y un modelo restringido, y se puede utilizar,

bajo los supuestos 4.4.1-4.4.5, la prueba F (en caso de normalidad) o su equivalenteasintótico (bajo los supuestos que acompañan al teorema de normalidad asintótica delestimador OLS).

125

Page 126: Notas_econometria

6 Modelo de regresión con variables dicótomas

Bajo el supuesto de normalidad se tiene

λ =SSRnd − SSRd

Jσ2

=n− 2kk

SSRnd − SSRdSSR

tiene una distribución conocida, siendo SSRnd la suma de residuales al cuadrado delmodelo restringido (sin variables dicótomas) y SSRd la suma de residuales al cuadradodel modelo sin restringir (con variables dicótomas)En nuestro caso se tiene que en el modelo sin restringir se están estimando 2k pará-

metros (los βj y los αj) y hay k restricciones (que los αj sean cero).Por el momento no hay nada novedoso al utilizar la prueba F . Sin embargo, hay una

forma alternativa de llevar a cabo este test. Suponga que se realizan dos regresionesseparadas, una para cada grupo

y = βg,0 + βg,1x1 + · · ·+ βg,k−1xk−1 + u

con g = 1, 2. Se tiene que n1 observaciones pertenecen al grupo 1, n2 observacionespertenecen al grupo 2 y n = n1 + n2. Al tener dos regresiones se tienen dos sumasde residuales al cuadrado, una para cada regresión: SSR1 es la suma de residuales alcuadrado para la regresión asociada al grupo 1 y SSR2 es la correspondiente al grupo 2.Chow demostró que, bajo los supuestos 4.4.1-4.4.5 se tiene

SSRd = SSR1 + SSR2

y utilizando esta propiedad la prueba F puede expresarse como

λ =n− 2kk

SSRnd − (SSR1 + SSR2)SSR1 + SSR2

El estadístico λ así construido se conoce como test de Chow. Se tiene que, bajo elsupuesto de normalidad en los términos de perturbación,

λ ∼ Fk,n−2k

Ejercicio: Demuestre que al correr dos regresiones separadas entre dos grupos se tieneque

SSRd = SSR1 + SSR2

siendo SSRd la suma de residuales al cuadrado del modelo que incluye todas lasvariables dicótomas.

6.4. Modelo de probabilidad lineal

En todos los ejemplos presentados hasta esta sección se ha utilizado una variable deescala proporcional, con signicado cuantitativo, como variable dependiente. Surge enton-ces la pregunta: ¾qué pasa si la variable dependiente es dicótoma, o si puede pertenecer a

126

Page 127: Notas_econometria

6 Modelo de regresión con variables dicótomas

múltiples categorías? ¾Cómo utilizar el modelo de regresión lineal para explicar un eventocualitativo?En el caso más sencillo, la variable dependiente y puede tomar dos valores: cero o

uno. Por ejemplo, y puede indicar si un adulto completó la educación básica o no, si unintegrante de la PEA está participando en el mercado laboral o no o si una persona entre15 y 45 años utiliza drogas alucinógenas.En este caso el modelo de regresión lineal es el usual

y = β0 + β1x1 + · · ·+ βk−1xk−1 + u

pero la interpretación de los parámetros βj es diferente: βj no indica cuánto cambia yal cambiar marginalmente la variable xj , ya que ahora y sólo puede tomar dos valores(cero o uno). Sin embargo, bajo el supuesto 4.4.3, los parámetros tienen interpretacionesútiles. En ese caso E (u|X) = 0 y

E (y|X) = β0 + β1x1 + · · ·+ βk−1xk−1

Ahora, por ser y una variable dicótoma que toma valores de cero o uno, se tiene siempreque

E (y|X) = 1× P (y = 1|X) + 0× P (y = 0|X)= P (y = 1|X)

y al sustituir se tiene que

P (y = 1|X) = β0 + β1x1 + · · ·+ βk−1xk−1

que indica que la probabilidad de éxito (P (y = 1|X)) es una función lineal en parámetrosde las variables explicativas. Así el parámetro βj puede interpretarse como el cambiomarginal en la probabilidad de éxito al cambiar marginalmente la variable xj :

∆P (y = 1|X) = βj∆xj

Note que la variable y sigue la distribución de probabilidad de Bernoulli.Este es un ejemplo de los modelos de respuesta binaria, y se llama modelo de

probabilidad lineal, por la linealidad de la forma funcional.Teniendo en cuenta estas consideraciones, la mecánica de la estimación por mínimos

cuadrados ordinarios puede utilizarse para estimar los parámetros desconocidos de estemodelo. En ese caso

y = β0 + β1x1 + · · ·+ βk−1xk−1

es la predicción OLS de la probabilidad de éxito.Para que la interpretación del modelo sea clara, es importante denir adecuadamente

qué constituye un éxito.

127

Page 128: Notas_econometria

6 Modelo de regresión con variables dicótomas

Ejemplo: Participación en el mercado laboral. No todas las personas que están en laPEA deciden participar en el mercado laboral. Para explicar esta situación puededesarrollarse un modelo de probabilidad lineal. Para determinar, por ejemplo, laprobabilidad que una mujer casada participe en el mercado laboral, se tiene que

labour = β0 + β1nwifeinc+ β2educ+ β3exper

+β4exper2 + β5age+ β6kidslt6 + β7kidsge6 + u

Deben tenerse en cuenta ciertas dicultades inherentes al modelo de probabilidad lineal:

No cumplimiento de 0 ≤ P (y = 1|X) ≤ 1: Es claro que pueden obtenerse predic-ciones que no estén contenidas en el intervalo [0, 1]. Es decir, con mucha facilidadse tiene que y /∈ [0, 1], lo cual no tiene sentido al estar prediciendo una probabilidadde éxito.

No cumplimiento de 0 ≤ ∆P (y = 1|X) ≤ 1: Es claro que cambios fuertes en lasvariables independientes (|∆xj | 0) pueden generar cambios mayores a uno (1)en la variable dependiente. Esto tampoco es posible.

El coeciente R2 es una medida cuestionable de bondad del ajuste: Para cualquiervalor que tomen las variables independientes, y es cero o uno. Etonces y siemprese encuentra sobre la recta y = 0 o sobre la recta y = 1 y es difícil ajustar otrarecta diferente. En general el coeciente de determinación es muy bajo. Así, eluso del coeciente de determinación como un estadístico de resumen debe evitarseen modelos con variable dependiente cualitativa (Aldrick y Nelson, citado porGujarati (2002), capítulo 15).

No normalidad en las perturbaciones ui: El supuesto de normalidad no se puedecumplir en el modelo de probabilidad lineal porque, al igual que yi, el término deperturbación ui sólo toma dos valores. Es decir, el término de perturbación tambiénse distribuye Bernoulli. Para verlo, considere

ui = yi − β0 − β1xi1 − · · · − βk−1xik−1

y

ui|X =

−β0 − β1xi1 − · · · − βk−1xik−1 si yi = 0, con probabilidad P (yi = 1|X)1− β0 − β1xi1 − · · · − βk−1xik−1 si yi = 1, con probabilidad 1− P (yi = 1|X)

Sin el supuesto de normalidad deben sustentarse las pruebas de hipótesis por pro-piedades asintóticas.

Heteroscedasticidad por denición: Incluso bajo el supuesto de media condicionalcero y no correlación entre los términos de perturbación, el modelo de probabi-lidad lineal presenta heteroscedasticidad por construcción. Para una distribuciónBernoulli con probabilidad de éxito p, la media y la varianza son p y p (1− p), de

128

Page 129: Notas_econometria

6 Modelo de regresión con variables dicótomas

donde se deduce que la varianza es una función de la media. Para la distribucióndel término de perturbación se tiene que

var (ui|X) = P (yi = 1|X) (1− P (yi = 1|X))

y por lo tanto la varianza del término de perturbación es función de las variablesindependientes. Por denición esto es heteroscedasticidad.

La falla del supuesto de normalidad y homoscedasticidad no generan sesgo en la esti-mación OLS del modelo de probabilidad lineal, pero sí afectan la inferencia estadística,tanto en muestras nitas (por la falla del supuesto de normalidad) como asintóticamente(por la presencia de heteroscedasticidad).Debe entonces buscarse una solución para modelos de regresión que presenten heteros-

cedasticidad. Este es uno de los temas tratados en el siguiente capítulo.

129

Page 130: Notas_econometria

7 Heteroscedasticidad y autocorrelación

Hasta este momento se ha utilizado el supuesto simplicador de homoscedasticidady no autocorrelación de los términos de perturbación (supuesto 4.4.5). Es decir, se hasupuesto que

E(u′u|X

)= σ2In

Este supuesto puede ser poco apropiado en muchos casos.

1. La varianza del término de perturbación puede depender del tamaño de hogares,rmas o unidades encuestadas.

2. La varianza puede depender de las variables independientes consideradas (por ejem-plo, hogares con más riqueza tienden a ocultar sus ingresos, aumentando la varianzadel término de perturbación).

3. Los datos de series de tiempo pueden presentar autocorrelación en el término deperturbación: el impacto de ut sobre la variable dependiente no siempre se transmitede una forma completa e inmediata.

4. Otra forma de correlación en los términos de perturbación puede presentarse porcercanía geográca: los choques que afectan a regiones o ciudades cercanas suelenestar altamente correlacionados.

5. Otro caso de violación del supuesto es por la propia construcción del modelo, comoen el caso del modelo de probabilidad lineal.

Todas estas situaciones implican que el supuesto 4.4.5 puede fallar. Cuando la varianzade los términos de perturbación no es constante y depende de las variables explicativas,se tiene heteroscedasticidad. Cuando la correlación entre los términos de perturbaciónno son cero se habla de autocorrelación.La pregunta es: ¾cómo estimar adecuadamente el modelo de regresión lineal cuando

hay autocorrelación y/o heteroscedasticidad?

7.1. Mínimos cuadrados generalizados

7.1.1. Descomposición de Cholesky - Diagonalización espectral

Sea A una matriz con entradas reales, simétrica y denida positiva. Entonces A puededescomponerse como

A = LL′

130

Page 131: Notas_econometria

7 Heteroscedasticidad y autocorrelación

donde L es una matriz triangular inferior con elementos en la diagonal diferentes de cero.Esta es la descomposición de Cholesky y L es invertible.La descomposición espectral indica que para toda matriz cuadrada A cuyos eigenvec-

tores son linealmente independientes es diagonalizable (es similar a una matriz diagonal):

A = EΛE−1

donde E =[

e1 . . . en

]es la matriz de rango completo que contiene a los vectores

propios y Λ =

λ1 . . . 0...

. . ....

0 . . . λn

es la matriz diagonal que contiene los eigenvalores

correspondientes. Si los eigenvectores se normalizan, entonces la descomposición es única(por unicidad de los eigenvalores).Si además la matriz A es simétrica entonces

A = A′

EΛE−1 =(E−1

)′ ΛE′y por unicidad de la descomposición debe tenerse

E−1 = E′

En ese caso

A = EΛE′

= EΛ12 Λ

12E′

A = LL′

y L = EΛ12 es invertible si todos los valores propios de A son diferentes de cero.

7.1.2. Violación de homoscedasticidad y/o no autocorrelación

Suponga que para el modelo lineal

y = Xβ + u

se dispone de una muestra aleatoria de tamaño n. Suponga que los Supuestos 4.4.1-4.4.4se cumplen, pero que en lugar del supuesto de homoscedasticidad y no autocorrelaciónse tiene que la matriz de varianzas y covarianzas del término de perturbación, en nuestramuestra de tamaño n, satisface

E(uu′)

= σ2Ψ

donde P es una matriz de tamaño n× n.

Ejercicio: Muestre que la matriz Ψ debe ser simétrica y semidenida positiva.

131

Page 132: Notas_econometria

7 Heteroscedasticidad y autocorrelación

El modelo lineal en este caso puede ser estimado utilizando la regla de mínimos cuadra-dos ordinarios obtenida en el capítulo 4. En ese caso nos interesa analizar las propiedadesque satisface el estimador

β =(X ′X

)−1X ′y

dado que ahora se viola el supuesto de homoscedasticidad y no autocorrelación.Se tiene que

E(β|X

)= β +

(X ′X

)−1X ′E (u|X)

= β

porque el supuesto 3.6.3 (E (u|X) = 0) sigue siendo válido. Así el estimador OLS aún esinsesgado.La varianza condicionada del estimador OLS ahora va a ser diferente:

var(β|X

)= E

((β − β

)(β − β

)′|X)

= E

(((X ′X

)−1X ′u

)((X ′X

)−1X ′u

)′|X)

= E((X ′X

)−1X ′uu′X

(X ′X

)−1 |X)

=(X ′X

)−1X ′E

(uu′|X

)X(X ′X

)−1

= σ2(X ′X

)−1X ′ΨX

(X ′X

)−1

y esta expresión es por lo general diferente a σ2 (X ′X)−1: sólo son iguales si Ψ = In, esdecir, en el caso de homoscedasticidad y no autocorrelación.Así, la violación del supuesto 4.4.5 hace que el estimador por OLS siga siendo insesgado,

pero con una matriz de varianzas-covarianzas diferente. Note que esto pone en duda elresultado de Gauss-Markov y el uso de las pruebas de inferencia estadística desarrolladasanteriormente.

7.1.3. Estimador por mínimos cuadrados generalizado

Como la matriz P es semidenida positiva y simétrica, aplicando el teorema de des-composición de Cholesky (o la diagonalización espectral), se tiene que existe una des-composición

Ψ = LL′

y L es invertible.Por la descomposición de Cholesky se tiene que

Ψ−1 = Q′Q

donde Q = L−1.

132

Page 133: Notas_econometria

7 Heteroscedasticidad y autocorrelación

Considere las siguientes variables auxiliares:

y∗ = Qy

X∗ = QX

u∗ = Qu

Vamos a mostrar que el modelo modicado

y∗ = X∗β + u∗

satisface los Supuestos 4.4.1-4.4.5 (incluido el de homoscedasticidad y no autocorrelación,que no satisface el modelo original).

Supuesto 1: Linealidad en los parámetros.Por el Supuesto 4.4.1 que satisface el modelo original se tiene

y = Xβ + u

y al multiplicar por la matriz constante Q se tiene

Qy = QXβ +Qu

y∗ = X∗β + u∗

así que el modelo modicado es lineal.

Supuesto 2: Muestreo aleatorio.Por el Supuesto 4.4.2 que satisface el modelo original se dispone de una muestraaleatoria

xi1, . . . , xik−1, yi : i = 1, . . . , n

proveniente de la población. Al multiplicar por la matriz constante Q entonces setiene

x∗i1, . . . , x∗ik−1, y

∗i : i = 1, . . . , n

y esta es una muestra aleatoria del modelo modicado dado que por el momentosuponemos que Q es una matriz conocida, y es constante.

Supuesto 3: Media condicional cero.Se tiene que

E (u∗|X∗) = E (Qu|X∗)= E (Qu|QX)= E (Qu|X)= QE (u|X)= 0

porque Q es una matriz constante.

133

Page 134: Notas_econometria

7 Heteroscedasticidad y autocorrelación

Supuesto 4: No multicolinealidad perfecta.Se tiene que por una propiedad de álgebra lineal, si C es una matriz l×m de rangom entonces

rank (CA) = rank (A)

En nuestro caso la matriz Q tiene rango completo n y

rank (QX) = rank (X)= n

porque el modelo original cumple el Supuesto 4.4.4.

Supuesto 5: HomoscedasticidadSe debe calcular la matriz de varianzas-covarianzas del término de perturbación delmodelo modicado:

E(u∗u∗

′ |X)

= E(Quu′Q′|X

)= QE

(uu′|X

)Q′

= σ2QΨQ′

= σ2Q(Q′Q

)−1Q′

= σ2QQ−1(Q′)−1

Q′

= σ2In

donde se usó que Ψ−1 = Q′Q y que por lo tanto Ψ = (Q′Q)−1.

Puede obtenerse el estimador OLS del modelo modicado:

β∗ =(X∗′X∗)−1

X∗′y∗

=(X ′Q′QX

)−1X ′Q′Qy

=(X ′Ψ−1X

)−1X ′Ψ−1y

Este es el estimador por mínimos cuadrados generalizados:

βGLS =(X ′Ψ−1X

)−1X ′Ψ−1y

Este modelo modicado satisface los Supuestos 4.4.1-4.4.5, y por lo tanto el estimadorpor mínimos cuadrados ordinarios para el modelo modicado es insesgado y BLUE (versubsección 4.4.4):

E(β∗|X

)= β

var(β∗|X

)= σ2

(X∗′X∗)−1≤ var

(β|X

)

134

Page 135: Notas_econometria

7 Heteroscedasticidad y autocorrelación

Ahora debemos obtener la matriz de varianzas y covarianzas condicionales al valor dela muestra X para el estimador OLS generalizado del modelo modicado (β∗) y para elestimador OLS estándar (β):

var(β∗|X

)= σ2

(X∗′X∗)−1

= σ2(X ′Q′QX

)−1

= σ2(X ′Ψ−1X

)−1

y

var(β|X

)= σ2

(X ′X

)−1X ′ΨX

(X ′X

)−1

Si P 6= In entonces nada asegura que estas dos matrices de varianzas y covarianzas

sean iguales. Es decir, en general, var(β∗)6= var

(β). Entonces β∗ es BLUE (por

Gauss-Markov) y β no lo es.

Ejercicio: Una forma directa de ver que β ya no es el mejor estimador lineal insesgadoes simplemente hacer

var(β|X

)− var

(β∗|X

)= σ2

(X ′X

)−1X ′ΨX

(X ′X

)−1 − σ2(X ′Ψ−1X

)−1 = D

y demostrar que D es una matriz semidenida positiva.Muestre que D = σ2AΨA′ siendo A = (X ′X)−1X ′ −

(X ′Ψ−1X

)−1X ′Ψ−1.

Concluimos entonces que la violación del supuesto de homoscedasticidad y no autoco-rrelación ocasiona que el estimador por mínimos cuadrados ordinarios estándar no sea elmejor estimador lineal insesgado. Y por Gauss-Markov, el estimador por mínimos cua-drados generalizados es el mejor estimador lineal insesgado del modelo y = Xβ + ucuando E (uu′|X) = σ2Ψ.

Ejercicio: Demuestre queβGLS =

(X ′Ψ−1X

)−1X ′Ψ−1y

se obtiene de minimizar la suma generalizada de residuales al cuadrado

S = (y −Xβ)′Ψ−1 (y −Xβ)

Por esta razón se tiene que βGLS es el llamado estimador por mínimos cuadradosgeneralizados.

135

Page 136: Notas_econometria

Bibliografía

Cohen, Ruben D.: Why do Random Samples Represent Populations so Accurately?Journal of Chemical Education, 1991, 68(11), pp. 902903.

Greene, William H.: Econometric Analysis. Prentice Hall, 6ª edición, 2007. ISBN0135132452.

Gujarati, Damodar N.: Basic Econometrics. Mcgraw-Hill, 4ª edición, 2002.

Hogg, Robert V. y Craig, Allen T.: Introduction to Mathematical Statistics. Pren-tice Hall, Upper Saddle River, New Jersey 07458, 5ª edición, 1995.

Judge, George G.; Hill, R. C.; Griffiths, W. E.; Lütkepohl, H. y Lee, T.:Introduction to the Theory and Practice of Econometrics. John Wiley, New York,1982. ISBN 0471624144.

Kennedy, Peter: A Guide to Econometrics. MIT Press, 5ª edición, 2005.

Wooldridge, Jeffrey M.: Introductory Econometrics: A Modern Approach. SouthWestern College Publishing, 2ª edición, 2002. ISBN 0324113641.

136