interpretacion_estimados eviews stata esta es!! pag6!

Upload: jesus-aviles-robles

Post on 14-Oct-2015

27 views

Category:

Documents


1 download

TRANSCRIPT

  • INTERPRETACIN DE LOS PARMETROS DE UN MODELO BSICO DE REGRESIN LINEAL

    Rafael de Arce Ramn Maha

    Febrero de 2012

    Adems de abordar en otras sesiones y documentos los aspectos relativos a la estimacin de los parmetros de un MBRL, conviene tener claro, por encima de todo la interpretacin de los mismos.

    I.- Interpretacin intuitiva de los estimadores MCO en la regresin mltiple Si imaginamos una ecuacin estimada con dos variables exgenas ms un trmino independiente, el modelo estimado sera:

    iii xxy 33221

    Imaginemos una muestra temporal donde i representa el paso del tiempo. Si expresamos ahora el modelo en diferencias, es decir, si al valor estimado de y en el

    perodo i ( iy ) le restamos el valor estimado de y en el perodo i-1 ( 1 iy ) tenemos

    que:

    iii

    iiiiii

    xxy

    xxxxyy

    3322

    1331221332211

    Qu representa por tanto 2 ?. Una forma simple de expresar 2 es:

    2

    2

    30

    i

    ii

    x

    yx

    Es decir, 2 permite computar el cambio obtenido en y producido por un cambio en

    x2 mantenindose x3 constante. Es decir: los coeficientes de la regresin mltiple son coeficientes ceteris paribus. El punto clave, como seala Wooldridge1, es que la estimacin de estos coeficientes parciales se obtiene an cundo los datos no se hayan observado o recogido en esas condiciones. Es decir, la regresin mltiple nos permite imitar () lo que los cientficos hacen en los entornos (experimentales) controlados de laboratorio: conservar fijos otros factores.

    1 Introduccin a la econometra. Un enfoque moderno. Ed. Thomson.

  • Imaginemos, por ejemplo, el resultado obtenido en la estimacin de una regresin que relaciona las ventas mensuales de nuestra empresa con los cambios en los precios y en la publicidad:

    iii PubV 3,1Pr5,02

    Si las ventas y la publicidad estn medidas en millones de euros y los precios en euros por unidad:

    El parmetro -0.5 de los precios indicara que por cada incremento de un euro en el precio unitario, nuestras ventas se reduciran en medio milln de euros siempre y cuando se mantuviese constante el presupuesto en publicidad.

    El coeficiente de 1.3, positivo, indica que, si no variamos el precio de venta, un incremento de 1 milln de euros en publicidad genera un incremento de ventas de 1.3 millones.

    Evidentemente, la empresa nunca movi slo los precios o slo la publicidad, sino que todos los aos hizo, probablemente, ambas cosas: sin embargo, la regresin mltiple permite aislar ambos efectos. Una observacin de inters es: qu sucede si slo utilizamos una de las dos variables en la regresin? En ese caso, puede observarse que los resultados de las dos regresiones individuales son:

    iiV Pr38,09,1

    ii PubV 9,36,1

    Los resultados de la regresin sobre el precio son similares a los obtenidos en la regresin mltiple pero qu ha sucedido con los resultados de la regresin sobre la publicidad? Utilizando los mismos datos, el signo de la Publicidad en su relacin con las ventas es ahora negativo cmo podemos explicar esto? Observemos la evolucin de las ventas, los precios y la publicidad en los aos utilizados para la estimacin.

    -2

    -1

    0

    1

    2

    3

    4

    5

    6

    7

    8

    9

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

    ventas

    precio

    publicidad

  • Cuando tomamos slo los datos de la publicidad y las ventas, observamos que, efectivamente, a lo largo de los ltimos 15 aos la publicidad se ha incrementado notablemente pero, sin embargo, las ventas han disminuido; sin embargo, durante este mismo perodo, los precios han crecido tambin de forma muy significativa, de modo que el efecto tericamente positivo de la publicidad se ha visto anulado por un incremento descontrolado de los precios. Si slo observamos la relacin entre ventas y publicidad, subestimamos clamorosamente el efecto de la publicidad; del mismo modo, si slo observamos la relacin entre ventas y precios, subestimamos tambin el efecto negativo de un alza en los precios (la realidad es que, si no hubisemos elevado la publicidad a lo largo de estos 15 aos, la cada de las ventas ante tal incremento de los precios hubiera sido algo mayor). La anterior exposicin nos obliga a plantearnos algunas preguntas:

    - Si slo estamos interesados en el efecto de una variable explicativa en su relacin con la endgena (y) Es necesario incluir en la regresin mltiple otras variables que son potencialmente relevantes para observar adecuadamente ese nico parmetro de inters? As es, el ejemplo anterior demuestra que, aunque nuestro inters se centre en una variable exgena, debemos recoger informacin de las dems variables que han podido variar durante el perodo muestral, de otro modo, no podemos aislar, distinguir del resto, los efectos de la variable que nos interesa. Este es, sin duda, el precio a pagar en la regresin a cambio de evitar diseos experimentales ceteris paribus. Veremos ms adelante, de modo ms formalizado, el porqu de este requisito y cules son los efectos tcnicos de la omisin de variables relevantes sobre el carcter sesgado de los parmetros de un modelo de regresin mltiple.

    - Existe alguna excepcin a lo anterior? Es decir, es posible obtener resultados correctos (no subestimados ni sobreestimados) en las regresiones individuales?

    Si. El problema reside, en realidad, en la existencia de correlacin entre las variables explicativas utilizadas en el ejemplo. Por qu? El problema de una muestra en la que existe correlacin alta entre las explicativas (positiva o negativa) es que la muestra no permite aislar el efecto de cada una sobre la endgena, porque, imaginando que la correlacin fuera positiva, cada vez que una creci (respecto a su media), la otra tambin lo hizo. Digamos que la muestra es lo contrario al tipo ceteris paribus que necesitaramos para observar el efecto individual de las exgenas. Ahora bien, si en nuestra muestra podemos encontrar crecimientos de una exgena que se hayan combinado con incrementos y disminuciones de la otra de modo que entre ambas no exista una correlacin sistemtica, la muestra es ideal para observar los efectos de forma individual (sin recurrir a la regresin mltiple) porque los efectos de

  • subestimacin y sobreestimacin en esas estimaciones individuales aparecern compensados, resultando nulos o poco significativos.

    - Si la regresin mltiple permite separar sin sesgos los efectos de las distintas variables an cuando las muestras no sean ceteris paribus. Por qu es importante que no exista correlacin muestral entre las exgenas? Por qu se formula la hiptesis de ausencia de multicolinealidad? Efectivamente, la regresin mltiple permite separar los efectos de cada exgena sin cometer sesgos de sobre o subestimacin an cuando las muestras sean desfavorables en ese sentido (es decir, an cuando las exgenas estn muy relacionadas). Sin embargo, la existencia de multicolinealidad implica un precio a pagar inevitable: una menor precisin en la estimacin de los parmetros (una mayor varianza en la estimacin). Esto puede entenderse intuitivamente: si las variaciones de una variable X2 se ven sistemticamente acompaadas de la variacin de otra variable X3 resulta difcil separar con precisin qu parte de los efectos sobre Y se deben a los movimientos de X2 y que parte a los de X3. Adems de la explicacin intuitiva veremos en el tema de la Multicolinealidad como tcnicamente, la varianza de un parmetro depende de tres factores y uno de ellos es, precisamente, el grado de correlacin que existe entre cada variable exgena y el resto: a mayor relacin, menor precisin en la estimacin.

    II.- Interpretacin de los parmetros cuando en el modelo intervienen variables en logaritmos En muchas ocasiones, las variables implicadas en el modelo (exgenas, endgena o ambas) vienen expresadas en logaritmos. El uso de los logaritmos puede deberse a algunas causas frecuentes:

    a) Desde el punto de vista puramente matemtico, algunas veces el modelo terico original se expresa en forma no lineal de modo que para abordar su estimacin mediante mtodos lineales, se linealiza, generndose una expresin en logaritmos. Este es, por ejemplo, el caso de una funcin de produccin, en la que la expresin lgica (debido a la ley de rendimientos decrecientes) es una funcin no lineal del tipo:

    )()()()ln( ** 2121

    iiiiiiii uLnKLnLLnPuKLP

    Otro ejemplo habitual de este caso sera el de los llamados modelos de gravitacin basados en la expresin de Newton de la Gravedad: la fuerza que atrae dos cuerpos es directamente proporcional a la diferencia de sus masas e inversamente proporcional a la distancia al cuadrado que los separa. Esta expresin se traslada en economa para representar, por ejemplo, flujos comerciales entre dos puntos geogrficos, midiendo la masa de los cuerpos

  • (como la renta de cada uno de los lugares) y la distancia entre ellos (bien en trminos fsicos (km) o en funcin de otras variables que representen distancia econmica). En este modelo, tendramos:

    )()ln(Re)ln(Re)ln( ReRe

    2

    3212 iijjiiji

    ij

    ji

    ij WdLnntantaFlujoUd

    ntantaFlujo

    b) En otras ocasiones se emplean los logaritmos como simple estrategia de

    transformacin matemtica tendente a reducir la dispersin original de una serie. Efectivamente, la forma funcional logartmica produce una compresin de los valores originales dentro de un rango siempre menor que el original. As, por ejemplo, una serie que variase originalmente entre un mnimo de 1.000 y un mximo de 1.000.000 (1.000 veces mayor) quedara, al tomar logaritmos naturales, transformada en una serie con un mnimo de 2=log(100) y un mximo slo 3 veces mayor, 6=log(1.000.000). Reducir la dispersin de una variable (generalmente la endgena) limita el riesgo de aparicin de heterocedasticidad (varianza no constante de la perturbacin aleatoria condicionada a los valores de endgena) un problema que, como se ver ms adelante durante el curso, afecta a la eficiencia de los estimadores MCO.

    Ms all de las dos razones previamente apuntadas, lo interesante del uso de los logaritmos es que la forma en la que se expresan las variables en el modelo (niveles o logaritmos) modifica conceptualmente el propio significado (e interpretacin) de los parmetros obtenidos. As, cuando ambas variables (endgena y exgena) estn escritas en logaritmos, la interpretacin de los parmetros de un modelo de regresin es cercana al concepto de elasticidad entre ambas variables (y y X) o, dicho de otro modo, la magnitud del cambio porcentual en y ante una variacin del 1% en la variable x2.

    )log(*log(y) *

    *

    22

    22/

    xx

    xy

    y

    xx

    yy

    xx

    yy

    dElasticida xy

    As pues, por ejemplo, si en un modelo Consumo / Renta obtenemos el siguiente resultado:

    )log(4,092,2)log( ii RC

    El parmetro de la renta (0,4) indicara la elasticidad Consumo / Renta, es decir, que por cada incremento del consumo de un 1%, la renta se incrementara un 0,4%.

    2 Ver Wooldrigge, 2009: Introduccin a la Econometra: un enfoque moderno. Ed. Paraninfo Pg. 765-

    770 con mayor detalle sobre el efecto de las transformaciones logartmicas.

  • En los casos en los que se combinan niveles y logaritmos la interpretacin es sencilla si recordamos que los cambios de la variable en logaritmos han de asimilarse a cambios porcentuales en tanto que los cambios en las variables en niveles han de expresarse como cambios en las unidades originales de esas variables. En la siguiente tabla se resume esa interpretacin:

    Especificacin Expresin Interpretacin de 2

    Nivel-Nivel iii uxy 221 Incremento de unidades en y

    cuando aumenta 1 unidad la X (ambas en sus unidades de medida originales)

    Log-nivel iii uxy 221)log( 100*2

    = incremento

    porcentual de y cuando aumenta una unidad la X

    Nivel-log iii uxy )log( 221 100/2

    =incremento en

    unidades de y cuando aumenta un 1% la X

    Log-Log iii uxy )log()log( 221 Incremento porcentual de y

    cuando aumenta un 1% la X

    Insistiendo con el inters conceptual de estas distintas formulaciones, y ms all de la interpretacin puramente matemtica, es obvio que estas variaciones en la medicin de exgenas y endgena permite abordar la estimacin de modelos tericos que sugieren CONCEPTUALMENTE relaciones no lineales entre variables. Efectivamente, el modelo Nivel-Nivel, asume que el cambio de Y ante variaciones de X es siempre el mismo, independientemente del nivel de partida de Y y de X. Por ejemplo, este sera el modelo correcto si podemos suponer que una habitacin adicional en un piso genera un incremento de 20.000 euros en el valor de mercado del inmueble, independientemente de si el piso tiene una, dos o tres habitaciones e independientemente del valor que estemos considerando como referencia. Otro ejemplo puede observarse en el grfico siguiente que ilustra la relacin entre el nmero de hijos por mujer (fertilidad total) y la esperanza de vida (en aos). Aparentemente, el incremento de aos de vida es constante para cada disminucin en la fertilidad (medida en hijos por mujer) independientemente del nivel considerado para la fertilidad o la esperanza de vida. La regresin, en un caso como este, se representara como una lnea recta que atravesara la nube de puntos, y cuya pendiente coincidira con el parmetro estimado:

  • Relacin Nivel-Nivel: Fertilidad total (en nmero de hijos) y Esperanza de vida (en aos)

    Fuente: GapMinder.com

    Alternativamente, los modelos log-log, son incompatibles con la idea previa y sugieren modelos de elasticidades constantes; en estos modelos, se presupone que un cambio porcentual en la X genera siempre un cambio porcentual constante en la y. El cambio en niveles no ser, por tanto, independiente del nivel de partida sino que, al ser porcentual, ser mayor cuanto mayores sean los niveles de comparacin previos. El grfico siguiente ilustra un ejemplo del modelo log-log entre renta per-cpita (x) y el consumo de energa elctrica (y). El hecho de que la linealidad se verifique utilizando logaritmos (log-log) indica que es constante el incremento porcentual que se produce en el consumo de energa ante variaciones porcentuales en la renta. Dicho de otro modo, un incremento en la renta de un 1% genera siempre el mismo incremento porcentual en el consumo de energa. Si el coeficiente de la regresin fuera, por ejemplo, igual a 1 (elasticidad renta/electricidad = 1) esto significara que en un pas pobre (4.000 $) y con bajo consumo (1.000 Kw/h) un incremento de un 1% en la renta (40$) genera un incremento porcentual semejante en el consumo (1% de 1.000 = 10 Kw/h). Esa misma elasticidad se mantiene constante para niveles ms altos de renta lo que significa que los cambios en renta y consumo son mucho mayores: por ejemplo en un pas rico (30.000 $) con consumo ya elevado (9.000 Kw/h) un incremento de un 1% en la renta significara 300 $ ms (no 40 $) y el incremento de consumo de electricidad que esto implicara sera de 90 Kw/h, y no de 10 Kw/h. O dicho de otro modo: que elevar un 1% la renta implica un mayor incremento del consumo de energa elctrica (en Kw) segn la renta de los pases es ms alta.

  • Relacin Log-Log:

    Consumo de energa elctrica (en logaritmos) en funcin de la Renta per cpita (en logaritmos)

    Fuente: GapMinder.com

    Los modelos mixtos, Log Nivel o Nivel Log tienes interpretaciones sencillas en trminos similares a los ejemplificados previamente. Por ejemplo, el grfico Nivel-Log siguiente, ilustra que ES CONSTANTE la mejora en la esperanza de vida, medida en aos, para un incremento PORCENTUAL en la renta per cpita (medida en logaritmos). Esto significa que la mejora de la esperanza de vida en un ao requiere un esfuerzo RELATIVO de incremento de la renta IGUAL para todos los pases: los pases ms pobres deben crecer porcentualmente lo mismo respecto a su nivel previo que los ricos PARA MEJORRA UN AO su esperanza de vida. Visto desde una perspectiva diferente, el incremento de renta en dlares necesario para seguir mejorando la esperanza de vida en los pases ricos es mucho mayor que el incremento en dlares requerido en un pas menos desarrollado. Algo similar sucede con el segundo grfico: la mejora en la esperanza de vida (en aos) requiere un incremento porcentual constante en el gasto sanitario (o sea, un incremento del gasto tanto mayor cuanto mayor sea la cuanta ya gastada previamente).

  • Relacin Nivel-Log: Esperanza de vida (en aos) en funcin de la Renta per cpita (en logaritmos)

    Fuente: GapMinder.com

    Relacin Nivel-Log:

    Esperanza de vida (en aos) en funcin del Gasto Sanitario (en logaritmos)

    Fuente: GapMinder.com

  • Por ltimo, el grfico siguiente, ilustra una relacin log-nivel entre la renta per cpita (en logaritmos) y los aos de escolarizacin (en aos). La relacin grfica sugiere que el incremento en los aos de escolarizacin medios genera incrementos de renta relativos constantes (respecto al nivel previo) o, visto desde el otro punto de vista, que un ao ms de escolarizacin genera un incremento en dlares cada vez ms grande cuanto mayor es el nivel de renta ya alcanzado.

    Relacin Log-Nivel: Renta per cpita (en logaritmos) en funcin de la escolarizacin (en aos)

    Fuente: GapMinder.com

    III.- Interpretacin del trmino constante En un modelo economtrico es siempre recomendable incluir un trmino constante tanto para lograr un mejor ajuste en la curva de regresin estimada como para obtener una mejor interpretabilidad de indicadores de ajuste como, por ejemplo, la R cuadrado. Matemticamente, la inclusin del trmino constante nos permite que el origen de la curva de ajuste no parta necesariamente del punto (0,0) en los ejes de coordenadas, lo que casi siempre dar lugar a un mejor ajuste.

  • En el grfico se puede observar una serie (roja) a estimar. La estimacin de la lnea negra continua es una regresin de una recta con constante y la discontinua azul es una estimacin sin constante (obligada a partir del punto 0,0). El ajuste de la segunda es claramente peor que el de la primera, ya que la serie de inters (la roja) claramente no parte de este punto (0,0). En defintiva, la inclusin de la constante en muchas ocasiones slo es un artificio matemtico para lograr un mejor ajuste, sin que sea posible darle una interpretacin econmica. Slo en el caso en el que todas las variables explicativas pudieran tomar el valor cero (y en la muestra elegida para realizar la estimacin de hecho tomaran este valor al mismo tiempo en alguna ocasin) tendra sentido interpretar el parmetro que acompaa a la constante como el valor de la endgena cuando no toman valor el resto de las exgenas. Por ejemplo, en el clsico modelo de consumo terico de Keynes, este autor denomina al trmino constante consumo autnomo o de subsistencia o aquel que se producira cuando la renta del individuo y los precios son cero; entendiendo que, en teora, esta circunstancia podra darse. En la prctica, cuando se estima este modelo, en la muestra de datos utilizada no figurar ningn caso en el que los precios (y seguramente tampoco la renta) valgan cero, por lo que el resultado del trmino constante no ser interpretable (pudiendo tener, por ejemplo, un signo negativo, lo que en principio sera incompatible con la lgica si es que fuera interpretable). IV.- Interpretacin de los parmetros para variables dicotmicas e interacciones entre ellas En algunos modelos se plantea la necesidad de utilizar variables dicotmicas: gnero (masculino o femenino), estado civil (soltero o casado), nacionalidad (extranjero o nacional). Cuando esto sucede, los parmetros tienen una interpretacin muy concreta que conviene conocer. Empezando por el caso ms sencillo, con una nica variable, imagine un modelo del siguiente tipo:

    0

    20

    40

    60

    80

    100

    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

  • iii usexosalario 21

    Donde explicamos el salario en funcin de la variable sexo, una variable dicotmica con valor cero para los hombres y uno para las mujeres. En ese caso, el salario estimado para hombres y mujeres sera:

    Salario estimado para los hombres:

    2121)1( is

    Salario estimado para las mujeres:

    121)0( is

    Es decir, el parmetro estimado 2 representara el salario diferencial de los hombres respecto a las mujeres. Dado que el modelo se verifica en medias, esto significa que la estimacin de 1 representara el salario muestral medio de las mujeres y la suma 1+ 2 debe coincidir con el salario muestral medio de los hombres.

    iiii ujornadasexosalario 321

    Si el modelo incluye otra variable no necesariamente dicotmica, la interpretacin es nuevamente sencilla. Para observarla, imaginemos ahora el modelo:

    iiii uedadsexosalario 221 En este caso, para dos personas de la misma edad, el salario estimado sera ahora:

    Para un hombre:

    )()1( 321 Edadsh

    Para una mujer:

    )()()0( 31321 EdadEdadsm De modo que, restando ambas estimaciones tenemos:

    231321)()( EdadEdadss mh

    Es decir, nuevamente, el parmetro estimado 2 representa el salario diferencial de un hombre respecto a una mujer (para un mismo valor del resto de variables). En este caso, sin embargo, debe tenerse la precaucin de NO INTERPRETAR la estimacin de 1 como el salario medio de las mujeres o la suma 1+ 2 como el salario muestral medio de los hombres. Para obtener el salario medio muestral de hombres y/o mujeres debemos tener en cuenta tambin el parmetro estimado 3 y los valores medios de edad para hombres y mujeres.

  • Supongamos ahora que tenemos dos variables dicotmicas, por ejemplo el sexo y la, jornada (con valor cero para jornada a tiempo parcial y uno para jornada a tiempo completo). En este modelo, todas las variables pueden tomar valor cero y todos los parmetros tienen un significado exacto y fcilmente interpretable:

    Sexo \ Tipo jornada Tiempo parcial Tiempo completo

    Hombre 1isalario 31 isalario

    Mujer 21 isalario 321 isalario

    En definitiva, el salario del hombre con contrato a tiempo parcial se puede asociar directamente con el valor del parmetro constante y, adems, se convierte en el valor de referencia sobre el que se puede comparar con el resto de los casos. El parmetro estimado 2 es la diferencia en el salario entre la mujer con contrato parcial y el hombre con contrato del mismo tipo, etc. Tal y como se ha planteado este modelo, se est suponiendo que las diferencias entre hombres a tiempo parcial y completo son las mismas que entre las mujeres a tiempo parcial y completo. En este tipo de modelos, para contrastar si estas diferencias no son las mismas, se suele incluir una variable explicativa ms que recibe el nombre de interaccin y que se especificara del siguiente modo:

    iiiiii ujornadasexojornadasexosalario 4321 El parmetro 4, en caso de resultar significativamente distinto de cero cuando se realice la estimacin, nos permitira contrastar la diferencia adicional en el salario en el caso de una mujer a tiempo completo. Ahora, la tabla para la interpretacin de los parmetros quedara del siguiente modo:

    Sexo \ Tipo jornada Tiempo parcial Tiempo completo

    Hombre 1isalario 31

    isalario Mujer

    21 isalario 4321 isalario