mic sesión 10

42
MÉTODOS DE INVESTIGACIÓN CUANTITATIVA Sesión 10 MODELO DE REGRESIÓN LINEAL GENERAL FÁTIMA PONCE REGALADO 1

Upload: metodoscuantitativos

Post on 21-Jan-2017

38 views

Category:

Education


2 download

TRANSCRIPT

Page 1: Mic sesión 10

MÉTODOS DE INVESTIGACIÓN CUANTITATIVA

Sesión 10

MODELO DE REGRESIÓN LINEAL GENERAL

FÁTIMA PONCE REGALADO 1

Page 2: Mic sesión 10

2

PUNTOS A TRATAR

FÁTIMA PONCE REGALADO

Sesión 10. MODELO DE REGRESIÓN LINEAL GENERAL. Presentación y Supuestos.Estimación: Método de Mínimos Cuadrados Ordinarios

o Modelo Bivariadoo Modelo Multivariado.

Interpretación económica y estadística.Aplicación.Ejercicios.

Page 3: Mic sesión 10

3FÁTIMA PONCE REGALADO

MODELO DE REGRESION LINEAL GENERAL (MRLG)

El MRLG, empleado para analizar el comportamiento de una variable (Y) a través de variables independientes (Xs), es uno de los más populares y aplicados.Características:La variable dependiente Y es cuantitativa. Si la variable

dependiente fuese cualitativa se requiere métodos de estimación alternativos a MCO (Logit-probit)

La variable explicativa X tiene varianza muestral Sx² no nula y además n ≥ K.

Se tiene una muestra suficiente (n).

Page 4: Mic sesión 10

4FÁTIMA PONCE REGALADO

El MRLG es lineal en los parámetros.Variables independientes (X’s) son deterministicos o fijosNo multicolinealidad (no relación lineal alta entre las X’s)Exogeneidad (X es independiente de u) Estabilidad Estructural de la función: Los parámetros (vector

β) se mantienen constantes a lo largo de la muestra.

SUPUESTOS DEL MRLG

µ N(0,2µ I)

Media nula de las pertubaciones (E(u) = 0) Homocedasticidad (igual varianza de u=2 ) No autocorrelación (No correlación de ui y uj) Distribución normal de las perturbaciones.

Page 5: Mic sesión 10

5FÁTIMA PONCE REGALADO

HOMOSCEDASTICIDAD

La recta de regresión de Ahorros sobre Ingresos representa con igual precisión la relación entre ingresos y ahorros, independientemente de los valores de ingreso.

Errores homoscedásticos: Igual varianza

-.06

-.04

-.02

.00

.02

.04

.06

30 35 40 45 50 55 60 65 70 75

RESIDMCO

Los errores tienen un comportamiento puramente aleatorio o irregular.

Errores no correlacionados: Cov(ut,ut-1)=0

NO AUTOCORRELACIÓN

Page 6: Mic sesión 10

6FÁTIMA PONCE REGALADO

EL ESTIMADOR MINIMO CUADRADO ORDINARIO (MCO)

Es uno de los procedimientos más conocidos de estimación de los parámetros poblacionales.

Se tiene una muestra de n observaciones. Se plantea utilizar aquella combinación de α y β que

minimice los errores que el modelo cometerá.

Criterio MCO: Minimización de Σ e2

^

e = Y – YElevar al cuadrado los errores individuales antes de sumarlos para cumplir dos objetivos: 1. Penalizar los errores más grandes. 2. Cancelar el efecto de los valores positivos y negativos.

Page 7: Mic sesión 10

7FÁTIMA PONCE REGALADO

MODELO DE REGRESIÓN LINEAL BIVARIADO

Page 8: Mic sesión 10

8FÁTIMA PONCE REGALADO

EL MODELO DE REGRESIÓN LINEAL BIVARIADO

A nivel de observaciones, cada vector es un vector columna:

y1 1 x1 µ1

y2 1 x2 β µ2

y3 = 1 x3 + µ3

… … … … yn 1 xn µn

nx1 nx2 nx1observacionesde la var. dependiente Y = X + µ

Observaciones de la var. independiente

Perturbación

2x1

Objetivo: Estimar =intercepto u ordenada y, =pendiente.

Modelo especificado: Y = + β X + µ

Page 9: Mic sesión 10

9FÁTIMA PONCE REGALADO

LA RECTA DE REGRESIÓNO Función de Regresión Poblacional (FRP), depende de los

parámetros poblacionales. Se obtiene cuando el valor de la perturbación es cero (E(u)=0).

Es la parte sistemática o predecible del modelo y corresponde al comportamiento promedio de la variable a explicar:

E(Yi / Xi) = E ( + βXi + ui) = + βXi + E(ui)

E(Yi / Xi) = + βXi

La recta MCO recoge el comportamiento medio de la variable Y, a partir de observaciones provenientes de una muestra (X1,Y1), (X2,Y2), . . . , (Xn,Yn). Gráficamente, consiste en calcular la pendiente y la ordenada que mejor se ajusta a la nube de puntos.

Page 10: Mic sesión 10

10FÁTIMA PONCE REGALADO

X=Ingreso

Y=Co

nsum

o

Función de Regresión Poblacional

FUNCIÓN DE REGRESIÓN(caso bivariado)

E(Y/X) = + β X

X=IngresoY=

Cons

umo

Función de Regresión Muestral

^ Y = a + b X

a

Page 11: Mic sesión 10

11FÁTIMA PONCE REGALADO

FUNCIÓN DE REGRESIÓN MUESTRAL(caso bivariado)

X=xi

^

Y = a + b xei=error

^Yi

(X,Y)

Relación observada entre las variables

^Yi Funció

n de Regresión

Muestral

^MUESTRA: Yi = Yi + ei

Y

X

Yi

Page 12: Mic sesión 10

12FÁTIMA PONCE REGALADO

EL ESTIMADOR MINIMO CUADRADO ORDINARIO (MCO)

Los estimadores que se emplean para encontrar la pendiente (b) y el intercepto (a) de la recta de regresión MCO de mejor ajuste son:

“b” es el estimador MCO de β=ΔE(Y)/ΔX: Si β>0: un aumento unitario en la variable explicativa X conlleva un aumento promedio de β unidades en la variable dependiente. La pendiente mide el efecto de un aumento marginal en la variable explicativa sobre E(Y).

22 XnX

YXnXYb

XbYa “a” es el estimador MCO de =E(Y|X=0): valor promedio de la variable dependiente Y cuando el valor que toma la variable independiente es cero.

^Y= a + b X Recta de regresión estimada por MCO

Page 13: Mic sesión 10

13FÁTIMA PONCE REGALADO

ERROR ESTANDAR DE LA ESTIMACIÓN (se):

Mide la variabilidad o dispersión de los valores observados alrededor de la recta de regresión (=confiabilidad de la ecuación estimada)

2

)ˆ( 2

n

YYse

Y= Valores de la variable dependiente.Ŷ= Valores estimados con la ecuación

de estimación que corresponden a cada valor de Y.

n = número de puntos utilizados para ajustar la línea de regresión.

Grados de libertad

Interpretación: Mientras más grande sea el error estándar de la estimación, mayor

será la dispersión de los puntos alrededor de la línea de regresión. Si se = 0 ecuación de estimación (Ŷ) nos da un estimador

perfecto de la variable dependiente.

Page 14: Mic sesión 10

14FÁTIMA PONCE REGALADO

ANÁLISIS DE REGRESIÓN SIMPLE o BIVARIADA:

Aplicación: Crecimiento – Infraestructura móvilEstimar la línea de regresión … en Excel

0 10000 20000 30000 400000

100,000

200,000

300,000

400,000

500,000

600,000

f(x) = 7.19995394119123 x + 210383.260293817R² = 0.954662488950188

PBI - Líneas Móviles

Líneas móviles (miles)

PBI (

mlls

de

S/.d

e 20

07)

Estadísticas de la regresiónCoeficiente de correlación múltiple 0.97706831Coeficiente de determinación R^2 0.95466249R^2 ajustado 0.95239561Error típico 21551.1878Observaciones 22

ANÁLISIS DE VARIANZAGrados de libertadSuma de cuadradosPromedio de los cuadrados F Valor crítico de F

Regresión 1 1.956E+11 1.956E+11 421.135817 6.6026E-15Residuos 20 9289073882 464453694Total 21 2.0489E+11

Coeficientes Error típico Estadístico t Probabilidad Inferior 95%Intercepción 210383.26 6375.84822 32.9969054 6.477E-19 197083.474Líneas móviles en servicio (miles) 7.19995394 0.3508477 20.5215939 6.6026E-15 6.46809847

Error estándar de estimación

Coeficientes estimados

R2

Page 15: Mic sesión 10

15FÁTIMA PONCE REGALADO

Estimación en Excela) Determinar la Mejor Ecuación de Regresión para los datos.

EN EXCEL emplear comando DATOS / ANALISIS DE DATOSb) Escoger REGRESIÓN:

Page 16: Mic sesión 10

16FÁTIMA PONCE REGALADO

Estimación en Excel

Rango de datos de la variable dependiente

Rango de datos de las variables independientes

Presenta cuadro con los errores estimados y valor de Yestimado.(Se explicará en próxima sesión)

Page 17: Mic sesión 10

17FÁTIMA PONCE REGALADO

MRLG MÚLTIPLE O MULTIVARIADO

Page 18: Mic sesión 10

18FÁTIMA PONCE REGALADO

MODELO DE REGRESIÓN LINEAL GENERAL

Si el modelo especificado es:

Y = β1 + β2X2 + β3X3 + … + βkXk + µ

Y = X β + µ

El análisis de regresión busca cuantificar la relación existente entre la variable Y (dependiente) y las X’s (independientes):

E(Y/X) = β1 + β2X2 + β3X3 + … + βkXk

El objetivo es estimar los parámetros (β’s) buscando el valor más probable de Y dados los valores de X.

Page 19: Mic sesión 10

19FÁTIMA PONCE REGALADO

A nivel de observaciones, cada X es un vector columna:

y1 1 x12 x13 ... x1k β1 µ1

y2 1 x22 x23 ... x2k β2 µ2

y3 = 1 x32 x33 … x3k β3 + µ3

… … … … … … … … yn 1 xn2 xn3 … xnk βk µn

nx1 nxk kx1 nx1vector de observaciones de perturbaciónobservaciones las var. exógenasde la var.dependiente

Y = X + µ

EL MRLG MULTIPLE ó MULTIVARIADO

Objetivo: Estimar intercepto,y

pendientes,

Page 20: Mic sesión 10

20FÁTIMA PONCE REGALADO

SUPUESTOS DEL MRLG (1/2)1. Hipótesis: Relación lineal de la variable dependiente Y con

un conjunto de k variables explicativas X:Y = β1 + β2 X2 + β3 X3 + β4 X4 + … + βk Xk + µ

Y = X + µ

Forma Lineal: y = β1 + β2X2 + β3 X3 + µ

pendientes

Y2 = ------------------ X2 de 1 unidad

Page 21: Mic sesión 10

21FÁTIMA PONCE REGALADO

- Semilogarítmica: y = eβ1 + β2 X2 + β3 X3 + µ

linealización: ln y = β1 + β2 X2 + β3 X3 + µ

- Doblelogarítmica: y = β1 X2β2 X3

β3 eµ

linealización: ln y = ln β1 + β2 ln X2 + β3 ln X3 + µ

tasa de crec.

elasticidadesEs una elasticidad de Y respecto a X2.

%Y2 = ------------ % X2

OTRAS FORMAS FUNCIONALES

Page 22: Mic sesión 10

22FÁTIMA PONCE REGALADO

SUPUESTOS DEL MRLG (2/2)2. Hipótesis sobre las perturbaciones (µ):

i) E (µ) = 0ii) Var(µi)=2

µ Varianzas de las perturbaciones son iguales (Homoscedasticidad).

iii) Cov(µi,µj)=0 Cada perturbación es No correlacionada con todas las otras perturbaciones.

iv) Distribución de la perturbación: Normal: µ N (0, 2µ I)

3. Hipótesis sobre los regresores (variables X’s):i) X es matriz de valores fijos independiente de µ (No debe

haber relación lineal entre Xi y µ).ii) No hay relación lineal exacta entre las variables X’s: Los k vectores son Linealmente Independientes, es decir,

cada variable aporta información propia.

Page 23: Mic sesión 10

23FÁTIMA PONCE REGALADO

FUNCIÓN DE REGRESIÓN(caso múltiple)

X1

X2

Plano formado a travésde los puntos de la muestra:^Y = b1 + b2X2 + b3X3

Punto correspondiente en el plano

Punto observado

Erro

r

Y

b1= intercepto

Fuente: Fig 13-1 Levin y Rubin(2010)

Page 24: Mic sesión 10

24FÁTIMA PONCE REGALADO

FUNCIÓN DE REGRESIÓN POBLACIONAL

La función de regresión, objeto de estimación, se denomina Función de Regresión Poblacional (FRP) y depende de los coeficientes poblacionales desconocidos (parámetros: β1, β2,… βk ).

Se trata de la parte sistemática o predecible del modelo y corresponde al comportamiento medio o esperado de la variable a explicar:

E(Yi/X) = E (β1+ β2X2i +… + βkXki + ui)

= β1+ β2X2i +… + βkXki + E(ui )

E(Yi/X) = β1+ β2X2i +… + βkXki

Page 25: Mic sesión 10

25FÁTIMA PONCE REGALADO

MRLG (MÚLTIPLE): interpretación de coeficientes

β1=E(Yi|Xi=0): valor medio de la variable dependiente cuando el valor que toma la variable independiente es cero. Es el intercepto u ordenada.

β2=ΔE(Yi)/Δx2i: un aumento unitario en la variable independiente X2 conlleva un aumento medio de β2 unidades en la variable dependiente. La pendiente mide el efecto de un aumento marginal en la variable explicativa sobre E(Yi).

……βk=ΔE(Yi)/Δxki: un aumento unitario en la variable

independiente Xk conlleva un aumento medio de βk unidades en la variable dependiente.

Page 26: Mic sesión 10

26FÁTIMA PONCE REGALADO

ESTIMADOR MINIMO CUADRADO ORDINARIO (MCO)

Muestra de n observaciones. Utilizar aquella combinación de β1, β2,… βk que minimice

los errores que el modelo cometerá. Criterio MCO: Minimización de Σ e2 ,

^

βMCO = (X’X)-1 X’Y ^

β es variable aleatoria,

Estimador MCO de

^

e = Y – Y

^

Varianza del estimador MCO : MVC(β) = µ2 (X’X)-1

Con este estimador (fórmula), empleando datos muestrales ^

cuantificamos los valores de los β’s: obtenemos β.

^

Con Media : E[ β ] = β

Page 27: Mic sesión 10

27FÁTIMA PONCE REGALADO

PROPIEDADES DEL ESTIMADOR MCO ^ LINEAL: βMCO = f(Y)

^ INSESGADEZ: E[ βMCO ] = β o Su distribución está centrada sobre el verdadero valor del

parámetro que está siendo estimado. EFICIENCIA: El estimador MCO tiene menor varianza que

cualquier otro estimador lineal insesgado.

Teorema de Gauss-Markov:

^

El estimador βMCO es el Mejor Estimador Lineal Insesgado(M.E.L.I. ) si se cumplen los supuestos básicos del MRLG.

Page 28: Mic sesión 10

28FÁTIMA PONCE REGALADO

INTERPRETACIÓN Y EVALUACIÓN DE RESULTADOS

Para evaluar los resultados de la estimación:

1. Interpretación Económica: signos, valores. Es muy importante la unidad de medida.

2. Evaluación Estadística: R2, test de hipótesis de significancia conjunta (Test F) y test de hipótesis de significancia individual (test t).

3. Evaluación Econométrica (Si los supuestos básicos del modelo se cumplen, especialmente los residuos).

Page 29: Mic sesión 10

29FÁTIMA PONCE REGALADO

INTERPRETACIÓN DE LA ESTIMACIÓN

Page 30: Mic sesión 10

30FÁTIMA PONCE REGALADO

Aplicación 1: La Demanda de Electricidad (1/2) */

I. Especificación: La ecuación teórica a estudiar es:

QD = 1 + 2 Ingreso + 3 Población + 4 Precio +

2 >0, 3 >0 y 4 <0

Ante una variación del Precio en 1 unidad, la cantidad demandada de electricidad varía en promedio en 4 GWh

donde:QD = VEN : Volumen de energía vendida en GWh Ingreso = PBI : PBI en millones de nuevos soles constantes.Población = POB : Población del mercado (miles de habs.)Precio = TAR : Tarifa promedio en ctvUS$/kWh en $ constantes.

*/ Basado en un trabajo práctico desarrollado por alumnos de Econometría Intermedia–PUCP (2008-I).

Page 31: Mic sesión 10

31FÁTIMA PONCE REGALADO

Dependent Variable: VEN Method: Least Squares Sample: 1981 2001 Included observations: 21

Variable Coefficient Std. Error t-Statistic Prob.

PBI 0.067635 0.006660 10.15492 0.0000 POB 0.626912 0.045192 13.87215 0.0000 TAR -147.1479 50.80147 -2.896527 0.0100

C -9726.260 640.7192 -15.18022 0.0000

R-squared 0.984278 Mean dependent var 8178.407 Adjusted R-squared 0.981504 S.D. dependent var 1971.226 S.E. of regression 268.0884 Akaike info criterion 14.19015 Sum squared resid 1221814. Schwarz criterion 14.38911 Log likelihood -144.9966 F-statistic 354.7673 Durbin-Watson stat 1.751046 Prob(F-statistic) 0.000000

2. Se estima por MCO:

4 = Da el VEN ante un TAR en 1 unidad: Las Ventas de electricidad se reducen en promedio en 147.1 mills de nS/. cuando la TAR se en 1 ctvUS$/kWh

Aplicación 1: La Demanda de Electricidad (2/2)

2 = Da el VEN ante un PBI en 1 unidad: Las Ventas de electricidad se elevan en promedio en 0.067 mills de nS/. cuando el PBI se en 1 mll de nS/.1992 2012

Page 32: Mic sesión 10

32FÁTIMA PONCE REGALADO

EVALUACIÓN ESTADÍSTICA DE LA ESTIMACIÓN

Page 33: Mic sesión 10

33FÁTIMA PONCE REGALADO

I. BONDAD DE AJUSTE Coeficiente de Determinación ó R2: Mide el grado de ajuste lineal de la regresión e indica el %

de la variación observada de Y que es explicada por la variación combinada lineal de los regresores (X’s).

0 < R2 < 1

Por ej.: Si R2=0.76 El 76% de las variaciones de la variable endógena (cantidad p.e.) son explicadas por las variaciones de las variables independientes del modelo.

NOTAR que: En muestras de Serie de Tiempo el valor del R2 va a estar más cercano de 1 que en muestras de corte transversal, donde por lo general sólo se tienen valores entre 0.2 y 0.5

Page 34: Mic sesión 10

34FÁTIMA PONCE REGALADO

II. INFERENCIA ESTADISTICASi el modelo estimado es: ^ ^ ^ ^ ^

Y = β1 + β2X2 + β3X3 + … + βkXk ó ^ Y = b1 + b2X2 + b3X3 + … + bkXk

Test de significancia conjunta de vector β. Prueba F–Fisher: βi asociados a las pendientes.

En MRL Múltiple 1ro. analizar test F y luego test individual t.

En un MRL Bivariado: F = (t)2

Test de significancia individual de βi .

^Prueba t – student sólo se conoce 2

µ .

Page 35: Mic sesión 10

35FÁTIMA PONCE REGALADO

TEST DE SIGNIFICANCIA CONJUNTA (de todos los i asociados a pendientes)

Estadístico F (Análisis ANOVA):

H0 : vector β de pendientes = 0

H1 : vector β de pendientes 0

β2 β3 = 0

:

:

βk

^ Varianza explicada por la regresión F =--------------------------------------------- Varianza no explicada por la regresión

^ SCE/(k-1) F= ------------- F(k-1,n-k)

SCR/(n-k)

Page 36: Mic sesión 10

36FÁTIMA PONCE REGALADO

TEST DE SIGNIFICANCIA CONJUNTA

^ Si F>F%

(k-1,n-k)

Aceptar H1.

= 0.05

1-= 0.95

Aceptar H1

Aceptar H0: βde pendientes= 0

Valor crítico F%

^

Si F<F%(k-1, n-k)

No rechazar H0.

=0.05 Prob < = 0.05Análisis del P-valor: Si: Prob 0.05 Se acepta la H0: βde pendientes = 0 Si: Prob < 0.05 Se rechaza la H0: βde pendientes = 0

Page 37: Mic sesión 10

37FÁTIMA PONCE REGALADO

TEST DE SIGNIFICANCIA INDIVIDUAL (de i)

(Prueba a 2 colas)H0: βi = 0 Var. X no es importante para explicar YH1: βi 0 Var. X es estadísticamente importante para explicar Y

^ i - i ^ SE(i)

^ t =

Estadístico t :

t(n-k)

0

/2= 0.025

1-= 0.95Región de rechazo de H0

Región de aceptac. de la H0

tt/2(n-k)-t/2

(n-k)

=0.05Prob < 0.05Prob < 0.05

Análisis del P-valor: Si: Prob 0.05 Se acepta la H0: β = 0 Si: Prob < 0.05 Se rechaza la H0: β = 0

Page 38: Mic sesión 10

38FÁTIMA PONCE REGALADO

DISTRIBUCIÓN t

g.l.

Prueba de dos colas

Valor IC

Para el caso de un i: (n-k) grados de libertad

Page 39: Mic sesión 10

39FÁTIMA PONCE REGALADO

INTERPRETACIÓN Y EVALUACIÓN ESTADÍSTICA DE LA ESTIMACIÓN

Page 40: Mic sesión 10

40FÁTIMA PONCE REGALADO

Cont. Aplicación 1: La Demanda de Electricidad (1/2)

I. Especificación: La ecuación teórica a estudiar es:

donde:VE : Volumen de energía vendida en GWh PBI : PBI del área de influencia del mercado, en millones nuevos soles constantes.POB: Población del área de influencia del mercado (miles de habs.)TAR : Tarifa promedio a cliente final en ctvUS$ / kWh en $ constantes.

VE = 1 + 2 PBI + 3 POB + 4 TAR +

QD = 1 + 2 Ingreso + 3 Población + 4 Precio +

II. Estimación: La ecuación a estimar es:

2 >0, 3 >0 y 4 <0

Page 41: Mic sesión 10

41FÁTIMA PONCE REGALADO

Dependent Variable: VEN Method: Least Squares Sample: 1981 2001 Included observations: 21

Variable Coefficient Std. Error t-Statistic Prob.

PBI 0.067635 0.006660 10.15492 0.0000 POB 0.626912 0.045192 13.87215 0.0000 TAR -147.1479 50.80147 -2.896527 0.0100

C -9726.260 640.7192 -15.18022 0.0000

R-squared 0.984278 Mean dependent var 8178.407 Adjusted R-squared 0.981504 S.D. dependent var 1971.226 S.E. of regression 268.0884 Akaike info criterion 14.19015 Sum squared resid 1221814. Schwarz criterion 14.38911 Log likelihood -144.9966 F-statistic 354.7673 Durbin-Watson stat 1.751046 Prob(F-statistic) 0.000000

2. Se estima por MCO:

3. Evaluación.El 98% de las variaciones de VEN son explicadas por PBI, POB y TAR.

Cont. Aplicación 1: La Demanda de Electricidad (2/2)

Test de significancia Conjunta: Fest > Ftabla ó prob(F)<0.05 Rechazar H0.

1. │test│>│ttabla 2│ ó 2. prob <0.05Test de significancia individual:

Page 42: Mic sesión 10

42FÁTIMA PONCE REGALADO

Anderson, D., Sweeney, D. y Williams T. (2008). Estadística para Administración y Economía. [10ma. Ed.] México, Cengage Learning Editores S.A. de C.V., Cap 14 y 15.

Levin, R. y Rubin, D. (2010). Estadística para Administración y Economía. Séptima Edición Revisada. Pearson Educación, México. Prentice Hall. 2010. Cap. 12 y 13.

BIBLIOGRAFIA