mic sesión 10
TRANSCRIPT
MÉTODOS DE INVESTIGACIÓN CUANTITATIVA
Sesión 10
MODELO DE REGRESIÓN LINEAL GENERAL
FÁTIMA PONCE REGALADO 1
2
PUNTOS A TRATAR
FÁTIMA PONCE REGALADO
Sesión 10. MODELO DE REGRESIÓN LINEAL GENERAL. Presentación y Supuestos.Estimación: Método de Mínimos Cuadrados Ordinarios
o Modelo Bivariadoo Modelo Multivariado.
Interpretación económica y estadística.Aplicación.Ejercicios.
3FÁTIMA PONCE REGALADO
MODELO DE REGRESION LINEAL GENERAL (MRLG)
El MRLG, empleado para analizar el comportamiento de una variable (Y) a través de variables independientes (Xs), es uno de los más populares y aplicados.Características:La variable dependiente Y es cuantitativa. Si la variable
dependiente fuese cualitativa se requiere métodos de estimación alternativos a MCO (Logit-probit)
La variable explicativa X tiene varianza muestral Sx² no nula y además n ≥ K.
Se tiene una muestra suficiente (n).
4FÁTIMA PONCE REGALADO
El MRLG es lineal en los parámetros.Variables independientes (X’s) son deterministicos o fijosNo multicolinealidad (no relación lineal alta entre las X’s)Exogeneidad (X es independiente de u) Estabilidad Estructural de la función: Los parámetros (vector
β) se mantienen constantes a lo largo de la muestra.
SUPUESTOS DEL MRLG
µ N(0,2µ I)
Media nula de las pertubaciones (E(u) = 0) Homocedasticidad (igual varianza de u=2 ) No autocorrelación (No correlación de ui y uj) Distribución normal de las perturbaciones.
5FÁTIMA PONCE REGALADO
HOMOSCEDASTICIDAD
La recta de regresión de Ahorros sobre Ingresos representa con igual precisión la relación entre ingresos y ahorros, independientemente de los valores de ingreso.
Errores homoscedásticos: Igual varianza
-.06
-.04
-.02
.00
.02
.04
.06
30 35 40 45 50 55 60 65 70 75
RESIDMCO
Los errores tienen un comportamiento puramente aleatorio o irregular.
Errores no correlacionados: Cov(ut,ut-1)=0
NO AUTOCORRELACIÓN
6FÁTIMA PONCE REGALADO
EL ESTIMADOR MINIMO CUADRADO ORDINARIO (MCO)
Es uno de los procedimientos más conocidos de estimación de los parámetros poblacionales.
Se tiene una muestra de n observaciones. Se plantea utilizar aquella combinación de α y β que
minimice los errores que el modelo cometerá.
Criterio MCO: Minimización de Σ e2
^
e = Y – YElevar al cuadrado los errores individuales antes de sumarlos para cumplir dos objetivos: 1. Penalizar los errores más grandes. 2. Cancelar el efecto de los valores positivos y negativos.
7FÁTIMA PONCE REGALADO
MODELO DE REGRESIÓN LINEAL BIVARIADO
8FÁTIMA PONCE REGALADO
EL MODELO DE REGRESIÓN LINEAL BIVARIADO
A nivel de observaciones, cada vector es un vector columna:
y1 1 x1 µ1
y2 1 x2 β µ2
y3 = 1 x3 + µ3
… … … … yn 1 xn µn
nx1 nx2 nx1observacionesde la var. dependiente Y = X + µ
Observaciones de la var. independiente
Perturbación
2x1
Objetivo: Estimar =intercepto u ordenada y, =pendiente.
Modelo especificado: Y = + β X + µ
9FÁTIMA PONCE REGALADO
LA RECTA DE REGRESIÓNO Función de Regresión Poblacional (FRP), depende de los
parámetros poblacionales. Se obtiene cuando el valor de la perturbación es cero (E(u)=0).
Es la parte sistemática o predecible del modelo y corresponde al comportamiento promedio de la variable a explicar:
E(Yi / Xi) = E ( + βXi + ui) = + βXi + E(ui)
E(Yi / Xi) = + βXi
La recta MCO recoge el comportamiento medio de la variable Y, a partir de observaciones provenientes de una muestra (X1,Y1), (X2,Y2), . . . , (Xn,Yn). Gráficamente, consiste en calcular la pendiente y la ordenada que mejor se ajusta a la nube de puntos.
10FÁTIMA PONCE REGALADO
X=Ingreso
Y=Co
nsum
o
Función de Regresión Poblacional
FUNCIÓN DE REGRESIÓN(caso bivariado)
E(Y/X) = + β X
X=IngresoY=
Cons
umo
Función de Regresión Muestral
^ Y = a + b X
a
11FÁTIMA PONCE REGALADO
FUNCIÓN DE REGRESIÓN MUESTRAL(caso bivariado)
X=xi
^
Y = a + b xei=error
^Yi
(X,Y)
Relación observada entre las variables
^Yi Funció
n de Regresión
Muestral
^MUESTRA: Yi = Yi + ei
Y
X
Yi
12FÁTIMA PONCE REGALADO
EL ESTIMADOR MINIMO CUADRADO ORDINARIO (MCO)
Los estimadores que se emplean para encontrar la pendiente (b) y el intercepto (a) de la recta de regresión MCO de mejor ajuste son:
“b” es el estimador MCO de β=ΔE(Y)/ΔX: Si β>0: un aumento unitario en la variable explicativa X conlleva un aumento promedio de β unidades en la variable dependiente. La pendiente mide el efecto de un aumento marginal en la variable explicativa sobre E(Y).
22 XnX
YXnXYb
XbYa “a” es el estimador MCO de =E(Y|X=0): valor promedio de la variable dependiente Y cuando el valor que toma la variable independiente es cero.
^Y= a + b X Recta de regresión estimada por MCO
13FÁTIMA PONCE REGALADO
ERROR ESTANDAR DE LA ESTIMACIÓN (se):
Mide la variabilidad o dispersión de los valores observados alrededor de la recta de regresión (=confiabilidad de la ecuación estimada)
2
)ˆ( 2
n
YYse
Y= Valores de la variable dependiente.Ŷ= Valores estimados con la ecuación
de estimación que corresponden a cada valor de Y.
n = número de puntos utilizados para ajustar la línea de regresión.
Grados de libertad
Interpretación: Mientras más grande sea el error estándar de la estimación, mayor
será la dispersión de los puntos alrededor de la línea de regresión. Si se = 0 ecuación de estimación (Ŷ) nos da un estimador
perfecto de la variable dependiente.
14FÁTIMA PONCE REGALADO
ANÁLISIS DE REGRESIÓN SIMPLE o BIVARIADA:
Aplicación: Crecimiento – Infraestructura móvilEstimar la línea de regresión … en Excel
0 10000 20000 30000 400000
100,000
200,000
300,000
400,000
500,000
600,000
f(x) = 7.19995394119123 x + 210383.260293817R² = 0.954662488950188
PBI - Líneas Móviles
Líneas móviles (miles)
PBI (
mlls
de
S/.d
e 20
07)
Estadísticas de la regresiónCoeficiente de correlación múltiple 0.97706831Coeficiente de determinación R^2 0.95466249R^2 ajustado 0.95239561Error típico 21551.1878Observaciones 22
ANÁLISIS DE VARIANZAGrados de libertadSuma de cuadradosPromedio de los cuadrados F Valor crítico de F
Regresión 1 1.956E+11 1.956E+11 421.135817 6.6026E-15Residuos 20 9289073882 464453694Total 21 2.0489E+11
Coeficientes Error típico Estadístico t Probabilidad Inferior 95%Intercepción 210383.26 6375.84822 32.9969054 6.477E-19 197083.474Líneas móviles en servicio (miles) 7.19995394 0.3508477 20.5215939 6.6026E-15 6.46809847
Error estándar de estimación
Coeficientes estimados
R2
15FÁTIMA PONCE REGALADO
Estimación en Excela) Determinar la Mejor Ecuación de Regresión para los datos.
EN EXCEL emplear comando DATOS / ANALISIS DE DATOSb) Escoger REGRESIÓN:
16FÁTIMA PONCE REGALADO
Estimación en Excel
Rango de datos de la variable dependiente
Rango de datos de las variables independientes
Presenta cuadro con los errores estimados y valor de Yestimado.(Se explicará en próxima sesión)
17FÁTIMA PONCE REGALADO
MRLG MÚLTIPLE O MULTIVARIADO
18FÁTIMA PONCE REGALADO
MODELO DE REGRESIÓN LINEAL GENERAL
Si el modelo especificado es:
Y = β1 + β2X2 + β3X3 + … + βkXk + µ
Y = X β + µ
El análisis de regresión busca cuantificar la relación existente entre la variable Y (dependiente) y las X’s (independientes):
E(Y/X) = β1 + β2X2 + β3X3 + … + βkXk
El objetivo es estimar los parámetros (β’s) buscando el valor más probable de Y dados los valores de X.
19FÁTIMA PONCE REGALADO
A nivel de observaciones, cada X es un vector columna:
y1 1 x12 x13 ... x1k β1 µ1
y2 1 x22 x23 ... x2k β2 µ2
y3 = 1 x32 x33 … x3k β3 + µ3
… … … … … … … … yn 1 xn2 xn3 … xnk βk µn
nx1 nxk kx1 nx1vector de observaciones de perturbaciónobservaciones las var. exógenasde la var.dependiente
Y = X + µ
EL MRLG MULTIPLE ó MULTIVARIADO
Objetivo: Estimar intercepto,y
pendientes,
20FÁTIMA PONCE REGALADO
SUPUESTOS DEL MRLG (1/2)1. Hipótesis: Relación lineal de la variable dependiente Y con
un conjunto de k variables explicativas X:Y = β1 + β2 X2 + β3 X3 + β4 X4 + … + βk Xk + µ
Y = X + µ
Forma Lineal: y = β1 + β2X2 + β3 X3 + µ
pendientes
Y2 = ------------------ X2 de 1 unidad
21FÁTIMA PONCE REGALADO
- Semilogarítmica: y = eβ1 + β2 X2 + β3 X3 + µ
linealización: ln y = β1 + β2 X2 + β3 X3 + µ
- Doblelogarítmica: y = β1 X2β2 X3
β3 eµ
linealización: ln y = ln β1 + β2 ln X2 + β3 ln X3 + µ
tasa de crec.
elasticidadesEs una elasticidad de Y respecto a X2.
%Y2 = ------------ % X2
OTRAS FORMAS FUNCIONALES
22FÁTIMA PONCE REGALADO
SUPUESTOS DEL MRLG (2/2)2. Hipótesis sobre las perturbaciones (µ):
i) E (µ) = 0ii) Var(µi)=2
µ Varianzas de las perturbaciones son iguales (Homoscedasticidad).
iii) Cov(µi,µj)=0 Cada perturbación es No correlacionada con todas las otras perturbaciones.
iv) Distribución de la perturbación: Normal: µ N (0, 2µ I)
3. Hipótesis sobre los regresores (variables X’s):i) X es matriz de valores fijos independiente de µ (No debe
haber relación lineal entre Xi y µ).ii) No hay relación lineal exacta entre las variables X’s: Los k vectores son Linealmente Independientes, es decir,
cada variable aporta información propia.
23FÁTIMA PONCE REGALADO
FUNCIÓN DE REGRESIÓN(caso múltiple)
X1
X2
Plano formado a travésde los puntos de la muestra:^Y = b1 + b2X2 + b3X3
Punto correspondiente en el plano
Punto observado
Erro
r
Y
b1= intercepto
Fuente: Fig 13-1 Levin y Rubin(2010)
24FÁTIMA PONCE REGALADO
FUNCIÓN DE REGRESIÓN POBLACIONAL
La función de regresión, objeto de estimación, se denomina Función de Regresión Poblacional (FRP) y depende de los coeficientes poblacionales desconocidos (parámetros: β1, β2,… βk ).
Se trata de la parte sistemática o predecible del modelo y corresponde al comportamiento medio o esperado de la variable a explicar:
E(Yi/X) = E (β1+ β2X2i +… + βkXki + ui)
= β1+ β2X2i +… + βkXki + E(ui )
E(Yi/X) = β1+ β2X2i +… + βkXki
25FÁTIMA PONCE REGALADO
MRLG (MÚLTIPLE): interpretación de coeficientes
β1=E(Yi|Xi=0): valor medio de la variable dependiente cuando el valor que toma la variable independiente es cero. Es el intercepto u ordenada.
β2=ΔE(Yi)/Δx2i: un aumento unitario en la variable independiente X2 conlleva un aumento medio de β2 unidades en la variable dependiente. La pendiente mide el efecto de un aumento marginal en la variable explicativa sobre E(Yi).
……βk=ΔE(Yi)/Δxki: un aumento unitario en la variable
independiente Xk conlleva un aumento medio de βk unidades en la variable dependiente.
26FÁTIMA PONCE REGALADO
ESTIMADOR MINIMO CUADRADO ORDINARIO (MCO)
Muestra de n observaciones. Utilizar aquella combinación de β1, β2,… βk que minimice
los errores que el modelo cometerá. Criterio MCO: Minimización de Σ e2 ,
^
βMCO = (X’X)-1 X’Y ^
β es variable aleatoria,
Estimador MCO de
^
e = Y – Y
^
Varianza del estimador MCO : MVC(β) = µ2 (X’X)-1
Con este estimador (fórmula), empleando datos muestrales ^
cuantificamos los valores de los β’s: obtenemos β.
^
Con Media : E[ β ] = β
27FÁTIMA PONCE REGALADO
PROPIEDADES DEL ESTIMADOR MCO ^ LINEAL: βMCO = f(Y)
^ INSESGADEZ: E[ βMCO ] = β o Su distribución está centrada sobre el verdadero valor del
parámetro que está siendo estimado. EFICIENCIA: El estimador MCO tiene menor varianza que
cualquier otro estimador lineal insesgado.
Teorema de Gauss-Markov:
^
El estimador βMCO es el Mejor Estimador Lineal Insesgado(M.E.L.I. ) si se cumplen los supuestos básicos del MRLG.
28FÁTIMA PONCE REGALADO
INTERPRETACIÓN Y EVALUACIÓN DE RESULTADOS
Para evaluar los resultados de la estimación:
1. Interpretación Económica: signos, valores. Es muy importante la unidad de medida.
2. Evaluación Estadística: R2, test de hipótesis de significancia conjunta (Test F) y test de hipótesis de significancia individual (test t).
3. Evaluación Econométrica (Si los supuestos básicos del modelo se cumplen, especialmente los residuos).
29FÁTIMA PONCE REGALADO
INTERPRETACIÓN DE LA ESTIMACIÓN
30FÁTIMA PONCE REGALADO
Aplicación 1: La Demanda de Electricidad (1/2) */
I. Especificación: La ecuación teórica a estudiar es:
QD = 1 + 2 Ingreso + 3 Población + 4 Precio +
2 >0, 3 >0 y 4 <0
Ante una variación del Precio en 1 unidad, la cantidad demandada de electricidad varía en promedio en 4 GWh
donde:QD = VEN : Volumen de energía vendida en GWh Ingreso = PBI : PBI en millones de nuevos soles constantes.Población = POB : Población del mercado (miles de habs.)Precio = TAR : Tarifa promedio en ctvUS$/kWh en $ constantes.
*/ Basado en un trabajo práctico desarrollado por alumnos de Econometría Intermedia–PUCP (2008-I).
31FÁTIMA PONCE REGALADO
Dependent Variable: VEN Method: Least Squares Sample: 1981 2001 Included observations: 21
Variable Coefficient Std. Error t-Statistic Prob.
PBI 0.067635 0.006660 10.15492 0.0000 POB 0.626912 0.045192 13.87215 0.0000 TAR -147.1479 50.80147 -2.896527 0.0100
C -9726.260 640.7192 -15.18022 0.0000
R-squared 0.984278 Mean dependent var 8178.407 Adjusted R-squared 0.981504 S.D. dependent var 1971.226 S.E. of regression 268.0884 Akaike info criterion 14.19015 Sum squared resid 1221814. Schwarz criterion 14.38911 Log likelihood -144.9966 F-statistic 354.7673 Durbin-Watson stat 1.751046 Prob(F-statistic) 0.000000
2. Se estima por MCO:
4 = Da el VEN ante un TAR en 1 unidad: Las Ventas de electricidad se reducen en promedio en 147.1 mills de nS/. cuando la TAR se en 1 ctvUS$/kWh
Aplicación 1: La Demanda de Electricidad (2/2)
2 = Da el VEN ante un PBI en 1 unidad: Las Ventas de electricidad se elevan en promedio en 0.067 mills de nS/. cuando el PBI se en 1 mll de nS/.1992 2012
32FÁTIMA PONCE REGALADO
EVALUACIÓN ESTADÍSTICA DE LA ESTIMACIÓN
33FÁTIMA PONCE REGALADO
I. BONDAD DE AJUSTE Coeficiente de Determinación ó R2: Mide el grado de ajuste lineal de la regresión e indica el %
de la variación observada de Y que es explicada por la variación combinada lineal de los regresores (X’s).
0 < R2 < 1
Por ej.: Si R2=0.76 El 76% de las variaciones de la variable endógena (cantidad p.e.) son explicadas por las variaciones de las variables independientes del modelo.
NOTAR que: En muestras de Serie de Tiempo el valor del R2 va a estar más cercano de 1 que en muestras de corte transversal, donde por lo general sólo se tienen valores entre 0.2 y 0.5
34FÁTIMA PONCE REGALADO
II. INFERENCIA ESTADISTICASi el modelo estimado es: ^ ^ ^ ^ ^
Y = β1 + β2X2 + β3X3 + … + βkXk ó ^ Y = b1 + b2X2 + b3X3 + … + bkXk
Test de significancia conjunta de vector β. Prueba F–Fisher: βi asociados a las pendientes.
En MRL Múltiple 1ro. analizar test F y luego test individual t.
En un MRL Bivariado: F = (t)2
Test de significancia individual de βi .
^Prueba t – student sólo se conoce 2
µ .
35FÁTIMA PONCE REGALADO
TEST DE SIGNIFICANCIA CONJUNTA (de todos los i asociados a pendientes)
Estadístico F (Análisis ANOVA):
H0 : vector β de pendientes = 0
H1 : vector β de pendientes 0
β2 β3 = 0
:
:
βk
^ Varianza explicada por la regresión F =--------------------------------------------- Varianza no explicada por la regresión
^ SCE/(k-1) F= ------------- F(k-1,n-k)
SCR/(n-k)
36FÁTIMA PONCE REGALADO
TEST DE SIGNIFICANCIA CONJUNTA
^ Si F>F%
(k-1,n-k)
Aceptar H1.
= 0.05
1-= 0.95
Aceptar H1
Aceptar H0: βde pendientes= 0
Valor crítico F%
^
Si F<F%(k-1, n-k)
No rechazar H0.
=0.05 Prob < = 0.05Análisis del P-valor: Si: Prob 0.05 Se acepta la H0: βde pendientes = 0 Si: Prob < 0.05 Se rechaza la H0: βde pendientes = 0
37FÁTIMA PONCE REGALADO
TEST DE SIGNIFICANCIA INDIVIDUAL (de i)
(Prueba a 2 colas)H0: βi = 0 Var. X no es importante para explicar YH1: βi 0 Var. X es estadísticamente importante para explicar Y
^ i - i ^ SE(i)
^ t =
Estadístico t :
t(n-k)
0
/2= 0.025
1-= 0.95Región de rechazo de H0
Región de aceptac. de la H0
tt/2(n-k)-t/2
(n-k)
=0.05Prob < 0.05Prob < 0.05
Análisis del P-valor: Si: Prob 0.05 Se acepta la H0: β = 0 Si: Prob < 0.05 Se rechaza la H0: β = 0
38FÁTIMA PONCE REGALADO
DISTRIBUCIÓN t
g.l.
Prueba de dos colas
Valor IC
Para el caso de un i: (n-k) grados de libertad
39FÁTIMA PONCE REGALADO
INTERPRETACIÓN Y EVALUACIÓN ESTADÍSTICA DE LA ESTIMACIÓN
40FÁTIMA PONCE REGALADO
Cont. Aplicación 1: La Demanda de Electricidad (1/2)
I. Especificación: La ecuación teórica a estudiar es:
donde:VE : Volumen de energía vendida en GWh PBI : PBI del área de influencia del mercado, en millones nuevos soles constantes.POB: Población del área de influencia del mercado (miles de habs.)TAR : Tarifa promedio a cliente final en ctvUS$ / kWh en $ constantes.
VE = 1 + 2 PBI + 3 POB + 4 TAR +
QD = 1 + 2 Ingreso + 3 Población + 4 Precio +
II. Estimación: La ecuación a estimar es:
2 >0, 3 >0 y 4 <0
41FÁTIMA PONCE REGALADO
Dependent Variable: VEN Method: Least Squares Sample: 1981 2001 Included observations: 21
Variable Coefficient Std. Error t-Statistic Prob.
PBI 0.067635 0.006660 10.15492 0.0000 POB 0.626912 0.045192 13.87215 0.0000 TAR -147.1479 50.80147 -2.896527 0.0100
C -9726.260 640.7192 -15.18022 0.0000
R-squared 0.984278 Mean dependent var 8178.407 Adjusted R-squared 0.981504 S.D. dependent var 1971.226 S.E. of regression 268.0884 Akaike info criterion 14.19015 Sum squared resid 1221814. Schwarz criterion 14.38911 Log likelihood -144.9966 F-statistic 354.7673 Durbin-Watson stat 1.751046 Prob(F-statistic) 0.000000
2. Se estima por MCO:
3. Evaluación.El 98% de las variaciones de VEN son explicadas por PBI, POB y TAR.
Cont. Aplicación 1: La Demanda de Electricidad (2/2)
Test de significancia Conjunta: Fest > Ftabla ó prob(F)<0.05 Rechazar H0.
1. │test│>│ttabla 2│ ó 2. prob <0.05Test de significancia individual:
42FÁTIMA PONCE REGALADO
Anderson, D., Sweeney, D. y Williams T. (2008). Estadística para Administración y Economía. [10ma. Ed.] México, Cengage Learning Editores S.A. de C.V., Cap 14 y 15.
Levin, R. y Rubin, D. (2010). Estadística para Administración y Economía. Séptima Edición Revisada. Pearson Educación, México. Prentice Hall. 2010. Cap. 12 y 13.
BIBLIOGRAFIA