tema 5 modelos censurados, truncados y...

28
Tema 5 MODELOS CENSURADOS, TRUNCADOS Y CON SELECCIÓN MUESTRAL ECONOMETRÍA II Prof.: Begoña Álvarez 2007-2008 1. MUESTRAS Y POBLACIÓN La estimación consistente requiere: - Disponer de una muestra extraída de forma aleatoria y representativa de la población que se pretende estudiar - Que los estadísticos (estimadores) converjan a los parámetros poblacionales que estiman. El problema con las muestras surge cuando se refieren a grupo de la población que no representa a la población que es objeto de estudio. En ese caso, los estimadores convergerán a las características de esa subpoblación, no a las de la población que se quiere analizar.

Upload: trinhngoc

Post on 27-Sep-2018

220 views

Category:

Documents


1 download

TRANSCRIPT

Tema 5

MODELOS CENSURADOS, TRUNCADOS Y CON SELECCIÓN MUESTRAL

ECONOMETRÍA II

Prof.: Begoña Álvarez

2007-2008

1. MUESTRAS Y POBLACIÓN

La estimación consistente requiere:

- Disponer de una muestra extraída de forma aleatoria y representativa de la población que se pretende estudiar

- Que los estadísticos (estimadores) converjan a los parámetros poblacionales que estiman.

El problema con las muestras surge cuando se refieren a grupo de la población que no representa a la población que es objeto de estudio.

En ese caso, los estimadores convergerán a las características de esa subpoblación, no a las de la población que se quiere analizar.

1. MUESTRAS Y POBLACIÓN

El objetivo de esta tema es:

• Mostrar la diferencia entre muestras truncadas y censuradas.

• Explicar por qué la estimación por MCO de un modelo lineal essesgada e inconsistente en tales circunstancias.

• Proponer métodos para estimar muestras en las que la variable dependiente es continua pero limitada (bien por censura o truncamiento).

• También analizaremos el problema del sesgo de selección muestral.

Es posible que no observemos datos de la variable dependiente y de las variables explicativas para toda la población. En este caso,tendremos muestras censuradas o truncadas según cómo sea el tipode limitación en la información disponible

2. MUESTRAS TRUNCADAS Y CENSURADAS

2.1 MUESTRAS TRUNCADAS

Una muestra está truncada si los datos sólo están disponibles para un subconjunto de la población total. Los valores de las variables explicativas X sólo se observan cuando se observa Y.

EJEMPLO:- El gasto médico de una muestra de pacientes entrevistados después de someterse a un tratamiento dental. En este caso, sólo observamos a personas con gasto mayor que cero.

2. MUESTRAS TRUNCADAS Y CENSURADAS

2.2 MUESTRAS CENSURADAS

Una muestra está censurada si los datos se recodifican para un subconjunto de la población. En una muestra censurada, observo las X de toda la población, pero el valor de la Y se desconoce para un subconjunto de la población.

EJEMPLO:- Oferta de trabajo: si las personas trabajan, sabemos el número de horas que ofrecen, pero a los que no trabajan les asignamos cerohoras…. Sin embargo, podría ser que su oferta de trabajo fuese de 3 horas por semana, pero no encuentra ningún empleo con esas características.

2. MUESTRAS TRUNCADAS Y CENSURADAS

MUESTRAS TRUNCADAS

MUESTRAS CENSURADAS

2. MUESTRAS TRUNCADAS Y CENSURADAS

FORMALIZACIÓN

2. MUESTRAS TRUNCADAS Y CENSURADAS

FORMALIZACIÓN

0.0

0.1

0.2

0.3

0.4

0.5

-2 0 2 4

X

standardnormal

truncatednormal

Truncated normal distribution with truncation from below (at x = -1). Source: Heij et al.

2. MUESTRAS TRUNCADAS Y CENSURADAS

FORMALIZACIÓN

0.0

0.2

0.4

0.6

-6 -4 -2 0 2 4 6

X

CE

NS

OR

ED

NO

RM

AL

O

Censored normal density with censoring from below (at x = 0) with a point mass p(x = 0) = 0.5. Source: Heij et al.

¿Por qué la censura o el truncamiento plantean un problema?

En particular, ¿qué problemas tenemos si especificamos un modelolineal y estimamos por MCO un modelo en el que la variable estácensurada o truncada?

Para ilustrar los problemas, vamos a centrarnos en el caso de unamuestra censurada.

2. MUESTRAS TRUNCADAS Y CENSURADAS

-40

-30

-20

-10

0

10

20

30

40

0 10 20 30 40 50 60

uxy ++−= 2.140*

x

y*

Por ejemplo, supongamos que la verdadera relación que tenemos es la queaparece en el gráfico.

2. MUESTRAS TRUNCADAS Y CENSURADAS

Sin embargo, imaginemos que la variable dependiente está sujeta a unacota inferior fijada en 0. Entonces los valores de variable observada Y serán tales que Y=y* si y* > 0; Y = 0 if y* <=0.

Por ejemplo, supongamos que tenemos modelo de oferta de trabajo en que y son las horas de trabajo semanales. No es posible obtener valoresnegativos.

-40

-30

-20

-10

0

10

20

30

40

0 10 20 30 40 50 60

uxy ++−= 2.140*y*

x

2. MUESTRAS TRUNCADAS Y CENSURADAS

Aquellos individuos con y* negativa simplemente no trabajan. Para ellos, el valor de Y es 0

-40

-30

-20

-10

0

10

20

30

40

0 10 20 30 40 50 60

yuxy ++−= 2.140*

x

2. MUESTRAS TRUNCADAS Y CENSURADAS

¿Qué ocurriría si ajustásemos un modelo lineal y lo estimásemos porMCO? En este caso, la pendiente estaría sesgada a la baja.

-40

-30

-20

-10

0

10

20

30

40

0 10 20 30 40 50 60

uxy ++−= 2.140*y

x

2. MUESTRAS TRUNCADAS Y CENSURADAS

-40

-30

-20

-10

0

10

20

30

40

0 10 20 30 40 50 60

¿Mejorarían las cosas si borrásemos las observaciones restringidas, esdecir, las correspondientes a los que no trabajan?

En este caso estaría definiendo una MUESTRA TRUNCADA.

uxy ++−= 2.140*y

x

2. MUESTRAS TRUNCADAS Y CENSURADAS

-40

-30

-20

-10

0

10

20

30

40

0 10 20 30 40 50 60

De nuevo tendríamos estimaciones del parámetro de la pendientesesgadas a la baja.

uxy ++−= 2.140*y

x

2. MUESTRAS TRUNCADAS Y CENSURADAS

2. MUESTRAS TRUNCADAS Y CENSURADAS

La solución a este problema es plantear un modelo híbrido que utilice la especificación PROBIT para investigar por qué algunas observacionestoman valor 0 y otras no y, para aquellas observaciones tales que Y* > 0, un modelo de regresión que nos cuantifque la relación.

El modelo TOBIT recoge esos dos aspectos.

3. MODELO TOBIT (Modelo censurado)

Supongamos una variable en la cual tenemos una solución esquina. Es decir, esa variable vale cero para una proporción considerable de la población, pero se distribuye de forma aproximadamente continua para los valores positivos.

EJEMPLO: El gasto en alcohol que hace un individuo en un mes determinado.

• Formalmente, tenemos una variable y que es aproximadamente continua en un rango de valores estrictamente positivos pero que vale cero con probabilidad positiva.

• Nada impide que utilicemos un modelo lineal para la variable y, es decir, un modelo lineal para E ( y | z1, x2,…., xk ).

• Sin embargo, podríamos obtener predicciones negativas.

• Debido a que la distribución de y presenta una acumulación de densidad en cero, no puede tener una distribución condicionada Normal. Por tanto, la inferencia estadística sólo tendrá justificación asintótica.

3. MODELO TOBIT

El modelo censurado o modelo Tobit (Tobin, 1958)

• Se dispone de datos para toda la muestra, pero la variable dependiente está censurada en un determinado valor, por ejemplo cero

• Consideremos la siguiente relación latente

• Donde y es una variable censurada tal que

ESPECIFICACIÓN

3. MODELO TOBIT

• Dada una distribución para u, la probabilidad de observar un dato censurado es:

• La probabilidad de las observaciones no censuradas es:

• Por tanto, la función de verosimilitud la escribimos como:

ESPECIFICACIÓN

3. MODELO TOBIT

Los β del modelo Tobit miden los efectos marginales de las variables explicativas sobre la variable latente y*. En ocasiones, esta variable tiene una interpretación económica interesante, pero en la mayoría de los casos no es así. La variable que queremos explicar es y, que es la que se puede observar.

¿Qué información podemos obtener del modelo estimado?

Podemos estar interesados en calcular el efecto marginal de lasvariables explicativas sobre E ( y | X)

O nos pueden interesar los efectos marginales de las variables explicativas sobre E ( y | X, y>0)

INTERPRETACIÓN

3. MODELO TOBIT

Podemos obtener E( y | x) de forma sencilla. Recordamos que:

Entonces,

INTERPRETACIÓN

y*i > 0

y*i > 0Pr (yi ≠ 0 | xi ) =

3. MODELO TOBIT

La expresión de E( y | x, y>0) es

donde

=

INTERPRETACIÓN

Esta ecuación nos indica que estimamos un modelo de regresión lineal con las observaciones y>0 no siempre conseguiremos estimaciones consistentes de β. El problema que tenemos es el de omisión de variables relevantes; en este caso la variable omitida sería el Ratio inverso de Millsy, generalmente, está correlacionado con los elementos de x.

Ratio inverso de Mills

3. MODELO TOBIT

INTERPRETACIÓN

Efectos marginales

1. Sobre la variable latente

2. Sobre la variable observada sin condicionar a y>0

3. Sobre la variable condicionada a y>0

0

5000

10000

15000

20000

25000

30000

0 20000 40000 60000 80000 100000 120000 140000 160000

Household expenditure ($)

Exp

end

itu

re o

n h

ou

seh

old

eq

uip

men

t ($

)

We will use the Consumer Expenditure Survey data set to illustrate the use of tobit analysis. The figure plots annual household expenditure on household equipment, HEQ, on total household expenditure, EXP, both measured in dollars.

31

EJEMPLO (C. Doughterty, 2002)

For 86 households, HEQ was 0. (The tabulation has been confined to small values of HEQ. We are only interested in finding out how many actually had HEQ = 0.)

. tab HEQ if HEQ<10

HEQ | Freq. Percent Cum.------------+-----------------------------------

0 | 86 89.58 89.583 | 1 1.04 90.624 | 2 2.08 92.716 | 1 1.04 93.757 | 1 1.04 94.798 | 5 5.21 100.00

------------+-----------------------------------Total | 96 100.00

32

EJEMPLO

Here is a regression using all the observations. We anticipate that the coefficient of EXP is biased downwards.

. reg HEQ EXP

Source | SS df MS Number of obs = 869---------+------------------------------ F( 1, 867) = 353.91

Model | 729289164 1 729289164 Prob > F = 0.0000Residual | 1.7866e+09 867 2060635.12 R-squared = 0.2899---------+------------------------------ Adj R-squared = 0.2891

Total | 2.5159e+09 868 2898456.01 Root MSE = 1435.5

------------------------------------------------------------------------------HEQ | Coef. Std. Err. t P>|t| [95% Conf. Interval]

---------+--------------------------------------------------------------------EXP | .0471546 .0025065 18.813 0.000 .042235 .0520742

_cons | -397.2088 89.44449 -4.441 0.000 -572.7619 -221.6558------------------------------------------------------------------------------

33

EJEMPLO

Here is an OLS regression with the constrained observations dropped. The estimate of the slope coefficient is almost the same, just a little lower.

. reg HEQ EXP if HEQ>0

Source | SS df MS Number of obs = 783---------+------------------------------ F( 1, 781) = 291.04

Model | 656349265 1 656349265 Prob > F = 0.0000Residual | 1.7613e+09 781 2255219.19 R-squared = 0.2715---------+------------------------------ Adj R-squared = 0.2705

Total | 2.4177e+09 782 3091656.59 Root MSE = 1501.7

------------------------------------------------------------------------------HEQ | Coef. Std. Err. t P>|t| [95% Conf. Interval]

---------+--------------------------------------------------------------------EXP | .0467672 .0027414 17.060 0.000 .0413859 .0521485

_cons | -350.1704 101.8034 -3.440 0.001 -550.0112 -150.3296------------------------------------------------------------------------------

34

EJEMPLO

Here is the TOBIT regression.

. tobit HEQ EXP, ll(0)

Tobit Estimates Number of obs = 869chi2(1) = 315.41Prob > chi2 = 0.0000

Log Likelihood = -6911.0175 Pseudo R2 = 0.0223

------------------------------------------------------------------------------HEQ | Coef. Std. Err. t P>|t| [95% Conf. Interval]

---------+--------------------------------------------------------------------EXP | .0520828 .0027023 19.273 0.000 .0467789 .0573866

_cons | -661.8156 97.95977 -6.756 0.000 -854.0813 -469.5499---------+--------------------------------------------------------------------

_se | 1521.896 38.6333 (Ancillary parameter)------------------------------------------------------------------------------

Obs. summary: 86 left-censored observations at HEQ<=0783 uncensored observations

35

EJEMPLO

We see that the coefficient of EXP is indeed larger in the tobit analysis, confirming the downwards bias in the OLS estimates. In this case the difference is not very great. That is because only 10 percent of the observations were constrained.

. tobit HEQ EXP, ll(0)------------------------------------------------------------------------------

HEQ | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+--------------------------------------------------------------------

EXP | .0520828 .0027023 19.273 0.000 .0467789 .0573866_cons | -661.8156 97.95977 -6.756 0.000 -854.0813 -469.5499

---------+--------------------------------------------------------------------_se | 1521.896 38.6333 (Ancillary parameter)

------------------------------------------------------------------------------. reg HEQ EXP------------------------------------------------------------------------------

HEQ | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+--------------------------------------------------------------------

EXP | .0471546 .0025065 18.813 0.000 .042235 .0520742_cons | -397.2088 89.44449 -4.441 0.000 -572.7619 -221.6558

------------------------------------------------------------------------------. reg HEQ EXP if HEQ>0------------------------------------------------------------------------------

HEQ | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+--------------------------------------------------------------------

EXP | .0467672 .0027414 17.060 0.000 .0413859 .0521485_cons | -350.1704 101.8034 -3.440 0.001 -550.0112 -150.3296

------------------------------------------------------------------------------

37

EJEMPLO

3. MODELO TOBIT

LIMITACIONES

• El modelo Tobit requiere normalidad y homocedasticidad. Sicualquiera de estos dos supuestos valla, es difícil saber quéestaríamos estimando si utilizásemos MV Tobit.

• No obstante, si estos supuestos no se cumplen, pero no nosalejamos mucho de ellos, el modelo Tobit nos permite obtenerbuenas estimaciones.

• En un modelo Tobit, suponemos que cada xj tiene el mismoefecto sobre P(y>0|x) que sobre E(y|y>0,x)…. Fijaos que sólo se estima un vector de parámetros. Esta restricción es poco realista.

• Este último problema puede resolverse planteando un modelo en dos partes (a two-part model) en el cual P(y>0|x) and E(y|y>0,x) tengan diferentes parámetros.

¿Cuando hay riesgo de sesgo de selección?

– Cuando seleccionamos de forma intencionada (no aleatoria) para que confirme nuestras opiniones.

– Cuando la población objetivo no está bien definida: cuando se analiza una encuesta de intención de voto, como se define la población objetivo: votantes de las elecciones pasadas que votarán en esta.

– Cuando no incluimos a toda la población objetivo en el universo muestral.

– Cuando la no- respuesta es relevante y los borramos de la muestra final.

– Cuando la muestra está basada en participantes voluntarios.

4. SESGO DE SELECCIÓN MUESTRAL

Ocurre cuando una parte de la población objetivo –con características particulares- es excluida del muestreo.

Informe Hite (1976): Women and Love: A cultural revolution in progress

– 84% of women are not satisfied emotionally with theirrelationship

– 70% of all women married five or more years are havingsex outside their marriage

– 95% of women report forms of emotional andpsycological harassment from men with whom they are in love relationship

– 84% of women reports forms of condescension from themen in their love relationship

4. SESGO DE SELECCIÓN MUESTRAL

EJEMPLO

• Aunque fue un “best seller”, fue duramente criticado:

– El error más grave fue generalizar estos resultados a todas las mujeres, hayan o no participado en la encuesta.

– ¿Por qué no puede utilizarse la información en la que se basa este informe para generalizar?

4. SESGO DE SELECCIÓN MUESTRAL

EJEMPLO

• Muestra obtenida con autoselección: los cuestionarios se enviaron por correo y las receptoras decidieron voluntariamente si los cubrían o no, es decir, decidieron voluntariamente estar en la muestra o no -

- 100.000 entrevistas enviadas; 4500 recibidas

4. SESGO DE SELECCIÓN MUESTRAL

EJEMPLO

• Los cuestionarios se remitieron a asociaciones de mujeres- Los puntos de vista de mujeres asociadas a un grupo particular pueden ser diferentes de los del resto de mujeres.

•Los cuestionarios tenían 130 preguntas y cada una de ellas incluía varios apartados:

- Muchas preguntas eran poco precisas por ejemplo en la forma de utilizar la palabra “amor” - Muchas sugerían claramente lo que la entrevistada debía responder

4. SESGO DE SELECCIÓN MUESTRAL

EJEMPLO

La justificación de Shere Hite:

“Does research that is not based on a probability or random sample give one the right to generalize from the results of the study to the population at large? If a study is large enough and the sample broad enough, and if one generalizes carefully, yes”

Pregunta: Si realizo una encuesta sobre la eutanasia y encuesto a personas en iglesias u otros lugares de culto: ¿Puedo generalizar los resultados de la encuesta a toda la población?

Tema 5

MODELOS CENSURADOS, TRUNCADOS Y CON SELECCIÓN MUESTRAL

(2ª parte)

4. SESGO DE SELECCIÓN MUESTRAL (cont.)

• Si la selección muestral es completamente aleatoria, lasestimaciones MCO son insesgadas.

• Si la selección muestral está en función de variables explicativasobservadas e inobservadas que son independientes de X y U, entonces MCO también es consistente.

• Si las variables que determinan la selección muestral estáncorrelacionadas con el término de error, entonces MCO esinconsistente:

– Datos truncados: por ejemplo, si en el modelo Tobit sólonos quedamos con las observaciones para las que y>0

– Truncamiento incidental: en este caso, no observamos la variable “y” porque está en función del valor que tome otravariable.

Supongamos de nuevo que estamos interesados en una variable latente:

uxy ii += β'*

Sin embargo, esta vez en vez de suponer que y* se observa cuando y*

> 0, suponemos que y* es observa en función del valor de unasegunda variable latente z* tal que:

vwz ii += α'*

En este caso, y sólo se observa si zi* > 0. Además, suponemos que

el modelo está basado en el siguiente criterio de observabilidad

>=

0 if 0

0 if 1*

*

i

ii z

zz

4. SESGO DE SELECCIÓN MUESTRAL

Las dos ecuaciones anteriores constituyen lo que se conoce comoModelo Tobit tipo II. Este modelo difiere del Tobit estándar (o TobitTipo I) en dos aspectos:

• En el modelo Tobit tipo I, la variable dependiente es censurada. En el modelo Tobit tipo II, no observamos “y” si z = 0, pero “y” puedetomar valores positivos o negativos si z = 1.

• Las variables de selección “w” no tienen por qué ser idénticas a lasque contiene “x” [en general se supone que “w” contiene al menosuna variable que no aparece en “x”]

La media condicional de la variable “y” se puede expresar:

( ) ( ) ( )αiiiiiii wvyEzyEzyE '10* −>===>

( )αβ iiii wvuEx '−>+=

4. SESGO DE SELECCIÓN MUESTRAL

Si suponemos que (u, v) proceden de una distribución Normal bivariante:

2

2

,00

~vu

uu

i

i Nvu

σρσρσσ

donde ρ es la correlación entre “u” y “v”, entonces:

( ) ( )( )

Φ

=−>ααφρσαi

iuiii w

wwvuE'''

4. SESGO DE SELECCIÓN MUESTRAL

Por tanto,

( ) ( )( )

Φ

+==ααφρσβi

iuiii w

wxzyE'''1

iuix λρσβ +=

( )( )

Φ

=ααφλi

ii w

w'' donde

Si suponemos σu = 1 (por razones de identificación), esto implica:

( ) iiii xzyE ρλβ +== '1

iix λββ λ+= '

4. SESGO DE SELECCIÓN MUESTRAL

iiiii xzy ελββ λ ++== ')1(

Por tanto:

Esta es la motivación que está detrás de PROCEDIMIENTO HECKMAN EN DOS ETAPAS (o HECKIT).

4. SESGO DE SELECCIÓN MUESTRAL

ETAPA 1: Estimar un modelo PROBIT de “z” en función de “w” para la muestra total. A partir de las estimaciones de α, obtener el ratio inverso de Mills:

( )( )α

αφλˆ'ˆ'ˆ

i

ii w

=

ETAPA 2: Utilizando los datos de la muestra con selección, es decir, lasobservaciones para las que z = 1, estimamos β and βλ por MCO:

iiii xy ελββ λ ++= ˆ'

Si es significativo, entoncespuede ser rechazada, lo que implica que hay SESGO DE SELECCIÓN MUESTRAL.

iλ̂ 0: por tanto, y, 0: 00 == ρβλ HH

4. SESGO DE SELECCIÓN MUESTRAL

uxy ii += β'*

RECAPITULEMOS, partiendo de la variable latente

El modelo Tobit (tipo I) se derivaría:

>+==

0 if 0

0 if u '*

*i

*

i

iii y

yxyy

β

El modelo Tobit (tipo II) se derivaría:

>+==

0 if 0

0 if u '*

*i

*

i

iii z

zxyy

β

donde vwz ii += α'*

>=

0 if 0

0 if 1*

*

i

ii z

zz

4. SESGO DE SELECCIÓN MUESTRAL

Hay dos formas de estimar un modelo con selección:

-MÉTODO EN DOS ETAPAS DE HECKMAN- Sencillo- Estimaciones ineficientes

- MÁXIMA VEROSIMILITUD- Sencillo si está implementado en el software utilizado (Eviews no)- Estimaciones eficientes

4. SESGO DE SELECCIÓN MUESTRAL

19

heckman LGEARN S ASVABC ETHBLACK ETHHISP if MALE==0, select(S AGE CHILDL06 CHILDL16 MARRIED ETHBLACK ETHHISP)

En este caso, vamos a estimar le modelo por MÁXIMA VEROSIMILITUD una función de salarios con selección en participación. La muestra incluye 2,661 mujeres, de las cuales2,021 tenían salarios en 1994.

La variable de selección es SELECT, que toma valor 1 si la mujer trabaja y 0 si no trabaja.

EJEMPLO: Sesgo de selección muestral

S= años de escolarización

ASVABC = resultado de un test de inteligencia

ETHBLACK = 1 si es afroamericana

ETHBLACK = 1 si es hispana

CHILDL06 = 1 si el tiene hijos menores de 6 años.

CHILDL16 = 1 si tiene hijos entre 7 y 15 años.

MARRIED = 1 si está casada.

25

Heckman selection model Number of obs = 2661(regression model with sample selection) Censored obs = 640

Uncensored obs = 2021Wald chi2(4) = 714.73

Log likelihood = -2668.81 Prob > chi2 = 0.0000------------------------------------------------------------------------------

| Coef. Std. Err. z P>|z| [95% Conf. Interval]---------+--------------------------------------------------------------------LGEARN |

S | .095949 .0056438 17.001 0.000 .0848874 .1070106ASVABC | .0110391 .0014658 7.531 0.000 .0081663 .0139119

ETHBLACK | -.066425 .0381626 -1.741 0.082 -.1412223 .0083722ETHHISP | .0744607 .0450095 1.654 0.098 -.0137563 .1626777_cons | 4.901626 .0768254 63.802 0.000 4.751051 5.052202

---------+--------------------------------------------------------------------select |

S | .1041415 .0119836 8.690 0.000 .0806541 .1276288AGE | -.0357225 .011105 -3.217 0.001 -.0574879 -.0139572

CHILDL06 | -.3982738 .0703418 -5.662 0.000 -.5361412 -.2604064CHILDL16 | .0254818 .0709693 0.359 0.720 -.1136155 .164579MARRIED | .0121171 .0546561 0.222 0.825 -.0950069 .1192412

ETHBLACK | -.2941378 .0787339 -3.736 0.000 -.4484535 -.1398222ETHHISP | -.0178776 .1034237 -0.173 0.863 -.2205843 .1848292_cons | .1682515 .2606523 0.646 0.519 -.3426176 .6791206

---------+--------------------------------------------------------------------

El número de mujeres que trabajan / no trabajan aparece arriba.

EJEMPLO: Sesgo de selección muestral

27

En la parte de arriba aparece la estimación de la ecuación de salarios una vez que hemoscontrolado por la selección.

El resultado del Probit para la parte de selección aparece al abajo.

Heckman selection model Number of obs = 2661(regression model with sample selection) Censored obs = 640

Uncensored obs = 2021Wald chi2(4) = 714.73

Log likelihood = -2668.81 Prob > chi2 = 0.0000------------------------------------------------------------------------------

| Coef. Std. Err. z P>|z| [95% Conf. Interval]---------+--------------------------------------------------------------------LGEARN |

S | .095949 .0056438 17.001 0.000 .0848874 .1070106ASVABC | .0110391 .0014658 7.531 0.000 .0081663 .0139119

ETHBLACK | -.066425 .0381626 -1.741 0.082 -.1412223 .0083722ETHHISP | .0744607 .0450095 1.654 0.098 -.0137563 .1626777_cons | 4.901626 .0768254 63.802 0.000 4.751051 5.052202

---------+--------------------------------------------------------------------select |

S | .1041415 .0119836 8.690 0.000 .0806541 .1276288AGE | -.0357225 .011105 -3.217 0.001 -.0574879 -.0139572

CHILDL06 | -.3982738 .0703418 -5.662 0.000 -.5361412 -.2604064CHILDL16 | .0254818 .0709693 0.359 0.720 -.1136155 .164579MARRIED | .0121171 .0546561 0.222 0.825 -.0950069 .1192412

ETHBLACK | -.2941378 .0787339 -3.736 0.000 -.4484535 -.1398222ETHHISP | -.0178776 .1034237 -0.173 0.863 -.2205843 .1848292_cons | .1682515 .2606523 0.646 0.519 -.3426176 .6791206

---------+--------------------------------------------------------------------

EJEMPLO: Sesgo de selección muestral

28

Heckman selection model Number of obs = 2661| Coef. Std. Err. z P>|z| [95% Conf. Interval]

---------+--------------------------------------------------------------------select |

S | .1041415 .0119836 8.690 0.000 .0806541 .1276288AGE | -.0357225 .011105 -3.217 0.001 -.0574879 -.0139572

CHILDL06 | -.3982738 .0703418 -5.662 0.000 -.5361412 -.2604064CHILDL16 | .0254818 .0709693 0.359 0.720 -.1136155 .164579MARRIED | .0121171 .0546561 0.222 0.825 -.0950069 .1192412

ETHBLACK | -.2941378 .0787339 -3.736 0.000 -.4484535 -.1398222ETHHISP | -.0178776 .1034237 -0.173 0.863 -.2205843 .1848292_cons | .1682515 .2606523 0.646 0.519 -.3426176 .6791206

---------+--------------------------------------------------------------------/athrho | 1.01804 .0932533 10.917 0.000 .8352669 1.200813

/lnsigma | -.6349788 .0247858 -25.619 0.000 -.6835582 -.5863994---------+--------------------------------------------------------------------

rho | .769067 .0380973 .683294 .8339024sigma | .5299467 .0131352 .5048176 .5563268lambda | .4075645 .02867 .3513724 .4637567

------------------------------------------------------------------------------LR test of indep. eqns. (rho = 0): chi2(1) = 32.90 Prob > chi2 = 0.0000------------------------------------------------------------------------------

En la parte final de la salida aparece la información necesaria para contrastar si existesesgo de selección muestral. RHO es la estimación del coeficiente de correlación entre εand u. Aquí da 0.77.

EJEMPLO: Sesgo de selección muestral

Por razones técnicas, ρ se estima indirectamente mediante atanh ρ. Sin embargo, contrastar H0: atanh ρ = 0 es equivalente a contrastar H0: ρ = 0.

El estadístico de contraste es 10.92 y, por tanto, rechazamos la hipótesis nula.

32

El estadístico de contrastes LR= 2 (log LU – log LR), se distribuye, bajo H0, como una chi-cuadrado con 1 grado de libertad.

Heckman selection model Number of obs = 2661| Coef. Std. Err. z P>|z| [95% Conf. Interval]

---------+--------------------------------------------------------------------select |

S | .1041415 .0119836 8.690 0.000 .0806541 .1276288AGE | -.0357225 .011105 -3.217 0.001 -.0574879 -.0139572

CHILDL06 | -.3982738 .0703418 -5.662 0.000 -.5361412 -.2604064CHILDL16 | .0254818 .0709693 0.359 0.720 -.1136155 .164579MARRIED | .0121171 .0546561 0.222 0.825 -.0950069 .1192412

ETHBLACK | -.2941378 .0787339 -3.736 0.000 -.4484535 -.1398222ETHHISP | -.0178776 .1034237 -0.173 0.863 -.2205843 .1848292_cons | .1682515 .2606523 0.646 0.519 -.3426176 .6791206

---------+--------------------------------------------------------------------/athrho | 1.01804 .0932533 10.917 0.000 .8352669 1.200813

/lnsigma | -.6349788 .0247858 -25.619 0.000 -.6835582 -.5863994---------+--------------------------------------------------------------------

rho | .769067 .0380973 .683294 .8339024sigma | .5299467 .0131352 .5048176 .5563268lambda | .4075645 .02867 .3513724 .4637567

------------------------------------------------------------------------------LR test of indep. eqns. (rho = 0): chi2(1) = 32.90 Prob > chi2 = 0.0000------------------------------------------------------------------------------

Una forma alternativa de contastar esta hipótesis es comparar las log-likelihood para el modelo restringido (en el que ρ es 0) y el modelo sin restringir que acabamos de estimar.

EJEMPLO: Sesgo de selección muestral

En este ejemplo el valor del estadístico es 32.90. El p-valor muestra que rechazamos la hipótesis nula.

34

Resulta interesante comparar la ecuación de salarios estimada por el método de HECKMAN con la estimación por MCO. Los coeficientes estimados son bastante similares, a pesar de que MCO es inconsistente (porque los contrastes anteriores nos han permitido corroborarque tenemos un problema de SESGO DE SELECCIÓN MUESTRAL).

EJEMPLO: Sesgo de selección muestral

. heckman LGEARN S ASVABC ETHBLACK ETHHISP if MALE==0, select(S AGE CHILDL06 CHILDL16 MARRIED ETHBLACK ETHHISP)------------------------------------------------------------------------------

| Coef. Std. Err. z P>|z| [95% Conf. Interval]---------+--------------------------------------------------------------------LGEARN |

S | .095949 .0056438 17.001 0.000 .0848874 .1070106ASVABC | .0110391 .0014658 7.531 0.000 .0081663 .0139119

ETHBLACK | -.066425 .0381626 -1.741 0.082 -.1412223 .0083722ETHHISP | .0744607 .0450095 1.654 0.098 -.0137563 .1626777_cons | 4.901626 .0768254 63.802 0.000 4.751051 5.052202

---------+--------------------------------------------------------------------

. reg LGEARN S ASVABC ETHBLACK ETHHISP if MALE==0------------------------------------------------------------------------------

LGEARN | Coef. Std. Err. t P>|t| [95% Conf. Interval]---------+--------------------------------------------------------------------

S | .0807836 .005244 15.405 0.000 .0704994 .0910677ASVABC | .0117377 .0014886 7.885 0.000 .0088184 .014657

ETHBLACK | -.0148782 .0356868 -0.417 0.677 -.0848649 .0551086ETHHISP | .0802266 .041333 1.941 0.052 -.0008333 .1612865_cons | 5.223712 .0703534 74.250 0.000 5.085739 5.361685

------------------------------------------------------------------------------

36

Heckman selection model Number of obs = 2661(regression model with sample selection) Censored obs = 640

Uncensored obs = 2021Wald chi2(4) = 714.73

Log likelihood = -2668.81 Prob > chi2 = 0.0000------------------------------------------------------------------------------

| Coef. Std. Err. z P>|z| [95% Conf. Interval]---------+--------------------------------------------------------------------LGEARN |

S | .095949 .0056438 17.001 0.000 .0848874 .1070106ASVABC | .0110391 .0014658 7.531 0.000 .0081663 .0139119

ETHBLACK | -.066425 .0381626 -1.741 0.082 -.1412223 .0083722ETHHISP | .0744607 .0450095 1.654 0.098 -.0137563 .1626777_cons | 4.901626 .0768254 63.802 0.000 4.751051 5.052202

---------+--------------------------------------------------------------------select |

S | .1041415 .0119836 8.690 0.000 .0806541 .1276288AGE | -.0357225 .011105 -3.217 0.001 -.0574879 -.0139572

CHILDL06 | -.3982738 .0703418 -5.662 0.000 -.5361412 -.2604064CHILDL16 | .0254818 .0709693 0.359 0.720 -.1136155 .164579MARRIED | .0121171 .0546561 0.222 0.825 -.0950069 .1192412

ETHBLACK | -.2941378 .0787339 -3.736 0.000 -.4484535 -.1398222ETHHISP | -.0178776 .1034237 -0.173 0.863 -.2205843 .1848292_cons | .1682515 .2606523 0.646 0.519 -.3426176 .6791206

---------+--------------------------------------------------------------------

EJEMPLO: Sesgo de selección muestral

ANALICEMOS EL EFECTO DE LA EDUCACIÓN: ¿POR QUÉ EL COEFICIENTE DEL MODELO CON SELECCIÓN ES MAYOR QUE EL DE MCO?

Un tercer tipo de modelo es el “Double Hurdle Model”. En este caso, la variable que observamos sigue la siguiente regla:

>>+=

=otherwise 0

0y and 0 if u ' *i

*i

*ii

izxy

La “doble valla” (Double-Hurdle) se denomina así porque, en ciertosentido, hay dos vallas que pasar antes de que se observe un valorestrictamente positivo de la variable dependiente.

4. SESGO DE SELECCIÓN MUESTRAL

Este modelo fue propuesto por Cragg (1973) utilizando como ejemplo la demanda de bienes durables (coches, frigoríficos…).

La compra de este tipo de bienes sugiere la siguiente estructura de decisión:

(1)¿Quieres comprar el bien o no?

(2) Si quieres comprar el bien, ¿puedes disponer del dinero suficiente parahacerlo o no?

Si pasas estas dos “vallas”, entonces tenemos el valor del gasto realizado.

4. SESGO DE SELECCIÓN MUESTRAL

Para comparar estos tres modelos, vamos a ver cómo se modeliza la oferta laboral (número de horas trabajadas) en cada uno de los casos:

• MODELO TOBIT ESTÁNDAR:La oferta laboral de los individuos sólo se observa si trabajanmodel of labour supply individuals are observed to work if and only if their hours worked are positive.

• MODELO HECKIT: La decisión de “participar / no participar” en el mercado laboral se modeliza de forma separada al número de horas quetrabajan, los que participan. La ecuación que especifica la decisión binaria de participar ecuación de selección) puede incluir variables que afectan a las horas trabajadas y variables que no tienen efecto sobre esa segunda parte de la decisión.

• MODELO DOBLE VALLA: Antes de decidir el número de horas, se debenpasar dos decisiones previas (es decir, hay más de un motivo para que el individuo no trabaje): -¿Quieres trabajar o no?- Si quieres trabajar ¿puedes encontrar trabajo o no?

4. SESGO DE SELECCIÓN MUESTRAL