taller internacional “creando ... - ucw … · antes de ajustar un modelo lineal a los datos...

43
TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTILSOBRE TRABAJO INFANTIL Lima 19-23 Feb, 2007 Análisis Econométrico 1

Upload: vuthu

Post on 27-Sep-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA

RECOLECCIÓN Y ANÁLISIS DE DATOS SOBRE TRABAJO INFANTIL”SOBRE TRABAJO INFANTIL

Lima 19-23 Feb, 2007

Análisis Econométrico

1

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

AnálisisAnálisis de Regreside RegresióónnAnálisisAnálisis de Regreside RegresióónnLa regresión es la técnica estadística más extendida y

se utiliza para estimar las relaciones entre variablesse utiliza para estimar las relaciones entre variables independientes (explicatorias) y la variable dependiente.

LLos modelos de regresión ayudan a entender y explicar las relaciones entre varias variables; tambiénexplicar las relaciones entre varias variables; también sirven para predecir resultados.

2

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Análisis de Regresión Lineal Simple

El análisis de regresiEl análisis de regresióón lineal simple trata de modelar la n lineal simple trata de modelar la relacirelacióón entre dos variables ajustando una ecuacin entre dos variables ajustando una ecuacióónn

Análisis de Regresión Lineal Simple

relacirelacióón entre dos variables ajustando una ecuacin entre dos variables ajustando una ecuacióón n lineal a los datos observados. Una de las variables se lineal a los datos observados. Una de las variables se considera la variable explicatoria y la otra, la variable considera la variable explicatoria y la otra, la variable p y ,p y ,dependiente.dependiente.

Antes de ajustar un modelo lineal a los datos Antes de ajustar un modelo lineal a los datos observados, el investigador debe determinar si entre las observados, el investigador debe determinar si entre las variables de intervariables de interéés existe una relacis existe una relacióón Esto no significan Esto no significavariables de intervariables de interéés existe una relacis existe una relacióón. Esto no significa n. Esto no significa que obligatoriamente una variable cause la otra, sino que obligatoriamente una variable cause la otra, sino que existe algún tipo de asociacique existe algún tipo de asociacióón entre ellas.n entre ellas.

3

q g pq g p

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Análisis de Regresión Lineal SimpleP i ti l l d l i i ió t dPara investigar el alcance de cualquier asociación entre dos variables se puede recurrir tanto a gráficos como a métodos numéricos.

Scatterplot60

40ch

il_la

bor

20c

4

0

0 5 0 0 0 1 0 0 0 0 1 5 00 0 2 0 0 00 2 5 0 0 0g d p

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Análisis de Regresión Lineal SimpleCoeficiente de correlación y covarianza

La covarianza y el coeficiente de correlación son parámetros estrechamente relacionados entre sí e indican el grado en elestrechamente relacionados entre sí e indican el grado en el que dos variables aleatorias co-varian.

∑1

))((),cov(

−−=∑

n

yyxxyx i

ii

1−nPara cuantificar la asociación lineal entre dos variables se utiliza el coeficiente de correlación

∑ ∑∑ −−

=))(( yyxx

r 11 +≤≤− r

5

∑ ∑ −− )()( 22 yyxx

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Análisis de Regresión Lineal Simple

Estimación de los parámetros εβα ++= xy

∑∑

−−== 2)(

))(()var(

),cov(xx

yyxxxyxβ xby −=α

∑ )()var( xxx

variabledependent =y Variable dependiente

Término constanteTérmino constante

Variable independiente

Pendiente de la recta

)(interceptermconstant t=αt variableindependen=x

lithflβ Pendiente de la recta

Término de errorline theof slope=β

error term=ε

6

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Análisis de Regresión Lineal SimpleInferencia

Es la obtención de conclusiones estadísticas sobre las propiedades de una población basándose en la observación de unapropiedades de una población basándose en la observación de una muestra obtenida de la propia población. La inferencia estadística se basa en el Contraste de Hipótesis

00: 10 =

ββ

HH

0: 11 ≠βHPredicciones:

L l di h l l b tit d l á t

xy βα ˆˆˆ +=

7

Los valores predichos se calculan substituyendo los parámetros estimados en la ecuación de la recta de regresión

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Regresión Lineal :Bondad del ajuste

El Coeficiente de Determinación mide la bondad del ajuste

∑ −i yy 2)ˆ(variationexplained

∑ −==

ii

i

yyR 2)( variationtotal

variationexplained

i

El coeficiente de determinación mide la proporción de la variabilidad de la variable dependiente que es explicada por el modelo de regresión; es una medida sobre bondad del ajuste de nuestro modelo. Puede variar entre 0 y 1.

8

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Análisis de Regresión Múltipleεβββα +++++= nn xxxy .....2211

ε+−−−−= kk XbXbXbYb ˆ.....ˆˆ22110

Por lo que:

∑∑∑∑====

−−−−−N

iii

N

iii

N

iii

N

iii XYYXXXXYYXXX

b 12

1122

11

1222 )()()()(

∑∑∑∑====

====

−−−−−= N

iii

N

iii

N

iii

N

iii

iiii

XXXXXXXXXXXXb

1211

1122

1111

1222

11111

)()()()(

Coeficiente de correlación múltiple: es una estimación de la influencia

9

combinada de 2 o más variables sobre la variable observada (dependiente).

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Supuestos del método de Mínimos Cuadrados Ordinarios (MCO)

Linealidad: la relación entre los parámetros y la variable debe ser lineal.

Normalidad: los errores deben tener una distribución normal -técnicamente sólo la normalidad es necesaria para que el constraste de hipótesis sea válido. La estimación de los coeficientes sólo requiere que los errores estén idénticamente e independientemente distribuidosidénticamente e independientemente distribuidos.

Homogeneidad de la varianza (homocedasticidad): la varianza del error debe ser constantedebe ser constante.

Independencia: los errores asociados a una observación no están correlacionados con los errores asociados a otra observacióncorrelacionados con los errores asociados a otra observación.

Colinearidad: los parámetros fuertemente correlacionados (linealmente relacionados) pueden causar problemas a la hora de estimar los

10

relacionados) pueden causar problemas a la hora de estimar los coeficientes de la regresión.

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Análisis de Regresión Múltiple

Ejemplo y=α+β1 X1+β2X2+ε; Trabajo infantil= α+β1 gdp+β2 gastos salud+ comercio +ε

Sourcea | SSb dfc MSd Number of obse = 17-------------+------------------------------ F( 3, 13)f = 3.93

Model | 1297.21951 3 432.406502 Prob > F = 0.0337Model | 1297.21951 3 432.406502 Prob > F 0.0337Residual | 1430.0413 13 110.003177 R-squaredg = 0.4756

-------------+------------------------------ Adj R-squaredh = 0.3546Total | 2727.2608 16 170.4538 Root MSEi = 10.488

------------------------------------------------------------------------------chil_laborj | Coef.k Std. Err.l tm P>|t|m [95% Conf. Interval]n

-------------+----------------------------------------------------------------gdp | -.0065468 .0032733 -2.00 0.067 -.0136184 .0005248

h lth | 1 791425 1 666642 1 07 0 302 5 391986 1 809136health | -1.791425 1.666642 -1.07 0.302 -5.391986 1.809136trade | .4884833 .285445 1.71 0.111 -.128183 1.10515_cons | 27.30993 5.63761 4.84 0.000 15.13062 39.48925

------------------------------------------------------------------------------

11

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Análisis de Regresión Múltiple: Interpretación de los resultados

a: Es la fuente de la varianza: modelada (Model), residual y total. La varianza total se divide en la varianza explicada por las variables independientes (Modelada) y la varianza que las variables independientes no logran explicar (Residual). Nótese que la Suma de los Cuadrados (Sums of Squares ) del Modelo y del Residual es igual a la Varianza Total.

b: Son las Sumas de los Cuadrados asociadas a cada una de las tres fuentes de varianza (total, modelada y residual). Pueden calcularse de diversos modos. Conceptualmente, estas fórmulas pueden expresarse como:

SStotal La variabilidad total alrededor de la media S(Y-Ybar)2 L d l d d d l d l di ió S(Y Y di d)2SSResidual

SSModelLa suma de los cuadrados del error de la predicción S(Y - Ypredicted)2.La mejora de la predicción derivada de la utilización de la predicción de Y en lugar de la simple media de Y. Asi, este valor es la suma de las diferencias entre

los valores predichos de Y y la media de Y, S(Ypredicted - Ybar)2. Otra forma de interpretarlo es pensar que SSModel= SSTotal SSResidual Nótese que SSTotal = SSModel + SSResidual Nótese que SSModel /

S l d d lib t d (GL) i d d d l f t d i L i t t l ti N 1

SSModel= SSTotal - SSResidual. Nótese que SSTotal = SSModel + SSResidual. Nótese que SSModel / SSTotal es igual a 0.47, el valor de R-cuadrado (R-squared). Esto se debe a que R-cuadrado es la proporción de la varianza total que viene explicada por las variables independientes, y por lo tanto puede calcularse comoSSModel / SSTotal.

c: Son los grados de libertad (GL) asociados a cada una de las fuentes de varianza. La varianza total tiene N-1 grados de libertad. En este caso existen N=17 observaciones, por lo tanto los GL Totales son 16. Los grados de libertad del Modelo corresponden al número de parámetros menos 1 (K -1). Podría pensarse que esto sería 3-1 (puesto que existen 3 variables independientes en el modelo), pero la constante se incluye automáticamente en el modelo (a no ser que se omita de forma explícita) Al incluir la constante existen 4 parámetros por lo tanto los

12

modelo (a no ser que se omita de forma explícita). Al incluir la constante, existen 4 parámetros, por lo tanto, los grados de libertad del Modelo son 4-1=3. Los grados de libertad del Residuo son los GL Totales menos los GL del Modelo, 16-3=13.

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

d E l M di d l C d d (M S ) d i l S d l C d d (S f S ) di ididd: Es la Media de los Cuadrados (Mean Squares), es decir, la Suma de los Cuadrados (Sum of Squares ) dividida por los Grados de Libertad. Para el Modelo sería 1297/3=432. Para el Residuo, 1430/13=110. Se calculan para calcular el F-ratio: se divide el Cuadrado de la Media del Modelo (Mean Square Model ) entre el Cuadrado de la Media del Residuo (Mean Square residual). Se uliliza para contrastar la significancia de los parámetros del modelo.

e: Es el número de observaciones que se utilizan en el análisis de regresión.

f: El F-valor es el Cuadrado de la Media del Modelo (Mean Square Model ) dividida por el Cuadrado de la Media del Residuo (Mean Square Residual), en este caso el F-valor=3.93. El p-valor asociado a este F-valor es muy bajo (0.03). Estos valores se utilizan para responder a la pregunta: “¿Las variables independientes predicen correctamente la variable dependiente?”. El p-valor se compara con un nivel de alpha (suele usarse un alpha=0.05). Si el p-valor es inferior a alpha se concluye que “Las variables independientes predicen correctamente la variable dependiente ” Si el p valor es superior a alpha se concluye que las variables independientes no estándependiente. Si el p-valor es superior a alpha, se concluye que las variables independientes no están significativamente relacionadas con la variable dependiente, es decir que las variables independientes no predicen correctamente la variable dependiente.

g: El R cuadrado es la proporción de la variabilidad de la variable dependiente (trabajo infantil) que puede predecirseg: El R-cuadrado es la proporción de la variabilidad de la variable dependiente (trabajo infantil) que puede predecirse con las variables independientes (gdp, gastos en salud y comercio). El valor indica que alrededor del 50% de la variabilidad del trabajo infantil es explicada por las variables gdp, salud y comercio.

13

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

h: Es el R-cuadrado Ajustado (Adjusted R-square). Al incluir nuevos parámetros en el modelo, cada uno de ellos explicaría algo de la variabilidad de la variable dependiente debido simplemente a la casualidad. Por lo tanto la inclusión de nuevos parámetros al modelo aumentará la habilidad de los parámetros para predecir la variableinclusión de nuevos parámetros al modelo aumentará la habilidad de los parámetros para predecir la variable dependiente, pero una parte de esta mejora se deberá únicamente a la casualidad en esa muestra particular. El R-cuadrado Ajustado ofrece un valor más confiable para estimar el R-cuadrado de la población. El valor del R-cuadrado es aproximadamente 0.5, mientras que el R-cuadrado Ajustado = 0.35. El R-cuadrado Ajustado se calcula tal que: 1 - ( (1-R-sq)(N-1 / N - k - 1) ). De esta fórmula se deriva que si el número de observaciones es pequeño y el número de parámetros es elevado la diferencia entre el R cuadrado Ajustado y el R cuadrado es amplia (ya que elnúmero de parámetros es elevado, la diferencia entre el R-cuadrado Ajustado y el R-cuadrado es amplia (ya que el ratio (N-1 / N - k - 1) será muy inferior a 1). Si en cambio, el número de observaciones es grande comparado con el número de parámetros, el valor del R-cuadrado Ajustado será parecido al valor del R-cuadrado Ajustado, ya que el ratio (N-1)/(N-k-1) estará próximo a 1.i: La raiz de la Media de la Suma de cuadrados es la desviación típica del error, y es la raiz cuadrada de la Media de Cuadrados Residual (o Error)j: Esta columna muestra la variable dependiente (trabajo infantil) y más abajo las variables independientes (gdp, gastos en salud y comercio). La última variable (_cons), representa la constante del modelo, también es el valor de la recta de regresión en el punto en el que esta cruza el eje Y.k: Son los valores de la ecuación para predecir la variable dependiente a través de las variables independientesk: Son los valores de la ecuación para predecir la variable dependiente a través de las variables independientes. Estas estimaciones muestran la relación entre la variable dependiente y las independientes. Indican el incremento del trabajo infantil que se produce por el incremento en una unidad de las variables independientes. Nota: Si una de las variables independientes no es significativa, su coeficiente no será significativamente diferente de 0, lo que deberá tenerse en cuenta a la hora de interpretar el coeficiente. (observar las columnas del p-valor y t-valor para

t t l i ifi i d l fi i t )contrastar la significancia de los coeficientes).gdp- El coeficiente (parámetro estimado) es -0.065. Por lo tanto, el aumento en una unidad del producto

interior bruto provoca la disminución del trabajo infantil en 0.065 unidades.

14

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

l S l tí i i d l fi i t L tí i tili d t i i ll: Son los errores típicos asociados a los coeficientes. Los errores típicos se utilizan para determinar si los parámetros son o no significativamente diferentes de 0. Dividiendo los parámetros estimados por el error típico se obtiene el t-valor (observar la columna con el p-valor y t-valor ). Los errores típicos se utilizan también para construir los intervalos de confianza del parámetro (últimas dos columnas de la tabla 2).

m: Estas columnas proporcionan el t-valor y el p-valor bilateral (de dos colas) para contrastar la hipótesis nula (el coeficiente o parámetro es igual a 0). Si se utiliza un contraste bilateral, entonces debe compararse cada p-valor con el valor seleccionado de alpha. Los coeficientes con un p-valor inferior a alpha son significativos. Por ejemplo, si se elige un alpha de 0 05 los coeficientes con un valor inferior o igual a 0 05 serán estadísticamente significativos (eselige un alpha de 0.05, los coeficientes con un valor inferior o igual a 0.05 serán estadísticamente significativos (es decir que se rechaza la hipótesis nula y por lo tanto los coeficientes son significativamente diferentes de 0). Si se utiliza un contraste unilateral ( es decir que se predice que el parámetro se distribuye en una determinada dirección), se debe dividir el p-valor entre 2, y comparar este resultado con el valor elegido de alpha. Con un contraste bilateral y un valor de alpha de 0.05 se rechaza la hipótesis nula para los coficientes del gdp y de los gastos en salud. La y p p p g p y gconstante es significativamente diferente de 0 para un alpha de 0.05 (aunque una constante significativa es de pocaimportancia).

n: Son los intervalos de confianza de los coeficientes al 95%. Son muy útiles puesto que muestran cuan alto o cuan y p qbajo podría ser el valor poblacional del parámetro. El intervalo de confianza permite observar cuanto podría variar la estimación del coeficiente.

15

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Análisis de Regresión: Violación de los supuestos

C d li ió li l l ió l i bl lCuando se realiza una regresión lineal se asume que relación entre la variable respuesta y los parámetros es lineal. Si este supuesto no se cumple, la regresión lineal intentará ajustar a una recta datos que no se distribuyen de tal forma.

Multicolinearidad: Este problema se produce cuando existe una elevada correlación entre las variables explicativas. La presencia de multicolinearidad en un modelo se debe a la presencia de coeficientes inestables. La Variación del Factor de Expansión ayuda al investigador a detectar la multicolinearidad:

)1/(1 2RVIF −=

Si xj está fuertemente correlacionada con el resto de variables x, la VFE será alto. Esto aumentaría la varianza de bj lo que haría difícil la obtención de t-ratios significativosvarianza de bj lo que haría difícil la obtención de t ratios significativos.

Generalmente se utiliza un valor de 10 como frontera para detectar la multicolinearidad.

16

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Normalidad: El supuesto de normalidad asegura que los p-valores para los contrastes t y F son válidos. La normalidad de los residuos sólo se requiere para validar el contraste de hipótesis.

03.0

4.0

2.0

Den

sity

0.0

1

-20 -10 0 10 20Residuals

Kernel density estimateNormal density

17

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Homocedasticidad: homogeneidad de la varianza de los residuos. Si el modelo se ajusta correctamente no debería existir ningún patrón en la distribución de los residuos contra los valores predichos.

3010

20du

als

0R

esid

-10

-10 0 10 20 30Fitted values

18

Fitted values

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Modelos con variables categóricas

Considérese una variable dependiente discreta:

1. Participación en la fuerza laboral:0,1; Asistencia a escuela:0,12. Variable categórica; rankings,3 Actividades de los niños: sólo categorías no rankings3. Actividades de los niños: sólo categorías, no rankings.

En cada uno de estos casos, se pueden construir modelos que relacionan l l d j d f l iólos resultados con un conjunto de factores en la regresión.

Cada uno de estos modelos puede ser analizado dentro del marco general p gde modelos probabilísticos.

Prob(evento j ocurra )=Prob(Y=j)=F[efectos relevantes: parámetros] (1)

19

Prob(evento j ocurra )=Prob(Y=j)=F[efectos relevantes: parámetros] (1)

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Elección binaria: Modelos Logit y Probit

Elección simple: Probabilidad estimada de que un niño trabaje

Los modelos Probit y Logit son una extensión de los principios de los Modelos Lineales Generales (ej: regresiones), pero tratan de forma más adecuada la presencia de variables dependientes dicotómicasadecuada la presencia de variables dependientes dicotómicas.

Además, los modelos Probit y Logit son no-lineales y predicen probabilidades entre 0 y 1 evitando resultados negativos para lasprobabilidades entre 0 y 1, evitando resultados negativos para las probabilidades.

Estos métodos difieren de las regresiones estandar ya que utilizan la estimación por máxima verosimilitud de una función relacionada con la variable dependiente en lugar de la estimación por mínimos cuadrados de la

20

propia variable.

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Modelo para explicar una variable binaria (0/1): participación en la fuerza laboral

Y=1 si trabajaY=0 si no trabajaj

Formalmente:

),(1)0(Pr),()1(Prβ

βxFYob

xFYob−==

==

Donde :

x representa el vector del conjunto de factores (variables independientes) que explican la

),()( β

x representa el vector del conjunto de factores (variables independientes) que explican la decisión;β refleja el impacto de los cambios de x sobre la probabilidad de observar el resultado.

21

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Dado (1), y un vector de regresores, se espera que:

and 1)1(Prlim==

+∞→′Yob

xβ0)1(Prlim

==−∞→′

Yobxβ

Asumiendo que el error del modelo se distribuye según una distribución normal εi ~ N(0,σ2)

⎞⎛⎟⎠⎞

⎜⎝⎛ +

==σββ i

iXFY 110)1Prob(

Donde F es la función de densidad acumulativa normal (fdc).

El modelo probit sería:

∫′

′Φ===x

xdttYobβ

βφ )()()1(Pr

22

∫∞−

Φ=== xdttYob βφ )()()1(Pr

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

P l d l l i ifiPara el modelo logit se especifica:

xebβ ′

)1(

L ti ió d b d l b l ét d d á i i ilit d El

xeeYob β ′+

==1

)1(Pr

La estimación de ambos modelos se basa en el método de máxima verosimilitud. El modelo con una probabilidad de suceso F(β’x) y observaciones independientes lleva a la siguiente función de verosimilitud:

∏∏ −====y

iy

inn xFxFyYyYyY1

'

0

'2211 )()](1[),....,,(Prob ββ

∏ −

==

−=n

yi

yi

yy

ii

ii

xFxFL 1''

10

)](1[)]([ ββ

23

∏=i 1

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Ejemplo: Modelo Logit

Logit estimates Number of obs =17706 b

Análisis de Regresión Logit: niños de 7-14, Cambodia SIMPOC, 1999

Logit estimates Number of obs =17706 bLR chi2(4) =1955.12 cProb > chi2 =0.0000 d

Log likelihood = -11271 908 a Pseudo R2 = 0 0798 eLog likelihood = -11271.908 a Pseudo R2 = 0.0798 e

Employ f Coef. g Std. Err. h z i P>z l [95% Conf. Interval]

age .8399446 .0771764 10.88 0.000 .6886816 .9912076age2 -.0255606 .0036217 -7.06 0.000 -.032659 -.0184621female .0228988 .0318416 0.72 0.472 -.0395096 .0853072heduc -.1934458 .0220245 -8.78 0.000 -.2366131 -.1502786_cons -5.614562 .401064 -14.00 0.000 -6.400633 -4.828491

24

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Análisis de Regresión Logit: Interpretación de los resultados

a) Log verosimilud- es el log de la verosimilitud del modelo final

b) Es el número de observaciones que se utiliza en el análisis. Este número puede ser inferior al número total de observaciones de la base de datos si existen valores omitidos (“missing values”) en las variables incluidas en el análisis . Si existe algún valor omitido en una de las variables de la regresión se excluye la totalidad de la observación del análisisvariables de la regresión, se excluye la totalidad de la observación del análisis.

c) Este es el ratio de verosimilitud, el contraste chi-cuadrado. Se define como la diferencia (en té i b l t ) t l i (it ió 0) l últi l d l l d l i ilit dtérminos absolutos) entre el primer (iteración 0) y el último valor del log de la verosimilitud multiplicado por 2. Entre paréntesis se muestran los grados de libertad.

d) Muestra la probabilidad de obtener el estadístico chi-cuadrado si las variables independientes no tienen efecto sobre la variable dependiente. Es el p-valor y puede compararse con 0.05 o 0.01 para determinar si el modelo es estadísticamente significativo o no.

25

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

e) Es el pseudo R-cuadrado del modelo logit, pero no es equivalente al R-cuadrado de lae) Es el pseudo R cuadrado del modelo logit, pero no es equivalente al R cuadrado de la regresión de MCO.

f) El empleo es la variable dependiente que toma el valor 1 si el entrevistado declara quef) El empleo es la variable dependiente que toma el valor 1 si el entrevistado declara que trabaja y 0 en caso contrario. Las variables enumeradas a continuación son las variables independientes.

g) Son los coeficientes, es decir los valores predichos de la variable dependiente. Se expresan en unidades log-odds.

log(p/1-p)=b0+b1*x1+b2*x2…..g(p p)

La estimación muestra el aumento en el incremento del log-odds predicho (cuando empleo=1) que sería predicho con el aumento en 1 unidad, manteniendo el resto de variables constante.

h) Los errores típicos se utilizan para contrastar si los parámetros difieren estadísticamente de 0. Dividiendo el parámetro entre el error típico, se obtiene el z-valor. P>z son los p-valores relativos.

26

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Modelos Logit y Probit: Efectos marginales

)()]([1)](1[0]|[ xFxFxFxyE βββ ′=′+′=Considérese el siguiente modelo probabilístico

)()]([1)](1[0]|[ xFxFxFxyE βββ =+−=

En general, se define el efecto marginal como

βββββ )(

)()(]|[ xf

xdxdF

xxyE ′=

⎭⎬⎫

⎩⎨⎧

′′

=∂

E l M d l L it

)](1)[()1()(

)(2 xx

ee

xdxd

x

x

ββββ

β

β

′Λ−′Λ=+

=′′Λ

En el Modelo Logit

)1()( exd β +

Es posible calcular los efectos marginales en la media muestral

27

de los datos, o en cada observación, utilizando la media muestral de los efectos marginales individuales.

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Ejemplo: Efectos marginales después de una estimación Logit

Efectos marginales después de Logit

y = Pr(employ) (predict)= .46822922------------------------------------------------------------------------------variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X---------+--------------------------------------------------------------------

age | .2091383 .01919 10.90 0.000 .171521 .246756 10.5481age2 | -.0063643 .0009 -7.06 0.000 -.00813 -.004598 116.384

f l *| 0057016 00793 0 72 0 472 009837 021241 489834female*| .0057016 .00793 0.72 0.472 -.009837 .021241 .489834heduc | -.0481662 .00548 -8.78 0.000 -.058914 -.037418 2.11352

------------------------------------------------------------------------------(*) dy/dx is for discrete change of dummy variable from 0 to 1(*) dy/dx is for discrete change of dummy variable from 0 to 1

28

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Modelo Probit BivarianteModelo Probit BivarianteActividades de los niños: Empleo=0,1; Asistencia a la escuela=0,1

β ′ h i00if1 **

La especificación general de un modelo de dos ecuaciones es

εβ

εβ

>=+′=

>=+′=

otherwise 0 ,0y if 1y ,

otherwise0,0y if 1y ,*22222

*2

*11111

*1

xy

xy

εεεε

====

1][][0]E[]E[ 21

VarVarρεεεε

===

][1][][

2,1

21

CovVarVar

29

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Modelo Probit Bivariante

La función de densidad acumulativa (fdc) bivariante es

212122211 ),,(),(Pr2 1

ρφ=<<∞− ∞−∫ ∫x x

dzdzzzxXxXob

)1/()2)(2/1(

)(

isfunction density the2

2122

21

ρφρρ

=−−+− xxxxezz )2/1(2212 )1(2

),,(ρπ

ρφ−

=zz

equations twoebetween tht coefficienn correlatio =ρ outcome theofy probabilit thedetermine which sy variableexplanator of vectorsrow X and X 21 =

1 Coeficiente de correlación entre dos ecuaciones

30

1. Coeficiente de correlación entre dos ecuaciones

2. Vectores fila de las variables explicativas que determinan la probabilidad del resultado

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

P t i l d l l d i ilit d

.12 and 12 2211 −=−= iiii yqyq 2,1 ,0 if 1 and 1 if 1 1111 ==−=== jyqyq iiii

Para construir el modelo log de verosimilitud sea:

β ij' 2,1 , and x ijijijjij jzqwz ===

Sea

ρρ

β

21*

ij

iii

ijijijjij

qqand

jq

=

L b bilid d t l f ió d i ilit d

),,(),(Pr *2122211 iiiii wwyYyYob ρΦ===

Las probabilidades que entran en la función de verosimilitud son

),,(),( *2122211 iiiii yy ρ

∑ Φ=n

iii wwL *212 ),,(lnlog Thus ρ

31

∑=i 1

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Bivariate probit regression Number of obs = 17706Wald chi2(8) = 3429.94Wald chi2(8) 3429.94

Log likelihood = -18312.713 Prob > chi2 = 0.0000

Coef. Std. Err. z P>z [95% Conf. Interval]EmployEmployage 0.502 0.046 10.81 0.000 0.411 0.592age2 -0.015 0.002 -6.87 0.000 -0.019 -0.011female 0.013 0.020 0.68 0.496 -0.025 0.051heduc 0 117 0 013 8 73 0 000 0 144 0 091heduc -0.117 0.013 -8.73 0.000 -0.144 -0.091_cons -3.379 0.240 -14.08 0.000 -3.849 -2.909Attendage 1.470 0.054 27.46 0.000 1.365 1.575

2 0 066 0 003 25 75 0 000 0 071 0 061age2 -0.066 0.003 -25.75 0.000 -0.071 -0.061female -0.063 0.024 -2.66 0.008 -0.110 -0.017heduc 0.426 0.017 24.98 0.000 0.393 0.459_cons -7.646 0.273 -28.01 0.000 -8.181 -7.111

/athrho -0.0448 0.016 -2.84 0.005 -0.076 -0.014rho -0.0447 0.0157 -0.0756 -0.0139Likelihood-ratio test of rho=0: chi2(1) = 8.07329 Prob > chi2 = 0.0045

32

Niños de 7-14, Cambodia SIMPOC, 1999

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Modelo Probit Bivariante: Efectos marginales

Un modelo probit bivariante permite evaluar diversos “efectos marginales”.Se empieza por los términos que se introducen en la función log de p p q gverosimilitud

),(Pr 2211 ii yYyYob == ),( 2211 ii yy

Y considerando el modelo, [ ] ),,(,|1,1Pr 2'21

'122121 ρββ xxxxyyob Φ===

Se derivan la totalidad de los efectos marginales

)()( '''' ρββρββ xxPxxP ΦΦ

),,( ),,(

),,( ),,(

2'21

'12002

'21

'1201

22112102211211

ρββρββ

ρββρββ

xxPxxP

xxPxxP

−−Φ=−−Φ=

−Φ=Φ=

33

)()( 22112002211201 ρββρββ

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Marginal effects after Bivariate Probity = Pr(employ=1,attend=0) (predict, p10)= .06922911

------------------------------------------------------------------------------/variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X

---------+--------------------------------------------------------------------age | -.13143 .00681 -19.30 0.000 -.144775 -.118085 10.5481age2 | .0062839 .00032 19.53 0.000 .005653 .006915 116.384

female*| .0076068 .00282 2.69 0.007 .002071 .013143 .489834heduc | -.0526446 .00212 -24.78 0.000 -.056809 -.048481 2.11352

------------------------------------------------------------------------------

y = Pr(employ=0,attend=1) (predict, p01)= .46045381------------------------------------------------------------------------------variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X---------+--------------------------------------------------------------------

age | -.0053984 .01724 -0.31 0.754 -.039183 .028386 10.5481age2 | -.0022955 .00081 -2.83 0.005 -.003887 -.000704 116.384

f l *| 0117152 00725 1 62 0 106 025926 002495 489834female*| -.0117152 .00725 -1.62 0.106 -.025926 .002495 .489834heduc | .0883269 .00505 17.48 0.000 .078422 .098232 2.11352

------------------------------------------------------------------------------

y = Pr(employ=1,attend=1) (predict, p11) = .40060938------------------------------------------------------------------------------variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X

+---------+--------------------------------------------------------------------age | .3309435 .01684 19.66 0.000 .297946 .363941 10.5481age2 | -.0122512 .00079 -15.43 0.000 -.013807 -.010695 116.384

female*| -.0023253 .0071 -0.33 0.743 -.016249 .011599 .489834heduc | .0059911 .00497 1.21 0.228 -.003746 .015729 2.11352

------------------------------------------------------------------------------

P ( l 0 tt d 0) ( di t 00) 06970771y = Pr(employ=0,attend=0) (predict, p00) = .06970771------------------------------------------------------------------------------variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X---------+--------------------------------------------------------------------

age | -.1941151 .00712 -27.28 0.000 -.208062 -.180168 10.5481age2 | .0082628 .00033 24.76 0.000 .007609 .008917 116.384

female*| .0064337 .00289 2.23 0.026 .000778 .01209 .489834h d | 0416734 00213 19 56 0 000 045849 037498 2 11352

34

heduc | -.0416734 .00213 -19.56 0.000 -.045849 -.037498 2.11352------------------------------------------------------------------------------(*) dy/dx is for discrete change of dummy variable from 0 to 1

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Modelo Logit Multinomial

Considérese que quiere estudiarse cómo distribuyen el tiempo los niños entre diversas elecciones no ordenadas

Actividades: 1=sólo trabajo,2: sólo estudio, 3=estudio y trabajo, 4= ningunaEn general el modelo Logit Multinomial puede aplicarse a elecciones noEn general el modelo Logit Multinomial puede aplicarse a elecciones no-ordenadas y mutuamente excluyentes.Sea X un conjunto de regresores

Re-etiquetando las elecciones desde 0, el modelo Logit Multinomial relativo se define como:se define como:

1,2,3,0j, )(Pr 3'

'

===

∑ x

x

i

ijejYobβ

β

350∑=K

xikeβ

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Modelo Logit Multinomial

La ecuación estimada provee un conjunto de probabilidades para las j+1 elecciones de las niños con características Xjj+1 elecciones de las niños con características Xj.

xij'β

∑=

+== j

xik

ij

e

ejY'

j1,2,...,jfor 1

)(Probβ

β

∑=

==

k

Y

1

1)0(Prob∑=

+== j

k

xikeY

1

'

1)0(Prob

β

36

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Modelo Logit Multinomial

El modelo permite calcular j ratios log-odds para una variable categórica con j categorias y baseline j=0

ijij x

PP 'ln β=⎥⎦

⎤⎢⎣

⎡j

iP0⎥⎦

⎢⎣

Normalizando cualquier otra probabilidad, se obtiene

)(ln 'kji

ij xPP

ββ −=⎥⎦

⎤⎢⎣

37

ikP ⎦⎣

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Modelo Logit Multinomial

Se define para cada individuo dij=1 si la alternativa j es elegida por el individuo i, y dij=0 en caso contrario para los j+1 posibles resultados. Para cada i, únicamente una de las actividades dij puede ser igual a 1las actividades dij puede ser igual a 1.

L f ió l d i ilit d d fi t lLa función log de verosimilitud se define tal que:

∑∑n J

∑∑= =

==i

ij

jYdijL1 0

)(Problnln

38

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Multinomial logistic regression Number of obs = 17706

LR chi2(12) = 3703.19

Prob > chi2 = 0.0000

Log likelihood = -18278.948 Pseudo R2 = 0.0920activity Coef. Std. Err. z P>z [95% Conf. Interval]work onlyyage -1.658 0.144 -11.5 0.00 -1.940 -1.376age2 0.088 0.007 13.0 0.00 0.074 0.101female 0.195 0.062 3.1 0.00 0.073 0.316heduc -0.916 0.046 -20.0 0.00 -1.006 -0.827_cons 7.177 0.744 9.7 0.00 5.720 8.634work and studyage 0.832 0.087 9.6 0.00 0.662 1.003age2 -0.026 0.004 -6.5 0.00 -0.034 -0.018female -0.003 0.034 -0.1 0.92 -0.070 0.063heduc -0.197 0.024 -8.3 0.00 -0.244 -0.150_cons -5.419 0.460 -11.8 0.00 -6.320 -4.518nothingage 2 297 0 138 16 6 0 00 2 568 2 026age -2.297 0.138 -16.6 0.00 -2.568 -2.026age2 0.098 0.007 14.3 0.00 0.084 0.111female 0.023 0.058 0.4 0.69 -0.090 0.136heduc -0.816 0.042 -19.5 0.00 -0.898 -0.734

cons 12 575 0 676 18 6 0 00 11 249 13 900

39

_cons 12.575 0.676 18.6 0.00 11.249 13.900(Outcome activity==study only is the comparison group)

Niños de 7-14, Cambodia SIMPOC, 1999

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Marginal effects after Multinomial Logit Estimationy = Pr(activity==1) (predict, outcome(1))= .06534961y y p

------------------------------------------------------------------------------variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X

---------+--------------------------------------------------------------------age | -.1139782 .00842 -13.53 0.000 -.13049 -.097466 10.5481age2 | .0056507 .00039 14.43 0.000 .004883 .006418 116.384

female*| .01192 .00364 3.27 0.001 .004786 .019054 .489834heduc | -.04741 .00248 -19.10 0.000 -.052275 -.042545 2.11352

------------------------------------------------------------------------------

y = Pr(activity==2) (predict, outcome(2)) = .46563439------------------------------------------------------------------------------variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X

---------+--------------------------------------------------------------------age | -.0401039 .01932 -2.08 0.038 -.077977 -.00223 10.5481age2 | -.0005047 .00091 -0.55 0.579 -.002287 .001278 116.384

female*| -.0059461 .0078 -0.76 0.446 -.021236 .009344 .489834heduc | .0889259 .00546 16.30 0.000 .078233 .099618 2.11352

------------------------------------------------------------------------------

y = Pr(activity==3) (predict, outcome(3))= .40642869------------------------------------------------------------------------------variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X

---------+--------------------------------------------------------------------age | .3032122 .01976 15.35 0.000 .264485 .34194 10.5481age2 | -.0111858 .00092 -12.19 0.000 -.012985 -.009387 116.384

female*| -.0066111 .00776 -0.85 0.394 -.021816 .008594 .489834heduc | -.0023793 .00539 -0.44 0.659 -.01295 .008192 2.11352

------------------------------------------------------------------------------

y = Pr(activity==4) (predict, outcome(4))= .06258731------------------------------------------------------------------------------variable | dy/dx Std. Err. z P>|z| [ 95% C.I. ] X

---------+--------------------------------------------------------------------age | -.1491301 .00862 -17.29 0.000 -.166033 -.132227 10.5481age2 | .0060398 .00042 14.37 0.000 .005216 .006864 116.384

40

female*| .0006371 .00329 0.19 0.847 -.005815 .007089 .489834heduc | -.0391366 .00235 -16.67 0.000 -.043738 -.034535 2.11352

------------------------------------------------------------------------------(*) dy/dx is for discrete change of dummy variable from 0 to 1

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Modelo probit OrdenadoAlgunas variables de elección multinomial están inherentemente gordenadas.Para analizar este tipo de variables se usa un modelo logit o probit ordenadoordenado.El modelo se construye entorno a una regresión latente como en el modelo probit binomial. De tal forma que:

*

'*

0yif0:observe we

+= εβ

yxy

*1

*

if2

y0 if 10yif0≤<=

≤=

µyy

2*

1

.yif2 ≤<= µµy

41*

1-j y if .

≤= µjy

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Modelo probit ordenado

)()0P b( 'βΦ

Dado este mecanismo de observaciones, la probabilidad de cada categoría viene dada por

)()()1Prob( )()0Prob(

''

''1 xxy

xyββµ

β

−Φ−−Φ==

−Φ==

.)()()2Prob( '

1'

2 xxy βµβµ −Φ−−Φ==

)(1)Prob(.

'1 xJy j βµ −Φ−== −

0 <<<<Para que todas las probabilidades sean positivas se debe cumplir

42

121 ........0 −<<<< jµµµ

TALLER INTERNACIONAL “CREANDO CAPACIDAD NACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOSNACIONAL EN LA RECOLECCIÓN Y ANÁLISIS DE DATOS

SOBRE TRABAJO INFANTIL

Estimaciones probit ordenado Number of obs = 6204LR chi2(7) = 132.60Prob > chi2 = 0.0000

Log likelihood = -5152.0213 Pseudo R2 = 0.0127

Most serious illness Coef. Std. Err. z P>z [95% Conf. Interval]

Educ. Level -0.0245 0.0335 -0.73 0.465 -0.0902 0.0412Female -0.0618 0.0312 -1.98 0.048 -0.1230 -0.0005Age 0.0078 0.0415 0.19 0.851 -0.0736 0.0892Age2 0.0008 0.0017 0.51 0.611 -0.0024 0.0041working hours 0.0031 0.0011 2.89 0.004 0.0010 0.0053Ln expenditure 0.1093 0.0205 5.32 0.000 0.0691 0.1495Rural residence 0.2619 0.0337 7.78 0.000 0.1959 0.3279

_cut1 1.9707 0.3328 (Ancillary parameters)_ ( y p )_cut2 3.0902 0.3340_cut3 4.0758 0.3376_cut4 5.0242 0.3833

t5 5 2014 0 4181

43

_cut5 5.2014 0.4181