13. modelos economÉtricos con regresada cualitativa€¦ · 13. modelos economÉtricos con...
Post on 03-Oct-2020
2 Views
Preview:
TRANSCRIPT
13. MODELOS ECONOMÉTRICOS CON
REGRESADA CUALITATIVA
En este capítulo se examinan modelos de regresión donde la variable endógena es de
característica cualitativa, los denominados modelos de elección discreta o modelos de datos
categóricos. En ellos, la regresora cualitativa puede estar a escala nominal o a escala ordinal.
En el primer caso, si sólo admite dos alternativas dos categorías, para ser más preciso, se
procede a construir y analizar un modelo de elección binomial (binary choice models),
mientras que si admite más de dos alternativas se procede con un modelo de elección
multinomial).
Por su parte, en el apartado 13.3 se analizan modelos asociados al segundo caso; dentro
de ellos, se desarrolla un grupo de modelos en el que la regresora es del tipo de cuenta: los
modelos para conteos (models for counts of events, en inglés) o modelos para datos de
cuenta.
Para un recorrido histórico de la evolución de los métodos para el análisis de datos
categóricos, véase el capítulo 11 de Agresti (2007) o el capítulo 16 de Agresti (2002).
13.1 MODELOS DE ELECCIÓN BINOMIAL
Hay dos enfoques teóricos que sirven para derivar y desarrollar los binary choice models:
el modelo de utilidad aleatoria (RUM, por sus siglas en inglés) y el modelo de variables
latentes.
En el primer enfoque, se supone que el decisor racional 𝑖 debe elegir entre dos opciones
excluyentes, 𝑎 y 𝑏, aquella que le provea una mayor utilidad. Si 𝑈𝑎𝑖 y 𝑈𝑏𝑖 son las utilidades de
esas dos alternativas, éstas pueden ser una función lineal de factores observables y no
observables:
𝑈𝑎𝑖 = 𝐰′𝛃𝑎 + 𝐳𝑎′ 𝛄𝑎 + 𝑢𝑎𝑖
𝑈𝑏𝑖 = 𝐰′𝛃𝑏 + 𝐳𝑏′ 𝛄𝑏 + 𝑢𝑏𝑖 (𝟏𝟑. 𝟏. 𝟏)
donde 𝐰 es el vector de características observables y medibles de los decisores; 𝐳𝑎 y 𝐳𝑏 denotan
atributos específicos de las dos elecciones; 𝑢𝑎 y 𝑢𝑏 son elementos estocásticos conocido sólo
por los agentes decisores mas no por el investigador. Suponiendo que 𝑌𝑖 = 1 indica la elección
por parte del decisor de la alternativa 𝑎 y 𝑌𝑖 = 0 la elección de la alternativa 𝑏; es decir,
𝑌𝑖 = {1, 𝑠𝑖 𝑈𝑎𝑖 > 𝑈𝑏𝑖
0, 𝑠𝑖 𝑈𝑎𝑖 < 𝑈𝑏𝑖
se tiene:
𝑃(𝑌𝑖 = 1|𝐰, 𝐳𝑎 , 𝐳𝑏) = 𝑃(𝑈𝑎𝑖 > 𝑈𝑏𝑖)
= 𝑃[𝐰′𝛃𝑎 + 𝐳𝑎′ 𝛄𝑎 + 𝑢𝑎𝑖 − (𝐰′𝛃𝑏 + 𝐳𝑏
′ 𝛄𝑏 + 𝑢𝑏𝑖) > 0|𝐰, 𝐳𝑎, 𝐳𝑏]
= 𝑃[𝐰′(𝛃𝑎 − 𝛃𝑏) + 𝐳𝑎′ 𝛄𝑎 − 𝐳𝑏
′ 𝛄𝑏 + (𝑢𝑎𝑖 − 𝑢𝑏𝑖) > 0|𝐰, 𝐳𝑎, 𝐳𝑏]
= 𝑃[𝐱′𝛃 + 𝜀𝑖 > 0|𝐱] (𝟏𝟑. 𝟏. 𝟐)
donde 𝐱′𝛃 recoge todos los elementos observables de la diferencia de las dos funciones de
utilidad y 𝜀𝑖 recoge las diferencias entre los elementos aleatorios, cuya función de distribución
asociada determinará el tipo de modelo a estimar.
El segundo enfoque supone modelar una regresión latente lineal,
𝑌𝑖∗ = 𝐱𝑖
′𝛃 + 𝑢𝑖 (𝟏𝟑. 𝟏. 𝟑)
donde 𝑌𝑖∗ es una variable latente (inobservable) que genera las 𝑌𝑖 observables y 𝐱𝑖
′𝛃 recibe el
nombre de función índice. La idea de una variable latente ese puede ilustrar con un individuo
que consume drogas (𝑌 = 1) o no (𝑌 = 0), dependiendo, por ejemplo, de su edad (que
supuestamente sería inobservable). La propensión a consumir drogas se reduciría a medida que
pasan los años; por lo que alcanzado un año determinado (cuando pasa los 50 años), el individuo
dejaría las drogas y pasaría de 1 a 0. Es decir, 𝑌𝑖∗ con rango de variación supuesto ∞ < 𝑌𝑖
∗ < ∞,
está asociada con 𝑌𝑖 a través de la ecuación
𝑌𝑖 = {1, 𝑠𝑖 𝑌𝑖
∗ > 𝜑
0, 𝑠𝑖 𝑌𝑖∗ ≤ 𝜑
siendo 𝜑 el umbral o threshold. Cuando la variable latente traspasa el umbral, la variable
observable cambia de 1 a 0 o viceversa. En el caso particular de que 𝜑 = 0, la probabilidad de
que 𝑌𝑖 = 1 será
𝑃(𝑌𝑖 = 1|𝐱) = 𝑃(𝑌𝑖∗ > 0|𝐱)
= 𝑃(𝐱𝑖′𝛃 + 𝑢𝑖 > 0|𝐱)
= 𝑃(−𝑢𝑖 ≤ 𝐱𝑖′𝛃)
= 𝐹(𝐱𝑖′𝛃) (𝟏𝟑. 𝟏. 𝟒)
donde 𝐹(𝑡) representa la función de distribución acumulada de −𝑢𝑖 o, en el caso de que se
trate de una distribución simétrica, de 𝑢𝑖. El supuesto de distribución de esta última, como en
el anterior enfoque, determinará el tipo de modelo a estimar.
Perciba que los resultados finales de ambos enfoques son parecidos, razón por la cual, de
una u otra forma, justifican la existencia de los modelos de elección discreta.
MODELO LINEAL DE PROBABILIDAD (MLP)
El linear probability model utiliza una variable cualitativa binaria (con sólo dos
categorías) como regresora. Considérese el modelo lineal
𝑌𝑖 = 𝐱𝑖′𝛃 + 𝑢𝑖 , 𝑖 = 1, … , 𝑛 (𝟏𝟑. 𝟏. 𝟓)
donde 𝑌𝑖 es la observación de la variable dependiente en el periodo 𝑖 que adopta el valor 1 si
el evento sucede y 0 en caso contrario, 𝐱𝑖′ es el 𝑖-ésimo vector fila de regresores fijos y 𝑢𝑖 es el
término de error. Dado que 𝐸(𝑢𝑖) = 0, se tiene
𝐸(𝑌𝑖|𝐱𝒊) = 𝐱𝑖′𝛃 (𝟏𝟑. 𝟏. 𝟔)
Esta esperanza condicional puede interpretarse como la probabilidad condicional de que
el evento 𝑌𝑖 ocurre o no ocurre, dado el vector 𝐱𝒊; de ahí el nombre de modelos de probabilidad
(lineal en este caso). Si 𝑃(𝑌𝑖 = 1|𝐱𝒊) representa la probabilidad de que el suceso ocurre y 1 −
𝑃(𝑌𝑖 = 1|𝐱𝒊) representa la probabilidad de que el suceso no ocurre, entonces, 𝑌𝑖 seguirá una
distribución de probabilidad de Bernoulli:
𝒀𝒊 PROBABILIDAD
1 𝑃(𝑌𝑖 = 1|𝐱𝒊)
0 1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)
Total 1
Por definición de la esperanza matemática, se puede deducir que 𝐸(𝑌𝑖) = 1[𝑃(𝑌𝑖 = 1|𝐱𝒊)] +
0[1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)] = 𝑃(𝑌𝑖 = 1|𝐱𝒊). Así,
𝐸(𝑌𝑖|𝐱𝒊) = 𝑃(𝑌𝑖 = 1|𝐱𝒊) = 𝐱𝑖′𝛃 (𝟏𝟑. 𝟏. 𝟕)
Puesto que una probabilidad está limitado al intervalo 0 ≤ 𝑃(𝑌𝑖 = 1|𝐱𝒊) ≤ 1, de (13.1.7) se
tiene la restricción 0 ≤ 𝐸(𝑌𝑖|𝐱𝑖) ≤ 1; es decir, la esperanza condicional (o probabilidad
condicional) debe estar entre 0 y 1.
Problemas del MLP
No normalidad de los errores
El supuesto de normalidad para 𝑢𝑖 ya no se conserva en los MLP porque, al igual que 𝑌𝑖, 𝑢𝑖
sólo toma dos valores; es decir, también sigue la distribución de Bernoulli:
Tabla ¡Error! No hay texto con el estilo especificado en el documento.-1
Para propósitos de estimación, la normalidad de los errores se puede omitir, por lo que la
estimación del MLP por MCO sería viable, lográndose en tal sentido estimadores insesgados. Sin
embargo, para fines de inferencia estadística puede demostrarse mediante el teorema del
límite central que, conforme el tamaño de la muestra aumenta indefinidamente, los
estimadores MCO tienden a tener una distribución normal (véase Malinvaud, 1966). En tal
sentido, este problema no resulta ser muy restrictivo.
Varianzas heteroscedásticas de los errores
Aunque 𝐸(𝑢𝑖) = 0 y 𝑐𝑜𝑣(𝑢𝑖 , 𝑢𝑗) = 0 para 𝑖 ≠ 𝑗, los errores presentan heteroscedasticidad.
Esto se puede demostrar fácilmente teniendo en cuanta la distribución de probabilidades de
𝒖𝒊 PROBABILIDAD
Si 𝑌𝑖 = 1 1 − 𝐱𝑖′𝛃 𝑃(𝑌𝑖 = 1|𝐱𝒊)
Si 𝑌𝑖 = 𝑂 −𝐱𝑖′𝛃 1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)
Total 1
los errores (Tabla ¡Error! No hay texto con el estilo especificado en el documento.-1) y la definición
de la varianza:
𝑣𝑎𝑟(𝑢𝑖) = [𝑃(𝑌𝑖 = 1|𝐱𝒊)](1 − 𝐱𝑖′𝛃)2 + [1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)](−𝐱𝑖
′𝛃)2
= [𝑃(𝑌𝑖 = 1|𝐱𝒊)][1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)]2 + [1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)][−𝑃(𝑌𝑖 = 1|𝐱𝒊)]2
𝑣𝑎𝑟(𝑢𝑖) = 𝑃(𝑌𝑖 = 1|𝐱𝒊)[1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)] (𝟏𝟑. 𝟏. 𝟖)
En (13.1.8) la varianza de los errores depende de los valores de 𝐱, por lo que la presencia
de heteroscedasticidad es incuestionable y, como consecuencia, los estimadores de MCO serán
ineficientes. Una forma de resolver el problema de heteroscedasticidad (Gujarati, 2010) es
transformar el modelo (13.1.5) dividiendo a ambos lados 𝜎𝑢𝑖; es decir, aplicar el método
Mínimos Cuadrados Ponderados (MPC). Por la ecuación (13.1.8) se sabe que 𝜎𝑢𝑖=
√𝑃(𝑌𝑖 = 1|𝐱𝒊)[1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)] = √𝐱𝑖′𝛃(𝟏 − 𝐱𝑖
′𝛃) y permitiendo que 𝜎𝑢𝑖= 𝑧𝑖, se tiene:
𝑌𝑖
𝑧𝑖
= 𝛽1
1
𝑧𝑖
+ 𝛽2
𝑋2𝑖
𝑧𝑖
… + 𝛽𝑘
𝑋𝑘𝑖
𝑧𝑖
+𝑢𝑖
𝑧𝑖
(𝟏𝟑. 𝟏. 𝟗)
En la práctica, se desconoce la verdadera 𝐸(𝑌𝑖|𝐱𝑖) y en consecuencia, se desconocen las
ponderaciones 𝑤𝑖. Usando información muestral se puede estimar 𝐸(𝑌𝑖|𝐱𝑖) con �̂�𝑖, que no es
otra cosa que la probabilidad condicional estimada de que ocurra el suceso 𝑌𝑖. Si �̂�𝑖 estima a la
verdadera empero desconocida 𝑃𝑖, o lo que es lo mismo que �̂�𝑖 estima a 𝐸(𝑌𝑖|𝐱𝑖), entonces
�̂�𝑢𝑖= 𝑧𝑖 = √�̂�𝑖(1 − �̂�𝑖) = √�̂�𝑖(1 − �̂�𝑖) (𝟏𝟑. 𝟏. 𝟏𝟎)
𝑌𝑖
�̂�𝑖
= 𝛽1
1
�̂�𝑖
+ 𝛽2
𝑋2𝑖
�̂�𝑖
… + 𝛽𝑘
𝑋𝑘𝑖
�̂�𝑖
+𝑢𝑖
�̂�𝑖
(𝟏𝟑. 𝟏. 𝟏𝟏)
Perciba que 𝑢𝑖 ahora son homoscedásticos pues se encuentran estandarizados.
Por simplicidad, esta última ecuación pude quedar especificada como
𝑌𝑖∗ = �̂�1
∗ + �̂�2∗𝑋2𝑖
∗ + ⋯ + �̂�𝑘∗𝑋𝑘𝑖
∗ + �̂�𝑖∗ (𝟏𝟑. 𝟏. 𝟏𝟐)
donde las variables en asterisco están ponderadas por �̂�𝑖 y los betas en asterisco son
los estimadores de MCP.
No cumplimiento de la restricción 0 ≤ 𝐸(𝑌𝑖|𝐱𝑖) ≤ 1
Empíricamente, no se espera que �̂�𝑖 siempre se encuentre entre 0 y 1 debido a que MCO
no admite la restricción de desigualdad. Hay dos formas de establecer que �̂�𝑖 se encuentre
entre 0 y 1. Una de ellas es estimar el MLP mediante el método usual MCO y cambiar aquellos
valores de �̂�𝑖 que no se encuentran entre 0 y 1 (ver aporte adjunto). El segundo consiste en
diseñar un mecanismo que garantice que las probabilidades condicionales estimadas �̂�𝑖 se
encuentren entre 0 y 1: los modelos logit y probit.
Otros problemas
Aporte
Para evitar la pérdida
de grados de libertad,
podemos dejar que
�̂�𝑖 = 0.01 cuando los
�̂�𝑖 sean negativos o
iguales a cero y �̂�𝑖 =
0.99 cuando superen o
igualen a 1.
El R-cuadrado calculado, a menudo, se encuentra subestimado. Esto se puede verificar
graficando el diagrama de dispersión del modelo estimado, el cual deja entrever que los datos
se encuentran ubicados en 1 o en 0 más no a lo a lo largo de la línea de regresión.
Por último, Long (1997) admite que el mayor problema del MLP es su forma funcional.
Puesto que el modelo es lineal, un incremento unitario en 𝑋𝑘 resulta en un cambio constante
de 𝛽𝑘 (manteniendo constante el resto de factores), independientemente del valor que admite
𝑋𝑘. Esto, muchas veces, no es loable.
(Fichero mlp.wf1)
Para ejemplificar todo acerca del MLP se considera los datos facilitados por PROÉTICA, los
cuales corresponden a la VII Encuesta Nacional sobre percepciones de la corrupción en el Perú
2012, ejecutada por IPSOS Apoyo. De las 5914 encuestas, aquí solo se considera 5217, puesto
que se omitieron aquellas en las que la variable dependiente estaba asociada a la categoría
“indeciso”. Así, se tiene
𝑌𝑖 = 𝛽1 + 𝛽2𝑚𝑎𝑠𝑐𝑖 + 𝛽3𝑟𝑒𝑔𝑐𝑖 + 𝛽2𝑟𝑒𝑔𝑠𝑖 + 𝑢𝑖
donde 𝑌𝑖 = 1 si la persona aprueba la gestión de Ollanta Humala como presidente de la
República y 𝑌𝑖 = 0 si la persona desaprueba dicha gestión, 𝑚𝑎𝑠𝑐 es una dummy que admite 1 si
el individuo es masculino y 0 si es femenino, 𝑟𝑒𝑔𝑐 y 𝑟𝑒𝑔𝑠 son también variables dummy donde
𝑟𝑒𝑔𝑐𝑖 = {1, 𝑠𝑖 𝑒𝑙 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜 𝑖 𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑖ó𝑛 𝑐𝑜𝑠𝑡𝑎0, 𝑒𝑛 𝑜𝑡𝑟𝑜𝑠 𝑐𝑎𝑠𝑜𝑠
𝑟𝑒𝑔𝑠𝑖 = {1, 𝑠𝑖 𝑒𝑙 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜 𝑖 𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑖ó𝑛 𝑠𝑖𝑒𝑟𝑟𝑎0, 𝑒𝑛 𝑜𝑡𝑟𝑜𝑠 𝑐𝑎𝑠𝑜𝑠
Evidentemente, se omitieron las categorías femenino y región selva para evitar la trampa de
la variable dicotómica. Los resultados de aplicar MCO al modelo anterior en el paquete Eviews
se muestran en la Tabla ¡Error! No hay texto con el estilo especificado en el documento.-2.
Tabla ¡Error! No hay texto con el estilo especificado en el documento.-2
Aplicativo 13-1
La tabla anterior indica que las variables son significativas tanto a nivel individual como a nivel
global, aunque hay problemas con el R-cuadrado. El coeficiente de la variable masc (0.058)
mide la diferencia en la probabilidad de aprobar la gestión de Humala como Presidente entre
varones y mujeres, independientemente de la región de procedencia (Se deja para el lector
identificar qué es lo que mide el intercepto del modelo anterior).
Veamos si la estimación verifica los problemas de un MLP: i) la muestra es relativamente grande
por lo que los errores se distribuirán como una normal (más adelante se desarrollará pruebas
estadísticas formales para ello), ii) es posible que haya heteroscedasticidad en el modelo, iii)
cada una de las probabilidades estimadas cumplen la restricción 0 ≤ �̂�𝑖 ≤ 1, iv) el R-cuadrado
es muy pequeño y, v) la forma funcional es incorrecta (la Gráfica ¡Error! No hay texto con el
estilo especificado en el documento..1 es un ejemplo de cómo se ajustan los datos a la línea de
regresión cuando la variable 𝑌 es binaria).
Gráfica ¡Error! No hay texto con el estilo especificado en el documento..1
La corrección del segundo problema pasa por aplicar MCP. La Tabla ¡Error! No hay texto con el
estilo especificado en el documento.-3 muestra los nuevos resultados.
Tabla ¡Error! No hay texto con el estilo especificado en el documento.-3
En esta última tabla, los errores estándar son menores, algo provechoso al momento de hacer
inferencia.
MODELO LOGIT
Recuerde que
𝑃(𝑌𝑖 = 1|𝐱𝒊) = 𝐹(𝐱𝑖′𝛃) (𝟏𝟑. 𝟏. 𝟒)
donde 𝐹(𝐱𝑖′𝛃) representa la fda de 𝑢𝑖; es decir, 𝑃(𝑢𝑖 ≤ 𝐱𝑖
′𝛃). El problema en esta parte, tal y
como lo expone Greene (2012), está en seleccionar un modelo adecuado para el lado derecho
de la ecuación (13.1.4) y, que esté acotado necesariamente entre cero y uno. Como muy bien
lo señala Verbeek (2004), parece muy natural que 𝐹 sea una función de distribución (¿por
qué?). Una de las funciones que cumple estos requisitos es la función de distribución logística,
la misma que da lugar a los modelos logit. (Perciba que si 𝐹(𝐱𝑖′𝛃) = 𝐱𝑖
′𝛃, es decir, si está
asociado a un modelo de regresión lineal, se alcanza el MLP).
Desde la óptica de los modelos de probabilidad (no lineales), la especificación de la función
de distribución acumulada logística (simétrica, por definición) está dada por
𝑃(𝑌𝑖 = 1|𝐱𝒊) =𝑒𝐱𝑖
′𝛃
1 + 𝑒𝐱𝑖′𝛃
= 𝐹(𝐱𝑖′𝛃) (𝟏𝟑. 𝟏. 𝟏𝟑)
donde se supone que los errores siguen una distribución logística estándar con 𝐸(𝑢𝑖|𝐱𝒊) = 0 y
𝑣𝑎𝑟(𝑢𝒊|𝐱𝒊) = 𝜋2/3 ≅ 3.29. Dado que 𝑃(𝑌𝑖 = 1|𝐱𝒊) = 𝐸(𝑌𝑖|𝐱𝒊), queda para el lector plantear el
modelo econométrico con la fda logística. La Gráfica ¡Error! No hay texto con el estilo especificado
en el documento..2 muestra el bosquejo de la función (13.1.13) que ajusta los datos de manera
no lineal, resolviéndose así otro de los problemas del MLP, donde se verifica
𝑙𝑖𝑚𝐱′𝛃→−∞
𝑃(𝑌𝑖 = 1|𝐱𝒊) = 0
𝑙𝑖𝑚𝐱′𝛃→+∞
𝑃(𝑌𝑖 = 1|𝐱𝒊) = 1 (𝟏𝟑. 𝟏. 𝟏𝟒)
Gráfica ¡Error! No hay texto con el estilo especificado en el documento..2
De forma similar que en los modelos lineales, resulta interesante determinar el cambio
marginal de un regresor sobre la variable dependiente en modelos de elección binaria. En ese
sentido, el cambio parcial en la probabilidad o efecto marginal en (13.1.13) vendrá dado por
0
1
𝑌
𝑋
𝜕𝐹(𝐱𝑖
′𝛃)
𝜕𝑋𝑗
=𝑑𝐹(𝐱𝑖
′𝛃)
𝑑𝐱𝑖′𝛃
𝜕(𝐱𝑖′𝛃)
𝜕𝑋𝑗
= 𝑓(𝐱𝑖′𝛃)𝛽𝑗 =
𝑒𝐱𝑖′𝛃
(1 + 𝑒𝐱𝑖′𝛃)
2 𝛽𝑗 , 𝑗 = 1, … , 𝑘 (𝟏𝟑. 𝟏. 𝟏𝟓)
donde 𝑓(𝐱𝑖′𝛃) es la fdp logística y, se puede demostrar que
𝑓(𝐱𝑖′𝛃)𝛽𝑗 = 𝐹(𝐱𝑖
′𝛃)[1 − 𝐹(𝐱𝑖′𝛃)]𝛽𝑗 (𝟏𝟑. 𝟏. 𝟏𝟔)
Si se resta la unidad a ambos miembros del modelo (13.1.13), se logra la probabilidad de
fracaso; es decir,
1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊) = 1 −𝑒𝐱𝑖
′𝛃
1 + 𝑒𝐱𝑖′𝛃
1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊) =1
1 + 𝑒𝐱𝑖′𝛃
(𝟏𝟑. 𝟏. 𝟏𝟕)
Al cociente de las probabilidades de las ecuaciones (13.1.13) y (13.1.17) se denomina
razón de probabilidades (odds ratio),
𝑃(𝑌𝑖 = 1|𝐱𝒊)
1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)= 𝑒𝐱𝑖
′𝛃 (𝟏𝟑. 𝟏. 𝟏𝟖)
la cual se interpreta como el número de casos en favor de éxitos frente al de fracasos. Si se
aplica logaritmo neperiano a ambos miembros de esta última expresión se logra la
transformación logística o link function, una forma lineal del modelo logit:
𝐿𝑖 = 𝑙𝑛 (𝑃(𝑌𝑖 = 1|𝐱𝒊)
1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)) = 𝐱𝑖
′𝛃 (𝟏𝟑. 𝟏. 𝟏𝟗)
donde 𝐿 se conoce como logit, razón por la cual tiene por nombre el modelo bajo análisis. La
estimación de modelos de probabilidad no lineal como (13.1.19) pasa por identificar la
estructura de datos disponible: datos agrupados o datos no agrupados.
Datos de nivel individual (no agrupados)
En este contexto, la estimación por MCO o MCP no es posible ya que si se reemplaza en el
logit las probabilidades de éxito (1) o fracaso (0), se conseguirá expresiones irrelevantes:
𝐿𝑖 = 𝐿𝑛 (1
0) ; 𝐿𝑖 = 𝐿𝑛 (
0
1)
Así pues, es preferible usar el método de Máxima Verosimilitud, MV [otros métodos puede
encontrarlos en Hosmer & Lemechow (2000, pp. 21-23)]. Suponiendo que los datos observados
corresponden a una muestra aleatoria de tamaño 𝑛 y 𝑓(𝑌𝑖|𝛃) es la función de densidad de
probabilidad que denota la probabilidad de que la v.a 𝑌𝑖 es igual a 1 o 0, dado un conjunto de
parámetros 𝛃. Puesto que dicha v.a sigue una distribución binomial, la contribución a la función
de verosimilitud de la observación 𝑖 estará dada a través de la expresión
𝑃(𝑌𝑖 = 1|𝐱𝒊)𝑌𝑖[1 − 𝑃(𝑌𝑖 = 1||𝐱𝒊)]1−𝑌𝑖 , 𝑖 = 1, … , 𝑛 (𝟏𝟑. 𝟏. 𝟐𝟎)
Si se asume que las observaciones son i.i.d., la densidad conjunta es obtenida como el
producto de los 𝑛 términos dados en (13.1.20):
𝑓(𝑌1, … , 𝑌𝑛|𝛃) = ∏ 𝑃(𝑌𝑖 = 1|𝐱𝒊)𝑌𝑖[1 − 𝑃(𝑌𝑖 = 1||𝐱𝒊)]1−𝑌𝑖
𝑛
𝑖=1
(𝟏𝟑. 𝟏. 𝟐𝟏)
o
𝑓(𝑌1, … , 𝑌𝑛|𝛃) = ∏[𝐹(𝐱𝒊′𝛃)]𝑌𝑖[1 − 𝐹(𝐱𝒊
′𝛃)]1−𝑌𝑖
𝑛
𝑖=1
(𝟏𝟑. 𝟏. 𝟐𝟐)
La densidad conjunta es justamente la función de verosimilitud (FV), 𝐿(𝛃|𝐱𝒊; 𝐲). Si se le aplica
logaritmo neperiano a (13.1.21) se logra la función log de verosimilitud (FLV). McFadden (1984)
deriva una función log de verosimilitud normalizada; es decir, FLV dividida por 𝑛. Dada su
similitud de ambas funciones, aquí se muestra la primera:
ln 𝐿(𝛃|𝐱𝒊; 𝐲) = ∑ 𝑌𝑖 ln(𝑌𝑖 = 1|𝐱𝒊) + (1 − 𝑌𝑖) ln[1 − 𝑃(𝑌𝑖 = 1||𝐱𝒊)]
𝑛
𝑖=1
(𝟏𝟑. 𝟏. 𝟐𝟏′)
o
ln 𝐿(𝛃|𝐱𝒊; 𝐲) = ∏ 𝑌𝑖 ln 𝐹(𝐱𝒊′𝛃) + (1 − 𝑌𝑖) ln[1 − 𝐹(𝐱𝒊
′𝛃)]
𝑛
𝑖=1
(𝟏𝟑. 𝟏. 𝟐𝟐′)
Si a (13.1.22’) se le aplica el principio de maximización, las condiciones de primer orden
(calificada como ecuación de verosimilitud) estarán dadas por
∂ ln 𝐿(𝛃|𝐱𝒊; 𝐲)
∂𝛃= ∑ [
𝑌𝑖
𝐹(𝐱𝒊′𝛃)
−(1 − 𝑌𝑖)
1 − 𝐹(𝐱𝒊′𝛃)
]
𝑛
𝑖=1
𝑓𝑖𝐱𝒊 = 𝟎 (𝟏𝟑. 𝟏. 𝟐𝟑)
∂ ln 𝐿(𝛃|𝐱𝒊; 𝐲)
∂𝛃= ∑ {
𝑌𝑖 − 𝐹(𝐱𝒊′𝛃)
𝐹(𝐱𝒊′𝛃)[1 − 𝐹(𝐱𝒊
′𝛃)]}
𝑛
𝑖=1
𝑓𝑖𝐱𝒊 = 𝟎 (𝟏𝟑. 𝟏. 𝟐𝟒)
donde 𝑓𝑖 es la función de densidad de probabilidad, 𝑑𝐹(𝐱𝒊′𝛃)/𝑑(𝐱𝒊
′𝛃); y además, la condición de
segundo orden (la matriz Hessiano, 𝑯, es definida negativa) comprobará si los estimadores de
MV obtenidos, �̃�, realmente maximizan la FLV. Si se reemplaza (13.1.13) y (13.1.17) en
(13.1.24), las CPO asociadas al modelo logit estarán representadas por:
∂ ln 𝐿(𝛃|𝐱𝒊; 𝐲)
∂𝛃= ∑[𝑌𝑖 − 𝐹(𝐱𝒊
′𝛃)]𝐱𝒊
𝑛
𝑖=1
= 𝟎 (𝟏𝟑. 𝟏. 𝟐𝟓)
En la sección 9.1, la solución al modelo se encontraba resolviendo algebraicamente las
CPO que maximizan la FV o FLV; sin embargo, en modelos no lineales no ocurre lo mismo tal
como se puede evidenciar en (13.1.24). A decir verdad, para encontrar �̃� se requiere de
métodos numéricos (Newton-Raphson, scoring, BHHH, entre otros), cuyos detalles sobre
éstos y otros métodos puede encontrarlos, por ejemplo, en Long (1997) o Greene (2012).
Recuerde que en la estimación de MV, tal como detalla Long (1997), las propiedades de
consistencia, normalidad y eficiencia son deseables asintóticamente. De ahí que sería riesgoso
emplear MV con un tamaño de muestra menor a 100, mientras que una muestra de tamaño 500
luciría adecuado. Específicamente,
Esos valores podrían ser riesgosos dependiendo de las características del modelo y los
datos. Primero, si hay un gran número de parámetros en el modelo, son necesarias más
observaciones... Segundo, si los datos están mal condicionados... o si hay poca variación
en la variable dependiente..., es necesario una muestra grande... (Long, 1997, págs.
53-54).
Teniendo estimadores deseables, ya se puede hacer inferencia estadística. Pero antes de
ello, se verá la bondad de ajuste de un modelo logit. Generalmente, la bondad de ajuste
(goodness of fit) en modelos de elección binaria se mide a través del pseudo 𝑹𝟐 de McFadden
(1974) o likelihood ratio index (LRI):
𝐿𝑅𝐼 = 1 −ln 𝐿
ln 𝐿0
(𝟏𝟑. 𝟏. 𝟐𝟔)
donde ln 𝐿 es el logaritmo natural de la función de verosimilitud (es decir, FLV), ln 𝐿0 es la FLV
calculado solamente con el termino independiente y 0 ≤ �̌�2 ≤ 1. Para otras medidas de bondad
de ajuste véase, por ejemplo, Long (1997). Sin embargo, cabe precisar que “en los modelos con
regresada binaria, la bondad del ajuste tiene una importancia secundaria. Lo que interesa son
los signos esperados de los coeficientes de la regresión y su importancia práctica y/o
estadística” (Gujarati & Porter, 2010, pág. 563).
Como los estimadores de MV, �̃�, están distribuidos asintóticamente como una normal,
�̃� ~ 𝑁 (𝛃, 𝑣𝑎𝑟(�̃�)) (𝟏𝟑. 𝟏. 𝟐𝟕)
las pruebas de hipótesis de significancia individual se pueden efectuar a través del estadístico
𝑍 y la tabla normal estándar. No obstante, cuando se desea testear hipótesis más complejas se
puede hacer uso de los tests de Wald, Razón de Verosimilitud o Multiplicador de Lagrange. Tal
como se dijo, cuando la hipótesis nula es verdadera, estos tests son equivalentes
asintóticamente, por lo que convergerán a la misma distribución chi-cuadrado con tantos grados
de libertad como el número de restricciones impuestas.
Por la hipótesis lineal general (ecuación 11.2.13), 𝐑𝛃 = 𝐫. Esta hipótesis (nula) puede ser
contrastada con el estadístico de Wald,
𝑊 = (𝐑�̃� − 𝐫)′[𝐑𝑣𝑎𝑟(�̃�)𝐑′]
−𝟏(𝐑�̃� − 𝐫) (𝟏𝟑. 𝟏. 𝟐𝟖)
donde 𝑣𝑎𝑟(�̃�) es la varianza estimada asintótica de la matriz de varianzas-covarianzas y 𝑊
sigue una distribución chi-cuadrada con gl igual al número de restricciones (es decir, el número
de filas de la matriz de restricciones 𝐑).
El estadístico de razón de verosimilitud, por su parte, viene a ser
𝑅𝑉 = −2(ln �̂�𝑅 − ln �̂�𝑁𝑅) (𝟏𝟑. 𝟏. 𝟐𝟗)
donde �̂�𝑅y �̂�𝑅 son las funciones log de verosimilitud en los modelos restringido y no restringido,
respectivamente. 𝑅𝑉 sigue una distribución chi-cuadrada con gl igual a la diferencia del número
de parámetros de los modelos no restringido y restringido (en ese orden), siempre que esta
diferencia sea positiva. Frecuentemente, este estadístico es asociado al estadístico 𝐹 para
llevar a cabo la prueba de significancia global; véase, por ejemplo, Long (1997) y Greene (2012).
Por último, siguiendo a (Greene, 2012), el estadístico del test de multiplicador de Lagrange
está representado por
𝑀𝐿 = 𝐠′𝐕𝐠 (𝟏𝟑. 𝟏. 𝟑𝟎)
donde 𝐠 es las primeras derivadas de un modelo irrestricto evaluado en el vector de parámetros
restringido y 𝐕 es cualquiera de los tres estimadores de la matriz asintótica de covarianza del
estimador de MV, una y otra vez computado usando las estimaciones restringidas.
(Fichero logit.wf1)
Con el propósito de ilustrar el caso de un logit para datos individuales, considérese los datos
del aplicativo anterior. Ahora bien, lo que se tendría que hacer es aplicar MV a dichos datos;
por fortuna, algunos paquetes estadísticos se encargan de ello y, nos proporcionan aquellos
estimadores que maximizan la FV o FLV. La Tabla ¡Error! No hay texto con el estilo especificado en
el documento.-4 muestran la salida en Eviews 8 de MV, donde se procede así: Quick » Estimate
equation » Method (Binary Choice) » logit »
Tabla ¡Error! No hay texto con el estilo especificado en el documento.-4
Note que ahora los coeficientes se someterán a pruebas de hipótesis a través del estadístico z.
Al 5% de nivel significancia por ejemplo, los comandos en Eviews @qnorm(0.975) y @qnorm(0.025)
otorgan los valores críticos 1.96 y -1.96, respectivamente. Si se prueba la hipótesis de que el
coeficiente de 𝑚𝑎𝑠𝑐 es cero, el valor 𝑧 = 4.238 queda en la región de rechazo, por lo que 𝑚𝑎𝑠𝑐
resulta ser significativa (al igual que las otras variables). De otro lado, los valores críticos de
LR (al 5% de nivel de significancia) usando los comandos =@qchisq(0.975,3) y =@qchisq(0.025,3)
Aplicativo 13-2
son 9.348 y 0.216, respectivamente. Con ellos, el estadístico 𝐿𝑅 = 29.58 queda en la región de
rechazo, por lo que todos los coeficientes de pendiente terminan siendo significativos.
Hay dos aspectos que son muy discutibles en este modelo: el R-cuadrado de McFadden pequeño
y los signos de las variables. Sin embargo, no puede ser motivo para dejar de hacer su
interpretación. Una muy interesante se hace a partir del odds ratio. Por ejemplo, si se toma el
antilogaritmo del coeficiente de 𝑚𝑎𝑠𝑐, 𝑒0.2367 = 1.267. Esto indica que los individuos del género
masculino están por encima de 1.2 veces más propensos a aprobar la gestión de Humala como
Presidente que los del género femenino, permaneciendo constante las demás variables.
Otra interpretación que se puede hacer es a partir de las probabilidades estimadas. Teniendo
en cuenta la ecuación (13.1.13), se deja para el lector calcular la probabilidad de que el
individuo 𝑖 = 40 apruebe la gestión de Humala como Presidente. Más detalles sobre la
interpretación de los modelos logit los puede encontrar en Long (1997, págs. 61-83).
Datos agrupados (duplicados)
Algunas veces los datos están resumidos en una tabla de contingencia o de frecuencias; es
decir, los datos se encuentran agrupados o replicados (en el contexto de STATA se llama glogit).
En ese caso, como percibirá a continuación, la variable dependiente ya no es binaria; sino, es
una proporción (una variable continua).
La Tabla ¡Error! No hay texto con el estilo especificado en el documento.-5 es modelo de tabla
de contingencia con 𝑟𝑠 celdas, cada una de las cuales contiene información sobre dos variables
independientes (cualitativas) y la variable dependiente (implícita) 𝑌𝑖. Si 𝑓 representa el número
de éxitos (𝐸) o fracasos (𝐹) de 𝑌𝑖 y 𝑛 los casos totales (𝐸 + 𝐹); entonces, las proporciones
muestrales 𝑎 𝐴⁄ , … , 𝑏 𝐵⁄ , … , 𝑐 𝐶⁄ , … , 𝑑/𝐷 pueden utilizarse como estimadores de las verdaderas
probabilidades condicionales 𝑃(𝑌𝑖 = 1|𝐱𝒊), 𝑖 = 1, … , 𝑟𝑠.
Tabla ¡Error! No hay texto con el estilo especificado en el documento.-5
Regresor 1
Categoría 1 ... Categoría 𝑟
Regresor 2 𝑓 𝑛 𝑓 𝑛
Categoría 1 𝑎 𝐴 ... 𝑏 𝐵
⋮ ⋮ ⋮ ... ⋮ ⋮
Categoría 𝑠 𝑐 𝐶 ... 𝑑 𝐷
Si esas probabilidades estimadas se reemplazan en el modelo logit, se tendría:
�̃�𝑖 = 𝑙𝑛 (�̂�(𝑌𝑖 = 1|𝐱𝒊)
1 − �̂�(𝑌𝑖 = 1|𝐱𝒊)) = 𝐱𝑖
′𝛃 + 𝑢𝒊 (𝟏𝟑. 𝟏. 𝟏𝟗′)
donde �̂�(𝑌𝑖 = 1|𝐱𝒊) es la proporción muestral asociada a cada celda 𝑖 y 𝑢𝒊 = 𝐿𝑖 − �̃�𝑖 es el término
de error.
Si todas las observaciones dentro de cada celda están idéntica e independientemente
distribuidas como una Bernoulli (E o F), la suma del número total de E (o F) seguirá una
distribución binomial con parámetros 𝑓 y 𝑛 y varianza 𝑛𝑃𝑖(1 − 𝑃𝑖); mientras que �̂�(𝑌𝑖 = 1|𝐱𝒊)
tendrá varianza igual a 𝑃𝑖(1 − 𝑃𝑖)/𝑛 (Powers & Xie, 1999). Asimismo, los 𝑢𝒊 (supuestos
independientes) también estarán distribuidos como una binomial con media 𝑛𝑃𝑖 y varianza
𝑛𝑃𝑖(1 − 𝑃𝑖) y, asintóticamente, se aproximarán a una distribución normal:
𝑢𝒊 ~ 𝑁 (0,1
𝑛𝑃𝑖(1 − 𝑃𝑖)) (𝟏𝟑. 𝟏. 𝟑𝟏)
Dada la normalidad de los errores y si 𝑛 es lo suficientemente grande en cada celda,
(13.1.19’) podría fácilmente estimarse por el método de MCO; sin embargo, los errores en
(13.1.31) son heteroscedásticos. Para corregir este problema, se podría emplear MCP, cuyo
ponderador estaría dado por 𝑧𝑖 = 𝜎𝑢𝒊. Puesto que 𝜎𝑢𝒊
es desconocida, se aproxima con �̂�𝑖 =
√1 [𝑛𝑃�̂�(1 − 𝑃�̂�)]⁄ .
(Fichero logit.wf1)
Los datos empleados para estimar un logit sin agrupar podría resumirse en una tabla de
contingencia. El Tabla ¡Error! No hay texto con el estilo especificado en el documento.-6 dicho
resumen en seis celdas, dentro de las cuales 𝑓 representa el número de casos a favor (los que
aprueban la gestión de Humala como Presidente) y 𝑛 representa los casos totales.
Tabla ¡Error! No hay texto con el estilo especificado en el documento.-6
Para fines de estimación, tal como proponen Powers y Xie (1997), es conveniente arreglar los
datos tabulados en formato columna, con variables dummy en cada una de ellas, tal como se
evidencia en la Tabla ¡Error! No hay texto con el estilo especificado en el documento.-7. En ella, cada
fila representa una celda de la Tabla ¡Error! No hay texto con el estilo especificado en el
documento.-6.
Tabla ¡Error! No hay texto con el estilo especificado en el documento.-7
Las proporciones muestrales, 𝑓𝑖/𝑛𝑖, servirán como estimadores de las probabilidades reales, de
modo que el modelo estimado a través de MCP vendría dado por:
SEXO
Femenino Masculino
REGIÓN f n f n
Costa 107 203 143 226
Sierra 503 961 552 1003
Selva 719 1379 860 1445
regc regs masc f n
1 0 0 107 203
1 0 1 143 226
0 1 0 503 961
0 1 1 552 1003
0 0 0 719 1379
0 0 1 860 1445
Aplicativo 13-3
Tabla ¡Error! No hay texto con el estilo especificado en el documento.-8
Los resultados indican que el R-cuadrado es claramente mayor que el caso anterior. Sin
embargo, sólo masculino es significativo a nivel individual (suponiendo que 𝛼 = 0.05).
Dado que 𝐿𝑖 se encuentra ponderado, si se toma el anti-logaritmo al modelo estimado se
tendría la razón de probabilidades ponderadas:
�̂�𝑖
1 − �̂�𝑖
= 𝑒0.118/𝑧𝑖 ∗ 𝑒0.238∗𝑚𝑎𝑠𝑐/𝑧𝑖 ∗ 𝑒0.092∗𝑟𝑒𝑔𝑐/𝑧𝑖 ∗ 𝑒−0.089∗𝑟𝑒𝑔𝑠/𝑧𝑖
De allí, 𝑒0.238 = 1.2687. Esto indica que para un incremento en masc ponderado, las
posibilidades ponderadas en favor de aprobar la gestión de Humala como Presidente aumenta
en 1.2687 o cerca de 26.87% (¿por qué?). Para una interpretación sin ponderaciones, multiplique
las correspondientes 𝑧𝑖 por cada coeficiente.
Otra interpretación que se puede realizar (cuando los regresores son cuantitativos) es a través
del cambio parcial en las probabilidades, conforme varía 𝑋. De acuerdo a la ecuación (13.1.15),
𝜕𝐹(x𝑖
′β)
𝜕𝑋𝑗
=𝑑𝐹(x𝑖
′β)
𝑑x𝑖′β
𝜕(x𝑖′β)
𝜕𝑋𝑗
= 𝑓(x𝑖′β)𝛽𝑗 =
𝑒x𝑖′β
(1 + 𝑒x𝑖′β)
2 𝛽𝑗 , 𝑗 = 1, … , 𝑘
De allí, se verifica que
𝜕𝑃(𝑌𝑖 = 1|x)
𝜕𝑋𝑗
= �̂�𝑗 (1 − �̂�(𝑌𝑖 = 1|x)) �̂�(𝑌𝑖 = 1|x)
MODELO PROBIT
Otra función de distribución válida para el lado derecho de la ecuación (13.1.4) es la
distribución normal también definida simétrica, la misma que da origen a los modelos probit
o normit. Desde la óptica de los modelos no lineales de probabilidad, ésta queda definido por:
𝑃(𝑌𝑖 = 1|𝐱𝒊) = ∫1
√2𝜋𝑒
(−𝑡2
2)𝑑𝑡
𝐱𝑖′𝜷
−∞
= 𝐹(𝐱𝑖′𝛃) (𝟏𝟑. 𝟏. 𝟑𝟐)
donde 𝑢𝑖 sigue una distribución normal estándar [recuerde que 𝑃(𝑢𝑖 ≤ 𝐱𝑖′𝛃) = 𝐹(𝐱𝑖
′𝛃)]. Si se
realiza una transformación probit o probit link, que viene a ser la inversa de la distribución
acumulada normal estándar (Powers & Xie, 1999), se logra una forma lineal del modelo probit:
𝒫𝑖 = 𝐹−1(𝐱𝑖′𝛃) = 𝐱𝑖
′𝛃 (𝟏𝟑. 𝟏. 𝟑𝟑)
donde 𝒫 es el probit que también cumple las restricciones de la ecuación (13.1.14). La Gráfica
¡Error! No hay texto con el estilo especificado en el documento..3 muestra un bosquejo de la
distribución normal que, en comparación de la logística estándar, es menos aplanada. En otras
palabras, la probabilidad de éxito en los puntos cercanos a cero y a uno es menor.
Gráfica ¡Error! No hay texto con el estilo especificado en el documento..3
El efecto marginal en (13.1.32) será
𝜕𝐹(𝐱𝑖
′𝛃)
𝜕𝑋𝑗
= 𝑓[𝐹−1(𝐱𝑖′𝛃)]𝛽𝑗 , 𝑗 = 1, … , 𝑘 (𝟏𝟑. 𝟏. 𝟑𝟒)
siendo 𝑓(. ) la fdp de la distribución normal estándar invertida.
La estimación de un probit también puede ser para datos agrupados y no agrupados. En el
primer caso, al unísono que el modelo logit, se estima generalmente por MV; mientras que para
el segundo, se puede usar MCP. Para una estimación con datos agrupados véase Gujarati y
Porter (2010) o Camerón y Trivedi (2005), quienes lo derivan a partir de una regresión latente
y el estimador mínimo Chi-cuadrado de Berkson, respectivamente.
Dado lo anterior, de (13.1.24) y (13.1.32), las CPO asociadas a un probit para datos
individuales vendrán dadas por:
∂ ln 𝐿(𝛃|𝐱𝒊; 𝐲)
∂𝛃= ∑ 𝜛𝑖[𝑌𝑖 − 𝐹(𝐱𝒊
′𝛃)]𝐱𝒊
𝑛
𝑖=1
= 𝟎 (𝟏𝟑. 𝟏. 𝟑𝟓)
cuyo peso 𝜛𝑖 = 𝑓(𝐱𝑖′𝛃)/[𝐹(𝐱𝒊
′𝛃)[1 − 𝐹(𝐱𝒊′𝛃)]] varía a través de las observaciones (Cameron &
Trivedi, 2005). Dada su complejidad relativa del probit, el uso de paquetes econométricos
puede ser una solución asequible para fines de estimación.
Una vez estimada el probit, los estadísticos de bondad de ajuste y los contrastes de
hipótesis, como siempre, validarán el modelo calculado. Dada su similitud a los del modelo
logit, se omiten en esta parte.
(Fichero probit.wf1)
0
1
𝑌
𝑋
Para comprender un poco más esta parte, considérese nuevamente los datos de PROÉTICA. La
hoja UNGROUPED muestra el caso para datos no agrupados. Si se compara estos resultados con
el modelo logit no agrupado, se dará cuenta que los resultados son muy parecidos, aunque por
obvias razones, cuantitativamente difieren. Más aún, si se compara con los resultados obtenidos
en el MLP, notará que las diferencias no son exorbitantes.
Véase ahora que es lo que sucede con un probit agrupado (hoja GROUPED). Por la ecuación
(13.1.33), para obtener 𝒫𝑖 se requiere como insumo calcular la inversa de la probabilidad
estimada (de la serie p_est). Para ello, en el área de comandos de Eviews se digita:
series probit=@qnorm(p_est)
Siguiendo a Gujarati y Porte (2010), se le agrega 5 a cada observación de esta nueva serie y
luego se estima por MCO (serie probit5). Los resultados se muestran a continuación.
Tabla ¡Error! No hay texto con el estilo especificado en el documento.-9
Si se compara con los resultados obtenidos en el logit agrupado se concluye que sólo el
intercepto difiere en cuanto a significancia. Los demás estadísticos indican casi lo mismo
cualitativamente.
Consideraciones finales
Una vez desarrollado regularmente el MLP y los modelos no lineales logit y probit, cabría
preguntarse ¿cuál de ellos es el mejor? Sin pensarlo demasiado, el MLP queda desacreditado
por sus múltiples problemas; pero, ha sido explicado ya que sirve de argumento y punto de
partida para los otros modelos de respuesta discreta. Sin embargo, Powers y Xie (1999)
sostienen que, para datos agrupados, su uso es menos problemático porque habría mayor
variación en la variable dependiente, por el hecho de que es una proporción.
Cameron y Triveli (2005) responden esa interrogante mediante dos consideraciones:
teóricas y empíricas. Teóricamente, el logit tiene una forma relativamente simple en las CPO
y la distribución asintótica (argumento que lo atribuyen a Berkson); en contraste, el modelo
Aplicativo 13-4
probit es preferido si es derivado por una variable aleatoria normal latente y extendido
naturalmente a los modelos Tobit (ver sección 13.3). Empíricamente, ambos modelos pueden
ser usados ya que apenas difieren: la diferencia es mayor en las colas, donde las probabilidades
están cerca de 0 o 1; mientras que la diferencia es muy escasa si lo que se quiere es analizar
los efectos marginales promedios (de la muestra) en vez de analizar para cada individuo.
De lo anterior se puede deducir que la elección del modelo depende, en última instancia,
del modelador. Sin embargo, hay otros dos modelos que también están disponibles para ser
elegidos: el modelo complementario log-log y, su contraparte, el modelo log-log. McCullagh
y Nelder (1989) plantean esos modelos, en ese orden, como:
𝑃(𝑌𝑖 = 1|𝐱𝒊) = ln{− ln[1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)]} = 𝐱𝑖′𝛃 (𝟏𝟑. 𝟏. 𝟑𝟔)
− ln[− ln[𝑃(𝑌𝑖 = 1|𝐱𝒊)]] = 𝐱𝑖′�⃛� (𝟏𝟑. 𝟏. 𝟑𝟕)
donde el acento en la ecuación (13.1.37) se usa para diferenciarlo del anterior, pues 𝐱𝑖′𝛃 =
−𝐱𝑖′�⃛� [1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)]. Además, se asume que ambos modelos no son simétricos y se
encuentran limitados entre 0 y 1. Para más detalles sobre el modelo (13.1.36), véase Agresti
(2002, págs. 245-250) y Powers et al. (1999, págs. 83-84).
Otra pregunta interesante es la siguiente: ¿cuántos regresores (predictores) se puede usar
en los modelos binarios logit? Cuando una de las respuestas (𝑌𝑖 = 1 o 𝑌𝑖 = 0) ocurre
relativamente pocas veces, se dice que los datos están desbalanceados. Al respecto, hay una
pauta (desarrollada en 1996 por Peduzzi, Concato, Kemper, Holford y Feinstein) que sugiere
que por cada regresor debería haber como mínimo 10 observaciones para cada categoría
(Agresti, 2007).
13.2 MODELOS DE ELECCIÓN MULTINOMIAL
Los modelos multinomiales son aquellos donde la regresora nominal admite múltiples
categorías que pueden ser ordenadas (el caso de los modelos con regresora a escala ordinal)
o no ordenadas, a los que Long (1997) los denomina modelos de respuestas nominales. Se
desarrollará aquí los últimos; sin embargo, acerca de ambos casos, debe tener en cuenta que
Si una variable dependiente es ordinal y es usado un modelo para variables nominales,
hay una pérdida de eficiencia ya que la información está siendo ignorada. Por otra
parte, cuando un método para variables ordinarias es aplicado a una variable
dependiente nominal, las estimaciones resultantes son sesgadas o inclusive absurdas.
Si hay cualquier duda acerca de la ordinalidad de la variable dependiente, entonces la
pérdida potencial de eficiencia en usar modelos de respuestas nominales pesaría más
que por evitar un potencial sesgo (Long, 1997, pág. 149).
Los modelos multinomiales (no ordenados) más simples son el modelo logit multinomial,
propuesto por Luce en 1959, y el modelo logit condicional, desarrollado principalmente por
McFadden en 1968. La diferencia básica entre ellos reside en que el primero se estima en un
contexto en el que los regresores y parámetros no varían a través de las alternativas
(alternative-invariant), mientras que en el segundo sí (alternative-varying). Dado que en la
práctica se tiene regresores asociados a ambos casos, es preferible usan un programa que opere
en términos del segundo caso (Cameron et al., 2005).
Sin embargo, hay otros modelos multinomiales que, sin bien son relativamente poco
habituales, merecen ser desarrollados: logit anidado, modelos secuenciales y modelos
multivariados.
MODELO LOGIT MULTINOMIAL
De igual forma que para el caso binomial, el marco teórico subyacente de los modelos de
elección multinomiales son el de utilidad aleatoria y el de variables latentes (considérese aquí
el primero). Siguiendo a Greene (2012), si el 𝑖-ésimo consumidor se enfrenta a 𝐽 + 1 elecciones,
la utilidad de que elija la alternativa 𝑗 (𝑗 = 0,1, … , 𝐽) es
𝑈𝑖𝑗 = 𝐳𝒊𝒋′ 𝛉 + 𝑢𝑖𝑗 (𝟏𝟑. 𝟐. 𝟏)
donde se asumirá que 𝑈𝑖𝑗 es la elección que le otorga la máxima utilidad al individuo. Así,
𝑃(𝑈𝑖𝑗 > 𝑈𝑖𝑙), ∀ 𝑙 ≠ 𝑗 (𝟏𝟑. 𝟐. 𝟐)
siendo 𝑙 la alternativa (categoría) de comparación.
Para que el modelo funcione, como antes, se requiere de una distribución multinomial
particular de los errores. En esta parte, si bien teóricamente el modelo probit multinomial es
viable, en la práctica es muy poco usual dado que se tiene que evaluar múltiples integrales de
la fda normal; en contraste, el modelo logit multinomial (MLM, en adelante) es relativamente
sencillo.
Suponga que 𝑌𝑖 = 𝑗 es la elección hecha del individuo 𝑖 de la categoría 𝑗 = 0,1, … , 𝐽 y que
cada una de las 𝐽 + 1 categorías están asociadas a una probabilidad, 𝑃𝑖𝑗. McFadden (citado por
Greene, 2012) reveló que sí y solo si los 𝐽 + 1 términos de error en (13.2.1) son iid como una
distribución Gumbel con valor extremo tipo I,
𝐹(𝑢𝑖𝑗) = exp (−exp (−𝑢𝑖𝑗) (𝟏𝟑. 𝟐. 𝟑)
luego, se tiene el modelo multinomial
𝑃(𝑌𝑖 = 𝑗) =𝑒𝐳𝒊𝒋
′ 𝛉
∑ 𝑒𝐳𝒊𝒋′ 𝛉𝐽
𝑗=0
(𝟏𝟑. 𝟐. 𝟒)
donde se entrevé que la utilidad depende de 𝐳𝒊𝒋 = [𝐱𝒊𝒋, 𝐰𝒊] y la partición 𝛉 = [𝛃′, 𝛂′]′, 𝐱𝒊𝒋 son los
atributos que varían a través de las elecciones e individuos y 𝐰𝒊 vienen a ser las características
de los individuos, los cuales no varían entre sus alternativas elegidas (𝑗). Si (13.2.4) es
expresado sólo en términos de 𝐰𝒊 y 𝛂𝒋, se alcanza el MLM; mientras que si es expresado en
términos de 𝐱𝒊𝒋 y 𝛃, se alcanza el modelo logit condicional (MLC, en adelante).
El MLM se podría aproximar a través del uso separado de modelos binarios logit para cada
par de categorías de respuesta [véase Agresti (2002), por ejemplo]. Si la regresora asume 3
categorías (a, b y c), se regresionarían tres logits binarios comparables: a con b, b con c y a
con c; usando sólo aquellas observaciones asociadas a cada par de categorías. De acuerdo a la
ecuación (13.1.19), se tendría:
𝐿𝑎,𝑏 = 𝑙𝑛 (𝑃(𝑌𝑖 = 𝑎|𝐱𝒊)
𝑃(𝑌𝑖 = 𝑏|𝐱𝒊)) = 𝐱𝑖
′𝛃𝒂,𝒃
𝐿𝑏,𝑐 = 𝑙𝑛 (𝑃(𝑌𝑖 = 𝑏|𝐱𝒊)
𝑃(𝑌𝑖 = 𝑐|𝐱𝒊)) = 𝐱𝑖
′𝛃𝒃,𝒄 (𝟏𝟑. 𝟐. 𝟓)
𝐿𝑎,𝑐 = 𝑙𝑛 (𝑃(𝑌𝑖 = 𝑎|𝐱𝒊)
𝑃(𝑌𝑖 = 𝑐|𝐱𝒊)) = 𝐱𝑖
′𝛃𝒂,𝒄
donde, por propiedad de logaritmos, se verifica que 𝐿𝑎,𝑏 + 𝐿𝑏,𝑐 = 𝐿𝑎,𝑐. Sin embargo, cuando se
usa información muestral esto no es del todo cierto. De ahí que sería mejor estimar
simultáneamente los tres logits anteriores.
Otra aproximación al MLM se hace a través de un modelo de probabilidad no lineal. Desde
la perspectiva de Powers et al. (1999), se podría pensar que hay dos conjuntos de parámetros
en las ecuaciones (13.1.13) y (13.1.17), 𝛃𝟏 y 𝛃𝟎; el primero asociado a la respuesta 𝑌𝑖 = 1 (el
tradicional 𝛃), mientras que el segundo estaría asociado a la respuesta 𝑌𝑖 = 0 (normalizado
habitualmente a cero, 𝛃𝟎 = 𝟎). Dado el vector 𝐱𝒊′, en el caso de que 𝐽 = 2, las probabilidades
de elección podrían ser planteadas de acuerdo a:
𝑃(𝑌𝑖 = 0|𝐱𝒊) = 𝑃𝑖0 =1
1 + 𝑒𝐱𝒊′𝛃𝟏 + 𝑒𝐱𝒊
′𝛃𝟐
𝑃(𝑌𝑖 = 1|𝐱𝒊) = 𝑃𝑖1 =𝑒𝐱𝒊
′𝛃𝟏
1 + 𝑒𝐱𝒊′𝛃𝟏 + 𝑒𝐱𝒊
′𝛃𝟐 (𝟏𝟑. 𝟐. 𝟔)
𝑃(𝑌𝑖 = 2|𝐱𝒊) = 𝑃𝑖2 =𝑒𝐱𝒊
′𝛃𝟐
1 + 𝑒𝐱𝒊′𝛃𝟏 + 𝑒𝐱𝒊
′𝛃𝟐
con 𝛃1 y 𝛃2 como covariantes de efectos específicos de la segunda y tercera categoría, con la
primera como categoría de comparación. Advierta que la primera expresión de (13.2.6) es
derivada de la restricción de que las probabilidades suman 1, 𝑃𝑖0 = 1 − (𝑃𝑖1 + 𝑃𝑖2), razón por la
cual sólo se tendría que encontrar 𝑃𝑖1 y 𝑃𝑖2.
En general, la probabilidad de que el individuo 𝑖 elija una de las 𝐽 + 1 categorías de la
variable cualitativa 𝑌𝑖, estaría dada por el siguiente MLM:
𝑃(𝑌𝑖 = 𝑗|𝐱𝒊) = 𝑃𝑖𝑗 =𝑒𝐱𝒊
′𝛃𝒋
∑ 𝑒𝐱𝒊′𝛃𝒋𝐽
𝑗=0
, 𝑗 = 0, … , 𝐽 (𝟏𝟑. 𝟐. 𝟕)
Perciba aquí tres aspectos relevantes de la ecuación (13.2.7): i) se logra sin la normalización
de que 𝛃𝟎 = 𝟎 (si 𝑗 = 0, 𝑒𝐱𝒊′𝛃𝟎 = 1); ii) como es de esperar, requiere que ∑ 𝑃𝑖𝑗
𝐽𝑗=0 = 1 para algún
𝑖; iii) si 𝐽 = 1, se tendría el conocido modelo logit binario, en el que 𝑖 elige o bien la alternativa
0 o bien la 1.
Una vez modelado el MLM, su estimación pasa por utilizar MV. Si se tiene 𝐽 + 1 alternativas,
la función de densidad multinomial para una observación (la contrapartida de la ecuación
13.1.20) puede ser escrito por
𝑃0𝑌0 × 𝑃1
𝑌1 × … × 𝑃𝐽
𝑌𝐽 = ∏ 𝑃𝑗
𝑌𝑗
𝐽
𝑗=0
(𝟏𝟑. 𝟐. 𝟖)
La FV (la densidad conjunta) para una muestra de 𝑛 observaciones i.i.d. estará dada por
𝑓(𝑌1, … , 𝑌𝑛|𝛃) = ∏ ∏ 𝑃𝑖𝑗
𝑌𝑖𝑗𝐽𝑗=0
𝑛𝑖=1 , donde 𝑖 hace referencia a un individuo particular. Así, la FLV
que maximiza el valor del estimador de MV vendría representado por
ln 𝐿(𝛃|𝐱𝒊; 𝐲) = ∑ ∑ 𝑌𝑖𝑗 ln𝑒𝐱𝒊
′𝛃𝒋
∑ 𝑒𝐱𝒊′𝛃𝒋𝐽
𝑗=0
𝐽
𝑗=0
𝑛
𝑖=1
(𝟏𝟑. 𝟐. 𝟗)
quien, como se dijo antes, se estima por métodos numéricos; donde 𝑌𝑖𝑗 se define como una
variable dummy:
𝑌𝑖𝑗 = {1, 𝑠𝑖 𝑌𝑖 = 𝑗0, 𝑠𝑖 𝑌𝑖 ≠ 𝑗
Esto indica que para cada observación 𝑖 sobre 𝑌, hay sólo una alternativa que es diferente de
cero. Según Long (1997), en la práctica, los resultados estimados de la FLV son consistentes y
tanto normales como eficientes asintóticamente. Para más detalles acerca de la estimación del
MLM véase Kutner et al. (2005) y Cameron et al. (2005).
Ahora bien, las pruebas de hipótesis se basan principalmente en un test que está propuesto
para conocer si el regresor 𝑋𝑘 no afecta a la regresora. Como esta última posee 𝐽 + 1 categorías,
excluyendo la categoría de comparación 𝑙 = 0, se tiene 𝐽 parámetros 𝛽𝑘 asociados a cada 𝑋𝑘,
por lo que las hipótesis vendrían planteadas así:
𝐻0: 𝛽𝑘,1|𝑙 = 𝛽𝑘,2|𝑙 = ⋯ = 𝛽𝑘,𝐽|𝑙 = 0
𝐻1: 𝑎𝑙𝑔ú𝑛 𝛽𝑘,𝑗|𝑙 ≠ 0
donde 𝛽𝑘,𝑗|𝑙 indica el coeficiente 𝑘-ésimo en la estimación del modelo 𝑗, dado 𝑙 (advierta que si
el modelo se encuentra normalizado, 𝛽𝑘,𝑙|𝑙 = 0). Los estadísticos de prueba, tal como propone
Long (1997), podrían ser: razón de verosimilitud (RV) o el estadístico de Wald.
Ahora bien, la interpretación de los resultados del MLM es un tanto análogo a lo descrito
para el caso binomial. El 𝑙𝑛 de la razón de probabilidades (ln-odds) de las categorías 𝑗 y 𝑙, para
un 𝑖 dado, será
𝑙𝑛 (𝑃𝑖𝑗
𝑃𝑖𝑙
) = 𝐱𝒊′𝛃𝒋; 𝑠𝑖 𝑙 = 0, 𝑗 = 1, … , 𝐽 (𝟏𝟑. 𝟐. 𝟏𝟎)
Esto quiere decir que para un incremento de 𝑋𝑘 en 𝛾 unidades, el logaritmo de las posibilidades
en favor de la categoría 𝑗 sobre la categoría 𝑙 cambia en la cuantía 𝑒𝛽𝑘,𝑗|𝑙∗𝛾, cetarís paribus.
De otro lado, el efecto marginal de un cambio en 𝑋𝑘 sobre 𝑃𝑖𝑗 es poco habitual en el
contexto de MLM; sin embargo, puede ser calculada diferenciando (13.2.7):
𝜕𝑃(𝑌𝑖 = 𝑗|𝐱𝒊)
𝜕𝑋𝑘
= 𝑃(𝑌𝑖 = 𝑗|𝐱𝒊) [𝛃𝑘𝑗 − ∑ 𝑃(𝑌𝑖 = 𝑗|𝐱𝒊)𝛃𝑘𝑗
𝐽
𝑗=0
] (𝟏𝟑. 𝟐. 𝟏𝟏)
Puesto que la expresión (13.2.11) combina todos los 𝛃𝑘𝑗, el efecto marginal de 𝑋𝑘 sobre un
específico 𝑗 no necesita tener el mismo signo que el correspondiente coeficiente 𝛃𝑘𝑗 (Long,
1997); es decir, si 𝛃𝑘0 es positivo, no necesariamente su cambio parcial sobre 𝑋0 lo será. En ese
sentido, su interpretación debe ser examinada cuidadosamente.
MODELO LOGIT CONDICIONAL
Cuando los datos consisten de atributos específicos de elección o, expresado de otra
forma, cuando los regresores y parámetros varían a través de las alternativas, se alcanza el
MLC:
𝑃(𝑌𝑖 = 𝑗|𝐱𝒊) = 𝑃𝑖𝑗 =𝑒𝐱𝒊𝒋
′ 𝛃
∑ 𝑒𝐱𝒊𝒋′ 𝛃𝐽
𝑗=0
(𝟏𝟑. 𝟐. 𝟏𝟐)
Aquí, si 𝑒𝐱𝒊𝒋′ 𝛃 > 0, ∑ 𝑃𝑖𝑗
𝐽𝑗=0 = 1. Como se puede ver, los coeficientes de una variable es el mismo
para cada categoría de respuesta, pero los valores de las variables difieren para cada categoría
de respuesta.
En el modelo anterior, tal como señala Greene (2012), los coeficientes no están atados
directamente a los efectos marginales. Estos efectos para variables continuas podrían
obtenerse diferenciando (13.2.12) respecto a un particular 𝐱𝑖𝑚; así,
𝜕𝑃(𝑌𝑖 = 𝑗|𝐱𝒊)
𝜕𝐱𝑖𝑚
= {𝑃𝑖𝑗[𝟏(𝑗 = 𝑚) − 𝑃𝑖𝑚]}𝛃, 𝑚 = 0, … , 𝐽 (𝟏𝟑. 𝟐. 𝟏𝟑)
donde a través de su presencia en 𝑃𝑖𝑗 y 𝑃𝑖𝑚, cada atributo de 𝐱𝑖𝑚 afecta a todas las
probabilidades. Dado que la FLV del MLC es similar a la del MLM, no se plantea de nuevo. Sin
embargo, una forma simple de maximizar dicha función pasa por usar los métodos numéricos
de Newton o el de scoring.
Ahora, si reflexiona unos segundos, se dará cuenta que en la práctica se tiene datos
asociados tanto al MLM como al MLC. A los modelos que tienen componentes de ambos, como
en la ecuación (13.2.4), se les denomina modelos logit mixtos o, de manera más general,
universal logit models.
Supuesto de independencia de alternativas irrelevantes
La razón de probabilidades tanto en el MLM como en el MLC (el ratio entre 𝑃𝑖𝑗 y 𝑃𝑖𝑙, por
ejemplo) es hallada sin tener en cuenta las otras alternativas; es decir, el vector de regresores
𝐱𝑖𝑙 no depende de los atributos de las otras 𝐽 alternativas restantes. A esto se le denomina
supuesto de independencia de alternativas irrelevantes (IIA, en inglés). McFadden (citado
por Long, 1997) sugiere que los MLM y MLC sólo deben ser usados en aquellos casos donde las
categorías pueden ser idóneamente asumidas como distintas y juzgado independientemente a
la vista de cada decision-maker.
El supuesto IIA, que proviene de la hipótesis inicial de que los términos de error son
independientes y homoscedásticos (Greene, 2012), puede ser contrastado a través del test de
Hausman. Los detalles de este test los pueden encontrar en Hausman y McFadden (1984),
aunque en Long (1997) puede encontrar los pasos necesarios para dicho test.
OTROS MODELOS MULTINOMIALES
Cuando no se verifica el supuesto IIA, por fortuna, hay modelos alternativos que pueden
ser usados. Uno de ellos es el modelo probit multinomial (o para el caso multiecuacional, el
modelo probit multivariado), el cual no se detalla por consideraciones ya mencionadas.
También se tiene el denominado modelo logit jerárquico o anidado (nested logit, en inglés).
Este último consiste en agrupar las alternativas de elección en subgrupos, permitiendo que la
varianza difiera a través de los grupos (en otras palabras, que haya heteroscedasticidad entre
los grupos), pero manteniendo el supuesto IIA dentro de ellos (Greene, 2012).
Suponiendo que: i) las 𝐽 + 1 alternativas pueden ser divididos en 𝐵 subgrupos (𝑏 = 1, … , 𝐵),
donde cada uno de ellos serán “ramas” y dentro de ellas se tendrán “ramitas”; ii) los datos
consisten de observaciones sobre los atributos de las elecciones 𝐱𝑖𝑗|𝑏 y atributos del conjunto
de elecciones 𝐳𝑖𝑏. Así, la probabilidad incondicional
𝑃(𝑟𝑎𝑚𝑖𝑡𝑎𝑗 , 𝑟𝑎𝑚𝑎𝑏) = 𝑃𝑖𝑗𝑏 =𝑒(𝐱𝑖𝑗|𝑏
′ 𝛃+𝐳𝑖𝑏′ 𝜸)
∑ ∑ 𝑒(𝐱𝑖𝑗|𝑏′ 𝛃+𝐳𝑖𝑏
′ 𝜸)𝐽𝑏𝑗=0
𝐵𝑏=1
(𝟏𝟑. 𝟐. 𝟏𝟒)
puede ser escrita como 𝑃𝑖𝑗𝑏 = 𝑃𝑖𝑗|𝑏𝑃𝑏, donde
𝑃𝑖𝑗|𝑏 =𝑒(𝐱𝑖𝑗|𝑏
′ 𝛃)
∑ 𝑒(𝐱𝑖𝑗|𝑏′ 𝛃)𝐽𝑏
𝑗=0
, 𝑃𝑏 =𝑒𝜏𝑏(𝐳𝑖𝑏
′ 𝜸+𝑉𝐼𝑖𝑏)
∑ 𝑒𝜏𝑏(𝐳𝑖𝑏′ 𝜸+𝑉𝐼𝑖𝑏)𝐵
𝑏=1
(𝟏𝟑. 𝟐. 𝟏𝟓)
siendo el valor inclusivo, 𝑉𝐼, para la 𝑙-ésima ramita 𝑉𝐼𝑖𝑏 = ln (∑ 𝑒(𝐱𝑖𝑗|𝑏′ 𝛃)𝐽𝑏
𝑗=0 ) y 𝜏𝑏 un nuevo
parámetro (si 𝜏𝑏 = 1, se tiene el MLC). Justamente si se omite esta restricción, se tiene el
modelo logit anidado [el desarrollo más amplio de este modelo lo encuentra en Greene (2012)].
Sin embargo, un modelo más general a éste último lo propuso McFadden en 1978, el modelo
generalizado de valor extremo (GEV, en inglés).
Otra variante del MLM es el modelo logit de parámetros aleatorios o logit mixto (RPL,
por sus siglas en inglés), quien permite que las alternativas de elección estén correlacionadas.
Los pormenores de los modelos GEV y logit jerárquico los puede encontrar en Train (2002),
mientras que para RPL véase Camerón et al. (2005).
Un caso especial de los modelos de elección discreta: el modelo tobit
Un tema que vale la pena darle espacio es el de variables dependientes limitadas (o
respuestas limitadas. Allí se abordan esencialmente tres aspectos: censuramiento (censoring),
truncamiento (truncation) y selección de muestra (sample selection).
El primer caso sucede cuando se observan los regresores para la muestra entera, pero para
algunas observaciones solo se tiene información limitada acerca de la regresora (que es menor
a 𝑙, por ejemplo); por su lado, el truncamiento limita los datos mediante la exclusión de
observaciones basadas en características de la regresora (por ejemplo, en los casos donde la
regresora es menor a 100, éstos podrían ser eliminados). Es decir, mientras que el truncamiento
cambia la muestra, el censuramiento no (Long, 1997).
Cuando se desea estimar un modelo con una muestra censurada, no es loable reemplazar
aquellas observaciones que tienen información limitada por 0, así como tampoco lo es cuando
se elimina dichas observaciones (truncamiento). Sin embargo, lo que sí se puede hacer es
estimar un modelo tobit o modelo de regresión censurado, el cual emplea toda la información
disponible.
Una ilustración sencilla del modelo tobit lo puede encontrar en Gujarati et al. (2010),
mientras que los pormenores los puede encontrar en Long (1997), Verbeek (2004), Greene
(2012), Cameron et al. (2005) y Tobin (1958). Este último es el articulo pionero sobre modelos
estructurales para censoring y truncation.
13.3 MODELOS CON REGRESADA A ESCALA ORDINAL
Si el orden en el que se definen las categorías de una regresora interesa, no es muy preciso
valerse de los modelos del apartado 13.2. De hecho, se deberían que usar modelos de
respuesta ordenada. Tal como manifiesta Agresti (2010), varias ventajas pueden ser ganadas
al tratar a una variable categórica ordenada como ordinal envés de nominal:
La descripción ordinal de datos puede usar medidas que son similares a las usadas en
la regresión ordinaria y el análisis de varianza para variables cuantitativas, como
correlaciones, pendientes, y medias.
Los análisis ordinales pueden usar una mayor variedad de modelos, y esos modelos son
más parsimoniosos y tienen interpretaciones más simples que los modelos estándar para
variables nominales, como las líneas de base de los modelos logit categóricos.
Los métodos ordinales tienen mayor poder para detectar alternativas relevantes de
tendencias o localización para la hipótesis nula de "ningún efecto" de una variable
explicativa sobre la variable de respuesta.
Los modelos ordinales interesantes tienen aplicación en escenarios donde los modelos
nominales estándar son intrascendentes o sino tiene parámetros de más para ser
probado por bondad de ajuste.
Ahora, hay dos formas relativamente extremas para analizar regresoras categóricas
ordenadas. La primera ignora la naturaleza categórica de la regresora y usa métodos
paramétricos estándar para regresoras continuas. Este enfoque asigna puntuaciones numéricas
a las categorías ordenadas y luego usa MCO como una regresión lineal y el ANOVA. La otra forma
restringe el análisis solamente a métodos que usan sólo la información de ordenamiento acerca
de las categorías. Aquí están los métodos no paramétricos basados en rangos y los modelos para
las probabilidades acumulativas de respuesta (Agresti, 2010).
A los métodos que se encuentran dentro del primer enfoque, Powers et al. (1999) los
denomina scoring methods. Sin embargo, empiezo el recorrido planteando algunos modelos
asociados al segundo enfoque.
LOGIT Y PROBIT ORDENADOS
Una vez más, las teorías subyacentes de estos modelos vienen a ser el de utilidad aleatoria
y variable latente. De acuerdo a esta última, si se asume que el individuo 𝑖 se enfrenta a 𝐽
alternativas cualitativas ordenables, se podría establecer que:
𝑌𝑖 = 𝑗 𝑠𝑖 𝜏𝑗−1 ≤ 𝑌𝑖∗ < 𝜏𝑗 , 𝑗 = 1, … , 𝐽 (𝟏𝟑. 𝟑. 𝟏)
𝑌𝑖∗ = 𝐱𝑖
′𝛃 + 𝑢𝑖 (𝟏𝟑. 𝟑. 𝟐)
donde cada 𝜏 es un umbral o punto de corte, 𝑌𝑖∗ es la variable latente con rango −∞ hasta ∞.
Las categorías extremas son definidas mediante intervalos indefinidos con 𝜏0 = −∞ y 𝜏𝐽 = ∞,
aunque algunas veces se asume que 𝜏1 = 0, de tal forma que la primera restricción sea 𝑌𝑖∗ < 0
(advierta que si 𝐽 = 2, se tiene modelo de elección binario).
El modelo (13.3.2) puede ser estimado por MV, quien requiere precisar una determinada
distribución de los errores. Si 𝑢𝑖 sigue una distribución normal estándar, se tiene el modelo
probit ordenado, cuya fda viene a ser
𝐹(𝑢) = ∫1
√2𝜋𝑒(−𝑢2/2)
𝑢
−∞
𝑑𝑡 (𝟏𝟑. 𝟑. 𝟑)
De otro lado, si 𝑢𝑖 sigue una distribución logística, se tiene el modelo logit ordenado, con fda:
𝐹(𝑢) =𝑒𝑢
1 + 𝑒𝑢 (𝟏𝟑. 𝟑. 𝟒)
Una vez especificada la distribución de los errores, se podría plantear la probabilidad de
que el individuo 𝑖 elija un específico 𝑗 (dado 𝐱𝑖) como la probabilidad asociada al área de la
distribución de los errores entre los umbrales 𝜏𝑗−1 y 𝜏𝑗. Es decir,
𝑃(𝑌𝑖 = 𝑗|𝐱𝑖) = 𝑃(𝜏𝑗−1 ≤ 𝑌𝑖∗ < 𝜏𝑗|𝐱𝑖) (𝟏𝟑. 𝟑. 𝟓)
Reemplazando (13.3.2) en (13.3.5),
= 𝑃(𝜏𝑗−1 ≤ 𝐱𝑖′𝛃 + 𝑢𝑖 < 𝜏𝑗|𝐱𝑖)
= 𝑃(𝜏𝑗−1 − 𝐱𝑖′𝛃 ≤ 𝑢𝑖 < 𝜏𝑗 − 𝐱𝑖
′𝛃|𝐱𝑖)
= 𝑃(𝑢𝑖 < 𝜏𝑗 − 𝐱𝑖′𝛃|𝐱𝑖) − 𝑃(𝑢𝑖 ≤ 𝜏𝑗−1 − 𝐱𝑖
′𝛃|𝐱𝑖)
𝑃(𝑌𝑖 = 𝑗|𝐱𝑖) = 𝐹(𝜏𝑗 − 𝐱𝑖′𝛃) − 𝐹(𝜏𝑗−1 − 𝐱𝑖
′𝛃) (𝟏𝟑. 𝟑. 𝟔)
En esta última expresión, se supone que 𝐹(𝜏0 − 𝐱𝑖′𝛃) = 𝐹(−∞ − 𝐱𝑖
′𝛃) = 0 y que 𝐹(𝜏𝐽 − 𝐱𝑖′𝛃) =
𝐹(∞ − 𝐱𝑖′𝛃) = 1.
Sin embargo, otra forma de aproximar los modelos bajo estudio es a través de las
probabilidades acumuladas. La probabilidad acumulada de que el individuo 𝑖 elija la
alternativa 𝑗 o menos, es definida como
𝑃(𝑌𝑖 ≤ 𝑗) = ∑ 𝑃(𝑌𝑖 = 𝑚)
𝑗
𝑚=1
, 𝑗 = 1, … , 𝐽 (𝟏𝟑. 𝟑. 𝟕)
Esta probabilidad acumulada puede ser definida como una fda,
𝑃(𝑌𝑖 ≤ 𝑗) = 𝐹(𝛾𝑗 + 𝐱𝑖′𝛃), 𝑗 = 1, … , 𝐽 − 1 (𝟏𝟑. 𝟑. 𝟖)
donde 𝛾𝑗 es el umbral y 𝑗 = 𝐽 se omite dado que 𝑃(𝑌𝑖 ≤ 𝐽) = 1. Si dicha fda sigue una distribución
acumulada logística, se tiene el modelo logit ordenado y si sigue una distribución normal
estándar, se tiene el modelo probit ordenado. Los detalles de este enfoque los puede encontrar
en Powers et al. (1999), Kutner et al. (2005) y, con mayor profundización, en Agresti (2010).
Para terminar esta parte, en línea con lo que señala Long (1997), la elección entre el
modelo logit ordenado y modelo probit ordenado es básicamente por conveniencia; no
obstante, en algunos casos la estructura del modelo definido puede necesitar específicamente
de alguno de ellos.
Estimación e interpretación
Desde la perspectiva de variable latente, si se definen el vector de umbrales (thresholds)
𝝉 y el vector de parámetros 𝛃 que se estimarán conjuntamente por MV. De la ecuación (13.3.6),
𝑃(𝑌𝑖 = 𝑗|𝐱𝑖 , 𝛃, 𝝉) = 𝐹(𝜏𝑗 − 𝐱𝑖′𝛃) − 𝐹(𝜏𝑗−1 − 𝐱𝑖
′𝛃) (𝟏𝟑. 𝟑. 𝟔′)
Si las 𝑛 observaciones son independientes, la FV será:
𝐿(𝛃, 𝝉|𝐲, 𝐗) = ∏ ∏ 𝑃(𝑌𝑖 = 𝑗|𝐱𝑖, 𝛃, 𝝉)𝑑𝑖𝑗
𝑱
𝒋=𝟏
𝒏
𝒊=𝟏
(𝟏𝟑. 𝟑. 𝟗)
donde 𝑑𝑖𝑗 = 1 si 𝑌𝑖 = 𝑗, y 0 en otros casos. Con ello, se definen 𝐽 variables dummy, donde sólo
una de ellas es 1 para cualquier 𝑖. Si se toma logaritmos a ambos miembros, la FLV vendrá dada
por
ln 𝐿(𝛃, 𝝉|𝐲, 𝐗) = ∑ ∑ 𝑑𝑖𝑗ln[𝐹(𝜏𝑗 − 𝐱𝑖′𝛃) − 𝐹(𝜏𝑗−1 − 𝐱𝑖
′𝛃)]
𝐽
𝑗=1
𝒏
𝒊=𝟏
(𝟏𝟑. 𝟑. 𝟏𝟎)
En (13.3.10), se demuestra que los estimadores calculados son consistentes, distribuidos
asintóticamente como una normal y eficientes en muestras grandes.
Ahora bien, ¿cómo se interpretan los estimadores de MV obtenidos? Del modelo (13.3.2),
que se supone que es lineal en 𝑌∗, el cambio parcial en 𝑌∗ respecto a 𝑋𝑘 es 𝛽𝑘; sin embargo,
esto no es del todo claro y válido empíricamente. Una segunda interpretación, común en este
tipo de modelos, puede hacerse si se le aplica derivada parcial a (13.3.6) respecto a 𝑋𝑘, cetaris
paribus.
Sin embargo, algunos lo interpretan en términos de razón de probabilidades. A este
respecto, se debe tener cuidado con el supuesto de razones proporcionales o supuesto de
regresión paralela (véase Long, 1997).
SCORING METHODS
Tal como se afirmó anteriormente, estos métodos se caracterizan por asignar puntuaciones
numéricas a las categorías. Los detalles de los scoring méthods que se desarrollan en esta parte
lo encuentra en Powers et al. (1999).
Integer scoring
Este método, el más simple de los scoring methods, asigna números esteros para
representar las categorías ordenadas, suponiendo que la distancia entre las categorías
adyacentes son todas iguales. Sin embargo, hay muchas formas de enumerar categorías de tal
forma que cumplan con ese supuesto. Por ejemplo, si se tiene 4 categorías, éstas pueden ser
enumeradas como (0,1,2,3) o (2,4,6,8), proveyendo de resultados indistinguibles (por
conveniencia, se debe iniciar en 1 y la diferencia entre dos contiguas también debe ser 1).
Midpoint scoring
Se aplica en casos donde la variable ordinal resulta de medidas categóricas de variables
que son conceptualmente continuas. Así, los puntos de corte que traspasan los intervalos de
cada categoría serían conocidos. Con ello, se podría atribuir al punto medio entre los puntos
de corte para cada intervalo como el valor que representa todos los casos que caen en el
intervalo. No obstante, hay dos problemas en este método: i) si la distribución dentro de un
intervalo no es cercanamente simétrica, el punto medio no será una buena estimación, ii) la
última categoría es a menudo indeterminada, puesto que está asociada a un intervalo
indefinido.
Logits para datos agrupados
Para datos agrupados, se podrían usar tres tipos de logits: logít con línea de base (BL, en
inglés), logit adyacente y logit acumulado (CL, en inglés). El primero es igual al logaritmo de la
razón entre la probabilidad de la categoría 𝑗 y la probabilidad de la categoría de comparación,
𝑙 (𝑗 = 0, … , 𝐽; ∀𝑗 ≠ 𝑙). El segundo es la misma razón, pero de categorías contiguas. Por último,
el tercero se precisa como: 𝐶𝐿𝑗 = ln[𝑃(𝑌𝑖 ≤ 𝑗) 𝑃(𝑌𝑖 > 𝑗)⁄ ].
EXTENSIÓN: MODELOS CON REGRESORA DE CONTEO
Algunas veces la regresora cualitativa es de conteo, a saber, indica el número de veces
que algún evento ha ocurrido (algo distinto al caso en el que la regresora está a escala ordinal).
Así, sería un error tratarlas como variables continuas y usarlas en el modelo lineal general para
fines de estimación. No obstante, lo que sí se pueden usar son algunos de los modelos que se
plantean a continuación.
Modelo de regresión de Poisson
Es un modelo de regresión no lineal (en los parámetros) que funciona muy bien con una
distribución de probabilidad de Poisson. Si se define la v.a 𝑌, la función de probabilidad de esa
distribución discreta, con parámetro 𝜇 > 0, es
𝑓(𝑌) = 𝑃(𝑌 = 𝑗|𝜇) =𝜇𝑌𝑒−𝜇
𝑌!, 𝑗 = 0,1,2, … (𝟏𝟑. 𝟑. 𝟏𝟏)
donde 𝑌! representa el factorial de 𝑗 (número de veces que ocurre un evento) y se supone que
la probabilidad de una ocurrencia es constante en cualquier punto en el tiempo (cuando esto
no es así, 𝑓(𝑌) = [(𝑡𝜇)𝑌𝑒−𝑡𝜇] 𝑌!⁄ ). Se demuestra que su media y varianza son las mismas
(conocido como equidispersion):
𝐸(𝑌) = 𝜇
𝜎2(𝑌) = 𝜇
Si hay 𝑛 v.a independientes que siguen una distribución Poisson, el modelo de regresión
de Poisson (MRP), con errores 𝑣𝑖, se puede plantear tal como
𝑌𝑖 = 𝐸(𝑌𝑖|𝐱𝒊) + 𝑣𝑖 = 𝜇𝑖 + 𝑣𝑖 , 𝑖 = 1, … , 𝑛 (𝟏𝟑. 𝟑. 𝟏𝟐)
donde 𝜇𝑖, la media condicional para cada individuo 𝑖, admite varias formas funcionales:
𝜇𝑖 = 𝜇(𝐱𝒊, 𝛃) = 𝐱𝒊′𝛃
𝜇𝑖 = 𝜇(𝐱𝒊, 𝛃) = 𝑒𝐱𝒊′𝛃
𝜇𝑖 = 𝜇(𝐱𝒊, 𝛃) = ln(𝒙𝒊′𝜷)
siendo la más popular la segunda, aunque en cada una de ellas 𝜇𝑖 siempre será positivo (una
condición necesaria). Así, en general, se podría plantear
𝑃(𝑌𝑖 = 𝑗|𝐱𝒊) =𝜇(𝐱𝒊, 𝛃)𝑌𝑖𝑒−𝜇(𝐱𝒊,𝛃)
𝑌𝑖! (𝟏𝟑. 𝟑. 𝟏𝟑)
La estimación del MRP es principalmente por MV. En tal sentido, la FV estará dada por:
𝐿(𝛃|𝐲, 𝐗) = ∏ 𝑃(𝑌𝑖 = 𝑗|𝜇𝑖) = ∏𝜇(𝐱𝒊, 𝛃)𝑌𝑖𝑒−𝜇(𝐱𝒊,𝛃)
𝑌𝑖!
𝑛
𝑖=1
𝒏
𝒊=𝟏
(𝟏𝟑. 𝟑. 𝟏𝟒)
Algunos detalles más al respecto los puede encontrar en Kutner et al. (2005) y Greene
(2012), mientras que las formas de interpretación lo puedes encontrar en Long (1997).
Modelo de regresión binomial negativo
“El modelo de regresión de Poisson raramente se ajusta en la práctica ya que en la mayoría
de aplicaciones la varianza condicional es más grande que la media condicional” (Long, 1077,
p. 230). Quizá por ello, el modelo de Poisson es solo el punto de partida para una amplia
búsqueda de especificaciones (Greene, 2012). Una de las especificaciones que absorbe el
problema del modelo de Poisson –el de heterogeneidad- se denomina modelo de regresión
binomial negativo (MRBN, en adelante), el cual se desarrolla en condiciones de overdispersion.
En el MRBN, la media es una variable aleatoria
�̌�𝑖 = 𝑒𝐱𝒊′𝛃+𝑣𝑖 (𝟏𝟑. 𝟑. 𝟏𝟓)
donde el término de error 𝑣𝑖 se supone no correlacionado con 𝐱𝒊. Además, �̌�𝑖 = 𝑒𝐱𝒊′𝛃𝑒𝑣𝑖 = 𝜇𝑖𝑒
𝑣𝑖.
Suponiendo que 𝐸(𝑒𝑣𝑖) = 1, 𝐸(�̌�𝑖) = 𝜇𝑖. Ahora, si se introduce (13.3.15) en (13.3.11), no se
podrá hallar 𝑃(𝑌|𝐱𝒊, 𝑒𝑣), pues se desconoce 𝑒𝑣𝑖. Sin embargo, si 𝑔 es la fdp de 𝑒𝑣𝑖, luego
𝑃(𝑌𝑖|𝐱𝒊) = ∫ [𝑃(𝑌|𝐱𝒊, 𝑒𝑣) × 𝑔(𝑒𝑣𝑖)]𝑑(𝑒𝑣𝑖)∞
0
(𝟏𝟑. 𝟑. 𝟏𝟓)
Para resolver (13.3.15), se debe especificar la fdp de 𝑒𝑣. Una especificación común es la
distribución gamma con parámetro 𝑤𝑖:
𝑔(𝑒𝑣𝑖) =𝑤𝑖
𝑤𝑖
Γ(𝑤𝑖)(𝑒𝑣𝑖)𝑤𝑖−1𝑒−𝑒𝑣𝑖𝑤𝑖 (𝟏𝟑. 𝟑. 𝟏𝟔)
donde Γ(𝑤) es la función gamma. Así, la distribución de probabilidad binomial negativa, de
(13.3.15) y (13.3.16), se define por:
𝑃(𝑌𝑖|𝐱𝒊) =Γ(𝑌𝑖 + 𝑤𝑖)
𝑌𝑖! Γ(𝑤𝑖)(
𝑤𝑖
𝑤𝑖 + 𝜇𝑖
)𝑤𝑖
(𝜇𝑖
𝑤𝑖 + 𝜇𝑖
)𝑌𝑖
(𝟏𝟑. 𝟑. 𝟏𝟕)
donde 𝐸(𝑌𝑖|𝐱𝒊) = 𝜇𝑖 y 𝑣𝑎𝑟(𝑌𝑖|𝐱𝒊) = 𝜇𝑖(1 +𝜇𝑖
𝑤𝑖⁄ ). La estimación de este modelo se efectúa
también por MV.
Un tercer modelo para datos de conteo se denomina modelos para conteos truncados.
Los detalles de este tipo de modelos los encuentra, por ejemplo, en Long (1997).
top related