13. modelos economÉtricos con regresada cualitativa€¦ · 13. modelos economÉtricos con...

13. MODELOS ECONOMÉTRICOS CON

REGRESADA CUALITATIVA

En este capítulo se examinan modelos de regresión donde la variable endógena es de

característica cualitativa, los denominados modelos de elección discreta o modelos de datos

categóricos. En ellos, la regresora cualitativa puede estar a escala nominal o a escala ordinal.

En el primer caso, si sólo admite dos alternativas dos categorías, para ser más preciso, se

procede a construir y analizar un modelo de elección binomial (binary choice models),

mientras que si admite más de dos alternativas se procede con un modelo de elección

multinomial).

Por su parte, en el apartado 13.3 se analizan modelos asociados al segundo caso; dentro

de ellos, se desarrolla un grupo de modelos en el que la regresora es del tipo de cuenta: los

modelos para conteos (models for counts of events, en inglés) o modelos para datos de

cuenta.

Para un recorrido histórico de la evolución de los métodos para el análisis de datos

categóricos, véase el capítulo 11 de Agresti (2007) o el capítulo 16 de Agresti (2002).

13.1 MODELOS DE ELECCIÓN BINOMIAL

Hay dos enfoques teóricos que sirven para derivar y desarrollar los binary choice models:

el modelo de utilidad aleatoria (RUM, por sus siglas en inglés) y el modelo de variables

latentes.

En el primer enfoque, se supone que el decisor racional 𝑖 debe elegir entre dos opciones

excluyentes, 𝑎 y 𝑏, aquella que le provea una mayor utilidad. Si 𝑈𝑎𝑖 y 𝑈𝑏𝑖 son las utilidades de

esas dos alternativas, éstas pueden ser una función lineal de factores observables y no

observables:

𝑈𝑎𝑖 = 𝐰′𝛃𝑎 + 𝐳𝑎′ 𝛄𝑎 + 𝑢𝑎𝑖

𝑈𝑏𝑖 = 𝐰′𝛃𝑏 + 𝐳𝑏′ 𝛄𝑏 + 𝑢𝑏𝑖 (𝟏𝟑. 𝟏. 𝟏)

donde 𝐰 es el vector de características observables y medibles de los decisores; 𝐳𝑎 y 𝐳𝑏 denotan

atributos específicos de las dos elecciones; 𝑢𝑎 y 𝑢𝑏 son elementos estocásticos conocido sólo

por los agentes decisores mas no por el investigador. Suponiendo que 𝑌𝑖 = 1 indica la elección

por parte del decisor de la alternativa 𝑎 y 𝑌𝑖 = 0 la elección de la alternativa 𝑏; es decir,

𝑌𝑖 = {1, 𝑠𝑖 𝑈𝑎𝑖 > 𝑈𝑏𝑖

0, 𝑠𝑖 𝑈𝑎𝑖 < 𝑈𝑏𝑖

se tiene:

𝑃(𝑌𝑖 = 1|𝐰, 𝐳𝑎 , 𝐳𝑏) = 𝑃(𝑈𝑎𝑖 > 𝑈𝑏𝑖)

= 𝑃[𝐰′𝛃𝑎 + 𝐳𝑎′ 𝛄𝑎 + 𝑢𝑎𝑖 − (𝐰′𝛃𝑏 + 𝐳𝑏

′ 𝛄𝑏 + 𝑢𝑏𝑖) > 0|𝐰, 𝐳𝑎, 𝐳𝑏]

= 𝑃[𝐰′(𝛃𝑎 − 𝛃𝑏) + 𝐳𝑎′ 𝛄𝑎 − 𝐳𝑏

′ 𝛄𝑏 + (𝑢𝑎𝑖 − 𝑢𝑏𝑖) > 0|𝐰, 𝐳𝑎, 𝐳𝑏]

= 𝑃[𝐱′𝛃 + 𝜀𝑖 > 0|𝐱] (𝟏𝟑. 𝟏. 𝟐)

donde 𝐱′𝛃 recoge todos los elementos observables de la diferencia de las dos funciones de

utilidad y 𝜀𝑖 recoge las diferencias entre los elementos aleatorios, cuya función de distribución

asociada determinará el tipo de modelo a estimar.

El segundo enfoque supone modelar una regresión latente lineal,

𝑌𝑖∗ = 𝐱𝑖

′𝛃 + 𝑢𝑖 (𝟏𝟑. 𝟏. 𝟑)

donde 𝑌𝑖∗ es una variable latente (inobservable) que genera las 𝑌𝑖 observables y 𝐱𝑖

′𝛃 recibe el

nombre de función índice. La idea de una variable latente ese puede ilustrar con un individuo

que consume drogas (𝑌 = 1) o no (𝑌 = 0), dependiendo, por ejemplo, de su edad (que

supuestamente sería inobservable). La propensión a consumir drogas se reduciría a medida que

pasan los años; por lo que alcanzado un año determinado (cuando pasa los 50 años), el individuo

dejaría las drogas y pasaría de 1 a 0. Es decir, 𝑌𝑖∗ con rango de variación supuesto ∞ < 𝑌𝑖

∗ < ∞,

está asociada con 𝑌𝑖 a través de la ecuación

𝑌𝑖 = {1, 𝑠𝑖 𝑌𝑖

∗ > 𝜑

0, 𝑠𝑖 𝑌𝑖∗ ≤ 𝜑

siendo 𝜑 el umbral o threshold. Cuando la variable latente traspasa el umbral, la variable

observable cambia de 1 a 0 o viceversa. En el caso particular de que 𝜑 = 0, la probabilidad de

que 𝑌𝑖 = 1 será

𝑃(𝑌𝑖 = 1|𝐱) = 𝑃(𝑌𝑖∗ > 0|𝐱)

= 𝑃(𝐱𝑖′𝛃 + 𝑢𝑖 > 0|𝐱)

= 𝑃(−𝑢𝑖 ≤ 𝐱𝑖′𝛃)

= 𝐹(𝐱𝑖′𝛃) (𝟏𝟑. 𝟏. 𝟒)

donde 𝐹(𝑡) representa la función de distribución acumulada de −𝑢𝑖 o, en el caso de que se

trate de una distribución simétrica, de 𝑢𝑖. El supuesto de distribución de esta última, como en

el anterior enfoque, determinará el tipo de modelo a estimar.

Perciba que los resultados finales de ambos enfoques son parecidos, razón por la cual, de

una u otra forma, justifican la existencia de los modelos de elección discreta.

MODELO LINEAL DE PROBABILIDAD (MLP)

El linear probability model utiliza una variable cualitativa binaria (con sólo dos

categorías) como regresora. Considérese el modelo lineal

𝑌𝑖 = 𝐱𝑖′𝛃 + 𝑢𝑖 , 𝑖 = 1, … , 𝑛 (𝟏𝟑. 𝟏. 𝟓)

donde 𝑌𝑖 es la observación de la variable dependiente en el periodo 𝑖 que adopta el valor 1 si

el evento sucede y 0 en caso contrario, 𝐱𝑖′ es el 𝑖-ésimo vector fila de regresores fijos y 𝑢𝑖 es el

término de error. Dado que 𝐸(𝑢𝑖) = 0, se tiene

𝐸(𝑌𝑖|𝐱𝒊) = 𝐱𝑖′𝛃 (𝟏𝟑. 𝟏. 𝟔)

Esta esperanza condicional puede interpretarse como la probabilidad condicional de que

el evento 𝑌𝑖 ocurre o no ocurre, dado el vector 𝐱𝒊; de ahí el nombre de modelos de probabilidad

(lineal en este caso). Si 𝑃(𝑌𝑖 = 1|𝐱𝒊) representa la probabilidad de que el suceso ocurre y 1 −

𝑃(𝑌𝑖 = 1|𝐱𝒊) representa la probabilidad de que el suceso no ocurre, entonces, 𝑌𝑖 seguirá una

distribución de probabilidad de Bernoulli:

𝒀𝒊 PROBABILIDAD

1 𝑃(𝑌𝑖 = 1|𝐱𝒊)

0 1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)

Total 1

Por definición de la esperanza matemática, se puede deducir que 𝐸(𝑌𝑖) = 1[𝑃(𝑌𝑖 = 1|𝐱𝒊)] +

0[1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)] = 𝑃(𝑌𝑖 = 1|𝐱𝒊). Así,

𝐸(𝑌𝑖|𝐱𝒊) = 𝑃(𝑌𝑖 = 1|𝐱𝒊) = 𝐱𝑖′𝛃 (𝟏𝟑. 𝟏. 𝟕)

Puesto que una probabilidad está limitado al intervalo 0 ≤ 𝑃(𝑌𝑖 = 1|𝐱𝒊) ≤ 1, de (13.1.7) se

tiene la restricción 0 ≤ 𝐸(𝑌𝑖|𝐱𝑖) ≤ 1; es decir, la esperanza condicional (o probabilidad

condicional) debe estar entre 0 y 1.

Problemas del MLP

No normalidad de los errores

El supuesto de normalidad para 𝑢𝑖 ya no se conserva en los MLP porque, al igual que 𝑌𝑖, 𝑢𝑖

sólo toma dos valores; es decir, también sigue la distribución de Bernoulli:

Tabla ¡Error! No hay texto con el estilo especificado en el documento.-1

Para propósitos de estimación, la normalidad de los errores se puede omitir, por lo que la

estimación del MLP por MCO sería viable, lográndose en tal sentido estimadores insesgados. Sin

embargo, para fines de inferencia estadística puede demostrarse mediante el teorema del

límite central que, conforme el tamaño de la muestra aumenta indefinidamente, los

estimadores MCO tienden a tener una distribución normal (véase Malinvaud, 1966). En tal

sentido, este problema no resulta ser muy restrictivo.

Varianzas heteroscedásticas de los errores

Aunque 𝐸(𝑢𝑖) = 0 y 𝑐𝑜𝑣(𝑢𝑖 , 𝑢𝑗) = 0 para 𝑖 ≠ 𝑗, los errores presentan heteroscedasticidad.

Esto se puede demostrar fácilmente teniendo en cuanta la distribución de probabilidades de

𝒖𝒊 PROBABILIDAD

Si 𝑌𝑖 = 1 1 − 𝐱𝑖′𝛃 𝑃(𝑌𝑖 = 1|𝐱𝒊)

Si 𝑌𝑖 = 𝑂 −𝐱𝑖′𝛃 1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)

Total 1

los errores (Tabla ¡Error! No hay texto con el estilo especificado en el documento.-1) y la definición

de la varianza:

𝑣𝑎𝑟(𝑢𝑖) = [𝑃(𝑌𝑖 = 1|𝐱𝒊)](1 − 𝐱𝑖′𝛃)2 + [1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)](−𝐱𝑖

′𝛃)2

= [𝑃(𝑌𝑖 = 1|𝐱𝒊)][1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)]2 + [1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)][−𝑃(𝑌𝑖 = 1|𝐱𝒊)]2

𝑣𝑎𝑟(𝑢𝑖) = 𝑃(𝑌𝑖 = 1|𝐱𝒊)[1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)] (𝟏𝟑. 𝟏. 𝟖)

En (13.1.8) la varianza de los errores depende de los valores de 𝐱, por lo que la presencia

de heteroscedasticidad es incuestionable y, como consecuencia, los estimadores de MCO serán

ineficientes. Una forma de resolver el problema de heteroscedasticidad (Gujarati, 2010) es

transformar el modelo (13.1.5) dividiendo a ambos lados 𝜎𝑢𝑖; es decir, aplicar el método

Mínimos Cuadrados Ponderados (MPC). Por la ecuación (13.1.8) se sabe que 𝜎𝑢𝑖=

√𝑃(𝑌𝑖 = 1|𝐱𝒊)[1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)] = √𝐱𝑖′𝛃(𝟏 − 𝐱𝑖

′𝛃) y permitiendo que 𝜎𝑢𝑖= 𝑧𝑖, se tiene:

𝑌𝑖

𝑧𝑖

= 𝛽1

𝑧𝑖

+ 𝛽2

𝑋2𝑖

𝑧𝑖

… + 𝛽𝑘

𝑋𝑘𝑖

𝑧𝑖

+𝑢𝑖

𝑧𝑖

(𝟏𝟑. 𝟏. 𝟗)

En la práctica, se desconoce la verdadera 𝐸(𝑌𝑖|𝐱𝑖) y en consecuencia, se desconocen las

ponderaciones 𝑤𝑖. Usando información muestral se puede estimar 𝐸(𝑌𝑖|𝐱𝑖) con �̂�𝑖, que no es

otra cosa que la probabilidad condicional estimada de que ocurra el suceso 𝑌𝑖. Si �̂�𝑖 estima a la

verdadera empero desconocida 𝑃𝑖, o lo que es lo mismo que �̂�𝑖 estima a 𝐸(𝑌𝑖|𝐱𝑖), entonces

�̂�𝑢𝑖= 𝑧𝑖 = √�̂�𝑖(1 − �̂�𝑖) = √�̂�𝑖(1 − �̂�𝑖) (𝟏𝟑. 𝟏. 𝟏𝟎)

𝑌𝑖

�̂�𝑖

= 𝛽1

�̂�𝑖

+ 𝛽2

𝑋2𝑖

�̂�𝑖

… + 𝛽𝑘

𝑋𝑘𝑖

�̂�𝑖

+𝑢𝑖

�̂�𝑖

(𝟏𝟑. 𝟏. 𝟏𝟏)

Perciba que 𝑢𝑖 ahora son homoscedásticos pues se encuentran estandarizados.

Por simplicidad, esta última ecuación pude quedar especificada como

𝑌𝑖∗ = �̂�1

∗ + �̂�2∗𝑋2𝑖

∗ + ⋯ + �̂�𝑘∗𝑋𝑘𝑖

∗ + �̂�𝑖∗ (𝟏𝟑. 𝟏. 𝟏𝟐)

donde las variables en asterisco están ponderadas por �̂�𝑖 y los betas en asterisco son

los estimadores de MCP.

No cumplimiento de la restricción 0 ≤ 𝐸(𝑌𝑖|𝐱𝑖) ≤ 1

Empíricamente, no se espera que �̂�𝑖 siempre se encuentre entre 0 y 1 debido a que MCO

no admite la restricción de desigualdad. Hay dos formas de establecer que �̂�𝑖 se encuentre

entre 0 y 1. Una de ellas es estimar el MLP mediante el método usual MCO y cambiar aquellos

valores de �̂�𝑖 que no se encuentran entre 0 y 1 (ver aporte adjunto). El segundo consiste en

diseñar un mecanismo que garantice que las probabilidades condicionales estimadas �̂�𝑖 se

encuentren entre 0 y 1: los modelos logit y probit.

Otros problemas

Aporte

Para evitar la pérdida

de grados de libertad,

podemos dejar que

�̂�𝑖 = 0.01 cuando los

�̂�𝑖 sean negativos o

iguales a cero y �̂�𝑖 =

0.99 cuando superen o

igualen a 1.

El R-cuadrado calculado, a menudo, se encuentra subestimado. Esto se puede verificar

graficando el diagrama de dispersión del modelo estimado, el cual deja entrever que los datos

se encuentran ubicados en 1 o en 0 más no a lo a lo largo de la línea de regresión.

Por último, Long (1997) admite que el mayor problema del MLP es su forma funcional.

Puesto que el modelo es lineal, un incremento unitario en 𝑋𝑘 resulta en un cambio constante

de 𝛽𝑘 (manteniendo constante el resto de factores), independientemente del valor que admite

𝑋𝑘. Esto, muchas veces, no es loable.

(Fichero mlp.wf1)

Para ejemplificar todo acerca del MLP se considera los datos facilitados por PROÉTICA, los

cuales corresponden a la VII Encuesta Nacional sobre percepciones de la corrupción en el Perú

2012, ejecutada por IPSOS Apoyo. De las 5914 encuestas, aquí solo se considera 5217, puesto

que se omitieron aquellas en las que la variable dependiente estaba asociada a la categoría

“indeciso”. Así, se tiene

𝑌𝑖 = 𝛽1 + 𝛽2𝑚𝑎𝑠𝑐𝑖 + 𝛽3𝑟𝑒𝑔𝑐𝑖 + 𝛽2𝑟𝑒𝑔𝑠𝑖 + 𝑢𝑖

donde 𝑌𝑖 = 1 si la persona aprueba la gestión de Ollanta Humala como presidente de la

República y 𝑌𝑖 = 0 si la persona desaprueba dicha gestión, 𝑚𝑎𝑠𝑐 es una dummy que admite 1 si

el individuo es masculino y 0 si es femenino, 𝑟𝑒𝑔𝑐 y 𝑟𝑒𝑔𝑠 son también variables dummy donde

𝑟𝑒𝑔𝑐𝑖 = {1, 𝑠𝑖 𝑒𝑙 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜 𝑖 𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑖ó𝑛 𝑐𝑜𝑠𝑡𝑎0, 𝑒𝑛 𝑜𝑡𝑟𝑜𝑠 𝑐𝑎𝑠𝑜𝑠

𝑟𝑒𝑔𝑠𝑖 = {1, 𝑠𝑖 𝑒𝑙 𝑖𝑛𝑑𝑖𝑣𝑖𝑑𝑢𝑜 𝑖 𝑒𝑠 𝑑𝑒 𝑙𝑎 𝑟𝑒𝑔𝑖ó𝑛 𝑠𝑖𝑒𝑟𝑟𝑎0, 𝑒𝑛 𝑜𝑡𝑟𝑜𝑠 𝑐𝑎𝑠𝑜𝑠

Evidentemente, se omitieron las categorías femenino y región selva para evitar la trampa de

la variable dicotómica. Los resultados de aplicar MCO al modelo anterior en el paquete Eviews

se muestran en la Tabla ¡Error! No hay texto con el estilo especificado en el documento.-2.

Aplicativo 13-1

La tabla anterior indica que las variables son significativas tanto a nivel individual como a nivel

global, aunque hay problemas con el R-cuadrado. El coeficiente de la variable masc (0.058)

mide la diferencia en la probabilidad de aprobar la gestión de Humala como Presidente entre

varones y mujeres, independientemente de la región de procedencia (Se deja para el lector

identificar qué es lo que mide el intercepto del modelo anterior).

Veamos si la estimación verifica los problemas de un MLP: i) la muestra es relativamente grande

por lo que los errores se distribuirán como una normal (más adelante se desarrollará pruebas

estadísticas formales para ello), ii) es posible que haya heteroscedasticidad en el modelo, iii)

cada una de las probabilidades estimadas cumplen la restricción 0 ≤ �̂�𝑖 ≤ 1, iv) el R-cuadrado

es muy pequeño y, v) la forma funcional es incorrecta (la Gráfica ¡Error! No hay texto con el

estilo especificado en el documento..1 es un ejemplo de cómo se ajustan los datos a la línea de

regresión cuando la variable 𝑌 es binaria).

Gráfica ¡Error! No hay texto con el estilo especificado en el documento..1

La corrección del segundo problema pasa por aplicar MCP. La Tabla ¡Error! No hay texto con el

estilo especificado en el documento.-3 muestra los nuevos resultados.

En esta última tabla, los errores estándar son menores, algo provechoso al momento de hacer

inferencia.

MODELO LOGIT

Recuerde que

𝑃(𝑌𝑖 = 1|𝐱𝒊) = 𝐹(𝐱𝑖′𝛃) (𝟏𝟑. 𝟏. 𝟒)

donde 𝐹(𝐱𝑖′𝛃) representa la fda de 𝑢𝑖; es decir, 𝑃(𝑢𝑖 ≤ 𝐱𝑖

′𝛃). El problema en esta parte, tal y

como lo expone Greene (2012), está en seleccionar un modelo adecuado para el lado derecho

de la ecuación (13.1.4) y, que esté acotado necesariamente entre cero y uno. Como muy bien

lo señala Verbeek (2004), parece muy natural que 𝐹 sea una función de distribución (¿por

qué?). Una de las funciones que cumple estos requisitos es la función de distribución logística,

la misma que da lugar a los modelos logit. (Perciba que si 𝐹(𝐱𝑖′𝛃) = 𝐱𝑖

′𝛃, es decir, si está

asociado a un modelo de regresión lineal, se alcanza el MLP).

Desde la óptica de los modelos de probabilidad (no lineales), la especificación de la función

de distribución acumulada logística (simétrica, por definición) está dada por

𝑃(𝑌𝑖 = 1|𝐱𝒊) =𝑒𝐱𝑖

′𝛃

1 + 𝑒𝐱𝑖′𝛃

= 𝐹(𝐱𝑖′𝛃) (𝟏𝟑. 𝟏. 𝟏𝟑)

donde se supone que los errores siguen una distribución logística estándar con 𝐸(𝑢𝑖|𝐱𝒊) = 0 y

𝑣𝑎𝑟(𝑢𝒊|𝐱𝒊) = 𝜋2/3 ≅ 3.29. Dado que 𝑃(𝑌𝑖 = 1|𝐱𝒊) = 𝐸(𝑌𝑖|𝐱𝒊), queda para el lector plantear el

modelo econométrico con la fda logística. La Gráfica ¡Error! No hay texto con el estilo especificado

en el documento..2 muestra el bosquejo de la función (13.1.13) que ajusta los datos de manera

no lineal, resolviéndose así otro de los problemas del MLP, donde se verifica

𝑙𝑖𝑚𝐱′𝛃→−∞

𝑃(𝑌𝑖 = 1|𝐱𝒊) = 0

𝑙𝑖𝑚𝐱′𝛃→+∞

𝑃(𝑌𝑖 = 1|𝐱𝒊) = 1 (𝟏𝟑. 𝟏. 𝟏𝟒)

De forma similar que en los modelos lineales, resulta interesante determinar el cambio

marginal de un regresor sobre la variable dependiente en modelos de elección binaria. En ese

sentido, el cambio parcial en la probabilidad o efecto marginal en (13.1.13) vendrá dado por

𝜕𝐹(𝐱𝑖

′𝛃)

𝜕𝑋𝑗

=𝑑𝐹(𝐱𝑖

′𝛃)

𝑑𝐱𝑖′𝛃

𝜕(𝐱𝑖′𝛃)

𝜕𝑋𝑗

= 𝑓(𝐱𝑖′𝛃)𝛽𝑗 =

𝑒𝐱𝑖′𝛃

(1 + 𝑒𝐱𝑖′𝛃)

2 𝛽𝑗 , 𝑗 = 1, … , 𝑘 (𝟏𝟑. 𝟏. 𝟏𝟓)

donde 𝑓(𝐱𝑖′𝛃) es la fdp logística y, se puede demostrar que

𝑓(𝐱𝑖′𝛃)𝛽𝑗 = 𝐹(𝐱𝑖

′𝛃)[1 − 𝐹(𝐱𝑖′𝛃)]𝛽𝑗 (𝟏𝟑. 𝟏. 𝟏𝟔)

Si se resta la unidad a ambos miembros del modelo (13.1.13), se logra la probabilidad de

fracaso; es decir,

1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊) = 1 −𝑒𝐱𝑖

′𝛃

1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊) =1

(𝟏𝟑. 𝟏. 𝟏𝟕)

Al cociente de las probabilidades de las ecuaciones (13.1.13) y (13.1.17) se denomina

razón de probabilidades (odds ratio),

𝑃(𝑌𝑖 = 1|𝐱𝒊)

1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)= 𝑒𝐱𝑖

′𝛃 (𝟏𝟑. 𝟏. 𝟏𝟖)

la cual se interpreta como el número de casos en favor de éxitos frente al de fracasos. Si se

aplica logaritmo neperiano a ambos miembros de esta última expresión se logra la

transformación logística o link function, una forma lineal del modelo logit:

𝐿𝑖 = 𝑙𝑛 (𝑃(𝑌𝑖 = 1|𝐱𝒊)

1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)) = 𝐱𝑖

′𝛃 (𝟏𝟑. 𝟏. 𝟏𝟗)

donde 𝐿 se conoce como logit, razón por la cual tiene por nombre el modelo bajo análisis. La

estimación de modelos de probabilidad no lineal como (13.1.19) pasa por identificar la

estructura de datos disponible: datos agrupados o datos no agrupados.

Datos de nivel individual (no agrupados)

En este contexto, la estimación por MCO o MCP no es posible ya que si se reemplaza en el

logit las probabilidades de éxito (1) o fracaso (0), se conseguirá expresiones irrelevantes:

𝐿𝑖 = 𝐿𝑛 (1

0) ; 𝐿𝑖 = 𝐿𝑛 (

Así pues, es preferible usar el método de Máxima Verosimilitud, MV [otros métodos puede

encontrarlos en Hosmer & Lemechow (2000, pp. 21-23)]. Suponiendo que los datos observados

corresponden a una muestra aleatoria de tamaño 𝑛 y 𝑓(𝑌𝑖|𝛃) es la función de densidad de

probabilidad que denota la probabilidad de que la v.a 𝑌𝑖 es igual a 1 o 0, dado un conjunto de

parámetros 𝛃. Puesto que dicha v.a sigue una distribución binomial, la contribución a la función

de verosimilitud de la observación 𝑖 estará dada a través de la expresión

𝑃(𝑌𝑖 = 1|𝐱𝒊)𝑌𝑖[1 − 𝑃(𝑌𝑖 = 1||𝐱𝒊)]1−𝑌𝑖 , 𝑖 = 1, … , 𝑛 (𝟏𝟑. 𝟏. 𝟐𝟎)

Si se asume que las observaciones son i.i.d., la densidad conjunta es obtenida como el

producto de los 𝑛 términos dados en (13.1.20):

𝑓(𝑌1, … , 𝑌𝑛|𝛃) = ∏ 𝑃(𝑌𝑖 = 1|𝐱𝒊)𝑌𝑖[1 − 𝑃(𝑌𝑖 = 1||𝐱𝒊)]1−𝑌𝑖

𝑖=1

(𝟏𝟑. 𝟏. 𝟐𝟏)

𝑓(𝑌1, … , 𝑌𝑛|𝛃) = ∏[𝐹(𝐱𝒊′𝛃)]𝑌𝑖[1 − 𝐹(𝐱𝒊

′𝛃)]1−𝑌𝑖

𝑖=1

(𝟏𝟑. 𝟏. 𝟐𝟐)

La densidad conjunta es justamente la función de verosimilitud (FV), 𝐿(𝛃|𝐱𝒊; 𝐲). Si se le aplica

logaritmo neperiano a (13.1.21) se logra la función log de verosimilitud (FLV). McFadden (1984)

deriva una función log de verosimilitud normalizada; es decir, FLV dividida por 𝑛. Dada su

similitud de ambas funciones, aquí se muestra la primera:

ln 𝐿(𝛃|𝐱𝒊; 𝐲) = ∑ 𝑌𝑖 ln(𝑌𝑖 = 1|𝐱𝒊) + (1 − 𝑌𝑖) ln[1 − 𝑃(𝑌𝑖 = 1||𝐱𝒊)]

𝑖=1

(𝟏𝟑. 𝟏. 𝟐𝟏′)

ln 𝐿(𝛃|𝐱𝒊; 𝐲) = ∏ 𝑌𝑖 ln 𝐹(𝐱𝒊′𝛃) + (1 − 𝑌𝑖) ln[1 − 𝐹(𝐱𝒊

′𝛃)]

𝑖=1

(𝟏𝟑. 𝟏. 𝟐𝟐′)

Si a (13.1.22’) se le aplica el principio de maximización, las condiciones de primer orden

(calificada como ecuación de verosimilitud) estarán dadas por

∂ ln 𝐿(𝛃|𝐱𝒊; 𝐲)

∂𝛃= ∑ [

𝑌𝑖

𝐹(𝐱𝒊′𝛃)

−(1 − 𝑌𝑖)

1 − 𝐹(𝐱𝒊′𝛃)

𝑖=1

𝑓𝑖𝐱𝒊 = 𝟎 (𝟏𝟑. 𝟏. 𝟐𝟑)

∂𝛃= ∑ {

𝑌𝑖 − 𝐹(𝐱𝒊′𝛃)

𝐹(𝐱𝒊′𝛃)[1 − 𝐹(𝐱𝒊

′𝛃)]}

𝑖=1

𝑓𝑖𝐱𝒊 = 𝟎 (𝟏𝟑. 𝟏. 𝟐𝟒)

donde 𝑓𝑖 es la función de densidad de probabilidad, 𝑑𝐹(𝐱𝒊′𝛃)/𝑑(𝐱𝒊

′𝛃); y además, la condición de

segundo orden (la matriz Hessiano, 𝑯, es definida negativa) comprobará si los estimadores de

MV obtenidos, �̃�, realmente maximizan la FLV. Si se reemplaza (13.1.13) y (13.1.17) en

(13.1.24), las CPO asociadas al modelo logit estarán representadas por:

∂𝛃= ∑[𝑌𝑖 − 𝐹(𝐱𝒊

′𝛃)]𝐱𝒊

𝑖=1

= 𝟎 (𝟏𝟑. 𝟏. 𝟐𝟓)

En la sección 9.1, la solución al modelo se encontraba resolviendo algebraicamente las

CPO que maximizan la FV o FLV; sin embargo, en modelos no lineales no ocurre lo mismo tal

como se puede evidenciar en (13.1.24). A decir verdad, para encontrar �̃� se requiere de

métodos numéricos (Newton-Raphson, scoring, BHHH, entre otros), cuyos detalles sobre

éstos y otros métodos puede encontrarlos, por ejemplo, en Long (1997) o Greene (2012).

Recuerde que en la estimación de MV, tal como detalla Long (1997), las propiedades de

consistencia, normalidad y eficiencia son deseables asintóticamente. De ahí que sería riesgoso

emplear MV con un tamaño de muestra menor a 100, mientras que una muestra de tamaño 500

luciría adecuado. Específicamente,

Esos valores podrían ser riesgosos dependiendo de las características del modelo y los

datos. Primero, si hay un gran número de parámetros en el modelo, son necesarias más

observaciones... Segundo, si los datos están mal condicionados... o si hay poca variación

en la variable dependiente..., es necesario una muestra grande... (Long, 1997, págs.

53-54).

Teniendo estimadores deseables, ya se puede hacer inferencia estadística. Pero antes de

ello, se verá la bondad de ajuste de un modelo logit. Generalmente, la bondad de ajuste

(goodness of fit) en modelos de elección binaria se mide a través del pseudo 𝑹𝟐 de McFadden

(1974) o likelihood ratio index (LRI):

𝐿𝑅𝐼 = 1 −ln 𝐿

ln 𝐿0

(𝟏𝟑. 𝟏. 𝟐𝟔)

donde ln 𝐿 es el logaritmo natural de la función de verosimilitud (es decir, FLV), ln 𝐿0 es la FLV

calculado solamente con el termino independiente y 0 ≤ �̌�2 ≤ 1. Para otras medidas de bondad

de ajuste véase, por ejemplo, Long (1997). Sin embargo, cabe precisar que “en los modelos con

regresada binaria, la bondad del ajuste tiene una importancia secundaria. Lo que interesa son

los signos esperados de los coeficientes de la regresión y su importancia práctica y/o

estadística” (Gujarati & Porter, 2010, pág. 563).

Como los estimadores de MV, �̃�, están distribuidos asintóticamente como una normal,

�̃� ~ 𝑁 (𝛃, 𝑣𝑎𝑟(�̃�)) (𝟏𝟑. 𝟏. 𝟐𝟕)

las pruebas de hipótesis de significancia individual se pueden efectuar a través del estadístico

𝑍 y la tabla normal estándar. No obstante, cuando se desea testear hipótesis más complejas se

puede hacer uso de los tests de Wald, Razón de Verosimilitud o Multiplicador de Lagrange. Tal

como se dijo, cuando la hipótesis nula es verdadera, estos tests son equivalentes

asintóticamente, por lo que convergerán a la misma distribución chi-cuadrado con tantos grados

de libertad como el número de restricciones impuestas.

Por la hipótesis lineal general (ecuación 11.2.13), 𝐑𝛃 = 𝐫. Esta hipótesis (nula) puede ser

contrastada con el estadístico de Wald,

𝑊 = (𝐑�̃� − 𝐫)′[𝐑𝑣𝑎𝑟(�̃�)𝐑′]

−𝟏(𝐑�̃� − 𝐫) (𝟏𝟑. 𝟏. 𝟐𝟖)

donde 𝑣𝑎𝑟(�̃�) es la varianza estimada asintótica de la matriz de varianzas-covarianzas y 𝑊

sigue una distribución chi-cuadrada con gl igual al número de restricciones (es decir, el número

de filas de la matriz de restricciones 𝐑).

El estadístico de razón de verosimilitud, por su parte, viene a ser

𝑅𝑉 = −2(ln �̂�𝑅 − ln �̂�𝑁𝑅) (𝟏𝟑. 𝟏. 𝟐𝟗)

donde �̂�𝑅y �̂�𝑅 son las funciones log de verosimilitud en los modelos restringido y no restringido,

respectivamente. 𝑅𝑉 sigue una distribución chi-cuadrada con gl igual a la diferencia del número

de parámetros de los modelos no restringido y restringido (en ese orden), siempre que esta

diferencia sea positiva. Frecuentemente, este estadístico es asociado al estadístico 𝐹 para

llevar a cabo la prueba de significancia global; véase, por ejemplo, Long (1997) y Greene (2012).

Por último, siguiendo a (Greene, 2012), el estadístico del test de multiplicador de Lagrange

está representado por

𝑀𝐿 = 𝐠′𝐕𝐠 (𝟏𝟑. 𝟏. 𝟑𝟎)

donde 𝐠 es las primeras derivadas de un modelo irrestricto evaluado en el vector de parámetros

restringido y 𝐕 es cualquiera de los tres estimadores de la matriz asintótica de covarianza del

estimador de MV, una y otra vez computado usando las estimaciones restringidas.

(Fichero logit.wf1)

Con el propósito de ilustrar el caso de un logit para datos individuales, considérese los datos

del aplicativo anterior. Ahora bien, lo que se tendría que hacer es aplicar MV a dichos datos;

por fortuna, algunos paquetes estadísticos se encargan de ello y, nos proporcionan aquellos

estimadores que maximizan la FV o FLV. La Tabla ¡Error! No hay texto con el estilo especificado en

el documento.-4 muestran la salida en Eviews 8 de MV, donde se procede así: Quick » Estimate

equation » Method (Binary Choice) » logit »

Note que ahora los coeficientes se someterán a pruebas de hipótesis a través del estadístico z.

Al 5% de nivel significancia por ejemplo, los comandos en Eviews @qnorm(0.975) y @qnorm(0.025)

otorgan los valores críticos 1.96 y -1.96, respectivamente. Si se prueba la hipótesis de que el

coeficiente de 𝑚𝑎𝑠𝑐 es cero, el valor 𝑧 = 4.238 queda en la región de rechazo, por lo que 𝑚𝑎𝑠𝑐

resulta ser significativa (al igual que las otras variables). De otro lado, los valores críticos de

LR (al 5% de nivel de significancia) usando los comandos =@qchisq(0.975,3) y =@qchisq(0.025,3)

Aplicativo 13-2

son 9.348 y 0.216, respectivamente. Con ellos, el estadístico 𝐿𝑅 = 29.58 queda en la región de

rechazo, por lo que todos los coeficientes de pendiente terminan siendo significativos.

Hay dos aspectos que son muy discutibles en este modelo: el R-cuadrado de McFadden pequeño

y los signos de las variables. Sin embargo, no puede ser motivo para dejar de hacer su

interpretación. Una muy interesante se hace a partir del odds ratio. Por ejemplo, si se toma el

antilogaritmo del coeficiente de 𝑚𝑎𝑠𝑐, 𝑒0.2367 = 1.267. Esto indica que los individuos del género

masculino están por encima de 1.2 veces más propensos a aprobar la gestión de Humala como

Presidente que los del género femenino, permaneciendo constante las demás variables.

Otra interpretación que se puede hacer es a partir de las probabilidades estimadas. Teniendo

en cuenta la ecuación (13.1.13), se deja para el lector calcular la probabilidad de que el

individuo 𝑖 = 40 apruebe la gestión de Humala como Presidente. Más detalles sobre la

interpretación de los modelos logit los puede encontrar en Long (1997, págs. 61-83).

Datos agrupados (duplicados)

Algunas veces los datos están resumidos en una tabla de contingencia o de frecuencias; es

decir, los datos se encuentran agrupados o replicados (en el contexto de STATA se llama glogit).

En ese caso, como percibirá a continuación, la variable dependiente ya no es binaria; sino, es

una proporción (una variable continua).

La Tabla ¡Error! No hay texto con el estilo especificado en el documento.-5 es modelo de tabla

de contingencia con 𝑟𝑠 celdas, cada una de las cuales contiene información sobre dos variables

independientes (cualitativas) y la variable dependiente (implícita) 𝑌𝑖. Si 𝑓 representa el número

de éxitos (𝐸) o fracasos (𝐹) de 𝑌𝑖 y 𝑛 los casos totales (𝐸 + 𝐹); entonces, las proporciones

muestrales 𝑎 𝐴⁄ , … , 𝑏 𝐵⁄ , … , 𝑐 𝐶⁄ , … , 𝑑/𝐷 pueden utilizarse como estimadores de las verdaderas

probabilidades condicionales 𝑃(𝑌𝑖 = 1|𝐱𝒊), 𝑖 = 1, … , 𝑟𝑠.

Regresor 1

Categoría 1 ... Categoría 𝑟

Regresor 2 𝑓 𝑛 𝑓 𝑛

Categoría 1 𝑎 𝐴 ... 𝑏 𝐵

⋮ ⋮ ⋮ ... ⋮ ⋮

Categoría 𝑠 𝑐 𝐶 ... 𝑑 𝐷

Si esas probabilidades estimadas se reemplazan en el modelo logit, se tendría:

�̃�𝑖 = 𝑙𝑛 (�̂�(𝑌𝑖 = 1|𝐱𝒊)

1 − �̂�(𝑌𝑖 = 1|𝐱𝒊)) = 𝐱𝑖

′𝛃 + 𝑢𝒊 (𝟏𝟑. 𝟏. 𝟏𝟗′)

donde �̂�(𝑌𝑖 = 1|𝐱𝒊) es la proporción muestral asociada a cada celda 𝑖 y 𝑢𝒊 = 𝐿𝑖 − �̃�𝑖 es el término

de error.

Si todas las observaciones dentro de cada celda están idéntica e independientemente

distribuidas como una Bernoulli (E o F), la suma del número total de E (o F) seguirá una

distribución binomial con parámetros 𝑓 y 𝑛 y varianza 𝑛𝑃𝑖(1 − 𝑃𝑖); mientras que �̂�(𝑌𝑖 = 1|𝐱𝒊)

tendrá varianza igual a 𝑃𝑖(1 − 𝑃𝑖)/𝑛 (Powers & Xie, 1999). Asimismo, los 𝑢𝒊 (supuestos

independientes) también estarán distribuidos como una binomial con media 𝑛𝑃𝑖 y varianza

𝑛𝑃𝑖(1 − 𝑃𝑖) y, asintóticamente, se aproximarán a una distribución normal:

𝑢𝒊 ~ 𝑁 (0,1

𝑛𝑃𝑖(1 − 𝑃𝑖)) (𝟏𝟑. 𝟏. 𝟑𝟏)

Dada la normalidad de los errores y si 𝑛 es lo suficientemente grande en cada celda,

(13.1.19’) podría fácilmente estimarse por el método de MCO; sin embargo, los errores en

(13.1.31) son heteroscedásticos. Para corregir este problema, se podría emplear MCP, cuyo

ponderador estaría dado por 𝑧𝑖 = 𝜎𝑢𝒊. Puesto que 𝜎𝑢𝒊

es desconocida, se aproxima con �̂�𝑖 =

√1 [𝑛𝑃�̂�(1 − 𝑃�̂�)]⁄ .

(Fichero logit.wf1)

Los datos empleados para estimar un logit sin agrupar podría resumirse en una tabla de

contingencia. El Tabla ¡Error! No hay texto con el estilo especificado en el documento.-6 dicho

resumen en seis celdas, dentro de las cuales 𝑓 representa el número de casos a favor (los que

aprueban la gestión de Humala como Presidente) y 𝑛 representa los casos totales.

Para fines de estimación, tal como proponen Powers y Xie (1997), es conveniente arreglar los

datos tabulados en formato columna, con variables dummy en cada una de ellas, tal como se

evidencia en la Tabla ¡Error! No hay texto con el estilo especificado en el documento.-7. En ella, cada

fila representa una celda de la Tabla ¡Error! No hay texto con el estilo especificado en el

documento.-6.

Las proporciones muestrales, 𝑓𝑖/𝑛𝑖, servirán como estimadores de las probabilidades reales, de

modo que el modelo estimado a través de MCP vendría dado por:

Femenino Masculino

REGIÓN f n f n

Costa 107 203 143 226

Sierra 503 961 552 1003

Selva 719 1379 860 1445

regc regs masc f n

1 0 0 107 203

1 0 1 143 226

0 1 0 503 961

0 1 1 552 1003

0 0 0 719 1379

0 0 1 860 1445

Aplicativo 13-3

Los resultados indican que el R-cuadrado es claramente mayor que el caso anterior. Sin

embargo, sólo masculino es significativo a nivel individual (suponiendo que 𝛼 = 0.05).

Dado que 𝐿𝑖 se encuentra ponderado, si se toma el anti-logaritmo al modelo estimado se

tendría la razón de probabilidades ponderadas:

�̂�𝑖

1 − �̂�𝑖

= 𝑒0.118/𝑧𝑖 ∗ 𝑒0.238∗𝑚𝑎𝑠𝑐/𝑧𝑖 ∗ 𝑒0.092∗𝑟𝑒𝑔𝑐/𝑧𝑖 ∗ 𝑒−0.089∗𝑟𝑒𝑔𝑠/𝑧𝑖

De allí, 𝑒0.238 = 1.2687. Esto indica que para un incremento en masc ponderado, las

posibilidades ponderadas en favor de aprobar la gestión de Humala como Presidente aumenta

en 1.2687 o cerca de 26.87% (¿por qué?). Para una interpretación sin ponderaciones, multiplique

las correspondientes 𝑧𝑖 por cada coeficiente.

Otra interpretación que se puede realizar (cuando los regresores son cuantitativos) es a través

del cambio parcial en las probabilidades, conforme varía 𝑋. De acuerdo a la ecuación (13.1.15),

𝜕𝐹(x𝑖

′β)

𝜕𝑋𝑗

=𝑑𝐹(x𝑖

′β)

𝑑x𝑖′β

𝜕(x𝑖′β)

𝜕𝑋𝑗

= 𝑓(x𝑖′β)𝛽𝑗 =

𝑒x𝑖′β

(1 + 𝑒x𝑖′β)

2 𝛽𝑗 , 𝑗 = 1, … , 𝑘

De allí, se verifica que

𝜕𝑃(𝑌𝑖 = 1|x)

𝜕𝑋𝑗

= �̂�𝑗 (1 − �̂�(𝑌𝑖 = 1|x)) �̂�(𝑌𝑖 = 1|x)

MODELO PROBIT

Otra función de distribución válida para el lado derecho de la ecuación (13.1.4) es la

distribución normal también definida simétrica, la misma que da origen a los modelos probit

o normit. Desde la óptica de los modelos no lineales de probabilidad, ésta queda definido por:

𝑃(𝑌𝑖 = 1|𝐱𝒊) = ∫1

√2𝜋𝑒

(−𝑡2

2)𝑑𝑡

𝐱𝑖′𝜷

−∞

= 𝐹(𝐱𝑖′𝛃) (𝟏𝟑. 𝟏. 𝟑𝟐)

donde 𝑢𝑖 sigue una distribución normal estándar [recuerde que 𝑃(𝑢𝑖 ≤ 𝐱𝑖′𝛃) = 𝐹(𝐱𝑖

′𝛃)]. Si se

realiza una transformación probit o probit link, que viene a ser la inversa de la distribución

acumulada normal estándar (Powers & Xie, 1999), se logra una forma lineal del modelo probit:

𝒫𝑖 = 𝐹−1(𝐱𝑖′𝛃) = 𝐱𝑖

′𝛃 (𝟏𝟑. 𝟏. 𝟑𝟑)

donde 𝒫 es el probit que también cumple las restricciones de la ecuación (13.1.14). La Gráfica

¡Error! No hay texto con el estilo especificado en el documento..3 muestra un bosquejo de la

distribución normal que, en comparación de la logística estándar, es menos aplanada. En otras

palabras, la probabilidad de éxito en los puntos cercanos a cero y a uno es menor.

El efecto marginal en (13.1.32) será

𝜕𝐹(𝐱𝑖

′𝛃)

𝜕𝑋𝑗

= 𝑓[𝐹−1(𝐱𝑖′𝛃)]𝛽𝑗 , 𝑗 = 1, … , 𝑘 (𝟏𝟑. 𝟏. 𝟑𝟒)

siendo 𝑓(. ) la fdp de la distribución normal estándar invertida.

La estimación de un probit también puede ser para datos agrupados y no agrupados. En el

primer caso, al unísono que el modelo logit, se estima generalmente por MV; mientras que para

el segundo, se puede usar MCP. Para una estimación con datos agrupados véase Gujarati y

Porter (2010) o Camerón y Trivedi (2005), quienes lo derivan a partir de una regresión latente

y el estimador mínimo Chi-cuadrado de Berkson, respectivamente.

Dado lo anterior, de (13.1.24) y (13.1.32), las CPO asociadas a un probit para datos

individuales vendrán dadas por:

∂𝛃= ∑ 𝜛𝑖[𝑌𝑖 − 𝐹(𝐱𝒊

′𝛃)]𝐱𝒊

𝑖=1

= 𝟎 (𝟏𝟑. 𝟏. 𝟑𝟓)

cuyo peso 𝜛𝑖 = 𝑓(𝐱𝑖′𝛃)/[𝐹(𝐱𝒊

′𝛃)[1 − 𝐹(𝐱𝒊′𝛃)]] varía a través de las observaciones (Cameron &

Trivedi, 2005). Dada su complejidad relativa del probit, el uso de paquetes econométricos

puede ser una solución asequible para fines de estimación.

Una vez estimada el probit, los estadísticos de bondad de ajuste y los contrastes de

hipótesis, como siempre, validarán el modelo calculado. Dada su similitud a los del modelo

logit, se omiten en esta parte.

(Fichero probit.wf1)

Para comprender un poco más esta parte, considérese nuevamente los datos de PROÉTICA. La

hoja UNGROUPED muestra el caso para datos no agrupados. Si se compara estos resultados con

el modelo logit no agrupado, se dará cuenta que los resultados son muy parecidos, aunque por

obvias razones, cuantitativamente difieren. Más aún, si se compara con los resultados obtenidos

en el MLP, notará que las diferencias no son exorbitantes.

Véase ahora que es lo que sucede con un probit agrupado (hoja GROUPED). Por la ecuación

(13.1.33), para obtener 𝒫𝑖 se requiere como insumo calcular la inversa de la probabilidad

estimada (de la serie p_est). Para ello, en el área de comandos de Eviews se digita:

series probit=@qnorm(p_est)

Siguiendo a Gujarati y Porte (2010), se le agrega 5 a cada observación de esta nueva serie y

luego se estima por MCO (serie probit5). Los resultados se muestran a continuación.

Si se compara con los resultados obtenidos en el logit agrupado se concluye que sólo el

intercepto difiere en cuanto a significancia. Los demás estadísticos indican casi lo mismo

cualitativamente.

Consideraciones finales

Una vez desarrollado regularmente el MLP y los modelos no lineales logit y probit, cabría

preguntarse ¿cuál de ellos es el mejor? Sin pensarlo demasiado, el MLP queda desacreditado

por sus múltiples problemas; pero, ha sido explicado ya que sirve de argumento y punto de

partida para los otros modelos de respuesta discreta. Sin embargo, Powers y Xie (1999)

sostienen que, para datos agrupados, su uso es menos problemático porque habría mayor

variación en la variable dependiente, por el hecho de que es una proporción.

Cameron y Triveli (2005) responden esa interrogante mediante dos consideraciones:

teóricas y empíricas. Teóricamente, el logit tiene una forma relativamente simple en las CPO

y la distribución asintótica (argumento que lo atribuyen a Berkson); en contraste, el modelo

Aplicativo 13-4

probit es preferido si es derivado por una variable aleatoria normal latente y extendido

naturalmente a los modelos Tobit (ver sección 13.3). Empíricamente, ambos modelos pueden

ser usados ya que apenas difieren: la diferencia es mayor en las colas, donde las probabilidades

están cerca de 0 o 1; mientras que la diferencia es muy escasa si lo que se quiere es analizar

los efectos marginales promedios (de la muestra) en vez de analizar para cada individuo.

De lo anterior se puede deducir que la elección del modelo depende, en última instancia,

del modelador. Sin embargo, hay otros dos modelos que también están disponibles para ser

elegidos: el modelo complementario log-log y, su contraparte, el modelo log-log. McCullagh

y Nelder (1989) plantean esos modelos, en ese orden, como:

𝑃(𝑌𝑖 = 1|𝐱𝒊) = ln{− ln[1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)]} = 𝐱𝑖′𝛃 (𝟏𝟑. 𝟏. 𝟑𝟔)

− ln[− ln[𝑃(𝑌𝑖 = 1|𝐱𝒊)]] = 𝐱𝑖′�⃛� (𝟏𝟑. 𝟏. 𝟑𝟕)

donde el acento en la ecuación (13.1.37) se usa para diferenciarlo del anterior, pues 𝐱𝑖′𝛃 =

−𝐱𝑖′�⃛� [1 − 𝑃(𝑌𝑖 = 1|𝐱𝒊)]. Además, se asume que ambos modelos no son simétricos y se

encuentran limitados entre 0 y 1. Para más detalles sobre el modelo (13.1.36), véase Agresti

(2002, págs. 245-250) y Powers et al. (1999, págs. 83-84).

Otra pregunta interesante es la siguiente: ¿cuántos regresores (predictores) se puede usar

en los modelos binarios logit? Cuando una de las respuestas (𝑌𝑖 = 1 o 𝑌𝑖 = 0) ocurre

relativamente pocas veces, se dice que los datos están desbalanceados. Al respecto, hay una

pauta (desarrollada en 1996 por Peduzzi, Concato, Kemper, Holford y Feinstein) que sugiere

que por cada regresor debería haber como mínimo 10 observaciones para cada categoría

(Agresti, 2007).

13.2 MODELOS DE ELECCIÓN MULTINOMIAL

Los modelos multinomiales son aquellos donde la regresora nominal admite múltiples

categorías que pueden ser ordenadas (el caso de los modelos con regresora a escala ordinal)

o no ordenadas, a los que Long (1997) los denomina modelos de respuestas nominales. Se

desarrollará aquí los últimos; sin embargo, acerca de ambos casos, debe tener en cuenta que

Si una variable dependiente es ordinal y es usado un modelo para variables nominales,

hay una pérdida de eficiencia ya que la información está siendo ignorada. Por otra

parte, cuando un método para variables ordinarias es aplicado a una variable

dependiente nominal, las estimaciones resultantes son sesgadas o inclusive absurdas.

Si hay cualquier duda acerca de la ordinalidad de la variable dependiente, entonces la

pérdida potencial de eficiencia en usar modelos de respuestas nominales pesaría más

que por evitar un potencial sesgo (Long, 1997, pág. 149).

Los modelos multinomiales (no ordenados) más simples son el modelo logit multinomial,

propuesto por Luce en 1959, y el modelo logit condicional, desarrollado principalmente por

McFadden en 1968. La diferencia básica entre ellos reside en que el primero se estima en un

contexto en el que los regresores y parámetros no varían a través de las alternativas

(alternative-invariant), mientras que en el segundo sí (alternative-varying). Dado que en la

práctica se tiene regresores asociados a ambos casos, es preferible usan un programa que opere

en términos del segundo caso (Cameron et al., 2005).

Sin embargo, hay otros modelos multinomiales que, sin bien son relativamente poco

habituales, merecen ser desarrollados: logit anidado, modelos secuenciales y modelos

multivariados.

MODELO LOGIT MULTINOMIAL

De igual forma que para el caso binomial, el marco teórico subyacente de los modelos de

elección multinomiales son el de utilidad aleatoria y el de variables latentes (considérese aquí

el primero). Siguiendo a Greene (2012), si el 𝑖-ésimo consumidor se enfrenta a 𝐽 + 1 elecciones,

la utilidad de que elija la alternativa 𝑗 (𝑗 = 0,1, … , 𝐽) es

𝑈𝑖𝑗 = 𝐳𝒊𝒋′ 𝛉 + 𝑢𝑖𝑗 (𝟏𝟑. 𝟐. 𝟏)

donde se asumirá que 𝑈𝑖𝑗 es la elección que le otorga la máxima utilidad al individuo. Así,

𝑃(𝑈𝑖𝑗 > 𝑈𝑖𝑙), ∀ 𝑙 ≠ 𝑗 (𝟏𝟑. 𝟐. 𝟐)

siendo 𝑙 la alternativa (categoría) de comparación.

Para que el modelo funcione, como antes, se requiere de una distribución multinomial

particular de los errores. En esta parte, si bien teóricamente el modelo probit multinomial es

viable, en la práctica es muy poco usual dado que se tiene que evaluar múltiples integrales de

la fda normal; en contraste, el modelo logit multinomial (MLM, en adelante) es relativamente

sencillo.

Suponga que 𝑌𝑖 = 𝑗 es la elección hecha del individuo 𝑖 de la categoría 𝑗 = 0,1, … , 𝐽 y que

cada una de las 𝐽 + 1 categorías están asociadas a una probabilidad, 𝑃𝑖𝑗. McFadden (citado por

Greene, 2012) reveló que sí y solo si los 𝐽 + 1 términos de error en (13.2.1) son iid como una

distribución Gumbel con valor extremo tipo I,

𝐹(𝑢𝑖𝑗) = exp (−exp (−𝑢𝑖𝑗) (𝟏𝟑. 𝟐. 𝟑)

luego, se tiene el modelo multinomial

𝑃(𝑌𝑖 = 𝑗) =𝑒𝐳𝒊𝒋

′ 𝛉

∑ 𝑒𝐳𝒊𝒋′ 𝛉𝐽

𝑗=0

(𝟏𝟑. 𝟐. 𝟒)

donde se entrevé que la utilidad depende de 𝐳𝒊𝒋 = [𝐱𝒊𝒋, 𝐰𝒊] y la partición 𝛉 = [𝛃′, 𝛂′]′, 𝐱𝒊𝒋 son los

atributos que varían a través de las elecciones e individuos y 𝐰𝒊 vienen a ser las características

de los individuos, los cuales no varían entre sus alternativas elegidas (𝑗). Si (13.2.4) es

expresado sólo en términos de 𝐰𝒊 y 𝛂𝒋, se alcanza el MLM; mientras que si es expresado en

términos de 𝐱𝒊𝒋 y 𝛃, se alcanza el modelo logit condicional (MLC, en adelante).

El MLM se podría aproximar a través del uso separado de modelos binarios logit para cada

par de categorías de respuesta [véase Agresti (2002), por ejemplo]. Si la regresora asume 3

categorías (a, b y c), se regresionarían tres logits binarios comparables: a con b, b con c y a

con c; usando sólo aquellas observaciones asociadas a cada par de categorías. De acuerdo a la

ecuación (13.1.19), se tendría:

𝐿𝑎,𝑏 = 𝑙𝑛 (𝑃(𝑌𝑖 = 𝑎|𝐱𝒊)

𝑃(𝑌𝑖 = 𝑏|𝐱𝒊)) = 𝐱𝑖

′𝛃𝒂,𝒃

𝐿𝑏,𝑐 = 𝑙𝑛 (𝑃(𝑌𝑖 = 𝑏|𝐱𝒊)

𝑃(𝑌𝑖 = 𝑐|𝐱𝒊)) = 𝐱𝑖

′𝛃𝒃,𝒄 (𝟏𝟑. 𝟐. 𝟓)

𝐿𝑎,𝑐 = 𝑙𝑛 (𝑃(𝑌𝑖 = 𝑎|𝐱𝒊)

𝑃(𝑌𝑖 = 𝑐|𝐱𝒊)) = 𝐱𝑖

′𝛃𝒂,𝒄

donde, por propiedad de logaritmos, se verifica que 𝐿𝑎,𝑏 + 𝐿𝑏,𝑐 = 𝐿𝑎,𝑐. Sin embargo, cuando se

usa información muestral esto no es del todo cierto. De ahí que sería mejor estimar

simultáneamente los tres logits anteriores.

Otra aproximación al MLM se hace a través de un modelo de probabilidad no lineal. Desde

la perspectiva de Powers et al. (1999), se podría pensar que hay dos conjuntos de parámetros

en las ecuaciones (13.1.13) y (13.1.17), 𝛃𝟏 y 𝛃𝟎; el primero asociado a la respuesta 𝑌𝑖 = 1 (el

tradicional 𝛃), mientras que el segundo estaría asociado a la respuesta 𝑌𝑖 = 0 (normalizado

habitualmente a cero, 𝛃𝟎 = 𝟎). Dado el vector 𝐱𝒊′, en el caso de que 𝐽 = 2, las probabilidades

de elección podrían ser planteadas de acuerdo a:

𝑃(𝑌𝑖 = 0|𝐱𝒊) = 𝑃𝑖0 =1

1 + 𝑒𝐱𝒊′𝛃𝟏 + 𝑒𝐱𝒊

′𝛃𝟐

𝑃(𝑌𝑖 = 1|𝐱𝒊) = 𝑃𝑖1 =𝑒𝐱𝒊

′𝛃𝟏

′𝛃𝟐 (𝟏𝟑. 𝟐. 𝟔)

𝑃(𝑌𝑖 = 2|𝐱𝒊) = 𝑃𝑖2 =𝑒𝐱𝒊

′𝛃𝟐

con 𝛃1 y 𝛃2 como covariantes de efectos específicos de la segunda y tercera categoría, con la

primera como categoría de comparación. Advierta que la primera expresión de (13.2.6) es

derivada de la restricción de que las probabilidades suman 1, 𝑃𝑖0 = 1 − (𝑃𝑖1 + 𝑃𝑖2), razón por la

cual sólo se tendría que encontrar 𝑃𝑖1 y 𝑃𝑖2.

En general, la probabilidad de que el individuo 𝑖 elija una de las 𝐽 + 1 categorías de la

variable cualitativa 𝑌𝑖, estaría dada por el siguiente MLM:

𝑃(𝑌𝑖 = 𝑗|𝐱𝒊) = 𝑃𝑖𝑗 =𝑒𝐱𝒊

′𝛃𝒋

∑ 𝑒𝐱𝒊′𝛃𝒋𝐽

𝑗=0

, 𝑗 = 0, … , 𝐽 (𝟏𝟑. 𝟐. 𝟕)

Perciba aquí tres aspectos relevantes de la ecuación (13.2.7): i) se logra sin la normalización

de que 𝛃𝟎 = 𝟎 (si 𝑗 = 0, 𝑒𝐱𝒊′𝛃𝟎 = 1); ii) como es de esperar, requiere que ∑ 𝑃𝑖𝑗

𝐽𝑗=0 = 1 para algún

𝑖; iii) si 𝐽 = 1, se tendría el conocido modelo logit binario, en el que 𝑖 elige o bien la alternativa

0 o bien la 1.

Una vez modelado el MLM, su estimación pasa por utilizar MV. Si se tiene 𝐽 + 1 alternativas,

la función de densidad multinomial para una observación (la contrapartida de la ecuación

13.1.20) puede ser escrito por

𝑃0𝑌0 × 𝑃1

𝑌1 × … × 𝑃𝐽

𝑌𝐽 = ∏ 𝑃𝑗

𝑌𝑗

𝑗=0

(𝟏𝟑. 𝟐. 𝟖)

La FV (la densidad conjunta) para una muestra de 𝑛 observaciones i.i.d. estará dada por

𝑓(𝑌1, … , 𝑌𝑛|𝛃) = ∏ ∏ 𝑃𝑖𝑗

𝑌𝑖𝑗𝐽𝑗=0

𝑛𝑖=1 , donde 𝑖 hace referencia a un individuo particular. Así, la FLV

que maximiza el valor del estimador de MV vendría representado por

ln 𝐿(𝛃|𝐱𝒊; 𝐲) = ∑ ∑ 𝑌𝑖𝑗 ln𝑒𝐱𝒊

′𝛃𝒋

∑ 𝑒𝐱𝒊′𝛃𝒋𝐽

𝑗=0

𝑖=1

(𝟏𝟑. 𝟐. 𝟗)

quien, como se dijo antes, se estima por métodos numéricos; donde 𝑌𝑖𝑗 se define como una

variable dummy:

𝑌𝑖𝑗 = {1, 𝑠𝑖 𝑌𝑖 = 𝑗0, 𝑠𝑖 𝑌𝑖 ≠ 𝑗

Esto indica que para cada observación 𝑖 sobre 𝑌, hay sólo una alternativa que es diferente de

cero. Según Long (1997), en la práctica, los resultados estimados de la FLV son consistentes y

tanto normales como eficientes asintóticamente. Para más detalles acerca de la estimación del

MLM véase Kutner et al. (2005) y Cameron et al. (2005).

Ahora bien, las pruebas de hipótesis se basan principalmente en un test que está propuesto

para conocer si el regresor 𝑋𝑘 no afecta a la regresora. Como esta última posee 𝐽 + 1 categorías,

excluyendo la categoría de comparación 𝑙 = 0, se tiene 𝐽 parámetros 𝛽𝑘 asociados a cada 𝑋𝑘,

por lo que las hipótesis vendrían planteadas así:

𝐻0: 𝛽𝑘,1|𝑙 = 𝛽𝑘,2|𝑙 = ⋯ = 𝛽𝑘,𝐽|𝑙 = 0

𝐻1: 𝑎𝑙𝑔ú𝑛 𝛽𝑘,𝑗|𝑙 ≠ 0

donde 𝛽𝑘,𝑗|𝑙 indica el coeficiente 𝑘-ésimo en la estimación del modelo 𝑗, dado 𝑙 (advierta que si

el modelo se encuentra normalizado, 𝛽𝑘,𝑙|𝑙 = 0). Los estadísticos de prueba, tal como propone

Long (1997), podrían ser: razón de verosimilitud (RV) o el estadístico de Wald.

Ahora bien, la interpretación de los resultados del MLM es un tanto análogo a lo descrito

para el caso binomial. El 𝑙𝑛 de la razón de probabilidades (ln-odds) de las categorías 𝑗 y 𝑙, para

un 𝑖 dado, será

𝑙𝑛 (𝑃𝑖𝑗

𝑃𝑖𝑙

) = 𝐱𝒊′𝛃𝒋; 𝑠𝑖 𝑙 = 0, 𝑗 = 1, … , 𝐽 (𝟏𝟑. 𝟐. 𝟏𝟎)

Esto quiere decir que para un incremento de 𝑋𝑘 en 𝛾 unidades, el logaritmo de las posibilidades

en favor de la categoría 𝑗 sobre la categoría 𝑙 cambia en la cuantía 𝑒𝛽𝑘,𝑗|𝑙∗𝛾, cetarís paribus.

De otro lado, el efecto marginal de un cambio en 𝑋𝑘 sobre 𝑃𝑖𝑗 es poco habitual en el

contexto de MLM; sin embargo, puede ser calculada diferenciando (13.2.7):

𝜕𝑃(𝑌𝑖 = 𝑗|𝐱𝒊)

𝜕𝑋𝑘

= 𝑃(𝑌𝑖 = 𝑗|𝐱𝒊) [𝛃𝑘𝑗 − ∑ 𝑃(𝑌𝑖 = 𝑗|𝐱𝒊)𝛃𝑘𝑗

𝑗=0

] (𝟏𝟑. 𝟐. 𝟏𝟏)

Puesto que la expresión (13.2.11) combina todos los 𝛃𝑘𝑗, el efecto marginal de 𝑋𝑘 sobre un

específico 𝑗 no necesita tener el mismo signo que el correspondiente coeficiente 𝛃𝑘𝑗 (Long,

1997); es decir, si 𝛃𝑘0 es positivo, no necesariamente su cambio parcial sobre 𝑋0 lo será. En ese

sentido, su interpretación debe ser examinada cuidadosamente.

MODELO LOGIT CONDICIONAL

Cuando los datos consisten de atributos específicos de elección o, expresado de otra

forma, cuando los regresores y parámetros varían a través de las alternativas, se alcanza el

𝑃(𝑌𝑖 = 𝑗|𝐱𝒊) = 𝑃𝑖𝑗 =𝑒𝐱𝒊𝒋

′ 𝛃

∑ 𝑒𝐱𝒊𝒋′ 𝛃𝐽

𝑗=0

(𝟏𝟑. 𝟐. 𝟏𝟐)

Aquí, si 𝑒𝐱𝒊𝒋′ 𝛃 > 0, ∑ 𝑃𝑖𝑗

𝐽𝑗=0 = 1. Como se puede ver, los coeficientes de una variable es el mismo

para cada categoría de respuesta, pero los valores de las variables difieren para cada categoría

de respuesta.

En el modelo anterior, tal como señala Greene (2012), los coeficientes no están atados

directamente a los efectos marginales. Estos efectos para variables continuas podrían

obtenerse diferenciando (13.2.12) respecto a un particular 𝐱𝑖𝑚; así,

𝜕𝑃(𝑌𝑖 = 𝑗|𝐱𝒊)

𝜕𝐱𝑖𝑚

= {𝑃𝑖𝑗[𝟏(𝑗 = 𝑚) − 𝑃𝑖𝑚]}𝛃, 𝑚 = 0, … , 𝐽 (𝟏𝟑. 𝟐. 𝟏𝟑)

donde a través de su presencia en 𝑃𝑖𝑗 y 𝑃𝑖𝑚, cada atributo de 𝐱𝑖𝑚 afecta a todas las

probabilidades. Dado que la FLV del MLC es similar a la del MLM, no se plantea de nuevo. Sin

embargo, una forma simple de maximizar dicha función pasa por usar los métodos numéricos

de Newton o el de scoring.

Ahora, si reflexiona unos segundos, se dará cuenta que en la práctica se tiene datos

asociados tanto al MLM como al MLC. A los modelos que tienen componentes de ambos, como

en la ecuación (13.2.4), se les denomina modelos logit mixtos o, de manera más general,

universal logit models.

Supuesto de independencia de alternativas irrelevantes

La razón de probabilidades tanto en el MLM como en el MLC (el ratio entre 𝑃𝑖𝑗 y 𝑃𝑖𝑙, por

ejemplo) es hallada sin tener en cuenta las otras alternativas; es decir, el vector de regresores

𝐱𝑖𝑙 no depende de los atributos de las otras 𝐽 alternativas restantes. A esto se le denomina

supuesto de independencia de alternativas irrelevantes (IIA, en inglés). McFadden (citado

por Long, 1997) sugiere que los MLM y MLC sólo deben ser usados en aquellos casos donde las

categorías pueden ser idóneamente asumidas como distintas y juzgado independientemente a

la vista de cada decision-maker.

El supuesto IIA, que proviene de la hipótesis inicial de que los términos de error son

independientes y homoscedásticos (Greene, 2012), puede ser contrastado a través del test de

Hausman. Los detalles de este test los pueden encontrar en Hausman y McFadden (1984),

aunque en Long (1997) puede encontrar los pasos necesarios para dicho test.

OTROS MODELOS MULTINOMIALES

Cuando no se verifica el supuesto IIA, por fortuna, hay modelos alternativos que pueden

ser usados. Uno de ellos es el modelo probit multinomial (o para el caso multiecuacional, el

modelo probit multivariado), el cual no se detalla por consideraciones ya mencionadas.

También se tiene el denominado modelo logit jerárquico o anidado (nested logit, en inglés).

Este último consiste en agrupar las alternativas de elección en subgrupos, permitiendo que la

varianza difiera a través de los grupos (en otras palabras, que haya heteroscedasticidad entre

los grupos), pero manteniendo el supuesto IIA dentro de ellos (Greene, 2012).

Suponiendo que: i) las 𝐽 + 1 alternativas pueden ser divididos en 𝐵 subgrupos (𝑏 = 1, … , 𝐵),

donde cada uno de ellos serán “ramas” y dentro de ellas se tendrán “ramitas”; ii) los datos

consisten de observaciones sobre los atributos de las elecciones 𝐱𝑖𝑗|𝑏 y atributos del conjunto

de elecciones 𝐳𝑖𝑏. Así, la probabilidad incondicional

𝑃(𝑟𝑎𝑚𝑖𝑡𝑎𝑗 , 𝑟𝑎𝑚𝑎𝑏) = 𝑃𝑖𝑗𝑏 =𝑒(𝐱𝑖𝑗|𝑏

′ 𝛃+𝐳𝑖𝑏′ 𝜸)

∑ ∑ 𝑒(𝐱𝑖𝑗|𝑏′ 𝛃+𝐳𝑖𝑏

′ 𝜸)𝐽𝑏𝑗=0

𝐵𝑏=1

(𝟏𝟑. 𝟐. 𝟏𝟒)

puede ser escrita como 𝑃𝑖𝑗𝑏 = 𝑃𝑖𝑗|𝑏𝑃𝑏, donde

𝑃𝑖𝑗|𝑏 =𝑒(𝐱𝑖𝑗|𝑏

′ 𝛃)

∑ 𝑒(𝐱𝑖𝑗|𝑏′ 𝛃)𝐽𝑏

𝑗=0

, 𝑃𝑏 =𝑒𝜏𝑏(𝐳𝑖𝑏

′ 𝜸+𝑉𝐼𝑖𝑏)

∑ 𝑒𝜏𝑏(𝐳𝑖𝑏′ 𝜸+𝑉𝐼𝑖𝑏)𝐵

𝑏=1

(𝟏𝟑. 𝟐. 𝟏𝟓)

siendo el valor inclusivo, 𝑉𝐼, para la 𝑙-ésima ramita 𝑉𝐼𝑖𝑏 = ln (∑ 𝑒(𝐱𝑖𝑗|𝑏′ 𝛃)𝐽𝑏

𝑗=0 ) y 𝜏𝑏 un nuevo

parámetro (si 𝜏𝑏 = 1, se tiene el MLC). Justamente si se omite esta restricción, se tiene el

modelo logit anidado [el desarrollo más amplio de este modelo lo encuentra en Greene (2012)].

Sin embargo, un modelo más general a éste último lo propuso McFadden en 1978, el modelo

generalizado de valor extremo (GEV, en inglés).

Otra variante del MLM es el modelo logit de parámetros aleatorios o logit mixto (RPL,

por sus siglas en inglés), quien permite que las alternativas de elección estén correlacionadas.

Los pormenores de los modelos GEV y logit jerárquico los puede encontrar en Train (2002),

mientras que para RPL véase Camerón et al. (2005).

Un caso especial de los modelos de elección discreta: el modelo tobit

Un tema que vale la pena darle espacio es el de variables dependientes limitadas (o

respuestas limitadas. Allí se abordan esencialmente tres aspectos: censuramiento (censoring),

truncamiento (truncation) y selección de muestra (sample selection).

El primer caso sucede cuando se observan los regresores para la muestra entera, pero para

algunas observaciones solo se tiene información limitada acerca de la regresora (que es menor

a 𝑙, por ejemplo); por su lado, el truncamiento limita los datos mediante la exclusión de

observaciones basadas en características de la regresora (por ejemplo, en los casos donde la

regresora es menor a 100, éstos podrían ser eliminados). Es decir, mientras que el truncamiento

cambia la muestra, el censuramiento no (Long, 1997).

Cuando se desea estimar un modelo con una muestra censurada, no es loable reemplazar

aquellas observaciones que tienen información limitada por 0, así como tampoco lo es cuando

se elimina dichas observaciones (truncamiento). Sin embargo, lo que sí se puede hacer es

estimar un modelo tobit o modelo de regresión censurado, el cual emplea toda la información

disponible.

Una ilustración sencilla del modelo tobit lo puede encontrar en Gujarati et al. (2010),

mientras que los pormenores los puede encontrar en Long (1997), Verbeek (2004), Greene

(2012), Cameron et al. (2005) y Tobin (1958). Este último es el articulo pionero sobre modelos

estructurales para censoring y truncation.

13.3 MODELOS CON REGRESADA A ESCALA ORDINAL

Si el orden en el que se definen las categorías de una regresora interesa, no es muy preciso

valerse de los modelos del apartado 13.2. De hecho, se deberían que usar modelos de

respuesta ordenada. Tal como manifiesta Agresti (2010), varias ventajas pueden ser ganadas

al tratar a una variable categórica ordenada como ordinal envés de nominal:

La descripción ordinal de datos puede usar medidas que son similares a las usadas en

la regresión ordinaria y el análisis de varianza para variables cuantitativas, como

correlaciones, pendientes, y medias.

Los análisis ordinales pueden usar una mayor variedad de modelos, y esos modelos son

más parsimoniosos y tienen interpretaciones más simples que los modelos estándar para

variables nominales, como las líneas de base de los modelos logit categóricos.

Los métodos ordinales tienen mayor poder para detectar alternativas relevantes de

tendencias o localización para la hipótesis nula de "ningún efecto" de una variable

explicativa sobre la variable de respuesta.

Los modelos ordinales interesantes tienen aplicación en escenarios donde los modelos

nominales estándar son intrascendentes o sino tiene parámetros de más para ser

probado por bondad de ajuste.

Ahora, hay dos formas relativamente extremas para analizar regresoras categóricas

ordenadas. La primera ignora la naturaleza categórica de la regresora y usa métodos

paramétricos estándar para regresoras continuas. Este enfoque asigna puntuaciones numéricas

a las categorías ordenadas y luego usa MCO como una regresión lineal y el ANOVA. La otra forma

restringe el análisis solamente a métodos que usan sólo la información de ordenamiento acerca

de las categorías. Aquí están los métodos no paramétricos basados en rangos y los modelos para

las probabilidades acumulativas de respuesta (Agresti, 2010).

A los métodos que se encuentran dentro del primer enfoque, Powers et al. (1999) los

denomina scoring methods. Sin embargo, empiezo el recorrido planteando algunos modelos

asociados al segundo enfoque.

LOGIT Y PROBIT ORDENADOS

Una vez más, las teorías subyacentes de estos modelos vienen a ser el de utilidad aleatoria

y variable latente. De acuerdo a esta última, si se asume que el individuo 𝑖 se enfrenta a 𝐽

alternativas cualitativas ordenables, se podría establecer que:

𝑌𝑖 = 𝑗 𝑠𝑖 𝜏𝑗−1 ≤ 𝑌𝑖∗ < 𝜏𝑗 , 𝑗 = 1, … , 𝐽 (𝟏𝟑. 𝟑. 𝟏)

𝑌𝑖∗ = 𝐱𝑖

′𝛃 + 𝑢𝑖 (𝟏𝟑. 𝟑. 𝟐)

donde cada 𝜏 es un umbral o punto de corte, 𝑌𝑖∗ es la variable latente con rango −∞ hasta ∞.

Las categorías extremas son definidas mediante intervalos indefinidos con 𝜏0 = −∞ y 𝜏𝐽 = ∞,

aunque algunas veces se asume que 𝜏1 = 0, de tal forma que la primera restricción sea 𝑌𝑖∗ < 0

(advierta que si 𝐽 = 2, se tiene modelo de elección binario).

El modelo (13.3.2) puede ser estimado por MV, quien requiere precisar una determinada

distribución de los errores. Si 𝑢𝑖 sigue una distribución normal estándar, se tiene el modelo

probit ordenado, cuya fda viene a ser

𝐹(𝑢) = ∫1

√2𝜋𝑒(−𝑢2/2)

−∞

𝑑𝑡 (𝟏𝟑. 𝟑. 𝟑)

De otro lado, si 𝑢𝑖 sigue una distribución logística, se tiene el modelo logit ordenado, con fda:

𝐹(𝑢) =𝑒𝑢

1 + 𝑒𝑢 (𝟏𝟑. 𝟑. 𝟒)

Una vez especificada la distribución de los errores, se podría plantear la probabilidad de

que el individuo 𝑖 elija un específico 𝑗 (dado 𝐱𝑖) como la probabilidad asociada al área de la

distribución de los errores entre los umbrales 𝜏𝑗−1 y 𝜏𝑗. Es decir,

𝑃(𝑌𝑖 = 𝑗|𝐱𝑖) = 𝑃(𝜏𝑗−1 ≤ 𝑌𝑖∗ < 𝜏𝑗|𝐱𝑖) (𝟏𝟑. 𝟑. 𝟓)

Reemplazando (13.3.2) en (13.3.5),

= 𝑃(𝜏𝑗−1 ≤ 𝐱𝑖′𝛃 + 𝑢𝑖 < 𝜏𝑗|𝐱𝑖)

= 𝑃(𝜏𝑗−1 − 𝐱𝑖′𝛃 ≤ 𝑢𝑖 < 𝜏𝑗 − 𝐱𝑖

′𝛃|𝐱𝑖)

= 𝑃(𝑢𝑖 < 𝜏𝑗 − 𝐱𝑖′𝛃|𝐱𝑖) − 𝑃(𝑢𝑖 ≤ 𝜏𝑗−1 − 𝐱𝑖

′𝛃|𝐱𝑖)

𝑃(𝑌𝑖 = 𝑗|𝐱𝑖) = 𝐹(𝜏𝑗 − 𝐱𝑖′𝛃) − 𝐹(𝜏𝑗−1 − 𝐱𝑖

′𝛃) (𝟏𝟑. 𝟑. 𝟔)

En esta última expresión, se supone que 𝐹(𝜏0 − 𝐱𝑖′𝛃) = 𝐹(−∞ − 𝐱𝑖

′𝛃) = 0 y que 𝐹(𝜏𝐽 − 𝐱𝑖′𝛃) =

𝐹(∞ − 𝐱𝑖′𝛃) = 1.

Sin embargo, otra forma de aproximar los modelos bajo estudio es a través de las

probabilidades acumuladas. La probabilidad acumulada de que el individuo 𝑖 elija la

alternativa 𝑗 o menos, es definida como

𝑃(𝑌𝑖 ≤ 𝑗) = ∑ 𝑃(𝑌𝑖 = 𝑚)

𝑚=1

, 𝑗 = 1, … , 𝐽 (𝟏𝟑. 𝟑. 𝟕)

Esta probabilidad acumulada puede ser definida como una fda,

𝑃(𝑌𝑖 ≤ 𝑗) = 𝐹(𝛾𝑗 + 𝐱𝑖′𝛃), 𝑗 = 1, … , 𝐽 − 1 (𝟏𝟑. 𝟑. 𝟖)

donde 𝛾𝑗 es el umbral y 𝑗 = 𝐽 se omite dado que 𝑃(𝑌𝑖 ≤ 𝐽) = 1. Si dicha fda sigue una distribución

acumulada logística, se tiene el modelo logit ordenado y si sigue una distribución normal

estándar, se tiene el modelo probit ordenado. Los detalles de este enfoque los puede encontrar

en Powers et al. (1999), Kutner et al. (2005) y, con mayor profundización, en Agresti (2010).

Para terminar esta parte, en línea con lo que señala Long (1997), la elección entre el

modelo logit ordenado y modelo probit ordenado es básicamente por conveniencia; no

obstante, en algunos casos la estructura del modelo definido puede necesitar específicamente

de alguno de ellos.

Estimación e interpretación

Desde la perspectiva de variable latente, si se definen el vector de umbrales (thresholds)

𝝉 y el vector de parámetros 𝛃 que se estimarán conjuntamente por MV. De la ecuación (13.3.6),

𝑃(𝑌𝑖 = 𝑗|𝐱𝑖 , 𝛃, 𝝉) = 𝐹(𝜏𝑗 − 𝐱𝑖′𝛃) − 𝐹(𝜏𝑗−1 − 𝐱𝑖

′𝛃) (𝟏𝟑. 𝟑. 𝟔′)

Si las 𝑛 observaciones son independientes, la FV será:

𝐿(𝛃, 𝝉|𝐲, 𝐗) = ∏ ∏ 𝑃(𝑌𝑖 = 𝑗|𝐱𝑖, 𝛃, 𝝉)𝑑𝑖𝑗

𝒋=𝟏

𝒊=𝟏

(𝟏𝟑. 𝟑. 𝟗)

donde 𝑑𝑖𝑗 = 1 si 𝑌𝑖 = 𝑗, y 0 en otros casos. Con ello, se definen 𝐽 variables dummy, donde sólo

una de ellas es 1 para cualquier 𝑖. Si se toma logaritmos a ambos miembros, la FLV vendrá dada

ln 𝐿(𝛃, 𝝉|𝐲, 𝐗) = ∑ ∑ 𝑑𝑖𝑗ln[𝐹(𝜏𝑗 − 𝐱𝑖′𝛃) − 𝐹(𝜏𝑗−1 − 𝐱𝑖

′𝛃)]

𝑗=1

𝒊=𝟏

(𝟏𝟑. 𝟑. 𝟏𝟎)

En (13.3.10), se demuestra que los estimadores calculados son consistentes, distribuidos

asintóticamente como una normal y eficientes en muestras grandes.

Ahora bien, ¿cómo se interpretan los estimadores de MV obtenidos? Del modelo (13.3.2),

que se supone que es lineal en 𝑌∗, el cambio parcial en 𝑌∗ respecto a 𝑋𝑘 es 𝛽𝑘; sin embargo,

esto no es del todo claro y válido empíricamente. Una segunda interpretación, común en este

tipo de modelos, puede hacerse si se le aplica derivada parcial a (13.3.6) respecto a 𝑋𝑘, cetaris

paribus.

Sin embargo, algunos lo interpretan en términos de razón de probabilidades. A este

respecto, se debe tener cuidado con el supuesto de razones proporcionales o supuesto de

regresión paralela (véase Long, 1997).

SCORING METHODS

Tal como se afirmó anteriormente, estos métodos se caracterizan por asignar puntuaciones

numéricas a las categorías. Los detalles de los scoring méthods que se desarrollan en esta parte

lo encuentra en Powers et al. (1999).

Integer scoring

Este método, el más simple de los scoring methods, asigna números esteros para

representar las categorías ordenadas, suponiendo que la distancia entre las categorías

adyacentes son todas iguales. Sin embargo, hay muchas formas de enumerar categorías de tal

forma que cumplan con ese supuesto. Por ejemplo, si se tiene 4 categorías, éstas pueden ser

enumeradas como (0,1,2,3) o (2,4,6,8), proveyendo de resultados indistinguibles (por

conveniencia, se debe iniciar en 1 y la diferencia entre dos contiguas también debe ser 1).

Midpoint scoring

Se aplica en casos donde la variable ordinal resulta de medidas categóricas de variables

que son conceptualmente continuas. Así, los puntos de corte que traspasan los intervalos de

cada categoría serían conocidos. Con ello, se podría atribuir al punto medio entre los puntos

de corte para cada intervalo como el valor que representa todos los casos que caen en el

intervalo. No obstante, hay dos problemas en este método: i) si la distribución dentro de un

intervalo no es cercanamente simétrica, el punto medio no será una buena estimación, ii) la

última categoría es a menudo indeterminada, puesto que está asociada a un intervalo

indefinido.

Logits para datos agrupados

Para datos agrupados, se podrían usar tres tipos de logits: logít con línea de base (BL, en

inglés), logit adyacente y logit acumulado (CL, en inglés). El primero es igual al logaritmo de la

razón entre la probabilidad de la categoría 𝑗 y la probabilidad de la categoría de comparación,

𝑙 (𝑗 = 0, … , 𝐽; ∀𝑗 ≠ 𝑙). El segundo es la misma razón, pero de categorías contiguas. Por último,

el tercero se precisa como: 𝐶𝐿𝑗 = ln[𝑃(𝑌𝑖 ≤ 𝑗) 𝑃(𝑌𝑖 > 𝑗)⁄ ].

EXTENSIÓN: MODELOS CON REGRESORA DE CONTEO

Algunas veces la regresora cualitativa es de conteo, a saber, indica el número de veces

que algún evento ha ocurrido (algo distinto al caso en el que la regresora está a escala ordinal).

Así, sería un error tratarlas como variables continuas y usarlas en el modelo lineal general para

fines de estimación. No obstante, lo que sí se pueden usar son algunos de los modelos que se

plantean a continuación.

Modelo de regresión de Poisson

Es un modelo de regresión no lineal (en los parámetros) que funciona muy bien con una

distribución de probabilidad de Poisson. Si se define la v.a 𝑌, la función de probabilidad de esa

distribución discreta, con parámetro 𝜇 > 0, es

𝑓(𝑌) = 𝑃(𝑌 = 𝑗|𝜇) =𝜇𝑌𝑒−𝜇

𝑌!, 𝑗 = 0,1,2, … (𝟏𝟑. 𝟑. 𝟏𝟏)

donde 𝑌! representa el factorial de 𝑗 (número de veces que ocurre un evento) y se supone que

la probabilidad de una ocurrencia es constante en cualquier punto en el tiempo (cuando esto

no es así, 𝑓(𝑌) = [(𝑡𝜇)𝑌𝑒−𝑡𝜇] 𝑌!⁄ ). Se demuestra que su media y varianza son las mismas

(conocido como equidispersion):

𝐸(𝑌) = 𝜇

𝜎2(𝑌) = 𝜇

Si hay 𝑛 v.a independientes que siguen una distribución Poisson, el modelo de regresión

de Poisson (MRP), con errores 𝑣𝑖, se puede plantear tal como

𝑌𝑖 = 𝐸(𝑌𝑖|𝐱𝒊) + 𝑣𝑖 = 𝜇𝑖 + 𝑣𝑖 , 𝑖 = 1, … , 𝑛 (𝟏𝟑. 𝟑. 𝟏𝟐)

donde 𝜇𝑖, la media condicional para cada individuo 𝑖, admite varias formas funcionales:

𝜇𝑖 = 𝜇(𝐱𝒊, 𝛃) = 𝐱𝒊′𝛃

𝜇𝑖 = 𝜇(𝐱𝒊, 𝛃) = 𝑒𝐱𝒊′𝛃

𝜇𝑖 = 𝜇(𝐱𝒊, 𝛃) = ln(𝒙𝒊′𝜷)

siendo la más popular la segunda, aunque en cada una de ellas 𝜇𝑖 siempre será positivo (una

condición necesaria). Así, en general, se podría plantear

𝑃(𝑌𝑖 = 𝑗|𝐱𝒊) =𝜇(𝐱𝒊, 𝛃)𝑌𝑖𝑒−𝜇(𝐱𝒊,𝛃)

𝑌𝑖! (𝟏𝟑. 𝟑. 𝟏𝟑)

La estimación del MRP es principalmente por MV. En tal sentido, la FV estará dada por:

𝐿(𝛃|𝐲, 𝐗) = ∏ 𝑃(𝑌𝑖 = 𝑗|𝜇𝑖) = ∏𝜇(𝐱𝒊, 𝛃)𝑌𝑖𝑒−𝜇(𝐱𝒊,𝛃)

𝑌𝑖!

𝑖=1

𝒊=𝟏

(𝟏𝟑. 𝟑. 𝟏𝟒)

Algunos detalles más al respecto los puede encontrar en Kutner et al. (2005) y Greene

(2012), mientras que las formas de interpretación lo puedes encontrar en Long (1997).

Modelo de regresión binomial negativo

“El modelo de regresión de Poisson raramente se ajusta en la práctica ya que en la mayoría

de aplicaciones la varianza condicional es más grande que la media condicional” (Long, 1077,

p. 230). Quizá por ello, el modelo de Poisson es solo el punto de partida para una amplia

búsqueda de especificaciones (Greene, 2012). Una de las especificaciones que absorbe el

problema del modelo de Poisson –el de heterogeneidad- se denomina modelo de regresión

binomial negativo (MRBN, en adelante), el cual se desarrolla en condiciones de overdispersion.

En el MRBN, la media es una variable aleatoria

�̌�𝑖 = 𝑒𝐱𝒊′𝛃+𝑣𝑖 (𝟏𝟑. 𝟑. 𝟏𝟓)

donde el término de error 𝑣𝑖 se supone no correlacionado con 𝐱𝒊. Además, �̌�𝑖 = 𝑒𝐱𝒊′𝛃𝑒𝑣𝑖 = 𝜇𝑖𝑒

𝑣𝑖.

Suponiendo que 𝐸(𝑒𝑣𝑖) = 1, 𝐸(�̌�𝑖) = 𝜇𝑖. Ahora, si se introduce (13.3.15) en (13.3.11), no se

podrá hallar 𝑃(𝑌|𝐱𝒊, 𝑒𝑣), pues se desconoce 𝑒𝑣𝑖. Sin embargo, si 𝑔 es la fdp de 𝑒𝑣𝑖, luego

𝑃(𝑌𝑖|𝐱𝒊) = ∫ [𝑃(𝑌|𝐱𝒊, 𝑒𝑣) × 𝑔(𝑒𝑣𝑖)]𝑑(𝑒𝑣𝑖)∞

(𝟏𝟑. 𝟑. 𝟏𝟓)

Para resolver (13.3.15), se debe especificar la fdp de 𝑒𝑣. Una especificación común es la

distribución gamma con parámetro 𝑤𝑖:

𝑔(𝑒𝑣𝑖) =𝑤𝑖

𝑤𝑖

Γ(𝑤𝑖)(𝑒𝑣𝑖)𝑤𝑖−1𝑒−𝑒𝑣𝑖𝑤𝑖 (𝟏𝟑. 𝟑. 𝟏𝟔)

donde Γ(𝑤) es la función gamma. Así, la distribución de probabilidad binomial negativa, de

(13.3.15) y (13.3.16), se define por:

𝑃(𝑌𝑖|𝐱𝒊) =Γ(𝑌𝑖 + 𝑤𝑖)

𝑌𝑖! Γ(𝑤𝑖)(

𝑤𝑖

𝑤𝑖 + 𝜇𝑖

)𝑤𝑖

(𝜇𝑖

𝑤𝑖 + 𝜇𝑖

)𝑌𝑖

(𝟏𝟑. 𝟑. 𝟏𝟕)

donde 𝐸(𝑌𝑖|𝐱𝒊) = 𝜇𝑖 y 𝑣𝑎𝑟(𝑌𝑖|𝐱𝒊) = 𝜇𝑖(1 +𝜇𝑖

𝑤𝑖⁄ ). La estimación de este modelo se efectúa

también por MV.

Un tercer modelo para datos de conteo se denomina modelos para conteos truncados.

Los detalles de este tipo de modelos los encuentra, por ejemplo, en Long (1997).

13. modelos economÉtricos con regresada cualitativa€¦ · 13. modelos economÉtricos con...

Documents

métodos econométricos para la valoración cualitativa y...

modelos econométricos para el desarrollo de funciones de...

c6.mi.p2.s3. modelos de investigación cualitativa y...

revista cepal no...

modelos de investigación cualitativa y cuantitativa

modelos economÉtricos de alerta temprana para...

modelos econométricos con eviews

informaci on cualitativa modelos no lineales cambio en las

modelos econométricos y de redes neuronales para predecir...

capÍtulo 4 los modelos economÉtricos estimados

modelos de pronósticos - fca.uaslp.mx...

econometrÍa: economÉtricos

selección automática de modelos econométricos€¦ ·...

7. modelos basados en la dinámica de la perturbación...

modelos pedagÓgicos -...

investigación cualitativa en evaluación de servicios...

los modelos econométricos y el realismo económico

modelos econométricos con eviews - antonio pulido & j....

modelos econométricos de series temporales para la

modelos econométricos aplicados · 2015. 11. 9. ·...