introducción aplicada a los modelos de ecuaciones estructurales

Rodrigo Ferrer Urbina

Algunas nociones básicas que permitan entender, a modo general, que son los modelos de ecuaciones estructurales.

Seleccionar un modelo, el método de estimación, identificarlo y estimarlo.

Valorar las relaciones observadas en el modelo.

Valorar el ajuste de un modelo.

Interpretar un modelo.

Realizar modificaciones menores.

Reportar un modelo en una publicación.

En términos generales, los modelos de ecuaciones estructurales (MEE o SEM en inglés) son un conjunto de ecuaciones simultaneas, desarrolladas mediante algebra matricial, que permiten contrastar modelos teóricos poblacionales con los datos muéstrales observados.

Análisis clásicos (p.e.):

◦ Correlación:

◦ ANOVAs:

x y

yx2

x3

x1

Análisis clásicos (p.e.):

◦ Regresión:

yx2

x3

x1

Análisis Factorial Exploratorio:

x1

x2

x3

x4

F2

F1

Análisis Factorial Confirmatorio:

x1

x2

x3

x4

F2

F1

Modelos teóricos complejos:

X1

X2

X3

X4

VL2

VL1VL1

X5

X6

X

Variables endógenas y exógenas.

Variables observables:

Variables Latentes:

Errores:

Relaciones:

X Y

ξ η

ε ζ

λ β γ θ φ

Path analysis:◦ MEE acotado a relaciones de variables observables.

Modelo de medida:◦ Es la parte del modelo en la cual participan solo las

variables observables que son indicadores de una variable latente y los errores de medida (p.e. análisis factoriales).

Modelo de variables latentes:◦ Es la parte del modelo en la cual se relacionan las

variables latentes entre sí y/o con variables observables que no son indicadores de medida

Modelo completo: modelo de medida + modelo de variables latentes.

Tipos de relaciones:

◦ Causales vs covarianzas.

¡ALTO!

Es necesario conversar un poco sobre causalidad en Modelos de Ecuaciones Estructurales y Análisis de Datos

Una relación causa-efecto implica que la variación del efecto no altera la causa, mientras que una covariación no.

No existe ningún tipo de análisis de datos que permita probar relaciones de tipo causal.

La causalidad solo puede sostenerse de 2 formas:◦ Un diseño experimental riguroso que no deje espacio a

variables no contempladas en el diseño y que permita aseverar que los efectos observados se deben exclusivamente a la manipulación de la variable independiente.

◦ Una teoría solida, que no de cabida a explicaciones alternativas a la relación planteada.

Tipos de relaciones:

◦ Covariación.

◦ Relación espúrea.

◦ Relaciones causales: directas e indirectas.

◦ Relación causal reciproca.

◦ Relación causal condicionada.

El modelo teórico plantea ciertas relaciones poblacionales que pueden traducirse en una matriz de covarianzas/correlaciones.

Si la muestra es lo suficientemente representativa de la población y el modelo teórico es correcto, lo esperable es que la diferencia entre la matriz que reproduce el modelo y la observada en la muestra tienda a 0.

Los MEE no son contraste de la hipótesis nula (significación estadística), por lo que no aceptamos nuestra hipótesis, solo la mantenemos o rechazamos.

El método de estimación se refiere al sistema de ecuaciones utilizado para estimar, a partir de los estadísticos muestrales, los parámetros poblacionales del modelo. Existen diversos métodos disponibles con diferentes ventajas y desventajas (algunos implementados en software), pero los más utilizados son 2:

◦ Máxima verosimilitud (ML): el mejor estimador con muestras grandes, pero presenta imprecisiones ante la falta de normalidad.

◦ Mínimos cuadrados generalizados (GLS): Algo menos preciso que ML, pero tiene la ventaja de ser mas robusto ante la falta de normalidad y muestras pequeñas.

◦ WLS: Es menos preciso que ML y GLS, sin embargo es robusto frente a la falta de normalidad, muestras pequeñas y con datos ordinales.

Es el momento del diseño del modelo.

Se refiere a que todas las relaciones, o falta de relaciones, relevantes esta definido adecuadamente en el modelo de ecuaciones.

Ninguna variable relevante del modelo, presente en la matriz de correlaciones, puede quedar fuera (en ese caso se debe excluir de la base de datos, pero esto no tendría mucho sentido).

Como los MEE son un conjunto de ecuaciones, necesitan tener mas información (o, al menos, la misma) que incógnitas, de lo contrario no pueden tener una solución única (no pueden estimarse los parámetros poblacionales).

La forma mas sencilla de saber si el modelo esta identificado es que el número de incógnitas no sea mayor a:

(P(P+1)/2)

Los grados de libertad indican la diferencia entre los datos disponibles y el número de parámetros a estimar, cuando los grados de libertad son:

◦ Negativos, el modelo no esta identificado y no se puede estimar.◦ Igual a cero, el ajuste es perfecto ya que reproduce

completamente la matriz. Esto es inútil ya que no estamos realizando estimación alguna.

◦ Positivos o sobre identificado, el modelo generalmente se puede estimar.

Existen otros requisitos para que el modelo se pueda estimar, los principales son: Que la matriz sea definida positiva y presente relaciones relevante (Barlett y KMO); que los datos no tengan valores perdidos (salvo en ML); y que el numero de iteraciones sea suficiente para la convergencia (hasta 250).

Para que el modelo sea identificable, muchas veces es necesario poner algún tipo de restricción adicional: Fijar parámetros.

Una restricción fundamental, es fijar la métrica de las variables latentes, ya sea a la de un indicador de medida o establecer su varianza (cuando se trabaja con variables tipificadas).

x1

x2

x3

x4

F2

F1

1

1

Cuando el modelo esta correctamente identificado podemos estimar los parámetros poblacionales de las varianzas y medias del modelo.

Cuando la probabilidad asociada a algún o algunos parámetros es mayor a 0.05 debemos mantener que el parámetro es nulo en la población y, por lo tanto, se recomienda eliminarlo.

Se puede y debe valorar (ya sea que el modelo ajuste o no) si existen relaciones que estén sub-representadas en el modelo. Por ejemplo:

◦ Índices de modificación sobre 4.◦ Residuos tipificados > 2.

Se pueden establecer nuevas relaciones que no estén bien representadas para mejorar el ajuste, pero SOLO si son justificables teóricamente.

◦ En algunas ocasiones se pueden correlacionar errores, aunque lo ideal es que sean independientes, ya que de lo contrario es muy probable es que dicha relación se deba a que existe una variable relevante que no ha sido incluida en el modelo.

◦ COMO PILLAR A UN MENTIROSO: mirar parámetros totales y grados de libertad.

Valorar si la matriz es factorizable (p.e. usando SPSS).◦ La prueba de esfericidad de Bartlett: contrasta la hipótesis nula

de que la matriz de correlaciones es una matriz de identidad (p<=0.05).

◦ El índice KMO compara la magnitud de las relaciones entre las variables. este estadístico varía entre valores de 0 y 1 (valores >0.6).

Valorar la normalidad multivariante (p.e. usando SPSS).◦ Si bien la prueba de normalidad de Kolgomorov-Smirnov con

corrección Lilliefors no permite contrastar normalidad multivariate, si todas las variables se distribuyen normalmente, es razonable asumir normalidad multivariante.

Especificar el modelo (p.e. usando AMOS o LISREL):◦ Revisar la dirección de las relaciones, definir adecuadamente los

errores, especificar la métrica de los factores.

Seleccionar el método de estimación según el supuesto de normalidad multivariante.

Establecer el número de iteraciones máximas (recomendable 250).

Estimar el modelo.

Valorar la probabilidad de los parámetros (si algunos pueden ser nulos en la población, se pueden eliminar y volver a estimar).

Valorar el ajuste del modelo.

Valorar los índices de modificación y los errores tipificados (si se justifica, modificar el modelo y volver a estimar).

introducción aplicada a los modelos de ecuaciones estructurales

Documents