grado en estadística y empresatauja.ujaen.es/bitstream/10953.1/6782/1/tfg_ngel_luis...3 para llevar...
Post on 20-Apr-2020
4 Views
Preview:
TRANSCRIPT
Facu
ltad
de C
ien
cia
s S
ocia
les y
Ju
ríd
ica
s
Gra
do e
n E
stad
ístic
a y
Em
pres
a
ANÁLISIS FACTORIAL
CONFIRMATORIO: APLICACIÓN AL CÁLCULO
DE ÍNDICES EN ECONOMÍA
Alumno: Ángel Luis Camarero Sierra
Junio, 2017
UNIVERSIDAD DE JAÉN Facultad de Ciencias Sociales y Jurídicas
Trabajo Fin de Grado
ÍNDICE
RESUMEN ............................................................................................................................ 0
1. INTRODUCCIÓN ............................................................................................................... 1
2. MODELOS DE ECUACIONES ESTRUCTURALES (SEM)........................................................... 2
2.1 PRINCIPALES PROGRAMAS .................................................................................................. 3
2.2. ESTRATEGIAS PARA LA UTILIZACIÓN DE ECUACIONES ESTRUCTURALES ........................... 5
3. EL ANÁLISIS FACTORIAL .................................................................................................... 7
3.1. MODELO DE ANÁLISIS FACTORIAL EXPLORATORIO .......................................................... 8
3.2. MODELO DE ANÁLISIS FACTORIAL CONFIRMATORIO ...................................................... 11
3.3. AFE vs AFC ........................................................................................................................ 13
3.4. ANÁLISIS FACTORIAL vs COMPONENTES PRINCIPALES .................................................... 14
4. EJEMPLO DE ANÁLISIS FACTORIAL CONFIRMATORIO: Aplicación al cálculo de índices en
economía .......................................................................................................................... 15
4.1 PRÓLOGO .......................................................................................................................... 15
4.2 INTRODUCCIÓN ................................................................................................................. 16
4.3 METODOLOGÍA .................................................................................................................. 17
4.4 ANÁLISIS PREVIO Y DEPURACIÓN DE DATOS .................................................................... 20
4.5 DEFINICIÓN DE VARIABLES ................................................................................................ 24
4.6 ANÁLISIS DE DATOS ........................................................................................................... 24
4.6.1 ANÁLISIS FACTORIAL EXPLORATORIO ........................................................................ 25
4.6.2. ANÁLISIS FACTORIAL CONFIRMATORIO .................................................................... 28
4.7. EXPLOTACIÓN DE LOS DATOS .......................................................................................... 35
4.7.1. Influencia de la localización en la economía de los países ........................................ 35
4.7.2. Posición de Andalucía en Europa .............................................................................. 37
4.7.3. Análisis MDS .............................................................................................................. 40
5. COMPARACIÓN Y EVALUACIÓN DE PROGRAMAS ESTADÍSTICOS PARA AFC ...................... 43
5.1 CREACIÓN AFC CON LISREL ............................................................................................... 43
5.2 CREACIÓN AFC CON EQS ................................................................................................... 45
5.3 CREACIÓN AFC CON PAQUETE “SEM” DE R-STUDIO ......................................................... 46
5.4 CREACIÓN AFC CON PAQUETE “LAVAAN” DE R-STUDIO .................................................. 49
5.5 SALIDAS DE LOS PROGRAMAS ........................................................................................... 51
5.5.1 SALIDAS LISREL ........................................................................................................... 51
5.5.2 SALIDAS EQS ............................................................................................................... 53
5.5.3 SALIDAS R-Studio (Paquete SEM) .............................................................................. 55
5.5.4 SALIDAS R-Studio (Paquete LAVAAN) ........................................................................ 56
5.6 COMPARACIÓN DE PROGRAMAS ...................................................................................... 58
6. ANEXOS ......................................................................................................................... 59
6.1 ANEXO I ............................................................................................................................. 59
6.2 ANEXO II ............................................................................................................................ 61
6.3 ANEXO III: Modelos AFC .................................................................................................... 62
6.4 ANEXO IV ........................................................................................................................... 67
6.5 ANEXO V: LISREL ................................................................................................................ 69
6.5.1 ANEXO V: SALIDAS LISREL .......................................................................................... 71
6.6 ANEXO VI: EQS ................................................................................................................... 75
6.6.1 ANEXO VI: SALIDAS EQS ............................................................................................. 77
6.7 ANEXO VII: R-STUDIO PAQUETE SEM ................................................................................ 84
6.7.1 ANEXO VII: SALIDAS R-STUDIO PAQUETE SEM........................................................... 84
6.8 ANEXO VIII: R-STUDIO PAQUETE LAVAAN ......................................................................... 87
7. BIBLIOGRAFÍA ................................................................................................................ 89
RESUMEN
Los Modelos de Ecuaciones Estructurales (SEM) son un conjunto de técnicas que
combinan tanto la regresión múltiple como el análisis factorial. Estos modelos nos
permiten principalmente detectar interrelaciones de dependencia entre variables,
creando factores que las representen lo mejor posible. Además, las ecuaciones
estructurales nos permiten incorporar efectos del error de medida sobre los coeficientes
estructurales al mismo tiempo, lo que ayuda a identificar posibles mejoras en los
modelos. Debido al desarrollo y la utilidad de esta técnica actualmente, se propone a
continuación una breve introducción sobre los SEM. Con el objetivo de facilitar la
comprensión de los mismos, se llevará a cabo un ejemplo práctico paso a paso con el
programa SPSS Amos, y una comparación de los principales diferentes programas que
se utilizan para el desarrollo de Ecuaciones Estructurales. Además, se ha realizado una
explotación de los datos obtenidos a partir de los factores generados en las ecuaciones
estructurales, donde se ha estudiado la situación en la que se encuentra Andalucía
respecto a las demás regiones europeas. Por otro lado, se ha llevado a cabo un análisis
multidimensional entre las regiones españolas con el fin de visualizar qué regiones son
más parecidas entre sí.
ABSTRACT
Structural Equation Modeling (SEM) is a technique that combines both multiple
regression and factor analysis. These models allow us mainly to detect interrelationships
of dependence between variables, creating factors that represent them as best as
possible. In addition, the structural equations allow us to incorporate effects of the
measurement error on the structural coefficients at the same time, which helps to
identify possible improvements in the model. Due to the development and utility of this
technique, a brief introduction on Structural Equation Systems is proposed below. In
order to facilitate their understanding, a practical step-by-step example will be carried
out with the SPSS Amos program, and a comparison of the main different programs that
are used for the development of Structural Equations. In addition, the data obtained
from the factors generated in the structural equations have been exploited, in which the
situation in Andalucía has been studied in relation to the other European regions. On the
other hand a multidimensional analysis has been carried out between the Spanish
regions in order to visualize which regions are more similar to each other.
1
1. INTRODUCCIÓN
Cada vez con más frecuencia, los estadísticos nos encontramos investigaciones o
estudios con enormes volúmenes de datos e información, en los que para realizar los
análisis correspondientes, es necesario aplicar técnicas estadísticas avanzadas, como son
las técnicas multivariantes (Regresión múltiple, análisis multivariante de la varianza,
análisis discriminante, o Análisis Factorial, entre otras). Cada una de estas técnicas es
una poderosa herramienta a la hora de tratar un amplio abanico de cuestiones prácticas y
teóricas, aunque poseen una limitación común: sólo pueden examinar una relación al
mismo tiempo, por lo que sus variables de interés teórico no se pueden medir
directamente, por ejemplo:
Un investigador en pedagogía puede estar interesado en las actitudes de los
alumnos en relación con facetas de su experiencia en clase.
Un médico puede estar interesado en buscar varias dimensiones de calidad de
vida en pacientes con cáncer.
Ésta es la idea fundamental que subyace en modelos como las Componentes
Principales; los Análisis Factoriales (Exploratorio y Confirmatorio), los modelos de
escalamiento multidimensional (MDS), y como no, los modelos de ecuaciones
estructurales (Structural Equation Modeling, SEM),
Los objetivos de este trabajo de fin de grado se centran en el estudio de unos índices
económicos europeos aplicando primeramente un análisis factorial exploratorio, seguido
de su análisis factorial confirmatorio correspondiente, a raíz del cual se llevarán a cabo
diferentes estudios de interés.
Por otro lado, el propósito de este trabajo es mostrar los diferentes posibles programas
con los que se puede llevar a cabo el Análisis Factorial Confirmatorio, y comparar las
ventajas e inconvenientes de cada uno.
2
2. MODELOS DE ECUACIONES ESTRUCTURALES (SEM)
El origen de los modelos de ecuaciones estructurales (Structural Equation Models,
SEM) surge en la segunda década del siglo XX (1921), cuando Sewall Wright los
desarrolló en el campo de la genética con la intención de permitir el análisis de un
conjunto de relaciones entre una o más variables independientes (continuas o discretas),
desarrollando una forma de romper las altas correlaciones observadas en un sistema de
ecuaciones matemáticas que describían sus hipótesis respecto a unas relaciones
causales. Estas relaciones entre las variables fueron representadas en un “path diagram”,
que se verá a lo largo de este trabajo, conociéndose este método como “path analysis”.
Los modelos de Ecuaciones Estructurales (también conocidos como modelos de
estructura de covarianza) son una serie de técnicas estadísticas que se pueden considerar
como una extensión de otras técnicas multivariantes como son los modelos de regresión
múltiple o los modelos de análisis factorial. Sin embargo, posee algunas características
particulares que lo diferencian de las otras técnicas multivariantes. Una de las
diferencias es la capacidad de estimar y evaluar la relación entre variables no
observables, denominadas generalmente variables latentes. Una variable latente es un
factor supuesto (inteligencia, por ejemplo) que solo puede ser medido mediante
variables observables (baterías de test de inteligencia). En comparación con otras
técnicas de análisis donde los factores pueden ser representados con una única medición
(puntaciones brutas de un test, por ejemplo) y el error de medición no es modelado, los
SEM permiten emplear múltiples medidas que representan al factor y controlar el error
de medición específico de cada variable. Esta diferencia es importante ya que el
investigador puede evaluar la validez de cada factor determinado.
Otra característica particular de los SEM es que, para interpretar sus resultados, se
deben evaluar cuidadosamente varias pruebas estadísticas y un conjunto de índices que
determinan si la estructura teórica propuesta proporciona un buen ajuste de los datos
empíricos. Este ajuste se verifica si los valores de los parámetros estimados reproducen
tan estrechamente como sea posible la matriz observada de covarianza.
3
Para llevar a cabo un análisis de un Sistema de Ecuaciones Estructurales se suelen dar
los pasos en el orden de la Figura 1:
2.1 PRINCIPALES PROGRAMAS
El principal impulso en la utilización de estos métodos y técnicas multivariadas ha sido
el desarrollo de la tecnología computacional. En la actualidad, cada vez es más fácil el
uso de programas que simplifican enormemente estas tareas y permiten realizar los
complejos análisis matemáticos que requieren las Ecuaciones Estructurales. Existen al
menos cuatro programas altamente reconocidos y que actualmente están en uso:
El primero de ellos es el LISREL (LInear Structural RELations) que fue creado por
Joreskog y sus colaboradores (Jöreskog K. G. y Sörbom, 1996) para establecer y
analizar estructuras de covarianza. Las primeras versiones de este programa requerían
del establecimiento de planteamientos muy difíciles para el usuario, el cual no tenía
conocimientos matemáticos suficientemente profundos.
Especificación Identificación Estimación de
parámetros Evaluación del ajuste
Reespecificación del modelo
Interpretación de los
resultados
Figura 1: Metodología SEM
4
Luego, el programa llamado EQS (Structural Equation Modeling Software), que fue
desarrollado por Bentler (1995), presenta planteamientos y símbolos del modelo más
fáciles de comprender.
No podía faltar uno de los programas estadísticos gratuitos más completos que existen,
el software R. R-Studio permite llevar a cabo cualquier tipo de análisis, desde el estudio
del AFE, hasta su propia confirmación con un AFC, incluso dibujando su gráfico con un
PathDiagram. Su mayor inconveniente quizás sea que exige la instalación de paquetes,
en este caso sería necesario para llevar a cabo el Análisis Factorial Confirmatorio
instalar el paquete “SEM” o “LAVAAN”. Por otro lado, comparándolo con los otros 3
programas, éste presenta una interfaz un poco menos intuitiva y exige un mínimo de
conocimientos del programa y programación. Sin embargo R-commander ofrece una
pestaña donde realizar tanto el Análisis Factorial Exploratorio como el Análisis
Factorial Confirmatorio, pero cuenta con el inconveniente de que presenta demasiadas
limitaciones a la hora de su optimización.
Finalmente, el programa Análisis de Estructuras Momentáneas (Analysis of Moment
Structures, AMOS) que fue creado por Arbuckle (2003), permite al usurario que
especifique, vea y modifique el modelo de estructura gráficamente por medio del uso de
herramientas gráficas sencillas. Cada uno de estos programas ha logrado que los
investigadores usen con mayor facilidad el modelo de ecuaciones estructurales.
En el punto 5 se llevará a cabo un análisis comparativo entre los diferentes programas
para la aplicación de la técnica de Análisis Factorial Confirmatorio, presentando las
ventajas e inconvenientes.
5
2.2. ESTRATEGIAS PARA LA UTILIZACIÓN DE ECUACIONES
ESTRUCTURALES
Existen tres estrategias que un investigador puede tomar en la utilización de sistemas de
ecuaciones estructurales:
1º. Uso como técnica estrictamente confirmatoria, donde se diseña el modelo y se
estudia la bondad del ajuste para determinar si las varianzas y covarianzas de los
datos son consistentes con el modelo diseñado, todo ello teniendo en cuenta que
pueden existir otros modelos diferentes al propuesto que también se ajustan a los
datos disponibles, es decir, que aunque el modelo propuesto presente un ajuste
aceptable, el investigador no ha probado el modelo propuesto, sino que solo ha
confirmado que es uno de los varios modelos posibles.
2º. Estrategia de modelos rivales, que permite evaluar el modelo estimado con modelos
alternativos, donde se estudian los índices de ajuste de cada modelo diseñado y se
elige el que presente mejores resultados.
• Actualmente se dispone de múltiples índices de ajuste y es un campo que está
en constante desarrollo
• Aunque es deseable en principio, en la realidad no suele ser fácil disponer de
varios modelos alternativos.
3º. Estrategia de desarrollo del modelo (uso confirmatorio y exploratorio), la cual
difiere de las dos anteriores estrategias en que, aunque se propone un modelo y se
comprueba el ajuste a los datos, se buscan aquellos índices donde presenta
deficiencias, y se llevan a cabo las modificaciones oportunas para mejorarlo.
Cuando se sigue esta estrategia, se intenta reespecificar un modelo básico para
encontrar uno nuevo.
A menudo es fácil encontrarse con modelos que se complican, ya que pueden existir
factores que expliquen unas variables y otras no; o factores subyacentes (varios niveles).
Aquí es donde se diferencian entre modelos de Análisis Factorial Exploratorio, Análisis
Factorial Confirmatorio, y en general, los modelos de Ecuaciones Estructurales.
6
A continuación en el punto 3 se explicará el modelo de Análisis Factorial, que es un
modelo especial de Ecuaciones Estructurales, debido a que lo que trata es de determinar
la estructura de la covarianza.
Cabe recalcar que covariación no implica causalidad, en la figura 2 se visualiza un
ejemplo gráfico:
Figura 2
Aplicaciones: Utilizando el buscador de Google Académico y basándonos en los 2
últimos años han aparecido 91.700 artículos sobre los modelos de Ecuaciones
Estructurales, en los cuales se trabajan sobre todo en el campo de la biología, en el
campo de las costumbres de la sociedad, y sobre todo aparece en mayor medida ámbitos
relacionados con la psicología, donde se ha puesto actualmente muy de moda.
7
3. EL ANÁLISIS FACTORIAL
Dentro de las técnicas estadísticas multivariantes se encuentra el análisis factorial, el
cual asume múltiples usos. En el análisis factorial, se distinguen dos tipos, el análisis
factorial exploratorio (AFE) y el análisis factorial confirmatorio (AFC), surge ahí la
cuestión de cual utilizar, en qué momento utilizarlo, y cómo utilizarlo.
El Análisis Factorial es una técnica de reducción de datos que sirve para generar grupos
homogéneos de variables a partir de un conjunto numeroso de ellas. Estos grupos se
forman con las variables que correlacionan entre sí, procurando independencia entre
ellos. Su objetivo es buscar un número mínimo de dimensiones que expliquen el
máximo de información contenida en los datos (Álvaro Coutiño G., 2014). En resumen,
como explica el autor (Long, 1987), el Análisis Factorial es un procedimiento
estadístico para el descubrimiento de un pequeño número de factores mediante el
estudio de la covarianza entre un conjunto de variables observadas.
El Análisis Factorial funciona analizando la varianza común entre las variables; para
ello se parte de la matriz de correlaciones de los datos. A raíz del estudio de la varianza,
ésta técnica trata de simplificar la información que nos da la matriz de correlaciones, la
cual se opera con las correlaciones al cuadrado para que expresen toda la varianza
común entre las variables. En la Figura 3 podemos ver un ejemplo gráfico:
Figura 3: Ejemplo gráfico de Análisis Factorial Confirmatorio. Fuente: (Cambridge)
8
3.1. MODELO DE ANÁLISIS FACTORIAL EXPLORATORIO
El Análisis Factorial Exploratorio (AFE) tuvo sus orígenes a comienzos del siglo XX,
en concreto en 1904 cuando Charles Spearman planteó una teoría de
la inteligencia basada en la existencia de un factor común al que denominó “g”. De
acuerdo con esta teoría, la inteligencia de los individuos podía ordenarse a lo largo de
una sola dimensión. Profundizando un poco más, el Análisis Factorial Exploratorio es
una técnica estadística de interdependencia (es decir, un conjunto de variables en las
cuales no existe una de variable respuesta ni variables independientes, como en la
mayoría de modelos de regresión, sino que todas las variables son analizadas en
conjunto), que se caracteriza por su versatilidad. El objetivo principal es tratar de
establecer una estructura subyacente entre las variables del análisis, a partir de
estructuras de correlación entre ellas; o, en otras palabras: busca definir grupos de
variables (más conocidos como factores) que estén altamente correlacionados entre sí.
Adicionalmente, se usa para reducir la complejidad de un gran número de variables en
un número más reducido; por lo tanto, tiene como objetivo explicar un fenómeno de
forma más minuciosa.
V. Observadas
V. Latentes
o
Factores
Factor único o
Error de la variable
Figura 4: Modelo de Análisis Factorial Exploratorio. Fuente: Long (1987)
9
La Figura 4 (Long, 1987) ilustra un modelo factorial exploratorio. En esta figura (como
en las figuras posteriores), las variables observadas se representan por cuadrados y los
factores (o variables latentes) están representados en la parte superior por círculos “1”,
“2” y “3”. Una flecha que apunta directamente de un factor a una variable observada
indica el efecto ocasional de dicho factor en la variable observada. Flechas curvas entre
dos factores indican que están correlados.
Entre las variables latentes, podemos destacar tres tipos:
I. Variables exógenas, son variables latentes independientes, esto significa que
afectan a otras variables y no reciben ningún efecto de ninguna de ellas. Estas
variables se pueden detectar en las gráficas porque no sale ninguna flecha de
esta variable. En la figura 5, la única variable que no sería exógena sería V3.
II. Variables endógenas, que son variables latentes dependientes, son aquellas que
reciben el efecto de otras variables, es decir, en las gráficas son las variables a
las que llegan las flechas. Estas variables están afectadas por un término de
perturbación o de error, y pueden ser tanto variables observables como no
observables. En la figura 5, las 3 variables serían endógenas.
III. Variables error, este término tiene en cuenta todas las todas las fuentes de
variación que no están consideradas en el modelo, como puede ser en la
medición de las variables. Se denominan variables de tipo latente al no ser
observables.
Figura 5: Variables endógenas y exógenas
10
Situándonos en la Figura 4 (y como siempre ocurre en los AFE), cada uno de estos
factores afecta causalmente a cada una de las variables observadas, contenidas en los
cuadrados etiquetados de X1 a X7, como se indica por las flechas de ’s a las X’s. Éstos
factores marcados con ’s se llaman factores comunes, ya que sus efectos son
compartidos en común con más de una de las variables observadas. Los círculos en la
parte inferior de la figura 4, marcados como 1 a 7, se llaman factores únicos o “errores
de las variables”. A diferencia de los factores comunes, sus efectos son exclusivos de
una y sólo una variable observada. En el modelo factorial exploratorio, los errores de las
variables se supone que no están correlacionados con otros, tal como se indica por la
ausencia de flechas curvas entre ellos.
En un modelo factorial exploratorio el investigador no especifica la estructura de las
relaciones entre las variables en el modelo, por lo que él mismo debe asumir que:
1) Todos los factores están correlacionados (o, en algunos tipos de análisis factorial
exploratorio, que todos los factores no están correlacionados);
2) Todas las variables observadas se ven afectadas directamente por todos los factores;
3) Los factores únicos (errores) no están correlacionados unos con otros;
4) Todas las variables observadas se ven afectadas por un factor único;
5) Todos los ’s no están correlacionados con todos los ’s.
Como menciona el autor J. Scott Long en su libro, estas suposiciones se hacen sin tener
en cuenta la idoneidad sustantiva (que para determinar relación entre factores y
variables es necesario que esa relación tenga sentido desde el punto de vista teórico, y
no solo porque salga coyunturalmente en el análisis). Algunos supuestos adicionales y,
en general arbitrarios, deben ser impuestos por el investigador, con el fin de estimar los
parámetros del modelo.
La incapacidad del modelo factorial exploratorio de incorporar restricciones
significativas sustantivamente, y la necesidad de implantar restricciones sustancialmente
sin sentido, se ha ganado la etiqueta despectiva de entra la basura y sale del modelo
(GIGO, ‘Garbage In Garbage Out’ (Entra Basura, Sale Basura).
11
3.2. MODELO DE ANÁLISIS FACTORIAL CONFIRMATORIO
Las limitaciones del modelo factorial exploratorio se han superado en gran medida por
el desarrollo del modelo factorial confirmatorio (Jöreskog, 1967, 1968) , (Lawley,
1969). En el modelo factorial confirmatorio, el investigador impone restricciones
“sustantivamente motivadas”. Estas limitaciones determinan:
1º. Qué pares de factores están correlacionados.
2º. Qué variables observadas se ven afectadas por los factores.
3º. Qué variables observadas se ven afectados por un factor único (error).
4º. Qué pares de factores únicos (errores) están correlacionados.
El test estadístico se puede realizar para determinar si los datos de la muestra son
consistentes con las limitaciones impuestas o, en otras palabras, si los datos confirman
el modelo generado sustantivamente. Es en este sentido que el modelo está pensado
como un modelo confirmatorio. En la Figura 6 se puede observar un ejemplo de
Análisis Factorial Confirmatorio:
Figura 6: Modelo de Análisis Factorial Confirmatorio. Fuente: Long (1987)
12
La distinción entre los dos modelos (Exploratorio y Confirmatorio) puede verse
comparando el modelo exploratorio en la Figura 4 con el modelo de confirmación en la
Figura 6. En el modelo confirmatorio, por ejemplo, los factores comunes 1 y 3 se
supone que no son correlados, mientras que en el modelo exploratorio todos los factores
comunes se asumen como correlados. En el modelo factorial confirmatorio, las
variables observadas son afectadas solo por algunos factores comunes (por ejemplo, se
asume que 𝑋1 no es afectada por 2 y 3), mientras que todas las variables observadas se
ven afectados por los factores comunes en el modelo exploratorio.
Por otro lado, como podemos ver en el ejemplo del modelo factorial confirmatorio
(Figura 6), dos de los factores únicos se supone que son correlados (2 y 3 están
correlacionados como lo indica la flecha curva que conecta entre ellos), y una de las
variables observadas se supone que no tiene margen de error asociado con él (𝑋6 no
tiene ningún factor único asociado con él), mientras que en el modelo exploratorio
ninguno de los factores únicos está correlados, y el factor único está asociado a cada una
de las variables observadas.
En la práctica, el investigador puede no tener un modelo único y convincente en la
mente, en cambio, pueden sugerirse un conjunto de modelos igualmente razonables por
la teoría sustantiva, o bien, el investigador puede encontrar que el único modelo
sugerido por la teoría no encaja. En caso de no encajar, el modelo factorial
confirmatorio puede utilizarse de manera exploratoria. Puede realizarse una búsqueda
de especificación (Leamer, 1978) donde la selección de un modelo se basa en el examen
previo de los datos.
13
3.3. AFE vs AFC
AF Exploratorio AF Confirmatorio
Método heurístico Fuerte base teórica
Halla el nº de factores Nº de factores a priori
Halla la relación entre los factores Se establece la relación entre los factores
a priori
Variables con pesos en todos los factores Variables con pesos en factores
determinados
Técnica de reducción de dimensionalidad Técnica de reducción de dimensionalidad
Tabla 1: AFE vs AFC. Fuente: Elaboración propia.
El AFC permite la estimación de múltiples factores correlados, pero no permite a los
factores tener relaciones predicción-respuesta.
Por tanto, a la hora de compararlos (Tabla 1), podemos considerar que el AFE trata de
identificar la estructura factorial para un conjunto de variables. Esto lleva consigo el
determinar cuántos factores existen, así como la estructura de los pesos. De hecho,
aunque algunos procedimientos de extracción de factores permiten fijar previamente el
número de ellos, en ningún caso se puede forzar a las variables a tener pesos sólo en
algunos factores y no en otros.
14
3.4. ANÁLISIS FACTORIAL vs COMPONENTES PRINCIPALES
El propósito principal del Análisis Factorial y de las Componentes Principales es definir
la estructura subyacente en una serie de datos que permitan analizar la estructura de
interrelaciones que existe entre un gran número de variables, factores y componentes.
En muchas ocasiones se confunde de que las componentes principales y el análisis
factorial son lo mismo. En la tabla 2 se explicará cuáles son sus diferencias:
ANÁLISIS FACTORIAL ANÁLISIS
COMPONENTES PRINCIPALES
Objetivo: Identificar valores subyacentes
que reflejen qué es lo que las variables
comparten en común (Hair, 1999).
Objetivo: Uriel (1995) menciona que el
objetivo del análisis de componentes
principales es explicar la mayor parte de
variabilidad total de un conjunto de
variables con el menor número de
componentes posibles.
Ubicación: Análisis Exploratorio (Ayuda
a conocer el número de factores
necesarios que faciliten el análisis en la
investigación) o Confirmatorio (Ayuda a
confirmar si unos factores fijados a priori
son los adecuados)
Ubicación: Estadística descriptiva
Cuando no existe asociación entre las variables las correlaciones entre ellas son nulas y
carece de sentido realizar estos tipos de análisis.
Los factores que surgen en el análisis
factorial se basan en la varianza común.
Considera la varianza total y estima los
factores que contienen proporciones bajas
de la varianza única.
Por el contrario cuando el objetivo
principal es identificar las dimensiones
latentes o las construcciones representadas
en las variables originales, y el
investigador quiere eliminar la varianza,
lo más apropiado es utilizar el modelo
factorial común.
El análisis de componentes principales
es apropiado cuando el interés primordial
se centra en la predicción, o el mismo
número de factores necesarios, para
justificar la proporción máxima de la
varianza representada en la serie de la
variable original.
Tabla 2: AF vs ACP
15
4. EJEMPLO DE ANÁLISIS FACTORIAL CONFIRMATORIO:
Aplicación al cálculo de índices en economía
4.1 PRÓLOGO
El objetivo de este estudio consiste en analizar los resultados alcanzados por diferentes
regiones europeas, con principal interés en la región de Andalucía en materia de política
de cohesión social, a través de diferentes análisis comparativos tanto en el marco de las
comunidades autónomas como en el marco de las regiones de la Unión Europea.
Para ello, previamente se han obtenido indicadores de cohesión (del latín cohaesum =
estar unido) social en el conjunto de las regiones europeas, y se le han aplicado técnicas
de estadística multivariante; en concreto para el estudio se han utilizado modelos de
Ecuaciones Estructurales que no habían sido previamente utilizados para tales fines.
Dichos indicadores permiten realizar el estudio comparativo antes citado y permitirán
desarrollar un análisis de la evolución temporal de la cohesión social, tanto individual
como comparativamente con el resto de comunidades autónomas y regiones europeas.
Tales comentarios y conclusiones han de enmarcarse en el año de referencia, 2010. Los
indicadores propuestos y la capacidad de interpretación de los mismos no se ven
afectados por caducidad alguna, además, a raíz de su evolución temporal se podrán
extraer conclusiones sobre cómo está afectando a la cohesión social la actual crisis
económica.
16
4.2 INTRODUCCIÓN
La gran variedad de matices que se asocian al concepto de cohesión social evidencia la
dificultad de obtener una definición clara y concisa de este; además, es fácil encontrarlo
confundido con otros matices como el “bienestar social”, “la igualdad”, “la inclusión
social” o “el equilibrio territorial”. Sin embargo, estas son orientadas a la mejora y
garantía del acceso de los ciudadanos a servicios básicos (educación, salud, etc.), a sus
posibilidades económicas a través del empleo y su nivel de integración y vinculación
social.
La preocupación sobre el efecto que la puesta en marcha de políticas y actuaciones ha
producido en el grado de cohesión, justifica la necesidad de desarrollar herramientas
que permitan medir dicha cohesión y sus repercusiones. Las primeras propuestas
realizadas con este objetivo (Informe presentado por la Comisión Europea de la cumbre
de Estocolmo de marzo de 2001) contemplaron siete indicadores1. Posteriormente se
presentaron y fueron adoptados por los estados miembros de la Unión Europea (Consejo
Europeo de Laeken), los indicadores conocidos como Indicadores de Laeken. Sin
embargo, estos padecen del inconveniente asociado a la naturaleza de los datos, con
escasa información obtenida para las regiones europeas y la consiguiente interpretación
y conclusiones referidas sólo al ámbito estatal europeo.
Lo anteriormente expuesto justifica el contenido fundamental de este trabajo en el que,
en el contexto europeo y con unidad de desagregación regional, se aplica a una
metodología basada en técnicas estadísticas de reducción de dimensiones (Análisis
Factorial) que conduce a proponer un conjunto de índices o factores orientados a la
medición de la cohesión.
Como fuente se hace uso de un amplio conjunto de variables pertenecientes a diversos
dominios (agricultura, demografía, economía, educación, ciencia y tecnología, salud,
turismo, transportes, mercado laboral y sociedad de la información).
1 En el campo de la cohesión social, se emplearon siete indicadores: (i) distribución del ingreso (razón
entre la parte del ingreso capturada por el quintil más pobre y el quintil más rico); (ii) porcentaje de la
población bajo la línea de pobreza antes y después de las transferencias (el 60% del ingreso mediano
nacional); (iii) persistencia de la pobreza (porcentaje de la población bajo la línea de pobreza durante tres
años consecutivos); (iv) proporción de hogares sin miembros en el mercado laboral; (v) disparidades
regionales (coeficiente de variación de las tasas de desempleo regional); (vi) baja escolaridad (proporción
de personas de 18-24 años que no están ni en educación o capacitación y que tienen solamente baja
secundaria), y, (vii) tasa de desempleo de larga duración (Atkinson, Anthony, Cantillon, Marlier, &
Nolan, 2005).
17
4.3 METODOLOGÍA
En el apartado anterior se indica que en este trabajo se contempla la cohesión social en
un sentido amplio, como distribución equilibrada de las actividades humanas
(individuales o colectivas) a favor del desarrollo económico, la calidad de vida, e
integración de los ciudadanos y el equilibrio ecológico. Y que ante las dos dimensiones
que determinan el concepto, la dimensión objetiva de los mecanismos y la dimensión
subjetiva de los comportamientos y valoraciones, el trabajo se centraría en la primera
dimensión. Así, el objetivo de medición y análisis es esta dimensión objetiva,
incluyendo los mecanismos que favorezcan el empleo, la educación, la igualdad, la
salud, el bienestar y la protección social.
Por otra parte, el objetivo del trabajo es analizar dicha dimensión en el conjunto de las
regiones europeas, tratando de realizar un análisis conjunto y comparativo de las
mismas. Así, el ámbito territorial bajo estudio viene determinado por el ámbito
geográfico de la Unión Europea, considerando como unidades de estudios las 2642
regiones determinadas por la NUTS2 (Nomenclatura de las Unidades Territoriales
Estadísticas utilizadas por la Unión Europea).
PAÍS NUTS2 PAÍS NUTS2
Bélgica 11 Italia 21
Bulgaria 6 Chipre 1
Rep. Checa 8 Letonia 1
Dinamarca 5 Lituania 1
Luxemburgo 1 Austria 9
Hungría 7 Polonia 16
Malta 1 Portugal 5
Holanda 12 Rumanía 8
Alemania 39 Eslovenia 2
Estonia 1 Eslovaquia 4
Irlanda 2 Finlandia 5
Grecia 13 Suecia 8
España 17 Reino Unido 37
Francia 22 Luxemburgo 1
Tabla 3: Regiones por país según NUTS-2
2 La Unión Europea tiene determinadas 271 NUTS2, pero se han eliminado 8 regiones dados los objetivos
y estructura del estudio, y dadas las particularidades de las mismas. Estas regiones son las siguientes: de
España: “Ceuta” y “Melilla”; de Portugal: “Azores” y “Madeira”; de Francia: “Guadeloupe”,
“Martinique”, “Guyane” y “Reunion”.
18
En este trabajo se utilizará un modelo de Ecuaciones Estructurales, en concreto métodos
de Análisis Factorial, aplicado a un amplio conjunto de variables que proporcionan
información sobre los dominios considerados. Muchos autores critican el uso de esta
técnica multivariante como procedimiento de obtención de indicadores, basándose en
argumentos como: difícil interpretación de los factores obtenidos a través del modelo
matemático en el marco de la realidad, pérdida de parte de la información
proporcionada por los datos, imposibilidad de realizar un análisis dinámico en el
tiempo.
Sin embargo, algunos de los problemas planteados en esas críticas pueden ser eludidos
y/o resueltos y, además, posee muchas ventajas. Así, se puede afirmar:
El Análisis Factorial permite la inclusión en el estudio de un amplio conjunto de
variables frente a la necesidad de un número pequeño que necesitan otros
métodos. Esta restricción que afecta a otros métodos conduce a un proceso
precio de selección subjetiva y restrictiva de las variables que deben ser
incluidas, proceso que, generalmente, conlleva a una pérdida considerable de
información relevante.
En el Análisis Factorial el peso específico de cada variable y dominio queda
determinado intrínsecamente en el método, a través de un criterio objetivo, y no
es necesario determinarlo a priori y de forma subjetiva por el investigador.
No siempre basta con un único indicador para analizar el objeto de estudio. Más
aún, tratar de reducir una realidad multidimensional, poliédrica y compleja a un
único factor es un ejercicio de reduccionismo que conlleva mucha pérdida de
información. El Análisis Factorial puede facilitar la obtención de varios factores
o indicadores que describan, en unas pocas dimensiones, la complejidad del
objeto de estudio.
19
Los datos utilizados se han obtenido de una única fuente, EUROSTAT, y corresponden
al año 2010.
Por la diversidad de definiciones de “región” que se pueden encontrar en los 28 países
de la Unión Europea (EU-28), se considera la clasificación que EUROSTAT ha
desarrollado a tal efecto, subdividiendo cada estado miembro en regiones hasta tres
niveles jerárquicos: los NUTS (Nomenclature of Territorial Units for Statistics –
Nomenclatura de las Unidades Territoriales Estadísticas).
Puesto que el objetivo final es analizar la situación de Andalucía en el contexto europeo
se opta por el nivel NUTS2 donde, tanto Andalucía como el resto de comunidades
autónomas de España queden identificadas unívocamente. La clasificación realizada por
EUROSTAT la forman 3 niveles jerárquicos de división territorial:
NUTS1: Grandes regiones socioeconómicas
NUTS2: Regiones base para la aplicación de políticas regionales
NUTS3: Pequeñas regiones para diagnósticos específicos
Véase también la clasificación geográfica NUTS-2 de las regiones en el mapa Europeo
y una tabla informativa de todos los países con sus regiones en cada una de las
clasificaciones que hizo Eurostat (NUTS-1, NUTS-2, NUTS-3) en la Figura 1 y la
Tabla 1 del Anexo I respectivamente.
Figura 7: NUTS Nomenclatura of Territorial Units for Statistics.
Fuente: (Eurostat)
20
4.4 ANÁLISIS PREVIO Y DEPURACIÓN DE DATOS
Al comienzo se contó con una base de datos de más de 30 variables económicas para
cada una de las 264 regiones, las cuales serían las que ayudarían a conseguir los
objetivos del estudio en primera instancia, siempre y cuando fuesen importantes y
necesarias. Para ello se llevó a cabo una depuración de las mismas, con el objetivo de
poder realizar el estudio con la mejor precisión posible.
Estimación: La estimación de los diferentes SEM se llevó a cabo con el programa
SPSS, el cual permite la estimación simultánea de los parámetros para la estructura
propuesta, y posteriormente se llevó a cabo el Análisis Factorial Confirmatorio con el
programa AMOS. El método de estimación utilizado fue el de máxima verosimilitud.
Según el autor Kenneth A. Bollen (1989), las estimaciones de los parámetros mediante
máxima verosimilitud son bastante aproximadas a las obtenidas mediante mínimos
cuadrados ponderados, sin embargo, se tiende a sobrestimar tanto el valor del
estadístico de contraste Chi-cuadrado como las varianzas estimadas de los errores.
Método de la Máxima Verosimilitud:
Es un método de extracción factorial que proporciona las estimaciones de los
parámetros que con mayor probabilidad ha producido la matriz de correlaciones
observada, si la muestra procede de una distribución normal multivariada. Las
correlaciones se ponderan por el inverso de la exclusividad de las variables, y se emplea
un algoritmo iterativo.
x = A f + u ⇔ X = FA' + U
Además, permite seleccionar el número de factores mediante contrastes de hipótesis.
Este método también puede ser utilizado en el Análisis Factorial Confirmatorio, donde
el investigador puede plantear hipótesis como que algunas cargas factoriales son nulas,
que algunos factores están correlacionados con determinados factores, etc., y aplicar
tests estadísticos para determinar si los datos confirman las restricciones asumidas.
El principal inconveniente del método radica en que, al realizarse la optimización de la
función de verosimilitud por métodos iterativos, si las variables originales no son
normales, puede haber problemas de convergencia sobre todo en muestras finitas.
21
En conclusión, antes de llevar a cabo el Análisis Factorial Exploratorio, se comprueba la
presencia de normalidad univariante a través del Test de Kolmogorov-Smirnov (Tabla
4), ya que el tamaño muestral es mayor a 50 (264):
Observamos la presencia de múltiples variables con problemas de no existencia de
normalidad, nos quedaremos con aquellas variables que no rechacen la hipótesis nula,
ya que como se menciona anteriormente, el método de máxima verosimilitud requisa de
normalidad multivariante para evitar problemas futuros de convergencia.
Del total de variables, contienen normalidad univariante 11; éstas se explicarán
detalladamente en el siguiente apartado.
En este sentido, el que cada una de estas variables verifique normalidad univariante
resulta ser una condición necesaria pero no suficiente para que conjuntamente sigan una
normal multivariante (si la distribución conjunta es normal multivariante, cada una de
las marginales es una normal univariante, pero no a la inversa).
NORMALIDAD MULTIVARIANTE NORMALIDAD UNIVARIANTE
Tabla 4: Prueba K-S para una muestra
22
NORMALIDAD MULTIVARIANTE
Por este motivo, una vez comprobada la normalidad de cada una de las variables
observadas consideradas individualmente, se hace necesario también contrastar la
hipótesis de normalidad multivariante. A tal fin, MARDIA (1970) propuso algunos tests
para contrastar si la asimetría y la curtosis multivariantes del conjunto de variables
observables permite asumir o no la hipótesis de normalidad. Estos contrastes se
construyen a partir de las siguientes medidas muestrales de asimetría y curtosis
multivariantes:
- Asimetría: 𝐺1,𝑝 =1
𝑛2∑ ∑ [(𝑥𝑖 − 𝑥)′𝑛
𝑗=1𝑛𝑖=1 �̂�−1(𝑥𝑗 − 𝑥)]3
- Curtosis: 𝐺2,𝑝 =1
𝑛∑ [(𝑥𝑖 − 𝑥)′𝑛
𝑖=1 �̂�−1(𝑥𝑖 − 𝑥)]2
donde n representa el número total de observaciones, xi y xj son vectores columna con
los valores de todas las variables para las observaciones i-ésima y j-ésima,
respectivamente, x es el correspondiente vector columna de medias muestrales y �̂�−1 es
la inversa de la matriz de varianzas-covarianzas muestral.
Los estadísticos de contraste 𝑧(𝐺1,𝑝) y 𝑧(𝐺2,𝑝) obtenidos a partir de 𝐺1,𝑝 y 𝐺2,𝑝 se
distribuyen asintóticamente según una ley normal por lo que su interpretación es
semejante a la ya comentada anteriormente para los estadísticos de asimetría y curtosis
univariante 𝑧(𝐺1) y 𝑧(𝐺2): aquellos valores experimentales que en valor absoluto sean
mayores que 1'96 permiten rechazar a un nivel de significación del 5% las respectivas
hipótesis nulas de distribución multivariante simétrica y mesocúrtica. Asimismo,
también se puede realizar un contraste conjunto de simetría y mesocurtosis
multivariantes utilizando el estadístico:
𝐾𝑝 2 = [𝑧(𝐺1,𝑝)]2 + [𝑧(𝐺2,𝑝)]2
que se aproxima a una distribución χ2 con dos grados de libertad y que también se
interpreta de forma análoga al estadístico conjunto k2 de normalidad univariante, es
decir, se rechaza la hipótesis nula para valores experimentales mayores que 5'99 dado
un nivel de significación del 5%.
23
Dentro de los resultados del análisis realizado, destacaremos, en primer lugar, una tabla
con una serie de estadísticos descriptivos calculados para cada una de las variables
seleccionadas, entre los que se encuentran los coeficientes de asimetría G1 y curtosis G2
y sus respectivos errores típicos. Véase Tabla 1 completa en Anexo II.
Dividiendo cada uno de los coeficientes entre su respectivo error típico se ha calculado
los estadísticos z(G1) y z(G2), y sumando los cuadrados de estos últimos hallamos el
valor experimental del estadístico de contraste conjunto k2 , siendo los resultados
obtenidos los siguientes:
Como se puede observar, de acuerdo con los criterios especificados con anterioridad
para un nivel de significación del 5% (𝑧(𝐺1) > |1.96|), la hipótesis de simetría se
rechaza para 5 variables; en cambio, la hipótesis de distribución mesocúrtica se rechaza
(𝑧(𝐺2) > |1.96|) sólo para 2. Por otra parte, el contraste conjunto de asimetría y
curtosis, indica que sólo pueden considerarse como normales (K2
< 5,99) 5 variables.
Por tanto, se concluye después del anterior análisis la no existencia de normalidad
multivariante.
HRST_Educ
_sobrepob_
act
HRST_Educ
_sobrepob_t
ot
De_n_tbDe_pob_65o
m_TasaDe_tas_inc
De_tas_inc
_nat
EC_prop_GF
CF_construc
ción
EC_prop_GF
CF_industry_
sin_c
EC_rem_con
strucción
MT_Paro_LD
_Share
MT_Ts_25_6
4_PA_5_6_T
3,0085 2,9962 4,4303 -0,9408 0,0622 1,6088 1,0358 3,6605 -1,8544 1,4019 2,7395
-0,1167 0,4011 2,4975 0,1137 1,2611 3,2341 0,6897 1,9348 -0,4483 -0,5390 -0,5139
9,0646 9,1381 25,8650 0,8980 1,5944 13,0475 1,5485 17,1427 3,6398 2,2560 7,7690
Curtosis: z(G2)
Conjunto: k2
CONTRASTE
Asimetría: z(G1)
Tabla 5: Estadísticos Descriptivos
Tabla 6: Asimetría y Curtosis
24
4.5 DEFINICIÓN DE VARIABLES
En el siguiente cuadro se presentan las variables seleccionadas para el estudio. Se
consideraron estas y no otras porque se realizó un análisis previo (4.4) y se concluyó
que serían las variables menos conflictivas, además que son de gran interés.
4.6 ANÁLISIS DE DATOS
Una vez determinadas las variables que van a formar parte del estudio, se llevará a cabo
en primer lugar un Análisis Factorial Exploratorio y seguidamente se procederá a su
confirmación a través de un Análisis Factorial Confirmatorio.
HRST_Educ_sobrepob_act RRHH en ciencia y tecnología – Educación. Porcentaje
sobre la población activa.
HRST_Educ_sobrepob_tot RRHH en ciencia y tecnología – Educación. Porcentaje
sobre la población total.
De_n_tb Tasa bruta de nacimientos.
De_pob_65om_Tasa Porcentaje de población de 65 años o más sobre el total de
la población a 1 de Enero.
De_tas_inc Tasa bruta de crecimiento.
De_tas_inc_nat Tasa bruta de crecimiento natural.
EC_prop_GFCF_contrucción Formación de capital bruto. Proporción dedicada a
construcción con respecto al total NACE.
EC_prop_GFCF_industry_sin_c Formación de capital bruto. Proporción del dedicado a
industria (sin construcción) respecto al total NACE
EC_rem_construcción Porcentaje de compensación de empleados. Construcción
con respecto al total de actividades NACE.
MT_Paro_LD_Share Desempleo de larga duración ( ≥ 12 meses ). Cuota.
MT_Ts_25_64_PA_5_6_T
Tasa de población activa con nivel ISCED 5-6 entre 25 y
64 años con respecto al total de población activa (25 y 64
años).
Tabla 7: Definición de variables
25
4.6.1 ANÁLISIS FACTORIAL EXPLORATORIO
Como se mencionó en el apartado 4.4, se utilizó el método de extracción a través de la
Máxima Verosimilitud, ya que es el más apropiado para el posterior Análisis
Confirmatorio. Además se llevó a cabo una rotación Varimax (Kaiser, 1958) ya que
maximiza la varianza y esto facilitaría la interpretabilidad de los factores; esto es porque
tienden a “aplastar” los coeficientes pequeños y a hacer crecer los grandes de manera
que sus “perfiles” pueden asociarse más fácilmente a un subconjunto concreto de
variables. Estos subconjuntos de variables más involucradas en un factor determinado
permiten intuir un significado y, esto es muy importante en ciertos ámbitos, asociarles
un nombre.
Prueba de KMO y Bartlett
Medida Kaiser-Meyer-Olkin de adecuación de
muestreo ,739
Prueba de esfericidad
de Bartlett
Aprox. Chi-cuadrado 3057,595
gl 55
Sig. ,000
Tabla 8
El KMO es medianamente alto esto indica que el modelo es válido, hay un mayor grado
de correlación. Además, la prueba de esfericidad de Barlett nos reconfirma lo mismo, al
ser rechazada la Hipótesis nula:
Ho: La matriz de correlaciones es igual a la identidad3
H1: La matriz de correlaciones es distinta a la identidad4
Hablando coloquialmente, este índice de KMO medianamente alto, nos indica que las
variables que se introdujeron están tan asociadas y tan correlacionadas entre ellas que se
pueden reducir los datos con la idea de formar factores.
3 Igual a la identidad: La diagonal son 1, luego los coeficientes de correlaciones de las diversas variables
serian 0 (No habría asociación entre las diversas variables). 4 Distinta a la identidad: Sí hay correlaciones entre las variables
26
En la tabla 9 vemos que con 4 factores explicaría el 83,66% de la variabilidad. Según el
criterio que se tenga en cuenta se podrá coger un determinado número de factores, si nos
agarramos al criterio más general, lo ideal sería que los factores explicaran al menos un
80% de la variabilidad total, en este caso 4 factores. Cabe decir, que en este caso
escoger 3 factores sería otra opción muy recomendada, ya que explica casi tres cuartas
partes de la variabilidad total (74,54%), y no se perdería demasiada información.
El gráfico de sedimentación de la Figura 8 ayuda a corroborar la anterior decisión. Se
aprecia que 4 factores podría ser la solución mas acertada.
Se llega al fin a la salida esperada, la Matriz factorial, donde se podrá visualizar las
cargas de las variables en los diferentes factores, dando una predicción de cual podría
ser el posible mejor modelo que explique mejor las variables a raíz de los factores:
Tabla 9
Figura 8
27
Matriz factoriala
Factor
1 2 3 4
HRST_Educ_sobrepob_act ,971
HRST_Educ_sobrepob_tot ,964
De_n_tb ,671 ,553
De_pob_65om_Tasa -,550
De_tas_inc ,559 ,459
De_tas_inc_nat ,715 ,687
EC_prop_GFCF_construcción ,999
EC_prop_GFCF_industry_sin_c -,396
EC_rem_construcción ,739
MT_Paro_LD_Share -,390 -,644
MT_Ts_25_64_PA_5_6_T ,969
Método de extracción: máxima probabilidad.
a. 4 factores extraídos. 34 iteraciones necesarias.
Tabla 10: Matriz factorial sin rotar.
Se necesitaron 34 iteraciones para resolver problemas de convergencia. El programa ha
repartido las cargas en 4 factores, los cuales ayudarán a estudiar posibles modelos para
la comparación entre ellos y concluir el mejor de ellos para su posterior análisis.
Matriz de factor rotadoa
Factor
1 2 3 4
HRST_Educ_sobrepob_act ,950 ,256
HRST_Educ_sobrepob_tot ,923 ,211 ,284
De_n_tb ,331 ,749 ,295
De_pob_65om_Tasa -,719
De_tas_inc ,266 ,384 ,665
De_tas_inc_nat ,310 ,875 ,346
EC_prop_GFCF_construcción ,995
EC_prop_GFCF_industry_sin_c -,314 -,299
EC_rem_construcción ,741
MT_Paro_LD_Share -,219 -,732
MT_Ts_25_64_PA_5_6_T ,924 ,245 ,247
Método de extracción: máxima probabilidad.
Método de rotación: Varimax con normalización Kaiser.
a. La rotación ha convergido en 5 iteraciones.
Tabla 11: Matriz factorial rotada
28
También se considera la Matriz de Factores Rotados, ya que por lo general puede ser
una solución más óptima que la de Factores sin Rotar. Se llevará a cabo una
comparación entre diferentes modelos posibles, en el que se escogerá aquel que presente
los índices más adecuados (mejor represente a las variables) para su interpretación.
Aquí finaliza la parte exploratoria y deja paso a la confirmación del modelo.
4.6.2. ANÁLISIS FACTORIAL CONFIRMATORIO
Para la realización del Análisis Factorial Exploratorio se utilizó el programa de SPSS
Amos, y se propuso el modelo que nos sugirió el AFE para comprobar su confirmación;
éstos fueron los resultados:
Figura 9: Path Diagram sacado de Matriz factorial rotada
La Figura 9 muestra el Path Diagram obtenido (con los resultados de la matriz de
factores rotados) del AFE; la interpretación se llevará a cabo una vez se comparen
diferentes posibles modelos y se seleccione el que mejores indicadores tenga.
29
ANÁLISIS DE LOS INDICADORES OBTENIDOS
En la Figura 10 se puede ver que el primer problema que se presenta es en el Test de
Bondad de ajuste de la Chi-cuadrado, que siempre interesará que no se rechace, ya que
supondrá que los datos están bien ajustados, sin embargo, en este caso explica un mal
ajuste de los datos ya que su p-valor es muy próximo a 0, por lo que rechazaría la
hipótesis nula.
H0: 𝑓(𝑥) = 𝑓0(𝑥)
H1: 𝑓(𝑥) ≠ 𝑓0(𝑥)
Varios autores han señalado los problemas de este estadístico para la evaluación con
muestras grandes, ya que lleva a rechazar los modelos aunque los residuos sean bastante
pequeños (Bentler y Bonnet, 1980; James, Mulaik, y Brett, 1982; Mulaik, James,
Alstine, Bennett, Lind y Stilwell 1989).
Según menciona el autor (Kline, 1994) menciona en su libro, en el Análisis Factorial
Confirmatorio este caso se da muy a menudo y puede deberse a múltiples causas, como
que este test es muy sensible al tamaño de la muestra. El análisis factorial confirmatorio
requiere pruebas complementarias de bondad de ajuste, para confirmar si la estructura
obtenida coincide con la estructura propuesta como hipótesis. Algunas de estas pruebas
se basan en el test 2 y se ven muy afectadas por el número de sujetos. Para que las
pruebas de ajuste sean fiables hace falta una muestra de al menos 100 sujetos si se trata
solamente de dos factores, y muchos más (al menos N=500) si se trata de modelos más
complejos (Kline, 1994); el número de sujetos también debe ser grande con respecto al
número de variables (20:1). En general todos estos métodos no son del todo fiables por
lo que deben utilizarse con prudencia (Kline, 1994).
Figura 10
30
Según mencionan los autores, Bentler y Bonett (1980), Long (1983) y Ullman (1996),
entre otros; dado que rara vez se cumplen simultáneamente estos requisitos
(normalidad de las variables observadas y tamaño muestral lo suficientemente grande),
señalan que la utilización de este estadístico debe efectuarse con precaución con
muestras grandes, dado que incluso pequeñas diferencias entre las matrices de
covarianzas muestral y estimada serán evaluadas como significativas por el contraste.
Esta limitación ha llevado al desarrollo de más de 30 indicadores ad hoc de bondad de
ajuste, algunos de los cuales se mostrarán en este análisis.
Ésta podría ser la causa de la falta de ajuste, debido a que se cuenta con un total de 264
observaciones tratándose de 4 factores. Respecto al número de observaciones frente al
número de variables no debería causar ningún inconveniente, ya que está en una
proporción 24:1.
Como se ha mencionado anteriormente, para confirmar la hipótesis de no diferencia
entre las dos estructuras factoriales hay que aceptar la Hipótesis Nula, y con muestras
grandes se rechaza la Hipótesis Nula con mucha facilidad por lo que con muestras
grandes (en principio preferibles) es muy difícil confirmar cualquier hipótesis; en
cambio con muestras pequeñas (sobre todo) se pueden confirmar a la vez varias
hipótesis por lo que con muestras pequeñas resulta más fácil demostrar lo que uno
quiera; habría entonces que demostrar también que otras hipótesis rivales no se
confirman. El hecho de que estos análisis confirmen el modelo propuesto no quiere
decir que no haya otros posibles modelos que se ajusten a estos datos (comentarios
sobre este punto pueden verse en (Hocevar, Zimmer, & Strom, 1984); (Hattie, 1985);
(Gorsuch, 1986b); (Kline, 1994); (Oliver & Tomás, 1995); (Stapleton., 1997b).
Muchos autores quitan importancia a este índice (2), y prestan más atención a los
índices ad hoc, que indicarán si el modelo de Análisis Factorial Confirmatorio es
adecuado o no.
31
COMPARACIÓN DE MODELOS
La comparación de modelos se llevará a cabo a través de sus índices ad hoc.
El índice CMIN/DF (llamado así en AMOS) es igual al estadístico de la X2 dividido
entre sus grados de libertad. Es ideal que este índice sea cuanto menor, mejor.
El GFI según denomina su autor (Ullman 1996) es una ratio entre los elementos
ponderados de la matriz de covarianzas reproducida y los elementos ponderaros de la
matriz de covarianza muestral observada.
Aquel modelo que lo aproxime más a 1, significará que está mejor ajustado.
El SRMR, son los residuos estandarizados cuadráticos medios (Standarized Root Mean
Square Residual), sus valores están acotados entre 0 y 1, siendo lo más adecuado
valores próximos a 0.
Para la comparación de los modelos anidados se utiliza como índice de bondad de ajuste
relativo el índice NFI (Normed Fit Index). El índice de ajuste normativo (NFI) fue
propuesto por (Bentler & Bonett, 1980) y compara el valor del estadístico 2 del
modelo teórico con el del modelo independiente. Este índice no tiene en cuenta los
grados de libertad del modelo propuesto y, a medida que se liberan parámetros, se
consiguen modelos más ajustados.
𝑁𝐹𝐼 =
𝑖𝑛𝑑𝑒𝑝2 −
𝑡𝑒ó𝑟𝑖𝑐𝑜2
𝑖𝑛𝑑𝑒𝑝2
Siguiendo las recomendaciones de (Bentler 1992) se considera que son susceptibles de
mejora los índices de ajuste, para los modelos anidados, por debajo de 0,90.
Algunos autores han demostrado que este índice tiene una tendencia a subestimar el
ajuste del modelo si las muestras son pequeñas (Bearden & Sharma, 1982), llevando a
sus autores a plantear dos modificaciones del mismo, el índice NNFI y el CFI.
El índice NNFI (Nonnormed Fit Index) a diferencia del NFI, incorpora los grados de
libertad de los modelos teórico e independiente y aunque se evita así la subestimación
del ajuste, puede provocar en algunos casos extremos valores fuera del rango 0-1.
𝑁𝑁𝐹𝐼 =
𝑖𝑛𝑑𝑒𝑝2 −
𝑔𝑙𝑖𝑛𝑑𝑒𝑝 𝑔𝑙𝑡𝑒ó𝑟𝑖𝑐𝑜
𝑡𝑒ó𝑟𝑖𝑐𝑜2
𝑖𝑛𝑑𝑒𝑝2 − 𝑔𝑙𝑖𝑛𝑑𝑒𝑝
32
Por otro lado, el CFI (Comparative Fit Index), conocido como el índice de ajuste
comparativo de Bentler; compara el ajuste de un modelo objetivo con el ajuste de un
modelo independiente, un modelo en el que se supone que las variables no están
correlacionadas. En este contexto, ajuste se refiere a la diferencia entre las matrices de
covarianza observadas y predichas, tal como se representa por el índice chi-cuadrado.
Además este índice, al igual que el NNFI tiene en cuenta los grados de libertad, en este
caso los corrige del siguiente modo:
𝐶𝐹𝐼 = |(
𝑖𝑛𝑑𝑒𝑝2 − 𝑔𝑙𝑖𝑛𝑑𝑒𝑝) − (
𝑡𝑒ó𝑟𝑖𝑐𝑜2 − 𝑔𝑙𝑡𝑒ó𝑟𝑖𝑐𝑜)
𝑖𝑛𝑑𝑒𝑝2 − 𝑔𝑙𝑖𝑛𝑑𝑒𝑝
|
Un CFI mayor de 0,85 indica que el ajuste del modelo es aceptable.
El índice de bondad de ajuste más robusto (Fan, Thompson, & Wang, 1999) son los
Residuos Cuadráticos Medios Estandarizados (RMSEA). Este índice ha sido
desarrollado como una medida absoluta de la diferencia de la estructura de relaciones
entre el modelo propuesto y los valores de covarianza en población medida (Steiger,
1990).
Al final de la tabla se encuentran dos criterios de información de Akaike (1987). Tanto
el AIC (Akaike Information Criterion), como el BIC, se consideran una medida de
bondad de ajuste de la teoría de la información, que se puede aplicar solo cuando se
utiliza la estimación de máxima verosimilitud (Burnham & Anderson, 1998). Estos
índices se utilizan para comparar diferentes modelos. Los modelos que generan los
valores más bajos serán los más óptimos.
𝐴𝐼𝐶 = 𝑡𝑒ó𝑟𝑖𝑐𝑜2 − 𝑔𝑙𝑡𝑒ó𝑟𝑖𝑐𝑜
(Ullman, 1996) señala que “lo suficientemente bajo” pero, dado que no está
normalizado a un intervalo 0-1, “suficientemente bajo” solo puede entenderse en
términos comparativos con otros modelos teóricos, es decir, servirá como indicador para
señalar si el modelo que hemos contrastado es mejor o peor que otro modelo
contrastado previamente, pero no ofrece un nivel de ajuste absoluto.
33
Medida de
bondad de
ajuste
Niveles de ajuste
aceptables
Modelo 1,
M.F.S.R
Modelo 2
M. F. S. R.
Variable-Factor
Modelo 3
M. F. R.
Modelo 4
M. F. R.
2 Niveles
Modelo 5
M.F.R
Variable-Factor
CMIN (2) Bajo 513,84 477,268 319,187 319,202 281,462
CMIN/DF Pequeño 13,522 12,899 8,184 7,980 7,407
SRMR Próximo a 0 0,120 0,119 0,074 0,075 0,073
GFI 0 mal ajuste;
1 ajuste perfecto 0,781 0,791 0,829 0,829 0,839
NFI >0.90 0,835 0,847 0,897 0,897 0,910
CFI >0.85 0,844 0,856 0,908 0,909 0,920
RMSEA
(D.M.) <0.05 0,218 0,213 0,165 0,163 0,156
RMSEA
(I.M.)
Diferencia con
RMSEA mayor 0,460 0,460 0,460 0,460 0,460
AIC Valor pequeño
indica parsimonia 569,840 535,268 373,187 371,202 337,462
BIC Valor pequeño
indica parsimonia 669,966 638,971 469,738 464,177 437,589
Tabla 12: Comparación de modelos.
Siguiendo los criterios de aceptación de la web de Scielo5, el modelo 5, que es el que
utiliza la matriz factorial rotada, y además relaciona la variable
HRST_EDUC_SOBREPOB_ACT con el Factor Educación, trabajo y sector secundario
(F1). Éste modelo sería el que reproduce con mayor precisión los datos de partida (la
matriz de varianza-covarianza muestral).
5 Web criterios de aceptación: http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-
24492016000100004
34
Figura 11: Modelo 5 originado a raíz de la Matriz Factorial Rotada.
Una vez determinado el modelo, se puede llevar a cabo la nomenclatura de las
variables:
F1: Educación, trabajo y sector secundario
F2: Potencial demográfico
F3: Potencial de Construcción
F4: Crecimiento bruto y disminución del paro
35
4.7. EXPLOTACIÓN DE LOS DATOS
Cabe recalcar, que el AFC no es más que una técnica para la agrupación de variables en
factores que expliquen lo mejor posible una gran cantidad de las mismas. Por tanto esta
técnica permite realizar futuros análisis de todo tipo con mayor facilidad, comodidad e
interpretabilidad.
Por ello se ha querido exprimir éste Ejemplo realizando algunos estudios.
4.7.1. Influencia de la localización en la economía de los países
Éste ejemplo surgió a raíz de que se especuló que podría existir una influencia en la
economía de los diferentes países dependiendo de su localización en el mapa
geográfico. Para ello se llevó a cabo una clasificación cualitativa en 3 grupos: Países del
Norte, países del Sur, y países del Este. La clasificación se consideró a valoración
propia y así quedo definitivamente:
NORTE SUR ESTE
BE – Bélgica EL – Grecia BG – Bulgaria
DK – Dinamarca ES – España CZ – República Checa
DE – Alemania FR – Francia LV – Letonia
EE – Estonia HR – Croacia LT – Lituania
IE – Irlanda IT – Italia HU – Hungría
LU – Luxemburgo CY – Chipre PL – Polonia
NL – Países Bajos MT – Malta RO – Rumanía
AT – Austria PT – Portugal SK – Eslovaquia
FI – Finlandia SI – Eslovenia
SE – Suecia
UK – Reino Unido
Tabla 13
Como la variable categórica tiene tres o más categorías (NORTE, SUR, y ESTE) el
procedimiento consistirá en comparar las medias de los Factores extraidos en cada uno
de los grupos que conforma cada estrato (F1, F2, F3 y F4) o categoría de la variable
nominal. Se llevará a cabo un Análisis de la Varianza (ANOVA de una vía), que va a
permitir no sólo saber si hay diferencias en las medias de los diferentes grupos sino
explorar entre qué grupos concretos están o no esas diferencias (a través de los llamados
“contrastes a posteriori”). Dicho ejemplo se realizará con el mismo programa que se
viene utilizando, el SPSS. Las salidas fueron las siguientes:
36
Prueba de homogeneidad de varianzas
Estadístico de
Levene df1 df2
Sig.
F1 1,306 2 261 ,273
F2 ,230 2 261 ,795
F3 1,299 2 261 ,274
F4 ,654 2 261 ,521
Tabla 14
Con los siguientes p-valores de la Tabla 14 se concluye que no existe evidencia para
rechazar la hipótesis nula de homogeneidad de varianzas, por lo que concluimos la
existencia de la misma.
Para la selección del test con el que se llevará a cabo el ANOVA; a modo de
recomendación por parte de Dña. Antonia Oya a lo largo de su docencia en la asignatura
de Diseño de Experimentos, se concluye que teniendo en cuenta que el método de
Scheffé fue diseñado para realizar comparaciones complejas, su sensibilidad es mayor
en este caso, siendo preferido el de Dunn-Bonferroni cuando el número de contrastes es
menor o igual que el número de tratamientos, y el procedimiento de Tukey para las
comparaciones en las que los coeficientes son similares, por lo que en este caso se
llevará a cabo a través del Test de Tukey.
Las salidas del análisis de la varianza se adjuntan en Anexo IV (Tabla ANOVA y tabla
de comparaciones múltiples).
De acuerdo a los resultados obtenidos por el análisis de la varianza (ANOVA), existe
evidencia estadística (de acuerdo al criterio del valor p - Sig) para rechazar la hipótesis
nula excepto para el Factor 3, por ello se puede considerar que sí existen diferencias en
la localización geográfica tanto para F1, F2 como F4. Sin embargo, para el Factor 3
parece ser que no existen diferencias en función de la localización de los países.
H0: μ1 = μ2 = μ3
H1 : Ǝi,j tq μi ≠ μj i,j = 1,2,3.
Una vez analizadas las comparaciones múltiples (véase tabla de comparaciones adjunta
en anexo IV) a través del método de Tukey, se pueden sacar diversas conclusiones.
37
[SUR – ESTE] No rechaza en ninguno de los 4 Factores, por lo que podemos decir
que son muy similares aquellos países que se sitúan tanto en el Sur como en el Este de
Europa en función de los índices económicos estudiados.
Del mismo modo podemos decir que aquellos países situados en el NORTE se
diferencian del resto de países situados en SUR y ESTE en la Educación, trabajo y
sector secundario (F1); en el Potencial demográfico (F2); y en el Crecimiento bruto y
disminución del paro (F4).
Potencial de construcción (F3) La localización en la que se encuentre el país
(Norte, Sur, Este) no influye en el Potencial de construcción (F3), no presenta
diferencias en función de dónde se localice el país.
4.7.2. Posición de Andalucía en Europa
El objetivo de este estudio es visualizar en qué posición se encuentra Andalucía
respecto a las demás regiones europeas (en función de los 4 Factores que nos ha
proporcionado el Análisis Factorial Confirmatorio). Para ello se realizó un análisis
univariante con cada uno de los 4 Factores, tras el análisis, la posición de Andalucía en
los diferentes Factores fue la siguiente:
PSN GEOLTIME
F1: Educación,
trabajo y sector
secundario
1º Sud - Muntenia 1,33
2º Nord-Est 1,34· · ·· · ·137º Andalucía 3,24· · ·· · ·263º Prov. Brabant Wallon 5,89
264º Inner London (NUTS 2010) 6,91
PSN GEOLTIMEF2: Potencial
demográfico
1º Severozapaden -3,33
2º Severen tsentralen -2,47· · ·· · ·203º Andalucía 0,80· · ·· · ·263º Île de France 3,22
264º Inner London (NUTS 2010) 3,47
PSN GEOLTIME
F3: Potencial
de
Construcción
1º Région de Bruxelles-Capitale 1,51
2º Anatoliki Makedonia, Thraki 1,68· · ·· · ·199º Andalucía 4,95· · ·· · ·263º Övre Norrland 6,51
264º Burgenland (AT) 7,05
PSN GEOLTIME
F4:
Crecimiento
bruto y paro
1º Severozapaden -2,88
2º Severen tsentralen -2,28· · ·· · ·118º Andalucía 0,02· · ·· · ·263º Stockholm 2,53
264º Luxembourg 3,15
Figura 12: Posición de Andalucía respecto a las demás regiones
38
A primera vista parece ser que Andalucía se podría encontrar más o menos cerca de la
media en cada uno de los 4 Factores. Para su comprobación se muestra una tabla
segmentada en Percentiles, para su mejor visualización:
La tabla de los percentiles ofrece los valores de la mediana para cada factor; esto nos
permite sabes aproximadamente dónde se sitúa Andalucía respecto a las demás regiones
europeas según cada factor económico.
Otra forma de verlo visualmente es a través del gráfico Box whisker:
Figura 12.1: Gráfico Box whisker para el Factor 1 “Educación, trabajo y sector secundario”
Figura 12.2: Gráfico Box whisker para el Factor 2 “Potencial demográfico”
Percentiles
Percentiles
5 10 25 50 75 90 95
Promedio
ponderado
F1 1,820 1,975 2,520 3,215 3,9275 4,5700 5,1550
F2 -1,335 -1,020 -,5275 ,1300 ,7775 1,3300 1,8900
F3 2,5025 2,8950 3,550 4,310 4,9475 5,4300 5,6475
F4 -1,380 -1,140 -,5675 ,1300 ,76750 1,2750 1,6100
Tabla 15
39
Figura 12.3: Gráfico Box whisker para el Factor 3 “Potencial de construcción”
Figura 12.4: Gráfico Box whisker para el Factor 4 “Crecimiento bruto y disminución paro”
Con éstos últimos gráficos podemos concluir que Andalucía se encuentra dentro de una
normalidad respecto a las demás regiones europeas. En ninguno de los cuatro factores se
considera como una región atípica. Una región que destaca sobre las demás debido a su
anomalía, es el Interior de Londres (Inner London) en el Factor 1 (educación, trabajo, y
sector secundario) y en el Factor 2 (potencial demográfico), (donde en éste último
destacan al igual que el interior de Londres otras regiones como Bruselas o la región de
Parisina). Por otro lado, en el potencial de construcción (Factor 3) se detecta como
outlier la región austriaca de Burgenland. Por último, respecto al crecimiento bruto y
disminución del paro (Factor 4) hay una curiosidad, y es que sobresalen dos regiones de
los límites de la atipicidad, una para el bien de su economía, y el otro para lo contrario,
en este caso Luxemburgo cuenta como la ciudad que mayor crecimiento y menor paro
posee entre todas las regiones europeas, mientras que en la sola se sitúa Severozapaden
(Bulgaria), la cual es una de las regiones europeas mas pobres y con mayor
estancamiento social.
40
4.7.3. Análisis MDS
El escalamiento multidimensional (MDS) es un conjunto de técnicas que emplean
proximidades/distancias entre objetos para obtener una adecuada representación
espacial entre ellos. La representación espacial consiste en una configuración
geométrica de puntos en un mapa, en donde cada punto corresponde a uno de los
objetos y de forma que cuanto mayor sea la similaridad entre los objetos, más cerca
estarán los correspondientes puntos situados en el mapa.
Por ello la utilización de esta técnica tiene como objetivo visualizar gráficamente las
similaridades entre las regiones españolas en función de nuestros 4 índices económicos.
Figura 13: Gráfico MDS
41
Observamos en el gráfico de escalamiento multidimensional a las diferentes regiones
españolas divididas en 3 grupos.
Grupo 1: Comunidad de Madrid, País Vasco, Navarra y Cataluña.
Grupo 2: Asturias, Aragón, Cantabria, Castilla y León, Galicia, La Rioja, Castilla la
Mancha y Extremadura.
Grupo 3: Canarias, Andalucía, Murcia, y Baleares.
Existe una región que no queda muy clara en qué grupo meter (Valencia). Para estas
ocasiones en las que no se diferencia con claridad si una observación es de un grupo u
otro puede llevarse a cabo un análisis Clúster para su aclaración.
Lo bueno que tiene este gráfico, es que en ocasiones se puede interpretar según la
dimensión, y se puede exprimir más información observando los ejes.
Figura 14: Gráfico Clúster
El gráfico Clúster aclara que la comunidad Valenciana debería estar metida en el Grupo
2 (Clasificación de grupos realizada en la página anterior).
42
En la siguiente figura (Figura 14.1) se observan las diferentes regiones ordenadas de
mayor a menor en cada uno de los 4 factores con el objetivo de visualizar de una mejor
forma qué regiones de cada grupo se identifican más con cada factor, o desde otro punto
de vista, qué regiones puntúan más en cada factor. Podemos decir que en general, las
regiones que más educación, trabajo y sector secundario poseen son las del Grupo 1
definido anteriormente (página 41). Las que más Potencial demográfico son tanto
Grupo 3 como Grupo 1, siendo un poco superior las del Grupo 3. Claramente las que se
identifican con el mayor potencial de Construcción son las del Grupo 2, y por último,
las que mayor crecimiento bruto y menor paro poseen son las del grupo 3.
Figura 14.1
Éstos resultados tienen sentido, ya que por ejemplo en el caso del Factor 4 “Crecimiento
bruto y disminución del paro” según los Indicadores Demográficos Básicos publicados
en el INE, dicen que tanto Asturias, como Orense y Castilla y León son las ciudades con
la población más envejecida de España; mientras que por el contrario, Tenerife,
Mallorca, Murcia y Madrid cuenta con la población más joven de España.
Com. de Madrid 5,52 Región de Murcia 1,48 Extremadura 5,56 Illes Balears 0,9600
País Vasco 5,42 Com. de Madrid 1,32 Princip. Asturias 5,52 Canarias (ES) 0,3300
Com.de Navarra 4,80 Illes Balears 0,99 Castilla-la Mancha 5,46 Com. de Madrid 0,1300
Princip. Asturias 4,56 Andalucía 0,80 La Rioja 5,33 Región de Murcia 0,0600
Cantabria 4,40 Cataluña 0,64 Galicia 5,21 Andalucía 0,0200
Cataluña 4,29 Com.de Navarra 0,56 Illes Balears 5,18 Com.de Navarra -0,1400
Aragón 4,19 Canarias (ES) 0,49 Castilla y León 5,04 País Vasco -0,3600
La Rioja 4,04 Com. Valenciana 0,37 Cantabria 5,00 Cataluña -0,5000
Galicia 3,93 Castilla-la Mancha 0,18 Andalucía 4,95 Com. Valenciana -0,6200
Castilla y León 3,83 La Rioja 0,13 Región de Murcia 4,79 Aragón -0,7200
Com. Valenciana 3,65 País Vasco 0,08 Aragón 4,59 La Rioja -0,7900
Región de Murcia 3,31 Extremadura -0,29 Com. Valenciana 4,59 Extremadura -0,8000
Canarias (ES) 3,30 Aragón -0,30 Com.de Navarra 4,32 Cantabria -0,8400
Andalucía 3,24 Cantabria -0,53 Cataluña 4,04 Castilla-la Mancha -0,9500
Illes Balears 3,19 Galicia -1,02 País Vasco 3,91 Galicia -0,9900
Extremadura 3,09 Castilla y León -1,09 Canarias (ES) 3,88 Castilla y León -1,2400
Castilla-la Mancha 3,02 Princip. Asturias -1,68 Com. de Madrid 3,37 Princip. Asturias -1,5200
F4: Crecimiento bruto y
disminución paro
F1: Educación, trabajo y sector
secundarioF2: Potencial demográfico F3: Potencial de Construcción
43
5. EVALUACIÓN Y COMPARACIÓN DE PROGRAMAS
ESTADÍSTICOS PARA AFC
Se ha realizado una comparación de los principales programas que se utilizan para la
realización de los modelos de Ecuaciones Estructurales. En este caso se ha realizado
para los programas Lisrel, EQS y RStudio (Paquete SEM y LAVAAN) y en concreto
solo se ha llevado a cabo la parte confirmatoria del AFE (el AFC).
5.1 CREACIÓN AFC CON LISREL
La primera limitación que presenta Lisrel es que las variables solo permiten tener 9
letras (o dígitos), hay ocasiones en las que trabajar con muchas variables con nombres
muy parecidos, complica el manejo de los datos. (Limitación de nombre de variables).
Véase en Anexo V algunos pantallazos de interés sobre la interfaz del programa
LISREL.
Figura 15
En la Figura 15 se observa que Lisrel permite llevar a cabo el AFC de diferentes formas,
una de ellas es introduciendo las sintaxis a mano, es decir, programando el modelo a
mano, y otra opción más visual y cómoda es realizando el gráfico de Path Diagram.
44
La Figura 16 muestra las diferentes opciones de salidas que ofrece Lisrel. Como la
imagen muestra, es sencillo de utilizar y tiene gran variedad de métodos de
estimaciones:
Figura 16: Outputs Lisrel
Una vez introducidas las variables (véase como introducir las variables en Lisrel en
Anexo V) aparece la pantalla inicial con todas las variables y factores introducidos en la
columna de la izquierda. Para dibujar el Path Diagram, tan solo hay que arrastrar y
colocar las flechas en el sentido correcto. Un punto muy a favor es que es muy intuitivo
y muy cómodo de dibujar. Para forzar varianzas o covarianzas, tan solo con dar doble
click en la flecha saldrá un cuadro para introducir el valor. (Véase como quedaría el
Path Diagram dibujado con Lisrel en Anexo V).
Una vez dibujado el gráfico, el programa tiene una opción que nos la generará
automáticamente a partir del gráfico dibujado, una vez creada, sólo habrá que ejecutarla
(Anexo V):
45
5.2 CREACIÓN AFC CON EQS
EQS al igual que Lisrel es un programa gratuito diseñado para trabajar con AFC. Al igual
que se hizo con el apartado anterior, se adjuntarán algunos pantallazos de interés, en
este caso corresponden en el Anexo VI.
Figura 17
EQS ofrece los diversos métodos con los que llevar a cabo el análisis, publicando una
breve explicación de cada una de las opciones.
La interfaz para introducir las variables es muy similar a la de Lisrel, aunque tiene una
gran ventaja, y es que en EQS te da la opción de construir el modelo desde aquí
directamente, es decir, asignarle a cada factor las variables que lo explican. A diferencia
de Lisrel, que solo te deja introducir las variables, y la cantidad de factores, sin
permitirte asignar a cada factor sus variables.
Figura 18
46
A diferencia del Lisrel, EQS ya dibuja directamente el Path Diagram (Anexo VI),
quizás este sea un punto a favor respecto al anterior programa, ya que en estudios con
gran cantidad de variables, puede ser muy incómodo de dibujar en Lisrel.
Para forzar varianzas o covarianzas, se lleva a cabo igual que en Lisrel, clickeando
sobre la que queramos modificar, y escribiendo el valor que queremos que tome.
Las opciones que ofrece EQS son prácticamente las mismas que ofrece LISREL, quizás
en contra tenga que presenta menos variedad para elegir el método de estimación. Pero
por otro lado da una amplia gama de otras opciones que para análisis más exigentes
quizás éste programa sea más adecuado.
Figura 19
5.3 CREACIÓN AFC CON PAQUETE “SEM” DE R-STUDIO
R-Studio es un programa muy diferente a los mencionados anteriormente. Actualmente
es una de los programas estadísticos más potentes que existen, además de que es
gratuito. Su mecanismo de funcionamiento es cargando paquetes, y ejecutando
funciones de los mismos, para ello hay que tener un mínimo de conocimientos de
programación en el programa.
Debido a la complejidad de los datos de este ejemplo y teniendo en cuenta el objetivo de
este apartado de comparación de programas, se ha decidido tomar otros datos, más
47
sencillos de utilizar (con menos variables), con el fin de tener una más fácil
visualización y comprensión. Por otro lado, se ha considerado un ejemplo muy
interesante con variables tanto endógenas como exógenas, algo que no se había hecho
hasta ahora en este trabajo. La información de las salidas se adjuntará en el Anexo VII.
Como se ha indicado al comienzo de este punto, R-Studio necesita instalar paquetes
para la realización del análisis factorial confirmatorio, en este caso el paquete “SEM”.
Una vez cargado el paquete con el que trabajaremos el AFC, El siguiente paso será
llevar a cabo la especificación del modelo; R-Studio nos permite llevarla a cabo a
través de 3 formas:
1.- Metiendo la Matriz de correlaciones a mano con la función “readMoments”:
Mcorrelaciones <- readMoments(diag=FALSE, names=c("ROccAsp", "REdAsp",
"FOccAsp","FEdAsp","RParAsp","RIQ", "RSES", "FSES", "FIQ", "FParAsp"),
text="
.6247
.3269 .3669
.4216 .3275 .6404
.2137 .2742 .1124 .0839
.4105 .4043 .2903 .2598 .1839
.3240 .4047 .3054 .2786 .0489 .2220
.2930 .2407 .4105 .3607 .0186 .1861 .2707
.2995 .2863 .5191 .5007 .0782 .3355 .2302 .2950
.0760 .0702 .2784 .1988 .1147 .1021 .0931 -.0438 .2087
")
2.- Con la función “speficyModel”, introduciendo el modelo a mano:
Modelo <- specifyModel()
F1Asp -> F2Asp, beta12, NA
F2Asp -> F1Asp, beta21, NA
RParAsp -> F2Asp, gam11, NA
RIQ -> F2Asp, gam12, NA
RSES -> F2Asp, gam13, NA
FSES -> F2Asp, gam14, NA
RSES -> F1Asp, gam23, NA
FSES -> F1Asp, gam24, NA
FIQ -> F1Asp, gam25, NA
FParAsp -> F1Asp, gam26, NA
F2Asp -> ROccAsp, NA, 1
F2Asp -> REdAsp, lam21, NA
F1Asp -> FOccAsp, NA, 1
F1Asp -> FEdAsp, lam42, NA
F2Asp <-> F2Asp, ps11, NA
F1Asp <-> F1Asp, ps22, NA
F2Asp <-> F1Asp, ps12, NA
ROccAsp <-> ROccAsp, theta1, NA
REdAsp <-> REdAsp, theta2, NA
FOccAsp <-> FOccAsp, theta3, NA
FEdAsp <-> FEdAsp, theta4, NA
48
3.- Con la función “specifyEquations”
Modelo <- specifyEquations(covs="F2Asp, F1Asp", text="
F2Asp = gam11*RParAsp + gam12*RIQ + gam13*RSES +
gam14*FSES + beta12*F1Asp
F1Asp = gam23*RSES + gam24*FSES + gam25*FIQ +
gam26*FParAsp + beta21*F2Asp
ROccAsp = 1*F2Asp
REdAsp = lam21(1)*F2Asp
FOccAsp = 1*F1Asp
FEdAsp = lam42(1)*F1Asp
")
Una vez que tenemos el modelo definido, se ejecuta de la siguiente forma:
DemostracionSem <- sem(Modelo, S= Mcorrelaciones, N=329,
fixed.x=c("RIQ", "RSES", "FSES", "FIQ"))
summary(DemostracionSem)
El inconveniente de R es que si es un modelo complejo, con la matriz de correlaciones
no se podría realizar, y llevaría mucho tiempo la especificación del modelo.
Para llevar a cabo el PathDiagram hay que instalar el paquete “Pathdiagram”,
“Diagrammer” y “Scales”, éstos dos últimos no siempre son necesarios.
La sintaxis que dibuja el gráfico de AFC es la siguiente:
pathDiagram(DemostracionSem, min.rank="RIQ, RSES, RParAsp, FParAsp,
FSES, FIQ",
max.rank="ROccAsp, REdAsp, FEdAsp, FOccAsp",
same.rank="RGenAsp, FGenAsp",
edge.labels="values")
49
Un inconveniente que presenta el paquete SEM de R es que directamente no genera los
índices en los que realmente confiamos a la hora de realizar la validación del AFC , por
tanto hay que calcularlos a parte con las siguientes funciones:
etc <- file.path(path.package(package="sem")[1], "etc") #Ruta a datos y archivos de modelo
opt <- options(fit.indices = c("GFI", "AGFI", "RMSEA", "NFI", "NNFI", "CFI", "RNI", "IFI", "SRMR", "AIC",
"AICc", "BIC", "CAIC"))
R.DHP <- readMoments(file=file.path(etc, "R-DHP.txt"),
diag=FALSE, names=c("ROccAsp", "REdAsp", "FOccAsp",
"FEdAsp", "RParAsp", "RIQ", "RSES", "FSES", "FIQ", "FParAsp"))
model.dhp <- specifyModel(file=file.path(etc, "model-DHP.txt"))
sem.dhp.1 <- sem(model.dhp, R.DHP, 329,
fixed.x=c('RParAsp', 'RIQ', 'RSES', 'FSES', 'FIQ', 'FParAsp'))
summary(sem.dhp.1)
5.4 CREACIÓN AFC CON PAQUETE “LAVAAN” DE R-STUDIO
El paquete Lavaan de R es otra alternativa que ofrece este programa para la realización
del análisis factorial confirmatorio. La metodología es muy similar a la del paquete
Sem, lo que cambia es la forma de meter las sintaxis.
En este caso se ha considerado un ejemplo muy interesante de un análisis factorial
confirmatorio de segundo nivel, todas las salidas se adjuntarán en el Anexo VIII.
En primer lugar, se tiene que realizar la instalación de paquetes, en este caso el único
paquete necesario será el “Lavaan”.
Para especificar el modelo en este caso se realiza de la siguiente forma:
Modelo.poblacion <- ' f1 =~ x1 + 0.8*x2 + 1.2*x3
f2 =~ x4 + 0.5*x5 + 1.5*x6
f3 =~ x7 + 0.1*x8 + 0.9*x9
f3 ~ 0.5*f1 + 0.6*f2
'
Aquí se fijarán las variables
endógenas, si no hay variables
endógenas no se pone nada.
50
A diferencia del paquete Sem, el paquete Lavaan sólo da esta opción para la
especificación del modelo.
Para generar los datos se hace de la siguiente forma:
set.seed(1234)
Datos.lavaan <- simulateData(Modelo.poblacion, sample.nobs=100L)
Para correr el modelo utiliza una función muy similar a la de Sem:
fit <- sem(Modelo.poblacion, data=Datos.lavaan)
summary(fit)
Para dibujar el gráfico al igual que en Sem, habrá que instalar un paquete, en este caso
el paquete “semPlot”. La función es la siguiente:
semPaths(fit, intercepts = FALSE)
Por último, al igual que en el paquete Sem, en Lavaan tampoco nos ofrece con estas
sintaxis anteriores los índices de bondad de ajuste que nos interesan, por ello habrá que
escribir la siguiente función en este caso, que como punto a favor, es un poco más
simple que la del paquete Sem.
etc <- file.path(path.package(package="lavaan")[1], "etc")
opt <- options(fit.indices = c("GFI", "AGFI", "RMSEA", "NFI", "NNFI", "CFI", "RNI", "IFI", "SRMR", "AIC",
"AICc", "BIC", "CAIC"))
fit = sem(Modelo.poblacion, data = Datos.lavaan, estimator = "ML")
summary(fit,fit.measures=TRUE)
51
5.5 SALIDAS DE LOS PROGRAMAS
A continuación se van a presentar las salidas más relevantes de los programas,
realizando en el siguiente punto una comparación entre las ventajas y desventajas de los
mismos:
5.5.1 SALIDAS LISREL
En la Figura 22 se presenta el gráfico Path Diagram de Lisrel, con todas las varianzas y
covarianzas. No es un gráfico muy vistoso para una presentación.
Figura 22: Gráfico Path Diagram de Lisrel
52
A continuación se muestran los índices de mayor interés:
A parte de estos, Lisrel da una amplia gama de salidas que pueden ser leídas en el Anexo V
(6.5.1 SALIDAS LISREL).
53
5.5.2 SALIDAS EQS
En la Figura 23 se presenta el gráfico Path Diagram de EQS, a diferencia de Lisrel, en
EQS no acompañan al gráfico las varianzas y covarianzas. Es un gráfico un poco más
vistoso que el de Lisrel, aunque no hay mucha diferencia.
Figura 23: Gráfico de Path Diagram de EQS
54
Y así presenta las salidas EQS:
Prácticamente muy similar a la de Lisrel, aunque éste anterior tiene algunos índices que
otros de más.
A consideración personal, el programa EQS presenta las salidas más completas para un
adecuado análisis factorial confirmatorio. Éstas salidas de EQS se adjuntan en el Anexo
VI (6.6.1 SALIDAS EQS).
55
5.5.3 SALIDAS R-Studio (Paquete SEM)
En la Figura 24 se presenta el gráfico Path Diagram del paquete Sem de R-Studio. El
gráfico es muy ilustrativo, y va acompañado al igual que el de Lisrel, de todas sus
covarianzas y varianzas. Algo que llama la atención que no aparece en este gráfico son
los errores.
Figura 24: Gráfico de Path Diagram de R-Studio con paquete SEM
Todas las salidas del paquete SEM serán adjuntadas en el Anexo VII (6.7.1). La
visualización de los índices con el paquete Sem es muy similar a las anteriores vistas:
56
5.5.4 SALIDAS R-Studio (Paquete LAVAAN)
En la Figura 25 se presenta el gráfico Path Diagram del paquete LAVAAN. El gráfico
es más moderno que los vistos anteriormente pero tiene un punto muy en contra al igual
que tiene el visto en EQS; no aparecen varianzas ni covarianzas asociadas.
Figura 25: Gráfico de Path Diagram de R-Studio con paquete LAVAAN
Respecto a las salidas de los índices de Lavaan, es la que menos índices presenta, se encuentra
muy escaso en comparación con los otros programas, no aparecen algunos índices de bondad
de ajuste como el GFI o el NFI.
57
Otras salidas complementarias se encuentran adjuntas en Anexo VIII.
58
5.6 COMPARACIÓN DE PROGRAMAS
A continuación, se va a llevar a cabo una comparación entre los programas mencionados
anteriormente, destacando ventajas, e inconvenientes.
6 No se han podido encontrar todo los métodos de estimación para R-Studio debido a su enorme
extensión; por ello se mencionan aquellos que se conocen con total certeza.
LISREL EQS R-Studio
SEM
R-Studio
LAVAAN SPSS AMOS
Gratuito Gratuito Gratuito Gratuito De Pago
Interfaz muy
intuitiva.
Interfaz muy
intuitiva. Poco intuitivo. Poco intuitivo.
Bastante
intuitivo
No necesario
conocimiento de
programación.
No necesario
conocimiento de
programación.
Necesario
conocimientos
básicos de
programación.
Necesario
conocimientos
básicos de
programación.
No necesario
conocimiento de
programación.
Sin posibilidad de
mejorar la
visualización del
gráfico.
Sin posibilidad de
mejorar la
visualización del
gráfico.
Con posibilidad de
hacer
modificaciones en
el PathDiagram.
Con posibilidad
de hacer
modificaciones
en el
PathDiagram.
Sin posibilidad
de mejorar la
visualización del
gráfico.
No necesidad de
instalar
complementos.
No necesidad de
instalar
complementos.
Necesidad de
instalar paquetes
(“Sem” y
“ Pathdiagram”).
Necesidad de
instalar paquetes
(“Lavaan” y
“semPlot”)
Necesidad de
tener instalado
SPSS 22, y
AmosGraphics
Métodos de
estimación: ULS, GLS,
ML, ML Robust, WLS,
DWLS
Métodos de
estimación: ULS, GLS,
ML, ML Robust, ADF
6Métodos de
estimación: ML, ML
Robust
5Métodos de
estimación: ML, ML
Robust
Métodos de
estimación: ML, ML
robust GLS, ADF, ULS
o SLS
Robustez Máxima
Verosimilitud
Robustez Máxima
Verosimilitud
Robustez Máxima
Verosimilitud
Robustez Máxima
Verosimilitud
Robustez
Máxima
Verosimilitud
Tabla 16: Comparación de programas
59
6. ANEXOS
6.1 ANEXO I
Figura 1: Clasificación de las regiones europeas establecida por Eurostat en el nivel NUTS-2
60
Tabla 1: Clasificación de Eurostat en las 3 NUTS
61
6.2 ANEXO II
HRST_Educ
_sobrepob_
act
HRST_Educ
_sobrepob_t
ot
De_n_tbDe_pob_65o
m_TasaDe_tas_inc
De_tas_inc
_nat
EC_prop_GF
CF_construc
ción
EC_prop_GF
CF_industry_
sin_c
EC_rem_con
strucción
MT_Paro_LD
_Share
MT_Ts_25_6
4_PA_5_6_T
N Estadístico 264 264 264 264 264 264 264 264 264 264 264
Rango Estadístico 49,1000 42,7000 9,3000 18,8748 40,4000 21,5000 8,2514 53,8969 8,0242 62,5000 51,6215
Mínimo Estadístico 12,3000 9,5000 6,3000 8,8394 -16,5000 -11,5000 2,3509 3,0253 2,1613 14,8000 13,7926
Máximo Estadístico 61,4000 52,2000 15,6000 27,7142 23,9000 10,0000 10,6024 56,9222 10,1855 77,3000 65,4141
Estadístico 30,00379 23,98371 9,82424 18,96884 2,12652 -0,23674 5,86378 21,37922 6,09861 43,80379 32,06077
Error
estándar,5376353 ,4602318 ,1003181 ,1829133 ,3644222 ,1904557 ,0959828 ,5339460 ,0880539 ,8161657 ,5810232
Desviación
estándar
Estadístico8,73554 7,47788 1,62998 2,97199 5,92116 3,09454 1,55954 8,67560 1,43071 13,26112 9,44051
Varianza Estadístico 76,310 55,919 2,657 8,833 35,060 9,576 2,432 75,266 2,047 175,857 89,123
Estadístico ,451 ,449 ,664 -,141 ,009 ,241 ,155 ,549 -,278 ,210 ,411
Error
estándar,150 ,150 ,150 ,150 ,150 ,150 ,150 ,150 ,150 ,150 ,150
Estadístico -,035 ,120 ,746 ,034 ,377 ,966 ,206 ,578 -,134 -,161 -,154
Error
estándar,299 ,299 ,299 ,299 ,299 ,299 ,299 ,299 ,299 ,299 ,299
Media
Asimetría
Curtosis
Estadísticos Descriptivos
62
6.3 ANEXO III: Modelos AFC
63
64
65
66
67
6.4 ANEXO IV
ANOVA
Suma de
cuadrados gl
Media
cuadrática F Sig.
F1 Entre grupos 46,274 2 23,137 28,462 ,000
Dentro de grupos 212,170 261 ,813
Total 258,444 263
F2 Entre grupos 21,689 2 10,845 11,950 ,000
Dentro de grupos 236,857 261 ,907
Total 258,546 263
F3 Entre grupos 1,173 2 ,586 ,600 ,550
Dentro de grupos 255,200 261 ,978
Total 256,373 263
F4 Entre grupos 90,214 2 45,107 84,286 ,000
Dentro de grupos 139,678 261 ,535
Total 229,892 263
68
Comparaciones múltiples
HSD Tukey
V.
dependie
nte (I) LOCALIZACION
(J)
LOCALIZACION
Diferencia de
medias (I-J)
Error
estándar Sig.
95% I.C.
L. inferior L. superior
F1 NORTE SUR ,67682* ,12641 ,000 ,3789 ,9748
ESTE 1,01406* ,14913 ,000 ,6625 1,3656
SUR NORTE -,67682* ,12641 ,000 -,9748 -,3789
ESTE ,33723 ,16005 ,090 -,0400 ,7145
ESTE NORTE -1,01406* ,14913 ,000 -1,3656 -,6625
SUR -,33723 ,16005 ,090 -,7145 ,0400
F2 NORTE SUR ,38818* ,13356 ,011 ,0734 ,7030
ESTE ,73687* ,15757 ,000 ,3654 1,1083
SUR NORTE -,38818* ,13356 ,011 -,7030 -,0734
ESTE ,34868 ,16911 ,100 -,0499 ,7473
ESTE NORTE -,73687* ,15757 ,000 -1,1083 -,3654
SUR -,34868 ,16911 ,100 -,7473 ,0499
F3 NORTE SUR ,07570 ,13864 ,849 -,2511 ,4025
ESTE ,17619 ,16356 ,529 -,2093 ,5617
SUR NORTE -,07570 ,13864 ,849 -,4025 ,2511
ESTE ,10049 ,17553 ,835 -,3133 ,5143
ESTE NORTE -,17619 ,16356 ,529 -,5617 ,2093
SUR -,10049 ,17553 ,835 -,5143 ,3133
F4 NORTE SUR 1,1060410* ,1025649 ,000 ,864279 1,347803
ESTE 1,2607889* ,1210040 ,000 ,975563 1,546015
SUR NORTE -1,1060410* ,1025649 ,000 -1,347803 -,864279
ESTE ,1547479 ,1298630 ,459 -,151360 ,460856
ESTE NORTE -1,2607889* ,1210040 ,000 -1,546015 -,975563
SUR -,1547479 ,1298630 ,459 -,460856 ,151360
*. La diferencia de medias es significativa en el nivel 0.05.
69
6.5 ANEXO V: LISREL
Ésta es la primera pantalla que nos encontramos; en la barra de arriba ofrece las diversas
opciones para realizar el AFC (meter variables, optciones, salidas, etc…)
Para introducir las variables es tan sencillo como:
70
Así quedaría dibujado el Path Diagram con Lisrel:
Para generar la sintaxis del gráfico creado habrá que irse a la siguiente pestaña:
71
6.5.1 ANEXO V: SALIDAS LISREL
72
73
74
75
6.6 ANEXO VI: EQS
La primera pantalla que nos encontramos al iniciarlo informa sobre diferentes métodos
para llevar a cabo el análisis:
Una vez cargado los datos en el programa, se creará el modelo al igual que se hizo en
Lisrel. El mecanismo es muy parecido a la del anterior programa, siendo muy intuitivo
y cómodo de utilizar:
76
Path Diagram dibujado por EQS:
Para construir la sintaxis del modelo tan solo habrá que irse a la barra de las pestañas, y
pedirle al programa que la cree:
77
6.6.1 ANEXO VI: SALIDAS EQS
78
Bajo el apartado de /SPECIFICATIONS se refleja la siguiente información: el número
de casos, (CASES=264; numero de variables observadas (VARIABLES=11); la
selección de máxima verosimilitud como método de estimación3
(ME THOD=ML);
indicación de que la matriz de datos suministrada es una matriz sacada de los datos
originales (MATRIX=RAW); e indicación de que el análisis se efectúe sobre la matriz
de varianzas covarianzas (ANALYSIS=COVARIANCE).
El planteamiento de las ecuaciones se hace en el apartado /EQUATIONS. Puede
comprobarse que las variables observadas son dependientes siendo explicadas por los
factores comunes (Fi) y por los específicos (Ei). Así, la primera ecuación:
V1 = *F1 + *F4 + E1
La anterior ecuación recoge la particularidad de que el coeficiente del término de error
esta fijado a 1, pero es necesario estimar el parámetro de F1 y F4
Las varianzas de los Factores no necesitan estimarse ya que están fijadas, sin embargo
la de los errores si lo necesitarán, tal como indica la instrucción /VARIANCES, y lo
mismo ocurre con las covarianzas ente los factores comunes F1 y F2 (así lo indica la
instrucción / COVARIANCES), que también necesitarán estimarse (*). Así pues,
queda comprobada la sencillez de la sintaxis del programa cuando seguimos la
notación de Bentler y Weeks (1980), dado que todo se reduce a distinguir entre
variables dependientes e independientes, lo que permite deducir de manera natural las
ecuaciones.
###Vamos a añadir 2 Test interesantes más (/LMTEST y /WTEST) que nos
proporcionarán los contrastes univariante y multivariante de Lagrange, y el contraste de
Wald respectivamente.
79
La diferencia entre la matriz de covarianzas muestral y la matriz de covarianzas
poblacional estimada es la denominada matriz residual de covarianzas. Esta matriz nos
indica en qué medida el modelo ha sido capaz de ajustarse a los datos. Para que el
ajuste sea bueno, los valores de cada uno de sus elementos deben ser pequeños. El
EQS ofrece esta matriz tal y como la recogemos en la siguiente Figura.
Matriz de Covarianzas
Matriz residual de Covarianzas
80
Asimismo, el programa ordena de mayor a menor los 20 residuos estandarizados más
grandes en valor absoluto, de tal manera que puedan identificarse las variables con
mayores errores. Finalmente, muestra un gráfico con la distribución de estos residuos,
distribución que debería ser simétrica y centrada en cero.
Finalmente se comprueba que el 97% de los residuos cae dentro del intervalo [–0.1;
0.1] de forma medianamente simétrica y, como se ha señalado, centrada en cero. En
síntesis, el ajuste del modelo, a partir del análisis de los residuos es bueno, aunque
puede existir un problema debido a la interrelación entre las variables V9 y V10.
81
El EQS ofrece, además, un segundo estadístico denominado independence model chi-
square. Este estadístico se distribuye también como una 2 bajo la hipótesis nula de
que existe una completa independencia entre las variables (matriz de correlaciones
identidad). En este caso, si el modelo es el apropiado, cabe esperar que el estadístico
tome valores elevados. Por el contrario, si todas las variables observadas fueran
independientes entre sí el modelo de AFC propuesto no tendría sentido y,
consecuentemente, este estadístico tomaría valores bajos.
Debido a la baja fiabilidad del estadístico 2 , tomarán mayor importancia los otros
estadísticos que aparecen en el cuadro.
82
Respecto a la Convergencia en el proceso de estimación, (Byrne, 1994) plantea que
debido a que la estimación del modelo es un proceso iterativo, el hecho de que el
algoritmo converja de una manera rápida, es indicador de un buen ajuste del modelo. La
autora considera que, si después de dos o tres iteraciones, el cambio medio en las
estimaciones de los parámetros se estabiliza en valores muy bajos, estaremos
probablemente ante un ajuste adecuado.
El EQS ofrece la información del número de iteraciones que han sido necesarias para
la convergencia y el cambio medio en los parámetros en cada una de ellas (parameter
abs change). Puede comprobarse como, efectivamente, esta convergencia se ha
producido en apenas 17 iteraciones y cómo, a partir de la sexta, los cambios han sido
mínimos.
83
En las salidas de EQS también aparece la solución estandarizada del AFC, esto es,
aquella en que se recalculan los estimadores para asegurar que las varianzas de los
factores comunes y de las variables observadas son igual a la unidad. Esto se hace,
básicamente, para facilitar la comparación de los resultados con trabajos precedentes.
Esta información, tal como la proporciona el EQS, se recoge en el cuadro anterior para
las ecuaciones fundamentales (estimación de las coeficientes de regresión de los
factores comunes y de los factores específicos), y las correlaciones entre los factores
comunes.
El contraste de Wald se aplica para cuestionarse si deberían suprimirse algunos de los
parámetros existentes (Aquellos que sean significativos).
84
6.7 ANEXO VII: R-STUDIO PAQUETE SEM
6.7.1 ANEXO VII: SALIDAS R-STUDIO PAQUETE SEM
FACTORES
Variables
endógenas
Variables exógenas (con
cada factor fijando en 1 la
varianza en una variable)
Varianza
Covarianza
85
86
87
6.8 ANEXO VIII: R-STUDIO PAQUETE LAVAAN
88
89
7. BIBLIOGRAFÍA
Álvaro Coutiño G. (2014). ANÁLISIS FACTORIAL SPSS. Universidad de Galileo.
An Easy Guide to Factor Analysis. (1994).
Antonio P., Emilio D.L., Juan M.M., Luis P., José R., Mª Teresa G. (2013). Impacto de la política
de cohesión en Andalucía.
Atkinson, Anthony, Cantillon, B., Marlier, E., & Nolan, B. (2005). Social Indicators, The EU and
Social Inclusion, New York: Oxford University Press (2ª impresión).
Bearden, W., & Sharma, S. y. (1982). "Sample sizes effects on chi square and other statistics
used in evaluating causal models" Journal of Marketing Research.
Bentler, P., & Bonett, D. (1980). Significant tests and goodness of fit in the analysis of
covariance structures. Psychological Bulletin.
Burnham, K., & Anderson, D. (1998). Model selection and inference: A practical information-
theoretic approach.
Byrne, B. (1994). Structural Equation Modeling with EQS and EQS/Windows.
Cambridge. (s.f.). https://www.cambridge.org/core/services/aop-cambridge-
core/content/view/F20A6E4D94CF7702296CF5A4AD673933/S1368980016000999a.pd
f/positive_influences_of_home_food_environment_on_primaryschool_childrens_diet_
and_weight_status_a_structural_e.
Eurostat. (s.f.). http://ec.europa.eu/eurostat/web/nuts/overview.
Fan, X., Thompson, B., & Wang, L. (1999). Structural Equation Modeling: A Multidisciplinary
Journal.
Gorsuch, R. (1986b). Exploratory Factor Analysis.
Hair, J. (1999). Análisis Multivariante.
Hattie, J. (1985). Methodology Review: Assessing Unidimensionality of Tests and Ítems. (Vol. 9).
University of New England, Australia.
Hocevar, D., Zimmer, B., & Strom, B. (1984). The Confirmatory Factor Analytic Approach to
Scale Development and Evaluation.
Jöreskog K. G. y Sörbom, D. (1996). Advances in Factor Analysis and Structural Equation
Models.
Jöreskog, K. (1967, 1968). "Psychometrika". Some contributions to máximum likelihood factor
analysis. .
Kline, P. (1994). An Easy Guide to Factor Analysis. Routledge.
90
Lawley. (1969). "Psychometrika". A general approach to confirmatory factor analysis.
Leamer, E. (1978). Specification searches: Ad hoc inference with nonexperimental data, 53.
John Wiley & Sons Incorporated.
Long, J. S. (1987). Confirmatory factor analysis: a preface to Lisrel.
McCallum, R. (1986). Specificaion searches in covariance structure modelling.
Oliver, A., & Tomás, J. M. (1995). Índices de ajuste absolutos e incrementales: comportamiento
del Análisis Factorial Confirmatorio con muestras pequeñas.
Scielo. (s.f.). http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-
24492016000100004.
Spearman, C. (1927). The Abilities of Man.
Stapleton., C. (1997b). Basic Concepts and Procedures of Confirmatory FactorAnalysis.
Steiger, J. (1990). Multivariate Behavioral Research.
Ullman, J. (1996). Structural Equation Modelling.
top related