grado en estadística y empresatauja.ujaen.es/bitstream/10953.1/6782/1/tfg_ngel_luis...3 para llevar...

ístic

ANÁLISIS FACTORIAL

CONFIRMATORIO: APLICACIÓN AL CÁLCULO

DE ÍNDICES EN ECONOMÍA

Alumno: Ángel Luis Camarero Sierra

Junio, 2017

UNIVERSIDAD DE JAÉN Facultad de Ciencias Sociales y Jurídicas

Trabajo Fin de Grado

ÍNDICE

RESUMEN ............................................................................................................................ 0

1. INTRODUCCIÓN ............................................................................................................... 1

2. MODELOS DE ECUACIONES ESTRUCTURALES (SEM)........................................................... 2

2.1 PRINCIPALES PROGRAMAS .................................................................................................. 3

2.2. ESTRATEGIAS PARA LA UTILIZACIÓN DE ECUACIONES ESTRUCTURALES ........................... 5

3. EL ANÁLISIS FACTORIAL .................................................................................................... 7

3.1. MODELO DE ANÁLISIS FACTORIAL EXPLORATORIO .......................................................... 8

3.2. MODELO DE ANÁLISIS FACTORIAL CONFIRMATORIO ...................................................... 11

3.3. AFE vs AFC ........................................................................................................................ 13

3.4. ANÁLISIS FACTORIAL vs COMPONENTES PRINCIPALES .................................................... 14

4. EJEMPLO DE ANÁLISIS FACTORIAL CONFIRMATORIO: Aplicación al cálculo de índices en

economía .......................................................................................................................... 15

4.1 PRÓLOGO .......................................................................................................................... 15

4.2 INTRODUCCIÓN ................................................................................................................. 16

4.3 METODOLOGÍA .................................................................................................................. 17

4.4 ANÁLISIS PREVIO Y DEPURACIÓN DE DATOS .................................................................... 20

4.5 DEFINICIÓN DE VARIABLES ................................................................................................ 24

4.6 ANÁLISIS DE DATOS ........................................................................................................... 24

4.6.1 ANÁLISIS FACTORIAL EXPLORATORIO ........................................................................ 25

4.6.2. ANÁLISIS FACTORIAL CONFIRMATORIO .................................................................... 28

4.7. EXPLOTACIÓN DE LOS DATOS .......................................................................................... 35

4.7.1. Influencia de la localización en la economía de los países ........................................ 35

4.7.2. Posición de Andalucía en Europa .............................................................................. 37

4.7.3. Análisis MDS .............................................................................................................. 40

5. COMPARACIÓN Y EVALUACIÓN DE PROGRAMAS ESTADÍSTICOS PARA AFC ...................... 43

5.1 CREACIÓN AFC CON LISREL ............................................................................................... 43

5.2 CREACIÓN AFC CON EQS ................................................................................................... 45

5.3 CREACIÓN AFC CON PAQUETE “SEM” DE R-STUDIO ......................................................... 46

5.4 CREACIÓN AFC CON PAQUETE “LAVAAN” DE R-STUDIO .................................................. 49

5.5 SALIDAS DE LOS PROGRAMAS ........................................................................................... 51

5.5.1 SALIDAS LISREL ........................................................................................................... 51

5.5.2 SALIDAS EQS ............................................................................................................... 53

5.5.3 SALIDAS R-Studio (Paquete SEM) .............................................................................. 55

5.5.4 SALIDAS R-Studio (Paquete LAVAAN) ........................................................................ 56

5.6 COMPARACIÓN DE PROGRAMAS ...................................................................................... 58

6. ANEXOS ......................................................................................................................... 59

6.1 ANEXO I ............................................................................................................................. 59

6.2 ANEXO II ............................................................................................................................ 61

6.3 ANEXO III: Modelos AFC .................................................................................................... 62

6.4 ANEXO IV ........................................................................................................................... 67

6.5 ANEXO V: LISREL ................................................................................................................ 69

6.5.1 ANEXO V: SALIDAS LISREL .......................................................................................... 71

6.6 ANEXO VI: EQS ................................................................................................................... 75

6.6.1 ANEXO VI: SALIDAS EQS ............................................................................................. 77

6.7 ANEXO VII: R-STUDIO PAQUETE SEM ................................................................................ 84

6.7.1 ANEXO VII: SALIDAS R-STUDIO PAQUETE SEM........................................................... 84

6.8 ANEXO VIII: R-STUDIO PAQUETE LAVAAN ......................................................................... 87

7. BIBLIOGRAFÍA ................................................................................................................ 89

RESUMEN

Los Modelos de Ecuaciones Estructurales (SEM) son un conjunto de técnicas que

combinan tanto la regresión múltiple como el análisis factorial. Estos modelos nos

permiten principalmente detectar interrelaciones de dependencia entre variables,

creando factores que las representen lo mejor posible. Además, las ecuaciones

estructurales nos permiten incorporar efectos del error de medida sobre los coeficientes

estructurales al mismo tiempo, lo que ayuda a identificar posibles mejoras en los

modelos. Debido al desarrollo y la utilidad de esta técnica actualmente, se propone a

continuación una breve introducción sobre los SEM. Con el objetivo de facilitar la

comprensión de los mismos, se llevará a cabo un ejemplo práctico paso a paso con el

programa SPSS Amos, y una comparación de los principales diferentes programas que

se utilizan para el desarrollo de Ecuaciones Estructurales. Además, se ha realizado una

explotación de los datos obtenidos a partir de los factores generados en las ecuaciones

estructurales, donde se ha estudiado la situación en la que se encuentra Andalucía

respecto a las demás regiones europeas. Por otro lado, se ha llevado a cabo un análisis

multidimensional entre las regiones españolas con el fin de visualizar qué regiones son

más parecidas entre sí.

ABSTRACT

Structural Equation Modeling (SEM) is a technique that combines both multiple

regression and factor analysis. These models allow us mainly to detect interrelationships

of dependence between variables, creating factors that represent them as best as

possible. In addition, the structural equations allow us to incorporate effects of the

measurement error on the structural coefficients at the same time, which helps to

identify possible improvements in the model. Due to the development and utility of this

technique, a brief introduction on Structural Equation Systems is proposed below. In

order to facilitate their understanding, a practical step-by-step example will be carried

out with the SPSS Amos program, and a comparison of the main different programs that

are used for the development of Structural Equations. In addition, the data obtained

from the factors generated in the structural equations have been exploited, in which the

situation in Andalucía has been studied in relation to the other European regions. On the

other hand a multidimensional analysis has been carried out between the Spanish

regions in order to visualize which regions are more similar to each other.

1. INTRODUCCIÓN

Cada vez con más frecuencia, los estadísticos nos encontramos investigaciones o

estudios con enormes volúmenes de datos e información, en los que para realizar los

análisis correspondientes, es necesario aplicar técnicas estadísticas avanzadas, como son

las técnicas multivariantes (Regresión múltiple, análisis multivariante de la varianza,

análisis discriminante, o Análisis Factorial, entre otras). Cada una de estas técnicas es

una poderosa herramienta a la hora de tratar un amplio abanico de cuestiones prácticas y

teóricas, aunque poseen una limitación común: sólo pueden examinar una relación al

mismo tiempo, por lo que sus variables de interés teórico no se pueden medir

directamente, por ejemplo:

Un investigador en pedagogía puede estar interesado en las actitudes de los

alumnos en relación con facetas de su experiencia en clase.

Un médico puede estar interesado en buscar varias dimensiones de calidad de

vida en pacientes con cáncer.

Ésta es la idea fundamental que subyace en modelos como las Componentes

Principales; los Análisis Factoriales (Exploratorio y Confirmatorio), los modelos de

escalamiento multidimensional (MDS), y como no, los modelos de ecuaciones

estructurales (Structural Equation Modeling, SEM),

Los objetivos de este trabajo de fin de grado se centran en el estudio de unos índices

económicos europeos aplicando primeramente un análisis factorial exploratorio, seguido

de su análisis factorial confirmatorio correspondiente, a raíz del cual se llevarán a cabo

diferentes estudios de interés.

Por otro lado, el propósito de este trabajo es mostrar los diferentes posibles programas

con los que se puede llevar a cabo el Análisis Factorial Confirmatorio, y comparar las

ventajas e inconvenientes de cada uno.

2. MODELOS DE ECUACIONES ESTRUCTURALES (SEM)

El origen de los modelos de ecuaciones estructurales (Structural Equation Models,

SEM) surge en la segunda década del siglo XX (1921), cuando Sewall Wright los

desarrolló en el campo de la genética con la intención de permitir el análisis de un

conjunto de relaciones entre una o más variables independientes (continuas o discretas),

desarrollando una forma de romper las altas correlaciones observadas en un sistema de

ecuaciones matemáticas que describían sus hipótesis respecto a unas relaciones

causales. Estas relaciones entre las variables fueron representadas en un “path diagram”,

que se verá a lo largo de este trabajo, conociéndose este método como “path analysis”.

Los modelos de Ecuaciones Estructurales (también conocidos como modelos de

estructura de covarianza) son una serie de técnicas estadísticas que se pueden considerar

como una extensión de otras técnicas multivariantes como son los modelos de regresión

múltiple o los modelos de análisis factorial. Sin embargo, posee algunas características

particulares que lo diferencian de las otras técnicas multivariantes. Una de las

diferencias es la capacidad de estimar y evaluar la relación entre variables no

observables, denominadas generalmente variables latentes. Una variable latente es un

factor supuesto (inteligencia, por ejemplo) que solo puede ser medido mediante

variables observables (baterías de test de inteligencia). En comparación con otras

técnicas de análisis donde los factores pueden ser representados con una única medición

(puntaciones brutas de un test, por ejemplo) y el error de medición no es modelado, los

SEM permiten emplear múltiples medidas que representan al factor y controlar el error

de medición específico de cada variable. Esta diferencia es importante ya que el

investigador puede evaluar la validez de cada factor determinado.

Otra característica particular de los SEM es que, para interpretar sus resultados, se

deben evaluar cuidadosamente varias pruebas estadísticas y un conjunto de índices que

determinan si la estructura teórica propuesta proporciona un buen ajuste de los datos

empíricos. Este ajuste se verifica si los valores de los parámetros estimados reproducen

tan estrechamente como sea posible la matriz observada de covarianza.

Para llevar a cabo un análisis de un Sistema de Ecuaciones Estructurales se suelen dar

los pasos en el orden de la Figura 1:

2.1 PRINCIPALES PROGRAMAS

El principal impulso en la utilización de estos métodos y técnicas multivariadas ha sido

el desarrollo de la tecnología computacional. En la actualidad, cada vez es más fácil el

uso de programas que simplifican enormemente estas tareas y permiten realizar los

complejos análisis matemáticos que requieren las Ecuaciones Estructurales. Existen al

menos cuatro programas altamente reconocidos y que actualmente están en uso:

El primero de ellos es el LISREL (LInear Structural RELations) que fue creado por

Joreskog y sus colaboradores (Jöreskog K. G. y Sörbom, 1996) para establecer y

analizar estructuras de covarianza. Las primeras versiones de este programa requerían

del establecimiento de planteamientos muy difíciles para el usuario, el cual no tenía

conocimientos matemáticos suficientemente profundos.

Especificación Identificación Estimación de

parámetros Evaluación del ajuste

Reespecificación del modelo

Interpretación de los

resultados

Figura 1: Metodología SEM

Luego, el programa llamado EQS (Structural Equation Modeling Software), que fue

desarrollado por Bentler (1995), presenta planteamientos y símbolos del modelo más

fáciles de comprender.

No podía faltar uno de los programas estadísticos gratuitos más completos que existen,

el software R. R-Studio permite llevar a cabo cualquier tipo de análisis, desde el estudio

del AFE, hasta su propia confirmación con un AFC, incluso dibujando su gráfico con un

PathDiagram. Su mayor inconveniente quizás sea que exige la instalación de paquetes,

en este caso sería necesario para llevar a cabo el Análisis Factorial Confirmatorio

instalar el paquete “SEM” o “LAVAAN”. Por otro lado, comparándolo con los otros 3

programas, éste presenta una interfaz un poco menos intuitiva y exige un mínimo de

conocimientos del programa y programación. Sin embargo R-commander ofrece una

pestaña donde realizar tanto el Análisis Factorial Exploratorio como el Análisis

Factorial Confirmatorio, pero cuenta con el inconveniente de que presenta demasiadas

limitaciones a la hora de su optimización.

Finalmente, el programa Análisis de Estructuras Momentáneas (Analysis of Moment

Structures, AMOS) que fue creado por Arbuckle (2003), permite al usurario que

especifique, vea y modifique el modelo de estructura gráficamente por medio del uso de

herramientas gráficas sencillas. Cada uno de estos programas ha logrado que los

investigadores usen con mayor facilidad el modelo de ecuaciones estructurales.

En el punto 5 se llevará a cabo un análisis comparativo entre los diferentes programas

para la aplicación de la técnica de Análisis Factorial Confirmatorio, presentando las

ventajas e inconvenientes.

2.2. ESTRATEGIAS PARA LA UTILIZACIÓN DE ECUACIONES

ESTRUCTURALES

Existen tres estrategias que un investigador puede tomar en la utilización de sistemas de

ecuaciones estructurales:

1º. Uso como técnica estrictamente confirmatoria, donde se diseña el modelo y se

estudia la bondad del ajuste para determinar si las varianzas y covarianzas de los

datos son consistentes con el modelo diseñado, todo ello teniendo en cuenta que

pueden existir otros modelos diferentes al propuesto que también se ajustan a los

datos disponibles, es decir, que aunque el modelo propuesto presente un ajuste

aceptable, el investigador no ha probado el modelo propuesto, sino que solo ha

confirmado que es uno de los varios modelos posibles.

2º. Estrategia de modelos rivales, que permite evaluar el modelo estimado con modelos

alternativos, donde se estudian los índices de ajuste de cada modelo diseñado y se

elige el que presente mejores resultados.

• Actualmente se dispone de múltiples índices de ajuste y es un campo que está

en constante desarrollo

• Aunque es deseable en principio, en la realidad no suele ser fácil disponer de

varios modelos alternativos.

3º. Estrategia de desarrollo del modelo (uso confirmatorio y exploratorio), la cual

difiere de las dos anteriores estrategias en que, aunque se propone un modelo y se

comprueba el ajuste a los datos, se buscan aquellos índices donde presenta

deficiencias, y se llevan a cabo las modificaciones oportunas para mejorarlo.

Cuando se sigue esta estrategia, se intenta reespecificar un modelo básico para

encontrar uno nuevo.

A menudo es fácil encontrarse con modelos que se complican, ya que pueden existir

factores que expliquen unas variables y otras no; o factores subyacentes (varios niveles).

Aquí es donde se diferencian entre modelos de Análisis Factorial Exploratorio, Análisis

Factorial Confirmatorio, y en general, los modelos de Ecuaciones Estructurales.

A continuación en el punto 3 se explicará el modelo de Análisis Factorial, que es un

modelo especial de Ecuaciones Estructurales, debido a que lo que trata es de determinar

la estructura de la covarianza.

Cabe recalcar que covariación no implica causalidad, en la figura 2 se visualiza un

ejemplo gráfico:

Figura 2

Aplicaciones: Utilizando el buscador de Google Académico y basándonos en los 2

últimos años han aparecido 91.700 artículos sobre los modelos de Ecuaciones

Estructurales, en los cuales se trabajan sobre todo en el campo de la biología, en el

campo de las costumbres de la sociedad, y sobre todo aparece en mayor medida ámbitos

relacionados con la psicología, donde se ha puesto actualmente muy de moda.

3. EL ANÁLISIS FACTORIAL

Dentro de las técnicas estadísticas multivariantes se encuentra el análisis factorial, el

cual asume múltiples usos. En el análisis factorial, se distinguen dos tipos, el análisis

factorial exploratorio (AFE) y el análisis factorial confirmatorio (AFC), surge ahí la

cuestión de cual utilizar, en qué momento utilizarlo, y cómo utilizarlo.

El Análisis Factorial es una técnica de reducción de datos que sirve para generar grupos

homogéneos de variables a partir de un conjunto numeroso de ellas. Estos grupos se

forman con las variables que correlacionan entre sí, procurando independencia entre

ellos. Su objetivo es buscar un número mínimo de dimensiones que expliquen el

máximo de información contenida en los datos (Álvaro Coutiño G., 2014). En resumen,

como explica el autor (Long, 1987), el Análisis Factorial es un procedimiento

estadístico para el descubrimiento de un pequeño número de factores mediante el

estudio de la covarianza entre un conjunto de variables observadas.

El Análisis Factorial funciona analizando la varianza común entre las variables; para

ello se parte de la matriz de correlaciones de los datos. A raíz del estudio de la varianza,

ésta técnica trata de simplificar la información que nos da la matriz de correlaciones, la

cual se opera con las correlaciones al cuadrado para que expresen toda la varianza

común entre las variables. En la Figura 3 podemos ver un ejemplo gráfico:

Figura 3: Ejemplo gráfico de Análisis Factorial Confirmatorio. Fuente: (Cambridge)

3.1. MODELO DE ANÁLISIS FACTORIAL EXPLORATORIO

El Análisis Factorial Exploratorio (AFE) tuvo sus orígenes a comienzos del siglo XX,

en concreto en 1904 cuando Charles Spearman planteó una teoría de

la inteligencia basada en la existencia de un factor común al que denominó “g”. De

acuerdo con esta teoría, la inteligencia de los individuos podía ordenarse a lo largo de

una sola dimensión. Profundizando un poco más, el Análisis Factorial Exploratorio es

una técnica estadística de interdependencia (es decir, un conjunto de variables en las

cuales no existe una de variable respuesta ni variables independientes, como en la

mayoría de modelos de regresión, sino que todas las variables son analizadas en

conjunto), que se caracteriza por su versatilidad. El objetivo principal es tratar de

establecer una estructura subyacente entre las variables del análisis, a partir de

estructuras de correlación entre ellas; o, en otras palabras: busca definir grupos de

variables (más conocidos como factores) que estén altamente correlacionados entre sí.

Adicionalmente, se usa para reducir la complejidad de un gran número de variables en

un número más reducido; por lo tanto, tiene como objetivo explicar un fenómeno de

forma más minuciosa.

V. Observadas

V. Latentes

Factores

Factor único o

Error de la variable

Figura 4: Modelo de Análisis Factorial Exploratorio. Fuente: Long (1987)

La Figura 4 (Long, 1987) ilustra un modelo factorial exploratorio. En esta figura (como

en las figuras posteriores), las variables observadas se representan por cuadrados y los

factores (o variables latentes) están representados en la parte superior por círculos “1”,

“2” y “3”. Una flecha que apunta directamente de un factor a una variable observada

indica el efecto ocasional de dicho factor en la variable observada. Flechas curvas entre

dos factores indican que están correlados.

Entre las variables latentes, podemos destacar tres tipos:

I. Variables exógenas, son variables latentes independientes, esto significa que

afectan a otras variables y no reciben ningún efecto de ninguna de ellas. Estas

variables se pueden detectar en las gráficas porque no sale ninguna flecha de

esta variable. En la figura 5, la única variable que no sería exógena sería V3.

II. Variables endógenas, que son variables latentes dependientes, son aquellas que

reciben el efecto de otras variables, es decir, en las gráficas son las variables a

las que llegan las flechas. Estas variables están afectadas por un término de

perturbación o de error, y pueden ser tanto variables observables como no

observables. En la figura 5, las 3 variables serían endógenas.

III. Variables error, este término tiene en cuenta todas las todas las fuentes de

variación que no están consideradas en el modelo, como puede ser en la

medición de las variables. Se denominan variables de tipo latente al no ser

observables.

Figura 5: Variables endógenas y exógenas

Situándonos en la Figura 4 (y como siempre ocurre en los AFE), cada uno de estos

factores afecta causalmente a cada una de las variables observadas, contenidas en los

cuadrados etiquetados de X1 a X7, como se indica por las flechas de ’s a las X’s. Éstos

factores marcados con ’s se llaman factores comunes, ya que sus efectos son

compartidos en común con más de una de las variables observadas. Los círculos en la

parte inferior de la figura 4, marcados como 1 a 7, se llaman factores únicos o “errores

de las variables”. A diferencia de los factores comunes, sus efectos son exclusivos de

una y sólo una variable observada. En el modelo factorial exploratorio, los errores de las

variables se supone que no están correlacionados con otros, tal como se indica por la

ausencia de flechas curvas entre ellos.

En un modelo factorial exploratorio el investigador no especifica la estructura de las

relaciones entre las variables en el modelo, por lo que él mismo debe asumir que:

1) Todos los factores están correlacionados (o, en algunos tipos de análisis factorial

exploratorio, que todos los factores no están correlacionados);

2) Todas las variables observadas se ven afectadas directamente por todos los factores;

3) Los factores únicos (errores) no están correlacionados unos con otros;

4) Todas las variables observadas se ven afectadas por un factor único;

5) Todos los ’s no están correlacionados con todos los ’s.

Como menciona el autor J. Scott Long en su libro, estas suposiciones se hacen sin tener

en cuenta la idoneidad sustantiva (que para determinar relación entre factores y

variables es necesario que esa relación tenga sentido desde el punto de vista teórico, y

no solo porque salga coyunturalmente en el análisis). Algunos supuestos adicionales y,

en general arbitrarios, deben ser impuestos por el investigador, con el fin de estimar los

parámetros del modelo.

La incapacidad del modelo factorial exploratorio de incorporar restricciones

significativas sustantivamente, y la necesidad de implantar restricciones sustancialmente

sin sentido, se ha ganado la etiqueta despectiva de entra la basura y sale del modelo

(GIGO, ‘Garbage In Garbage Out’ (Entra Basura, Sale Basura).

3.2. MODELO DE ANÁLISIS FACTORIAL CONFIRMATORIO

Las limitaciones del modelo factorial exploratorio se han superado en gran medida por

el desarrollo del modelo factorial confirmatorio (Jöreskog, 1967, 1968) , (Lawley,

1969). En el modelo factorial confirmatorio, el investigador impone restricciones

“sustantivamente motivadas”. Estas limitaciones determinan:

1º. Qué pares de factores están correlacionados.

2º. Qué variables observadas se ven afectadas por los factores.

3º. Qué variables observadas se ven afectados por un factor único (error).

4º. Qué pares de factores únicos (errores) están correlacionados.

El test estadístico se puede realizar para determinar si los datos de la muestra son

consistentes con las limitaciones impuestas o, en otras palabras, si los datos confirman

el modelo generado sustantivamente. Es en este sentido que el modelo está pensado

como un modelo confirmatorio. En la Figura 6 se puede observar un ejemplo de

Análisis Factorial Confirmatorio:

Figura 6: Modelo de Análisis Factorial Confirmatorio. Fuente: Long (1987)

La distinción entre los dos modelos (Exploratorio y Confirmatorio) puede verse

comparando el modelo exploratorio en la Figura 4 con el modelo de confirmación en la

Figura 6. En el modelo confirmatorio, por ejemplo, los factores comunes 1 y 3 se

supone que no son correlados, mientras que en el modelo exploratorio todos los factores

comunes se asumen como correlados. En el modelo factorial confirmatorio, las

variables observadas son afectadas solo por algunos factores comunes (por ejemplo, se

asume que 𝑋1 no es afectada por 2 y 3), mientras que todas las variables observadas se

ven afectados por los factores comunes en el modelo exploratorio.

Por otro lado, como podemos ver en el ejemplo del modelo factorial confirmatorio

(Figura 6), dos de los factores únicos se supone que son correlados (2 y 3 están

correlacionados como lo indica la flecha curva que conecta entre ellos), y una de las

variables observadas se supone que no tiene margen de error asociado con él (𝑋6 no

tiene ningún factor único asociado con él), mientras que en el modelo exploratorio

ninguno de los factores únicos está correlados, y el factor único está asociado a cada una

de las variables observadas.

En la práctica, el investigador puede no tener un modelo único y convincente en la

mente, en cambio, pueden sugerirse un conjunto de modelos igualmente razonables por

la teoría sustantiva, o bien, el investigador puede encontrar que el único modelo

sugerido por la teoría no encaja. En caso de no encajar, el modelo factorial

confirmatorio puede utilizarse de manera exploratoria. Puede realizarse una búsqueda

de especificación (Leamer, 1978) donde la selección de un modelo se basa en el examen

previo de los datos.

3.3. AFE vs AFC

AF Exploratorio AF Confirmatorio

Método heurístico Fuerte base teórica

Halla el nº de factores Nº de factores a priori

Halla la relación entre los factores Se establece la relación entre los factores

a priori

Variables con pesos en todos los factores Variables con pesos en factores

determinados

Técnica de reducción de dimensionalidad Técnica de reducción de dimensionalidad

Tabla 1: AFE vs AFC. Fuente: Elaboración propia.

El AFC permite la estimación de múltiples factores correlados, pero no permite a los

factores tener relaciones predicción-respuesta.

Por tanto, a la hora de compararlos (Tabla 1), podemos considerar que el AFE trata de

identificar la estructura factorial para un conjunto de variables. Esto lleva consigo el

determinar cuántos factores existen, así como la estructura de los pesos. De hecho,

aunque algunos procedimientos de extracción de factores permiten fijar previamente el

número de ellos, en ningún caso se puede forzar a las variables a tener pesos sólo en

algunos factores y no en otros.

3.4. ANÁLISIS FACTORIAL vs COMPONENTES PRINCIPALES

El propósito principal del Análisis Factorial y de las Componentes Principales es definir

la estructura subyacente en una serie de datos que permitan analizar la estructura de

interrelaciones que existe entre un gran número de variables, factores y componentes.

En muchas ocasiones se confunde de que las componentes principales y el análisis

factorial son lo mismo. En la tabla 2 se explicará cuáles son sus diferencias:

ANÁLISIS FACTORIAL ANÁLISIS

COMPONENTES PRINCIPALES

Objetivo: Identificar valores subyacentes

que reflejen qué es lo que las variables

comparten en común (Hair, 1999).

Objetivo: Uriel (1995) menciona que el

objetivo del análisis de componentes

principales es explicar la mayor parte de

variabilidad total de un conjunto de

variables con el menor número de

componentes posibles.

Ubicación: Análisis Exploratorio (Ayuda

a conocer el número de factores

necesarios que faciliten el análisis en la

investigación) o Confirmatorio (Ayuda a

confirmar si unos factores fijados a priori

son los adecuados)

Ubicación: Estadística descriptiva

Cuando no existe asociación entre las variables las correlaciones entre ellas son nulas y

carece de sentido realizar estos tipos de análisis.

Los factores que surgen en el análisis

factorial se basan en la varianza común.

Considera la varianza total y estima los

factores que contienen proporciones bajas

de la varianza única.

Por el contrario cuando el objetivo

principal es identificar las dimensiones

latentes o las construcciones representadas

en las variables originales, y el

investigador quiere eliminar la varianza,

lo más apropiado es utilizar el modelo

factorial común.

El análisis de componentes principales

es apropiado cuando el interés primordial

se centra en la predicción, o el mismo

número de factores necesarios, para

justificar la proporción máxima de la

varianza representada en la serie de la

variable original.

Tabla 2: AF vs ACP

4. EJEMPLO DE ANÁLISIS FACTORIAL CONFIRMATORIO:

Aplicación al cálculo de índices en economía

4.1 PRÓLOGO

El objetivo de este estudio consiste en analizar los resultados alcanzados por diferentes

regiones europeas, con principal interés en la región de Andalucía en materia de política

de cohesión social, a través de diferentes análisis comparativos tanto en el marco de las

comunidades autónomas como en el marco de las regiones de la Unión Europea.

Para ello, previamente se han obtenido indicadores de cohesión (del latín cohaesum =

estar unido) social en el conjunto de las regiones europeas, y se le han aplicado técnicas

de estadística multivariante; en concreto para el estudio se han utilizado modelos de

Ecuaciones Estructurales que no habían sido previamente utilizados para tales fines.

Dichos indicadores permiten realizar el estudio comparativo antes citado y permitirán

desarrollar un análisis de la evolución temporal de la cohesión social, tanto individual

como comparativamente con el resto de comunidades autónomas y regiones europeas.

Tales comentarios y conclusiones han de enmarcarse en el año de referencia, 2010. Los

indicadores propuestos y la capacidad de interpretación de los mismos no se ven

afectados por caducidad alguna, además, a raíz de su evolución temporal se podrán

extraer conclusiones sobre cómo está afectando a la cohesión social la actual crisis

económica.

4.2 INTRODUCCIÓN

La gran variedad de matices que se asocian al concepto de cohesión social evidencia la

dificultad de obtener una definición clara y concisa de este; además, es fácil encontrarlo

confundido con otros matices como el “bienestar social”, “la igualdad”, “la inclusión

social” o “el equilibrio territorial”. Sin embargo, estas son orientadas a la mejora y

garantía del acceso de los ciudadanos a servicios básicos (educación, salud, etc.), a sus

posibilidades económicas a través del empleo y su nivel de integración y vinculación

social.

La preocupación sobre el efecto que la puesta en marcha de políticas y actuaciones ha

producido en el grado de cohesión, justifica la necesidad de desarrollar herramientas

que permitan medir dicha cohesión y sus repercusiones. Las primeras propuestas

realizadas con este objetivo (Informe presentado por la Comisión Europea de la cumbre

de Estocolmo de marzo de 2001) contemplaron siete indicadores1. Posteriormente se

presentaron y fueron adoptados por los estados miembros de la Unión Europea (Consejo

Europeo de Laeken), los indicadores conocidos como Indicadores de Laeken. Sin

embargo, estos padecen del inconveniente asociado a la naturaleza de los datos, con

escasa información obtenida para las regiones europeas y la consiguiente interpretación

y conclusiones referidas sólo al ámbito estatal europeo.

Lo anteriormente expuesto justifica el contenido fundamental de este trabajo en el que,

en el contexto europeo y con unidad de desagregación regional, se aplica a una

metodología basada en técnicas estadísticas de reducción de dimensiones (Análisis

Factorial) que conduce a proponer un conjunto de índices o factores orientados a la

medición de la cohesión.

Como fuente se hace uso de un amplio conjunto de variables pertenecientes a diversos

dominios (agricultura, demografía, economía, educación, ciencia y tecnología, salud,

turismo, transportes, mercado laboral y sociedad de la información).

1 En el campo de la cohesión social, se emplearon siete indicadores: (i) distribución del ingreso (razón

entre la parte del ingreso capturada por el quintil más pobre y el quintil más rico); (ii) porcentaje de la

población bajo la línea de pobreza antes y después de las transferencias (el 60% del ingreso mediano

nacional); (iii) persistencia de la pobreza (porcentaje de la población bajo la línea de pobreza durante tres

años consecutivos); (iv) proporción de hogares sin miembros en el mercado laboral; (v) disparidades

regionales (coeficiente de variación de las tasas de desempleo regional); (vi) baja escolaridad (proporción

de personas de 18-24 años que no están ni en educación o capacitación y que tienen solamente baja

secundaria), y, (vii) tasa de desempleo de larga duración (Atkinson, Anthony, Cantillon, Marlier, &

Nolan, 2005).

4.3 METODOLOGÍA

En el apartado anterior se indica que en este trabajo se contempla la cohesión social en

un sentido amplio, como distribución equilibrada de las actividades humanas

(individuales o colectivas) a favor del desarrollo económico, la calidad de vida, e

integración de los ciudadanos y el equilibrio ecológico. Y que ante las dos dimensiones

que determinan el concepto, la dimensión objetiva de los mecanismos y la dimensión

subjetiva de los comportamientos y valoraciones, el trabajo se centraría en la primera

dimensión. Así, el objetivo de medición y análisis es esta dimensión objetiva,

incluyendo los mecanismos que favorezcan el empleo, la educación, la igualdad, la

salud, el bienestar y la protección social.

Por otra parte, el objetivo del trabajo es analizar dicha dimensión en el conjunto de las

regiones europeas, tratando de realizar un análisis conjunto y comparativo de las

mismas. Así, el ámbito territorial bajo estudio viene determinado por el ámbito

geográfico de la Unión Europea, considerando como unidades de estudios las 2642

regiones determinadas por la NUTS2 (Nomenclatura de las Unidades Territoriales

Estadísticas utilizadas por la Unión Europea).

PAÍS NUTS2 PAÍS NUTS2

Bélgica 11 Italia 21

Bulgaria 6 Chipre 1

Rep. Checa 8 Letonia 1

Dinamarca 5 Lituania 1

Luxemburgo 1 Austria 9

Hungría 7 Polonia 16

Malta 1 Portugal 5

Holanda 12 Rumanía 8

Alemania 39 Eslovenia 2

Estonia 1 Eslovaquia 4

Irlanda 2 Finlandia 5

Grecia 13 Suecia 8

España 17 Reino Unido 37

Francia 22 Luxemburgo 1

Tabla 3: Regiones por país según NUTS-2

2 La Unión Europea tiene determinadas 271 NUTS2, pero se han eliminado 8 regiones dados los objetivos

y estructura del estudio, y dadas las particularidades de las mismas. Estas regiones son las siguientes: de

España: “Ceuta” y “Melilla”; de Portugal: “Azores” y “Madeira”; de Francia: “Guadeloupe”,

“Martinique”, “Guyane” y “Reunion”.

En este trabajo se utilizará un modelo de Ecuaciones Estructurales, en concreto métodos

de Análisis Factorial, aplicado a un amplio conjunto de variables que proporcionan

información sobre los dominios considerados. Muchos autores critican el uso de esta

técnica multivariante como procedimiento de obtención de indicadores, basándose en

argumentos como: difícil interpretación de los factores obtenidos a través del modelo

matemático en el marco de la realidad, pérdida de parte de la información

proporcionada por los datos, imposibilidad de realizar un análisis dinámico en el

tiempo.

Sin embargo, algunos de los problemas planteados en esas críticas pueden ser eludidos

y/o resueltos y, además, posee muchas ventajas. Así, se puede afirmar:

El Análisis Factorial permite la inclusión en el estudio de un amplio conjunto de

variables frente a la necesidad de un número pequeño que necesitan otros

métodos. Esta restricción que afecta a otros métodos conduce a un proceso

precio de selección subjetiva y restrictiva de las variables que deben ser

incluidas, proceso que, generalmente, conlleva a una pérdida considerable de

información relevante.

En el Análisis Factorial el peso específico de cada variable y dominio queda

determinado intrínsecamente en el método, a través de un criterio objetivo, y no

es necesario determinarlo a priori y de forma subjetiva por el investigador.

No siempre basta con un único indicador para analizar el objeto de estudio. Más

aún, tratar de reducir una realidad multidimensional, poliédrica y compleja a un

único factor es un ejercicio de reduccionismo que conlleva mucha pérdida de

información. El Análisis Factorial puede facilitar la obtención de varios factores

o indicadores que describan, en unas pocas dimensiones, la complejidad del

objeto de estudio.

Los datos utilizados se han obtenido de una única fuente, EUROSTAT, y corresponden

al año 2010.

Por la diversidad de definiciones de “región” que se pueden encontrar en los 28 países

de la Unión Europea (EU-28), se considera la clasificación que EUROSTAT ha

desarrollado a tal efecto, subdividiendo cada estado miembro en regiones hasta tres

niveles jerárquicos: los NUTS (Nomenclature of Territorial Units for Statistics –

Nomenclatura de las Unidades Territoriales Estadísticas).

Puesto que el objetivo final es analizar la situación de Andalucía en el contexto europeo

se opta por el nivel NUTS2 donde, tanto Andalucía como el resto de comunidades

autónomas de España queden identificadas unívocamente. La clasificación realizada por

EUROSTAT la forman 3 niveles jerárquicos de división territorial:

NUTS1: Grandes regiones socioeconómicas

NUTS2: Regiones base para la aplicación de políticas regionales

NUTS3: Pequeñas regiones para diagnósticos específicos

Véase también la clasificación geográfica NUTS-2 de las regiones en el mapa Europeo

y una tabla informativa de todos los países con sus regiones en cada una de las

clasificaciones que hizo Eurostat (NUTS-1, NUTS-2, NUTS-3) en la Figura 1 y la

Tabla 1 del Anexo I respectivamente.

Figura 7: NUTS Nomenclatura of Territorial Units for Statistics.

Fuente: (Eurostat)

4.4 ANÁLISIS PREVIO Y DEPURACIÓN DE DATOS

Al comienzo se contó con una base de datos de más de 30 variables económicas para

cada una de las 264 regiones, las cuales serían las que ayudarían a conseguir los

objetivos del estudio en primera instancia, siempre y cuando fuesen importantes y

necesarias. Para ello se llevó a cabo una depuración de las mismas, con el objetivo de

poder realizar el estudio con la mejor precisión posible.

Estimación: La estimación de los diferentes SEM se llevó a cabo con el programa

SPSS, el cual permite la estimación simultánea de los parámetros para la estructura

propuesta, y posteriormente se llevó a cabo el Análisis Factorial Confirmatorio con el

programa AMOS. El método de estimación utilizado fue el de máxima verosimilitud.

Según el autor Kenneth A. Bollen (1989), las estimaciones de los parámetros mediante

máxima verosimilitud son bastante aproximadas a las obtenidas mediante mínimos

cuadrados ponderados, sin embargo, se tiende a sobrestimar tanto el valor del

estadístico de contraste Chi-cuadrado como las varianzas estimadas de los errores.

Método de la Máxima Verosimilitud:

Es un método de extracción factorial que proporciona las estimaciones de los

parámetros que con mayor probabilidad ha producido la matriz de correlaciones

observada, si la muestra procede de una distribución normal multivariada. Las

correlaciones se ponderan por el inverso de la exclusividad de las variables, y se emplea

un algoritmo iterativo.

x = A f + u ⇔ X = FA' + U

Además, permite seleccionar el número de factores mediante contrastes de hipótesis.

Este método también puede ser utilizado en el Análisis Factorial Confirmatorio, donde

el investigador puede plantear hipótesis como que algunas cargas factoriales son nulas,

que algunos factores están correlacionados con determinados factores, etc., y aplicar

tests estadísticos para determinar si los datos confirman las restricciones asumidas.

El principal inconveniente del método radica en que, al realizarse la optimización de la

función de verosimilitud por métodos iterativos, si las variables originales no son

normales, puede haber problemas de convergencia sobre todo en muestras finitas.

En conclusión, antes de llevar a cabo el Análisis Factorial Exploratorio, se comprueba la

presencia de normalidad univariante a través del Test de Kolmogorov-Smirnov (Tabla

4), ya que el tamaño muestral es mayor a 50 (264):

Observamos la presencia de múltiples variables con problemas de no existencia de

normalidad, nos quedaremos con aquellas variables que no rechacen la hipótesis nula,

ya que como se menciona anteriormente, el método de máxima verosimilitud requisa de

normalidad multivariante para evitar problemas futuros de convergencia.

Del total de variables, contienen normalidad univariante 11; éstas se explicarán

detalladamente en el siguiente apartado.

En este sentido, el que cada una de estas variables verifique normalidad univariante

resulta ser una condición necesaria pero no suficiente para que conjuntamente sigan una

normal multivariante (si la distribución conjunta es normal multivariante, cada una de

las marginales es una normal univariante, pero no a la inversa).

NORMALIDAD MULTIVARIANTE NORMALIDAD UNIVARIANTE

Tabla 4: Prueba K-S para una muestra

NORMALIDAD MULTIVARIANTE

Por este motivo, una vez comprobada la normalidad de cada una de las variables

observadas consideradas individualmente, se hace necesario también contrastar la

hipótesis de normalidad multivariante. A tal fin, MARDIA (1970) propuso algunos tests

para contrastar si la asimetría y la curtosis multivariantes del conjunto de variables

observables permite asumir o no la hipótesis de normalidad. Estos contrastes se

construyen a partir de las siguientes medidas muestrales de asimetría y curtosis

multivariantes:

- Asimetría: 𝐺1,𝑝 =1

𝑛2∑ ∑ [(𝑥𝑖 − 𝑥)′𝑛

𝑗=1𝑛𝑖=1 �̂�−1(𝑥𝑗 − 𝑥)]3

- Curtosis: 𝐺2,𝑝 =1

𝑛∑ [(𝑥𝑖 − 𝑥)′𝑛

𝑖=1 �̂�−1(𝑥𝑖 − 𝑥)]2

donde n representa el número total de observaciones, xi y xj son vectores columna con

los valores de todas las variables para las observaciones i-ésima y j-ésima,

respectivamente, x es el correspondiente vector columna de medias muestrales y �̂�−1 es

la inversa de la matriz de varianzas-covarianzas muestral.

Los estadísticos de contraste 𝑧(𝐺1,𝑝) y 𝑧(𝐺2,𝑝) obtenidos a partir de 𝐺1,𝑝 y 𝐺2,𝑝 se

distribuyen asintóticamente según una ley normal por lo que su interpretación es

semejante a la ya comentada anteriormente para los estadísticos de asimetría y curtosis

univariante 𝑧(𝐺1) y 𝑧(𝐺2): aquellos valores experimentales que en valor absoluto sean

mayores que 1'96 permiten rechazar a un nivel de significación del 5% las respectivas

hipótesis nulas de distribución multivariante simétrica y mesocúrtica. Asimismo,

también se puede realizar un contraste conjunto de simetría y mesocurtosis

multivariantes utilizando el estadístico:

𝐾𝑝 2 = [𝑧(𝐺1,𝑝)]2 + [𝑧(𝐺2,𝑝)]2

que se aproxima a una distribución χ2 con dos grados de libertad y que también se

interpreta de forma análoga al estadístico conjunto k2 de normalidad univariante, es

decir, se rechaza la hipótesis nula para valores experimentales mayores que 5'99 dado

un nivel de significación del 5%.

Dentro de los resultados del análisis realizado, destacaremos, en primer lugar, una tabla

con una serie de estadísticos descriptivos calculados para cada una de las variables

seleccionadas, entre los que se encuentran los coeficientes de asimetría G1 y curtosis G2

y sus respectivos errores típicos. Véase Tabla 1 completa en Anexo II.

Dividiendo cada uno de los coeficientes entre su respectivo error típico se ha calculado

los estadísticos z(G1) y z(G2), y sumando los cuadrados de estos últimos hallamos el

valor experimental del estadístico de contraste conjunto k2 , siendo los resultados

obtenidos los siguientes:

Como se puede observar, de acuerdo con los criterios especificados con anterioridad

para un nivel de significación del 5% (𝑧(𝐺1) > |1.96|), la hipótesis de simetría se

rechaza para 5 variables; en cambio, la hipótesis de distribución mesocúrtica se rechaza

(𝑧(𝐺2) > |1.96|) sólo para 2. Por otra parte, el contraste conjunto de asimetría y

curtosis, indica que sólo pueden considerarse como normales (K2

< 5,99) 5 variables.

Por tanto, se concluye después del anterior análisis la no existencia de normalidad

multivariante.

HRST_Educ

_sobrepob_

HRST_Educ

_sobrepob_t

De_n_tbDe_pob_65o

m_TasaDe_tas_inc

De_tas_inc

EC_prop_GF

CF_construc

EC_prop_GF

CF_industry_

EC_rem_con

strucción

MT_Paro_LD

_Share

MT_Ts_25_6

4_PA_5_6_T

3,0085 2,9962 4,4303 -0,9408 0,0622 1,6088 1,0358 3,6605 -1,8544 1,4019 2,7395

-0,1167 0,4011 2,4975 0,1137 1,2611 3,2341 0,6897 1,9348 -0,4483 -0,5390 -0,5139

9,0646 9,1381 25,8650 0,8980 1,5944 13,0475 1,5485 17,1427 3,6398 2,2560 7,7690

Curtosis: z(G2)

Conjunto: k2

CONTRASTE

Asimetría: z(G1)

Tabla 5: Estadísticos Descriptivos

Tabla 6: Asimetría y Curtosis

4.5 DEFINICIÓN DE VARIABLES

En el siguiente cuadro se presentan las variables seleccionadas para el estudio. Se

consideraron estas y no otras porque se realizó un análisis previo (4.4) y se concluyó

que serían las variables menos conflictivas, además que son de gran interés.

4.6 ANÁLISIS DE DATOS

Una vez determinadas las variables que van a formar parte del estudio, se llevará a cabo

en primer lugar un Análisis Factorial Exploratorio y seguidamente se procederá a su

confirmación a través de un Análisis Factorial Confirmatorio.

HRST_Educ_sobrepob_act RRHH en ciencia y tecnología – Educación. Porcentaje

sobre la población activa.

HRST_Educ_sobrepob_tot RRHH en ciencia y tecnología – Educación. Porcentaje

sobre la población total.

De_n_tb Tasa bruta de nacimientos.

De_pob_65om_Tasa Porcentaje de población de 65 años o más sobre el total de

la población a 1 de Enero.

De_tas_inc Tasa bruta de crecimiento.

De_tas_inc_nat Tasa bruta de crecimiento natural.

EC_prop_GFCF_contrucción Formación de capital bruto. Proporción dedicada a

construcción con respecto al total NACE.

EC_prop_GFCF_industry_sin_c Formación de capital bruto. Proporción del dedicado a

industria (sin construcción) respecto al total NACE

EC_rem_construcción Porcentaje de compensación de empleados. Construcción

con respecto al total de actividades NACE.

MT_Paro_LD_Share Desempleo de larga duración ( ≥ 12 meses ). Cuota.

MT_Ts_25_64_PA_5_6_T

Tasa de población activa con nivel ISCED 5-6 entre 25 y

64 años con respecto al total de población activa (25 y 64

años).

Tabla 7: Definición de variables

4.6.1 ANÁLISIS FACTORIAL EXPLORATORIO

Como se mencionó en el apartado 4.4, se utilizó el método de extracción a través de la

Máxima Verosimilitud, ya que es el más apropiado para el posterior Análisis

Confirmatorio. Además se llevó a cabo una rotación Varimax (Kaiser, 1958) ya que

maximiza la varianza y esto facilitaría la interpretabilidad de los factores; esto es porque

tienden a “aplastar” los coeficientes pequeños y a hacer crecer los grandes de manera

que sus “perfiles” pueden asociarse más fácilmente a un subconjunto concreto de

variables. Estos subconjuntos de variables más involucradas en un factor determinado

permiten intuir un significado y, esto es muy importante en ciertos ámbitos, asociarles

un nombre.

Prueba de KMO y Bartlett

Medida Kaiser-Meyer-Olkin de adecuación de

muestreo ,739

Prueba de esfericidad

de Bartlett

Aprox. Chi-cuadrado 3057,595

Sig. ,000

Tabla 8

El KMO es medianamente alto esto indica que el modelo es válido, hay un mayor grado

de correlación. Además, la prueba de esfericidad de Barlett nos reconfirma lo mismo, al

ser rechazada la Hipótesis nula:

Ho: La matriz de correlaciones es igual a la identidad3

H1: La matriz de correlaciones es distinta a la identidad4

Hablando coloquialmente, este índice de KMO medianamente alto, nos indica que las

variables que se introdujeron están tan asociadas y tan correlacionadas entre ellas que se

pueden reducir los datos con la idea de formar factores.

3 Igual a la identidad: La diagonal son 1, luego los coeficientes de correlaciones de las diversas variables

serian 0 (No habría asociación entre las diversas variables). 4 Distinta a la identidad: Sí hay correlaciones entre las variables

En la tabla 9 vemos que con 4 factores explicaría el 83,66% de la variabilidad. Según el

criterio que se tenga en cuenta se podrá coger un determinado número de factores, si nos

agarramos al criterio más general, lo ideal sería que los factores explicaran al menos un

80% de la variabilidad total, en este caso 4 factores. Cabe decir, que en este caso

escoger 3 factores sería otra opción muy recomendada, ya que explica casi tres cuartas

partes de la variabilidad total (74,54%), y no se perdería demasiada información.

El gráfico de sedimentación de la Figura 8 ayuda a corroborar la anterior decisión. Se

aprecia que 4 factores podría ser la solución mas acertada.

Se llega al fin a la salida esperada, la Matriz factorial, donde se podrá visualizar las

cargas de las variables en los diferentes factores, dando una predicción de cual podría

ser el posible mejor modelo que explique mejor las variables a raíz de los factores:

Tabla 9

Figura 8

Matriz factoriala

Factor

1 2 3 4

HRST_Educ_sobrepob_act ,971

HRST_Educ_sobrepob_tot ,964

De_n_tb ,671 ,553

De_pob_65om_Tasa -,550

De_tas_inc ,559 ,459

De_tas_inc_nat ,715 ,687

EC_prop_GFCF_construcción ,999

EC_prop_GFCF_industry_sin_c -,396

EC_rem_construcción ,739

MT_Paro_LD_Share -,390 -,644

MT_Ts_25_64_PA_5_6_T ,969

Método de extracción: máxima probabilidad.

a. 4 factores extraídos. 34 iteraciones necesarias.

Tabla 10: Matriz factorial sin rotar.

Se necesitaron 34 iteraciones para resolver problemas de convergencia. El programa ha

repartido las cargas en 4 factores, los cuales ayudarán a estudiar posibles modelos para

la comparación entre ellos y concluir el mejor de ellos para su posterior análisis.

Matriz de factor rotadoa

Factor

1 2 3 4

HRST_Educ_sobrepob_act ,950 ,256

HRST_Educ_sobrepob_tot ,923 ,211 ,284

De_n_tb ,331 ,749 ,295

De_pob_65om_Tasa -,719

De_tas_inc ,266 ,384 ,665

De_tas_inc_nat ,310 ,875 ,346

EC_prop_GFCF_construcción ,995

EC_prop_GFCF_industry_sin_c -,314 -,299

EC_rem_construcción ,741

MT_Paro_LD_Share -,219 -,732

MT_Ts_25_64_PA_5_6_T ,924 ,245 ,247

Método de extracción: máxima probabilidad.

Método de rotación: Varimax con normalización Kaiser.

a. La rotación ha convergido en 5 iteraciones.

Tabla 11: Matriz factorial rotada

También se considera la Matriz de Factores Rotados, ya que por lo general puede ser

una solución más óptima que la de Factores sin Rotar. Se llevará a cabo una

comparación entre diferentes modelos posibles, en el que se escogerá aquel que presente

los índices más adecuados (mejor represente a las variables) para su interpretación.

Aquí finaliza la parte exploratoria y deja paso a la confirmación del modelo.

4.6.2. ANÁLISIS FACTORIAL CONFIRMATORIO

Para la realización del Análisis Factorial Exploratorio se utilizó el programa de SPSS

Amos, y se propuso el modelo que nos sugirió el AFE para comprobar su confirmación;

éstos fueron los resultados:

Figura 9: Path Diagram sacado de Matriz factorial rotada

La Figura 9 muestra el Path Diagram obtenido (con los resultados de la matriz de

factores rotados) del AFE; la interpretación se llevará a cabo una vez se comparen

diferentes posibles modelos y se seleccione el que mejores indicadores tenga.

ANÁLISIS DE LOS INDICADORES OBTENIDOS

En la Figura 10 se puede ver que el primer problema que se presenta es en el Test de

Bondad de ajuste de la Chi-cuadrado, que siempre interesará que no se rechace, ya que

supondrá que los datos están bien ajustados, sin embargo, en este caso explica un mal

ajuste de los datos ya que su p-valor es muy próximo a 0, por lo que rechazaría la

hipótesis nula.

H0: 𝑓(𝑥) = 𝑓0(𝑥)

H1: 𝑓(𝑥) ≠ 𝑓0(𝑥)

Varios autores han señalado los problemas de este estadístico para la evaluación con

muestras grandes, ya que lleva a rechazar los modelos aunque los residuos sean bastante

pequeños (Bentler y Bonnet, 1980; James, Mulaik, y Brett, 1982; Mulaik, James,

Alstine, Bennett, Lind y Stilwell 1989).

Según menciona el autor (Kline, 1994) menciona en su libro, en el Análisis Factorial

Confirmatorio este caso se da muy a menudo y puede deberse a múltiples causas, como

que este test es muy sensible al tamaño de la muestra. El análisis factorial confirmatorio

requiere pruebas complementarias de bondad de ajuste, para confirmar si la estructura

obtenida coincide con la estructura propuesta como hipótesis. Algunas de estas pruebas

se basan en el test 2 y se ven muy afectadas por el número de sujetos. Para que las

pruebas de ajuste sean fiables hace falta una muestra de al menos 100 sujetos si se trata

solamente de dos factores, y muchos más (al menos N=500) si se trata de modelos más

complejos (Kline, 1994); el número de sujetos también debe ser grande con respecto al

número de variables (20:1). En general todos estos métodos no son del todo fiables por

lo que deben utilizarse con prudencia (Kline, 1994).

Figura 10

Según mencionan los autores, Bentler y Bonett (1980), Long (1983) y Ullman (1996),

entre otros; dado que rara vez se cumplen simultáneamente estos requisitos

(normalidad de las variables observadas y tamaño muestral lo suficientemente grande),

señalan que la utilización de este estadístico debe efectuarse con precaución con

muestras grandes, dado que incluso pequeñas diferencias entre las matrices de

covarianzas muestral y estimada serán evaluadas como significativas por el contraste.

Esta limitación ha llevado al desarrollo de más de 30 indicadores ad hoc de bondad de

ajuste, algunos de los cuales se mostrarán en este análisis.

Ésta podría ser la causa de la falta de ajuste, debido a que se cuenta con un total de 264

observaciones tratándose de 4 factores. Respecto al número de observaciones frente al

número de variables no debería causar ningún inconveniente, ya que está en una

proporción 24:1.

Como se ha mencionado anteriormente, para confirmar la hipótesis de no diferencia

entre las dos estructuras factoriales hay que aceptar la Hipótesis Nula, y con muestras

grandes se rechaza la Hipótesis Nula con mucha facilidad por lo que con muestras

grandes (en principio preferibles) es muy difícil confirmar cualquier hipótesis; en

cambio con muestras pequeñas (sobre todo) se pueden confirmar a la vez varias

hipótesis por lo que con muestras pequeñas resulta más fácil demostrar lo que uno

quiera; habría entonces que demostrar también que otras hipótesis rivales no se

confirman. El hecho de que estos análisis confirmen el modelo propuesto no quiere

decir que no haya otros posibles modelos que se ajusten a estos datos (comentarios

sobre este punto pueden verse en (Hocevar, Zimmer, & Strom, 1984); (Hattie, 1985);

(Gorsuch, 1986b); (Kline, 1994); (Oliver & Tomás, 1995); (Stapleton., 1997b).

Muchos autores quitan importancia a este índice (2), y prestan más atención a los

índices ad hoc, que indicarán si el modelo de Análisis Factorial Confirmatorio es

adecuado o no.

COMPARACIÓN DE MODELOS

La comparación de modelos se llevará a cabo a través de sus índices ad hoc.

El índice CMIN/DF (llamado así en AMOS) es igual al estadístico de la X2 dividido

entre sus grados de libertad. Es ideal que este índice sea cuanto menor, mejor.

El GFI según denomina su autor (Ullman 1996) es una ratio entre los elementos

ponderados de la matriz de covarianzas reproducida y los elementos ponderaros de la

matriz de covarianza muestral observada.

Aquel modelo que lo aproxime más a 1, significará que está mejor ajustado.

El SRMR, son los residuos estandarizados cuadráticos medios (Standarized Root Mean

Square Residual), sus valores están acotados entre 0 y 1, siendo lo más adecuado

valores próximos a 0.

Para la comparación de los modelos anidados se utiliza como índice de bondad de ajuste

relativo el índice NFI (Normed Fit Index). El índice de ajuste normativo (NFI) fue

propuesto por (Bentler & Bonett, 1980) y compara el valor del estadístico 2 del

modelo teórico con el del modelo independiente. Este índice no tiene en cuenta los

grados de libertad del modelo propuesto y, a medida que se liberan parámetros, se

consiguen modelos más ajustados.

𝑁𝐹𝐼 =

𝑖𝑛𝑑𝑒𝑝2 −

𝑡𝑒ó𝑟𝑖𝑐𝑜2

𝑖𝑛𝑑𝑒𝑝2

Siguiendo las recomendaciones de (Bentler 1992) se considera que son susceptibles de

mejora los índices de ajuste, para los modelos anidados, por debajo de 0,90.

Algunos autores han demostrado que este índice tiene una tendencia a subestimar el

ajuste del modelo si las muestras son pequeñas (Bearden & Sharma, 1982), llevando a

sus autores a plantear dos modificaciones del mismo, el índice NNFI y el CFI.

El índice NNFI (Nonnormed Fit Index) a diferencia del NFI, incorpora los grados de

libertad de los modelos teórico e independiente y aunque se evita así la subestimación

del ajuste, puede provocar en algunos casos extremos valores fuera del rango 0-1.

𝑁𝑁𝐹𝐼 =

𝑖𝑛𝑑𝑒𝑝2 −

𝑔𝑙𝑖𝑛𝑑𝑒𝑝 𝑔𝑙𝑡𝑒ó𝑟𝑖𝑐𝑜

𝑡𝑒ó𝑟𝑖𝑐𝑜2

𝑖𝑛𝑑𝑒𝑝2 − 𝑔𝑙𝑖𝑛𝑑𝑒𝑝

Por otro lado, el CFI (Comparative Fit Index), conocido como el índice de ajuste

comparativo de Bentler; compara el ajuste de un modelo objetivo con el ajuste de un

modelo independiente, un modelo en el que se supone que las variables no están

correlacionadas. En este contexto, ajuste se refiere a la diferencia entre las matrices de

covarianza observadas y predichas, tal como se representa por el índice chi-cuadrado.

Además este índice, al igual que el NNFI tiene en cuenta los grados de libertad, en este

caso los corrige del siguiente modo:

𝐶𝐹𝐼 = |(

𝑖𝑛𝑑𝑒𝑝2 − 𝑔𝑙𝑖𝑛𝑑𝑒𝑝) − (

𝑡𝑒ó𝑟𝑖𝑐𝑜2 − 𝑔𝑙𝑡𝑒ó𝑟𝑖𝑐𝑜)

𝑖𝑛𝑑𝑒𝑝2 − 𝑔𝑙𝑖𝑛𝑑𝑒𝑝

Un CFI mayor de 0,85 indica que el ajuste del modelo es aceptable.

El índice de bondad de ajuste más robusto (Fan, Thompson, & Wang, 1999) son los

Residuos Cuadráticos Medios Estandarizados (RMSEA). Este índice ha sido

desarrollado como una medida absoluta de la diferencia de la estructura de relaciones

entre el modelo propuesto y los valores de covarianza en población medida (Steiger,

1990).

Al final de la tabla se encuentran dos criterios de información de Akaike (1987). Tanto

el AIC (Akaike Information Criterion), como el BIC, se consideran una medida de

bondad de ajuste de la teoría de la información, que se puede aplicar solo cuando se

utiliza la estimación de máxima verosimilitud (Burnham & Anderson, 1998). Estos

índices se utilizan para comparar diferentes modelos. Los modelos que generan los

valores más bajos serán los más óptimos.

𝐴𝐼𝐶 = 𝑡𝑒ó𝑟𝑖𝑐𝑜2 − 𝑔𝑙𝑡𝑒ó𝑟𝑖𝑐𝑜

(Ullman, 1996) señala que “lo suficientemente bajo” pero, dado que no está

normalizado a un intervalo 0-1, “suficientemente bajo” solo puede entenderse en

términos comparativos con otros modelos teóricos, es decir, servirá como indicador para

señalar si el modelo que hemos contrastado es mejor o peor que otro modelo

contrastado previamente, pero no ofrece un nivel de ajuste absoluto.

Medida de

bondad de

ajuste

Niveles de ajuste

aceptables

Modelo 1,

M.F.S.R

Modelo 2

M. F. S. R.

Variable-Factor

Modelo 3

M. F. R.

Modelo 4

M. F. R.

2 Niveles

Modelo 5

Variable-Factor

CMIN (2) Bajo 513,84 477,268 319,187 319,202 281,462

CMIN/DF Pequeño 13,522 12,899 8,184 7,980 7,407

SRMR Próximo a 0 0,120 0,119 0,074 0,075 0,073

GFI 0 mal ajuste;

1 ajuste perfecto 0,781 0,791 0,829 0,829 0,839

NFI >0.90 0,835 0,847 0,897 0,897 0,910

CFI >0.85 0,844 0,856 0,908 0,909 0,920

(D.M.) <0.05 0,218 0,213 0,165 0,163 0,156

(I.M.)

Diferencia con

RMSEA mayor 0,460 0,460 0,460 0,460 0,460

AIC Valor pequeño

indica parsimonia 569,840 535,268 373,187 371,202 337,462

BIC Valor pequeño

indica parsimonia 669,966 638,971 469,738 464,177 437,589

Tabla 12: Comparación de modelos.

Siguiendo los criterios de aceptación de la web de Scielo5, el modelo 5, que es el que

utiliza la matriz factorial rotada, y además relaciona la variable

HRST_EDUC_SOBREPOB_ACT con el Factor Educación, trabajo y sector secundario

(F1). Éste modelo sería el que reproduce con mayor precisión los datos de partida (la

matriz de varianza-covarianza muestral).

5 Web criterios de aceptación: http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-

24492016000100004

Figura 11: Modelo 5 originado a raíz de la Matriz Factorial Rotada.

Una vez determinado el modelo, se puede llevar a cabo la nomenclatura de las

variables:

F1: Educación, trabajo y sector secundario

F2: Potencial demográfico

F3: Potencial de Construcción

F4: Crecimiento bruto y disminución del paro

4.7. EXPLOTACIÓN DE LOS DATOS

Cabe recalcar, que el AFC no es más que una técnica para la agrupación de variables en

factores que expliquen lo mejor posible una gran cantidad de las mismas. Por tanto esta

técnica permite realizar futuros análisis de todo tipo con mayor facilidad, comodidad e

interpretabilidad.

Por ello se ha querido exprimir éste Ejemplo realizando algunos estudios.

4.7.1. Influencia de la localización en la economía de los países

Éste ejemplo surgió a raíz de que se especuló que podría existir una influencia en la

economía de los diferentes países dependiendo de su localización en el mapa

geográfico. Para ello se llevó a cabo una clasificación cualitativa en 3 grupos: Países del

Norte, países del Sur, y países del Este. La clasificación se consideró a valoración

propia y así quedo definitivamente:

NORTE SUR ESTE

BE – Bélgica EL – Grecia BG – Bulgaria

DK – Dinamarca ES – España CZ – República Checa

DE – Alemania FR – Francia LV – Letonia

EE – Estonia HR – Croacia LT – Lituania

IE – Irlanda IT – Italia HU – Hungría

LU – Luxemburgo CY – Chipre PL – Polonia

NL – Países Bajos MT – Malta RO – Rumanía

AT – Austria PT – Portugal SK – Eslovaquia

FI – Finlandia SI – Eslovenia

SE – Suecia

UK – Reino Unido

Tabla 13

Como la variable categórica tiene tres o más categorías (NORTE, SUR, y ESTE) el

procedimiento consistirá en comparar las medias de los Factores extraidos en cada uno

de los grupos que conforma cada estrato (F1, F2, F3 y F4) o categoría de la variable

nominal. Se llevará a cabo un Análisis de la Varianza (ANOVA de una vía), que va a

permitir no sólo saber si hay diferencias en las medias de los diferentes grupos sino

explorar entre qué grupos concretos están o no esas diferencias (a través de los llamados

“contrastes a posteriori”). Dicho ejemplo se realizará con el mismo programa que se

viene utilizando, el SPSS. Las salidas fueron las siguientes:

Prueba de homogeneidad de varianzas

Estadístico de

Levene df1 df2

F1 1,306 2 261 ,273

F2 ,230 2 261 ,795

F3 1,299 2 261 ,274

F4 ,654 2 261 ,521

Tabla 14

Con los siguientes p-valores de la Tabla 14 se concluye que no existe evidencia para

rechazar la hipótesis nula de homogeneidad de varianzas, por lo que concluimos la

existencia de la misma.

Para la selección del test con el que se llevará a cabo el ANOVA; a modo de

recomendación por parte de Dña. Antonia Oya a lo largo de su docencia en la asignatura

de Diseño de Experimentos, se concluye que teniendo en cuenta que el método de

Scheffé fue diseñado para realizar comparaciones complejas, su sensibilidad es mayor

en este caso, siendo preferido el de Dunn-Bonferroni cuando el número de contrastes es

menor o igual que el número de tratamientos, y el procedimiento de Tukey para las

comparaciones en las que los coeficientes son similares, por lo que en este caso se

llevará a cabo a través del Test de Tukey.

Las salidas del análisis de la varianza se adjuntan en Anexo IV (Tabla ANOVA y tabla

de comparaciones múltiples).

De acuerdo a los resultados obtenidos por el análisis de la varianza (ANOVA), existe

evidencia estadística (de acuerdo al criterio del valor p - Sig) para rechazar la hipótesis

nula excepto para el Factor 3, por ello se puede considerar que sí existen diferencias en

la localización geográfica tanto para F1, F2 como F4. Sin embargo, para el Factor 3

parece ser que no existen diferencias en función de la localización de los países.

H0: μ1 = μ2 = μ3

H1 : Ǝi,j tq μi ≠ μj i,j = 1,2,3.

Una vez analizadas las comparaciones múltiples (véase tabla de comparaciones adjunta

en anexo IV) a través del método de Tukey, se pueden sacar diversas conclusiones.

[SUR – ESTE] No rechaza en ninguno de los 4 Factores, por lo que podemos decir

que son muy similares aquellos países que se sitúan tanto en el Sur como en el Este de

Europa en función de los índices económicos estudiados.

Del mismo modo podemos decir que aquellos países situados en el NORTE se

diferencian del resto de países situados en SUR y ESTE en la Educación, trabajo y

sector secundario (F1); en el Potencial demográfico (F2); y en el Crecimiento bruto y

disminución del paro (F4).

Potencial de construcción (F3) La localización en la que se encuentre el país

(Norte, Sur, Este) no influye en el Potencial de construcción (F3), no presenta

diferencias en función de dónde se localice el país.

4.7.2. Posición de Andalucía en Europa

El objetivo de este estudio es visualizar en qué posición se encuentra Andalucía

respecto a las demás regiones europeas (en función de los 4 Factores que nos ha

proporcionado el Análisis Factorial Confirmatorio). Para ello se realizó un análisis

univariante con cada uno de los 4 Factores, tras el análisis, la posición de Andalucía en

los diferentes Factores fue la siguiente:

PSN GEOLTIME

F1: Educación,

trabajo y sector

secundario

1º Sud - Muntenia 1,33

2º Nord-Est 1,34· · ·· · ·137º Andalucía 3,24· · ·· · ·263º Prov. Brabant Wallon 5,89

264º Inner London (NUTS 2010) 6,91

PSN GEOLTIMEF2: Potencial

demográfico

1º Severozapaden -3,33

2º Severen tsentralen -2,47· · ·· · ·203º Andalucía 0,80· · ·· · ·263º Île de France 3,22

264º Inner London (NUTS 2010) 3,47

PSN GEOLTIME

F3: Potencial

Construcción

1º Région de Bruxelles-Capitale 1,51

2º Anatoliki Makedonia, Thraki 1,68· · ·· · ·199º Andalucía 4,95· · ·· · ·263º Övre Norrland 6,51

264º Burgenland (AT) 7,05

PSN GEOLTIME

Crecimiento

bruto y paro

1º Severozapaden -2,88

2º Severen tsentralen -2,28· · ·· · ·118º Andalucía 0,02· · ·· · ·263º Stockholm 2,53

264º Luxembourg 3,15

Figura 12: Posición de Andalucía respecto a las demás regiones

A primera vista parece ser que Andalucía se podría encontrar más o menos cerca de la

media en cada uno de los 4 Factores. Para su comprobación se muestra una tabla

segmentada en Percentiles, para su mejor visualización:

La tabla de los percentiles ofrece los valores de la mediana para cada factor; esto nos

permite sabes aproximadamente dónde se sitúa Andalucía respecto a las demás regiones

europeas según cada factor económico.

Otra forma de verlo visualmente es a través del gráfico Box whisker:

Figura 12.1: Gráfico Box whisker para el Factor 1 “Educación, trabajo y sector secundario”

Figura 12.2: Gráfico Box whisker para el Factor 2 “Potencial demográfico”

Percentiles

5 10 25 50 75 90 95

Promedio

ponderado

F1 1,820 1,975 2,520 3,215 3,9275 4,5700 5,1550

F2 -1,335 -1,020 -,5275 ,1300 ,7775 1,3300 1,8900

F3 2,5025 2,8950 3,550 4,310 4,9475 5,4300 5,6475

F4 -1,380 -1,140 -,5675 ,1300 ,76750 1,2750 1,6100

Tabla 15

Figura 12.3: Gráfico Box whisker para el Factor 3 “Potencial de construcción”

Figura 12.4: Gráfico Box whisker para el Factor 4 “Crecimiento bruto y disminución paro”

Con éstos últimos gráficos podemos concluir que Andalucía se encuentra dentro de una

normalidad respecto a las demás regiones europeas. En ninguno de los cuatro factores se

considera como una región atípica. Una región que destaca sobre las demás debido a su

anomalía, es el Interior de Londres (Inner London) en el Factor 1 (educación, trabajo, y

sector secundario) y en el Factor 2 (potencial demográfico), (donde en éste último

destacan al igual que el interior de Londres otras regiones como Bruselas o la región de

Parisina). Por otro lado, en el potencial de construcción (Factor 3) se detecta como

outlier la región austriaca de Burgenland. Por último, respecto al crecimiento bruto y

disminución del paro (Factor 4) hay una curiosidad, y es que sobresalen dos regiones de

los límites de la atipicidad, una para el bien de su economía, y el otro para lo contrario,

en este caso Luxemburgo cuenta como la ciudad que mayor crecimiento y menor paro

posee entre todas las regiones europeas, mientras que en la sola se sitúa Severozapaden

(Bulgaria), la cual es una de las regiones europeas mas pobres y con mayor

estancamiento social.

4.7.3. Análisis MDS

El escalamiento multidimensional (MDS) es un conjunto de técnicas que emplean

proximidades/distancias entre objetos para obtener una adecuada representación

espacial entre ellos. La representación espacial consiste en una configuración

geométrica de puntos en un mapa, en donde cada punto corresponde a uno de los

objetos y de forma que cuanto mayor sea la similaridad entre los objetos, más cerca

estarán los correspondientes puntos situados en el mapa.

Por ello la utilización de esta técnica tiene como objetivo visualizar gráficamente las

similaridades entre las regiones españolas en función de nuestros 4 índices económicos.

Figura 13: Gráfico MDS

Observamos en el gráfico de escalamiento multidimensional a las diferentes regiones

españolas divididas en 3 grupos.

Grupo 1: Comunidad de Madrid, País Vasco, Navarra y Cataluña.

Grupo 2: Asturias, Aragón, Cantabria, Castilla y León, Galicia, La Rioja, Castilla la

Mancha y Extremadura.

Grupo 3: Canarias, Andalucía, Murcia, y Baleares.

Existe una región que no queda muy clara en qué grupo meter (Valencia). Para estas

ocasiones en las que no se diferencia con claridad si una observación es de un grupo u

otro puede llevarse a cabo un análisis Clúster para su aclaración.

Lo bueno que tiene este gráfico, es que en ocasiones se puede interpretar según la

dimensión, y se puede exprimir más información observando los ejes.

Figura 14: Gráfico Clúster

El gráfico Clúster aclara que la comunidad Valenciana debería estar metida en el Grupo

2 (Clasificación de grupos realizada en la página anterior).

En la siguiente figura (Figura 14.1) se observan las diferentes regiones ordenadas de

mayor a menor en cada uno de los 4 factores con el objetivo de visualizar de una mejor

forma qué regiones de cada grupo se identifican más con cada factor, o desde otro punto

de vista, qué regiones puntúan más en cada factor. Podemos decir que en general, las

regiones que más educación, trabajo y sector secundario poseen son las del Grupo 1

definido anteriormente (página 41). Las que más Potencial demográfico son tanto

Grupo 3 como Grupo 1, siendo un poco superior las del Grupo 3. Claramente las que se

identifican con el mayor potencial de Construcción son las del Grupo 2, y por último,

las que mayor crecimiento bruto y menor paro poseen son las del grupo 3.

Figura 14.1

Éstos resultados tienen sentido, ya que por ejemplo en el caso del Factor 4 “Crecimiento

bruto y disminución del paro” según los Indicadores Demográficos Básicos publicados

en el INE, dicen que tanto Asturias, como Orense y Castilla y León son las ciudades con

la población más envejecida de España; mientras que por el contrario, Tenerife,

Mallorca, Murcia y Madrid cuenta con la población más joven de España.

Com. de Madrid 5,52 Región de Murcia 1,48 Extremadura 5,56 Illes Balears 0,9600

País Vasco 5,42 Com. de Madrid 1,32 Princip. Asturias 5,52 Canarias (ES) 0,3300

Com.de Navarra 4,80 Illes Balears 0,99 Castilla-la Mancha 5,46 Com. de Madrid 0,1300

Princip. Asturias 4,56 Andalucía 0,80 La Rioja 5,33 Región de Murcia 0,0600

Cantabria 4,40 Cataluña 0,64 Galicia 5,21 Andalucía 0,0200

Cataluña 4,29 Com.de Navarra 0,56 Illes Balears 5,18 Com.de Navarra -0,1400

Aragón 4,19 Canarias (ES) 0,49 Castilla y León 5,04 País Vasco -0,3600

La Rioja 4,04 Com. Valenciana 0,37 Cantabria 5,00 Cataluña -0,5000

Galicia 3,93 Castilla-la Mancha 0,18 Andalucía 4,95 Com. Valenciana -0,6200

Castilla y León 3,83 La Rioja 0,13 Región de Murcia 4,79 Aragón -0,7200

Com. Valenciana 3,65 País Vasco 0,08 Aragón 4,59 La Rioja -0,7900

Región de Murcia 3,31 Extremadura -0,29 Com. Valenciana 4,59 Extremadura -0,8000

Canarias (ES) 3,30 Aragón -0,30 Com.de Navarra 4,32 Cantabria -0,8400

Andalucía 3,24 Cantabria -0,53 Cataluña 4,04 Castilla-la Mancha -0,9500

Illes Balears 3,19 Galicia -1,02 País Vasco 3,91 Galicia -0,9900

Extremadura 3,09 Castilla y León -1,09 Canarias (ES) 3,88 Castilla y León -1,2400

Castilla-la Mancha 3,02 Princip. Asturias -1,68 Com. de Madrid 3,37 Princip. Asturias -1,5200

F4: Crecimiento bruto y

disminución paro

F1: Educación, trabajo y sector

secundarioF2: Potencial demográfico F3: Potencial de Construcción

5. EVALUACIÓN Y COMPARACIÓN DE PROGRAMAS

ESTADÍSTICOS PARA AFC

Se ha realizado una comparación de los principales programas que se utilizan para la

realización de los modelos de Ecuaciones Estructurales. En este caso se ha realizado

para los programas Lisrel, EQS y RStudio (Paquete SEM y LAVAAN) y en concreto

solo se ha llevado a cabo la parte confirmatoria del AFE (el AFC).

5.1 CREACIÓN AFC CON LISREL

La primera limitación que presenta Lisrel es que las variables solo permiten tener 9

letras (o dígitos), hay ocasiones en las que trabajar con muchas variables con nombres

muy parecidos, complica el manejo de los datos. (Limitación de nombre de variables).

Véase en Anexo V algunos pantallazos de interés sobre la interfaz del programa

LISREL.

Figura 15

En la Figura 15 se observa que Lisrel permite llevar a cabo el AFC de diferentes formas,

una de ellas es introduciendo las sintaxis a mano, es decir, programando el modelo a

mano, y otra opción más visual y cómoda es realizando el gráfico de Path Diagram.

La Figura 16 muestra las diferentes opciones de salidas que ofrece Lisrel. Como la

imagen muestra, es sencillo de utilizar y tiene gran variedad de métodos de

estimaciones:

Figura 16: Outputs Lisrel

Una vez introducidas las variables (véase como introducir las variables en Lisrel en

Anexo V) aparece la pantalla inicial con todas las variables y factores introducidos en la

columna de la izquierda. Para dibujar el Path Diagram, tan solo hay que arrastrar y

colocar las flechas en el sentido correcto. Un punto muy a favor es que es muy intuitivo

y muy cómodo de dibujar. Para forzar varianzas o covarianzas, tan solo con dar doble

click en la flecha saldrá un cuadro para introducir el valor. (Véase como quedaría el

Path Diagram dibujado con Lisrel en Anexo V).

Una vez dibujado el gráfico, el programa tiene una opción que nos la generará

automáticamente a partir del gráfico dibujado, una vez creada, sólo habrá que ejecutarla

(Anexo V):

5.2 CREACIÓN AFC CON EQS

EQS al igual que Lisrel es un programa gratuito diseñado para trabajar con AFC. Al igual

que se hizo con el apartado anterior, se adjuntarán algunos pantallazos de interés, en

este caso corresponden en el Anexo VI.

Figura 17

EQS ofrece los diversos métodos con los que llevar a cabo el análisis, publicando una

breve explicación de cada una de las opciones.

La interfaz para introducir las variables es muy similar a la de Lisrel, aunque tiene una

gran ventaja, y es que en EQS te da la opción de construir el modelo desde aquí

directamente, es decir, asignarle a cada factor las variables que lo explican. A diferencia

de Lisrel, que solo te deja introducir las variables, y la cantidad de factores, sin

permitirte asignar a cada factor sus variables.

Figura 18

A diferencia del Lisrel, EQS ya dibuja directamente el Path Diagram (Anexo VI),

quizás este sea un punto a favor respecto al anterior programa, ya que en estudios con

gran cantidad de variables, puede ser muy incómodo de dibujar en Lisrel.

Para forzar varianzas o covarianzas, se lleva a cabo igual que en Lisrel, clickeando

sobre la que queramos modificar, y escribiendo el valor que queremos que tome.

Las opciones que ofrece EQS son prácticamente las mismas que ofrece LISREL, quizás

en contra tenga que presenta menos variedad para elegir el método de estimación. Pero

por otro lado da una amplia gama de otras opciones que para análisis más exigentes

quizás éste programa sea más adecuado.

Figura 19

5.3 CREACIÓN AFC CON PAQUETE “SEM” DE R-STUDIO

R-Studio es un programa muy diferente a los mencionados anteriormente. Actualmente

es una de los programas estadísticos más potentes que existen, además de que es

gratuito. Su mecanismo de funcionamiento es cargando paquetes, y ejecutando

funciones de los mismos, para ello hay que tener un mínimo de conocimientos de

programación en el programa.

Debido a la complejidad de los datos de este ejemplo y teniendo en cuenta el objetivo de

este apartado de comparación de programas, se ha decidido tomar otros datos, más

sencillos de utilizar (con menos variables), con el fin de tener una más fácil

visualización y comprensión. Por otro lado, se ha considerado un ejemplo muy

interesante con variables tanto endógenas como exógenas, algo que no se había hecho

hasta ahora en este trabajo. La información de las salidas se adjuntará en el Anexo VII.

Como se ha indicado al comienzo de este punto, R-Studio necesita instalar paquetes

para la realización del análisis factorial confirmatorio, en este caso el paquete “SEM”.

Una vez cargado el paquete con el que trabajaremos el AFC, El siguiente paso será

llevar a cabo la especificación del modelo; R-Studio nos permite llevarla a cabo a

través de 3 formas:

1.- Metiendo la Matriz de correlaciones a mano con la función “readMoments”:

Mcorrelaciones <- readMoments(diag=FALSE, names=c("ROccAsp", "REdAsp",

"FOccAsp","FEdAsp","RParAsp","RIQ", "RSES", "FSES", "FIQ", "FParAsp"),

text="

.3269 .3669

.4216 .3275 .6404

.2137 .2742 .1124 .0839

.4105 .4043 .2903 .2598 .1839

.3240 .4047 .3054 .2786 .0489 .2220

.2930 .2407 .4105 .3607 .0186 .1861 .2707

.2995 .2863 .5191 .5007 .0782 .3355 .2302 .2950

.0760 .0702 .2784 .1988 .1147 .1021 .0931 -.0438 .2087

2.- Con la función “speficyModel”, introduciendo el modelo a mano:

Modelo <- specifyModel()

F1Asp -> F2Asp, beta12, NA

F2Asp -> F1Asp, beta21, NA

RParAsp -> F2Asp, gam11, NA

RIQ -> F2Asp, gam12, NA

RSES -> F2Asp, gam13, NA

FSES -> F2Asp, gam14, NA

RSES -> F1Asp, gam23, NA

FSES -> F1Asp, gam24, NA

FIQ -> F1Asp, gam25, NA

FParAsp -> F1Asp, gam26, NA

F2Asp -> ROccAsp, NA, 1

F2Asp -> REdAsp, lam21, NA

F1Asp -> FOccAsp, NA, 1

F1Asp -> FEdAsp, lam42, NA

F2Asp <-> F2Asp, ps11, NA

ROccAsp <-> ROccAsp, theta1, NA

REdAsp <-> REdAsp, theta2, NA

FOccAsp <-> FOccAsp, theta3, NA

FEdAsp <-> FEdAsp, theta4, NA

3.- Con la función “specifyEquations”

Modelo <- specifyEquations(covs="F2Asp, F1Asp", text="

F2Asp = gam11*RParAsp + gam12*RIQ + gam13*RSES +

gam14*FSES + beta12*F1Asp

F1Asp = gam23*RSES + gam24*FSES + gam25*FIQ +

gam26*FParAsp + beta21*F2Asp

ROccAsp = 1*F2Asp

REdAsp = lam21(1)*F2Asp

FOccAsp = 1*F1Asp

FEdAsp = lam42(1)*F1Asp

Una vez que tenemos el modelo definido, se ejecuta de la siguiente forma:

DemostracionSem <- sem(Modelo, S= Mcorrelaciones, N=329,

fixed.x=c("RIQ", "RSES", "FSES", "FIQ"))

summary(DemostracionSem)

El inconveniente de R es que si es un modelo complejo, con la matriz de correlaciones

no se podría realizar, y llevaría mucho tiempo la especificación del modelo.

Para llevar a cabo el PathDiagram hay que instalar el paquete “Pathdiagram”,

“Diagrammer” y “Scales”, éstos dos últimos no siempre son necesarios.

La sintaxis que dibuja el gráfico de AFC es la siguiente:

pathDiagram(DemostracionSem, min.rank="RIQ, RSES, RParAsp, FParAsp,

FSES, FIQ",

max.rank="ROccAsp, REdAsp, FEdAsp, FOccAsp",

same.rank="RGenAsp, FGenAsp",

edge.labels="values")

Un inconveniente que presenta el paquete SEM de R es que directamente no genera los

índices en los que realmente confiamos a la hora de realizar la validación del AFC , por

tanto hay que calcularlos a parte con las siguientes funciones:

etc <- file.path(path.package(package="sem")[1], "etc") #Ruta a datos y archivos de modelo

opt <- options(fit.indices = c("GFI", "AGFI", "RMSEA", "NFI", "NNFI", "CFI", "RNI", "IFI", "SRMR", "AIC",

"AICc", "BIC", "CAIC"))

R.DHP <- readMoments(file=file.path(etc, "R-DHP.txt"),

diag=FALSE, names=c("ROccAsp", "REdAsp", "FOccAsp",

"FEdAsp", "RParAsp", "RIQ", "RSES", "FSES", "FIQ", "FParAsp"))

model.dhp <- specifyModel(file=file.path(etc, "model-DHP.txt"))

sem.dhp.1 <- sem(model.dhp, R.DHP, 329,

fixed.x=c('RParAsp', 'RIQ', 'RSES', 'FSES', 'FIQ', 'FParAsp'))

summary(sem.dhp.1)

5.4 CREACIÓN AFC CON PAQUETE “LAVAAN” DE R-STUDIO

El paquete Lavaan de R es otra alternativa que ofrece este programa para la realización

del análisis factorial confirmatorio. La metodología es muy similar a la del paquete

Sem, lo que cambia es la forma de meter las sintaxis.

En este caso se ha considerado un ejemplo muy interesante de un análisis factorial

confirmatorio de segundo nivel, todas las salidas se adjuntarán en el Anexo VIII.

En primer lugar, se tiene que realizar la instalación de paquetes, en este caso el único

paquete necesario será el “Lavaan”.

Para especificar el modelo en este caso se realiza de la siguiente forma:

Modelo.poblacion <- ' f1 =~ x1 + 0.8*x2 + 1.2*x3

f2 =~ x4 + 0.5*x5 + 1.5*x6

f3 =~ x7 + 0.1*x8 + 0.9*x9

f3 ~ 0.5*f1 + 0.6*f2

Aquí se fijarán las variables

endógenas, si no hay variables

endógenas no se pone nada.

A diferencia del paquete Sem, el paquete Lavaan sólo da esta opción para la

especificación del modelo.

Para generar los datos se hace de la siguiente forma:

set.seed(1234)

Datos.lavaan <- simulateData(Modelo.poblacion, sample.nobs=100L)

Para correr el modelo utiliza una función muy similar a la de Sem:

fit <- sem(Modelo.poblacion, data=Datos.lavaan)

summary(fit)

Para dibujar el gráfico al igual que en Sem, habrá que instalar un paquete, en este caso

el paquete “semPlot”. La función es la siguiente:

semPaths(fit, intercepts = FALSE)

Por último, al igual que en el paquete Sem, en Lavaan tampoco nos ofrece con estas

sintaxis anteriores los índices de bondad de ajuste que nos interesan, por ello habrá que

escribir la siguiente función en este caso, que como punto a favor, es un poco más

simple que la del paquete Sem.

etc <- file.path(path.package(package="lavaan")[1], "etc")

opt <- options(fit.indices = c("GFI", "AGFI", "RMSEA", "NFI", "NNFI", "CFI", "RNI", "IFI", "SRMR", "AIC",

"AICc", "BIC", "CAIC"))

fit = sem(Modelo.poblacion, data = Datos.lavaan, estimator = "ML")

summary(fit,fit.measures=TRUE)

5.5 SALIDAS DE LOS PROGRAMAS

A continuación se van a presentar las salidas más relevantes de los programas,

realizando en el siguiente punto una comparación entre las ventajas y desventajas de los

mismos:

5.5.1 SALIDAS LISREL

En la Figura 22 se presenta el gráfico Path Diagram de Lisrel, con todas las varianzas y

covarianzas. No es un gráfico muy vistoso para una presentación.

Figura 22: Gráfico Path Diagram de Lisrel

A continuación se muestran los índices de mayor interés:

A parte de estos, Lisrel da una amplia gama de salidas que pueden ser leídas en el Anexo V

(6.5.1 SALIDAS LISREL).

5.5.2 SALIDAS EQS

En la Figura 23 se presenta el gráfico Path Diagram de EQS, a diferencia de Lisrel, en

EQS no acompañan al gráfico las varianzas y covarianzas. Es un gráfico un poco más

vistoso que el de Lisrel, aunque no hay mucha diferencia.

Figura 23: Gráfico de Path Diagram de EQS

Y así presenta las salidas EQS:

Prácticamente muy similar a la de Lisrel, aunque éste anterior tiene algunos índices que

otros de más.

A consideración personal, el programa EQS presenta las salidas más completas para un

adecuado análisis factorial confirmatorio. Éstas salidas de EQS se adjuntan en el Anexo

VI (6.6.1 SALIDAS EQS).

5.5.3 SALIDAS R-Studio (Paquete SEM)

En la Figura 24 se presenta el gráfico Path Diagram del paquete Sem de R-Studio. El

gráfico es muy ilustrativo, y va acompañado al igual que el de Lisrel, de todas sus

covarianzas y varianzas. Algo que llama la atención que no aparece en este gráfico son

los errores.

Figura 24: Gráfico de Path Diagram de R-Studio con paquete SEM

Todas las salidas del paquete SEM serán adjuntadas en el Anexo VII (6.7.1). La

visualización de los índices con el paquete Sem es muy similar a las anteriores vistas:

5.5.4 SALIDAS R-Studio (Paquete LAVAAN)

En la Figura 25 se presenta el gráfico Path Diagram del paquete LAVAAN. El gráfico

es más moderno que los vistos anteriormente pero tiene un punto muy en contra al igual

que tiene el visto en EQS; no aparecen varianzas ni covarianzas asociadas.

Figura 25: Gráfico de Path Diagram de R-Studio con paquete LAVAAN

Respecto a las salidas de los índices de Lavaan, es la que menos índices presenta, se encuentra

muy escaso en comparación con los otros programas, no aparecen algunos índices de bondad

de ajuste como el GFI o el NFI.

Otras salidas complementarias se encuentran adjuntas en Anexo VIII.

5.6 COMPARACIÓN DE PROGRAMAS

A continuación, se va a llevar a cabo una comparación entre los programas mencionados

anteriormente, destacando ventajas, e inconvenientes.

6 No se han podido encontrar todo los métodos de estimación para R-Studio debido a su enorme

extensión; por ello se mencionan aquellos que se conocen con total certeza.

LISREL EQS R-Studio

R-Studio

LAVAAN SPSS AMOS

Gratuito Gratuito Gratuito Gratuito De Pago

Interfaz muy

intuitiva.

Interfaz muy

intuitiva. Poco intuitivo. Poco intuitivo.

Bastante

intuitivo

No necesario

conocimiento de

programación.

No necesario

conocimiento de

programación.

Necesario

conocimientos

básicos de

programación.

Necesario

conocimientos

básicos de

programación.

No necesario

conocimiento de

programación.

Sin posibilidad de

mejorar la

visualización del

gráfico.

Sin posibilidad de

mejorar la

visualización del

gráfico.

Con posibilidad de

modificaciones en

el PathDiagram.

Con posibilidad

de hacer

modificaciones

PathDiagram.

Sin posibilidad

de mejorar la

visualización del

gráfico.

No necesidad de

instalar

complementos.

No necesidad de

instalar

complementos.

Necesidad de

instalar paquetes

(“Sem” y

“ Pathdiagram”).

Necesidad de

instalar paquetes

(“Lavaan” y

“semPlot”)

Necesidad de

tener instalado

SPSS 22, y

AmosGraphics

Métodos de

estimación: ULS, GLS,

ML, ML Robust, WLS,

Métodos de

estimación: ULS, GLS,

ML, ML Robust, ADF

6Métodos de

estimación: ML, ML

Robust

5Métodos de

estimación: ML, ML

Robust

Métodos de

estimación: ML, ML

robust GLS, ADF, ULS

Robustez Máxima

Verosimilitud

Robustez Máxima

Verosimilitud

Robustez Máxima

Verosimilitud

Robustez Máxima

Verosimilitud

Robustez

Máxima

Verosimilitud

Tabla 16: Comparación de programas

6. ANEXOS

6.1 ANEXO I

Figura 1: Clasificación de las regiones europeas establecida por Eurostat en el nivel NUTS-2

Tabla 1: Clasificación de Eurostat en las 3 NUTS

6.2 ANEXO II

HRST_Educ

_sobrepob_

HRST_Educ

_sobrepob_t

De_n_tbDe_pob_65o

m_TasaDe_tas_inc

De_tas_inc

EC_prop_GF

CF_construc

EC_prop_GF

CF_industry_

EC_rem_con

strucción

MT_Paro_LD

_Share

MT_Ts_25_6

4_PA_5_6_T

N Estadístico 264 264 264 264 264 264 264 264 264 264 264

Rango Estadístico 49,1000 42,7000 9,3000 18,8748 40,4000 21,5000 8,2514 53,8969 8,0242 62,5000 51,6215

Mínimo Estadístico 12,3000 9,5000 6,3000 8,8394 -16,5000 -11,5000 2,3509 3,0253 2,1613 14,8000 13,7926

Máximo Estadístico 61,4000 52,2000 15,6000 27,7142 23,9000 10,0000 10,6024 56,9222 10,1855 77,3000 65,4141

Estadístico 30,00379 23,98371 9,82424 18,96884 2,12652 -0,23674 5,86378 21,37922 6,09861 43,80379 32,06077

estándar,5376353 ,4602318 ,1003181 ,1829133 ,3644222 ,1904557 ,0959828 ,5339460 ,0880539 ,8161657 ,5810232

Desviación

estándar

Estadístico8,73554 7,47788 1,62998 2,97199 5,92116 3,09454 1,55954 8,67560 1,43071 13,26112 9,44051

Varianza Estadístico 76,310 55,919 2,657 8,833 35,060 9,576 2,432 75,266 2,047 175,857 89,123

Estadístico ,451 ,449 ,664 -,141 ,009 ,241 ,155 ,549 -,278 ,210 ,411

estándar,150 ,150 ,150 ,150 ,150 ,150 ,150 ,150 ,150 ,150 ,150

Estadístico -,035 ,120 ,746 ,034 ,377 ,966 ,206 ,578 -,134 -,161 -,154

estándar,299 ,299 ,299 ,299 ,299 ,299 ,299 ,299 ,299 ,299 ,299

Asimetría

Curtosis

Estadísticos Descriptivos

6.3 ANEXO III: Modelos AFC

6.4 ANEXO IV

Suma de

cuadrados gl

cuadrática F Sig.

F1 Entre grupos 46,274 2 23,137 28,462 ,000

Dentro de grupos 212,170 261 ,813

Total 258,444 263

F2 Entre grupos 21,689 2 10,845 11,950 ,000

Total 258,546 263

F3 Entre grupos 1,173 2 ,586 ,600 ,550

Total 256,373 263

F4 Entre grupos 90,214 2 45,107 84,286 ,000

Total 229,892 263

Comparaciones múltiples

HSD Tukey

dependie

nte (I) LOCALIZACION

LOCALIZACION

Diferencia de

medias (I-J)

estándar Sig.

95% I.C.

L. inferior L. superior

F1 NORTE SUR ,67682* ,12641 ,000 ,3789 ,9748

ESTE 1,01406* ,14913 ,000 ,6625 1,3656

SUR NORTE -,67682* ,12641 ,000 -,9748 -,3789

ESTE ,33723 ,16005 ,090 -,0400 ,7145

ESTE NORTE -1,01406* ,14913 ,000 -1,3656 -,6625

SUR -,33723 ,16005 ,090 -,7145 ,0400

F2 NORTE SUR ,38818* ,13356 ,011 ,0734 ,7030

ESTE ,73687* ,15757 ,000 ,3654 1,1083

SUR NORTE -,38818* ,13356 ,011 -,7030 -,0734

ESTE ,34868 ,16911 ,100 -,0499 ,7473

ESTE NORTE -,73687* ,15757 ,000 -1,1083 -,3654

SUR -,34868 ,16911 ,100 -,7473 ,0499

F3 NORTE SUR ,07570 ,13864 ,849 -,2511 ,4025

ESTE ,17619 ,16356 ,529 -,2093 ,5617

SUR NORTE -,07570 ,13864 ,849 -,4025 ,2511

ESTE ,10049 ,17553 ,835 -,3133 ,5143

ESTE NORTE -,17619 ,16356 ,529 -,5617 ,2093

SUR -,10049 ,17553 ,835 -,5143 ,3133

F4 NORTE SUR 1,1060410* ,1025649 ,000 ,864279 1,347803

ESTE 1,2607889* ,1210040 ,000 ,975563 1,546015

SUR NORTE -1,1060410* ,1025649 ,000 -1,347803 -,864279

ESTE ,1547479 ,1298630 ,459 -,151360 ,460856

ESTE NORTE -1,2607889* ,1210040 ,000 -1,546015 -,975563

SUR -,1547479 ,1298630 ,459 -,460856 ,151360

*. La diferencia de medias es significativa en el nivel 0.05.

6.5 ANEXO V: LISREL

Ésta es la primera pantalla que nos encontramos; en la barra de arriba ofrece las diversas

opciones para realizar el AFC (meter variables, optciones, salidas, etc…)

Para introducir las variables es tan sencillo como:

Así quedaría dibujado el Path Diagram con Lisrel:

Para generar la sintaxis del gráfico creado habrá que irse a la siguiente pestaña:

6.5.1 ANEXO V: SALIDAS LISREL

6.6 ANEXO VI: EQS

La primera pantalla que nos encontramos al iniciarlo informa sobre diferentes métodos

para llevar a cabo el análisis:

Una vez cargado los datos en el programa, se creará el modelo al igual que se hizo en

Lisrel. El mecanismo es muy parecido a la del anterior programa, siendo muy intuitivo

y cómodo de utilizar:

Path Diagram dibujado por EQS:

Para construir la sintaxis del modelo tan solo habrá que irse a la barra de las pestañas, y

pedirle al programa que la cree:

6.6.1 ANEXO VI: SALIDAS EQS

Bajo el apartado de /SPECIFICATIONS se refleja la siguiente información: el número

de casos, (CASES=264; numero de variables observadas (VARIABLES=11); la

selección de máxima verosimilitud como método de estimación3

(ME THOD=ML);

indicación de que la matriz de datos suministrada es una matriz sacada de los datos

originales (MATRIX=RAW); e indicación de que el análisis se efectúe sobre la matriz

de varianzas covarianzas (ANALYSIS=COVARIANCE).

El planteamiento de las ecuaciones se hace en el apartado /EQUATIONS. Puede

comprobarse que las variables observadas son dependientes siendo explicadas por los

factores comunes (Fi) y por los específicos (Ei). Así, la primera ecuación:

V1 = *F1 + *F4 + E1

La anterior ecuación recoge la particularidad de que el coeficiente del término de error

esta fijado a 1, pero es necesario estimar el parámetro de F1 y F4

Las varianzas de los Factores no necesitan estimarse ya que están fijadas, sin embargo

la de los errores si lo necesitarán, tal como indica la instrucción /VARIANCES, y lo

mismo ocurre con las covarianzas ente los factores comunes F1 y F2 (así lo indica la

instrucción / COVARIANCES), que también necesitarán estimarse (*). Así pues,

queda comprobada la sencillez de la sintaxis del programa cuando seguimos la

notación de Bentler y Weeks (1980), dado que todo se reduce a distinguir entre

variables dependientes e independientes, lo que permite deducir de manera natural las

ecuaciones.

###Vamos a añadir 2 Test interesantes más (/LMTEST y /WTEST) que nos

proporcionarán los contrastes univariante y multivariante de Lagrange, y el contraste de

Wald respectivamente.

La diferencia entre la matriz de covarianzas muestral y la matriz de covarianzas

poblacional estimada es la denominada matriz residual de covarianzas. Esta matriz nos

indica en qué medida el modelo ha sido capaz de ajustarse a los datos. Para que el

ajuste sea bueno, los valores de cada uno de sus elementos deben ser pequeños. El

EQS ofrece esta matriz tal y como la recogemos en la siguiente Figura.

Matriz de Covarianzas

Matriz residual de Covarianzas

Asimismo, el programa ordena de mayor a menor los 20 residuos estandarizados más

grandes en valor absoluto, de tal manera que puedan identificarse las variables con

mayores errores. Finalmente, muestra un gráfico con la distribución de estos residuos,

distribución que debería ser simétrica y centrada en cero.

Finalmente se comprueba que el 97% de los residuos cae dentro del intervalo [–0.1;

0.1] de forma medianamente simétrica y, como se ha señalado, centrada en cero. En

síntesis, el ajuste del modelo, a partir del análisis de los residuos es bueno, aunque

puede existir un problema debido a la interrelación entre las variables V9 y V10.

El EQS ofrece, además, un segundo estadístico denominado independence model chi-

square. Este estadístico se distribuye también como una 2 bajo la hipótesis nula de

que existe una completa independencia entre las variables (matriz de correlaciones

identidad). En este caso, si el modelo es el apropiado, cabe esperar que el estadístico

tome valores elevados. Por el contrario, si todas las variables observadas fueran

independientes entre sí el modelo de AFC propuesto no tendría sentido y,

consecuentemente, este estadístico tomaría valores bajos.

Debido a la baja fiabilidad del estadístico 2 , tomarán mayor importancia los otros

estadísticos que aparecen en el cuadro.

Respecto a la Convergencia en el proceso de estimación, (Byrne, 1994) plantea que

debido a que la estimación del modelo es un proceso iterativo, el hecho de que el

algoritmo converja de una manera rápida, es indicador de un buen ajuste del modelo. La

autora considera que, si después de dos o tres iteraciones, el cambio medio en las

estimaciones de los parámetros se estabiliza en valores muy bajos, estaremos

probablemente ante un ajuste adecuado.

El EQS ofrece la información del número de iteraciones que han sido necesarias para

la convergencia y el cambio medio en los parámetros en cada una de ellas (parameter

abs change). Puede comprobarse como, efectivamente, esta convergencia se ha

producido en apenas 17 iteraciones y cómo, a partir de la sexta, los cambios han sido

mínimos.

En las salidas de EQS también aparece la solución estandarizada del AFC, esto es,

aquella en que se recalculan los estimadores para asegurar que las varianzas de los

factores comunes y de las variables observadas son igual a la unidad. Esto se hace,

básicamente, para facilitar la comparación de los resultados con trabajos precedentes.

Esta información, tal como la proporciona el EQS, se recoge en el cuadro anterior para

las ecuaciones fundamentales (estimación de las coeficientes de regresión de los

factores comunes y de los factores específicos), y las correlaciones entre los factores

comunes.

El contraste de Wald se aplica para cuestionarse si deberían suprimirse algunos de los

parámetros existentes (Aquellos que sean significativos).

6.7 ANEXO VII: R-STUDIO PAQUETE SEM

6.7.1 ANEXO VII: SALIDAS R-STUDIO PAQUETE SEM

FACTORES

Variables

endógenas

Variables exógenas (con

cada factor fijando en 1 la

varianza en una variable)

Varianza

Covarianza

6.8 ANEXO VIII: R-STUDIO PAQUETE LAVAAN

7. BIBLIOGRAFÍA

Álvaro Coutiño G. (2014). ANÁLISIS FACTORIAL SPSS. Universidad de Galileo.

An Easy Guide to Factor Analysis. (1994).

Antonio P., Emilio D.L., Juan M.M., Luis P., José R., Mª Teresa G. (2013). Impacto de la política

de cohesión en Andalucía.

Atkinson, Anthony, Cantillon, B., Marlier, E., & Nolan, B. (2005). Social Indicators, The EU and

Social Inclusion, New York: Oxford University Press (2ª impresión).

Bearden, W., & Sharma, S. y. (1982). "Sample sizes effects on chi square and other statistics

used in evaluating causal models" Journal of Marketing Research.

Bentler, P., & Bonett, D. (1980). Significant tests and goodness of fit in the analysis of

covariance structures. Psychological Bulletin.

Burnham, K., & Anderson, D. (1998). Model selection and inference: A practical information-

theoretic approach.

Byrne, B. (1994). Structural Equation Modeling with EQS and EQS/Windows.

Cambridge. (s.f.). https://www.cambridge.org/core/services/aop-cambridge-

core/content/view/F20A6E4D94CF7702296CF5A4AD673933/S1368980016000999a.pd

f/positive_influences_of_home_food_environment_on_primaryschool_childrens_diet_

and_weight_status_a_structural_e.

Eurostat. (s.f.). http://ec.europa.eu/eurostat/web/nuts/overview.

Fan, X., Thompson, B., & Wang, L. (1999). Structural Equation Modeling: A Multidisciplinary

Journal.

Gorsuch, R. (1986b). Exploratory Factor Analysis.

Hair, J. (1999). Análisis Multivariante.

Hattie, J. (1985). Methodology Review: Assessing Unidimensionality of Tests and Ítems. (Vol. 9).

University of New England, Australia.

Hocevar, D., Zimmer, B., & Strom, B. (1984). The Confirmatory Factor Analytic Approach to

Scale Development and Evaluation.

Jöreskog K. G. y Sörbom, D. (1996). Advances in Factor Analysis and Structural Equation

Models.

Jöreskog, K. (1967, 1968). "Psychometrika". Some contributions to máximum likelihood factor

analysis. .

Kline, P. (1994). An Easy Guide to Factor Analysis. Routledge.

Lawley. (1969). "Psychometrika". A general approach to confirmatory factor analysis.

Leamer, E. (1978). Specification searches: Ad hoc inference with nonexperimental data, 53.

John Wiley & Sons Incorporated.

Long, J. S. (1987). Confirmatory factor analysis: a preface to Lisrel.

McCallum, R. (1986). Specificaion searches in covariance structure modelling.

Oliver, A., & Tomás, J. M. (1995). Índices de ajuste absolutos e incrementales: comportamiento

del Análisis Factorial Confirmatorio con muestras pequeñas.

Scielo. (s.f.). http://www.scielo.cl/scielo.php?script=sci_arttext&pid=S0718-

24492016000100004.

Spearman, C. (1927). The Abilities of Man.

Stapleton., C. (1997b). Basic Concepts and Procedures of Confirmatory FactorAnalysis.

Steiger, J. (1990). Multivariate Behavioral Research.

Ullman, J. (1996). Structural Equation Modelling.

grado en estadística y empresatauja.ujaen.es/bitstream/10953.1/6782/1/tfg_ngel_luis...3 para llevar...

Documents

prevención de úlceras por presión en pacientes adultos...

universidad del azuay -...

el lugar de culto en el suelo de...

trastornos que suelen diagnosticarse en la etapa adulta

informe diario año xxxii nro: 6782 · nro: 6782 rueda del...

con frecuencia estos conocimientos suelen formularse ...

enfermedad del ojo azul -...

universidad nacional autónoma de nicaragua facultad...

Índice...carreras se suelen agrupar por rubros. es decir,...

“no lo suelen llamar arte, pero lo es”. estrategias y

michael handelsman: crítico desde y hacia la mitad del...

facultad de ciencias de la comunicaciÓn y artes...

issn: 2357-6782 / no.1 / enero – diciembre / aÑo … ·...

guía para la gestión del combustible en las flotas de...

facultad regionalmultidiciplinaria matagalpa...

reconocimiento y memoria en el aula,...

bioquímica general: fundamentos y análisis de...

larisssa e suelen

megalitos, espacio, pensamiento - digital.csic:...

pdf - suelen barboza da...