analisis multivariante en la investigacion comercial

Análisis Multivariante en la Investigación Comercial

Asignatura: Investigación de Mercados IICentro: Universidad Autónoma de Madrid

............................................................................................... 1

TEMA 1: EL ANALISIS MULTIVARIANTE EN INVESTIGACION COMERCIAL ............................................................................... 4

Introducción. ............................................................................................. 4 Definición del AM. ..................................................................................... 4 Diseños y conceptos básicos del AM. ....................................................... 5 Tratamientos previos de los datos. .......................................................... 9 Supuestos del AM. .................................................................................. 11 Clasificación de los métodos del AM. ...................................................... 13 Programas Informáticos. ......................................................................... 14 Ejercicio 1 ............................................................................................... 14

TEMA 2: EL ANALISIS FACTORIAL .............................................. 16 Definición y objetivo del AF. .................................................................. 16 Conceptos básicos. ................................................................................. 17 Distinción entre AF y ACP. ...................................................................... 18 Supuestos del ACP. (Son específicos del ACP) ........................................ 19 Diseño del ACP. (Procedimientos) ........................................................... 20 Caso practico. ......................................................................................... 25 Tratamiento de los datos con DYANE y SPSS. ........................................ 38 Ejercicio 2 ............................................................................................... 45

TEMA 3: EL ANALISIS FACTORIAL DE CORRESPONDENCIAS ........ 50 Introducción. ........................................................................................... 50 Definición y objetivo del AFC. ................................................................ 51 Conceptos básicos del AFC. .................................................................... 52 Supuestos del AFC. ................................................................................ 53 Diseño del AFC. ....................................................................................... 53 Casos prácticos con DYANE. ................................................................... 54 Ejercicio 3 ............................................................................................... 65

TEMA 4: EL ANALISIS CLUSTER ................................................. 69 Introducción. ........................................................................................... 69 Definición y objetivo del AC. ................................................................... 70 Conceptos básicos del AC. ...................................................................... 70 Supuestos del AC. .................................................................................. 70 Diseños del AC. ....................................................................................... 72 Casos prácticos con DYANE. ................................................................... 76 Ejercicio 4 ............................................................................................... 77

TEMA 5: LA REGRESIÓN MULTIPLE ............................................ 82 Introducción. ........................................................................................... 82 Definición y objetivo de la RM. ............................................................... 84 Términos y conceptos básicos de la RM. ................................................ 85 Supuestos de la RM. .............................................................................. 88 Tamaño muestral. ................................................................................... 89 Diseño de la RM. ..................................................................................... 89

Casos prácticos con DYANE y SPSS. ....................................................... 90 Análisis de Supuestos de la RM. ........................................................... 104 Ejercicio 5 ............................................................................................. 116

TEMA 6: EL ANÁLSIS DISCRIMINANTE ...................................... 119 Introducción. ......................................................................................... 119 Definición y objetivo. ............................................................................ 120 Conceptos y términos básicos del AD. .................................................. 120 Supuestos del AD. ................................................................................. 123 Diseño del AD. ...................................................................................... 123 Casos prácticos ..................................................................................... 124 Ejercicio 6 ............................................................................................. 155

TEMA 7: EL ANÁLSIS multivariante de la varianza (MANOVA) .... 160 Introducción. ......................................................................................... 160 Definición y objetivo. ............................................................................ 162 Términos y conceptos básicos del MANOVA. ........................................ 164 Supuestos básicos del MANOVA. ......................................................... 169 Diseño del estudio con el MANOVA. ..................................................... 170 Casos prácticos con SPSS. .................................................................... 171 Ejercicio 7 ............................................................................................. 182

TEMA 9: LA REGRESIÓN LOGÍSTICA (MODELO LOGIT) ................ 187 Introducción. ......................................................................................... 187 Objetivo de la RL. ................................................................................. 187 Modelo de la RL. ................................................................................... 187 Diseño del estudio con la RL. ............................................................... 188 Medición de la variable dependiente. ................................................... 188 Estimación del modelo. ........................................................................ 188 Supuestos básicos de la RL. ................................................................ 188 Bondad de ajuste. ................................................................................. 189 Interpretación de los resultados. .......................................................... 190 Comparación de los modelos: regresión, discriminante y logit. ........... 192 Casos prácticos con SPSS. .................................................................... 193 Ejercicio 9 ............................................................................................. 199

TEMA 1: EL ANALISIS MULTIVARIANTE EN INVESTIGACION COMERCIAL

Estructura de la clase:1. Introducción.2. Definición del AM.3. Diseños y conceptos básicos del AM.4. Tratamientos previos de los datos. 5. Supuestos del AM.6. Clasificación de los métodos del AM.7. Programas informáticos.

Introducción.

En primer lugar, cuando queremos examinar un sistema complejo de actividades comerciales, muchas veces no es suficiente utilizar técnicas univariantes y hay que ir al empleo del AM. Cuando el número de variables que influyen simultáneamente y de forma importante en el problema que queremos tratar es elevado (no solamente una o dos, sino un número elevado de variables), entonces tenemos que utilizar el AM.

Debemos reflexionar que sería mejor emplear: análisis univariante, análisis bivariante o análisis multivariante. Si queremos analizar por separado variables utilizaremos el anáilisis univariante y bivariante. En el caso de necesitar un análisis en conjunto, emplearemos técnicas multivariantes. Con esta técnica determinaremos si las variables están influyendo en los grupos que estudiamos y por lo tanto nos sirve para analizar las relaciones múltiples. Si queremos utilizar /analizar múltiples variables simultáneamente, tenemos que utilizar técnicas multivariantes.

Definición del AM.

El AM se puede definir como: Las técnicas estadísticas utilizadas para tratar múltiples variables que se deben analizar simultáneamente, y cuyos efectos no tienen sentido si se interpretan por separado.

Son las técnicas estadísticas que miden, explican y predicen relaciones entre más de dos variables cuando sus efectos no tienen sentido si se interpretan por separado.

Valor teórico: “Es el elemento esencial del AM”. Combinación de todas las variables. Debemos sintetizar todas las variables en un solo valor teórico. (Muchas veces hay que ponderar múltiples variables de modo empírico).

Diseños y conceptos básicos del AM.

(Diseño de una investigación de mercados---flujo del AM ) Los pasos a seguir al realizar una investigación se pueden resumir como sigue:

Definir el objetivo a través de un estudio previo. Establecer las hipótesis. Seleccionar variables y escalas. Establecer la metodología (instrumentos, muestreo, etc.) Seleccionar la técnica multivariante más apropiada. Determinar el nivel de significación (alpha). Coleccionar datos. Evaluar los supuestos básicos de la técnica multivariante. Estimación del modelo multivariante y valoración del ajuste

del modelo. Interpretar el valor teórico (rechazar o no las hipótesis). Validación e interpretación de los resultados.

1) Definir el objetivo a través de un estudio previoPrimeramente, tenemos que determinar el objetivo del estudio. A continuación, investigaremos la literatura existente para establecer el estado del arte. Definir para qué queremos realizar el trabajo: objetivos. Para ello analizamos los estudios realizados anteriormente sobre el tema. Determinamos así qué queremos realizar en el trabajo, es decir, justificar la pretensión del trabajo.“Hay dos cosas importantes Conocimiento y creatividad”. Hay que establecer un objetivo pero justificarlo a través de la revisión bibliográfica.

2) Establecer las hipótesisEstablecemos las hipótesis que queremos validar o rechazar mediante el estudio.

3) Seleccionar variables y escalas Después, tenemos que determinar el tipo de variables y escalas a emplear. La palabra “variable” se refiere a una magnitud cuyos valores son objeto de estudio. Estos valores pueden tomar dos tipos básicos de datos, no métricos (cualitativos) o métricos (cuantitativos). Según el tipo de datos, tendremos que determinar el tipo de escalas que queremos utilizar para el estudio. Hay cuatro tipos de escalas.

Escalas CaracterísticasNominal Identifica por categorías mutuamente

excluyentes Los números no tienen valor matemático

Ordinal Ordenación de las categorías. Los números no dan información de la distancia

entre categorías.Intervalo Identifica una distancia constante entre

categorías. Tiene un origen arbitrario.

Razón Se puede realizar comparación proporcional entre categorías. Tiene un origen absoluto.

A la hora de determinar las preguntas del cuestionario, tener en cuenta los cuatro tipos de escalas porque cada técnica multivariante requiere un determinado tipo de variables (métricas y no métricas). Respecto al primer trabajo, es aconsejable incluir entre 15-20 "atributos" que se puedan medir en una escala de intervalo que tenga 5 o 7 grados, para de esta manera poder utilizar el ACP o el AC. También, os conviene incluir variables que se puedan medir en una escala nominal para poder utilizar el AFC. Finalmente, si incluimos variables métricas con una escala de razón, tales como gastos mensuales (de una determinada marca, etc.), ingresos, tiempo, etc., podremos utilizar algunas técnicas de dependencia, por ejemplo, regresión múltiple y análisis discriminante, para el segundo trabajo.

Para convertir valores no métricos en métricos:

Desacuerdo 1 2 3 4 Acuerdo Ordenamos las opiniones

Escala de Likert: Con 5 grados, también lo hay con 7 grados. Siempre es mejor tener más grados.

Completamente en desacuerdo -2

Más o menos en desacuerdo -1

No sabe, no contesta 0

Más o menos de acuerdo + 1

Completamente de acuerdo +2

4) Establecer la metodología (instrumentos, muestreo, etc.)Tras seleccionar variables y escalas, ahora tendremos que establecer la metodología.

5) Seleccionar la técnica multivariante más apropiada.Después, seleccionaremos la técnica multivariante más adecuada, y a continuación, determinaremos el nivel de significación.

6) Determinar el nivel de significación (alpha).El nivel de significación está fuertemente relacionado con el llamado “error de medida”. Debemos aumentar el nivel de significación para aumentar el valor del estudio y para ello hay que disminuir el error de medida. Cuanto mayor nivel de significación mejor.

El error de medida es el grado en que los valores observados no son representativos de los valores verdaderos. (Se pueden cometer errores, no coincidiendo x con X). El error de medida es importante porque cuando calculamos correlaciones o medias, normalmente el efecto verdadero está parcialmente camuflado por este error de medida, causando la perdida de precisión. Es decir, la presencia del error de medida produce distorsiones en las relaciones observadas y debilita el poder de las técnicas multivariantes.

Para valorar el grado de error de medida, hay que considerar dos factores importantes, que son la fiabilidad y la validez. (conceptos que hay que incluir en trabajo)

• La fiabilidad es el grado en que la variable observada mide el valor verdadero y está libre de error. Si la misma medida se realiza muchas veces, las medidas fiables llegarán a los mismos resultados. La fiabilidad puede verse perjudicada por el error aleatorio. El error aleatorio es el sesgo transitorio que no es necesariamente idéntico en todas las mediciones. Ejemplos de este tipo de error son errores de codificación, sesgos de entrevistadores, caracteres de los entrevistados, etc.

• La validez se define como el grado en que la medida representa con precisión lo que se supone que representa. Por ejemplo, si queremos medir los gastos en actividades de ocio, no preguntaremos por los gastos totales de las economías domésticas. La validez puede verse perjudicada tanto por el error aleatorio como por el error sistemático. El error sistemático es el sesgo permanente en todas las mediciones. Por ejemplo, errores en los ítems de la escala, ausencia de claridad en el cuestionario, etc. Por ello, el investigador debe minimizar el error de medida maximizando tanto la fiabilidad como la validez del instrumento de investigación.

Todas las técnicas multivariantes, excepto el análisis cluster y el análisis multidimensional, se basan en la inferencia estadística de los valores de una población o la relación entre variables de una muestra. Si estamos realizando un censo de toda la población, entonces no tenemos que preocuparnos de la inferencia estadística por que lo que medimos es la media verdadera. Pero muchas veces no podemos utilizar la población total, y por lo tanto, nos vemos obligados a hacer inferencias de una muestra y aceptar el nivel de error estadístico

Para interpretar las inferencias estadísticas, tenemos que determinar el nivel aceptable de error estadístico. Se tienen que establecer hipótesis nula Ho. Se suelen comparar las medias determinando que una o dos medias sean iguales o distintas.El modo de aproximación más común es determinar el nivel de error de Tipo I, que también se llama alfa. El error de Tipo I es la probabilidad de rechazar la hipótesis nula cuando es cierta. O dicho de otra manera, la probabilidad de que la prueba estadística muestre significación estadística cuando en realidad no está presente. Al determinar el nivel de error de Tipo I, tenemos que fijar también el segundo tipo de error, que es el error de Tipo II o beta. El error de Tipo II es la probabilidad de fallar en rechazar la hipótesis nula cuando es realmente falsa. Dicho de otra manera, nuestro objetivo es minimizar estos dos tipos de errores, el error de Tipo I y Tipo II, y maximizar el nivel de confianza (1-alfa) y la potencia (1-beta).

Realidad Cierta Falsa

DecisiónRechazar H0 Error Tipo I

αNivel de Confianza

1 - αNo rechazar H0

Aceptar H0

Potencia1 - β

Error Tipo IIβ

Error tipo 1 : Probabilidad de rechazar la Ho cuando a es cierta al tener que rechazarse cuando es falsa

Error tipo 2: Probabilidad en fallar en rechazar la Ho cuando es realmente falsa, es decir, no rechazar la Ho cuando es falsa.

Debemos minimizar estos dos tipos de errores y al mismo tiempo estamos maximizando el nivel de confianza y potencia. Si no tenemos el suficiente nivel de confianza y potencia, el estudio no tiene valor.

Establecer el nivel de significación es importante y por ello, tenemos que seguir determinados pasos para poder determinarlo:a. Establecer la Ho (Hipótesis nula) y la H1 (Hipótesis alternativa)b. Elegir la prueba estadísticac. Fijar el nivel de significación (alfa)d. Calcular estadístico.e. Se compara el estadístico calculado con el teórico. Si es mayor se

rechaza H0. Si es menor no se rechaza Ho.

7) Recopilar datos

8) Evaluar los supuestos básicos de la técnica multivariante.

9) Estimación del modelo multivariante y valoración del ajuste del modelo.

10) Interpretar el valor teórico (rechazar o no las hipótesis).

11) Validación e interpretación de los resultados: (en el trabajo esta última parte debe tener implicaciones para el mundo real. Ej: ¿ para qué sirven los resultados para la empresa, para la vida real… ----lo valorará mucho en el trabajo)

Tratamientos previos de los datos.

Antes de procesar los datos es importante saber que hemos conseguido cumplir una serie de supuestos. Existen dos razones que explican la importancia de realizar un buen análisis de los datos:

- Cuanto más cuidado tengamos en analizar los datos, mejor será la predicción y podremos determinar más fácilmente las relaciones entre las variables.

- Las técnicas multivariantes requieren muchos más datos y supuestos más complejos que las técnicas univariante o bivariantes. Hay que ver si cumplen una serie de supuestos. Muchas veces los efectos del incumplimiento de los supuestos no se representan directamente en los resultados, sino que tienen un efecto importante sobre la naturaleza e interpretación de los datos.

Es fundamental observar las variables individualmente, pero también hay que ver las relaciones entre las variables conjuntamente. Para ello. Hacemos los siguientes tratamientos:

Examinar gráficamente los datos para saber la forma de la distribución, analizar las relaciones entre variables, y analizar las diferencias entre grupos. Tratar datos ausentes mediante métodos de imputación Detectar casos atípicos y eliminarlos si no son aleatorios.

Examinar gráficamente: Hay que examinar la forma de la distribución y para ello podemos utilizar:

Histograma: Representación gráfica de los datos que muestra la frecuencia de los datos en categorías. Es una forma muy útil de averiguar si existe una distribución normal, si los datos siguen una distribución normal.Es el primer método de examen gráfico.

Gráfico de dispersión: Se analizan las relaciones bivariantes. Es un conjunto o representación gráfica de los puntos de datos basados en dos

variables. Se investiga si la relación entre las dos variables es aproximadamente lineal.

Gráfico de cajas y bigotes: Se analiza las diferencias entre grupos, es el análisis para detectar casos atípicos. Se transforma la distribución normal en cajas y bigotes.

La línea de la caja representa el valor de la medianaLa línea de fuera de la caja se llama bigote y representa un cuartil. Con este podemos distinguir diferencias entre grupos.

Es una forma útil de identificar casos atípicos porque, al transformar la distribución, los datos que queden fuera de un cuartil serán los casos atípicos. Se representan con asteriscos o círculos.

Datos ausentes: Hay que determinar si existen datos ausentes, ya que son una molestia para nosotros. Tenemos dos opciones:

- Eliminar casos para evitar el sesgo . Por lo que eliminamos y no utilizamos esos datos. Hay que averiguar si los datos son decisorios o no.A veces, el eliminar datos no es bueno porque tendríamos menos datos, y no conseguimos un nivel de significación aceptable.

- No eliminar casos y sustituir datos ausentes . Tres métodos:a) Sustitución por la media: la media es el valor

más representativo de una población, por ello sustituimos los datos por la media.

b) Sustitución por valor constante: hay que buscar algún valor que creamos que representa esta población, igual es necesario buscar estudio semejante.

c) Imputación por regresión: para predecir el valor más representativo

Casos atípicos: Hay que decidir si emplearlos o eliminarlos. Hay que eliminarlos si no son aleatorios. Podemos emplear:

- Procedimientos univariantes: el concepto de la distribución normal para ello tenemos que tipificar o estandarizar los datos. Si podemos aplicar el proceso de estandarización de datos: media igual a cero, desviación estándar igual a 1

Si el tamaño de la muestra n< 80, podemos eliminar los datos fuera de 2.5

Si el tamaño n>80: > 4

- Procedimientos bivariantes : diagramas cajas y bigotes.

- Procedimientos multivariantes : D2 Mahalanovis. Es una forma de medir la distancia con la media estandarizada.

Si tenemos un conjunto de datos, en primer lugar hay que determinar el punto o centroide de todas las variables (x) y luego medir la distancia para cada variable con una media estandarizada. Por ello, cuando existe un caso atípico podemos medir su distancia y podemos decir en comparación con otras distancias si es o no atípico.

Supuestos del AM.

Para evitar los sesgos más importantes, por qué debemos saber si los datos cumplen los supuestos. Hay dos razones principales:

1. Las relaciones entre una gran cantidad de variables son muy complejas, hablamos de muchos datos, y para estudiar estas relaciones utilizamos las técnicas multivariantes. Y cuando no cumplen los supuestos, los sesgos serán más potentes, al igual que las distorsiones.

2. Los procedimientos multivariantes estiman el modelo multivariante y producen resultados estadísticos aún cuando no cumplen los supuestos. Podemos estar analizando cosas que no tienen que ver con la realidad.

Las técnicas multivariantes tienen que cumplir los supuestos doblemente: tienen que cumplir los supuestos como variables aisladas, y tienen que cumplir los supuestos de las variables multivariantes.

Entonces, para poder aplicar las técnicas multivariantes, se suponen las siguientes condiciones o supuestos:

Normalidad: cumplirlo es importante porque muchas técnicas multivariantes tiene que utilizar las estadísticas de la prueba T y la F, y para emplearlas es necesario que la distribución sea normal.

Homocedasticidad: consiste en suponer que las variables dependientes tengan los mismos niveles de dispersión desde el punto de vista de la variable independiente. Es importante para muchas técnicas multivariantes que utilizan las métricas de varianza ya que es necesario que existan iguales niveles de dispersión ( como ejemplo análisis discriminante )

Linealidad: Es importante porque muchas técnicas multivariantes tienen que utilizar el concepto de correlación. Es necesario que exista una relación lineal entre las dos variables. En las técnicas multivariantes hay que calcular las correlaciones, para lo cual se debe cumplir el supuesto de linealidad.

Ausencia de errores correlacionados: consiste en suponer que cualquiera de los errores de predicción es independiente del resto. Son errores que no están correlaciones, que son independientes.

Clasificación de los métodos del AM.

TÉCNICAS DE DEPENDENCIA

TÉCNICAS DE INDEPENDENCIA

A N A L I S I S F A C T O R I A L

V A R I A B L E S

A N A L I S I S C L U S T E R

C A S O S

M D S

M E T R I C A

A F C

N O M E T R I C A

¿ C ó m o s e m i d e n l o s a t r i b u t o s ?

O B J E T O S

E S T R U C T U R A D E R E L A C I O N E S

Para realizar una investigación comercial multivariante hay que realizar los siguientes preguntas: ¿ podemos dividir las variables en dependientes o independientes?¿ cuántas de estas variables son tratadas como dependientes?¿ cómo son las variables medidas ( el tipo de escala ) ?

C o r r . c a n ó n i c a

M E T R I C A

M A N O V A

N O M E T R I C A

E S C A L A I N D E P E N D I E N T E S

M E T R I C A

E S C A L A D E P E N D I E N T E S

V A R I A S D E P E D I E N T E SR e l a c i ó n s i m p l e

R E G R E S I O N

M E T R I C A

C O N J U N T O

N O M E T R I C A


M E T R I C A

D I S C R I M .

M E T R I C A

L O G I T

N O M E T R I C A


N O M E T R I C A

E S C A L A D E P E N D I E N T E S

U N A D E P E N D I E N T ER e l a c i ó n s i m p l e

¿ C U A N T A S V A R I A B L E S S E U T I L I Z A N ?D e p e n d i e n t e s

Programas Informáticos.Vamos a utilizar dos programas : SPSS y Dyane

Ejercicio 1

1. Define el análisis multivariante con sus propias palabras.2. ¿Por qué es importante el conocimiento de las escalas de medida para planificar una

investigación de datos multivariante?3. Relaciona, distingue, y explica los siguientes términos: nivel de significación,

potencia, error de Tipo I y error de Tipo II. 4. ¿Cuáles son los métodos básicos para examinar las características de los datos en el

análisis multivariante? ¿Por qué son necesarios e importantes? 5. Discute la siguiente afirmación: para utilizar la mayoría de las técnicas multivariantes

no es necesario que se cumplan todos los supuestos de normalidad, linealidad, homocedasticidad y ausencia de errores correlacionados.

1. Define el análisis multivariante con sus propias palabras.

Son aquellas técnicas estadísticas que nos van a ayudar a analizar al mismo tiempo un conjunto de variables. El efecto de cada una de estas variables independiente de las otras no tiene sentido, pero analizadas simultáneamente su efecto tiene interpretación.

2. ¿Por qué es importante el conocimiento de las escalas de medida para planificar una investigación de datos multivariante?

Existen dos tipos de escalas: métricas y no métricas. Si los datos son no métricos, no dan valores matemáticos, sin embargo, si son métricos si que dan valores matemáticos. Por tanto, es crucial conocer que escala para determinar que técnica multivariante es más apropiada en función de la escala.

3. Relaciona, distingue, y explica los siguientes términos: nivel de significación, potencia, error de Tipo I y error de Tipo II.

Nivel de significación: me indica en que medida el valor observado es representativo de la muestra.

Error tipo I: se define como la probabilidad de que se rechace la hipótesis de un posible valor cuándo este es cierto.

Error tipo II: se define como la probabilidad de que se acepte la hipótesis de un posible valor cuándo este es falso.

4. ¿Cuáles son los métodos básicos para examinar las características de los datos en el análisis multivariante? ¿Por qué son necesarios e importantes?

Existen tres métodos:

Primero hay que saber la forma de la distribución, para ello hacemos un histograma que nos va a indicar la frecuencia de los datos, esto nos indicará si existe una distribución normal.

El segundo método es el gráfico de dispersión, este nos va a servir para indicar si la relación entre dos variables es lineal.

El tercer método son los gráficos de cajas y bigotes. Este gráfico está dividido en cuartiles y nos sirve para detectar casos atípicos.

5. Discute la siguiente afirmación: para utilizar la mayoría de las técnicas multivariantes no es necesario que se cumplan todos los supuestos de normalidad, linealidad, homocedasticidad y ausencia de errores correlacionados.

Las técnicas multivariantes nos sirven para estudiar la relación simultánea entre el comportamiento de más de dos variables. La afirmación es falsa ya que esta relación debe cumplir todos los supuestos:

el supuesto de normalidad nos servirá para poder usarse los estadísticos de la t- Student y de la f- Snedecor.

Linealidad: nos indica la relación existente entre las variables y nos permitirá hallar correlaciones.

Homocedasticidad: las variables dependientes deben exhibir igual nivel de dispersión de la varianza en todas las variables independientes.

El último supuesto que debe cumplir es que cualquier error de predicción sea independiente del resto.

TEMA 2: EL ANALISIS FACTORIAL

Estructura de la clase:1. Definición y objetivo del AF.2. Conceptos básicos del AF.3. Distinción entre el AFC y ACP.4. Supuestos del ACP. 5. Diseño del ACP.

Estimación del número de factores a ser extraídos. Métodos de rotación de los factores. Criterios para determinar el nivel de significación de las

cargas factoriales.6. Caso práctico.7. Tratamiento de los datos con DYANE y SPSS.

Definición y objetivo del AF.

El análisis factorial (AF) se puede definir como “la técnica estadística multivariante (de interdependencia) cuyo objetivo principal es resumir las variables y extraer información (los factores más importantes) de grandes bases de datos, procurando una mejor comprensión de la estructura de los mismos”.

El AF es una técnica de interdependencia en la que se consideran todas las variables simultáneamente, y que permite extraer un número reducido de los factores (es decir, los valores teóricos) con los cuales se intenta explicar al máximo todo el conjunto de variables originales. Dichas variables deben ser métricas.

El AF tiene dos objetivos: La reducción y sintetización de los datos para identificar sus

estructuras básicas (de las grandes BBDD). La creación de una nueva serie de variables (los llamados “factores”)

que pueden ser utilizados posteriormente en otros análisis multivariantes (por ejemplo la regresión múltiple o el análisis cluster).

El AF se utiliza principalmente para los siguientes tipos de investigación:Imagen de marca, imagen del establecimiento, imagen de los consumidores sobre una bebida, etc. En definitiva, se enmarca dentro de la segmentación, factores principales y diferenciación de nuestro producto, estudio de aptitudes, etc

Para el AF buscaremos los índices de correlación entre variables, e identificaremos las correlaciones altas.Lo que haremos es juntar aquellas que tengan una correlación alta entre ellas y formar un factor con ellas.

Conceptos básicos.

Conceptos DefiniciónFactor Es el valor teórico que se extrae con el AF. Es una

combinación lineal (Y=β1X1+ β2X2+...+ βnXn)de las variables originales. Los factores representan las dimensiones subyacentes (extracción del Factor1) que resumen la serie original de variables.El factor es una relación lineal. Calcularemos β1, β2, ..., βn

para hallar el factor (Y=β1X1+ β2X2+...+ βnXn). Los factores no son directamente observables. Por ello usamos la técnica del AF.

Cargas Es la correlación entre las variables originales (el peso de cada variable en el factor) y los factores, y la clave para entender la naturaleza de un factor específico. Las cargas de los factores al cuadrado indican qué porcentaje de la varianza en una variable original se atribuye a un determinado factor.Dicho de un modo mejor, Las cargas son el peso de cada variable en el Factor.Las (Cargas)2 es la proporción de varianza de la variable que contribuye a las correlaciones con otras variables. Las (Cargas)2 = Comunalidad

Comunalidad Es una varianza compartida con otras variables. Es la proporción de varianza de la variable que contribuye a su vez con correlaciones con otras variables.

Autovalor (eigenvalue)

Es una medida de la cantidad de varianza contenida en la matriz de correlación de tal forma que la suma de los autovalores debe ser igual al número de variables.Otra definición- Es la cantidad de información explicada por el modelo AF y su varianza asociada con cada factor.

Reglas de extracción

1.- Factores con cargas > 50%2.- Factores tipo autovalor > 1

Distinción entre AF y ACP.

En investigación comercial se suelen utilizar métodos o modelos básicos para obtener soluciones factoriales: análisis factorial común (AFC) y análisis de componentes principales (ACP). La diferencia entre estos dos métodos consiste en el tipo de varianza que analizan. En el AFC los factores se basan solamente en la varianza común. En el ACP los factores se basan en la varianza total (que incluye la varianza común y la varianza específica y error).

Nota: En Investigación de Mercados (IM), cuando se menciona AF, se está refiriendo en

realidad al ACP.

AFC Varianza común

Varianza específica y error Distorsionan los procesos de

extracciónACP Varianza total

La Varianza Total se divide en:

1.- Varianza Común: es aquella varianza donde una variable se comparte con todas las demás variables.

2.- Varianza Específica: es aquella varianza asociada únicamente con una variable específica.

3.- Varianza del Error: es aquella varianza debida al error de medición.

En este curso, nos centramos sólo en el ACP.

En AFC no se usa la Varianza Específica y la Varianza de Error porque se supone que distorsiona. Pero se supone que tiene varios inconvenientes:

- Puede proporcionar múltiples soluciones en lugar de una, como sucede en el ACP.

- Es muy difícil estimar sólo la varianza común.Por ello, los investigadores prefieren usar el ACP, ya que presenta menos inconvenientes. Este será el que nosotros usemos.

Supuestos del ACP. (Son específicos del ACP)

Supuestos generales: Normalidad, Linealidad y Homocedasticidad. Supuesto específico: Se asume que existe un nivel suficientemente

elevado de correlación entre las variables (En caso contrario, no podemos extraer factores). Este nivel de correlación se puede examinar de tres maneras:

→ Examen visual de la matriz de correlaciones: Seleccionamos las correlaciones altas. Para considerar una correlación alta, esta tiene que ser > 0,30.

→ Contraste de esfericidad de Bartlett: Esta prueba es más objetiva y eficaz. Es una prueba estadística para examinar la existencia de correlaciones significativas. El resultado a esta prueba sería “Significativo” o “No significativo”. La prueba de Bartlett sólo prueba la presencia de relaciones significativas, pero no indica el nivel de correlación. Esto se consigue con el tercer análisis: Índice KMO

→ Índice K-M-O (la adecuación muestral de Kaiser-Meyer-Olkin): Es una prueba más completa aún que la anterior. Se trata de cuantificar, mediante un índice estadístico, el grado de intercorrelación entre variables, y la conveniencia del Análisis de Componentes Principales (ACP). Examina la presencia de correlaciones significativas indicando solamente si existen, no cuales son.Los índices obtenidos pueden ser:

Si KMO es mayor que 0,80: Sobresaliente Si KMO está entre 0,70 y 0,80: Regular Si KMO está entre 0,60 y 0,70: Mediocre Si KMO está entre 0,50 y 0,60: Despreciable, y Si KMO es menor que 0,50: Inaceptable

Pero siempre ha de ser mayor de 0,50 para que sea conveniente hacer el ACP.

Diseño del ACP. (Procedimientos)

Selección de variablesSeleccionamos variables métricas. En caso contrario, necesitamos realizar una transformación de no métricas a métricas.

Tamaño muestralEl criterio a seguir para determinar el tamaño muestral óptimo a utilizar con ACP, la muestra no debe ser inferior a 50 observaciones. Lo aconsejable es que sea >= 100.

Examen de los supuestos generales (y específicos)Concepto: Consistencia Interna. Está relacionado con la fiabilidad y se utiliza para asegurar la fiabilidad de la escala que estamos utilizando. Asegura que los items de las escalas o las preguntas de la escala están midiendo las mismas contrucciones y éstas están altamente intercorrelacionadas entre sí. Por ej: En el comportamiento de compra hacia una marca determinada, examinamos la actitud hacia el producto, precio, establecimiento, etc. Para ello creamos una serie de preguntas para cada dimensión. Estas preguntas deben estar altamente correlacionadas entre sí. La consistencia interna se mide mediante el test de Cronbach (alpha de Cronbach) y tiene que ser superior a 0,60. Este test aparece en DYANE.

Matriz de correlacionesComo ya se ha comentado, se considera que existen correlaciones altas cuando éstas son > 0,30.

Test de BartlettAplicamos el test de Bartlett y el índice KMO.

Estimación del número de factores a ser extraídosVer página siguiente.

Rotación de factoresVer gráfico.

Interpretación de los factoresProceso de etiquetación de factores. Atribuir un significado a cada factor, es decir: poner un patrón de cargas a cada factor.

ValidaciónUn método para efectuar una validación a nuestro ACP es dividir la muestra en dos partes independientes y aplicar a cada una de ellas el ACP. Si obtenemos los mismos factores/dimensiones, es decir: si coinciden ambas la muestra sería representativa y por tanto, el ACP sería válido.

Usos adicionales de los factores

Regresión múltiple o Cluster.

Estimación del número de factores a ser extraídos

Con el fin de decidir cuántos factores se deben extraer, el investigador empieza generalmente con alguno de los siguientes criterios predeterminados.

Criterio de raíz latente→DYANE

AUTOVALOR

Sólo se consideran los factores que tienen autovalores mayores que 1, ya que cualquier factor individual debería explicar por lo menos una variable.

Criterio a priori Ya se sabe de antemano cuántos factores hay que extraer sobre la base de un estudio previo. Resultado del Pre-Test.

Criterio de porcentaje de la varianza

Se obtienen los factores que representan un porcentaje acumulado especificado de la varianza total extraída (aproximadamente un 60% de la varianza total en las ciencias sociales). Se suelen utilizar cargas y estas deben ser >50% del factor.

Criterio de contraste de caída

Se identifica el número óptimo de factores que contienen una proporción de la varianza común sustancialmente alta.

CRITERIO DE CONTRATE DE CAIDA (Gráfico realizado con SPSS)

Gráfico de sedimentación

Número de componente

21191715131197531

Aut

oval

or8

6

4

2

0

Métodos de rotación de los factores. Consiste en rotar o girar los ejes de referencia de los factores para lograr un patrón de factores más simple y más significativo.

Rotación ortogonal: Es una rotación ortogonal ya que se realiza en un ángulo de 90º

(tipos)• QUARTIMAX• VARIMAX→DYANE (utilizada en el curso)• EQUIMAX

Curva con inclinación descendente. Indica que la varianza común domina la

Pto. de corte. La curva se convierte en una línea horizontal. Este sería el criterio de contraste de caída

Si este fuera el pto. de corte elegido, tendríamos que seleccionar 6 factores

Otra técnica sería utilizar el criterio de Raíz Latente o Autovalor y comprobar con valor 1 del Autovalor que punto corta del gráfico. Sería otra forma obtener factores. Con esta técnica se obtienen más factores que con la de

GRAFI CO DE ROTACI ON

V1

V2

V3

V4

factor I (rotado)

factor II (rotado)

factor I (no rotado)

factor II (no rotado)

Rotación oblicua: Cuando nos es una rotación con un ángulo de referencia de 90º

Criterios para determinar el nivel de significación de las cargas factoriales.

(Interpretación de los factores)

Al interpretar los factores, se debe determinar qué cargas factoriales merece la pena considerar. Para ello hay dos criterios importantes.

a) Asegurar la significación práctica.

Muestra >= 100 observaciones, seleccionamos cargas factoriales>0,55

Al rotar los ejes, podemos captar más variables que en un principio estaban alejadas de los ejes originales.

Muestra < 100 observaciones, seleccionamos cargas factoriales>0,75

b) Valorar la significación estadística.

Utilizar un nivel de significación de 0,5 y potencia de 0,8.

Caso practico.

El caso “TeleSake”

X1 : Velocidad de entregaX2 : Nivel de preciosX3 : Presentación de la comidaX4 : Imagen del logotipoX5 : Eficacia del servicioX6 : Atención al cliente X7 : Calidad de la comida

El punto 6, Caso práctico, lo realizaremos con el SPSS y el Dyane, con lo que el punto 7 quedará cubierto. El punto 7 lo trataremos primero, pero sólo con el Dyane y simplemente para ver los criterios a utilizar y la interpretación y el análisis de los datos.

Hay que tener en cuenta que el programa Dyane ofrece tres opciones de aplicación del AFC:(1) módulo de tablas de frecuencias,(2) módulo de tablas de medios, y(3) módulo de tablas específicas (DYANE, pp.318-337).

Si vuestros cuestionarios se basan en variables categóricas, normalmente es recomendable utilizar el primer módulo (es decir, las variables tanto filas como columnas son categóricas). Sin embargo, si los cuestionarios usan variables numéricas con escalas de Likert, podríamos elegir el segundo módulo (es decir, las variables filas son numéricas mientras que las variables columnas son categóricas). Si tenéis alguna duda o pregunta, mandad un mensaje al foro o pasad por mi despacho con vuestros datos.

Haremos otra práctica con la BD de Telesake:

6.1 Con Dyane.

A N Á L I S I S D E C O M P O N E N T E S P R I N C I P A L E S=====================================================================

IDENTIFICACIÓN DE LAS VARIABLES-------------------------------

VARIABLE 1 : X1 - X1VARIABLE 2 : X2 - X2VARIABLE 3 : X3 - X3VARIABLE 4 : X4 - X4VARIABLE 5 : X5 - X5VARIABLE 6 : X6 - X6VARIABLE 7 : X7 - X7

Matriz de coeficientes de correlación simple--------------------------------------------

X1 X2 X3 X4 X5 X6 X7 -------- -------- -------- -------- -------- -------- -------- X1 1,0000 -0,3492 0,5093 0,0504 0,6119 0,0771 -0,4826 X2 -0,3492 1,0000 -0,4872 0,2722 0,5130 0,1862 0,4697 X3 0,5093 -0,4872 1,0000 -0,1161 0,0666 -0,0343 -0,4481 X4 0,0504 0,2722 -0,1161 1,0000 0,2987 0,7882 0,2000 X5 0,6119 0,5130 0,0666 0,2987 1,0000 0,2408 -0,0552 X6 0,0771 0,1862 -0,0343 0,7882 0,2408 1,0000 0,1773 X7 -0,4826 0,4697 -0,4481 0,2000 -0,0552 0,1773 1,0000

Test de Bartlett ---------------- Determinante de la matriz de correlación = 0,002679 Ji cuadrado con 21 grados de libertad = 567,5407 (p = 0,0000)

Según el test de Bartlett me sale significativo

FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 FACTOR 5 FACTOR 6 FACTOR 7 -------- -------- -------- -------- -------- -------- -------- VALOR PROPIO: 2,5258 2,1204 1,1811 0,5412 0,4180 0,2044 0,0092 % DE VARIANZA: 36,08% 30,29% 16,87% 7,73% 5,97% 2,92% 0,13% % VAR.ACUMUL.: 36,08% 66,37% 83,25% 90,98% 96,95% 99,87% 100,00%

CARGAS DELOS FACTORES: COMUNALIDAD -----------X1 -0,5280 0,7515 -0,2024 -0,0312 -0,3340 -0,0047 0,0541 1,0000 X2 0,7924 0,0931 -0,5081 -0,0055 0,3195 -0,0255 0,0508 1,0000 X3 -0,6920 0,3745 0,1727 -0,4761 0,3512 0,0320 0,0010 1,0000 X4 0,5640 0,6020 0,4524 0,1014 0,0243 0,3225 0,0025 1,0000 X5 0,1858 0,7789 -0,5949 -0,0283 -0,0197 -0,0075 -0,0604 1,0000 X6 0,4921 0,6040 0,5418 0,0248 0,0238 -0,3135 -0,0009 1,0000 X7 0,7386 -0,2698 0,0054 -0,5494 -0,2820 0,0185 -0,0009 1,0000

También tenemos 7 factores con valores propios. En esta matriz consideramos todos los factores, por lo que tenemos la Comunalidad igual a 1

COEFICIENTES DEPUNTUACIÓN DELOS FACTORES:

X1 -0,2090 0,3544 -0,1714 -0,0576 -0,7991 -0,0231 5,9081 X2 0,3137 0,0439 -0,4302 -0,0101 0,7643 -0,1246 5,5418 X3 -0,2740 0,1766 0,1462 -0,8798 0,8401 0,1566 0,1133 X4 0,2233 0,2839 0,3830 0,1873 0,0582 1,5778 0,2730 X5 0,0736 0,3673 -0,5037 -0,0522 -0,0470 -0,0368 -6,5904 X6 0,1948 0,2848 0,4587 0,0459 0,0569 -1,5340 -0,0946 X7 0,2924 -0,1272 0,0046 -1,0151 -0,6746 0,0905 -0,1034

Esta matriz, de momento, no tiene importancia

Cargas de los factores retenidos:---------------------------------

FACTOR 1 FACTOR 2 FACTOR 3 COMUNALIDAD -------- -------- -------- -----------X1 -0,5280 0,7515 -0,2024 0,8845 X2 0,7924 0,0931 -0,5081 0,8947 X3 -0,6920 0,3745 0,1727 0,6490 X4 0,5640 0,6020 0,4524 0,8851 X5 0,1858 0,7789 -0,5949 0,9951 X6 0,4921 0,6040 0,5418 0,9005 X7 0,7386 -0,2698 0,0054 0,6183

VARIANZA: 2,5258 2,1204 1,1811 % DE VARIANZA: 36,08% 30,29% 16,87% % VAR.ACUMUL.: 36,08% 66,37% 83,25%

Hemos obtenido 3 factores más importantes. Ahora la Comunalidad es menor que 1, pero bastante alta. Pero con esta matriz es difícil distinguir que variable es más importante que las otras.Lo que podremos saber es cuanto varianza está explicada con el análisis de componentes principales. Podemos ver que es muy elevada, y se pueden explicar casi todos los factores.

ROTACIÓN VARIMAX:-----------------

Cargas de los factores retenidos (después de la rotación):----------------------------------------------------------

FACTOR 1 FACTOR 2 FACTOR 3 COMUNALIDAD -------- -------- -------- -----------X1 -0,7524* 0,0711 0,5598 0,8845 X2 0,7539* 0,1081 0,5609 0,8947 X3 -0,8055* 0,0063 0,0095 0,6490 X4 0,1167 0,9210* 0,1525 0,8851 X5 -0,0620 0,1763 0,9799* 0,9951 X6 0,0341 0,9452* 0,0766 0,9005 X7 0,7596* 0,1930 -0,0644 0,6183

VARIANZA: 2,3788 1,8269 1,6215 % DE VARIANZA: 33,98% 26,10% 23,16% % VAR.ACUMUL.: 33,98% 60,08% 83,25%

La interpretación es mucho más fácil y significativa. La varianza explicada no ha cambiado. Se mantiene.


X1 -0,3037 0,0039 0,3262 X2 0,3452 -0,0997 0,3953 X3 -0,3487 0,0694 -0,0349 X4 -0,0189 0,5227 -0,0598 X5 0,0073 -0,0665 0,6242 X6 -0,0604 0,5582 -0,1194 X7 0,3094 0,0657 -0,0407

Ahora tendremos que interpretar los factores. Tendremos que “poner nombre o etiqueta” a cada factor. Esto dependerá. Hay una regla general para atribuir significado a cada factor: Siempre hay que considerar las variables con mayores cargas.

Al final tenemos la interpretación gráfica.

REPRESENTACIÓN GRÁFICA DE LOS FACTORES--------------------------------------

VARIABLES:

Código Significado------ ---------------- A X1 B X2 C X3 D X4 E X5 F X6 G X7

FACTORES 1 y 2: FACTOR 2 |—————————————————————————————————————————————————————————————————————————————————• 1,0 + + | | |F | 0,9 + + D | | | | 0,8 + + | | | | 0,7 + + | | | | 0,6 + + | | | | 0,5 + + | | | | 0,4 + + | | | | 0,3 + + | | | | 0,2 + E + G | | | | 0,1 + + B | | A | | 0,0 +----+---C---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+----|FACTOR 1 | | | -0,1 + + | | | | -0,2 + + | | | | -0,3 + + | | | | -0,4 + + | | | | -0,5 + + | | | | -0,6 + + | | | | -0,7 + + | | | | -0,8 + + | | | | -0,9 + + | | | | -1,0 + + | |————+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+————• -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0

6.2 Con SPSS.

Ahora veremos las opciones en el SPSS. Usaremos los mismos datos que antes, para el análisis con el SPSS.

Seleccionamos el elemento de menú “Analizar/Reducción de datos/Análisis Factorial”

Y nos aparecerá una ventana como la siguiente:

Ahora pulsamos “Descriptivos”

Matriz de correlaciones dependerá de lo que queramos, pero chequearemos KMO y prueba de esfericidad de Bartlett para asegurarnos un grado de significación de variables

Pulsamos ahora “Extracción”:

Autovalores mayores que: podemos cambiarlo a 0,8 por ejemplo.

También podemos cambiar el criterio a Número de factores, porque sepamos el número de factores que queremos extraer.

Nosotros usaremos el primer criterio

Nos interesa seleccionar también el Gráfico de sedimentación, y la Solución factorial sin rotar.

Seleccionamos ahora Rotación:

Seleccionamos ahora Puntuaciones:

Guardar las puntuaciones factoriales para análisis posteriores.

En botón opciones:

Para ACP podemos seleccionar varios métodos para sustituir o tratar los valores ausentes. Nosotros usaremos Reemplazar por la media ya que es el valor teóricamente mas representativo.

En formato de utilización, usaremos ordenados por tamaño, para ayudar en la visualizaciónSuprimir valores absolutos menores que: Opción muy importante a seleccionar.

Pulsaremos Continuar y Aceptar, para pasar al análisis de los resultados

6.2.1 Análisis de los datos con SPSS.

A. factorial

Notas

Resultados creados 05-MAR-2004 17:48:02Comentarios Entrada Datos C:\Documents and

Settings\ecolab\Escritorio\Rafa\TeleSake.sav

Filtro <ninguna>Peso <ninguna>Segmentar archivo <ninguna>Núm. de filas del archivo de trabajo 100

Manipulación de los valores perdidos

Definición de los perdidos

MISSING=EXCLUDE: Los valores definidos como perdidos por el

usuario son considerados como perdidos.

Casos utilizados. MEAN SUBSTITUTION: Para cada variable utilizada, los valores perdidos

son sustituidos por la media de las variables.

Sintaxis

FACTOR /VARIABLES x1 x2 x3 x4 x5 x6 x7 /MISSING MEANSUB

/ANALYSIS x1 x2 x3 x4 x5 x6 x7 /PRINT INITIAL KMO EXTRACTION

ROTATION /FORMAT SORT BLANK(.50) /PLOT EIGEN

/CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC

/CRITERIA ITERATE(25) /ROTATION VARIMAX

/METHOD=CORRELATION .

Recursos Tiempo transcurrido 0:00:00,16Memoria máxima necesaria 7204 (7,035K) bytes

KMO y prueba de Bartlett

Medida de adecuación muestral de Káiser-Meyer-Olkin. ,446

Prueba de esfericidad de Bartlett

Chi-cuadrado aproximado 567,541

gl 21

Sig. ,000

Vemos que es inaceptable: según KMO sale 0,446. Según nuestro criterio, si KMO < 0,5 es inaceptable.Sin embargo la segunda prueba, Test de Bartlett, sale significativo.

Para un estudio exploratorio, podemos aceptar este test, puesto que ha salido significativo para el test de Bartlett.

Comunalidades

Inicial ExtracciónVelocidad de entrega 1,000 ,884Nivel de precios 1,000 ,895Presentación de la comida 1,000 ,649

Imagen del logotipo 1,000 ,885Eficacia del servicio 1,000 ,995Atención al cliente 1,000 ,901Calidad de la comida 1,000 ,618

Método de extracción: Análisis de Componentes principales.

Este cuadro muestra cuanta varianza esta explicada con este modelo. Inicialmente está a 1, porque tiene todos los factores. Después de la extracción, baja; pero podemos ver que estamos con niveles muy altos.

Varianza total explicada

Componente

Autovalores inicialesSumas de las saturaciones al cuadrado

de la extracciónSuma de las saturaciones al cuadrado de

la rotación

Total% de la varianza % acumulado Total

% de la varianza % acumulado Total

% de la varianza

1 2,526 36,082 36,082 2,526 36,082 36,082 2,379 33,9842 2,120 30,291 66,374 2,120 30,291 66,374 1,827 26,0983 1,181 16,873 83,246 1,181 16,873 83,246 1,622 23,1654 ,541 7,731 90,977 5 ,418 5,972 96,949 6 ,204 2,920 99,869 7 ,009 ,131 100,000

Información de la varianza antes de la rotación

Información de la varianza después de la rotación

Método de extracción: Análisis de Componentes principales.

La varianza total explicada, tenemos autovalores iniciales.

Gráfico de sedimentación

Número de componente

7654321

Aut

oval

or

3,0

2,5

2,0

1,5

1,0

,5

0,0

El gráfico de sedimentación. Para determinar factores, observamos la curva, y vemos el punto de corte donde cambia la inclinación.Más o menos a partir del punto 4 cambia la inclinación. Según este criterio podemos determinar 4 factores.Pero también hemos usado otro criterio para seleccionar factores.

Matriz de componentes(a)

Componente

1 2 3Nivel de precios ,792 ,508Calidad de la comida ,739 Presentación de la comida -,692

Eficacia del servicio ,779 ,595Velocidad de entrega -,528 ,752 Atención al cliente ,604 -,542Imagen del logotipo ,564 ,602

Método de extracción: Análisis de componentes principales.a 3 componentes extraídos

Matriz de componentes rotados(a)

Componente

1 2 3Presentación de la comida -,806

Calidad de la comida ,760 Nivel de precios ,754 ,561Velocidad de entrega -,752 ,560Atención al cliente ,945 Imagen del logotipo ,921 Eficacia del servicio ,980

Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser.a La rotación ha convergido en 5 iteraciones.

Después de la rotación VARIMAX hemos obtenido 3 factores, y hemos seleccionado la opción que ordena de mayor a menor; de este modo es mas fácil identificar la importancia de las variables. Hemos suprimido las variables con menor importancia, así solo salen las variables importantes.

Matriz de transformación de las componentes

Componente 1 2 31 ,865 ,477 ,1592 -,452 ,602 ,6583 ,218 -,641 ,736

Método de extracción: Análisis de componentes principales. Método de rotación: Normalización Varimax con Kaiser.

Tratamiento de los datos con DYANE y SPSS.

7.1 Tratamiento de los datos con DYANE.

Vamos a ir viendo las opciones que tiene el Dyane y cuáles seleccionaremos.

Medias y desviaciones estándar de las variables no nos interesanTest de Bartlett si que nos interesa, para ver si existe un nivel significativo de correlación de los factores.Valores propios mayores que 1 (también llamados autovalores).- Es el criterio para seleccionar las cargas.Representación Gráfica de los factores: representar 2 factoresRotación VARIMAX.- Girar los ejes de referencias para captar mas variables o hacer la Interpretación más fácil. Es el método mas frecuentemente utilizado.

Ahora seleccionamos:Guardar los factores retenidos como variables.- Se guardarán para su uso posterior

Y seleccionamos las variables a estudiar.

A N Á L I S I S D E C O M P O N E N T E S P R I N C I P A L E S=====================================================================


VARIABLE 1 : EPU_OBEC - La empresa pública puede cumplir los objetivos económicos mejor que la privada.VARIABLE 2 : EPU_OBSO - La empresa pública puede cumplir los objetivos sociales mejor que la privadaVARIABLE 3 : DIRE_SUF - La dirección de la empresa debe ser elegida por sufragio universal, por todos los trabajadores de la empresa.VARIABLE 4 : ECME_PLA - La economía de mercado proporciona una asignación de recursos mejor que la obtenida con la economía planificada por el estado.VARIABLE 5 : DESP_LIB - La posibilidad de despido libre, con indemnización, permitiría la creación de puestos de trabajo.VARIABLE 6 : LIBERAL - El liberalismo es la mejor doctrina económica.VARIABLE 7 : ECSOLMER - La economía social de mercado es la mejor doctrina económica.VARIABLE 8 : SOCIALIS - El socialismo es la mejor doctrina económica.VARIABLE 9 : COMUNISM - El comunismo es la mejor doctrina económica.VARIABLE 10: EMPR_CRE - El empresario debe ser admirado por la sociedad porque crea riqueza.VARIABLE 11: EMPR_EXP - El empresario sólo explota a los trabajadores.VARIABLE 12: BEN_OBJ1 - El beneficio deber ser el primer objetivo de la empresaVARIABLE 13: BENSOLAC - En la distribución de los beneficios deben participar sólo los accionistas.VARIABLE 14: BAL_SOCI - Todas las empresas deberían realizar el balance social.VARIABLE 15: MARK_NEC - El marketing es sólo un método para vender más, creando necesidades aparentes.

Matriz de coeficientes de correlación simple--------------------------------------------

EPU_OBEC EPU_OBSO DIRE_SUF ECME_PLA DESP_LIB LIBERAL ECSOLMER SOCIALIS COMUNISM EMPR_CRE EMPR_EXP BEN_OBJ1 BENSOLAC BAL_SOCI MARK_NEC -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- EPU_OBEC 1,0000 0,3784 0,1999 -0,2255 -0,0908 -0,1247 -0,0758 0,2727 0,2396 -0,1537 0,1265 -0,1001 -0,1036 0,2605 0,1421 EPU_OBSO 0,3784 1,0000 0,1924 -0,1953 0,0014 -0,1089 0,0015 0,3173 0,1915 -0,0873 0,2423 0,0438 0,0630 0,2315 0,1735 DIRE_SUF 0,1999 0,1924 1,0000 -0,1988 -0,2233 -0,1370 -0,2437 0,2056 0,2433 -0,3528 0,0969 -0,2935 -0,2475 0,0956 0,0868 ECME_PLA -0,2255 -0,1953 -0,1988 1,0000 0,2622 0,3202 0,1476 -0,3499 -0,2504 0,3204 -0,2196 0,1111 0,2121 -0,1738 -0,0510 DESP_LIB -0,0908 0,0014 -0,2233 0,2622 1,0000 0,1614 -0,0097 -0,0722 0,0048 0,2775 -0,1296 0,1412 0,2368 -0,1042 -0,0474 LIBERAL -0,1247 -0,1089 -0,1370 0,3202 0,1614 1,0000 -0,0326 -0,2995 -0,0833 0,3533 -0,1459 0,1391 0,1302 -0,0298 -0,1059 ECSOLMER -0,0758 0,0015 -0,2437 0,1476 -0,0097 -0,0326 1,0000 0,0671 -0,0438 0,0826 0,0802 0,1621 0,0728 0,0730 -0,0039 SOCIALIS 0,2727 0,3173 0,2056 -0,3499 -0,0722 -0,2995 0,0671 1,0000 0,3728 -0,1305 0,3378 0,0782 -0,1582 0,2379 0,1737 COMUNISM 0,2396 0,1915 0,2433 -0,2504 0,0048 -0,0833 -0,0438 0,3728 1,0000 -0,1362 0,1437 -0,0371 -0,0565 0,1844 0,0425 EMPR_CRE -0,1537 -0,0873 -0,3528 0,3204 0,2775 0,3533 0,0826 -0,1305 -0,1362 1,0000 -0,2662 0,2522 0,2381 0,0103 -0,2078 EMPR_EXP 0,1265 0,2423 0,0969 -0,2196 -0,1296 -0,1459 0,0802 0,3378 0,1437 -0,2662 1,0000 -0,0860 -0,1190 0,0427 0,2745 BEN_OBJ1 -0,1001 0,0438 -0,2935 0,1111 0,1412 0,1391 0,1621 0,0782 -0,0371 0,2522 -0,0860 1,0000 0,2255 -0,0848 0,0044 BENSOLAC -0,1036 0,0630 -0,2475 0,2121 0,2368 0,1302 0,0728 -0,1582 -0,0565 0,2381 -0,1190 0,2255 1,0000 -0,2184 0,1432 BAL_SOCI 0,2605 0,2315 0,0956 -0,1738 -0,1042 -0,0298 0,0730 0,2379 0,1844 0,0103 0,0427 -0,0848 -0,2184 1,0000 0,0568 MARK_NEC 0,1421 0,1735 0,0868 -0,0510 -0,0474 -0,1059 -0,0039 0,1737 0,0425 -0,2078 0,2745 0,0044 0,1432 0,0568 1,0000

Test de Bartlett ---------------- Determinante de la matriz de correlación = 0,083411 Ji cuadrado con 105 grados de libertad = 385,4297 (p = 0,0000)

FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 FACTOR 5 FACTOR 6 FACTOR 7 FACTOR 8 FACTOR 9 FACTOR 10FACTOR 11FACTOR 12FACTOR 13FACTOR 14FACTOR 15 -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- -------- VALOR PROPIO: 3,2405 1,7250 1,3244 1,2098 1,0196 0,8867 0,8399 0,7805 0,7488 0,6977 0,6449 0,5856 0,4829 0,4305 0,3830 % DE VARIANZA: 21,60% 11,50% 8,83% 8,07% 6,80% 5,91% 5,60% 5,20% 4,99% 4,65% 4,30% 3,90% 3,22% 2,87% 2,55% % VAR.ACUMUL.: 21,60% 33,10% 41,93% 50,00% 56,80% 62,71% 68,31% 73,51% 78,50% 83,15% 87,45% 91,36% 94,58% 97,45% 100,00%

CARGAS DELOS FACTORES: COMUNALIDAD-----------EPU_OBEC 0,5235 -0,2539 -0,3078 -0,1587 0,2203 0,3032 -0,1221 -0,0158 -0,1707 -0,0888 0,5343 -0,1992 0,0583 -0,1261 -0,0672 1,0000 EPU_OBSO 0,4599 -0,5037 -0,1297 -0,2161 0,1656 0,2151 -0,0248 -0,0679 -0,4190 0,0512 -0,2850 0,1913 -0,0869 0,2857 0,0846 1,0000 DIRE_SUF 0,5558 0,3156 -0,2000 -0,3165 0,0293 -0,1671 0,0560 0,3367 -0,1606 0,3340 -0,2229 -0,0357 0,1921 -0,1694 -0,2282 1,0000 ECME_PLA -0,6326 -0,0655 -0,0066 -0,1343 0,3373 -0,2615 -0,1896 0,1941 -0,1253 0,3251 0,0878 -0,1849 -0,3768 -0,0358 0,1230 1,0000 DESP_LIB -0,3886 -0,3667 -0,1716 -0,2977 -0,2463 -0,2601 -0,4710 -0,3336 0,0556 0,1731 0,0756 0,2433 0,1676 -0,0666 -0,0680 1,0000 LIBERAL -0,4859 -0,0979 -0,3679 -0,1718 0,3171 -0,3404 0,4629 0,0215 -0,0804 -0,1739 0,0935 0,1465 0,2381 -0,0248 0,1845 1,0000 ECSOLMER -0,1293 -0,3579 0,3078 0,6023 0,2343 -0,1425 -0,2820 0,3566 -0,1785 -0,0531 0,0370 0,0767 0,2597 0,0423 -0,0689 1,0000

SOCIALIS 0,6155 -0,4176 0,0023 0,1880 -0,2698 -0,1501 0,0423 -0,0571 0,0572 0,2131 -0,0855 -0,3036 0,1358 -0,1155 0,3621 1,0000 COMUNISM 0,4659 -0,2567 -0,3055 -0,0738 -0,3725 -0,3833 -0,0276 0,3765 0,1497 -0,2632 0,1242 0,0362 -0,2054 0,1879 -0,0644 1,0000 EMPR_CRE -0,5846 -0,3547 -0,3682 0,1180 0,0106 0,0046 0,0817 -0,1426 0,0438 -0,0410 -0,2209 -0,4579 0,0744 0,1519 -0,2551 1,0000 EMPR_EXP 0,4822 -0,2042 0,4300 0,0150 0,1403 -0,4342 0,1567 -0,3592 -0,2127 -0,1938 -0,0337 -0,0508 -0,1632 -0,1802 -0,1824 1,0000 BEN_OBJ1 -0,3065 -0,5474 0,1019 0,1645 -0,2882 0,1820 0,4669 0,0961 -0,0266 0,3418 0,1750 0,1899 -0,1032 -0,0947 -0,1472 1,0000 BENSOLAC -0,3973 -0,4402 0,2320 -0,4285 -0,0773 0,2299 -0,0797 0,2804 0,0452 -0,3367 -0,2389 -0,0467 -0,0095 -0,3004 0,0461 1,0000 BAL_SOCI 0,3693 -0,2191 -0,4648 0,3434 0,4072 0,0610 -0,0662 -0,0473 0,3952 0,0199 -0,1953 0,2028 -0,1529 -0,2128 -0,0306 1,0000 MARK_NEC 0,2894 -0,2858 0,4681 -0,3941 0,3559 -0,0255 0,0850 0,0344 0,4789 0,1499 0,0801 -0,0472 0,1179 0,2181 -0,0491 1,0000

Después de esta matriz, salen coeficientes de puntuación de los factores.

Se tienen que multiplicar cada coeficiente de correlación por las variables originales para comprobar los resultados de los factores


EPU_OBEC 0,1615 -0,1472 -0,2324 -0,1312 0,2161 0,3419 -0,1454 -0,0202 -0,2280 -0,1273 0,8284 -0,3402 0,1207 -0,2928 -0,1755 EPU_OBSO 0,1419 -0,2920 -0,0979 -0,1786 0,1624 0,2425 -0,0295 -0,0870 -0,5596 0,0733 -0,4420 0,3267 -0,1800 0,6636 0,2208 DIRE_SUF 0,1715 0,1829 -0,1510 -0,2616 0,0287 -0,1884 0,0667 0,4314 -0,2144 0,4787 -0,3457 -0,0610 0,3979 -0,3934 -0,5957 ECME_PLA -0,1952 -0,0379 -0,0050 -0,1110 0,3308 -0,2949 -0,2258 0,2487 -0,1673 0,4659 0,1362 -0,3158 -0,7803 -0,0831 0,3212 DESP_LIB -0,1199 -0,2126 -0,1296 -0,2460 -0,2416 -0,2934 -0,5607 -0,4275 0,0743 0,2481 0,1172 0,4154 0,3470 -0,1546 -0,1774 LIBERAL -0,1499 -0,0568 -0,2778 -0,1420 0,3110 -0,3839 0,5511 0,0276 -0,1074 -0,2492 0,1449 0,2502 0,4932 -0,0575 0,4817 ECSOLMER -0,0399 -0,2075 0,2324 0,4978 0,2298 -0,1607 -0,3358 0,4569 -0,2383 -0,0760 0,0574 0,1310 0,5378 0,0983 -0,1799 SOCIALIS 0,1899 -0,2421 0,0017 0,1554 -0,2646 -0,1693 0,0504 -0,0731 0,0764 0,3054 -0,1326 -0,5184 0,2812 -0,2684 0,9453 COMUNISM 0,1438 -0,1488 -0,2307 -0,0610 -0,3653 -0,4323 -0,0329 0,4824 0,2000 -0,3772 0,1926 0,0618 -0,4253 0,4363 -0,1681 EMPR_CRE -0,1804 -0,2056 -0,2780 0,0975 0,0104 0,0052 0,0973 -0,1828 0,0585 -0,0588 -0,3426 -0,7819 0,1541 0,3527 -0,6659 EMPR_EXP 0,1488 -0,1184 0,3247 0,0124 0,1376 -0,4897 0,1865 -0,4602 -0,2840 -0,2777 -0,0522 -0,0868 -0,3379 -0,4185 -0,4763 BEN_OBJ1 -0,0946 -0,3174 0,0769 0,1359 -0,2827 0,2052 0,5558 0,1231 -0,0355 0,4899 0,2714 0,3242 -0,2137 -0,2200 -0,3843 BENSOLAC -0,1226 -0,2552 0,1752 -0,3542 -0,0758 0,2593 -0,0949 0,3592 0,0604 -0,4825 -0,3705 -0,0798 -0,0196 -0,6978 0,1204 BAL_SOCI 0,1140 -0,1270 -0,3509 0,2838 0,3994 0,0687 -0,0788 -0,0606 0,5278 0,0285 -0,3029 0,3463 -0,3167 -0,4941 -0,0799 MARK_NEC 0,0893 -0,1657 0,3535 -0,3258 0,3490 -0,0288 0,1012 0,0441 0,6396 0,2149 0,1242 -0,0806 0,2442 0,5066 -0,1283

Cargas de los factores retenidos:---------------------------------

Aquí han salido 5 factores sin rotación. Pero esta matriz es difícil de interpretar porque tiene las cargas muy altas para el factor 1 y para el factor 2.Aunque hemos extraído varios factores, como tienen elevados números en las cargas, no sabemos que factor es más importante que otro.

¿Qué variable es más importante que las otras?

FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 FACTOR 5 COMUNALIDAD -------- -------- -------- -------- -------- -----------EPU_OBEC 0,5235 -0,2539 -0,3078 -0,1587 0,2203 0,5069 EPU_OBSO 0,4599 -0,5037 -0,1297 -0,2161 0,1656 0,5561 DIRE_SUF 0,5558 0,3156 -0,2000 -0,3165 0,0293 0,5496 ECME_PLA -0,6326 -0,0655 -0,0066 -0,1343 0,3373 0,5363 DESP_LIB -0,3886 -0,3667 -0,1716 -0,2977 -0,2463 0,4641 LIBERAL -0,4859 -0,0979 -0,3679 -0,1718 0,3171 0,5111 ECSOLMER -0,1293 -0,3579 0,3078 0,6023 0,2343 0,6571 SOCIALIS 0,6155 -0,4176 0,0023 0,1880 -0,2698 0,6613 COMUNISM 0,4659 -0,2567 -0,3055 -0,0738 -0,3725 0,5205 EMPR_CRE -0,5846 -0,3547 -0,3682 0,1180 0,0106 0,6172 EMPR_EXP 0,4822 -0,2042 0,4300 0,0150 0,1403 0,4791 BEN_OBJ1 -0,3065 -0,5474 0,1019 0,1645 -0,2882 0,5142 BENSOLAC -0,3973 -0,4402 0,2320 -0,4285 -0,0773 0,5951 BAL_SOCI 0,3693 -0,2191 -0,4648 0,3434 0,4072 0,6842 MARK_NEC 0,2894 -0,2858 0,4681 -0,3941 0,3559 0,6666

VARIANZA: 3,2405 1,7250 1,3244 1,2098 1,0196 % DE VARIANZA: 21,60% 11,50% 8,83% 8,07% 6,80% % VAR.ACUMUL.: 21,60% 33,10% 41,93% 50,00% 56,80%

Haremos la rotación VARIMAX para ver que factor es más importante. Vemos la carga de los factores retenidos después de la rotación

ROTACIÓN VARIMAX: -----------------

Cargas de los factores retenidos (después de la rotación):----------------------------------------------------------

FACTOR 1 FACTOR 2 FACTOR 3 FACTOR 4 FACTOR 5 COMUNALIDAD -------- -------- -------- -------- -------- -----------EPU_OBEC 0,6423* -0,2070 0,1735 -0,0520 0,1368 0,5069 EPU_OBSO 0,6071* -0,0684 0,3417 0,1791 0,1845 0,5561 DIRE_SUF 0,2243 -0,5989* 0,1106 -0,3031 0,1910 0,5496 ECME_PLA -0,1229 0,1505 -0,0201 0,2360 -0,6652* 0,5363 DESP_LIB 0,0016 -0,0427 -0,1408 0,6551* -0,1158 0,4641 LIBERAL 0,1713 -0,0204 -0,2113 0,2424 -0,6147* 0,5111 ECSOLMER 0,0430 0,7964* 0,1099 -0,0929 -0,0163 0,6571 SOCIALIS 0,3894 0,1308 0,1344 0,0421 0,6876* 0,6613 COMUNISM 0,3778 -0,2174 -0,1094 0,1771 0,5359* 0,5205 EMPR_CRE 0,1379 0,2998 -0,4190 0,4494* -0,3617 0,6172 EMPR_EXP 0,1228 0,1348 0,5702* -0,1584 0,3091 0,4791 BEN_OBJ1 -0,0410 0,4525 -0,0771 0,5322* 0,1362 0,5142 BENSOLAC -0,1448 0,0489 0,2802 0,6738* -0,1977 0,5951 BAL_SOCI 0,7363* 0,1809 -0,1301 -0,3038 -0,0112 0,6842 MARK_NEC 0,1288 -0,0408 0,8009* 0,0731 -0,0396 0,6666

VARIANZA: 1,7876 1,4793 1,5096 1,7740 1,9690 % DE VARIANZA: 11,92% 9,86% 10,06% 11,83% 13,13% % VAR.ACUMUL.: 11,92% 21,78% 31,84% 43,67% 56,80%

Tres efectos de la rotación VARIMAX:

La cantidad total de varianza es la misma. Con este modelo factorial hemos explicado un 56.80% de la varianza total. Ahora hemos mejorado la interpretación de los datos y podemos distinguir que variable tiene mas peso en cada factor.

Sin embargo, la varianza es de cada factor es menor. Hemos redistribuido la varianza, para que cada factor tenga niveles semejantes de varianza.

Tercer efecto de la rotación es que hemos mejorado la interpretación de los datos, Ahora podemos ver que variable tiene mas peso para cada factor (las que tienen *).


EPU_OBEC 0,3741 -0,1147 0,0637 0,0151 -0,0909 EPU_OBSO 0,3335 -0,0433 0,1866 0,1552 -0,0352 DIRE_SUF 0,0843 -0,3752 0,0237 -0,0790 -0,0170 ECME_PLA 0,0629 0,0363 0,1126 0,0240 -0,3779 DESP_LIB 0,0263 -0,1343 -0,0756 0,4103 0,0492 LIBERAL 0,2499 -0,0804 -0,0564 0,0559 -0,3802 ECSOLMER 0,0500 0,5974 0,0906 -0,1776 -0,0119 SOCIALIS 0,1054 0,1396 -0,0401 0,1183 0,3777 COMUNISM 0,1320 -0,1461 -0,1957 0,2286 0,3223 EMPR_CRE 0,1950 0,1332 -0,2445 0,1822 -0,1141 EMPR_EXP -0,0122 0,1491 0,3597 -0,0655 0,0678 BEN_OBJ1 -0,0419 0,2583 -0,0649 0,3009 0,2253 BENSOLAC -0,0738 -0,0735 0,2591 0,4030 -0,0409 BAL_SOCI 0,4980 0,1964 -0,1385 -0,2336 -0,1791 MARK_NEC 0,0440 -0,0282 0,5907 0,0566 -0,1829

REPRESENTACIÓN GRÁFICA DE LOS FACTORES--------------------------------------

VARIABLES:

Código Significado------ ---------------- A EPU_OBEC B EPU_OBSO C DIRE_SUF D ECME_PLA E DESP_LIB F LIBERAL G ECSOLMER H SOCIALIS I COMUNISM J EMPR_CRE K EMPR_EXP L BEN_OBJ1 M BENSOLAC N BAL_SOCI O MARK_NEC

FACTORES 1 y 2: FACTOR 2 |—————————————————————————————————————————————————————————————————————————————————• 1,0 + + | | | | 0,9 + + | | | | 0,8 + + G | | | | 0,7 + + | | | | 0,6 + + | | | | 0,5 + + | | L | | 0,4 + + | | | | 0,3 + + J | | | | 0,2 + + N | | D | K H | 0,1 + + | | M | | 0,0 +----+---+---+---+---+---+---+---+---+---+---+--F+---+---+---+---+---+---+---+----|FACTOR 1 | E O B | -0,1 + + | | | | -0,2 + + I A | | | | -0,3 + + | | | | -0,4 + + | | | | -0,5 + + | | | | -0,6 + + C | | | | -0,7 + + | | | | -0,8 + + | | | | -0,9 + + | | | | -1,0 + + | |————+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+———+————• -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0

Tenemos una representación gráfica para los factores 1 y 2 después de la rotación VARIMAX.

Ejercicio 2

1. Define y relaciona los siguientes términos: factor, cargas, y comunalidad.

2. ¿Cuáles son los criterios que podemos emplear para determinar el número de factores a extraer?

3. ¿Para qué usaríamos una rotación ortogonal en el ACP?

4. Construye un diseño adecuado para el siguiente estudio con el ACP:

“La imagen juega un papel de gran importancia en el marketing. Una imagen de marca se puede examinar desde la interacción de varias dimensiones o construcciones que caracterizan a dicha marca. En el presente estudio, nos centraremos en identificar la imagen de BMW que motiva a los consumidores potenciales hacia la compra...”

5. Tras realizar una investigación sobre la imagen de BMW, se consiguieron los siguientes resultados. Interpreta lo que indica la tabla y prepara un informe:

----------------------------------------------------------

Cargas de los factores retenidos (después de la rotación): FACTOR 1 FACTOR 2 COMUNALIDAD

Prestigio 0.6132* 0.2328 0.5302 Estatus social 0.4509* 0.0857 0.5106 Calidad 0.3287* 0.0595 0.4516 Sofisticación 0.6605* -0.2364 0.5963 Tecnología -0.0930 0.5690* 0.5477 Extravagancia -0.4916 -0.7263* 0.5692

VARIANZA: 1.6780 1.5875 % DE VARIANZA: 27.97% 26.46%% VAR.ACUMUL.: 27.97% 54.43%

1. Define y relaciona los siguientes términos: factor, cargas, y comunalidad.

2. ¿Cuáles son los criterios que podemos emplear para determinar el número de factores a extraer?

Para el último criterio es posible que se quiera explicar gráficamente con el grafico de sedimentación. Tendríamos que explicar como determinar el punto de corte.

3. ¿Para qué usaríamos una rotación ortogonal en el ACP?

La rotación es una manipulación matemática del ACP que facilita la interpretación de factores. Se utiliza para lograr un patrón de factores más simple y teóricamente más significativo. Técnicamente, la rotación consiste en girar los ejes de referencia de los factores hasta alcanzar una determinada posición para redistribuir la varianza de los mismos. Si se mantiene un ángulo de 90 grados, se llama rotación ortogonal, y sino se denomina rotación oblicua. En el ACP, normalmente se usa la rotación ortogonal.

En el libro de AM, vienen explicados todos estos sistemas de rotación

4. Construye un diseño adecuado para el siguiente estudio con el ACP:

“La imagen juega un papel de gran importancia en el marketing. Una imagen de marca se puede examinar desde la interacción de varias dimensiones o construcciones que caracterizan a dicha marca. En el presente estudio, nos centraremos en identificar la imagen de BMW que motiva a los consumidores potenciales hacia la compra...”

En el apartado de objetivo del estudio se puede escribir algo como lo de arriba.En la introducción habría que intentar convencer de porque el profesor tiene que leer ese trabajo. Normalmente la introducción es para resumir las partes más importantes y convencer de porque leer el trabajo.

Primeramente, investigaremos la literatura existente para establecer el estado del arte. A continuación, establecemos las hipótesis que queremos validar o rechazar mediante el estudio.

¿Por qué queremos efectuar este estudio? Es una de las preguntas a responder. Diferentes a objetivos.Ahora estableceremos y concretaremos las partes técnicas: variables y escalas. En el ACP se pueden utilizar solo variables métricas. Si tenemos variables categóricas, las tenemos que convertir en variables métricas.Este tipo de variables se llaman variables ficticias. Dependiendo de la técnica multivariante, podemos utilizar estas variables ficticias para el análisis.

Ahora determinamos el tamaño muestral. Como regla general, el tamaño de la muestra debe ser por lo menos 50, y preferiblemente superior a 100 observaciones.

Ventaja de realizar revisión bibliográfica: saber como se diseñan los estudios, saber que variables, que escalas, que técnicas multivariantes se han realizado. Así tendremos mejor información para saber tipo de variables y tipo de escalas.

Después de determinar el tamaño muestral, hay que concretar los métodos de la investigación, instrumentos, colección de datos, muestreo, etc.

Ahora examinamos los supuestos. Ahora ya tenemos datos, y tenemos que examinar los supuestos. Hay dos tipos de supuestos a examinar:Aparte de los supuestos principales como la normalidad, la linealidad y la homocedasticidad, hay que examinar el supuesto específico: ver si existe un alto nivel de correlación entre las variables. Para examinarlo:

Examen visual de la matriz de correlaciones, Test de Bartlett, Indice KMO

Después determinamos el número de factores a ser extraídos. Ver el criterio:

Criterio de raíz latente Criterio a priori Criterio de porcentaje de la varianza Criterio de contraste de caída

Si seleccionamos varios criterios (como hoy), una regla general, empírica; cuando seleccionamos Criterio de contraste de caída, normalmente salen uno o dos factores más que cuando se selecciona el Criterio de Valores Propios mayores que uno. Es lógico, ya que el Criterio de Contraste de Caída es un simple examen visual, y el otro es mucho más empírico y objetivo.

Haré una revisión bibliográfica, y si salen los factores que espero después de mi revisión bibliográfica, me puedo quedar con ese criterio

También se realiza normalmente la rotación ortogonal de los factores para su mejor interpretación. Después de esto, tenemos que atribuir significado a cada factor asignándole una etiqueta adecuada.

Finalmente, realizaremos una interpretación y validación de los factores

5. Tras realizar una investigación sobre la imagen de BMW, se consiguieron los siguientes resultados. Interpreta lo que indica la tabla y prepara un informe:

----------------------------------------------------------

Cargas de los factores retenidos (después de la rotación): FACTOR 1 FACTOR 2 COMUNALIDAD

Prestigio 0.6132* 0.2328 0.5302 Estatus social 0.4509* 0.0857 0.5106 Calidad 0.3287* 0.0595 0.4516 Sofisticación 0.6605* -0.2364 0.5963 Tecnología -0.0930 0.5690* 0.5477 Extravagancia -0.4916 -0.7263* 0.5692

VARIANZA: 1.6780 1.5875 % DE VARIANZA: 27.97% 26.46%% VAR.ACUMUL.: 27.97% 54.43%

Dos puntos a tener en cuenta:1. No se deben repetir, sino interpretar los datosCuando ya se tienen los datos, no importan las respuestas que repiten datos: ¡ya se pueden ver en la tabla!2. Realizar recomendaciones: a) para la empresa, y b) para los investigadores

Entonces:Diremos que variable tiene mayor importancia en cada factor. Pe Luego diremos como interpretar estos datos. En el cuadro no dice nada sobre la interpretación. Entonces, para FACTOR 1 y FACTOR 2 tendremos que interpretar.

Para poner una etiqueta al FACTOR 1, pensaremos en alguna palabra que tenga que ver con sofisticación, prestigio, estatus social y calidad.

“Los elementos determinantes de la imagen implican una relación coherente entre todos los factores extraídos. El primer factor se puede etiquetar como “Estatus”, e indica la imagen de prestigio que da la marca BMW. La Sofisticación ha sido percibida como la imagen principal de dicha marca. Esta imagen parece ser una percepción general de BMW.

El segundo factor es más difícil interpretar, ya que existen dos elementos contradictorios, es decir, Tecnología y Extravagancia. Probablemente, la marca BMW ha sido evaluada de tal manera debido al elevado nivel de precio que no necesariamente compensa el nivel de tecnología percibida.”.Shintaro.

Uno de los peligros del ACP es la subjetividad a la hora de interpretar los factores. Con esta técnica no se puede evitar la interpretación subjetiva.

Otro de los peligros es la interpretación de las etiquetas. Deberíamos explicar que significa cada etiqueta.

“Desde el punto de vista empresarial, nuestra recomendación seria realizar acciones filantrópicas con el fin de aumentar su imagen social, tales como patrocinar partidos deportivos, llevar a cabo actividades culturales, etc. También habría que hacer una publicidad comparativa entre la marca BMW y otras marcas competidoras para convencer a los consumidores de que la relación entre precio y calidad es equilibrada o incluso superior a la de otras marcas.

Metodológicamente, hay dos advertencias que merecen nuestra atención. Primero, el hecho de que el estudio ha extraído solo dos factores implica que el número de ítems incluidos en el cuestionario probablemente no era suficiente. Segundo, como los factores explican solo la mitad (un 54%) de la varianza total, existirían otras dimensiones o construcciones que explican la otra mitad de la varianza. En un futuro estudio, se deben considerar e incorporar estas dos limitaciones para aumentar la significación tanto práctica como estadística.”. Shintaro.

TEMA 3: EL ANALISIS FACTORIAL DE CORRESPONDENCIAS

Estructura de la clase:1. Introducción.2. Definición y objetivo del AFC.3. Conceptos básicos del AFC.4. Supuestos del AFC. 5. Diseño del AFC.6. Casos prácticos con DYANE.

Introducción.

En el pasado, las técnicas de descomposición del análisis multidimensional (AM) han sido frecuentemente utilizadas. El AM es un conjunto de procedimientos para desplegar las relaciones (de similitud o preferencia) mediante un mapa perceptual. Sin embargo, en las últimas épocas, se han combinado aspectos del análisis factorial o del análisis discriminante y del análisis multidimensional para configurar una nueva técnica llamada “análisis factorial de correspondencias”.

El AM es una técnica de descomposición de datos y éstos se representan mediante un mapa perceptual, donde

Es una técnica para analizar tablas de contingencia. Requiere de una matriz de datos con entradas NO negativas. Se utilizan variables categóricas nominales, de ahí que no puedan

haber datos negativos. Se tienen que identificar correctamente los objetos y los atributos.

Ejemplo:Analizamos las cervezas más representativas del mercado español. Queremos saber el posicionamiento de las marcas existentes en la actualidad para introducir una nueva marca de cerveza extranjera:

−

HeinekenCruzCampo

AmstelA

SanMiguel

Mahou

OBJETOS (marcas representativas)

Envase

ecio

Sabor

Pr ATRIBUTOS

Otro ejemplo:Imaginemos que tenemos una serie de marcas de bebidas alcohólicas (A, B, C y D) y queremos saber la existencia de similitud entre marcas. Existen varios métodos para medir la similitud entre marcas. Podríamos por ejemplo, comparar por parejas, es decir A con B, luego A con C, etc.

Para poder realizar este estudio, creamos una tabla de doble entrada y determinamos un orden de similitudes, por ejemplo:

Marca A Marca B Marca C Marca DMarca A 1 3 5Marca B 4 6Marca C 2Marca D

Una vez asignadas las similitudes, comprobamos que esta ordenación es difícil de apreciar una vez dispuesta esta información en forma de tabla.Podríamos utilizar un índice estadístico para ordenar los datos, colocando el orden de similitud entre las marcas, midiendo éstas de una forma más objetiva mediante las distancias entre marcas:

D C A B

-2 -1 0 1 2

En el gráfico anterior, si se puede apreciar mejor las distancias existentes entre similitud de marcas. Por ejemplo, la B y la D son las marcas mas distanciadas tal y como se puede comprobar en la tabla de doble entrada anterior, ya que tienen un valor igual a 6.

En el gráfico anterior, estaríamos observando una única dimensión al estar las marcas dispuestas horizontalmente. Si quisiéramos utilizar dos dimensiones, podríamos incluso mejorar el nivel de percepción:

Dimensión 2 A B

Dimensión 1 C

D

Resumiendo:

Definición y objetivo del AFC.

El análisis factorial de correspondencias (AFC) es una técnica de interdependencia descriptiva que representa gráficamente mediante filas

Determinación de Atributos y Objetos

Encuesta con escala nominal (dicotómicas), es decir, mutuamente excluyentes

Mapa de posicionamiento. Colocar atributos gráficamente.

y columnas una tabla de contingencia, basándose en la descomposición de la Chi-cuadrado. Otra definición: Es una representación gráfica y podemos ver esa representación gráfica entre objetos y atributos de una forma muy sencilla.

La Chi-cuadrado (X 2 ) es una medida estandarizada de las frecuencias observadas de cada celda con las frecuencias esperadas de celdas. Los valores de la X2 pueden convertirse en medidas de similitud.

El objetivo principal del AFC es identificar afinidades entre categorías de filas y columnas presentadas en forma de tabla, tanto de frecuencias como de valores medios.

Las ventajas principales del AFC son:1. su capacidad para representar relaciones entre categorías de datos

nominales con filas y columnas en un mismo espacio. 2. El AFC difiere de otras técnicas de interdependencia en su

capacidad para utilizar tanto datos no métricos como relaciones no lineales.

Conceptos básicos del AFC.

A partir de la tabla de contingencia, se calcula una matriz de covarianzas de las variables columna, que luego se factoriza aplicando el Análisis de Componentes Principales. Las raíces y los vectores característicos que se obtienen permiten calcular las coordenadas de las variables filas y columnas. La correlación de cada variable con cada uno de los ejes factoriales obtenidos depende del valor de la coordenada respecto del eje considerado y las restantes coordenadas con los demás ejes.La medida de la asociación entre variables filas y columnas viene dada por la inercia (concepto del DYANE)(variación explicada del modelo) total. La inercia es el resultado de dividir el valor de la X2 de la tabla por la suma total de frecuencias. Cada factor obtenido contribuye a la inercia en forma decreciente, de modo que el primer factor es el que mayor inercia explica, luego el segundo, y así sucesivamente. Dentro de cada eje o factor, la contribución a la inercia de cada variable está en función de los valores de su coordenada y de la frecuencia total de la variable columna o fila correspondiente.

Si dos filas (columnas) tienen perfiles próximos, es decir, los porcentajes de las filas (columnas) de ambas son parecidos, aparecerán próximos sobre el grafico. Si aparecen alejados tienen perfiles diferentes.

Supuestos del AFC.

El uso del AFC tiene una relativa libertad respecto a sus supuestos básicos. Se pueden utilizar tanto datos no métricos como relaciones no lineales. Los supuestos del AFC se centran principalmente en la comparabilidad y representatividad de los objetos que están siendo evaluados y de los encuestados.El proceso de muestreo es clave (a la hora de seleccionar los objetos más representativos) cuando se aplica en el mundo real. En el ejemplo de las marcas, tenemos siempre que seleccionar las más representativas.

Diseño del AFC.

Determinación del objetivo del estudio. Comprobación de los supuestos del AFC. Creación de una tabulación cruzada de entradas no negativas. Cálculo de la X2 Identificación del número apropiado de dimensiones. El número máximo de dimensiones es igual al número más pequeño de filas o columnas menos uno. Por ejemplo, si una variable dispone de cinco categorías y la otra de cuatro, el número máximo de dimensiones es tres.

Creación del mapa perceptual. (Con dos ejes para realizar el posicionamiento)

Interpretación y validación.

Método de validación:Los investigadores deben evaluar la sensibilidad de los resultados. ¿Como? Con la adición o sustracción por ejemplo de un objeto, podemos saber si el análisis es dependiente de ese objeto en concreto y no de la relación de este con los demás. Si los datos cambian drásticamente, quiere decir que evidentemente que no hemos elegido los objetos correctamente.

Casos prácticos con DYANE.

ANALISIS FACTORIAL DE CORRESPONDENCIAS AFC1

Para este ejercicio, se ha utilizado el fichero COMPORT.DYT, fichero de ejemplo del DYANE v2.0. Una vez abierto este fichero en DYANE, obtenemos el análisis factorial por correspondencias (AFC)

Elegimos la opción TABLA DE FRECUENCIAS:

Después seleccionamos las variables fila y columna. Las variables fila tienen que seguir una ESCALA NOMINAL. En este caso las variables son DICOTÓNMICAS (SI o NO).

Las variables columna, han de seguir una ESCALA CATEGÓRICA. El número de EJES (DIMENSIONES) difiere de la definición dada por el profesor. Esto es debido a que DYANE tiene en cuenta otros factores para calcular dichos EJES. Por lo tanto, lo calculado en DYANE también es válido.

En este caso, elegimos como variables fila TARJETA, AUTOMOV y VIVIENDA. Como variables columna, elegimos CLASSOC.

TABLA DE FRECUENCIAS: CLASSOC ----------------------------------- Alta/me Med Me dia alta ia media dia baja Baja -------- -------- -------- --------1 TARJETA -Sí 87 110 54 2 2 TARJETA -No 74 198 384 91 3 AUTOMOV -Sí 94 135 135 17 4 AUTOMOV -No 67 173 303 76 5 VIVIENDA-Sí 112 183 219 31 6 VIVIENDA-No 49 125 219 62

INERCIA TOTAL: 0.083073 JI-CUADRADO: 249.2178 Valores de la Inercia y la Chi-Cuadrado EJE 1 EJE 2 EJE 3 Dimensiones o ejes obtenidos -------- -------- --------VALORES PROPIOS: 0.0818 0.0012 0.0000 AUTOVALORES

CONTRIBUCION A LA INERCIA: 98.5171 1.4241 0.0588 Los ejes 1 y 2 son los más representativos. El eje 3 es ignorable.VECTORES PROPIOS: 1.6915 -0.1901 -1.5211 AUTOVECTORES 0.5720 -0.3584 1.3383 -0.6902 0.8711 -0.2189 -1.5723 -2.5867 -0.7678

Resumiendo: Los ejes 1 y 2 representan el 99,5% de la información. En este caso, se puede despreciar la información proporcionada por el eje 3, siempre que no se necesite verdaderamente esta información para el estudio que queramos elaborar.

ESTUDIO DE LAS COLUMNAS (% de inercia explicada para cada eje)----------------------- E J E 1 E J E 2 E J E 3 ---------------------- ---------------------- ----------------------

COOR- CORRE- % INER. COOR- CORRE- % INER. COOR- CORRE- % INER. DENADA LACION EXPLIC. DENADA LACION EXPLIC. DENADA LACION EXPLIC. ------ ------ ------ ------ ------ ------ ------ ------ ------ 1. Alta/media alta 0.484 0.999 46.07 -0.007 0.000 0.58 -0.011 0.000 37.25 2. Media media 0.164 0.991 10.08 -0.012 0.006 3.96 0.009 0.003 55.17 3. Media baja -0.197 0.977 20.86 0.030 0.023 33.24 -0.002 0.000 2.10 4. Baja -0.450 0.962 22.99 -0.089 0.038 62.23 -0.005 0.000 5.48

ESTUDIO DE LAS FILAS-------------------- E J E 1 E J E 2 E J E 3 ---------------------- ---------------------- ---------------------- COOR- CORRE- % INER. COOR- CORRE- % INER. COOR- CORRE- % INER. DENADA LACION EXPLIC. DENADA LACION EXPLIC. DENADA LACION EXPLIC. ------ ------ ------ ------ ------ ------ ------ ------ ------ 1. TARJETA -Sí 0.671 0.993 46.35 -0.056 0.007 22.11 0.006 0.000 6.23 2. TARJETA -No -0.227 0.993 15.70 0.019 0.007 7.49 -0.002 0.000 2.11 3. AUTOMOV -Sí 0.305 0.994 14.47 0.019 0.004 4.03 -0.013 0.002 43.40 4. AUTOMOV -No -0.188 0.994 8.90 -0.012 0.004 2.48 0.008 0.002 26.71 5. VIVIENDA-Sí 0.173 0.940 6.64 0.044 0.059 29.07 0.005 0.001 9.80 6. VIVIENDA-No -0.207 0.940 7.95 -0.052 0.059 34.82 -0.006 0.001 11.74

REPRESENTACIÓN GRÁFICA DE LOS EJES FACTORIALES (Codificación o etiquetación de las variables para su representación grafica)----------------------------------------------VARIABLES COLUMNA:Código Significado------ ---------------- A Alta/media alta B Media media C Media baja D Baja

VARIABLES FILA:Código Significado------ ---------------- 1 TARJETA -Sí 2 TARJETA -No 3 AUTOMOV -Sí 4 AUTOMOV -No 5 VIVIENDA-Sí 6 VIVIENDA-No

EJES 1 y 2: Únicamente se miran los resultados de éstos 2 ejes ya que la información proporcionada por el eje 3 es ignorable. En este gráfico, medimos la similutud que puedan tener las variables aplicando un criterio

subjetivo, dado que somos nosotros los que tenemos elegir dicha simulitud, observando las variables directamentedel gráfico. No tenemos que olvidar que la técnica del AFC mide el posicionamiento de las variables.

EJE 2•———————————————————————————————————————————————————————————————————————————————————————————————————•| | || | || | || | || | || | || | || | || | || | || | 5 || 2 C | 3 |--------------------------------------4------------+-----------B----------------------A---------EJE 1| | || 6 | 1 || D | || La var. D está relacionada con la 6 | || | || | || | || | || | || | || | || | |•———————————————————————————————————————————————————————————————————————————————————————————————————•


Este ejercicio se ha realizado utilizando el fichero ACTI_TEMP.DYT del DYANE v2.0. Escogemos la opción de Tabla de Valores Medios del Análisis Factorial por correspondencias en DYANE:

Escogemos 10 variables fila y 1 variable columna. Las variables fila siguen una escala de Likert.El número de ejes o dimensiones es 3.

TABLA DE VALORES MEDIOS: PROMOC_A ----------------------------------- Tercera Cuarta Quinta Sexta (81/82) (82/83) (83/84) (84/85) -------- -------- -------- --------

1 LIBERAL 2.38 2.77 2.78 3.18 2 ECSOLMER 3.62 3.40 3.39 3.34 3 SOCIALIS 2.66 2.67 2.68 2.37 4 COMUNISM 1.45 1.53 1.56 1.68 5 EMPR_CRE 2.21 3.27 2.76 3.19 6 EMPR_EXP 2.10 1.83 1.73 1.76 7 BEN_OBJ1 2.90 2.57 3.37 2.63 8 BENSOLAC 2.14 2.00 2.27 2.05 9 BAL_SOCI 4.31 4.47 4.20 4.21 10 MARK_NEC 2.76 2.23 2.07 2.02

INERCIA TOTAL: 0.007384 JI-CUADRADO: 0.7862

EJE 1 EJE 2 EJE 3 -------- -------- --------VALORES PROPIOS: 0.0052 0.0017 0.0004

CONTRIBUCION A LA INERCIA: 70.4465 23.6515 5.9020 Se puede despreciar la información del tercer eje VECTORES PROPIOS: 1.5854 0.5292 0.4711 -0.5541 0.9535 -1.3292 0.0608 -1.6594 -0.4635 -1.0923 0.1877 1.3423

ESTUDIO DE LAS COLUMNAS----------------------- E J E 1 E J E 2 E J E 3 ---------------------- ---------------------- ---------------------- COOR- CORRE- % INER. COOR- CORRE- % INER. COOR- CORRE- % INER. DENADA LACION EXPLIC. DENADA LACION EXPLIC. DENADA LACION EXPLIC. ------ ------ ------ ------ ------ ------ ------ ------ ------ 1. Tercera (81/82) 0.114 0.957 62.59 0.022 0.036 6.97 0.010 0.007 5.53 2. Cuarta (82/83) -0.040 0.404 7.71 0.040 0.402 22.83 -0.028 0.195 44.36 3. Quinta (83/84) 0.004 0.004 0.09 -0.069 0.977 69.32 -0.010 0.019 5.41 4. Sexta (84/85) -0.079 0.880 29.60 0.008 0.009 0.87 0.028 0.111 44.71

ESTUDIO DE LAS FILAS-------------------- E J E 1 E J E 2 E J E 3 ---------------------- ---------------------- ---------------------- COOR- CORRE- % INER. COOR- CORRE- % INER. COOR- CORRE- % INER. DENADA LACION EXPLIC. DENADA LACION EXPLIC. DENADA LACION EXPLIC. ------ ------ ------ ------ ------ ------ ------ ------ ------ 1. LIBERAL -0.096 0.855 18.35 -0.011 0.011 0.70 0.038 0.134 34.25 2. ECSOLMER 0.030 0.833 2.27 0.012 0.121 0.98 0.007 0.045 1.47 3. SOCIALIS 0.029 0.419 1.62 -0.006 0.016 0.18 -0.034 0.565 26.09 4. COMUNISM -0.047 0.726 2.46 -0.008 0.019 0.19 0.028 0.255 10.30 5. EMPR_CRE -0.143 0.936 42.09 0.027 0.033 4.48 -0.026 0.030 16.17 6. EMPR_EXP 0.068 0.692 6.17 0.043 0.275 7.30 0.015 0.034 3.61 7. BEN_OBJ1 0.044 0.169 3.99 -0.097 0.827 58.03 -0.007 0.004 1.14 8. BENSOLAC 0.022 0.218 0.71 -0.040 0.768 7.41 0.006 0.015 0.57 9. BAL_SOCI 0.001 0.001 0.00 0.021 0.772 4.25 -0.012 0.227 5.01

10. MARK_NEC 0.117 0.798 22.34 0.058 0.198 16.47 0.008 0.004 1.39

REPRESENTACIÓN GRÁFICA DE LOS EJES FACTORIALES----------------------------------------------VARIABLES COLUMNA:Código Significado------ ---------------- A Tercera (81/82) B Cuarta (82/83) C Quinta (83/84) D Sexta (84/85)

VARIABLES FILA:Código Significado------ ---------------- 1 LIBERAL 2 ECSOLMER 3 SOCIALIS 4 COMUNISM 5 EMPR_CRE 6 EMPR_EXP 7 BEN_OBJ1 8 BENSOLAC 9 BAL_SOCI 10 MARK_NEC

EJES 1 y 2: EJE 2•———————————————————————————————————————————————————————————————————————————————————————————————————•|| | || | || | || | || | || | || | || | 10 || | || B | 6 || | || 5 9 A || | || D | 2 |---------------------------------------------------+--------------------------------------------EJE 1| 1 4 | 3 || | || | || | || | 8 || | || | || | || |C || | || | || | 7 || | || | || | | | |•———————————————————————————————————————————————————————————————————————————————————————————————————•


Utilizamos el fichero ACTI_EMP.DYT con el fichero AFC1.TBL, ambos vienen con DYANE v2. En este ejercicio, elegimos TABLA ESPECÍFICA (“AD HOC”).

En entrada de datos, elegimos la tabla AFC1.TBL, que está definida previamente.

TABLA: Ideal HPravia Sanex Tacto -------- -------- -------- --------1 Hidratan 9.00 3.00 4.00 6.00 2 Natural 9.00 3.00 4.00 5.00 3 Dermopro 9.00 2.00 6.00 5.00 4 No deter 9.00 5.00 5.00 5.00 5 Pielsuav 9.00 5.00 5.00 6.00

6 Recambio 6.00 3.00 1.00 2.00 7 Olor agr 8.00 5.00 2.00 5.00 8 Económic 7.00 2.00 1.00 1.00

INERCIA TOTAL: 0.055297 JI-CUADRADO: 8.6817 EJE 1 EJE 2 -------- --------VALORES PROPIOS: 0.0351 0.0157

CONTRIBUCION A LA INERCIA: 63.4315 28.4557 Escogemos las dos dimensionesVECTORES PROPIOS: 0.5563 -0.9980 1.2074 1.3685 -1.6970 -0.2915 -0.6573 1.0204

ESTUDIO DE LAS COLUMNAS----------------------- E J E 1 E J E 2 ---------------------- ---------------------- COOR- CORRE- % INER. COOR- CORRE- % INER. DENADA LACION EXPLIC. DENADA LACION EXPLIC. ------ ------ ------ ------ ------ ------ 1. Ideal 0.104 0.404 13.01 -0.125 0.584 41.87 2. HPravia 0.226 0.592 26.00 0.172 0.341 33.40 3. Sanex -0.318 0.921 51.36 -0.037 0.012 1.52 4. Tacto -0.123 0.374 9.63 0.128 0.404 23.21

ESTUDIO DE LAS FILAS-------------------- E J E 1 E J E 2 ---------------------- ---------------------- COOR- CORRE- % INER. COOR- CORRE- % INER. DENADA LACION EXPLIC. DENADA LACION EXPLIC. ------ ------ ------ ------ ------ ------ 1. Hidratan -0.096 0.427 3.65 0.004 0.001 0.01 2. Natural -0.069 0.522 1.81 -0.045 0.221 1.71 3. Dermopro -0.275 0.811 30.18 -0.131 0.185 15.39 4. No deter -0.030 0.058 0.40 0.063 0.247 3.82 5. Pielsuav -0.055 0.201 1.39 0.101 0.669 10.32 6. Recambio 0.329 0.996 23.59 -0.011 0.001 0.06 7. Olor agr 0.190 0.537 13.16 0.169 0.423 23.08 8. Económic 0.359 0.557 25.81 -0.320 0.441 45.60

REPRESENTACIÓN GRÁFICA DE LOS EJES FACTORIALES----------------------------------------------VARIABLES COLUMNA:Código Significado------ ---------------- A Ideal B HPravia C Sanex D Tacto

VARIABLES FILA:Código Significado------ ---------------- 1 Hidratan 2 Natural 3 Dermopro 4 No deter 5 Pielsuav 6 Recambio 7 Olor agr 8 Económic

EJES 1 y 2: EJE 2•———————————————————————————————————————————————————————————————————————————————————————————————————•| | | | ||| | || | 7 B || | || | || D | || | || 5 | || | || 4 | || | || | || | |---------------------------------------1-----------+--------------------------------------------EJE 1| | 6 || C | || 2 | || | || | || | || | || 3 | A || | || | || | || | || | || | || | || | 8 |•———————————————————————————————————————————————————————————————————————————————————————————————————•

Ejercicio 3

1. Explica dos ventajes principales del uso del AFC.

2. Menciona una de las precauciones que hay que tener en el uso del AFC.

3. Define y relaciona los siguientes términos: la Chi-cuadrado y la inercia.

4. ¿Cómo se puede determinar el número máximo de dimensiones en el AFC?

5. Se efectuó un estudio empírico sobre la relación entre las diversas clases sociales y la posesión de tarjeta de crédito, automóvil, y vivienda. La clase social se clasificó en cuatro tipos, (1) alta/media alta, (2) media media, (3) media baja, y (4) baja. Respecto a la posesión de cada atributo (es decir, de tarjeta de crédito, automóvil o vivienda), se asignó una de las dos categorías siguientes: “sí tengo” (número “1”) o “no tengo” (número “0”). Interpreta lo que indican los siguientes datos y explica cómo se crea una representación gráfica.

6. Interpreta lo que indica la siguiente Representación gráfica.

1. Explica dos ventajes principales del uso del AFC.

2. Menciona una de las precauciones que hay que tener en el uso del AFC.

3. Define y relaciona los siguientes términos: la Chi-cuadrado y la inercia.

4. ¿Cómo se puede determinar el número máximo de dimensiones en el AFC?

5. Se efectuó un estudio empírico sobre la relación entre las diversas clases sociales y la posesión de tarjeta de crédito, automóvil, y vivienda. La clase social se clasificó en cuatro tipos, (1) alta/media alta, (2) media media, (3) media baja, y (4) baja. Respecto a la posesión de cada atributo (es decir, de tarjeta de crédito, automóvil o vivienda), se asignó una de las dos categorías siguientes: “sí tengo” (número “1”) o “no tengo” (número “0”). Interpreta lo que indican los siguientes datos y explica cómo se crea una representación gráfica.

El eje 1 explica el 98% de la inercia, casi su totalidad. Prescindimos del tercero porque aporta poco a la inercia. De las categorías, la clase media/alta explica mayor Representa de la inercia (46,07%).

6. Interpreta lo que indica la siguiente Representación gráfica.

A la hora de interpretar u n mapa de posicionamiento debemos tener en cuenta si los datos están en la parte positiva o negativa, no tiene importancia. En lo que hay que fijarse es en la distancia entre los datos y agrupar los objetos que estén más cerca. Los atributos explican las características de esas agrupaciones.

- Si están próximos los perfiles son similares. Si están alejados, los perfiles son distintos.

- Si su valor es la media, se proyectará sobre el eje de ordenadas- Si está alejado el origen, su comportamiento será distinto del resto y

su contribución a la inercia será mayor.

Hay que justificar las interpretaciones, ese es el peligro que tenemos al usar técnicas interdependientes. En el gráfico podemos ver 4 grupos. Se comprueba la asociación de los atributos observados a los encuestados con las diversas marcas de automóvil.

1. Polo Asociación con los atributos más cercanos.2. Ibiza y Clío3. Punto, Saxo y Corsa.4. Fiesta y P106 no puedo captar suficientes atributos para

describirlos.

En concreto, este mapa no es muy fiable, no nos podemos fiar de los resultados de este estudio ya que el atributo amplitud está muy cercano al corsa, punto y saxo, que son coches pequeños. Por lo que el cliente no estaría de acuerdo con los resultados.

TEMA 4: EL ANALISIS CLUSTER

Estructura de la clase:1. Introducción.2. Definición y objetivo del AC.3. Conceptos básicos del AC.4. Supuestos del AC. 5. Diseño del AC.6. Casos prácticos con DYANE.

Introducción.

En estadística, la búsqueda de objetos relativamente homogéneos se denomina “análisis cluster” (Conglomerados o grupos. Tienen que ser homogéneos internamente y heterogéneos entre los grupos). Las aplicaciones del análisis cluster al marketing son múltiples. Por ejemplo, se utiliza mucho en el campo de la segmentación.

El origen de esta técnica multivariante se encuentra en la biología y la botánica. Los investigadores de estas áreas de conocimiento tenían que agrupar las distintas especies de animales y vegetales en familias que fueran lo más homogéneas posibles. Por ello, a esta técnica también se la denomina construcción de tipología, taxonomía numérica o análisis de clasificación.

Ejemplo ilustrativo:Imaginemos que hemos realizado una serie de encuestas para saber una/s característica/s de consumidores de grandes superficies más representativas en la CCAA de Madrid.Al representar gráficamente los datos obtenidos, lo haremos sobre dos ejes donde cada eje tenga sus medidas estandarizadas.

Básicamente consiste en agrupar, en este caso, los consumidores en grupos homogéneos entre sí y para formar los grupos o clústers , y para ello vamos encontrando las distancia mínima entre los puntos o consumidores.

Definición y objetivo del AC.

El análisis cluster se puede definir como una serie de técnicas estadísticas (grupo de técnicas) que sirven para determinar grupos internamente homogéneos (heterogéneos), pero distintos entre sí.

El objetivo principal del AC es la obtención de grupos internamente homogéneos y distintos entre sí basándose en su similitud para un conjunto de características especificadas. A cada uno de estos grupos se le denomina “conglomerado” o “cluster”.

Con estos grupos homogéneos, podemos conseguir los siguientes objetivos específicos:

(1) Simplificación de los datos e identificación de las relaciones entre los conglomerados o clusters.(2) Confirmación de una taxonomía o tipología propuesta.

El AC funciona mejor cuando tenemos una teoría específica. Por ejemplo: consumidores divididos en cinco grupos. Y se hace así por estudios previos.

Conceptos básicos del AC.

El análisis cluster es la única técnica multivariante que no estima el valor teórico empíricamente sino que utiliza el valor teórico especificado por el investigador. MUY IMPORTANTE: Somos nosotros los que estimamos el valor teórico.

Se debe incluir sólo aquellas variables que caracterizan los objetos que se están agrupando y que son coherentes con el objetivo del estudio. Dicha coherencia debe basarse en una teoría explícita, investigación previa o suposición propia.

Para formar los conglomerados o clusters homogéneos hay que seguir tres pasos:(1)determinación del método de medición de la similitud entre los objetos. (Medir la distancia entre dos puntos)(2)determinación del método de conglomeración jerárquica o no jerárquica. (Conglomeración significa agrupación)(3)determinación del número de conglomerados o clusters en la solución final. Supuestos del AC.

Las variables a utilizar en el AC son métricas.Los supuestos generales (linealidad, normalidad y homocedasticidad) tienen en general poco peso en el AC. No obstante, hay dos supuestos específicos que sí son importantes:

a) La representatividad de los datos: La bondad del AC depende mucho de la representatividad de la muestra, y es muy sensible a los casos atípicos.

b) El nivel de multicolinealidad: La multicolinealidad es (una medida por la cual una variable puede ser explicada por otras variables. El nivel de multicolinealidad implica ver el nivel de independencia entre las variables.

). Cuanto mayor es la multicolinealidad del análisis, más difícil es interpretar los resultados del análisis, porque es más difícil saber cuál es el efecto de una variable aislada debido a las interrelaciones entre las variables. Hay dos métodos para evaluar el nivel de multicolinealidad:

(1)VIF (factor de inflación de la varianza).(2)Tolerancia.

Estos dos índices se verán mejor en el modelo de regresión lineal múltiple.

Diseños del AC.

Para diseñar un AC hay que seguir los siguientes pasos: Determinar objetivos del AC. (Revisión bibliográfica) Seleccionar las variables y asegurar su

representatividad. Examinar los supuestos.

Detectar los atípicos. Examinar el nivel de multicolinealidad.

Determinar el método de medición de distancia o similitud.

Determinar el procedimiento de obtención de conglomerados o clusters.

Determinar el número de conglomerados o clusters.

Interpretación y validación de los resultados.

Determinar objetivos del AC: Qué queremos averiguar de esta técnica.

Selección de variables relevantes (representativas): Existen fundamentalmente tres métodos de selección de variables: inductivo, deductivo y cognitivo.

En el método inductivo (intuitivo), ni las variables ni el número de grupos tienen un nexo con una teoría. Se utiliza más en estudios exploratorios.

En el método deductivo, la selección de variables se apoya en la literatura teórica existente. La consistencia interna de los grupos resultantes es mayor ya que no se incluyen variables irrelevantes.

En el método cognitivo se utilizan las predicciones de determinados expertos de la industria para definir las variables.

Utilización de los factores. Se pueden utilizar los factores del ACP.

Examinar los supuestos: Detectar los atípicos Nivel de multicolinealidad.

Determinar el método de medición de similitud:

El concepto fundamental del análisis cluster es “la similitud”. Los casos pueden ser agrupados conforme a la similitud o distancia entre objetos. Existen varias medidas de distancia. La más utilizada es la distancia Euclídea. La distancia Euclídea entre los puntos es la longitud de la hipotenusa de un triángulo, calculada por la fórmula:

212

212 )()(Distancia yyxx −+−=

La distancia Euclídea al cuadrado tiene la ventaja de no tener que tomar la raíz cuadrada lo que acelera notablemente los cálculos, y es la medida de distancia recomendada para los métodos de análisis cluster del centroide y Ward.

* Distancia de Mahalanobis

Determinar el procedimiento de obtención de conglomerados:

Se trata de cómo elegir formas de combinar los objetos. Globalmente, hay dos procedimientos:

1) Procedimientos jerárquicos : Consisten en la construcción de una estructura en forma de árbol.

2) Procedimientos no jerárquicos (Análisis Cluster K-means): Asignan los objetos a conglomerados una vez que el número de conglomerados a formar está especificado, basándose en la búsqueda de la mejor solución.

1º ver las distancias y después incluir los puntos de esa distancia. Es un procedimiento matemático.

IMPORTANTE:En DYANE sólo está el (1). En SPSS están el (1) y el (2).Dentro del procedimiento jerárquico, existen varios métodos de agrupación:

1) Método aglomerativo o modelo ascendente (por ejemplo, Algoritmo de Johnson): Cada objeto empieza dentro de conglomerado. Los objetos más cercanos se combinan en conglomerados agregados reduciendo así el número de conglomerados. Está implementado así en DYANE.

2) Método divisivo o modelo descendente (por ejemplo, Algoritmo de Howard-Harris): Empezamos con un gran conglomerado que contiene todas las observaciones con los objetos. En pasos sucesivos, los objetos se van dividiendo donde después se constituyen conglomerados más pequeños hasta quedar los conglomerados básicos, diferenciados entre sí.

Dentro del método aglomerativo o modelo ascendente, hay varios métodos de encadenamiento. Los métodos más importantes son los tres primeros.

1) Encadenamiento simple: Se basa en la distancia mínima entre los dos casos.

2) Encadenamiento completo: Se basa en la distancia máxima entre los dos casos. Entre todas las distancias máximas existentes.

3) Encadenamiento promedio: Se basa en la distancia media de todos los casos.

4) Encadenamiento de Ward: Calcula la media de todas las variables de cada cluster, y luego calcula la distancia euclídea al cuadrado entre cada indiviuo y la media de su grupo, etc.

5) Encadenamiento del centroide: Distancia entre los centroides de los conglomerados.

Determinar el número de conglomerados:

El resultado de la agrupación se suele resumir en una matriz de distancias. En la matriz de distancias, podemos decidir cuantos clusters se necesitan comparando las distancias entre los casos.

Otra forma de visualizar la representación de los pasos en un análisis jerárquico es el dendrograma. El dendrograma muestra el cluster que es combinado y los valores de los coeficientes en cada caso. El dendrograma se lee de izquierda a derecha.

Existen tres criterios que pueden ayudar al investigador a tomar una decisión relativa al número óptimo de grupos a formar:

(1) Dendograma.

(2) Matemáticamente determinar el número de conglomerados.

(3) Base teórica. Revisar estudios previos. Con esta base teórica (estadística de fuentes secundarias) podemos dividir las observaciones para obtener un determinado número de clusters.

Interpretación y validación de los resultados:

La validación del AC, de la misma manera que en el ACP, se puede realizar escindiendo la muestra en dos grupos. Cada conglomerado se analiza por separado y se comparan después los resultados. También, Hair et al. (1998) explica que "la aproximación más directa es realizar el AC para muestras distintas. Esta aproximación, sin embargo, a menudo no es práctica debido a las restricciones de tiempo o de costes o a la no disponibilidad de objetos..." (pp. 517).

Casos prácticos con DYANE.

Ejercicio 4

1. Explica dos ventajas principales del uso del AC.2. ¿Cuáles son los pasos básicos en la obtención de clusters?3. Define y relaciona los siguientes términos: la similitud y la distancia Euclídea.4. Explica cómo elegir formas de combinar los objetos.5. Explica en qué consiste el “encadenamiento completo” utilizando el siguiente cuadro.

Matriz de distancias euclídeas A B C D E

A 0

B 1 0

C20 14

0

D12 11

5 0

E 7 18 2523

0

1. Explica dos ventajas principales del uso del AC.

1) Simplificar los datos e identificar las relaciones entre los conglomerados o clusters2) Confirmar una taxonomía o tipología propuesta

El Análisis Cluster funciona mucho mejor cuando tenemos una base teórica.

Tengo una taxonomía clasificable, como por ejemplo una taxonomía en la que se puedan dividir en grupos del tipo “Alumnos que no han entregado el trabajo de ITM”, “Alumnos que han entregado el trabajo la semana pasada”, “Alumnos que han entregado el trabajo la última semana”

2. ¿Cuáles son los pasos básicos en la obtención de clusters?

Por definición el AC es un conjunto de técnicas de clasificación de objetos y no una sola. Por eso nos centramos en tres pasos.

1º.- Nos centramos en la determinación del método de medición de la similitud entre los objetos. Aquí nos hemos marcado la distancia euclídea como indicador

2º.- Determinación del método de Conglomeración Jerárquica o No Jerárquica (el No Jerárquico no lo estudiaremos este año). El procedimiento ideal del AC es utilizar el método Jerárquico y obtener los resultados, y luego validar estos resultados con el método No Jerárquico.

3º.- Determinar el nº de conglomerados o clusters en la solución final. ¿Cómo? Hay 3 métodos para determinar el nº de clusters:

a) En los métodos Jerárquicos, el criterio más usado es la observación del dendograma.

b) Podemos utilizar medidas matemáticas. Calcular matemáticamente el nº de conglomerados, pero esto no lo hemos visto.

c) Recomendado: La existencia de una teoría previa. Podemos proponer un modelo mediante estudios previos o datos estadísticos de la industria o los artículos de expertos del área. Con esto proponemos la base teórica.

3. Define y relaciona los siguientes términos: la similitud y la distancia Euclídea.

Son conceptos principales del Análisis Cluster.

Básicamente hablamos de objetos para clasifica y agrupar un conglomerado. Tenemos que medir la distancia, y esta distancia es sinónimo de similitud,. Para medir la distancia matemáticamente usamos el concepto de distancia euclídea.

La similitud es un concepto fundamental del análisis cluster, en base a los cual pueden ser agrupados. Esencialmente, la similitud es sinónimo de distancia entre objetos. La más utilizada es la distancia Euclídea. La Distancia Euclídea entre dos puntos es la longitud de la hipotenusa de un triangulo, y se calcula así:

Distancia = 212

212 )()( YYXX −+−

4. Explica cómo elegir formas de combinar los objetos.

Globalmente, hay dos procedimientos del análisis cluster: Procedimientos jerárquicos y Procedimientos No jerárquicos:Dentro del jerárquico, existen varios métodos de agrupación:

1) Método aglomerativo o modelo ascendente (Algoritmo de Johnson en Dyane).En este método, cada objeto o observación empieza dentro de su propio conglomerado. En etapas ulteriores los dos conglomerados más cercanos se combinan en un nuevo conglomerado agregado, reduciendo así el número de conglomerados paso a paso

2) Método divisivo o modelo ascendente (Algoritmo de Howard-Harris en Dyane)

Empezamos con un gran conglomerado que contiene todas las observaciones y en los pasos sucesivos las observaciones que son mas diferentes se dividen y se construyen conglomerados más pequeños. Etc.…. (Esto esta en el esquema del tema 4)

Distancia=Similitud

Para medirlo se utiliza la distancia euclídea:

Distancia =

5. Explica en qué consiste el “encadenamiento completo” utilizando el siguiente cuadro.

Matriz de distancias euclídeas

1) Primeramente hay que identificar entre que variables la distancia es mínima:

En este ejemplo, la distancia mínima se da entre A y B. Por ello, se agruparían estos dos casos.

2) Después de agrupar los dos casos, hay que formar una nueva matriz de combinaciones como la siguiente:

AB C D EAB 0C ? 0D ? 5 0E ? 25 23 0

3) Ahora hay que calcular las distancias mínimas con la nueva matriz de combinaciones mediante el encadenamiento completo:

D(AB)C = Max (dA – C, dB-C) = Max (20, 14) = 20D(AB)D = Max (dA – D, dB-D) = Max (12, 11) = 20D(AB)E = Max (dA – E, dB-E) = Max (7, 18) = 18

4) La nueva matriz de distancias es

AB C D EAB 0C 20 0D 12 5 0E 18 25 23 0

Ahora repetimos el proceso con esta nueva tabla. La distancia mínima se da ente C y D. Por ello, se agrupan estos dos casos.

AB CD E

A B C D EA 0B 1 0C 20 14 0D 12 11 5 0E 7 18 25 23 0

AB 0CD ? 0E 18 ? 0

D(AB)(CD) = Max (dAB-C, dAB-D) = Max (20, 12) = 20D(CD)E = Max (dC-E, dD-E) = Max (25, 23) = 25

(Siempre hay que calcular las distancias para agrupar los casos. Y esto siempre mirando la matriz anterior)

7) La nueva matriz de distancias es:

AB CD EAB 0CD 20 0E 18 25 0

La distancia mínima se da entre AB y E, que es 18.

La matriz final es:

ABE CDABE 0CD 25 0

Nota: El encadenamiento simple es igual pero con las distancias mínimas en lugar de las distancias máximos

Gráfico Dendograma

1

1820

5

TEMA 5: LA REGRESIÓN MULTIPLE

Estructura de la clase:1. Introducción.2. Definición y objetivo.3. Términos y conceptos básicos de la RM.4. Supuestos de la RM. 5. Tamaño muestral.6. Diseño de la RM.7. Casos prácticos con DYANE y SPSS.

Introducción.

1.1 Introducción GeneralCuando queremos predecir una variable dependiente en función de unas variables independientes:

Y = X1 + X2 +…+ Xn

Variable dependiente Variables independientes

1. Cuando tenemos variables dependientes METRICAS, y variables independientes METRICAS, tenemos que utilizar Regresión Múltiple.Tenemos solamente UNA variable dependiente métrica y varias independientes METRICAS.2. Cuando tenemos una variable dependiente NO METRICA, y variables independientes METRICAS, usaremos el Análisis Discriminante.3. Cuando tenemos VARIAS variables dependientes METRICAS, y tenemos una serie de variables independientes NO METRICAS, aquí usaremos MANOVA.

Regresión Logística se usa cuando tenemos una variable dependiente nominal.

Para Análisis Discriminante podemos utilizar una variable categórica, no tiene que ser dicotómica. En la regresión logística se usa cuando la variable categórica es nominal, es decir dicotómica, con dos valores, por ejemplo SI o NO.

1.2 Introducción Regresion Multiple

Es básicamente una técnica de predicción.1. Hasta ahora hemos estudiado la predicción sin variables independientes, como son la utilización de la media y la técnica ANOVA para la comparación de medias.

2. También hemos hecho predicción con una única variable independiente. En este caso estamos utilizando la técnica de Regresión Simple, que tiene una variable independiente y una variable dependiente. Es una regresión lineal para predecir la tendencia de una población. Un concepto importante en la regresión simple es la distancia entre el valor y la predicción. A esto se le llama Error de Predicción. La Regresión Múltiple es la continuación de la Regresión Simple, por eso usaremos los mismos conceptos.

En la Regresión Múltiple, tenemos que minimizar los errores de predicción.

Error de Predicción

Definición y objetivo de la RM.

¿Qué es la Regresión Múltiple?

Usar las variables independientes cuyos valores son conocidos para predecir la única variable criterio seleccionada por el investigador

Y = X1 + X2 +…+ Xn

Variable Métrica Dependiente Variables Métricas Independientes

La RM es una técnica estadística que puede utilizarse para analizar la relación entre una única variable dependiente y varias variables independientes.

Objetivos:(1) Maximizar la potencia conjunta de predicción de las variables independientes.

(2) Explicar la relación entre las variables dependientes e independientes al formar el valor teórico.

Términos y conceptos básicos de la RM.

Vamos a estudiar los términos y conceptos básicos de la RM con un ejemplo.

Supongamos que queremos predecir el porcentaje de paro sobre la población (que es la variable dependiente Y), a partir del porcentaje de variación de la población en el período 1991-98, el nivel económico, y la cuota de mercado de la provincia (que son las variables independientes X1 X2 y X3 , respectivamente.

El coeficiente de determinación y el coeficiente de correlación múltiple son coeficientes muy importantes para valorar el Análisis de Regresión Múltiple

Mediante el valor de t de Student podemos rechazar o aceptar las variables independientes. Aceptar o rechazar las variables, dependerá del nivel de significación.

Coeficiente de determinación: 0.4219Coeficiente de correlación múltiple: 0.6495

Coeficiente de regresión alfa: 6.4077

COEFIC. SUMA DE PROPORC. DESVIACIÓN COEFICIENTE ERROR T DE CORREL. CUADRADOS VARIANZAVARIABLE MEDIA ESTÁNDAR REGRESIÓN ESTÁNDAR STUDENT PARCIAL AÑADIDA AÑADIDA-------- -------------- -------------- ----------- ---------- -------- ------- -------------------- --------% Paro (Y) 3.9000 1.1071

NivelEco (X1) 5.1800 1.4098 -0.5167 0.0900 -5.7435 -0.6462 22.9909 0.3752

p=0.0000CuotaMer ( X2) 1993.9200 2365.4349 0.0001 0.0001 1.8958 0.2692 2.5026 0.0408

p=0.0643%VarPobl ( X3) 1.8300 4.2977 -0.0200 0.0294 -0.6823 -0.1001 0.3585 0.0059

p=0.4985 -------------------- -------- 25.8521 0.4219

ANÁLISIS DE LA VARIANZA-----------------------

FUENTE DE VARIACIÓN GRADOS LIBERTAD SUMA CUADRADOS MEDIA CUADRADOS---------------------- --------------- --------------------- ---------------------Debida a la regresión: 3 25.8521 8.6174Residuo: 46 35.4279 0.7 ----- ---------------------Varianza total: 49 61.2800

F de Snedecor con 3 y 46 grados de libertad = 11.1889 (p= 0.0000)

Variable Dependiente

Variable Independiente

Coeficiente de Regresión Beta β

Coeficiente de Correlación Múltiple R

Los criterios para establecer el nivel de significación dependen de nuestra base teórica.

En nuestro modelo, si queremos aceptar nuestro modelo para un nivel de significación de p = 0.10, tendremos que justificar porque usamos este nivel de significación. Sobre todo en estudios EXPLORATORIOS (No confirmatorios), este nivel de significación es aceptable.

La tercera parte de esta tabla habla del Análisis de la varianza. La F de snedecor, trata la hipótesis de que el porcentaje de variación explicada por el modelo es mayor que la explicada por la media.

Para realizar esta predicción suponemos que Y se puede expresar como una combinación lineal de las variables independientes X1 X2 y X3 de

este tipo:

Y = α +β1 X1 +β2 X2 + .... +βn Xn + e

[Supongamos que queremos predecir el % de paro sobre la población (Y como variable dependiente). Usaremos variables independientes para predecir esta variable dependiente que hemos seleccionado. Para hacer regresión múltiple sobre el Dyane:

Y nos saldrán los valores de la tabla de arriba.]

Coeficientes de regresión alpha (α): Es el valor constante que toma la variable dependiente Y si las variables independientes X1 X2 y X3 valiesen

cero.

Coeficiente de regresión beta (β1, β2,…, βn): Expresa el cambio

estimado en la variable dependiente Y debido a un cambio unitario de la variable

independiente.

Error de predicción (Residuo, e): Es la diferencia entre los valores reales y el valor de predicción de la variable dependiente Y.

Error estándar: Es la desviación típica de los errores de predicción.

Importante: El error estándar implica la precisión de la predicción. Un nivel de error estándar más pequeño implica una predicción más segura o correcta.

Los dos siguientes índices son quizás los más importantes para la interpretación de los datos.

Coeficiente de correlación múltiple (R): Es el coeficiente de correlación de la regresión múltiple de las variables independientes y la variable dependiente.

Varía entre 0 y 1. Se utiliza para la interpretación de los datos.

Coeficiente de determinación (R2): Es el coeficiente de correlación múltiple al cuadrado.

Este índice expresa la proporción de la varianza de la variable dependiente explicada por el modelo de regresión múltiple. Varía entre 0 y 1.

Este coeficiente esta influenciado por el número de variables independientes relativas al tamaño muestral. Por ello se ajusta la infracción del coeficiente de

determinación y se calcula el Coeficiente de Determinación Ajustado (R2

Ajustado).

t de Student: El coeficiente de regresión dividido por su error estándar. El valor t mide la significación de la correlación parcial de la variable reflejada en el coeficiente de regresión.

La t de Student se utilizó en el primer semestre para ver diferencias significativas entre poblaciones. La parte más importante de la t de Student es que tenemos que utilizar este índice para determinar si una variable independiente debería salir de la ecuación una vez que se ha añadido. Estableceremos un nivel de significación.

En la tabla de ejemplo tenemos el valor de la t de Student, aunque el valor realmente importante es el valor de la p (probabilidad, significación estadística).

[Si fijamos un nivel de significación de p = 0.00001 sólo fijaremos una sola variable independiente, aunque nuestro planteamiento inicial es que el % de paro depende de las otras variables también. Así, podemos cambiar nuestro nivel de significación, , para fijar un alfa =0.01, 0.05, 0.1, y poder aceptar más variables independientes.

Por eso, para saber que variables rechazar es muy importante mirar estudios anteriores.Por ejemplo nosotros creemos que son los tres factores muy influyentes en el nivel de paro, y nosotros queremos demostrar que las 3 influyen y las queremos incluir en nuestro modelo para hacer la previsión.

A pesar de eso, podemos observar los siguientes valores:p = 0.0000 significativo p = 0.4985 no significativo]

F de Snedecor: Se utiliza el análisis de la varianza para contrastar la hipótesis de dependencia lineal entre la variable dependiente y las variables independientes. Es decir, el ratio F se utiliza para contrastar la hipótesis de que la cantidad de variación explicada por el modelo de regresión es más que la variación explicada por la media (Hair et al., pp. 174).

Queremos saber si la variación explicada por el modelo es mayor que cero R2>0.

Supuestos de la RM. Supuestos generales: Linealidad, Normalidad, Homocedasticidad, Independencia de los residuos.

1. Linealidad.2. Normalidad. 3. Homocedasticidad: El test M de Box (Hair et al., 67).4. Independencia de los residuos.

Supuesto específico: Ausencia de la multicolinealidad.

Pasos a seguir:

1) Primer paso: examinar la matriz de correlación de las variables independientes para identificar la presencia de una elevada correlación (generalmente de 0,90 o más).

El observar la matriz de correlaciones es bastante subjetivo, por eso utilizamos índices objetivos. Para ello utilizaremos dos índices que

explicamos en el siguiente punto: El valor de tolerancia y El test del factor de inflación de la varianza (VIF).

2) Segundo paso: utilizar dos medidas estadísticas para evaluar la colinealidad de múltiples variables. Estas dos medidas son:

El valor de tolerancia: la cantidad de variabilidad de las variables independientes seleccionadas no explicadas por el resto de las variables independientes. Un valor de tolerancia reducido denota una elevada colinealidad.

El test del factor de inflación de la varianza (VIF): es el inverso del valor de tolerancia. Un valor del VIF elevado denota una elevada colinealidad.

Nota: el valor de tolerancia por defecto en el SPSS para excluir una variable es 0,0001.Tamaño muestral.

El tamaño de la muestra siempre es problemático. No siempre podremos obtener un tamaño muestral grande o deseado.Para la regresión múltiple hay una serie de reglas a seguir, que son las que se explican a continuación:

1) El ratio de observaciones sobre las variables independientes nunca debería caer por debajo de cinco.

5var

>ndientesiablesdepeNumerode

sservacioneNumerodeOb

2) El nivel deseado está entre 15 y 20 observaciones para cada variable independiente.

3) Las muestras muy grandes, de 1.000 observaciones o más, hacen los test de significación estadística demasiado sensibles, indicando que casi cualquier relación es estadísticamente significativa.

Diseño de la RM.

Objetivos. Lo primero es establecer el objetivo del estudio, y luego justificar este objetivo.

Tamaño muestral. Tendremos que justificar el tamaño de la muestra.

Supuestos generales y específicos.

Estimación del modelo.

Interpretación. Podemos examinar los coeficientes Beta y averiguar su importancia relativa en el valor teórico de la regresión múltiple.Dependiendo del programa informático, podremos obtener el coeficiente R2 ajustado o corregido. Esto es porque R2 esta influenciado por tamaño muestral y por el número de variables y número de variables independientes. Entonces cuando comparamos el índice de determinación y el de determinación ajustado y ambos son muy parecidos, significa que estamos construyendo el modelo correcto, nuestro modelo predice los valores correctamente.

Validación. Tenemos dos posibilidades de validación:

1) Podremos obtener otra muestra de la población para evaluar la correspondencia de los resultados obtenidos de las dos muestras.

2) Podemos dividir la muestra en dos submuestras, realizar la regresión múltiple para cada submuestra y comparar los resultados.

Casos prácticos con DYANE y SPSS.

DYANE: Especificación confirmatoria.

7.1. Caso práctico 1 con DYANE.

Con la siguiente base de datos de Dyane, hemos realizado el ejemplo que se muestra a continuación.

C:\Documents and Settings\e97554\Escritorio\Rafa\Est_Prov.dyt

Est_Prov.dyt

Desde el Dyane, hemos seleccionado el Análisis de Regresión Múltiple, donde nos saldrá una ventana como ésta.

Pulsaremos el botón “Calcular”, y nos saldrán los resultados como los que pasaremos a analizar

A N Á L I S I S D E R E G R E S I Ó N M Ú L T I P L E===========================================================


VARIABLE DEPENDIENTE:

- % Paro - % Paro s/pob. de derecho

VARIABLES INDEPENDIENTES:

1. %VarPobl - Variación Población 91-98 (%) 2. NivelEco - Nivel Económico 3. CuotaMer - Cuota de Mercado

Matriz de coeficientes de correlación simple:--------------------------------------------

% Paro %VarPobl NivelEco CuotaMer -------- -------- -------- -------- % Paro 1,0000 -0,0164 -0,6125 0,0797 %VarPobl -0,0164 1,0000 -0,0369 0,1689 NivelEco -0,6125 -0,0369 1,0000 0,1936 CuotaMer 0,0797 0,1689 0,1936 1,0000

Coeficiente de determinación: 0,4219. Coeficiente de correlación múltiple: 0,6495

Coeficiente de regresión alfa: 6,4077

Coeficiente de determinación nos interesa en gran medida, ya que es el porcentaje de la varianza explicada por este modelo.

Otro aspecto importantísimo, a la hora de estudiar nuestro modelo, es saber si queremos incluir o no las variables independientes.

COEFIC. SUMA DE PROPORC.

Estos son los valores que más nos interesan de esta parte

DESVIACIÓN COEFICIENTE ERROR T DE CORREL. CUADRADOS VARIANZAVARIABLE MEDIA ESTÁNDAR REGRESIÓN ESTÁNDAR STUDENT PARCIAL AÑADIDA AÑADIDA -------- -------------- -------------- ----------- ---------- -------- ------- -------------------- --------% Paro 3,9000 1,1071 %VarPobl 1,8300 4,2977 -0,0200 0,0294 -0,6823 -0,1001 0,0164 0,0003 p=0,4985 NivelEco 5,1800 1,4098 -0,5167 0,0900 -5,7435 -0,6462 23,0676 0,3764 p=0,0000 CuotaMer 1993,9200 2365,4349 0,0001 0,0001 1,8958 0,2692 2,7681 0,0452 p=0,0643 -------------------- -------- 25,8521 0,4219


FUENTE DE VARIACIÓN GRADOS LIBERTAD SUMA CUADRADOS MEDIA CUADRADOS---------------------- --------------- --------------------- ---------------------Debida a la regresión: 3 25,8521 8,6174 Residuo: 46 35,4279 0,7702 ----- --------------------- Varianza total: 49 61,2800

F de Snedecor con 3 y 46 grados de libertad = 11,1889 (p= 0,0000)

El nivel de F de Snedecor no parece mostrar ningún problema (p=0.0000).

7.2. Caso práctico 2 con DYANE.

Cabe destacar la posibilidad de manejar variables categóricas en el análisis de regresión múltiple. Si tuviéramos variables categóricas, podríamos convertirlas en variables métricas y trabajar con estas nuevas variables en el análisis de regresión múltiple.

Veamos con otra BD como hacer esto:

C:\Documents and Settings\e97554\Escritorio\Rafa\COMPORT.DYT

Comport.Dyt

En la siguiente BBDD las variables que adoptan valores 1 o 2 son variables categóricas, por ejemplo la variable 6, que toma los siguientes valores:1.- Si2.- No

La variable 5 tiene varias categorías. Para convertir las variables categóricas en variables métricas, tendremos que crear variables ficticias (en el menú Datos del Dyane). Veámoslo gráficamente:

Ahora crearemos otra variable ficticia con la variable Clase Social, y hacemos el análisis con las variables ficticias creadas.

Con todo ello, las variables ficticias que nos ha creado son:

A N Á L I S I S D E R E G R E S I Ó N M Ú L T I P L E===========================================================


VARIABLE DEPENDIENTE:

- FICTI_01 - Usa tarjeta de crédito: Sí (1 = Sí; 0 = No)

VARIABLES INDEPENDIENTES:

1. FICTI_01 - Clase social: Alta/media alta (1 = Sí; 0 = No) 2. FICTI_02 - Clase social: Media media (1 = Sí; 0 = No) 3. FICTI_03 - Clase social: Media baja (1 = Sí; 0 = No)

Matriz de coeficientes de correlación simple:--------------------------------------------

FICTI_01 FICTI_01 FICTI_02 FICTI_03 -------- -------- -------- -------- FICTI_01 1,0000 0,2896 0,1598 -0,2634 FICTI_01 0,2896 1,0000 -0,2922 -0,3867 FICTI_02 0,1598 -0,2922 1,0000 -0,5890 FICTI_03 -0,2634 -0,3867 -0,5890 1,0000

Coeficiente de determinación: 0,1534

Si observamos el Coeficiente de Correlación, notamos que el modelo sólo nos esta explicando un 15 %. Es un porcentaje muy bajo, por lo que llegaremos a la conclusión de que no podemos usar sólo esta variable, variable que hemos separado en varias ficticias para convertirla en una variable métrica.

Coeficiente de correlación múltiple: 0,3917

Coeficiente de regresión alfa: 0,0215

COEFIC. SUMA DE PROPORC. DESVIACIÓN COEFICIENTE ERROR T DE CORREL. CUADRADOS VARIANZAVARIABLE MEDIA ESTÁNDAR REGRESIÓN ESTÁNDAR STUDENT PARCIAL AÑADIDA AÑADIDA -------- -------------- -------------- ----------- ---------- -------- ------- -------------------- --------FICTI_01 0,2530 0,4347 FICTI_01 0,1610 0,3675 0,5189 0,0522 9,9394 0,3004 15,8473 0,0839 p=0,0000 FICTI_02 0,3080 0,4617 0,3356 0,0474 7,0776 0,2188 12,3477 0,0653 p=0,0000 FICTI_03 0,4380 0,4961 0,1018 0,0458 2,2242 0,0703 0,7947 0,0042 p=0,0261 -------------------- -------- 28,9897 0,1534

Si establecemos un nivel de significación del 0.05, podemos aceptar todas las variables independientes, ya que la t de Student es menor para todas las variables.


FUENTE DE VARIACIÓN GRADOS LIBERTAD SUMA CUADRADOS MEDIA CUADRADOS---------------------- --------------- --------------------- ---------------------Debida a la regresión: 3 28,9897 9,6632 Residuo: 996 160,0013 0,1606 ----- --------------------- Varianza total: 999 188,9910


La f de Snedecor es otro indicador que hay que mirar también. Es un indicador importante.

7.3. Exportar de Dyane a SPSS.

Ahora trataremos de pasar una BBDD de Dyane a SPSS, ya que el análisis de regresión múltiple del Dyane es bastante simple, siendo muchísimo más completo el análisis del SPSS.

Para ello seleccionamos el elemento de menú que vemos a continuación:

Pulsando Aceptar, nos saldrá otra ventana, donde guardamos como fichero de datos, es decir .dat:

Ahora ya podemos entrar en SPSS, y desde el Menú Archivo/Datos, podremos trabajar con esta base de datos

SPSS: Abrir la BBDD de formato texto.

Abrimos la base de datos que acabamos de crear para el SPSS.

Y pasamos por las siguientes ventanas:

¡Cuidado! Este parámetro hay que cambiarlo

Ahora quitaremos la opción Coma y la opción Espacio:

Una vez hemos hecho la transformación podemos dar nombre a las variables, tal y como queramos, seleccionando la pestaña “Vista de variables”:

Una vez hecho esto, hacemos el análisis de regresión. Para nuestro ejemplo queremos estimar la variable paro en función de otras tres, como son varipob, niveleco y cotamer:

El resultado se muestra a continuación.

Regresión

Variables introducidas/eliminadasb

CUOTAMER,VARIPOB,NIVELECO

a . Introducir

Modelo1

Variablesintroducidas

Variableseliminadas Método

Todas las variables solicitadas introducidasa.

Variable dependiente: PAROb.

Resumen del modelo

,650a ,422 ,384 ,87759Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), CUOTAMER, VARIPOB,NIVELECO

a.

Aquí se explican los índices más importantes.

R cuadrado es el coeficiente de determinación. Podemos ver que los resultados son los mismos que el Dyane. Observamos que nuestro modelo explica un 42% del total.

R cuadrado corregida, debería ser muy parecida a R cuadrado. En nuestro caso vemos que es una comparación muy subjetiva.

ANOVAb

25,852 3 8,617 11,189 ,000a

35,428 46 ,770

61,280 49

Regresión

Residual

Total

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), CUOTAMER, VARIPOB, NIVELECOa.


En el Análisis de Varianzas tenemos una F de Snedecor de 11.189. En el Dyane obtuvimos un valor muy parecido.

Coeficientesa

6,408 ,478 13,413 ,000

-,020 ,029 -,078 -,682 ,499

-,517 ,090 -,658 -5,744 ,000

,000 ,000 ,220 1,896 ,064

(Constante)

VARIPOB

NIVELECO

CUOTAMER

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizad

os

t Sig.

Variable dependiente: PAROa.

Aquí metemos todas las variables independientes y vemos las consecuencias. Tenemos diferentes valores de t para cada variable, con distintas significaciones.

SPSS: Estimación por etapas.

Ahora siguiente método seria la regresión lineal con el Método de Pasos Sucesivos. Este método es muy útil cuando el número de variables independientes es muy elevado.Hasta ahora, con el Dyane y con SPSS, hemos metido sólo 3 variables independientes. Normalmente, serán más. Si tenemos variables independientes elevado, es mejor usar esta segunda opción para saber si incluimos o eliminamos cada variable independiente:

El resultado se muestra a continuación.

Regresión

Variables introducidas/eliminadasa

NIVELECO .

Porpasos(criterio:Prob. deF paraentrar <=,050,Prob. deF parasalir >=,100).

Modelo1




Solo se ha seleccionado la variable nivel económico

Resumen del modelo

,613a ,375 ,362 ,89313Modelo1



Variables predictoras: (Constante), NIVELECOa.

ANOVAb

22,991 1 22,991 28,822 ,000a

38,289 48 ,798

61,280 49

Regresión

Residual

Total

Modelo1

Suma decuadrados gl


Variables predictoras: (Constante), NIVELECOa.


Ahora el nivel de f de Snedecor es totalmente distinto, siendo significativo.

Coeficientesa

6,391 ,481 13,289 ,000

-,481 ,090 -,613 -5,369 ,000

(Constante)

NIVELECO

Modelo1

B Error típ.


Beta


os

t Sig.


Variables excluidasb

-,039a -,338 ,737 -,049 ,999

,206a 1,813 ,076 ,256 ,963

VARIPOB

CUOTAMER

Modelo1

Beta dentro t Sig.Correlación

parcial Tolerancia

Estadísticosde

colinealidad

Variables predictoras en el modelo: (Constante), NIVELECOa.


Análisis de Supuestos de la RM.

Coeficiente estandarizado es importante para interpretar los datos. Cuando metemos las variables independientes en unidades distintas, el coeficiente de regresión beta, no son directamente comparables. Por eso, lo más útil es el coeficiente estandarizado. Lo veremos con el SPSS.

Trabajo con SPSS

Si tenemos valores perdidos en SPSS podremos utilizar la función de SPSS de “Reemplazar valores perdidos”. Es importante reemplazar estos valores con la media o con el valor estimado de regresión.

Para realizar la regresión múltiple tenemos que cumplir varios supuestos:Supuestos generales

• Linealidad.- Para esto podríamos visualizar gráficamente gráficos de dispersión..

• Normalidad.- Aquí tenemos dos opciones.

o Podemos examinar histograma. Mediante el SPSS podemos examinar el Histograma de residuos

o Podemos examinar gráficos de dispersión. En este caso examinamos variables

• Homocedasticidad.- Tendremos que aplicar el Análisis basado en t de Student. Usamos el valor t de Student para estandarizar los residuos (luego lo estudiamos)

• Ausencia de errores correlacionados.- Dos opciones:o Usar el Análisis anterior basado en t de Studento Usar el test de Durban-Watson

Examinar Normalidad

Para examinar la normalidad:

Estudiaremos las siguientes tres variables:

Ahora seleccionamos estadísticos, seleccionando solo descriptivos

También en la parte Gráficos, muy importante seleccionar “Gráficos con pruebas de Normalidad”

Nos salen una serie de datos, pero lo que realmente nos interesara en el gráfico Q-Q normal de varpobl:

Gráfico Q-Q normal de varpobl

Valor observado

20100-10

No

rma

l esp

era

do

3

2

1

0

-1

-2

-3

Se puede ver que la variable sigue una distribución normal

Gráfico Q-Q normal de nivel economico

Valor observado

987654321

No

rma

l esp

era

do

2

1

0

-1

-2

Se puede ver que la variable sigue una distribución normal

Gráfico Q-Q normal de cuotamer

Valor observado

14000

12000

10000

8000

6000

4000

2000

0

-2000

-4000

No

rma

l esp

era

do

3

2

1

0

-1

-2

-3

Se puede ver que la variable tiene una no tiene una distribución exactamente normal, pero las tres variables concurren en una distribución normal.

Para ver la linealidad se puede comprobar mediante “Generar todos los gráficos parciales” en SPSS (“Regresión Lineal” ”Gráficos” Seleccionar esta opción)

Examinar Linealidad

Una vez analizado el supuesto de normalidad, nos lanzaremos a hacer la Regresión Lineal.

Lo que queremos es predecir el paro en función de unas variables independientes (varpobl, nivel económico y cuota mercado). Para ello seleccionamos la variable paro como única variable dependiente, y varias variables independientes (varpobl, niveleco y cuotamer).

Método = Introducir, que quiere decir que vamos a aplicar la Estimación Conjunta

En el botón Estadísticos, seleccionaremos:• Diagnósticos de colinealidad.- Nos saldrá el índice VIF y el valor de

la tolerancia. • Durbin-Watson.- En la parte de Residuos. Para ver

Ya que nuestro interés es ver los supuestos generales y específicos

En el botón “Gráficos”, podremos ver la homocedasticidad. Seleccionaremos para

ZRESID significa residuo tipificadoZPRED significa regresión valor tipificado pronosticado

Seleccionamos Histograma para ver normalidad de los residuos, y generamos todos los gráficos parciales para ver linealidad

Regresión

Variables introducidas/eliminadasb

cuotamer,varpobl, niveleconomico

a . Introducir

Modelo1



Todas las variables solicitadas introducidasa.

Variable dependiente: parob.

Resumen del modelob

,650a ,422 ,384 ,87759 1,895Modelo1



Durbin-Watson

Variables predictoras: (Constante), cuotamer, varpobl, nivel economicoa.


El Test Durbin-Watson no lo hemos tenido hasta ahora, para ver la ausencia de errores correlacionados. Como regla general, este índice tiene que ser alrededor de 2. Si obtenemos el número cerca de 2 podremos interpretar la variable independiente como que no tienen errores correlacionados.(Ver la parte de gráficos)

ANOVAb

25,852 3 8,617 11,189 ,000a

35,428 46 ,770

61,280 49

Regresión

Residual

Total

Modelo1

Suma decuadrados gl


Variables predictoras: (Constante), cuotamer, varpobl, nivel economicoa.


Coeficientesa

6,408 ,478 13,413 ,000

-,020 ,029 -,078 -,682 ,499 ,966 1,035

-,517 ,090 -,658 -5,744 ,000 ,958 1,044

,000 ,000 ,220 1,896 ,064 ,932 1,074

(Constante)

varpobl

nivel economico

cuotamer

Modelo1

B Error típ.


Beta


os

t Sig. Tolerancia FIV

Estadísticos decolinealidad

Variable dependiente: paroa.

Una regla general es que VIF tiene que ser menor que 2. El valor de tolerancia reducido denota elevada colinealidad. Cuando tenemos un valor de tolerancia 0.2 o 0.3 denota elevada colinealidad.

El valor del VIF es el inverso del valor de tolerancia. Si VIF es elevado, significa elevada colinealidad. Si ambos valores están cerca de 1, podemos decir que no existe la multicolinealidad.

Si el valor de tolerancia es muy bajo y el del VIF es muy alto, lo que tenemos es problema de multicolinealidad. Existen correlaciones muy altas entre las variables independientes. Lo que podemos hacer es un Análisis de Componentes Principales y utilizar los factores que resulten como variables independientes para realizar el análisis de regresión. Coeficientes (de beta) no estandarizados y Coeficientes (de beta) estandarizados. Los coeficientes no estandarizados no son comparables directamente. Sin embargo, para comparar la importancia de las variables, tenemos el Coeficiente Estandarizado, para ver que variable es mas importante.

Diagnósticos de colinealidada

2,765 1,000 ,01 ,04 ,01 ,05

,763 1,903 ,00 ,93 ,01 ,00

,437 2,515 ,02 ,02 ,02 ,94

,034 8,964 ,97 ,01 ,97 ,01

Dimensión1

2

3

4

Modelo1

AutovalorIndice decondición (Constante) varpobl

niveleconomico cuotamer

Proporciones de la varianza


Estadísticos sobre los residuosa

2,3130 5,5672 3,9000 ,72636 50

-1,6133 2,4318 ,0000 ,85031 50

-2,185 2,295 ,000 1,000 50

-1,838 2,771 ,000 ,969 50

Valor pronosticado

Residuo bruto

Valor pronosticado tip.

Residuo tip.

Mínimo Máximo MediaDesviación

típ. N


Gráficos

Regresión Residuo tipificado

2,752,50

2,252,00

1,751,50

1,251,00

,75,50,250,00-,25

-,50-,75

-1,00-1,25

-1,50-1,75

Histograma

Variable dependiente: paro

Fre

cuen

cia

10

8

6

4

2

0

Desv. típ. = ,97

Media = 0,00

N = 50,00

Con este gráfico vemos la normalidad de los residuos. Aquí hay algunos valores fuera de la normalidad, pero supongamos que están dentro del límite y cumplen el supuesto de la normalidad, y aceptamos la normalidad.

Gráfico de dispersión


Regresión Valor pronosticado tipificado

3210-1-2-3

Reg

resi

ón R

esid

uo ti

pific

ado

3

2

1

0

-1

-2

El gráfico de la dispersión es el resultado de los valores estandarizados y los valores basados en t de Student. Para cumplir el supuesto de homocedasticidad observaremos esta dispersión. Cuando observamos este gráfico tenemos que tener una dispersión uniforme y aleatoria (debe cumplir las dos condiciones).En nuestro gráfico vemos que es bastante uniforme (porque cuando están los puntos AGRUPADOS en los dos extremos del grafico tenemos heterocedasticidad)

Gráfico de regresión parcial


varpobl

20100-10

paro

3

2

1

0

-1

-2

Este vale para ver que tipo de relación existe entre dos variables, en el SPSS hacemos doble clic sobre este gráfico. Aquí podremos seleccionar:

Opciones del diseño de dispersión:

Y aceptamos



varpobl

20100-10

paro

3

2

1

0

-1

-2

La línea es linealidad



nivel economico

43210-1-2-3-4

paro

3

2

1

0

-1

-2

-3

Aquí vemos que tienen una relación lineal



cuotamer

12000

10000

8000

6000

4000

2000

0

-2000

-4000

paro

3

2

1

0

-1

-2



cuotamer

12000

10000

8000

6000

4000

2000

0

-2000

-4000

paro

3

2

1

0

-1

-2

Puede que aquí también exista una relación lineal. No es que sea muy claro, pero por eso hay que tener una buena base teórica, para poder justificar la inclusión de esta variable.

Ejercicio 5

1. ¿Cómo determinaría incluir o rechazar variables independientes utilizadas en una ecuación de regresión múltiple?

2. ¿Por qué es importante examinar el supuesto de linealidad cuando se utiliza la regresión?

3. Explique y relacione los siguientes términos: error de predicción y error estándar.

4. Interprete el siguiente tabla:

Variable Tolerancia VIF

X1 0,992 1,007

X2 0,804 1,587

X3 0,187 5,337

X4 0,990 1,010

X5 0,112 8,896

5. Explique la relación entre el coeficiente de determinación y el

coeficiente de determinación ajustado.

1. ¿Cómo determinaría incluir o rechazar variables independientes utilizadas en una ecuación de regresión múltiple?

“Por una parte, con el test t de student mediamos la significación de la correlación parcial de las variables independientes. Y la expresaríamos mediante el valor del coeficiente del coeficiente t de student. Por otra parte, apoyándonos en una base teórica fijaríamos el nivel de significación exigida y con ello determinaríamos si una variable debe salir de la ecuación o mantenerse.” Shintaro.

La palabra clave es Correlación Parcial. Hay que buscar la correlación parcial que tiene significación

2. ¿Por qué es importante examinar el supuesto de linealidad cuando se utiliza la regresión?

La regresión Múltiple busca una combinación, mediante el coeficiente de correlación (que esta basado en una relación lineal; el concepto de correlación es el de la combinación entre dos variables).

“Porque el concepto fundamental del análisis de regresión que es el coeficiente de correlación esta basado en una relación lineal”. Shintaro.

3. Explique y relacione los siguientes términos: Error de predicción y error estándar.En la regresión múltiple buscamos una combinación lineal. Por eso buscamos variables independientes que expliquen la variable independiente. Buscamos una línea recta.La diferencia entre el valor real y valor predicho es el error de predicción. Nuestra misión es minimizar todos los errores de predicción.

“El error de predicción es la diferencia entre los valores reales y el valor de predicción de la variable dependiente Y, mientras que el error estándar es la desviación típica de los errores de predicción. Un error estándar mas pequeño implica una predicción mas segura.” Shintaro.

4. Interprete el siguiente tabla:

Variable Tolerancia VIF

X1 0,992 1,007

X2 0,804 1,587

X3 0,187 5,337

X4 0,990 1,010

X5 0,112 8,896

¿Cómo podemos interpretar el valor de la tolerancia y el valor del VIF?¿Qué indican los índices tolerancia y VIF? Ausencia de multicolinealidad. Podíamos observar la matriz de correlaciones, pero es bastante subjetivo. Por eso usamos estos dos índices. El VIF es la inversa de la tolerancia.

“Los valores de tolerancia superan todos el valor 0.80 indicando niveles

de colinealidad muy reducidos. De la misma manera, los valores del VIF

de dichas variables están muy próximos a 1.0. Sin embargo, las dos

variables restantes, es decir X3 y X5, dichos índices indican lo contrario:

altos niveles de multicolinealidad. Si no eliminamos las observaciones

altamente correlacionadas la interpretación de los coeficientes de

correlación podrían verse afectados negativamente por la

multicolinealidad.”Shintaro.

5. Explique la relación entre el coeficiente de determinación y

el coeficiente de determinación ajustado.

Para determinar el coeficiente de determinación tenemos que conseguir el coeficiente de correlación múltiple (R). Para saber el % de la varianza explicada por el modelo, hay que subir al cuadrado, y nos da el coeficiente de determinación.

El coeficiente de determinación esta afectado por el numero de variables independientes relativas al tamaño muestral (relacionada con variables independientes y tamaño muestral). Por tanto tenemos que corregir esta infracción. El valor corregido es el Coeficiente de determinación ajustado.

“El coeficiente de determinación (R2) es el coeficiente de correlación

múltiple al cuadrado. Como dicho coeficiente esta afectado por el

número de variables independientes relativas al tamaño muestral, es

necesario “corregir” la inflación de la R2. Dicha corrección da lugar al

coeficiente de determinación ajustado CDA. El CDA (R2 ajustado) se

hace mas pequeño a medida que tenemos menos observaciones por

variable independiente, y por ello es particularmente útil para

comparar las diferentes ecuaciones de regresión estimadas con

distintas variables independientes o diferentes tamaños muestrales.”

Shintaro.

TEMA 6: EL ANÁLSIS DISCRIMINANTE

Estructura de la clase:1. Introducción.2. Definición y objetivo.3. Términos y conceptos básicos del AD.4. Supuestos del AD. 5. Diseño del AD.6. Casos prácticos con DYANE.

Introducción.

El AD consiste en predecir a que grupo pertenece un determinado individuo.Por regla general, Y = X1 + X2 + X3 + ... + Xn donde Y es la variable dependiente y Xn son las variables independientes.

En el AD, las variables dependientes son categóricas y las independientes son métricas.

Queremos encontrar la línea de corte que separe o diferencie los dos grupos. Cada dispersión está asociada a las variables X1 y X2. Podemos comprobar que ambas dispersiones no están separadas del todo ya que tienen un solapamiento, es decir, una zona en común. Para ello, en el AD tenemos que calcular un valor teórico D, que es una función combinación lineal de las dos variables X1 y X2, que separe o diferencie claramente cada grupo.

En el eje D situamos las dos distribuciones y los puntos medios de cada distribución proyectados cortan las nubes de puntos en dirección a su eje y coinciden con los puntos medios de cada nube de puntos. Debido a esto último, es por lo que a estos puntos situados en D se les llama centroides.

Como se comprobará más adelante, para distinguir o discriminar dos grupos estadísticamente, tenemos que calcular sus respectivos valores teóricos (por ejemplo medias) y aplicar un test para saber si estos valores son significativamente diferentes. Evidentemente si lo son, podemos separar ambas distribuciones para poder así identificar a que grupo pertenece un individuo cualquiera.Definición y objetivo.

El AD es una técnica multivariante de predicción que se emplea cuando la variable dependiente no es métrica y las variables independientes son métricas.El AD es el caso contrario al MANOVA donde Y1 + Y2 + ... + Yn = X1 . Las variables Y tienen que ser métricas y la X categórica.

Los objetivos de esta técnica son:a) determinar si existen diferencias estadísticamente significativas

entre los perfiles de dos (o más) grupos.b) determinar cuál de las variables independientes cuantifica mejor

dichas diferencias.c) establecer el número y la composición de las dimensiones de la

discriminación entre los grupos.

Conceptos y términos básicos del AD.

1) Función discriminante: (FD) El AD clasifica dos (o más) grupos mediante una función discriminante, que es una combinación lineal de dos (o más) variables.

Esta función es la que separa los grupos. La combinación lineal es de la siguiente forma

Z = a + W1X1+ W2X2 + ..... + WnXn (a es cte.)

Cada punto del eje D, representa una puntuación Z Discriminante.

Z: puntuación Z discriminanteSon el conjunto de valores que nos van a servir para discriminar los grupos. De estas puntuaciones nos interesa saber el centroide o media de la distribución para luego comprobar si existen diferencias significativas entre ambas medias.2) Análisis de correlaciones canónicas (DYANE): analiza la relación entre múltiple variables dependientes y múltiple variables independientes.

En DYANE se utiliza este test estadístico para calcular la FD y analiza la correlación entre múltiples variables tanto dependientes como independientes.

MUY IMPORTANTE: Tanto DYANE como SPSS nos proporcionan el mismo número de grupos pero los resultados de los test son distintos.

3) Coeficientes estandarizados de las funciones discriminantes canónicas (SPSS): Cuando se ignora el signo, cada coeficiente representa la contribución relativa de su variable asociada a esa función. Son los pesos de la FD, es decir, son los W1, W2, ..., Wn

Función

1 2q1 .004 .183

q2 .436 -.588

q3 -.025 -.352

q6 .382 .104

q7 .665 .266

q15 .017 .497

q16 .570 -.179

q17 .121 -.234

q18 .278 .677

4) Cargas discriminantes (SPSS): Las cargas discriminantes (también denominadas correlaciones de estructura) miden la correlación lineal simple entre cada variable independiente y la función discriminante. Son análogas a las cargas del ACP. Con esta matriz obtenemos las variables asociadas a cada FD (están marcadas por *).

Matriz de estructura

Función

1 2q2 .527(*) -.450

q16 .462(*) -.208

q3 .435(*) -.409

q6 .426(*) -.106

q1 .348(*) -.223

q7 .347(*) .264

q17 .202(*) .107

q18 .334 .542(*)

q15 .335 .391(*)

5) Matriz de confusión (DYANE y SPSS): es una tabla de doble entrada en la que en las filas se indica la pertenencia real al grupo correspondiente, y en las columnas, la estimada por el AD.

Grupo 1 Grupo 2 Grupo 3 TotalGrupo Real 1

17 1 1 19

Grupo Real 1 13 0 14

2Grupo Real 3

0 0 15 15

Total 18 14 16

En DYANE obtenemos el porcentaje de asignaciones acertadas de la siguiente forma:

15)14(1915)13(17

++++

= 93,75%

6) Representación gráfica mediante un mapa territorial (SPSS):

funciones discriminantes canónicas

Función 1

420-2-4

Fu

nci

ón

2

4

3

2

1

0

-1

-2

-3

country

Centroides de grupo

3

2

1

3

21

Supuestos del AD.

Supuestos generales: - Normalidad- Linealidad. Para comprobar la linealidad en SPSS, nos

situamos es Gráficos -> Dispersión -> Dispersión simple definiendo en el eje Y (var. Dependiente) y en el eje X (var. Independiente).

Supuestos específicos:- Igualdad de dispersión (M de Box). Para comprobar el

supuesto de igualdad de las matrices de covarianzas con dispersión uniforme. Ha de ser > 0,05 (no significativo). Atención: es muy sensible respecto a otros factores como la normalidad de las variables y el tamaño muestral. (Debido a esto, hasta 0,03 es aceptable).

- Ausencia de la multicolinealidad. En SPSS se utiliza el método de inclusión por etapas (o pasos). Con este método obtenemos una medida del VIF. Para ausencia de multicolinealidad el valor del VIF debe ser menor de 2.

Diseño del AD.

Determinar objetivos. Hay que expresar los objetivos claramente. Es algo muy breve

Seleccionar variables dependientes e independientes. Tendremos que entender los tipo de variables y escalas usados en la encuesta

Determinar el tamaño muestral. Tendremos que tener al menos 20 observaciones por cada variable independiente.

Examinar los supuestos. Tanto generales como específicos Estimar las funciones discriminantes. Utilizamos programas

informáticos Determinar la influencia global de las funciones discriminantes

(Autovalores y Lambda de Wilks en SPSS). Usando una serie de índices obtenidos por programas informáticos, ver si tiene sentido usar esas funciones discriminantes.

Determinar el nivel de precisión predictiva de las funciones discriminantes (Matriz de confusión). Tenemos que preparar la matriz de confusión para saber si estamos clasificando los datos correctamente. Veremos como calcular porcentaje de clasificación.

Interpretar los resultados mediante una representación gráfica. Este mapa se llama Mapa territorial.

Validar los resultados. Un método de validación mas popular es dividir la muestra en dos grupos, igual que en los analizas de interdependencia.

Casos prácticos

Casos Prácticos con DYANE

Muy importante saber que los datos del Dyane y SPSS es distinta. La salida del Dyane es muy limitada, y SPSS muestra demasiada información. Debemos seleccionar que tipo de datos incluiremos en el trabajo.

La investigación fue hecha por el creador del Dyane para ver actitudes hacia la empresa y los sistemas económicos de los estudiantes. Han estudiado 4 generaciones de estudiantes de empresariales. Queremos ver si existen diferencias significativas.

Variable dependiente.- Tipo de Promoción Variable independiente.- El resto de variables

Tenemos la salida del Dyane

A N Á L I S I S D I S C R I M I N A N T E M Ú L T I P L E =============================================================


GRUPOS (VAR.CRITERIO): GRUPO 1. PROMOC_A: Tercera (81/82) GRUPO 2. PROMOC_A: Cuarta (82/83) GRUPO 3. PROMOC_A: Quinta (83/84) GRUPO 4. PROMOC_A: Sexta (84/85)

VARIABLES PREDICTORAS: 1. EPU_OBEC. La empresa pública puede cumplir los objetivos económicos mejor que la privada. 2. EPU_OBSO. La empresa pública puede cumplir los objetivos sociales mejor que la privada 3. DIRE_SUF. La dirección de la empresa debe ser elegida por sufragio universal, por todos los trabajadores de la empresa. 4. ECME_PLA. La economía de mercado proporciona una asignación de recursos mejor que la obtenida con la economía planificada por el estado. 5. DESP_LIB. La posibilidad de despido libre, con indemnización, permitiría la creación de puestos de trabajo. 6. LIBERAL. El liberalismo es la mejor doctrina económica. 7. ECSOLMER. La economía social de mercado es la mejor doctrina económica. 8. SOCIALIS. El socialismo es la mejor doctrina económica. 9. COMUNISM. El comunismo es la mejor doctrina económica. 10. EMPR_CRE. El empresario debe ser admirado por la sociedad porque crea riqueza. 11. EMPR_EXP. El empresario sólo explota a los trabajadores. 12. BEN_OBJ1. El beneficio deber ser el primer objetivo de la empresa 13. BENSOLAC. En la distribución de los beneficios deben participar sólo los accionistas. 14. BAL_SOCI. Todas las empresas deberían realizar el balance social. 15. MARK_NEC. El marketing es sólo un método para vender más, creando necesidades aparentes.

Aquí tenemos la tabla de medias para cada variable independiente por cada grupo.

------------------------------------------------------------------------------ VARIABLE MEDIAS MEDIAS MEDIAS MEDIAS MEDIAS PREDICTOR GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4 TOTALES------------ ------------ ------------ ------------ ------------ ------------ 1.EPU_OBEC 2,2414 2,2333 2,2683 2,0323 2,1667 2.EPU_OBSO 4,1034 3,8333 3,9756 3,5323 3,8025 3.DIRE_SUF 1,9655 2,2000 2,1220 2,1613 2,1235 4.ECME_PLA 3,5862 3,6667 4,0000 4,0968 3,9012 5.DESP_LIB 2,6207 2,3333 2,9756 3,0484 2,8210 6.LIBERAL 2,3793 2,7667 2,7805 3,1774 2,8580 7.ECSOLMER 3,6207 3,4000 3,3902 3,3387 3,4136 8.SOCIALIS 2,6552 2,6667 2,6829 2,3710 2,5556 9.COMUNISM 1,4483 1,5333 1,5610 1,6774 1,580210.EMPR_CRE 2,2069 3,2667 2,7561 3,1935 2,9198

11.EMPR_EXP 2,1034 1,8333 1,7317 1,7581 1,827212.BEN_OBJ1 2,8966 2,5667 3,3659 2,6290 2,851913.BENSOLAC 2,1379 2,0000 2,2683 2,0484 2,111114.BAL_SOCI 4,3103 4,4667 4,1951 4,2097 4,271615.MARK_NEC 2,7586 2,2333 2,0732 2,0161 2,2037------------------------------------------------------------------------------

Una de las características del Dyane es que utiliza el sistema de correlaciones canónicas, y aparece el análisis. Según Shintaro, una mayor limitación del Dyane, es que no indica que variable tiene significación estadística. Solo mirando la salida del Dyane no podemos decir que variable tiene significación estadística.

Tenemos 3 funciones discriminantes, cada una corresponde a una columna.

Estos coeficientes corresponden a W1 W2, etc. Son los coeficientes de una combinación lineal. Entonces si tiene mayor coeficiente variable significa que tiene mayor contribución a la capacidad discriminante.

La variable canónica 1 explica casi el 56 % de la varianza total. La canónica 2 explica casi el 30% de la varianza.

Pero el Dyane no ofrece mas datos, no dice que variable tiene significación estadística nos ofrece representación grafica.

CORRELACIONES CANÓNICAS:------------------------

VARIABLE VARIABLE VARIABLE CANÓNICA 1 CANÓNICA 2 CANÓNICA 3 ---------- ---------- ---------- Coeficiente de correlación: 0,2750 0,1430 0,0650 % varianza explicada: 56,9301% 29,6131% 13,4568%

Coeficientes variables:

Var. 1 - EPU_OBEC 0,0361 0,1425 0,2216 Var. 2 - EPU_OBSO 0,3761 -0,0407 0,1381 Var. 3 - DIRE_SUF -0,2486 0,1594 0,2168 Var. 4 - ECME_PLA -0,0531 0,4271 0,0285 Var. 5 - DESP_LIB -0,0109 0,3986 -0,4873 Var. 6 - LIBERAL -0,3083 0,1624 -0,1929 Var. 7 - ECSOLMER 0,0734 -0,1499 -0,1978 Var. 8 - SOCIALIS 0,0316 0,1389 0,4193 Var. 9 - COMUNISM -0,3083 0,1342 -0,2710 Var. 10 - EMPR_CRE -0,6468 -0,4968 0,4718 Var. 11 - EMPR_EXP -0,0843 -0,0842 -0,2304 Var. 12 - BEN_OBJ1 0,3946 0,5146 0,2939 Var. 13 - BENSOLAC 0,1213 0,1063 0,2178 Var. 14 - BAL_SOCI 0,0302 -0,1911 0,1261 Var. 15 - MARK_NEC 0,1782 -0,4779 -0,3701

Correlaciones variables es más difícil de interpretar.

Correlación variables:

Var. 1 - EPU_OBEC 0,8034 -0,0870 0,5891 Var. 2 - EPU_OBSO 0,9575 -0,0983 0,2712 Var. 3 - DIRE_SUF -0,8489 0,0663 0,5243 Var. 4 - ECME_PLA -0,6202 0,7722 -0,1382 Var. 5 - DESP_LIB -0,2953 0,8618 -0,4125 Var. 6 - LIBERAL -0,9281 0,3537 -0,1164 Var. 7 - ECSOLMER 0,8576 -0,4188 -0,2985 Var. 8 - SOCIALIS 0,7767 -0,1495 0,6119 Var. 9 - COMUNISM -0,8850 0,4206 -0,1995 Var. 10 - EMPR_CRE -0,9484 -0,0486 0,3134 Var. 11 - EMPR_EXP 0,6724 -0,6062 -0,4248 Var. 12 - BEN_OBJ1 0,6536 0,6946 0,3006 Var. 13 - BENSOLAC 0,6657 0,7224 0,1871 Var. 14 - BAL_SOCI 0,0707 -0,9038 0,4221 Var. 15 - MARK_NEC 0,7699 -0,5617 -0,3029

Los centros de gravedad, expresan los centroides de cada grupo. Son centroides expresados en puntuaciones Z discriminante. Pero es muy difícil interpretar mirando simplemente estas cifras. Es muy difícil ver la relación entre los 4 centroides. Sin embargo SPSS ofrece representación gráfica, facilitando la interpretación.

Centros de gravedad:

Grupo 1 0,8475 -0,3128 -0,2895 Grupo 2 -0,2146 -0,5710 0,3563 Grupo 3 0,3540 0,4933 0,2272 Grupo 4 -0,5266 0,0964 -0,1872

En la matriz de confusión tenemos la asignación según funciones discriminantes, es decir, clasificación predicha según el A D.

A la izq. tenemos grupos reales. El grupo 1 esta con 17 miembros, el grupo 2 con 13 y grupo 3 con 15 y el 4 con 27.

Sin embargo vemos que hay miembros mal clasificados:En grupo 1: 17 miembros bien clasificadosEn grupo 2 hay 3 mal clasificados, etc…

Matriz de confusión calculada con todas las funciones discriminantes (mayor número de aciertos)

ASIGNACION SEGUN FUNCIONES DISCRIMINANTES ---------------------------------------------- GRUPO GRUPO GRUPO GRUPO GRUPOS REALES 1 2 3 4 TOTAL------------- ----- ----- ----- ----- ------ 1 17 3 7 2 29 2 7 13 3 7 30 3 8 6 20 7 41 4 5 15 15 27 62 ----- ----- ----- ----- ------ TOTAL 37 37 45 43 162

Por tanto nuestra conclusión final es el porcentaje de la calcificación correcta, que es 47.53%.

Un 47.53% de los encuestados están correctamente clasificados.

¿Cómo se calcula este número? Para ello, tenemos que sumar las cifras en diagonal(17 + 13 + 20 + 27)

Después dividimos el número total de grupos reales:

(17 + 13 + 20 + 27)------------------------------ = 0.4753(29 + 30 + 41 + 62)

PORCENTAJE DE ASIGNACIONES ACERTADAS POR LAS FUNCIONES DISCRIMINANTES: 47,53%

El autor del Dyane recomienda hacer un análisis de la varianza (ANOVA) para ver que variables son relevantes, ya que el Dyane no ofrece este análisis en el AD.

Cuando queremos averiguar si existen diferencias significativas entre dos medias usamos el test t de Student. Entonces, el A de la varianza es para ver si existe diferencias significativas entre 3 o mas medias. En nuestro caso hablamos de 4 grupos. Cuando tenemos que comparar 4 medias y saber si son estadísticamente distintas, tendremos que utilizar el Análisis de la varianza o ANOVA

En el Dyane podemos usar este análisis fácilmente. Para ello:

Variable Dependiente.- EPU_OBECVariable Tratamiento.- Tipo de grupos

ANÁLISIS DE LA VARIANZA (Unidireccional) ========================================

VARIABLE DEPENDIENTE: La empresa pública puede cumplir los objetivos económicos mejor que la privada. (EPU_OBEC)VARIABLE TRATAMIENTO: Promoción (curso) (PROMOC_A)

Número Desviación Suma de de casos Media estándar cuadrados -------- --------------- --------------- ---------------Total 162 2,1667 0,9112 134,5000

Grupos variable tratamiento---------------Tercera (81/82) 29 2,2414 1,0053 29,3103Cuarta (82/83) 30 2,2333 0,8825 23,3667Quinta (83/84) 41 2,2683 0,9377 36,0488Sexta (84/85) 62 2,0323 0,8418 43,9355 --------------- Suma ..... 132,6613

FUENTE DE VARIACIÓN GRADOS LIBERTAD SUMA CUADRADOS MEDIA CUADRADOS--------------------- --------------- --------------- ---------------Entre los grupos: 3 1,8387 0,6129 Dentro de los grupos: 158 132,6613 0,8396 ----- ------------ Total: 161 134,5000

Proporción de varianza explicada por los tratamientos R² = 0,0137


De aquí nos interesa esto. Sale que no existen diferencias significativas, por tanto las 4 medias son estadísticamente iguales

Entonces ahora seleccionamos la 2ª variable y variable tratamiento la misma de antes:

ANÁLISIS DE LA VARIANZA (Unidireccional) ========================================

VARIABLE DEPENDIENTE: La empresa pública puede cumplir los objetivos sociales mejor que la privada (EPU_OBSO)VARIABLE TRATAMIENTO: Promoción (curso) (PROMOC_A)

Número Desviación Suma de de casos Media estándar cuadrados -------- --------------- --------------- ---------------Total 162 3,8025 0,9548 147,6790

Grupos variable tratamiento

---------------Tercera (81/82) 29 4,1034 0,6615 12,6897Cuarta (82/83) 30 3,8333 1,1571 40,1667Quinta (83/84) 41 3,9756 0,6044 14,9756Sexta (84/85) 62 3,5323 1,0734 71,4355 --------------- Suma ..... 139,2674

FUENTE DE VARIACIÓN GRADOS LIBERTAD SUMA CUADRADOS MEDIA CUADRADOS--------------------- --------------- --------------- ---------------Entre los grupos: 3 8,4116 2,8039 Dentro de los grupos: 158 139,2674 0,8814 ----- ------------ Total: 161 147,6790

Proporción de varianza explicada por los tratamientos R² = 0,0570


Ahora si son significativas para esta variable.

El Autor recomienda que se haga este análisis de la varianza para cada variable independiente. La mejor recomendación es realizar MANOVA, que luego miraremos.

Una vez que sepamos las variables independientes tienen diferencias significativas, las seleccionamos y realizamos el A D:

Las medias de las variables seleccionadas son estadísticamente distintas.

A N Á L I S I S D I S C R I M I N A N T E M Ú L T I P L E =============================================================


GRUPOS (VAR.CRITERIO): GRUPO 1. PROMOC_A: Tercera (81/82) GRUPO 2. PROMOC_A: Cuarta (82/83) GRUPO 3. PROMOC_A: Quinta (83/84) GRUPO 4. PROMOC_A: Sexta (84/85)

VARIABLES PREDICTORAS: 1. EPU_OBSO. La empresa pública puede cumplir los objetivos sociales mejor que la privada

2. LIBERAL. El liberalismo es la mejor doctrina económica. 3. EMPR_CRE. El empresario debe ser admirado por la sociedad porque crea riqueza. 4. BEN_OBJ1. El beneficio deber ser el primer objetivo de la empresa 5. MARK_NEC. El marketing es sólo un método para vender más, creando necesidades aparentes.

La 1ª variable (EPU_OBSO) esta contestada con escala de likert. Tenemos 4 medias:

Grupo 1.- 4.1034 Grupo 2.- 3.833 Grupo 3.- 3.9756 Grupo 4.- 3.5323

….

¿Como podemos saber que las 4 medias son distintas? Tendremos que realizar el Análisis de la varianza, para ver si existen diferencias significativas entre las 4 medias. Lo que nos interesara de ese análisis es el nivel de significación p.

------------------------------------------------------------------------------ VARIABLE MEDIAS MEDIAS MEDIAS MEDIAS MEDIAS PREDICTOR GRUPO 1 GRUPO 2 GRUPO 3 GRUPO 4 TOTALES------------ ------------ ------------ ------------ ------------ ------------ 1.EPU_OBSO 4,1034 3,8333 3,9756 3,5323 3,8025 2.LIBERAL 2,3793 2,7667 2,7805 3,1774 2,8580 3.EMPR_CRE 2,2069 3,2667 2,7561 3,1935 2,9198 4.BEN_OBJ1 2,8966 2,5667 3,3659 2,6290 2,8519 5.MARK_NEC 2,7586 2,2333 2,0732 2,0161 2,2037------------------------------------------------------------------------------

Ahora la función discriminante 1 explica el 69% de la varianza.La variable canónica 2 explica el 23%.La función 1 explica la mayor parte de la varianza. Tiene más capacidad discriminatoria.

CORRELACIONES CANÓNICAS:------------------------

VARIABLE VARIABLE VARIABLE CANÓNICA 1 CANÓNICA 2 CANÓNICA 3 ---------- ---------- ---------- Coeficiente de correlación: 0,2249 0,0750 0,0253 % varianza explicada: 69,1454% 23,0641% 7,7905%

Coeficientes variables:

Var. 1 - EPU_OBSO 0,3326 0,0036 -0,4848 Var. 2 - LIBERAL -0,3377 -0,3433 0,6341 Var. 3 - EMPR_CRE -0,5870 0,2923 -0,8015 Var. 4 - BEN_OBJ1 0,5780 -0,6770 -0,0718 Var. 5 - MARK_NEC 0,1747 0,6940 0,2220

Correlación variables:

Var. 1 - EPU_OBSO 0,9464 0,1219 -0,2992 Var. 2 - LIBERAL -0,8898 -0,4037 0,2129 Var. 3 - EMPR_CRE -0,9445 -0,1257 -0,3036 Var. 4 - BEN_OBJ1 0,7231 -0,6792 -0,1255 Var. 5 - MARK_NEC 0,7064 0,6932 0,1431

Centros de gravedad:

Grupo 1 0,7168 0,3400 0,1389 Grupo 2 -0,2558 0,2914 -0,2747 Grupo 3 0,3853 -0,3868 -0,0868 Grupo 4 -0,4663 -0,0442 0,1253

Veamos la matriz de confusión.

Con esta matriz podemos decir que 14 personas del grupo 1 están bien clasificadas13 personas del grupo 2 están bien clasificadas…

Calculamos el porcentaje de clasificación. Ahora hemos bajamos, lo cual es bastante ilógico, ya que deberíamos haber mejorado y no ha sido así. Hemos eliminado variables, pero

La intención del autor es que en vez de meter todas las variables, hay que meter las variables que tienen medias distintas estadísticamente, para realizar un análisis estadístico más eficaz.

Con el Dyane no se puede ofrecer más información.

Matriz de confusión calculada con todas las funciones discriminantes (mayor número de aciertos)

ASIGNACION SEGUN FUNCIONES DISCRIMINANTES ---------------------------------------------- GRUPO GRUPO GRUPO GRUPO GRUPOS REALES 1 2 3 4 TOTAL------------- ----- ----- ----- ----- ------ 1 14 3 6 6 29 2 4 13 6 7 30 3 6 8 22 5 41 4 8 14 16 24 62 ----- ----- ----- ----- ------ TOTAL 32 38 50 42 162

PORCENTAJE DE ASIGNACIONES ACERTADAS POR LAS FUNCIONES DISCRIMINANTES: 45,06%

Casos prácticos con SPSS: Estimación Simultánea.

Realicemos el mismo Análisis con el SPSS, desde una perspectiva global.

SPSS tiene 2 posibilidades:

1) Estimación Simultánea (Conjunta)2) Estimación por Etapas.- El programa realiza los datos paso a paso

para seleccionar las variables independientes que tienen significación estadística. Si seleccionamos esta opción, la salida solo incluiría las variables independientes que fueran estadísticamente significativas en las funciones discriminantes. Por eso sabríamos que variable independiente tendríamos que incluir. En la estimación simultanea no lo sabríamos (el Dyane lo hace con estimación simultanea y nos inventamos un método para verlo). En SPSS podemos realizar el A de la varianza para todas las variables independientes que seleccionemos.

Usaremos las mismas variables que en el Dyane:

Tendremos que definir el rango, así definimos de 1 a 4

Ahora seleccionamos 15 variables independientes, por ejemplo las primeras 15:

Seleccionamos estadísticos, sin seleccionar demasiados para no liarnos:

ANOVA M de Box.- Para ver la dispersión uniforme en la matriz de

covarianzas

Ahora seleccionamos el tipo de clasificación

De momento no guardaremos nada

Discriminante

Resumen del procesamiento para el análisis de casos

162 100,0

0 ,0

0 ,0

0 ,0

0 ,0

162 100,0

Casos no ponderadosVálidos

Códigos de grupoperdidos o fuera de rango

Perdida al menos unavariable discriminante

Perdidos o fuera de rangoambos, el código degrupo y al menos una delas variablesdiscriminantes.

Total excluidos

Excluidos

Casos Totales

N Porcentaje

Pruebas de igualdad de las medias de los grupos

,986 ,730 3 158 ,536

,943 3,181 3 158 ,026

,996 ,234 3 158 ,873

,958 2,328 3 158 ,077

,953 2,595 3 158 ,054

,923 4,371 3 158 ,005

,990 ,534 3 158 ,660

,979 1,156 3 158 ,329

,989 ,560 3 158 ,642

,901 5,771 3 158 ,001

,978 1,203 3 158 ,311

,932 3,857 3 158 ,011

,989 ,562 3 158 ,641

,982 ,991 3 158 ,399

,930 3,934 3 158 ,010

EPU_OBEC

EPU_OBSO

DIRE_SUF

ECME_PLA

DESP_LIB

LIBERAL

ECSOLMER

SOCIALIS

COMUNISM

EMPR_CRE

EMPR_EXP

BEN_OBJ1

BENSOLAC

BAL_SOCI

MARK_NEC

Lambdade Wilks F gl1 gl2 Sig.

El valor teórico F, puede usarse igual para el análisis de la varianza. Tenemos el nivel de significación, entonces podremos saber que variable tiene significación estadística, que variable debemos incluir. Para ello incluiremos aquellas que tengan un nivel de significación menor de 0.05. En nuestro caso serán:

EPU_OBSOLIBERAL…-

Si nos fijamos, son las mismas que las que seleccionamos en Dyane. Así en lugar de realizar 15 análisis de la varianza como en el Dyane, podremos saber que variables tienen significación estadística.

Análisis 1Prueba de Box sobre la igualdad de las matrices de covarianza

Logaritmo de los determinantes

15 -9,087

15 -5,003

15 -6,691

15 -3,544

15 -2,358

PROMOC_A1

2

3

4

Intra-grupos combinada

RangoLogaritmo deldeterminante

Los rangos y logaritmos naturales de los determinantesimpresos son los de las matrices de covarianza de los grupos.

Resultados de la prueba

510,813

1,147

360

32104,883

,029

M de Box

Aprox.

gl1

gl2

Sig.

F

Contrasta la hipótesis nula de que las matricesde covarianza poblacionales son iguales.

Nos fijaremos en el nivel de significación de test M de Box. Tenemos 0.029. Ha salido significativo, pero en clase se explico que el examen M de Box es muy sensible respecto a la normalidad de variables y al tamaño muestral. Entonces hasta 0.03 es aceptable. Por tanto, más o menos aceptamos este nivel de significación.

Resumen de las funciones canónicas discriminantes

Esta es la información más importante. Aquí podemos saber que función discriminante tenemos que considerar. Tal y como hicimos en el análisis de componentes principales, aquí también se utiliza el concepto de autovalor (Recordatorio de Autovalor.- ). La función 1 tiene mayor nivel de autovalor. La función 2 y 3, es menor.

La función 1 explica un 61 % La función 2 explica un 27 % La función 3 explica un 11 %

¿Pero que funciona discriminante es estadísticamente significativo?Para saber esto tendremos que hacer un examen estadístico de Lambda de Wilks. Es el examen estadístico mas importante en el A D.

Función 1 tiene un nivel de significación = 0.001 Función 2 tiene un nivel de significación = 0.216 Función 3 tiene un nivel de significación = 0.679

Solo la función discriminante 1 tiene nivel de significación estadística suficientemente alto. Por eso, sólo consideraremos la función discriminante 1

Autovalores

,379a 61,6 61,6 ,524

,167a 27,1 88,7 ,378

,070a 11,3 100,0 ,255

Función1

2

3

Autovalor % de varianza % acumuladoCorrelación

canónica

Se han empleado las 3 primeras funciones discriminantescanónicas en el análisis.

a.

Lambda de Wilks

,581 82,276 45 ,001

,801 33,564 28 ,216

,935 10,181 13 ,679

Contraste delas funciones1 a la 3

2 a la 3

3

Lambdade Wilks Chi-cuadrado gl Sig.

Es muy importante saber interpretar estas dos tablas.

Podemos decir que la función 1 explica la mayor parte de la varianza, pero mirando los autovalores no sabemos que función discriminante tiene significación estadística, para eso tenemos que usar la lambda de Wilks. Esto se utiliza también para MANOVA.

Tenemos 3 niveles de significación. La Fon discrimínate 1 tiene significación estadística suficientemente alta, por eso consideraremos solo la función discriminante 1.

Coeficientes estandarizados de las funcionesdiscriminantes canónicas

-,042 ,153 ,228

-,429 -,043 ,139

,291 ,172 ,224

,061 ,452 ,029

,012 ,420 -,492

,348 ,169 -,192

-,086 -,161 -,203

-,037 ,148 ,429

,360 ,144 -,279

,721 -,509 ,463

,098 -,090 -,236

-,447 ,537 ,293

-,142 ,114 ,224

-,035 -,205 ,129

-,202 -,498 -,369

EPU_OBEC

EPU_OBSO

DIRE_SUF

ECME_PLA

DESP_LIB

LIBERAL

ECSOLMER

SOCIALIS

COMUNISM

EMPR_CRE

EMPR_EXP

BEN_OBJ1

BENSOLAC

BAL_SOCI

MARK_NEC

1 2 3

Función

Son coeficientes estandarizados, por tanto son análogos a los coeficientes de regresión beta estandarizados. Por tanto el mayor valor indica el mayor peso.Sabemos que variables independiente tenemos que considerar para el análisis. Tenemos 5 con medias estadísticamente significativas.La 2ª información obtenida de la prueba de igualdad entre grupos es que tenemos que incluir en la función 1 como variable independiente la EPU_OBSO, luego LIBERAL, EMPR_CRE, BEN_OBJ1 y MARK_NEC

Para interpretar la función 1 tenemos que tener en cuenta el signo de coeficientes estandarizados.


,510* -,039 ,393

,434* ,249 -,127

-,382* -,059 ,253

,148* ,106 -,078

-,140* -,103 -,114

,106 ,468* -,347

-,287 ,460* ,309

,212 ,397* -,110

-,342 -,376* -,314

-,016 -,303* ,220

-,112 ,183* ,073

-,187 -,054 ,344*

-,154 -,025 ,263*

-,165 -,224 -,244*

,092 ,011 ,133*

EMPR_CRE

LIBERAL

EPU_OBSO

COMUNISM

ECSOLMER

DESP_LIB

BEN_OBJ1

ECME_PLA

MARK_NEC

BAL_SOCI

BENSOLAC

SOCIALIS

EPU_OBEC

EMPR_EXP

DIRE_SUF

1 2 3

Función

Correlaciones intra-grupo combinadas entre lasvariables discriminantes y las funcionesdiscriminantes canónicas tipificadas Variables ordenadas por el tamaño de lacorrelación con la función.

Mayor correlación absoluta entre cadavariable y cualquier función discriminante.

*.

También se puede ver lo anterior en la matriz de estructura. Tenemos la matriz de cargas, que son análogas a las cargas del Análisis de Componentes Principales, expresan pesos.

Funciones en los centroides de los grupos

-,983 -,334 -,296

,249 -,609 ,364

-,411 ,526 ,232

,611 ,103 -,191

PROMOC_A1

2

3

4

1 2 3

Función

Funciones discriminantes canónicas no tipificadasevaluadas en las medias de los grupos

Hemos obtenido datos parecidos con el Dyane. Pero podemos interpretar estos números observando el signo de cada número. Cada promoción tiene centroide distinto. Pero es más fácil verlo en la representación gráfica, como el Mapa territorial

Estadísticos de clasificación

Resumen del proceso de clasificación

162

0

0

162

Procesados

Código de grupo perdidoo fuera de rango


Excluidos

Usados en los resultados

Probabilidades previas para los grupos

,250 29 29,000

,250 30 30,000

,250 41 41,000

,250 62 62,000

1,000 162 162,000

PROMOC_A1

2

3

4

Total

PreviasNo

ponderados Ponderados

Casos utilizados en elanálisis

Mapa territorial (Asumiendo que todas las funciones excepto las dos primeras son = 0)Discriminante canónicaFunción 2 -3,0 -2,0 -1,0 ,0 1,0 2,0 3,0 3,0 34 34 34 34 34 34 2,0 34 34 3 34 1333 34 11133 34 11333 34 1,0 11133 34 11333 34 11133 34 11333 * 34 11133 34 11333 34 * ,0 11133 34 1133332444 * 1122 222444 12 222444 12 * 2224444 12 2222444 -1,0 12 222444 12 2224444 12 2222444 12 222444 12 2224 12 2 -2,0 12 12 12 12 12 12 -3,0 12 -3,0 -2,0 -1,0 ,0 1,0 2,0 3,0 Función discriminante canónica 1

Símbolos usados en el mapa territorial

Símbol Grupo Etiqu------ ----- --------------------

1 1 2 2 3 3 4 4

* Indica un centroide de grupo


Función 1

43210-1-2-3-4

Fu

nci

ón

23

2

1

0

-1

-2

-3

PROMOC_A

Centroides de grupo

4: Sexto

3: Quinto

2: Cuarto

1: Tercero

43

21

Estamos mirando centroides 1, 2, 3 y 4. Desde el punto de vista de la función discriminante 1, los grupos mas discriminados son los grupos 1 y 4. Ahora, depende de las preguntas, tenemos que interpretar la interrelación entre cada grupo

Resultados de la clasificacióna

17 3 7 2 29

8 12 3 7 30

8 5 21 7 41

5 13 16 28 62

58,6 10,3 24,1 6,9 100,0

26,7 40,0 10,0 23,3 100,0

19,5 12,2 51,2 17,1 100,0

8,1 21,0 25,8 45,2 100,0

PROMOC_A1

2

3

4

1

2

3

4

Recuento

%

Original1 2 3 4

Grupo de pertenencia pronosticado

Total

Clasificados correctamente el 48,1% de los casos agrupados originales.a.

Casos prácticos con SPSS: Estimación por Etapas.

Ahora veremos el método de inclusión por etapas

Discriminante

Resumen del procesamiento para el análisis de casos

162 100,0

0 ,0

0 ,0

0 ,0

0 ,0

162 100,0

Casos no ponderadosVálidos

Códigos de grupoperdidos o fuera de rango


Perdidos o fuera de rangoambos, el código degrupo y al menos una delas variablesdiscriminantes.

Total excluidos

Excluidos

Casos Totales

N Porcentaje


,986 ,730 3 158 ,536

,943 3,181 3 158 ,026

,996 ,234 3 158 ,873

,958 2,328 3 158 ,077

,953 2,595 3 158 ,054

,923 4,371 3 158 ,005

,990 ,534 3 158 ,660

,979 1,156 3 158 ,329

,989 ,560 3 158 ,642

,901 5,771 3 158 ,001

,978 1,203 3 158 ,311

,932 3,857 3 158 ,011

,989 ,562 3 158 ,641

,982 ,991 3 158 ,399

,930 3,934 3 158 ,010

EPU_OBEC

EPU_OBSO

DIRE_SUF

ECME_PLA

DESP_LIB

LIBERAL

ECSOLMER

SOCIALIS

COMUNISM

EMPR_CRE

EMPR_EXP

BEN_OBJ1

BENSOLAC

BAL_SOCI

MARK_NEC

Lambdade Wilks F gl1 gl2 Sig.

Análisis 1Prueba de Box sobre la igualdad de las matrices de covarianza

Logaritmo de los determinantes

2 ,118

2 ,790

2 ,568

2 ,467

2 ,568

PROMOC_A1

2

3

4

Intra-grupos combinada

RangoLogaritmo deldeterminante

Los rangos y logaritmos naturales de los determinantesimpresos son los de las matrices de covarianza de los grupos.

Resultados de la prueba

12,297

1,332

9

115498,2

,214

M de Box

Aprox.

gl1

gl2

Sig.

F

Contrasta la hipótesis nula de que las matricesde covarianza poblacionales son iguales.

Tiene nivel de significación distinto que antes. Según el método nos saldrá un resultado u otro. Aquí nos ha salido no significativo, por lo que no tenemos problema sobre la igualdad de las matrices de covarianzas.

Estadísticos por pasos

Variables introducidas/eliminadasa,b,c,d

EMPR_CRE ,901 1 3 158,000 5,771 3 158,000 ,001

BEN_OBJ1 ,802 2 3 158,000 6,109 6 314,000 ,000

Paso1

2

Introducidas Estadístico gl1 gl2 gl3 Estadístico gl1 gl2 Sig.

F exacta

Lambda de Wilks

En cada paso se introduce la variable que minimiza la lambda de Wilks global.

El número máximo de pasos es 30.a.

La F parcial mínima para entrar es 3.84.b.

La F parcial máxima para eliminar es 2.71c.

El nivel de F, la tolerancia o el VIN son insuficientes para continuar los cálculos.d.

El concepto básico de la estimación por etapas es meter una variable independiente, si sale sign, metemos otra variable y así continuamente, metiendo y sacando variables, para quedarnos con aquellas que tienen significación estadística.

Variables en el análisis

1,000 5,771

,894 8,477 ,932

,894 6,486 ,901

EMPR_CRE

EMPR_CRE

BEN_OBJ1

Paso1

2

ToleranciaF para

eliminarLambdade Wilks

Aparece el nivel de Tolerancia. Aquí no tiene ningún problema, ya que esta próximo a 1.

Variables no incluidas en el análisis

1,000 1,000 ,730 ,986

1,000 1,000 3,181 ,943

1,000 1,000 ,234 ,996

1,000 1,000 2,328 ,958

1,000 1,000 2,595 ,953

1,000 1,000 4,371 ,923

1,000 1,000 ,534 ,990

1,000 1,000 1,156 ,979

1,000 1,000 ,560 ,989

1,000 1,000 5,771 ,901

1,000 1,000 1,203 ,978

1,000 1,000 3,857 ,932

1,000 1,000 ,562 ,989

1,000 1,000 ,991 ,982

1,000 1,000 3,934 ,930

,980 ,980 ,518 ,892

,999 ,999 2,782 ,856

,845 ,845 2,135 ,866

,904 ,904 1,901 ,870

,915 ,915 3,055 ,852

,905 ,905 2,485 ,860

,986 ,986 ,899 ,886

,987 ,987 ,913 ,886

,971 ,971 1,120 ,882

,939 ,939 ,620 ,891

,894 ,894 6,486 ,802

,926 ,926 1,576 ,875

1,000 1,000 ,981 ,885

,976 ,976 2,801 ,855

,973 ,884 ,675 ,792

,999 ,893 2,519 ,765

,812 ,798 1,410 ,781

,904 ,819 1,839 ,774

,913 ,831 2,809 ,761

,898 ,830 2,741 ,762

,969 ,878 ,704 ,791

,977 ,877 ,736 ,791

,970 ,868 1,155 ,784

,939 ,846 ,596 ,793

,910 ,850 ,799 ,790

,994 ,889 ,864 ,789

,973 ,870 2,765 ,761

EPU_OBEC

EPU_OBSO

DIRE_SUF

ECME_PLA

DESP_LIB

LIBERAL

ECSOLMER

SOCIALIS

COMUNISM

EMPR_CRE

EMPR_EXP

BEN_OBJ1

BENSOLAC

BAL_SOCI

MARK_NEC

EPU_OBEC

EPU_OBSO

DIRE_SUF

ECME_PLA

DESP_LIB

LIBERAL

ECSOLMER

SOCIALIS

COMUNISM

EMPR_EXP

BEN_OBJ1

BENSOLAC

BAL_SOCI

MARK_NEC

EPU_OBEC

EPU_OBSO

DIRE_SUF

ECME_PLA

DESP_LIB

LIBERAL

ECSOLMER

SOCIALIS

COMUNISM

EMPR_EXP

BENSOLAC

BAL_SOCI

MARK_NEC

Paso0

1

2

ToleranciaTolerancia

mín.F para

introducirLambdade Wilks

Lambda de Wilks

1 ,901 1 3 158 5,771 3 158,000 ,001

2 ,802 2 3 158 6,109 6 314,000 ,000

Paso1

2

Número devariables Lambda gl1 gl2 gl3 Estadístico gl1 gl2 Sig.

F exacta

Resumen de las funciones canónicas discriminantes

Autovalores

,212a 87,9 87,9 ,418

,029a 12,1 100,0 ,168

Función1

2

Autovalor % de varianza % acumuladoCorrelación

canónica

Se han empleado las 2 primeras funciones discriminantescanónicas en el análisis.

a.

La información más importante del AD, aparece a partir de esta tabla. Aquí hemos detectado 2 funciones con nivel de significación estadística aceptable, pero la función 1 explica el 88 % de a varianza (casi toda). La función 2 explica solo el 12%.Par seleccionar las funciones discriminantes con nivel de significación estadística aceptable realizamos el examen de Lambda de Wilks.La función 1 es estadísticamente significativa, mientras que la 2 no lo es. Por tanto en el análisis posterior se considerara solo la función 1 (notar que hemos obtenido el mismo resultado que en el primer análisis, pero la diferencia aparece en las tablas posteriores)

Lambda de Wilks

,802 34,888 6 ,000

,972 4,534 2 ,104

Contraste delas funciones1 a la 2

2

Lambdade Wilks Chi-cuadrado gl Sig.

Coeficientes estandarizados de lasfunciones discriminantes canónicas

,921 ,520

-,791 ,702

EMPR_CRE

BEN_OBJ1

1 2

Función

Hemos incluido dos variables independientes, ya que estadísticamente hablando, en la estimación por etapas se usa un examen mas sofisticado. Se calcula el nivel de Lambda de Wilks para cada paso de la estimación y seleccionando únicamente las variables independientes que tienen significación aceptable para la Lambda de Wilks.

Ahora lo que haremos es, excepto esos resultados, interpretar 2 variables independientes en la función discriminatoria 1. Por eso, no hace falta interpretar la segunda parte, ya que la función 2 no es significativa

La primera variable tiene signo +, y la segunda -. Los encuestados han mostrados percepciones opuestas.


-,150* -,018

-,145* -,078

-,134* -,109

,062* -,047

-,029* -,012

-,491 ,871*

,664 ,748*

-,127 -,414*

,141 ,287*

,088 ,287*

,163 ,245*

,196 ,240*

-,159 -,188*

-,022 ,176*

-,031 -,161*

SOCIALISa

MARK_NECa

COMUNISMa

BAL_SOCIa

EPU_OBSOa

BEN_OBJ1

EMPR_CRE

DIRE_SUFa

LIBERALa

BENSOLACa

DESP_LIBa

ECME_PLAa

EMPR_EXPa

ECSOLMERa

EPU_OBECa

1 2

Función

Correlaciones intra-grupo combinadas entre lasvariables discriminantes y las funcionesdiscriminantes canónicas tipificadas Variables ordenadas por el tamaño de lacorrelación con la función.

Mayor correlación absoluta entre cadavariable y cualquier función discriminante.

*.

Esta variable no se emplea en el análisis.a.

En este caso no tiene mucho sentido porque ya hemos seleccionado las variables independientes. Pasaremos a la representación grafica

Funciones en los centroides de los grupos

-,586 -,288

,460 -,015

-,469 ,231

,362 -,011

PROMOC_A1

2

3

4

1 2

Función

Funciones discriminantes canónicas no tipificadasevaluadas en las medias de los grupos

Estadísticos de clasificación

Resumen del proceso de clasificación

162

0

0

162

Procesados

Código de grupo perdidoo fuera de rango


Excluidos

Usados en los resultados

Probabilidades previas para los grupos

,250 29 29,000

,250 30 30,000

,250 41 41,000

,250 62 62,000

1,000 162 162,000

PROMOC_A1

2

3

4

Total

PreviasNo

ponderados Ponderados

Casos utilizados en elanálisis

_

Mapa territorial (Asumiendo que todas las funciones excepto las dos primeras son = 0)Discriminante canónicaFunción 2 -3,0 -2,0 -1,0 ,0 1,0 2,0 3,0 3,0 32 32 32 32 32 32 2,0 32 32 342 342 3442 3442 1,0 34 42 34 42 34 42 333333 34 42 1111113333333 34 42 111111133333333 * 34 42 ,0 111111113333333 34 ** 1111111334 42 * 114 42 14 42 14 42 14 42 -1,0 14 42 1442 1442 12 12 12 -2,0 12 12 12 12 12 12 -3,0 12 -3,0 -2,0 -1,0 ,0 1,0 2,0 3,0 Función discriminante canónica 1

Símbolos usados en el mapa territorialSímbol Grupo Etiqueta------ ----- --------------------

1 1 2 2 3 3 4 4 * Indica un centroide de grupo


Función 1

3210-1-2-3

Funció

n 2

3

2

1

0

-1

-2

PROMOC_A

Centroides de grupo

4

3

2

1

43

21

Con esta información usamos la función discriminante 1, no podemos usar la 2.Con la función discriminante 1:

Grupo 1 y grupo 4 se pueden discriminar, ya que están lejos horizontalmente.


Grupo 1 y grupo 3 es difícilmente clasificable, ya que están cerca horizontalmente.



Resultados de la clasificacióna

14 4 9 2 29

5 18 7 0 30

11 10 19 1 41

12 28 20 2 62

48,3 13,8 31,0 6,9 100,0

16,7 60,0 23,3 ,0 100,0

26,8 24,4 46,3 2,4 100,0

19,4 45,2 32,3 3,2 100,0

PROMOC_A1

2

3

4

1

2

3

4

Recuento

%

Original1 2 3 4

Grupo de pertenencia pronosticado

Total

Clasificados correctamente el 32,7% de los casos agrupados originales.a.

Una aplicación práctica del Análisis Discriminante es validar el Análisis Cluster. Guardando el resultado del análisis cluster en una variable, y realizando posteriormente el AD con la nueva variable creada.

Ejercicio 6

1. ¿Qué criterio se podría utilizar para decidir qué variable independiente debe incluirse en las funciones discriminantes?

2. ¿En qué se diferencian el análisis discriminante múltiple, el análisis de regresión, el análisis multivariante de la varianza (MANOVA), y la regresión logística?

3. Explique los siguientes términos: función discriminante, coeficientes estandarizados, y cargas discriminantes.

4. Se realizó una encuesta a cuatro promociones de estudiantes de la Universidad de Alcalá, en la que se midieron las actitudes hacia la empresa y los sistemas económicos. Interprete la siguiente salida de SPSS del análisis discriminante:

5. A continuación, se obtuvieron las siguientes tablas. Plantee una conclusión del análisis discriminante a partir de la siguiente información.

1. ¿Qué criterio se podría utilizar para decidir qué variable independiente debe incluirse en las funciones discriminantes?

En el análisis discriminante (AD) existen dos métodos de estimación: la estimación conjunta o simultánea y la estimación por pasos o etapas. En el DYANE sólo está implementada la estimación conjunta mientras que en el SPSS están ambos métodos de estimación.

La estimación por etapas produce resultados más conservadores y se eliminan las variables que no contribuyen a la capacidad discriminatoria. Es decir: es un método para seleccionar las variables que contribuyen y que tienen el nivel de significación más importante y son incluidas finalmente en la función discriminante.

Cuando efectuamos un AD mediante SPSS, únicamente nos salen las variables son suficiente capacidad discriminatoria. Las cargas sólo salen para todas las variables independientes.

La importancia o pesos de cada variable independiente son los coeficientes de correlación canónicas. Ventajas: la estimación conjunta es más sencilla. Si utilizamos DYANE, hay que realizar un ANOVA univariante (para medir si las medias son significativamente diferentes o distintas) para poder seleccionar las variables con más significación estadística y luego realizar el AD. Cuando tenemos solamente dos grupos, se emplea la t de Student.

2. ¿En qué se diferencian el análisis discriminante múltiple, el análisis de regresión, el análisis multivariante de la varianza (MANOVA), y la regresión logística?

Regresión múltiple (RM) Y = α + β1X1 + β2X2 + ... + βnXn Análisis discriminante (AD) Z= a + W1X1 + W2X2 + ... + WnXn

El MANOVA es la inversa del AD, donde la variable dependiente es la independiente. La Regresión Logística (RL) es un caso particular del AD,

donde la variable dependiente es nominal (dicotómica) y la independiente es métrica.

3. Explique los siguientes términos: función discriminante, coeficientes estandarizados, y cargas discriminantes.

La Función Discriminante (FD) es una combinación lineal de dos o más variables que contienen una serie de puntuaciones Z.W1, W2, ... ,Wn son coeficientes discriminantes que son análogos a los coeficientes de la regresión múltiple. Estos coeficientes representan las contribuciones relativas de sus variables asociadas a las funciones discriminantes. ¿Por qué se estandarizan las variables? Se estandarizan por que nos son valores directamente comparables.Las cargas discriminantes son técnicamente semejantes a las obtenidas mediante el ACP. Miden la correlación lineal simple entre cada variable independiente y la FD. Reflejan también la varianza que existe entre las variables independientes y la FD obtenida. Esta última cuestión está muy relacionada con el concepto de Autovalor.

4. Se realizó una encuesta a cuatro promociones de estudiantes de la Universidad de Alcalá, en la que se midieron las actitudes hacia la empresa y los sistemas económicos. Interprete la siguiente salida de SPSS del análisis discriminante:

El M de Box sirve para comprobar el supuesto de la igualdad de las matrices de covarianzas o de dispersión. Entre dos o más grupos de debe ser significativo.

Resultados de la pruebaM de Box 510,813F Aprox. 1,147

gl1 360gl2 32104,883Sig. ,029

Autovalores

Función Autovalor % de varianza % acumuladoCorrelación

canónica1 ,379(a) 61,6 61,6 ,5242 ,167(a) 27,1 88,7 ,3783 ,070(a) 11,3 100,0 ,255

a Se han empleado las 3 primeras funciones discriminantes canónicas en el análisis.

Esta tabla no contiene información significativamente estadística. El autovalor significa la varianza representada por la FD. Las correlaciones canónicas al cuadrado proporcionan una estimación de la cantidad de varianza compartida entre las respectivas combinaciones lineales óptimamente estimadas entre las variables independientes y las dependientes. Junto con la información proporcionada por la 2ª y 3ª columna se puede decir que la FD 1 representa el 61,6% de la varianza y que la FD 2 y FD 3, explican sólo el 38,4%.

0,03 es un nivel aceptable. En este caso tenemos 0,029, por lo que podemos considerarlo válido.

Lambda de Wilks

Contraste de las funciones

Lambda de Wilks Chi-cuadrado Gl Sig.

1 a la 3 ,581 82,276 45 ,0012 a la 3 ,801 33,564 28 ,2163 ,935 10,181 13 ,679

El lambda de Wilks es un examen estadístico para ver si las FD tienen significación estadística. La única FD válida sería la primera por lo que solamente será utilizada para análisis posteriores.

5. A continuación, se obtuvieron las siguientes tablas. Plantee una conclusión del análisis discriminante a partir de la siguiente información.

La tabla corresponde a una salida donde se ha efectuado un ANOVA univariante de forma conjunta para comprobar la significación estadística de las variables independientes y poderlas así incluirlas en la FD.

Las variables a incluir son EPU_OBSO, LIBERAL, EMPR_CRE, BEN_OBJ1 y MARK_NEC.


Lambda de

Wilks F gl1 gl2 Sig.EPU_OBEC ,986 ,730 3 158 ,536EPU_OBSO ,943 3,181 3 158 ,026DIRE_SUF ,996 ,234 3 158 ,873ECME_PLA ,958 2,328 3 158 ,077DESP_LIB ,953 2,595 3 158 ,054LIBERAL ,923 4,371 3 158 ,005ECSOLMER ,990 ,534 3 158 ,660SOCIALIS ,979 1,156 3 158 ,329COMUNISM ,989 ,560 3 158 ,642EMPR_CRE ,901 5,771 3 158 ,001EMPR_EXP ,978 1,203 3 158 ,311BEN_OBJ1 ,932 3,857 3 158 ,011BENSOLAC ,989 ,562 3 158 ,641BAL_SOCI ,982 ,991 3 158 ,399MARK_NEC ,930 3,934 3 158 ,010

Coeficientes estandarizados de las funciones discriminantes canónicas

Función

1 2 3

EPU_OBEC -,042 ,153 ,228EPU_OBSO -,429 -,043 ,139DIRE_SUF ,291 ,172 ,224ECME_PLA ,061 ,452 ,029DESP_LIB ,012 ,420 -,492LIBERAL ,348 ,169 -,192ECSOLMER -,086 -,161 -,203SOCIALIS -,037 ,148 ,429COMUNISM ,360 ,144 -,279EMPR_CRE ,721 -,509 ,463EMPR_EXP ,098 -,090 -,236BEN_OBJ1 -,447 ,537 ,293BENSOLAC -,142 ,114 ,224BAL_SOCI -,035 -,205 ,129MARK_NEC -,202 -,498 -,369

Para la FD, dos variables tienen signo positivo y tres negativos. A la hora de interpretar FD tenemos que tener en cuenta estos efectos.


Función 1

43210-1-2-3-4

Funció

n 2

3

2

1

0

-1

-2

-3

PROMOC_A

Centroides de grupo

4: Sexta (84/85)

3: Quinta (83/84)

2: Cuarta (82/83)

1: Tercera (81/82)

4

3

21

Para este mapa territorial únicamente debemos considerar la FD 1, ya que es la única que ha salido estadísticamente significativa.

Resultados de la clasificación(a)

PROMOC_A Grupo de pertenencia pronosticado Total

1 2 3 4 Original Recuento 1 17 3 7 2 29

2 8 12 3 7 30 3 8 5 21 7 41 4 5 13 16 28 62

Tenemos que calcular los resultados obtenidos a partir de esta matriz de confusión:

(17+12+21+28)/(29+30+41+62)=0,481, es decir que el 48,1% de las variables están correctamente clasificadas.

TEMA 7: EL ANÁLSIS multivariante de la varianza (MANOVA)

Estructura de la clase:1. Introducción.2. Definición y objetivo.3. Términos y conceptos básicos del MANOVA.4. Supuestos básicos del MANOVA. 5. Diseño del estudio con el MANOVA.6. Casos prácticos con SPSS.

Introducción.

- El MANOVA es la extensión multivariante de las técnicas univariantes y sirve para valorar las diferencias entre las medias de varios grupos con múltiples variables.

- El MANOVA y el AD son “imágenes de espejo”. Las variables DEPENDIENTES en el MANOVA (una serie de variables métricas) son las variables INDEPENDIENTES en el AD y una simple variable DEPENDIENTE (no métrica) del AD se convierte en la variable INDEPENDIENTE en el MANOVA.

- Las diferencias entre el MANOVA y el AD, sin embargo, se centran alrededor de los objetivos de los análisis y el papel de las variables no métricas. El AD emplea una variable no métrica como variable dependiente. Se supone que las categorías de la variable dependiente están dadas y que se utilizan las variables independientes para formar valores teóricos que son diferentes de manera máxima entre los grupos formados por las categorías de la variable dependiente. En el MANOVA por el contrario, la serie de variables métricas actúan ahora como variables dependientes y el objetivo es encontrar grupos de encuestados que exhiben diferencias sobre la serie de variables dependientes. Los grupos de encuestados no son especificados previamente; en su lugar, el investigador utiliza una o más variables independientes (no métricas) para formar grupos (Hair et al., 1999, pp.351).

¿Por qué se usa el MANOVA?

Para contrastar las medias de dos grupos se utiliza el test t de Student.

Grupos Valor de t de Student

p*A B

Variable métrica Media A Media B xx xxSi p es menor que el nivel de significación previamente establecido, se debe rechazar la hipótesis nula (Media A = Media B), y por ello, concluir que existe diferencia significativa entre las dos medias (Media A ≠ Media B).

Cuando queremos contrastar medias de tres o más grupos, podemos llevar a cabo múltiples tests t separados para contrastar la diferencia entre cada par de medias de una variable. Sin embargo, los tests t múltiples hinchan el porcentaje del error Tipo I. El ANOVA evita este aumento del error de Tipo I al comparar un conjunto de grupos. Por ello, para contrastar conjuntamente las medias de tres o más grupos de una variable se utiliza el ANOVA.

Grupos Valor de F p*A B C

Variable métrica Media A Media B Media C xx xxSi p es menor que el nivel de significación previamente establecido, se debe rechazar la hipótesis nula (Media A = Media B = Media C), y por ello, concluir que existen diferencias significativas entre las tres medias (Media A ≠ Media B ≠ Media C).

Si queremos examinar las medias de tres o más grupos respecto a múltiples variables, podríamos aplicar el ANOVA varias veces a cada una de las variables por separado. Sin embargo, con la misma lógica aplicada con los tests t múltiples, la repetición del ANOVA aumenta el error de Tipo I. El MANOVA evita este problema, y es más adecuado para examinar las medias de múltiples grupos respecto a múltiples variables.

Grupos F p* Lambda de Wilks*A B C

Variable métrica 1 Media A1 Media B1 Media C1 xx xxValor únicoVariable métrica 2 Media A2 Media B2 Media C2 xx xx

Variable métrica 3 Media A3 Media B3 Media C3 xx xxSi p es menor que el nivel de significación previamente establecido, se puede decir que existen diferencias univariantes (Media A ≠ Media B ≠ Media C). Sin embargo, el poder del MANOVA es permitir detectar diferencias multivariantes examinando el “Lambda de Wilks”.

Sin embargo, los contrastes individuales ignoran las correlaciones entre las variables dependientes (métricas) y por ello no se emplea toda la información disponible para valorar diferencias globales en los grupos. Por ello, el MANOVA computa un valor único “Lambda de Wilks” para detectar diferencias multivariantes.

Tanto el ANOVA como el MANOVA son particularmente útiles cuando se usan conjuntamente con diseños experimentales en los que el investigador controla o manipula directamente una o más variables independientes para determinar su efecto sobre una (ANOVA) o más (MANOVA) variables dependientes (Hair et al., 1999, pp.346).

Definición y objetivo.

El MANOVA es una técnica de dependencia que mide las diferencias entre dos o más variables métricas dependientes basadas en un conjunto de variables categóricas independientes.

El MANOVA nos permite:5. detectar diferencias globales debido a la combinación de las

variables dependientes (métricas) que no se encuentran con los contrastes univariantes (Caso 1).

6. realizar el examen de múltiples variables independientes (no métricas o categóricas) (Caso 2).

7. controlar el porcentaje global del error de Tipo I.

Casos en los que es adecuado utilizar el MANOVA :

a. Caso 1: Preguntas sobre múltiples variables dependientes (métricas) y una variable independiente (no métrica).

En este caso el investigador pretende realizar preguntas sobre múltiples variables dependientes (por ejemplo, renta, consumo, etc.) que quiere analizar por separado, controlando el porcentaje de error de Tipo I. En esta situación, el MANOVA en primer lugar valora si se encuentra alguna diferencia global entre grupos.

El análisis se

continua llevando a cabo contrastes univariantes separados para dar respuestas individuales a cada variable dependiente (métrica).

Variable independiente (no métrica) F pClase social

Alta Media BajaVariables dependientes(métricas)

Variable 1Variable 2Variable 3

Variable independiente(no métrica) Clase

social

Lambda de Wilks*

(valor único)

p

b. Caso 2: Preguntas sobre múltiples variables dependientes (métricas) y múltiples variables independientes (no métricas).

En este caso el investigador pretende realizar preguntas sobre dos o más variables independientes (por ejemplo, sexo, clase social, etc.) y examinar si existen unas determinadas relaciones entre ellas. El MANOVA proporciona un método estructurado para especificar las comparaciones de las diferencias de los grupos sobre un conjunto de medidas dependientes mientras se mantiene la eficiencia estadística.

Variables independientes (no métrica) F pClase social

Alta Media BajaHombre Mujer Hombre Mujer Hombre Mujer

Variables dependientes(métricas)

Variable 1Variable 2Variable 3

Variable independiente(no métrica)

Clase social

Lambda de Wilks*

(valor único)

p

Variable independiente(no métrica)

SexoLambda de

Wilks* (valor único)

p

Variables independientes(no métrica)

Clase Social

XSexo

Lambda de Wilks*

(valor único)

p

Términos y conceptos básicos del MANOVA.

Caso 1: múltiples variables dependientes (métricas) y una variable independiente (no métrica).

Supongamos, por ejemplo, que identificamos una variable categórica (independiente), “clase social”, con tres categorías: alta, media y baja. Pretendemos estudiar si existen diferencias importantes entre estas tres clases sociales, teniendo en cuenta tres variables dependientes (métricas), que son: renta, consumo de refrescos mensual y gasto en agua mensual.

Para ello, seleccionaríamos tres grupos de personas de clase alta, media y baja, y les pediríamos que valorasen en una escala métrica su renta, su consumo de refrescos y su gasto de agua. A continuación, calcularíamos las medias para cada grupo y para cada valor de la variable dependiente, que se indicarían en las celdas sombreadas de la tabla siguiente.

Clase socialAlta Media Baja

Variables dependientes (métricas)

RentaConsumo de refrescos mensualGasto en agua mensual

El MANOVA sigue los siguientes pasos:

Paso 1:

El MANOVA detecta diferencias combinadas que no se encuentran con los contrastes univariantes. Existen cuatro criterios muy conocidos con los que valorar las diferencias multivariantes entre los grupos: la mayor raíz característica de Roy, la traza de Hotelling, el lambda de Wilks, y el criterio de Pillai. Estos criterios valoran las diferencias entre dimensiones de las variables dependientes.

El contraste más comúnmente empleado para la significación global del MANOVA es el lambda de Wilks. Este examen estadístico considera todas las raíces características, es decir, compara si los grupos son de algún modo diferentes sin estar afectados por el hecho de que los grupos difieran en al menos una combinación lineal de las variables dependientes.

Aunque la computación del lambda de Wilks es compleja, se tienen buenas aproximaciones para contrastar la significación, transformándolo en un estadístico F.

Paso 2:

A continuación, el MANOVA detecta las diferencias univariantes mediante el contraste F o el ANOVA univariante.

Variable independiente (no métrica)

F p

Clase socialAlta Media Baja

Variables dependientes(métricas)

Renta

Consumo de refrescos mensualGasto en agua mensual

Variable independiente(no métrica) Clase

social

Lambda de Wilks*

(valor único)

F p

Caso 2: múltiples variables dependientes (métricas) y múltiples variables independientes (no métricas).

Supongamos, por ejemplo, que identificamos dos variables independientes (categóricas), “línea de producto” y “tipo de cliente”. Cada una de ellas tiene dos categorías, producto 1 y producto 2 para la variable “línea de producto” y cliente anterior y cliente actual para “tipo de cliente”. Combinando estas dos variables independientes formamos los cuatro grupos siguientes (Tabla 1):

Tabla 1Variable “línea de producto”

Producto 1 Producto 2Variable “tipo de cliente” Cliente anterior Grupo 1 Grupo 3

Cliente actual Grupo 2 Grupo 4

Pretendemos estudiar cómo éstas variables categóricas causan diferencias en la manera en que la gente evalúa la publicidad de una determinada marca, concretamente en “recuerdo” y “compra” (variables dependientes). Para ello, preguntaríamos a individuos de cada uno de los grupos anteriores que valorasen en una escala métrica “recuerdo” y “compra”. A continuación calcularíamos las medias para cada grupo y para cada valor de la variable dependiente (métrica) que se indicarían en las celdas sombreadas de la tabla 2.

Tabla 2Variables independientes (no métrica)

Línea de productoProducto 1 Producto 2

Cliente anterior

(grupo 1)

Cliente actual

(grupo 2)

Cliente anterior

(grupo 3)

Cliente actual

(grupo 4)Variables dependientes(métricas)

Recuerdo

Compra

Podemos usar el MANOVA para combinar estas dos variables dependientes (recuerdo y compra) en un único valor teórico, de forma idéntica al AD.

Medias Producto 1

Producto 2

Cliente actualCliente anterior

Medias

Cliente actualCliente anterior

Producto 2

Producto 1

MEDIA GRUPO 1 +GRUOP 3



MEDIA GRUPO 4

MEDIA GRUPO 2

MEDIA GRUPO 3

MEDIA GRUPO 1


d1 d2♦

El gráfico de arriba representa en el eje X el tipo de cliente y en el eje Y la media, y en él se indica con el símbolo las cuatro medias de dicho valor teórico para cada uno de los grupos (estos símbolos representarían la media de cada columna de la Tabla 2). Las dos líneas continuas conectan los dos tipos de cliente (cliente anterior y cliente actual) para un mismo tipo de producto (producto 1 y producto 2).

Las dos líneas discontinuas verticales conectan los dos tipos de productos para un mismo tipo de cliente. Los símbolos de la figura indican la media para cada categoría de una de las dos variables independientes calculada sin distinguir las categorías que adopta la otra variable independiente, es decir, lo que podemos denominar la “media de la categoría” de las variables independientes (categóricas). El cálculo de dicha “media de la categoría” nos permite evaluar cómo el tipo de producto y/o el tipo de cliente influye en las variables dependientes (métricas). Siguiendo con el ejemplo, un examen visual del gráfico anterior pone de manifiesto que la diferencia entre medias para el tipo de cliente (distancia “d1” en el gráfico) es mayor que la diferencia entre las medias para el tipo de producto (distancia “d2” en el gráfico). Todo ello nos permite concluir que ambas características (tipo de producto y tipo de cliente) causan diferencias significativas, un resultado que no es posible obtener con el análisis discriminante.

Y

X

El MANOVA difiere del AD en la manera en que se forman y se analizan los grupos. Sólo podría llevarse a cabo el AD sobre los cuatro grupos, sin distinción de las características del grupo. Con el MANOVA, el investigador analiza las diferencias entre los grupos a la vez que valora si las diferencias se deben al tipo de producto, al tipo de cliente o a ambos. Por tanto, el MANOVA se centra en el análisis sobre la composición de los grupos basada en sus características (es decir, en las variables independientes).

Supuestos básicos del MANOVA.

Tamaño muestral: 1) El tamaño de cada grupo mínimo debe ser de 20 observaciones.2) El tamaño de cada “celda” debe ser más grande que el número de variables dependientes incluidas.

Supuestos generales:1) Linealidad.2) El conjunto de las p-variables dependientes debe seguir una distribución normal multivariante (en la práctica, este supuesto NO se puede comprobar con SPSS; por ello se debe asegurar que cualquier combinación de las variables dependientes sigue una distribución normal).

Supuestos específicos:1) Las observaciones deben ser independientes.

2) Las matrices de varianzas–covarianzas deben ser iguales para todos los grupos de tratamiento (M de Box; en SPSS, seleccione “Opciones” → “Pruebas de homogeneidad”).

3) La ausencia de la multicolinealidad.

Potencia estadística de los contrastes multivariantes:En términos sencillos, la potencia es la probabilidad de que el contraste estadístico identifique un efecto del “tratamiento” si este realmente existe. La potencia puede ser definida como uno menos la probabilidad del error de Tipo II (beta).El investigador debe considerar, no sólo el nivel de significación alfa, sino también la potencia resultante, y debe intentar mantener un nivel de significación alfa aceptable con una potencia cerca de 0,80. El SPSS ofrece una opción para comprobar el nivel de la potencia (“Opciones” → “Potencia observada”).Tras realizar el MANOVA, el investigador debe determinar primero si la potencia obtenida fue suficiente, es decir, 0,80 o más. Si no fuese así, y especialmente si no se han encontrado diferencias significativas, el investigador podría reformular el diseño de análisis.

Diseño del estudio con el MANOVA.

Objetivos del estudio con el MANOVA. Examen de los supuestos. Estimación del modelo MANOVA y valoración del ajuste global. Análisis sobre efectos de interacciones. Interpretación de los resultados.

Casos prácticos con SPSS.

Utilizaremos el archivo AD_SPSS.

Al igual que hicimos en el AD, escogemos las siguientes variables dependientes:

EPU_OBSO LIBERAL EMPR_CRE BEN_OBJ1 MARK_NEC

Como variable independiente o Factor Fijo

PROMOC_A

En Opciones elegimos Pruebas de Homogeneidad,

Las salidas de SPSS son las siguientes:

El nivel de significación obtenido es 0,016 < 0,05, por lo que las matrices de varianzas-covarianzas no son iguales. Podemos decir que no se cumple el test de M de Box.

Las pruebas de los efectos inter-sujetos sirven para ver si existen diferencias univariantes. Mediante el MANOVA se pueden ver si existen diferencias univariantes y multivariantes.

Prueba de Box sobre la igualdadde las matrices de covarianza

a

72,140

1,501

45

36983,674

,016

M de Box

F

gl1

gl2

Significación

Contrasta la hipótesis nula de que las matricesde covarianza observadas de las variablesdependientes son iguales en todos los grupos.

Diseño: Intercept+PROMOC_Aa.

Contrastes multivariadosc

,970 1000,978a 5,000 154,000 ,000

,030 1000,978a 5,000 154,000 ,000

32,499 1000,978a 5,000 154,000 ,000

32,499 1000,978a 5,000 154,000 ,000

,325 3,794 15,000 468,000 ,000

,699 3,933 15,000 425,528 ,000

,397 4,043 15,000 458,000 ,000

,290 9,053b 5,000 156,000 ,000

Traza de Pillai

Lambda de Wilks

Traza de Hotelling

Raíz mayor de Roy

Traza de Pillai

Lambda de Wilks

Traza de Hotelling

Raíz mayor de Roy

EfectoIntercept

PROMOC_A

Valor FGl de lahipótesis Gl del error Significación

Estadístico exactoa.

El estadístico es un límite superior para la F el cual ofrece un límite inferior para el nivel designificación.

b.

Diseño: Intercept+PROMOC_Ac.

Sólo nos vamos a fijar en el lambda de Wilks. En este caso sale significativo, por lo que podemos decir que existen diferencias multivariantes o globales significativas con las variables seleccionadas.

Pruebas de los efectos inter-sujetos

8,412a 3 2,804 3,181 ,026

13,468b 3 4,489 4,371 ,005

24,093c 3 8,031 5,771 ,001

16,408d 3 5,469 3,857 ,011

11,836e 3 3,945 3,934 ,010

2201,840 1 2201,840 2498,006 ,000

1138,098 1 1138,098 1108,170 ,000

1204,498 1 1204,498 865,585 ,000

1211,868 1 1211,868 854,661 ,000

761,240 1 761,240 759,119 ,000

8,412 3 2,804 3,181 ,026

13,468 3 4,489 4,371 ,005

24,093 3 8,031 5,771 ,001

16,408 3 5,469 3,857 ,011

11,836 3 3,945 3,934 ,010

139,267 158 ,881

162,267 158 1,027

219,864 158 1,392

224,036 158 1,418

158,441 158 1,003

2490,000 162

1499,000 162

1625,000 162

1558,000 162

957,000 162

147,679 161

175,735 161

243,957 161

240,444 161

170,278 161

Variable dependienteEPU_OBSO

LIBERAL

EMPR_CRE

BEN_OBJ1

MARK_NEC

EPU_OBSO

LIBERAL

EMPR_CRE

BEN_OBJ1

MARK_NEC

EPU_OBSO

LIBERAL

EMPR_CRE

BEN_OBJ1

MARK_NEC

EPU_OBSO

LIBERAL

EMPR_CRE

BEN_OBJ1

MARK_NEC

EPU_OBSO

LIBERAL

EMPR_CRE

BEN_OBJ1

MARK_NEC

EPU_OBSO

LIBERAL

EMPR_CRE

BEN_OBJ1

MARK_NEC

FuenteModelo corregido

Intercept

PROMOC_A

Error

Total

Total corregida

Suma decuadrados

tipo III glMedia

cuadrática F Significación

R cuadrado = ,057 (R cuadrado corregida = ,039)a.

R cuadrado = ,077 (R cuadrado corregida = ,059)b.

R cuadrado = ,099 (R cuadrado corregida = ,082)c.

R cuadrado = ,068 (R cuadrado corregida = ,051)d.

R cuadrado = ,070 (R cuadrado corregida = ,052)e.

MANOVA_1

Mod lineal general multivariante

Opciones:

Resultados:

Prueba de Box sobre la igualdad de las matrices de covarianza(a)M de Box 276,347F 5,958gl1 40gl2 1141,882Significación ,000

Contrasta la hipótesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos.a Diseño: Intercept+EDUCAC

Tenemos que mencionar y justificar teóricamente porqué nos ha salido significativo.

Ahora vamos a realizar un Análisis Discriminante, por lo que tenemos que invertir las VI y las VD.

Primero tenemos que cambiar esta variable a numérica: nivel de educación. En rango ponemos mínimo 1 y máximo 4.

Y en estadísticos seleccionamos ANOVA y M de Box. Aceptar

Tenemos 3 funciones discriminantes pero solo la primera ha salido significativa. Y antes de Box tenemos una tabla que ofrece ex univariante. Hemos obtenido la misma información que el MANOVA.


Lambda de

Wilks F gl1 gl2 Sig.Edad (años) ,995 1,454 3 841 ,226Renta anual (en mil) ,959 12,115 3 841 ,000Deuda de tarjeta de credito ,986 4,105 3 841 ,007

Otras deudas ,971 8,268 3 841 ,000

MANOVA_2

Fc fijo: Fumador o no.Variables dependientes: las de actitudes (4 variables).

M de box no significativo cumple supuestoLa VI es fumador o no, lambda de wilks ha salido 0,142, no significativo, por lo que no hay diferencias multivariantes. No son interesa el análisis posterior.

Ahora cambiamos los factores fijos y ponemos sexo porque nos interesa saber si hay diferencias entre hombres y mujeres. Nos sale 0,885 por lo que ya nonos interesa.

Cambiamos otra vez fc fijos para saber si hay diferencias globales en los distintos grupos de clase social. M de box cumple el supuesto específico. Wilks sale 0,082 si tenemos suficiente material bibliográfico para sostener la hipótesis pues la aceptamos. Pero si es un estudio exploratorio, rechazamos de fijo. No se puede generalizar.

Prueba de Box sobre la igualdad de las matrices de covarianza(a)M de Box 20,067F 1,369gl1 10gl2 937,052Significación ,190

Contrasta la hipótesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos.a Diseño: Intercept+CLASESOC

Contrastes multivariados(d)

Efecto Valor FGl de la hipótesis Gl del error Significación

Parámetro de no centralidad

Potencia observada(a

)Intercept Traza de Pillai ,927 44,621(b) 4,000 14,000 ,000 178,486 1,000 Lambda de

Wilks,073 44,621(b) 4,000 14,000 ,000 178,486 1,000

Traza de Hotelling

12,749 44,621(b) 4,000 14,000 ,000 178,486 1,000

Raíz mayor de Roy

12,749 44,621(b) 4,000 14,000 ,000 178,486 1,000

CLASESOC Traza de Pillai ,606 1,630 8,000 30,000 ,158 13,040 ,600 Lambda de

Wilks,408 1,978(b) 8,000 28,000 ,087 15,820 ,694

Traza de Hotelling

1,414 2,298 8,000 26,000 ,052 18,387 ,762

Raíz mayor de Roy

1,389 5,210(c) 4,000 15,000 ,008 20,840 ,895

a Calculado con alfa = ,05b Estadístico exactoc El estadístico es un límite superior para la F el cual ofrece un límite inferior para el nivel de significación.d Diseño: Intercept+CLASESOC

MANOVA_3

Como variables dependientes. Luego elegimos 2 VI (categóricas): Tenemos que reconstruir el análisis de las fotocopias del profesor shintaro.

Prueba de Box sobre la igualdad de las matrices de covarianza(a)M de Box 66,430F ,944gl1 60gl2 5107,970Significación ,598

Contrasta la hipótesis nula de que las matrices de covarianza observadas de las variables dependientes son iguales en todos los grupos.a Diseño: Intercept+EDAD+TRABAJA+EDAD * TRABAJA

Cumple el supuesto.

Contrastes multivariados(d)a Calculado con alfa = ,05b Estadístico exactoc El estadístico es un límite superior para la F el cual ofrece un límite inferior para el nivel de significación.d Diseño: Intercept+EDAD+TRABAJA+EDAD * TRABAJA

Si utilizamos el MANOVA con dos fc fijos la interpretación es muy complicada a no ser que busquemos alguna interacción muy específica. Por lo que no es conveniente usar con dos Fc fijos.*** Interacciones entre análisis cluster y MANOVA: MANOVA_4

Para análisis discriminante

Para MANOVA

Ejercicio 7

1. ¿Por qué se usa el MANOVA en vez del ANOVA?

2. ¿Cuáles son las diferencias entre MANOVA y el análisis discriminante? ¿Qué situaciones se adecuan a cada técnica multivariante?

3. ¿Cómo se pueden valorar las diferencias multivariantes en el MANOVA? ¿Cuántos criterios se aplican? ¿Cuál es el criterio más usado y conocido?

4. Mencione los supuestos específicos del MANOVA.

5. La base de datos “MANOVA 3” de la página Web trata de una investigación comercial sobre actitudes hacia la empresa y los sistemas económicos de los estudiantes de la Universidad de Alcalá. Efectúa el MANOVA con las siguientes variables y explica qué tipo de información se debe obtener para el estudio.

Variables dependientes (métricas; sólo cinco):

EPU-OBSO: La empresa pública puede cumplir los objetivos sociales mejor que la privada.

LIBERAL: El liberalismo es la mejor doctrina económica. EMPR_CRE: El empresario debe ser admirado por la sociedad porque crea riqueza. BEN_OBJ1: El beneficio debe ser el primer objetivo de la empresa. MARK_NEC: El marketing es solo un método para vender más, creando necesidades

aparentes.

Variable independiente (no métrica) PROMOC_A: Tercera (81/82), Cuarta (82/83), Quinta (83/84), y Sexta

(84/85).

6. Se realizó una investigación acerca de las percepciones hacia el tabaquismo con 80 muestras de la Universidad Autónoma de Madrid. Se examinaron estudiantes de tres carreras distintas: Administración y Dirección de Empresas, Derecho y Bioquímica. Se plantearon las siguientes preguntas: (1) Fumar perjudica la salud; (2) No debe permitirse fumar en lugares públicos; (3) Deben aumentarse los impuestos sobre el tabaco, y (4) Debe intensificarse la información sobre los efectos del tabaco en la salud. Sobre la base de la revisión bibliográfica, se planteó la siguiente hipótesis principal:H1: Existen diferencias significativas globales en dichas percepciones sobre los efectos de tabaquismo generales.

Nuestra proposición es que los estudiantes de ciencias tienden a señalar actitudes más negativas contra el tabaquismo. Tras efectuar el MANOVA con SPSS, se obtuvieron las siguientes salidas. Haga su interpretación sobre dichas salidas y concluya el estudio.

(Nota: se omitió “Potencia observada”.)

Contrastes multivariados(c)


Carrera universitaria

Traza de Pillai ,606 1,630 8,000 30,000 ,158Lambda de Wilks

,408 1,978 8,000 28,000 ,087

Traza de Hotelling

1,414 2,298 8,000 26,000 ,052

Raíz mayor de Roy

1,389 5,210 4,000 15,000 ,008

1. ¿Por qué se usa el MANOVA en vez del ANOVA?

Por que se trata de estudiar la varianza de múltiples variables dependientes métricas. El MANOVA es la extensión multivariante de las técnicas univariantes y sirve para valorar las diferentas entre las medias de varios grupos con múltiples variables.

No podemos saber si existen diferencias globales o diferencias multivariantes o efectos combinados. Cuando queremos examinar las medias de múltiples variables métricas dependientes podríamos aplicar al ANOVA varias veces a cada una de las variables por separado. Sin embargo la repetición del ANOVA hincha el error de tipo I. Además las múltiples ANOVAs no pueden detectar las correlaciones entre las variables métricas dependientes. El MANOVA evita el aumento del error de tipo I y al mismo tiempo permite identificar las diferencias multivariantes respecto a múltiples variables.

2. ¿Cuáles son las diferencias entre MANOVA y el análisis discriminante? ¿Qué situaciones se adecuan a cada técnica multivariante?

Las diferencias entre el MANOVA y el AD se centran alrededor de los objetivos de los análisis y del papel de las variables no métricas.

Las diferencias entre el MANOVA y el AD se centran alrededor de los análisis y el papel de las variables no métricas. El AD emplea una variable no métrica como variable dependiente. Se supone que las categorías de la variable dependiente están dadas y que se utilizan las variables independientes para formar valores teóricos que son diferentes de manera máxima entre los grupos formados por las categorías de la variable dependiente. En el MANOVA por el contrario la serie de variables métricas actúan ahora como variables dependientes y el objetivo es encontrar grupos de encuestados que exhiben diferencias sobre la serie de variables dependientes. Los grupos de encuestados no son especificados previamente, en su lugar el investigador utiliza una o más variables independientes (no métricas) para formar grupos.

Ambas técnicas son complementarias. Tras realizar el MANOVA conseguimos datos estadísticos pero para conocer que variable contribuye a las diferencias multivariantes realizaremos un AD.

3. ¿Cómo se pueden valorar las diferencias multivariantes en el MANOVA? ¿Cuántos criterios se aplican? ¿Cuál es el criterio más usado y conocido?

El MANOVA detecta diferencias combinados que no se encuentran con los contrastes univariantes. Existen cuatro criterios muy conocidos con los que valorar las diferencias multivariantes entre los grupos: la mayor raíz característica de Roy, la traza de Hotelling, el lambda de Wilks, y el criterio Pillai. Estos criterios valoran las diferencias entre dimensiones de las variables dependientes. El contraste mas comúnmente empleado para la significación global del MANOVA es el lambda de Wilks. Este examen estadístico considera todas las raíces características es decir compara si los grupos son de algún modo diferente sin estar afectados por el hecho de que los grupos difieran en al menos una combinación lineal de las variables dependientes.

4. Mencione los supuestos específicos del MANOVA.

Supuestos Generales:

Linealidad. El conjunto de las p variables dependientes debe seguir una distribución normal multivariante (en la práctica, este supuesto NO se puede comprobar con SPSS, por ello se debe asegurar que cualquier combinación de las variables dependientes siguen una distribución normal).

Supuestos específicos:

Las observaciones deben ser independientes. Las matrices de varianzas-covarianzas deben ser iguales para todos los grupos do tratamiento (M de Box > 0,03, es decir no significativo; en SPSS: Opciones pruebas de homogeneidad). La ausencia de la multicolinealidad.

5. La base de datos “MANOVA 3” de la página Web trata de una investigación comercial sobre actitudes hacia la empresa y los sistemas económicos de los estudiantes de la Universidad de Alcalá. Efectúa el MANOVA con las siguientes variables y explica qué tipo de información se debe obtener para el estudio.

Variables dependientes (métricas; sólo cinco): EPU-OBSO: La empresa pública puede cumplir los objetivos sociales mejor que

la privada. LIBERAL: El liberalismo es la mejor doctrina económica. EMPR_CRE: El empresario debe ser admirado por la sociedad porque crea

riqueza. BEN_OBJ1: El beneficio debe ser el primer objetivo de la empresa. MARK_NEC: El marketing es solo un método para vender más, creando

necesidades aparentes.

Variable independiente (no métrica) PROMOC_A: Tercera (81/82), Cuarta (82/83), Quinta (83/84), y Sexta

(84/85).

Al realizar mediante el M de Box nos sale 0,016<0,05 por lo que no ha cumplido el supuesto de igualdad y tenemos que parar el análisis.

6. Se realizó una investigación acerca de las percepciones hacia el tabaquismo con 80 muestras de la Universidad Autónoma de Madrid. Se examinaron estudiantes de tres carreras distintas: Administración y Dirección de Empresas, Derecho y Bioquímica. Se plantearon las siguientes preguntas: (1) Fumar perjudica la salud; (2) No debe permitirse fumar en lugares públicos; (3) Deben aumentarse los impuestos sobre el tabaco, y (4) Debe intensificarse la información sobre los efectos del tabaco en la salud. Sobre la base de la revisión bibliográfica, se planteó la siguiente hipótesis principal:H1: Existen diferencias significativas globales en dichas percepciones sobre los efectos de tabaquismo generales.

Nuestra proposición es que los estudiantes de ciencias tienden a señalar actitudes más negativas contra el tabaquismo. Tras efectuar el MANOVA con SPSS, se obtuvieron las siguientes salidas. Haga su interpretación sobre dichas salidas y concluya el estudio.(Nota: se omitió “Potencia observada”.)

Contrastes multivariados(c)


Carrera universitaria

Traza de Pillai ,606 1,630 8,000 30,000 ,158Lambda de Wilks

,408 1,978 8,000 28,000 ,087

Traza de Hotelling

1,414 2,298 8,000 26,000 ,052

Raíz mayor de Roy

1,389 5,210 4,000 15,000 ,008

Empleando el lambda de Wilks como criterio multivariante pare considerar todas las raíces características de las variables dependientes (métricas) el MANOVA detectar diferencias globales de las variables dependientes (métricas), el MANOVA detecte diferencias globales entre las distintas carreras universitarias al nivel de 0,087. Se considera aceptable establecer el nivel de significación en 0,10 debido a que se trata de un estudio con carácter exploratorio. Teniendo en cuenta el hecho de que la hipótesis o proposición fundamental es que distintas cameras universitarias exhibirían diferencias sobre los efectos del tabaquismo, se concluye que existen diferencias globales entre las distintas carreras universitarias sobre las percepciones del tabaquismo.

(Lambda de wills 0,08> 10,10. Es significativo. Cumple la hipótesis de que existen diferencias significativas en la percepción negativa del tabaco entre alumnos de carreras diferentes.)

Pruebas de los efectos inter-sujetos

Fuente Variable dependiente

Suma de cuadrados

tipo III glMedia

cuadrática F SignificaciónCarrera universitaria

'Fumar perjudica la salud'13,075 2 6,538 7,868 ,004

'No debe permitirse fumar en lugares públicos'

5,875 2 2,938 2,794 ,089

'Deben aumentarse los impuestos sobre el tabaco'

5,875 2 2,938 2,513 ,111

'Debe intensificarse la información sobre los efectos del tabaco en la salud'

,800 2 ,400 ,313 ,736

Existen diferencias significativas en la percepción de los alumnos de las cuatro carreras citadas en cuanto a considerar que fumar perjudica la salud y que no debe permitirse fumar en lugares públicos. Sin embargo no existen diferencias significativas en las otras variables independientes en función de la pertenencia a una carrera de ciencias sociales o científicas.

Los contrastes F multivariantes para cada variable dependiente (métricas por separado detectaron diferencias significativas univariantes con un nivel de significación de 0,10 solo para "Fumar perjudica la salud" y "no debe permitirse fumar el lugares públicos", mientras no identifica ninguna diferencia significativa para "debe aumentarse los impuesto sobre el tabaco" y "debe intensificarse la información sobre los efectos del tabaco en la salud". De ello se puede concluir que las diferencias globales se atribuyen a las diferencias univariantes sobre dichas dos preguntas y 2- los efectos combinados de las cuatro variables dependientes (métricas). Se necesita no sólo examinar las medias para cada par de grupos para conocer si efectivamente los estudiantes de la carrera de bioquímica muestran una percepción más fuerte contra el tabaquismo.

Sin embargo el presente estudio debe considerarse con un carácter exploratorio debido al tamaño muestral relativamente pequeño, los resultados del estudio no deben generalizarse. Se necesitara una investigación futura con un mayor número de muestras para obtener conclusiones definitivas.

TEMA 9: LA REGRESIÓN LOGÍSTICA (MODELO LOGIT)

Estructura de la clase:1. Introducción.2. Objetivo de la RL.3. Modelo de la RL.4. Diseño del estudio con la RL. 5. Medición de la variable dependiente.6. Estimación del modelo.7. Supuestos básicos de la RL. 8. Bondad de ajuste.9. Interpretación de los resultados.10. Comparación de los modelos: regresión, discriminante y

logit.11. Casos prácticos con SPSS.

Introducción.

¿Qué características del estilo de vida son factores de riesgo de enfermedad cardiovascular? Dada una muestra de pacientes a los que se mide la situación de fumador, dieta, ejercicio, consumo de alcohol, y estado de enfermedad cardiovascular, se puede construir un modelo utilizando las cuatro variables de estilo de vida para predecir la presencia o ausencia de enfermedad cardiovascular en una muestra de pacientes. El modelo puede utilizarse posteriormente para derivar estimaciones de la razón de las ventajas para cada uno de los factores y así indicarle, por ejemplo, cuánto más probable es que los fumadores desarrollen una enfermedad cardiovascular frente a los no fumadores.

Objetivo de la RL.

El objetivo de la RL es (estimar un modelo de dependencia en el que la variable dependiente es cualitativa y binaria mediante una función logística. Buscamos una combinación lineal entre las variable dependiente e independiente. La variable dependiente ha de ser binaria).

Modelo de la RL.

Diseño del estudio con la RL.

1. Objetivos2. Seleccionar variable dependiente (categórica) e independientes

(métricas, también se puede utilizar variables categóricas).3. Supuestos del análisis4. Estimación del modelo de regresión logística y valoración del

ajuste global5. Interpretación y bondad de ajuste6. Validación de los resultados

Podemos cambiar el orden de los pasos para realizar el análisis, realizar primer el 4, después el 3 y luego el 2. También sería válido.

En la RM intentamos minimizar la suma de los residuos, pero en el LOGIT, no utilizamos este concepto, porque no cumple la linealidad. En vez de utilizar el concepto de residuo, utilizamos el concepto de Chi-cuadrado.

Medición de la variable dependiente.

- En el logit, se predice la probabilidad de ocurrencia. Por ejemplo, si utiliza un determinado producto de limpieza,…

- variable no métricaa) dicotómicab) multicotómica: logit multinominal

Estimación del modelo.

- Variables independientes: categóricas o métricas.- Categóricas: se transforman en ficticias.- Estimación por máxima probabilidad: estimadores más probables

para los coeficientes (no minimización de suma de cuadrados, sino maximización de probabilidad de ocurrencia de un suceso).

Supuestos básicos de la RL.

Tienen que cumplir los siguientes supuestos:- Robustez del modelo de la RL. Es muy flexible y poderoso.- Menos restrictivo que el AD (normalidad y homocedasticidad), si no

cumple estos supuestos podemos utilizar el Logit.- La RL es adecuada cuando no se cumple el supuesto de igualdad de

las matrices de varianzas-covarianzas entre grupos.

Bondad de ajuste.

a) -2LL (logaritmo de la probabilidad):

0: ajuste perfecto (probabilidad 1).Cuanto mayor sea peor es el ajuste

En RM buscamos un coeficiente de determinación mucho mejor. En Logit, nos centramos en el valor del logaritmo de la probabilidad, si el valor es 0 el ajuste es perfecto.

b) Valor de Hosmer y Lameshow:Un valor Chi-cuadrado no significativo indica un buen ajuste del modelo. Con esto comparamos el modelo real y el modelo predicho (si son iguales será significativo).

c) R2 de Nagelkerke:

0: ajuste malo1: ajuste perfecto

d) Coeficiente estadístico de Wald

Interpretación de los resultados.

Resumen de los modelos

Paso-2 log de la

verosimilitudR cuadrado de

Cox y SnellR cuadrado de

Nagelkerke1 48.538(a) .143 .217

a La estimación ha finalizado en el número de iteración 5 porque las estimaciones delos parámetros han cambiado en menos de .001.

Nos interesa el R cuadrado de Nagelkerke, este es análogo al coeficiente de determinación de la RM. Estos valores varían entre 0 y 1.

Prueba de Hosmer y Lemeshow

Paso Chi-cuadrado gl Sig.1 12.132 8 .145

Esta prueba indica el valor de chi cuadrado, con ella detectamos diferencias significativas. Si sale significativo es incorrecto, porque el modelo tiene que ser parecido al modelo real, por lo que debe salir no significativo, serían muy parecidos. No existe ninguna diferencia significativa.En los datos podemos ver como es no significativo 0,145.

Tabla de clasificación(a)

Observado Pronosticado

q21Porcentaje

correcto.00 1.00Paso 1 q21 .00 40 1 97.6

1.00 10 2 16.7

Porcentaje global 79.2

a El valor de corte es .500

Esta tabla es similar a la tabla de clasificación del AD, matriz de confusión o clasificación. Este es uno de los objetivos principales del AD.Los valores a la derecha de q21 determinan la presencia o no de un determinado fenómeno, es la variable dependiente. El 40% de la muestra está clasificada correctamente como no fumador (por ej). Sin embargo la clasificación de presencia de fumador está clasificado por un 16.7%

Variables en la ecuación

B E.T. Wald gl Sig. Exp(B)

I.C. 95.0% para EXP(B)

Inferior SuperiorPaso 1(a) Q1 -.484 .487 .988 1 .320 .616 .237 1.601

Q2 .144 .566 .065 1 .799 1.155 .381 3.500

Q3 1.060 .532 3.966 1 .046 2.888 1.017 8.200

Q6 -.262 .458 .327 1 .568 .770 .314 1.888

Q7 -.493 .444 1.232 1 .267 .611 .256 1.458

Q13 .273 .502 .295 1 .587 1.313 .491 3.511

Constante -1.842 2.092 .775 1 .379 .159

a Variable(s) introducida(s) en el paso 1: Q1, Q2, Q3, Q6, Q7, Q13.

En este caso hemos utilizado la estimación conjunta por lo que hemos metido todas las variables a la vez.

El examen estadístico en esta tabla más importante es el test de Wald. Mediante este examen estadístico, podemos incluir o eliminar las variables independientes. Este test, es análogo al de la t de Student. En RM se utiliza para averiguar si la variable contribuye significativamente al modelo.

En este caso sólo la variable q3 ha salido significativa aplicando un nivel de significación de 0.05.

INTERPRETACIÓN

Coeficientes negativos: Indican baja probabilidad de ocurrencia.Coeficientes cero: no hay ninguna influencia, es decir, no hay cambio en el ratio.Coeficientes positivos: alta probabilidad de ocurrencia.

Para la interpretación del modelo logit hay que tener en cuenta estos coeficientes beta.

ETAPAS: DISEÑO DE UN MODELO LOGIT

Definición del problema:Objetivos: relación entre variables

Si no cumple el mínimo tamaño muestral por variable hay que comentarlo en el trabajo. Deberíamos tener 15 o 20 observaciones por variable.Si no se puede generalizar, también hay que incluirlo en el trabajo. Así como recomendaciones para futuras investigaciones.

Comparación de los modelos: regresión, discriminante y logit.

Diapositiva gráficos

En la RM, buscamos una combinación lineal entre las variables métricas dependientes e independientes. Si utilizamos una variable dicotómica en la RM, no cumple la linealidad. Como esto no es válido.

Buscamos la posibilidad en el RL o logit. Aquí buscamos la probabilidad máxima entre los valores 0 y 1.

En AD, buscamos si las medias son distintas. Si no cumple la normalidad no podemos utilizar esta técnica, al igual que ocurre con la homocedasticidad. Por lo que buscamos la solución en la Logística.

Hay que seleccionar Regresión logística binaria. Luego insertamos las variables de estudio.

Casos prácticos con SPSS.

11.1 Casos prácticos con SPSS.

Variable dicotómica que usaremos como dependiente

La primera tabla a la que prestaremos atención es la Tabla de Clasificación

Regresión logística

Resumen del procesamiento de los casos

70 100,0

0 ,0

70 100,0

0 ,0

70 100,0

Casos no ponderadosa

Incluidos en el análisis

Casos perdidos

Total

Casos seleccionados

Casos no seleccionados

Total

N Porcentaje

Si está activada la ponderación, consulte la tabla de clasificación paraver el número total de casos.

a.

Codificación de la variable dependiente

0

1

Valor originalNo

Yes

Valor interno

Para mirar el efecto interacción de las dos variables. Se introduce pulsando control y seleccionando ambas variables

Bloque 0: Bloque inicial

Bloque 0 significa que es el análisis previo antes de meter las variables predoctoras. Solo tenemos en cuenta el valor constante. No consideramos variables predictoras.

Tabla de clasificacióna,b

0 29 ,0

0 41 100,0

58,6

ObservadoNo

Yes

El respeto esimportante.

Porcentaje global

Paso 0No Yes

El respeto esimportante. Porcentaje

correcto

Pronosticado

En el modelo se incluye una constante.a.

El valor de corte es ,500b.

No hay ninguna persona que haya contestado NO. Se han clasificado como si todos contestaran SI. Esto es porque es el paso previo o paso inicial.

100% clasificados a “SI”.


,346 ,243 2,037 1 ,154 1,414ConstantePaso 0B E.T. Wald gl Sig. Exp(B)

Paso 0 porque solo consideramos el valor constante. No consideramos variables predictoras.

El coeficiente de Wald, tiene un grado de sig. 0.154. El modelo no tiene significación estadística.Si el nivel de significación en el bloque 0 es significativo, entonces el modelo no vale, ya que hay un sesgo en los datos.Si el nivel de significación nos saliera 1,000 también tendríamos que preocuparnos, ya que probablemente existiría sesgo.

La siguiente Tabla es importante:

Variables que no están en la ecuación

26,086 1 ,000

24,617 1 ,000

27,778 1 ,000

36,111 3 ,000

EDAD

NORESP

EDAD by NORESP

Variables

Estadísticos globales

Paso0

Puntuación gl Sig.

Son las variables no incluidas en la ecuación.La puntuación es la de la Chi-cuadrado, pero lo más importante es la significación. No salen significativos, todas podrían incluirse en la ecuación, pero aun no están incluidas.

En el siguiente bloque meteremos todas las variables, para ver si el modelo predice correctamente.

Bloque 1: Método = Introducir

Pruebas omnibus sobre los coeficientes del modelo

42,892 3 ,000

42,892 3 ,000

42,892 3 ,000

Paso

Bloque

Modelo

Paso 1Chi-cuadrado gl Sig.

Hay tres líneas (Paso, Bloque, Modelo). Esto significa distintos métodos de estimación. Como nosotros hemos realizado la estimación conjunta, solo observaremos la última fila “Modelo” con las variables predictoras.

(Paso seria estimación por pasos; Bloque seria estimación por Bloque. No la estudiaremos este año)

El modelo tiene contribución significativa (Sig. = 0,000)

Resumen de los modelos

52,081a ,458 ,617Paso1

-2 log de laverosimilitud

R cuadradode Cox y Snell

R cuadradode

Nagelkerke

La estimación ha finalizado en el número deiteración 6 porque las estimaciones de losparámetros han cambiado en menos de ,001.

a.

2 NL (-2 log de la verosimilitud indica el nivel de ajuste global)

Nos fijaremos en el valor de el R cuadrado de Nagelkerke.Varía entre 0 y 1, como vale 0’617, parece que el valor esta bien. Es análogo al coeficiente de determinación de la regresión múltiple. (Es el mejor índice para ver)

Prueba de Hosmer y Lemeshow

6,357 8 ,607Paso1

Chi-cuadrado gl Sig.

Es una prueba de la Chi cuadrado, fundamentalmente. Ha salido 0,607. Eso esta bien, ya que ha salido no significativo.Esta prueba tiene que ser no significativa, ya que hay que aceptar la hipótesis nula de que fenómeno real y modelo predicho son iguales.

Si sale significativo hay que rechazar la hipótesis nula.

Tabla de contingencias para la prueba de Hosmer y Lemeshow

7 6,526 0 ,474 7

7 6,259 0 ,741 7

5 5,780 2 1,220 7

3 4,477 4 2,523 7

4 2,873 4 5,127 8

2 1,509 5 5,491 7

0 ,861 7 6,139 7

1 ,414 6 6,586 7

0 ,213 7 6,787 7

0 ,087 6 5,913 6

1

2

3

4

5

6

7

8

9

10

Paso1

Observado Esperado

El respeto esimportante. = No

Observado Esperado

El respeto esimportante. = Yes

Total

En este caso no tiene importancia la tabla de contingencias para la prueba de Hosmer y Lemeshow

Tabla de clasificacióna

22 7 75,9

5 36 87,8

82,9

ObservadoNo

Yes


Porcentaje global

Paso 1No Yes

El respeto esimportante. Porcentaje

correcto

Pronosticado

El valor de corte es ,500a.

Recordemos que en el Análisis Discriminante usamos el mismo concepto (Matriz de confusión). El objetivo es el mismo, pero teniendo variable dicotómica.


,106 ,041 6,733 1 ,009 1,112

3,324 2,387 1,939 1 ,164 27,767

-,028 ,054 ,258 1 ,611 ,973

-5,414 1,775 9,308 1 ,002 ,004

EDAD

NORESP

EDAD by NORESP

Constante

Paso1

a

B E.T. Wald gl Sig. Exp(B)

Variable(s) introducida(s) en el paso 1: EDAD, NORESP, EDAD * NORESP .a.

Con esta tabla podemos decir que la variable edad ha salido significativa, mientras que la tercera variable, no respeto, no tiene significación estadística. Tanto la interacción edad con la tercera variable. Por tanto podemos concluir que solo podemos incluir la variable edad en la ecuación.

Listado por casosb

S N** ,946 Y -,946 -4,175Caso60

Estado deseleccióna


Observado

PronosticadoGrupo

pronosticado Resid ZResid

Variable temporal

S = Seleccionados, N = Casos no seleccionados y ** = Casos mal clasificados.a.

Se listan los casos con residuos estudentizados mayores que 2,000.b.

Vamos a predecir si el individuo es fumador o fumadora en función de otras variables

Ejercicio 9

1. ¿Cuándo emplearía la RL en lugar del AD? ¿Cuáles son las ventajas y desventajas de esta decisión?

2. ¿Cuál es la medida global del nivel de ajuste del modelo logit? ¿Cómo se evalúa?

3. En la RL, ¿cómo se mide la significación estadística para cada coeficiente estimado de la ecuación?

4. Define los siguientes términos y explica para qué sirven en el proceso del análisis de los resultados: el valor de Hosmer y Lameshow y la R² de Nagelkerke.

1. ¿Cuándo emplearía la RL en lugar del AD? ¿Cuáles son las ventajas y desventajas de esta decisión?

La RL se puede usar en vez del AD cuando no cumple la linealidad, pero la más importante es cuando tenemos una variable dicotómica como variable dependiente, ya que muchas veces no se cumple la linealidad.

El AD es apropiado cuando la variable dependiente es no métrica. Sin embargo, cuando la variable dependiente tiene sólo dos grupos, puede ser preferible la RL por los siguientes motivos.

1. no se cumplen los supuestos de normalidad multivariante, la linealidad y la igualdad de matrices de varianza-covarianza entre grupos.

2. los resultados obtenidos son muy parecida a los de la regresión múltiple y cuenta con contrastes estadísticos directos, por lo que existe la capacidad para incorporar efectos no lineales y permitir una amplia variedad de diagnósticos.

3. existe una variable dicotómica como variable dependiente

2. ¿Cuál es la medida global del nivel de ajuste del modelo logit? ¿Cómo se evalúa?

El término modelo de logit es el mismo que la regresión logística. La medida global de la RL viene dada por el valor de la verosimilitud, que se representa por -2 LL (-2 veces el logaritmo de la verosimilitud). Un modelo con un buen ajuste tendrá un valor pequeño, siendo el valor mínimo de -2LL cero (un ajuste perfecto), cuanto mayor sea el valor peor es el ajuste.

3. En la RL, ¿cómo se mide la significación estadística para cada coeficiente estimado de la ecuación?

En la regresión múltiple, el valor de la t se utiliza para valorar la significatividad de cada coeficiente. La RL utiliza un estadístico diferente, el estadístico de Wald, que proporciona la significación estadística para cada coeficiente estimado de tal forma que se puede contrastar la hipótesis de que un coeficiente sea distinto de cero. Si el valor de Wald es estadísticamente significativo, se incluye dicho coeficiente en la ecuación, y si no, se excluye.

4. Define los siguientes términos y explica para qué sirven en el proceso del análisis de los resultados: el valor de Hosmer y Lameshow y la R² de Nagelkerke.

1. Valor de Hosmer y Lameshow: mide la correspondencia de los valores reales y predichos de la variable dependiente, y se expresa con el valor de chi-cuadrado. Por ello, un valor chi-cuadrado no significativo indica un buen ajuste del modelo. Tiene que salir no significativo porque la hipótesis nula es que son iguales y no queremos rechazarla.

2. R² de Nagelkerke: es comparable con el coeficiente de determinación de la RM que indica con los mayores valores un mejor ajuste del modelo. Varía entre 0 y 1.

5. Interpreta la siguiente tabla:

Tabla de clasificación(a)

Observado Pronosticado

F1Porcentaje

correcto 1 2Paso 1 F1 1 258 79 76,6

2 114 161 58,5Porcentaje global 68,5

a El valor de corte es ,500

Es análoga a la matriz de confusión del análisis discriminante. Esta tabla de clasificación indica cómo de bien se predice la pertenencia a los grupos. Según la información de la tabla, el modelo logia correctamente clasifica 258 hombres, pero erróneamente 79 hombres, por lo tanto un 76,6% de los casos son correctamente clasificados. Respecto a las

mujeres, el modelo clasifica 161 casos pero erróneamente 114 casos, por ello, la tasa de clasificación correcta para las mujeres es un 58,5%. Desde una perspectiva global, un 68,5% de todos los casos están correctamente clasificados.